Author: Дмитриев Е.А.
Tags: почвоведение почвенные исследования теория вероятностей и математическая статистика теория вероятностей математическая статистика комбинаторный анализ теория графов математика статистика
ISBN: 5-211-02930-5
Year: 1995
Е.А.Дмитриев
Математическая
статистика
в почвоведении
Е. А. ДМИТРИЕВ
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
В ПОЧВОВЕДЕНИИ
Научный редактор
доктор физ.-мат. наук
Ю. Н. Благовещенский
Рекомендовано Государственным комитетом
Российской Федерации по высшему образованию
в качестве учебника для студентов высших учебных
заведений, обучающихся по направлению
"Почвоведение"
Издательство Московского университета
1995
ББК 22.172
Д53
УДК 631.4:519.240
Рецензенты:
кафедра математической статистики факультета
вычислительной математики и кибернетики МГУ
(заведующий кафедрой академик РАН Ю. В. Прохоров);
доктор физико-математичеких наук Л. Д. Мешалкин
Федеральная целевая программа книгоиздания России
Дмитриев Е. А.
Д53 Математическая статистика в почвоведении: Учебник. - М.:
Изд-во МГУ, 1995.- 320 с: ил.
ISBN 5-211-02930-5
В учебнике даются основные понятия теории вероятностей и
математической статистики, описывается техника нахождения статистических оценок и
различные методы статистического анализа результатов экспериментальных
исследований, включая дисперсионный, корреляционный, регрессионный. Особое
внимание уделяется методологии использования статистики и' интерпретации
результатов анализа на примерах из почвоведения и агрохимии. Рассмотрена
техника вычислений. В Приложении даны справочные статистические таблицы.
Для студентов почвоведов и агрохимиков.
_ 1602090000D309000000)-05(> пе ww *~
J\ — 11 — 95 bbKzz.l/i
077@2)-95
ISBN 5-211-02930-5 © Дмитриев Е.А., 1995
Памяти Николая Александровича
Плохинского посвящается
ПРЕДИСЛОВИЕ
Со времени выхода из печати пособия "Математическая
статистика в почвоведении" A972) многое изменилось и в самом
почвоведении, и в использовании почвоведами математических методов, и в
техническом оснащении вычислительных работ. Это не могло не
вызвать необходимости радикальной перестройки изложения курса,
особенно с учетом того, что широкое использование калькуляторов
и ЭВМ привело к известному разрыву между технической
возможностью проведения статистических расчетов, с одной стороны, и
явно недостаточным пониманием необходимости и допустимости
самих вычислений, умением грамотно интерпретировать полученные
результаты - с другой, По этой причине в настоящем учебнике
наряду с изложением основ математической статистики и теории
вероятностей и описанием методов статистического анализа и
техники вычислений особое внимание уделено методологии
использования статистических методов в почвоведении.
Автор постарался учесть все пожелания и замечания,
высказанные как в отношении ранее опубликованного пособия, так и по
программе курса "Математические методы в почвоведении с основами
вычислительной техники" и рукописи настоящего учебника,
написанного согласно этой программе.
Автор искренне признателен проф. В.В. Налимову и сотрудникам
бывшей лаборатории статистических методов МГУ B.C. Дуженко,
А.П. Кириенко, Н.Г. Микешиной и Е.Г. Угер, оказавшим
неоценимую помощь на самом трудном адаптационном этапе внедрения
методов математической статистики в область почвоведения, проф.
И.А. Крупенникову и канд. биол. наук Т.Б. Махлину за рецензию на
ранее опубликованное пособие, зав. кафедрой почвоведения
Иркутского университета А.Г. Сазонову, рецензировавшему
программу курса.
Автор весьма признателен рецензентам настоящего учебника
доктору физ.-мат. наук Л.Д. Мешалкину, а также кандидатам
физ.-мат. наук А.Д. Кузьмину и В.И. Пагуровой и другим
сотрудникам кафедры математической статистики факультета
вычислительной математики и кибернетики МГУ, руководимой академиком
Ю.В. Прохоровым, проявившим интерес к этой книге и сделавшим
немало замечаний, которые автор в меру своих сил и возможностей
постарался учесть.
Особую признательность автор хотел бы выразить
доктору физ.-мат. наук Ю.Н. Благовещенскому, взявшему на себя
труд научного редактирования учебника, и кандидату биол. наук
В.П. Самсоновой за постоянное внимание, помощь и неизменно
ВВЕДЕНИЕ
Существуют определенные доводы,
показывающие, что статистические
соображения в метеорологии можно отбросить,
лишь вообще отказавшись от любых
исследований... Положение дел в метеорологии
является типичным для всех тех наук,
которые лишь недавно стали
рассматриваться как точные и стали использовать
количественные методы.
Н. Винер
Математизация почвоведения, интенсивно идущая последние
30 - 40 лет и несомненно являющаяся естественным результатом
развития, с одной стороны, самого почвоведения, а с другой -
математики и вычислительной техники, была предугадана гением В.В.
Докучаева, связавшего превращение созданной им науки в точную с
возможностью, в частности, преодоления тех трудностей, которые
возникают в связи с необходимостью иметь дело с переменными
величинами, трудно поддающимися "цифровому обозначению"
(Докучаев, 1886). К мысли о статистической природе свойств почв
почвоведы пришли давно и по крайней мере до того, как статистические
методы анализа данных нашли применение в исследовании почв.
Отражением этих представлений, например, явилась дискуссия по
целесообразности использования смешанных образцов,
развернувшаяся на страницах журнала "Почвоведение" еще в 1901 г.
По-видимому, первые опыты по использованию статистических
методов в почвоведении относятся к 20-м гг. текущего столетия
(Чириков, Малюгин, 1926; Качинский, 1926, 1927; Астапов, 1928;
Соколов, 1929; Изюмов, 1930 и др.), чему немало способствовало
появление литературы по математической статистике прикладного
характера (Голубев, 1920; Сапегин, 1922; Филиппченко, 1926; Поморский,
1927 и др.). И хотя до конца 50-х - начала 60-х гг. статистические
методы использовались очень скромно, в этот период появляется ряд
работ весьма ярких и не потерявших своего значения до настоящего
времени (Сердобольский, 1937, 1952; Филиппова, Сердобольский,
1937; Важенин и др., 1959, 1961; и др.). Интенсивное внедрение
статистических методов в почвоведение, особенно начиная с 60-х гг.,
было инициировано и подготовлено работами по прикладной
5
доброжелательную критику. Автор не может не поблагодарить
широкий круг почвоведов за ту помощь, которую они оказали,
иногда сами того не ведая, в написании учебника, в разработке
методологических вопросов, подборе примеров и их интерпретации.
В 1988 г. скончался проф. Н.А. Плохинский, живое слово
которого сыграло в научной жизни автора весьма заметную роль. Светлой
памяти Николая Александровича Плохинского автор посвящает эту
книгу.
статистике в смежных ооластях науки, в том числе
сельскохозяйственной (Немчинов, 1945; Перегудов и др., 1948; Федоров, 1957;
Финни, 1957; Фишер, 1958; Снедекор, 1961; и др.).
В последние годы набор методов статистического анализа
данных в почвоведении значительно расширился, и что особенно важно,
были показаны интерпретационные возможности разных методов,
без чего немыслимо грамотное и гибкое их использование. Наряду с
получившими широкое распространение наиболее простыми
методами дисперсионного, корреляционного и регрессионного анализа
стали достаточно часто использоваться методы факторного
анализа, теории случайных процессос, дискримина~ттного анализа. Все
более интенсивно внедряются методы непараметрической
статистики» Много сделано в области математического планирования
экспериментов и др. В общем и целом особенностью в
использовании статистических методов в последние годы можно считать
повышение интереса к многомерной статистике.
Долгие годы статистика служила лишь средством свертки
информации и оценки надежности выводов. Не утратив этого назначения,
статистика со своим обширным набором методов сейчас все более
часто выступает в качестве метода познания объекта, инструмента
анализа данных. Как особое направление анализ данных (Мостел-
лер, Тьюки, 1982) опирается на весьма правдоподобное допущение,
что любой массив грамотно собранных результатов
экспериментальных исследований неисчерпаем по заключенной в нем
информации, и нужно лишь уметь эту информацию извлечь, нужно заставить
экспериментальные данные заговорить. В качестве средства,
позволяющего это сделать, и используется широкий набор различных
статистических мегодов анализа.
Использование статистических методов в почвоведении
представляется не просто возможным, а жизненно необходимым,
поскольку главный объект исследования - почва, почвенный покров -
является едва ли не самым сложным природным образованием.
Подобные образования в математике относятся к так называемым
диффузным, или сложным, системам, в которых имеет место
действие и взаимодействие множества разнородных факторов,
определяющих протекание различных по своей природе, но в большей
или меньшей мере связанных друг с другом, процессов. При
изучении таких систем учесть все факторы и процессы, ими
вызываемые, практически невозможно, тем более, что даже в самых простых
ситуациях какие-то факторы или процессы могут оказаться просто
неизвестными. В подобных случаях обойтись без идей и методов
математической статистики почти невозможно.
Строго говоря, в экспериментальном почвоведении сейчас
трудно найти область исследования, в которой можно было бы,
оставаясь на уровне современного развития науки, обойтись
без методологии и методов математической статистики. Начиная с
6
подготовительного этапа эксперимента и вплоть до представления
окончательных результатов и их трактовки статистические
особенности объекта исследования дают о себе знать.
Рассмотрим для примера несколько типичных ситуаций, с
которыми почвоведам постоянно приходится сталкиваться.
Допустим, для характеристики некоторого участка почвенного
покрова из разреза отобраны образцы по горизонтам. С помощью
гранулометрического анализа установлено, что в горизонте Ai
содержание ила 23,4%, а в горизонте Аг - 21,2%. Можно ли на
основании этих данных высказать какие-либо заслуживающие доверия
заключения, если не прибегать к идеям и методам математической
статистики? Оказывается, нет. Действительно, даже чтобы утверждать,
что в одном образце ила больше, чем в другом, нужно знать
случайные погрешности анализов и уметь их соответствующим
образом сопоставить с полученными данными по содержанию ила в
образцах, а это уже предполагает статистический подход к решению
вопроса. Тем более полученные результаты неосторожно трактовать
как свидетельство различий в содержании ила не только в образцах,
но и в горизонте Ai и горизонте Аг на изучаемом участке
почвенного покрова. Подобное утверждение было бы спорным, даже если
определенное в исследовавшихся образцах содержание ила было бы
лишено всяких погрешностей, поскольку остается открытым вопрос,
сохраняется ли подобное различие в других частях изучаемого
участка почвенного покрова. Здесь на сцену снова выходят
статистические соображения и без их учета задачу решить весьма трудно.
Логика подсказывает, что для обоснованного заключения о том,
что в горизонте Ai исследуемого участка почвенного покрова
содержание ила больше, чем в горизонте А2, нужно исследовать не одну
пару образцов, а несколько, но тогда нужно оценить число пар
таких образцов и способ их отбора, решить, как поступить с
результатами анализов, а все это опять-таки нельзя сделать без привлечения
соответствующих статистических методов и приемов.
Не исключает статистического подхода и замена
индивидуальных образцов смешанным, поскольку вопрос о числе
индивидуальных образцов, требующихся для приготовления смешанного,
относится к категории статистических задач, да и сама идея замены
индивидуальных образцов смешанными по своей сути имеет
статистическую основу.
Ни у кого не возникает сомнений в необходимости
использования статистических методов при рассмотрении часто возникающих
задач о связях между свойствами и явлениями, поскольку в
почвоведении такие связи практически почти никогда не имеют четко
выраженного функционального характера. Некоторые же проблемы
почти невозможно решить без привлечения методов статистического
анализа. Это относится, например, к случаю, когда требуется
выяснить, почему при анализе образцов разного объема, отобранных из
7
одной и юи же почвы, средние неличины изучаемою признака оона-
руживают отчетливую зависимость от размеров образцов.
Очевидно, перечень задач и ситуаций, когда статистические
методы могут и должны привлекаться для обработки и анализа данных,
для оценки надежности выводов и рекомендаций, можно было бы
существенно расширить. Значительно труднее найти примеры в
области экспериментального почвоведения, где бы идеи и методы
математической статистики были бы не нужны. При этом обращают
на себя внимание два обстоятельства, о которых нельзя умолчать.
Первое из них касается влияния методов математической статистики
на технику проведения исследований в почвоведении. Второе, тесно
связанное с первым, - формирование иных методов мышления, когда
учитывается вероятностная природа и статистический характер тех
явлений, которые почвоведами исследуются.
Сейчас уже стало несомненным фактом то, что методы
математической статистики, привлекаемые для решения тех или иных
вопросов, постепенно начинают оказьюать определенное давление на
экспериментатора, заставляя его менять саму стратегию
проводимых исследований. Традиционно обращение к статистике
происходило на этапе осмысливания собранного фактического материала, и
при этом очень часто обнаруживалось, что стоящие перед
исследователем задачи можно было бы успешно решить с помощью
некоторого статистического приема, однако техника сбора
эмпирической информации оказалась такой, которая использование этого
приема анализа исключает. Статистические методы не менее
требовательны к особенностям данных, способам их получения и
организации, чем обычные методы анализа почв, регламентирующие
способ подготовки образцов, чистоту реактивов и пр. Недопустимо,
например, определять содержание гумуса по Тюрину, не отобрав
крупных корней и не растерев соответствующим образом пробу почвы,
хотя технологически такой анализ выполним и даст какой то
результат. Статистические анализы также обычно технологически
выполнимы, но это отнюдь не свидетельствует о принципиальной
применимости соответствующего метода. Нетрудно догадаться, что об
обеспечении пригодности того или иного статистического метода
нужно заботиться существенно раньше, чем на стадии анализа
данных.
Таким образом, математическая статистика вынуждает
экспериментатора с иных позиций подходить к постановке проводимых
исследований, заставляет менять набор и последовательность этапов
их выполнения. С учетом стоящих перед экспериментатором задач,
он должен:
- более четко, более конкретно сформулировать те вопросы, на
которые должен быть получен ответ, в терминах и понятиях
соответствующей области знания;
- перевести эти вопросы на язык статистических задач, на язык
абстрактных понятий математической статистики;
- для решения соответствующей статистической задачи среди
известных статистических методов выбрать наиболее
подходящий, учитывая при этом специфику объекта исследования,
особенности изучаемого свойства, возможные способы
опробования объекта и технические возможности их реализации и
пр.;
- зная требования к данным, подлежащим статистическому
анализу, и условия применимости выбранного статистического
метода, спланировать сам эксперимент;
- провести эксперимент;
- полученные в эксперименте результаты подвергнуть
статистическому анализу ранее запланированным методом и на
основании такого анализа сделать выводы и заключения,
сформулированные в терминах и понятиях математической
статистики;
- сформулировать выводы и заключения на языке конкретной
науки.
С точки зрения автора описанная выше схема постановки
экспериментов представляется наиболее желательной. Однако такая схема
далеко не всегда оказывается легко реализуемой, и нужно быть
готовым, например, к тому, что планировавшийся для статистического
анализа метод оказывается мало пригодным по причине внутренних
особенностей данных, полученных при проведении эксперимента.
Это вызывает необходимость либо кдкого-то преобразования
исследуемых величин, либо замены планировавшегося метода анализа на
иной, более пригодный для решения задачи. При этом всегда нужно
помнить, что хорошо спланированный эксперимент обычно
отличается тем, что собранный массив данных можно анализировать с по-
мощью разных методов, нужно лишь эти методах знать и умело ими
пользоваться.
Трудности в реализации всех этапов проведения эксперимента
имеют разную природу и не могут быть оценены с единых позиций.
Но если считать, что необходимость как получения эмпирических
данных, так и их статистического анализа, обсуждению не
подлежат, то наиболее трудными этапами оказываются
переформулировка задач с языка специальной науки на язык математической
статистики» с одной стороны, с другой - перевод результатов
исследования, полученных в понятиях и терминах статистики и теории
вероятностей, в выводы на языке конкретной науки. И дело здесь не только
в том, что в первом случае, например, нужно знать методы,
пригодные для решения статистических задач того или иного характера.
Это само собой разумеется. Существенно более важно другое -
наличие умения и опыта мыслить статистически, понимание того, что без
9
представлений о вероятностной природе явлений едва ли удастся
дать достаточно естественное описание тех сложных структур, с
которыми имеет дело экспериментатор. Математическому мышлению,
предполагающему строгость в употреблении понятий и логичность
заключений, умению видеть статистическую природу изучаемых
явлений, нужно учиться, без этого почвоведение не сможет стать на
уровень современных требований развития науки.
Понимание вероятностно-статистической природы объектов и
явлений в экспериментальном почвоведении необходимо не только в
связи с использованием для анализа данных тех или иных
статистических методов. Статистические законы в почвоведении действуют
независимо от исследователя и вне связи с тем, используются
статистические методы или нет, знает почвовед теорию вероятности и
математическую статистику или представления о них не имеет.
Объективность действия статистических законов, вероятностный
характер подавляющего большинства явлений, с которыми имеет дело
почвовед, определяет необходимость не только широкого
привлечения соответствующих математических методов, но прежде всего
умения мыслить вероятностно-статистическими категориями.
Академик Б.В. Гнеденко писал: "Математизация знаний в период
научно-технического прогресса является не данью моде или
прихотью математиков, а неизбежной необходимостью. Много веков
назад великий английский мыслитель Френсис Бэкон сказал, что как
для повышения урожая плодов необходимо, в первую очередь,
ухаживать не за ветвями дерева, а за его корнями, давая им подкормку,
взрыхлять почву, так и для прогресса научного познания законов
природы и использования в жизненной практике необходимо наши
знания поставить на точную количественную основу. А там, где
речь идет о количестве, там не обойтись без математики, без
широкого привлечения ее понятий, методов и специфических для нее
методов мышления."
Привлечение математических понятий и методов в почвоведение
идет и достаточно успешно. Сложнее обстоит дело с освоением
методов математического мышления. Рассмотрению этих вопросов в их
логической связи и посвящен настоящий учебник.
Глава 1
ИЗМЕРЕНИЯ, ИСПЫТАНИЯ, ВЕЛИЧИНЫ,
СОВОКУПНОСТИ
1.1. ШКАЛЫ ИЗМЕРЕНИЙ
Почвоведу приходится иметь дело с различными признаками,
характеризующими природные тела и объекты исследования, и
наличие некоторого признака или разная степень его проявления служат
для исследователя основанием для установления равенства между
сравниваемыми телами или объектами либо для утверждения, что
тела различаются. Чтобы устанавливать равенство или различие по
тем или иным признакам, нужно эти признаки как-то измерить.
Легко убедиться в том, что для разных признаков нельзя одинаково
осуществить измерения. Так, по результатам анализов мы можем
сказать, какой из двух образцов почв содержит больше ила, а какой
~ меньше, и различие в содержании ила может быть выражено
некоторым числом. Сопоставляя в поле две почвы, мы лишены
возможности количественно оценить различия по степени их оглеения,
и можем лишь констатировать, что в одной почве оглеение больше,
чем в другой. Однако в ряде случаев даже понятие "больше-меньше"
оказывается лишенным смысла, например, когда речь идет о
систематизации отдельных растений, минералов, почв, структурных от-
дельностей и других предметов исследования. Условно можно
выделить четыре шкалы измерений.
Если согласно некоторым правилам сравниваемые предметы или
явления могут быть признаны лишь разными, либо неразличимыми,
и каждой отдельной группе неразличимых между собой предметов
(явлений) присваивается некоторый символ, наименование или
число, позволяющее эту групп)- отделить от иной группы предметов
(явлений), то такие наименования, символы или числа образуют
именную (или классификационную) шкалу измерений. С именными
шкалами имеют дело, когда указывают видовые названия растений,
типы почв, растительные ассоциации, дают словесное название цвета
почв и т.д.
Порядковая шкала измерений используется в тех случаях, когда
степень проявления интересующего исследователя свойства не
поддается какой-либо точной количественной оценке, однако по
степени проявления этого свойства предметы могут быть расположены в
некоторый ранжированный ряд, так что для каждых соседних
предметов можно сказать, где данное свойство проявляется больше, а
11
где меньше. Примером порядковой шкалы служат ряды почв разной
степени оглеения, ряды возрастающей гидроморфности или элю-
викрованности почв, классы бонитетов леса. Порядковые шкалы
измерений можно использовать для сравнения окраски почв, когда
почвенные пробы располагаются в ряд по возрастанию степени
прокраски гумусом.
Интервальные шкалы измерений применимы в тех случаях, когда
расстояние между любыми членами шкалы может быть выражено
числом, адекватным "расстоянию" между этими членами, хотя
положение нуля отсчета и единица измерения произвольны. Например,
на интервальной шкале измеряют температуры и окислительно-
восстановительные потенциалы. Нуль отсчета здесь выбирают
условно, а иногда и единица измерения может быть разной (градусы
Цельсия и Фаренгейта), но независимо от положения нуля отсчета и
единицы измерения отношение длин двух любых интервалов
остается постоянным.
Ввиду произвольности выбора нуля отсчета результаты
измерений на интервальной шкале могут иметь как положительные, так и
отрицательные значения. Наряду с температурой и окислительно-
восстановительным потенциалом почвы npHMq)OM измерений на
интервальной шкале служат как относительные, так и абсолютные от-
метки рельефа, потенциалы естественного электрического поля и
некоторые другие.
На шкале отношении измерения требуют не только возможности
нахождения числового значения изучаемого признака, но и вполне
определенного положения нуля отсчета. В относительной шкале от
единицы измерений не зависит не только отношение дайн
интервалов, но и отношение любых точек шкал. Если мощности двух
горизонтов различаются в два раза, то это различие останется без
изменения независимо от того, будем ли мы измерять мощность в футах,
дюймах или сантиметрах. Примерами признаков, измеряемых на
относительной шкале, служат плотность и порозность почвы, рН и
содержание микроэлементов, воздухопроницаемость и др. Результаты
измерений на относительной шкале не могут быть отрицательными.
В отличие от первых двух шкал интервальная и относительная
шкалы относятся к шкалам количественным.
В соответствии с различиями в шкалах измерений все признаки
можно разделить на несколько категорий. Признаки, поддающиеся
измерению на именных шкалах, называются качественными.
Частным случаем качественных признаков являются альтернативные,
когда вся шкала для измерений состоит всего лишь из двух градаций:
признак имеется и признак отсутствует. Например, именная шкала
почв некоторого участка может выглядеть следующим образом:
12
каштановые, лугово-каштановые, солонцы, солончаки. Для
альтернативных признаков шкала может иметь, например, такой вид:
солонцы и не солонцы. К категории "не солонцы" относятся все
почвы за исключением солонцов.
Признаки, которые по какому-либо принципу могут быть
ранжированы, получили название порядковых признаков. Наконец,
признаки, поддающиеся количественной оценке на интервальной
или относительной шкале, называются количественными
признаками.
Приведенная классификация признаков довольно условна. Так,
очевидно, что количественные признаки при желании можно
рассматривать как порядковые и даже качественные. Например, по
результатам гранулометрических анализов (содержание отдельных
фракций - количественный признак) образцы почв можно расположить
в ранжированный ряд и рассматривать гранулометрический состав
как порядковый признак, пренебрегая тем, что результаты анализов
точно известны.
С другой стороны, порядковые признаки при выборе
надлежащего способа измерения могут иногда перейти в категорию
количественных признаков. Например, визуальную оценку окраски почв
можно заменить объективными количественными характеристиками
отражательной способности. Аналогично в ряде случаев
качественные признаки можно по тому или иному принципу представить в
виде порядковых признаков.
Результаты измерений на разных уровнях обладают различными
свойствами, что определяет различия в методах статистической
обработки данных, и ниже мы неоднократно будем это использовать.
1.2. ИСПЫТАНИЯ, СОБЫТИЯ, ВЕЛИЧИНЫ
Непременным условием грамотного использования
статистических методов является четкое осознание смысла тех терминов и
понятий, которые используются в математической статистике и теории
вероятностей, и конкретного применения этих математических
понятий к исследуемым природным явлениям.
Одним из основных понятий в статистике является "испытание".
Под испытанием понимают осуществление какого-нибудь
определенного комплекса условий, который может быть воспроизведен
сколь угодно большое т*ттс:го раз (если пе практически, то по крайней
мере теоретически).
Под комплексом условий понимают определенную методику
выделения объекта изучения, способ его опробования и получение
конечного результата измерений. Как некий акт испытание можно
13
рассматривать в рамках мысленного эксперимента и возможное
число таких актов обычно считают бесконечно большим. Испытание
может представлять собой и некоторую конкретную практическую
реализацию. В этом случае число испытаний всегда конечно.
Величины, в процессе испытаний не меняющие своих значений,
называются постоянными. Если величина может принимать по
крайней мере два различных значения, то она называется переменной.
Если в некотором интервале переменная может принимать любые
значения (содержит все действительные числа), то она называется
непрерывной в указанном интервале. В отличие от нее дискретная
переменная может принимать лишь некоторые значения,
разделенные промежутками. Наиболее характерным примером
дискретных величин являются величины, получающиеся в результате счета:
число колоний микроорганизмов в чашке Петри, число ортштейнов
крупнее заданного размера в данном объеме почвы и пр. В
подобных случаях величины принимают лишь целочисленные значения,
хотя в принципе дискретные величины могут принимать и дробные
значения.
Значительно чаще почвоведы имеют дело с непрерывными
величинами, такими как порозность, мощность горизонтов, содержание
гумуса, рН и т.п. На первый взгляд может показаться, что это не
так, поскольку и для рН, и для мощностей горизонтов, и для всех
других свойств переход от одного значения к другому всегда
осуществляется скачком. Действительно, мощность горизонтов может быть
15, 16, 17 см и т.д. и не бывает равной 15,3, 16,1, 16,8 см. Казалось
бы, это очень похоже на 15, 16, 17 и т.д. колоний на чашке Петри. С
формальной стороны здесь есть сходство, но имеется и
принципиальное различие, состоящее в том, что для дискретных
переменных отсутствуют и не могут существовать промежуточные
значения между соседними дискретными значениями, в то время как
скачкообразный характер перехода от одних значений к другим у
непрерывных связан не с дискретностью величин, а с практически
разумной степенью округления переменных. Так, в чашке Петри не
может быть 16,1 колонии, но это значение может определять
мощность горизонта, хотя мы всегда мощность горизонтов округляем до
целого числа сантиметров.
Явления, происходящие в результате испытаний, в
математической статистике и теории вероятностей принято называть
событиями. Если при проведении испытания событие не может быть точно
предсказано, то оно называется случайным событием. Например,
если мы не можем точно предсказать, окажется ли взятый нами
агрегат водопрочным или нет, то результат испытания
("водопрочный" - "неводопрочный") является случайным событием. Будучи
14
результатом измерения на той или иной шкале, событие
представляет собой значение некоторой величины. Переменная величина,
значение которой до проведения испытания заранее не может быть
точно предсказано, называется случайной величиной. Иногда
случайную величину определяют как такую переменную величину,
значения которой зависят от случая. Так, в известных условиях
проведения исследований мы никогда не можем предсказать' точного
значения влажности почвы, которое окажется реализованным, а
повторные измерения влажности дадут серию в той или иной мере
различных результатов, каждый из которых является значением одной и
той же случайной величины, называемой влажностью почвы.
Почвоведы постоянно имеют дело со свойствами и признаками
(например, порозность почвы и ее твердость, водопроницаемость,
содержание гумуса, урожайность, мощность горизонтов и др.),
которые являются случайными величинами.
Следует заметить, что не все переменные величины всегда
оказываются случайными. В ряде случаев значения переменной прямо или
опосредованно выбираются или устанавливаются исследователем, и
тогда переменная является неслучайной, или детерминированной.
Такими переменными служат, например, нормы полива, заданные
глубины отбора образцов, различные нормы гипсования, а также
свойства нарочито подобранных тел (содержание питательных
элементов в почве делянок, получивших разные нормы удобрений;
свойства почв, специально подобранных для исследователей, и т.д.).
В этом последнем случае степень детерминированности может быть
различной и неслучайность величин проявляется, например, в том,
что до проведения испытаний можно предугадать, где значения
изучаемых свойств окажутся больше, а где меньше, хотя точные
результаты анализов предсказать невозможно.
1.3. ОБЩИЕ И ВТОРОСТЕПЕННЫЕ УСЛОВИЯ
ПРОВЕДЕНИЯ ИСПЫТАНИЙ
Всякая "игра случая" происходит во вполне определенных
условиях и только применительно к этим условиям переменная величина
может считаться случайной, а отдельные значения переменной -
принадлежащими одной случайной величине. Однако сказанное
совсем не означает, что все условия без исключения, в той или иной
мере влияющие на изучаемое явление, должны оставаться без
изменения. В данном случае имеются в виду лишь условия, которые
определяют испытание. При этом понятие испытания как комплекса
условий не ограничивается методикой исследования (прописью
анализа), а включает в себя также условия отбора образов (их размер,
15
время взятия и пр.), если это предполагается в испытании, строгое
определение объекта исследования и др. В некоторых случаях в
комплекс условий может входить даже указание индивидуальности
аналитика.
Результатом испытания является значение некоторой случайной
величины. Если испытание проводится повторно (т.е. несколько раз
воспроизводится один и тот же комплекс условий), то в итоге
получается соответствующее число значений одной и той же случайной
величины. Любое изменение в комплексе условий приводит к тому,
что испытание окажется уже другим и получаемое в результате него
значение будет принадлежать уже другой случайной величине.
Неодинаковость результатов повторных испытаний (событий
при воспроизведении одного и того же комплекса условий) - явление
весьма частое. Оно связано с тем, что в перечне условий,
определяющих испытание, практически невозможно учесть все те факторы,
которые в той или иной степени определяют результат испытания,
да и учитываемые условия могут иметь разный уровень
предусматриваемой жесткости их выполнения (например,
встряхивание суспензии руками - менее жесткое условие, чем встряхивание
на качалке с фиксированной частотой, так же как условие отбора
образцов почв "под елью" менее жестко, нежели отбор образцов "под
елью на удалении от ствола в пределах от 1 до 3 м".
Комплекс условий, определяющих характер испытания, включает
лишь общие условия. Однако помимо общих условий существует
масса второстепенных, не принимаемых во внимание и не
учитываемых (а нередко и неизвестных) условий. Совокупное влияние этих
второстепенных условий и вызывает хорошо известное
варьирование результатов испытаний Таким образом, случайность вовсе не
означает беспричинность.
Среди факторов, вызывающих варьирование значений
изучаемого свойства, условно следует выделять две различные по характеру
группы. К первой группе можно отнести факторы, связанные с
природой объекта в рамках заданных условий его изучения. С
варьированием, вызванным такими факторами, мы сталкиваемся постоянно.
Например, мощность отдельных горизонтов даже в пределах одного
почвенного разреза может очень значительно меняться.
Варьирование мощности есть результат и одновременно проявление
многообразия в природе. В таком аспекте варьирование само по себе
должно являться предметом изучения как всякое явление, имеющее
свои причины и следствия.
Ко второй группе следует отнести факторы, связанные с
методикой измерения. Предположим, что некоторый образец почвы
подвергается повторному калориметрированию для определения его
16
удельной теплоемкости, в результате чего исследователь получает
несколько различных значений изучаемой величины. В процессе
измерения образец почвы не изменяется и его теплоемкость остается
неизменной, а различия в полученных значениях являются
следствием нестабильности работы прибора, неточности отсчетов и
других факторов методического характера.(Варьирование результатов в
подобных случаях обычно представляет собой досадное явление,
затрудняющее получение значения интересующего нас признака с
достаточной точностью. Рассмотрение результатов подобных
измерений как значений случайной величины позволяет оценить
воспроизводимость используемого способа измерений (анализа), а при
необходимости и выявить те условия, которые в наибольшей степени
влияют на сходимость результатов в повторных испытаниях, и тем
самым наметить пути совершенствования методики измерений.
В большинстве случаев варьирование значений случайной
величины, с которым почвовед имеет дело при проведении исследований,
представляет собой суммарный результат влияния природных и
методических факторов; их удельный вес в варьировании может быть
весьма различен.
1.4. ОБЪЕКТ ИССЛЕДОВАНИЯ
В комплексе условий, определяющих испытание, условно можно
выделить три группы: а)группа условий, определяющих объект
исследования; б)условия, определяющие особенности элементов
опробования как носителей единичной информации (одного значения
случайной величины) об объекте; в)условия выполнения
конкретного анализа (методика анализа).
Первая из перечисленных групп представляет собой интерес
прежде всего потому, что неопределенность границ объекта сопряжена с
опасностью причислить отдельные значения разных случайных
величин к одной случайной величине, а с другой стороны,
возможностью статистически необоснованной экстраполяции выводов на
более обширное природное тело, нежели реально изучаемое.
Под объектами понимают предметы познания и деятельности
человека, а следовательно, непосредственно к соответствующим
объектам в первую очередь относятся выводы проводимых исследований.
В экспериментальном почвоведении объектами всегда являются
материальные тела. Объектом может служить почвенный покров
некоторого региона, толща какого-либо горизонта всех почв данного
вида в пределах определенной территории, почвенный раствор
конкретного слоя конкретной почвы опытного участка в
фиксированный момент времени, микрофлора опытной делянки в данное время,
17
водопрочные агрегаты почвы, содержащиеся в данйое время,
водопрочные агрегаты почвы, содержащиеся в данном вегетационном
сосуде и т.д.
Определить объект исследования - значит строго перечислить те
условия, которые позволяют отделить объект от смежных
природных образований в пространстве и времени.
Критерием полноты набора таких условий должно служить
отсутствие предпочтения той или иной части объекта (если таковой
поступает в анализ не целиком) быть подвергнутой испытанию для
получения единичного значения изучаемой случайной величины.
Если какие-то части предполагаемого объекта исследовать
нежелательно, то они не удовлетворяют некоторым условиям и,
следовательно, эти условия должны быть включены в группу общих
условий, определяющих объект. После такой операции
пространственные (или временные) границы объекта, очевидно, сузятся. Так, если в
первоначальном варианте объектом исследования был выбран
почвенный покров некоторого вполне определенного поля, но
заложение разрезов в микрозападииах, имеющихся на поле,
нежелательно, то объектом будет служить не весь почвенный покров поля, а
лишь часть его за вычетом участков под микропокижениями.
Закладывая разрезы в пределах некоторой территории,
почвоведы подчас скрупулезно выбирают его местоположение. Все
учитываемые при этом условия следует отнести к тем условиям, которые
определяют объект, а значит, и его границы, и его размеры,
сокращающиеся с увеличением набора соответствующих условий.
Сокращение размеров объекта означает не что иное, как
уменьшение размеров того природного тела, к которому непосредственно
могут быть отнесены выводы из исследований.
Если сокращение размеров объекта нежелательно, то следует
некоторые условия перевести в группу второстепенных, т.е. таких
условий, которыми мы пренебрегаем при выборе частей объекта,
могущих быть подвергнутыми испытанию. Если объект не поступает в
анализ целиком, то любая его часть должна иметь равные шансы
стать источником информации об объекте.
Весьма часто свойства объекта зависят от времени испытаний,
что особенно ярко выявляется для таких динамичных свойств, как
влажность почвы, содержание подвижных форм элементов и др, В
силу этого время проведения испытания (временной интервал)
должно выступать в качестве временных границ изучаемого объекта
наравне с его пространственными границами.
18
1.5. ФИЗИЧЕСКАЯ СОВОКУПНОСТЬ И ЕЕ КОМПОНЕНТЫ
Характер сведений об изучаемом свойстве объекта зависит от
того, что именно дает единичную информацию об объекте, что служит
материальным носителем одного значения случайной величины, что
является элементом опробования. Этот факт достаточно хорошо
известен и нашел свое отражение в широко используемом приеме
взятия смешанных образцов, поскольку при прочих равных условиях
(пространственно-временном постоянстве объекта, одинаковом
способе химического анализа) результаты анализов индивидуальных
образцов варьируют обычно больше, нежели образцов смешанных.
Известно также, что размер отбираемых в поле индивидуальных
образцов всегда в той или иной степени сказывается на результатах
анализов, так же как и размер единичной заливаемой площадки
существенно определяет характер получаемых коэффициентов
водопроницаемости.
Условия, регламентирующие особенности элементов
опробования, составляют вторую группу общих условий. Постоянство этих
условий означает, что при проведении испытаний все элементы
опробования должны быть в определенном смысле однородны. Так,
при определении водопроницаемости заливаемые водой" площадки
должны быть одинаковы по форме и размеру, отбираемые образцы
должны иметь либо одинаковый объем (массу), либо должны
отбираться на всю мощность горизонта (или его части) в виде цилиндра
(призмы) одинакового сечения и т.д.
Совокупность принадлежащих изучаемому объекту однородных
в определенном смысле (согласно перечню условий второй группы)
элементов опробования образует физическую совокупность. Вся
возможная (если не практически, то теоретически) совокупность
элементов опробования, принадлежащих объекту, образует
генеральную физическую совокупность.
В зависимости от особенностей изучаемого признака и методов
его исследования в качестве компонентов физической совокупности
может выступать некоторый объем или масса (например, при
определении вещественного состава), поверхность (при анализе шлифов,
при изучении площадей контуров почв и пр.) и даже линия
(протяженность контуров вдоль некоторой линии, мощность
горизонтов по вертикальной линии и пр.). Важно заметить, что
размерность компонента физической совокупности может не совпадать
с размерностью объекта. Так, если образец почвы, взятый для
проведения гранулометрического анализа, трехмерен, как и объект
исследования, то передняя стенка разреза - двумерный компонент
(плоскость), принадлежащий трехмерному почвенному телу, а
19
вертикальная линия, по которой измеряется мощность горизонтов,
одномерный компонент.
Так как познания объекта осуществляются с помощью анализа
образцов, поверхностей и пр., то свойства объекта всегда
отражаются через свойства генеральной физической совокупности.
1.6. ДИСКРЕТНОСТЬ ОБЪЕКТОВ И ОСОБЕННОСТИ
ЭЛЕМЕНТОВ ОПРОБОВАНИЯ
Размер элемента опробования и его постоянство определяется
целями проводимого исследования, особенностями объекта и
анализируемого признака, и наконец, методикой выделения
соответствующего материального носителя информации.
По своей природе объекты могут быть дискретными и
непрерывными, хотя это деление условно. Так, почвенный покров некоторой
территории можно рассматривать как дискретное тело, состоящее из
конечного числа элементарных почвенных ареалов, но с другой
стороны, почвенный покров обладает несомненной континуальностью.
Считать ли объект непрерывным или дискретным, во многом
зависит от того, какие признаки объекта исследуются и какие методы
для этого выбраны.
Если при изучении объекта можно пренебречь дискретностью, то
его можно рассматривать как непрерывный. Так, при исследовании
глубины вскипания на некоторой территории (а также содержания
гумуса в заданном горизонте почвы, величины рН и др.)
дискретность почвенного покрова на изучаемой территории можно не
принимать во внимание и считать объект непрерывным. Однако если на
том же объекте изучается размер элементарных почвенных ареалов,
то объект уже нельзя считать непрерывным и его следует
рассматривать как совокупность отдельных дискретных составляющих
(отдельных ареалов).
Для дискретных объектов размер элементов опробования
определяется размерами дискретных составляющих, в силу чего
компоненты физической совокупности обычно имеют различный размер.
Для непрерывных объектов постоянство характеристик
элементов опробования (объема, массы, формы, площади и пр.) является
необходимым условием чистоты проведения исследований. В силу
усреднения признаков в пределах элемента опробования имеет,
например, значение объем образцов, отбираемых на анализ закисного
железа: 10 см3 или 500 см3, поскольку характер варьирования любого
признака в пределах объекта есть функция размера элемента
опробования. Если размеры элементов опробования в пределах
непрерывного объекта неодинаковы (и условия второй группы эту
20
неодинаковость не оправдывают), то испытания нельзя
рассматривать как повторные, к результаты опробования будут являться
значениями разных случайных величин.
В зависимости от характера проводимых исследований размеры
элементов опробования могут сильно различаться, что определяется
спецификой объекта, задачами исследований и методикой
проводимых анализов. Элемент опробования может быть равен всему
объекту (или соответствовать размеру объекта, если размерности объекта
и элемента опробования не совпадают), а может составлять от него
очень малую часть (соответствовать малой части). Если элемент
опробования достаточно мал сравнительно с размерами всего
объекта, то размеры такого элемента опробования можно считать
точечными (тем не менее эти размеры должны отмечаться и оставаться
без изменений при проведении испытаний). Положение точечного
элемента опробования в пространстве, занимаемом объектом,
можно назвать точкой опробования. Так, точкой опробования является
разрез, заложенный в пределах достаточно большого поля,
почвенный покров которого является объектом исследования. С другой
стороны, небольшой образец почвы, служащий объектом
исследования и целиком поступающий на калориметрирование для
определения теплоемкости, служит иллюстрацией случая, когда элемент
опробования равен объекту.
1.7. ТЕХНИКА ИЗМЕРЕНИЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ
Для получения значения случайной величины изучаемое свойство
компонента физической совокупности должно быть измерено на
одной из четырех шкал. Условия, описывающие технику подготовки
элемента опробования к измерению (анализу), если такая
подготовка необходима (например, растирка образцов почв, отбор корней,
приготовление проб и пр.), а также весь ход измерения (анализа)
составляют третью группу общих условий. Как и все остальные
условия, описывающие испытание, они должны оставаться
неизменными, в противном случае получаемые в результате испытаний
значения будут принадлежать разным случайным величинам.
В некоторых случаях методикой анализа предусматривается
возможность (и даже необходимость) повторных анализов одного и
того же элемента опробования (образца, пробы) с использованием в
дальнейшем среднего результата по повторным измерениям. Следует
иметь в виду, что в подобных случаях средние результаты анализов
отдельных элементов опробования можно считать значениями
одной случайной величины только тогда, когда усреднение везде
проводится по одинаковому числу повторностей. (На практике, когда
21
различия между повторными анализами одного элемента
опробования заметно меньше различий между значениями свойства у
разных элементов опробования, допустимо усредненные по
неодинаковому числу повторностей значения для разных элементов
опробования считать значениями одной случайной величины.)
Одно и то же свойство компонентов данной физической
совокупности можно измерять с помощью разных методов и методик. В
принципе результаты измерений могут считаться значениями одной
случайной величины лишь тогда, когда методика измерений
(анализов) одинакова и неизменна. В противном случае исследователь
будет иметь дело со столькими случайными величинами,
характеризующими одно и то же свойство компонентов данной физической
совокупности, сколько разных методов и методик было использовано.
1.8. СТАТИСТИЧЕСКАЯ СОВОКУПНОСТЬ,
ОБЪЕМ СОВОКУПНОСТИ
Соблюдение постоянства общих условий, определяющих
испытание, является необходимым для того, чтобы результаты отдельных
измерений можно было рассматривать в качестве значений одной
случайной величины. При этом каждому компоненту физической
совокупности в результате проведения испытаний соответствует одно
событие (одно значение случайной величины), а физической
совокупности - совокупность событий (значений случайной величины).
Эта последняя получила название статистической совокупности.
Статистическая совокупность всех возможных значений случайной
величины, очевидно, соответствующая генеральной физической
совокупности, называется генеральной статистической совокупностью.
Число компонентов физической совокупности, а соответственно и
статистической совокупности, называется объемом совокупности.
Исследователь всегда подвергает исследованию конечное число
элементов опробования, вследствие чего объемы физических
совокупностей и соответствующих им статистических совокупностей
всегда конечны. В отличие от таких совокупностей генеральные
совокупности могут быть и бесконечными, т.е. объем генеральных
физических и статистических совокупностей может быть бесконечно
большим.
Для непрерывных объектов объем генеральных физических
совокупностей всегда бесконечно велик, так как после проведения
анализа то, что служило элементом опробования, должно быть
возвращено (что возможно иногда лишь теоретически) в объект на свое
место в неизменном виде и любая часть этого испытанного элемента
22
опробования может войти в состав других компонентов физической
совокупности.
Положение не меняется и в том случае, когда подвергается
испытанию весь объект целиком, т.е. когда элемент опробования равен
объекту, поскольку, если не практически, то теоретически,
испытание над объектом можно проводить бесконечное множество раз. В
подобной ситуации каждый компонент физической совокупности
есть объект с неизменными свойствами, поэтому неодинаковость
значений в повторных испытаниях является результатом одних
лишь методических погрешностей. Именно эти соображения лежат в
основе характеристики методов анализа по воспроизводимости и
сходимости.
Когда объект является дискретным и каждый элемент
опробования представлен одной из дискретных составляющих, объем
генеральной физической совокупности (а соответственно и
статистической совокупности) зависит от того, можно ли считать одинаковыми
результаты повторных анализов отдельных дискретных
составляющих объекта или нет. Если результаты повторных анализов
одинаковы, то генеральная физическая совокупность является
конечной, а ее объем равен числу дискретных составляющих. Так, при
изучении состава древостоя некоторого участка леса генеральная
физическая совокупность конечна и равна по объему числу деревьев,
произрастающих на изучаемом участке (вид дерева определяется
однозначно).
Значительно чаще результаты повторных (иногда лишь
теоретически возможных) испытаний отдельных дискретных составляющих
не являются однозначными. В подобном случае считается, что
элемент опробования после испытания в неизменном виде возвращается
в объект и любая дискретная составляющая объекта может сколь
угодно большое число раз стать элементом опробования, в силу чего
генеральная физическая совокупность (и соответствующая ей
статистическая совокупность) будет бесконечно велика. Например, при
изучении площадей отдельных ареалов почв в пределах исследуемой
территории генеральная физическая совокупность должна считаться
бесконечно большой, так как площадь каждого отдельного ареала
при повторных измерениях не является величиной постоянной, хотя
число ареалов (дискретных составляющих) является конечным.
С практической точки зрения генеральные физические
совокупности при изучении дискретных объектов нередко могут
рассматриваться как конечные, если варьирование результатов повторных
испытаний одной и той же дискретной составляющей невелико
сравнительно с варьированием результатов испытаний над разными
дискретными составляющими. Именно так и обстоит дело, например,
23
при изучении размеров элементарных ареалов в пределах некоторой
территории исследования.
Поскольку дискретные объекты нечасто встречаются в
исследованиях почвоведов, объемы генеральных физических совокупностей в
подавляющем большинстве оказываются бесконечно большими, что
при конечных размерах объектов может показаться странным.
Однако следует заметить, что генеральная физическая совокупность
вообще может быть несоизмерима с объектом в силу различия
размерностей объекта и его компонентов. Действительно, некоторый
агрегат почвы как объект исследования есть трехмерное тело, размеры
которого могут быть выражены либо в единицах массы, либо в
единицах объема. При анализе шлифа, приготовленного из агрегата, в
качестве элемента опробования выступает поверхность, а значит,
размерность поверхности имеет и сумма всех компонентов,
входящих в бесконечно большую генеральную физическую совокупность.
Очевидно, что сопоставлять размеры генеральной физической
совокупности и объекта в данном случае невозможно, как лишено
смысла сравнение площади с объемом (или массой).
Однако и в случае, когда размеры объекта и компонента
измеряются в одинаковых единицах, нет никаких оснований требовать
обязательного равенства объекта сумме компонентов, составляющих
генеральную физическую совокупность. Здесь важно подчеркнуть то
обстоятельство, что свойства объекта характеризуются не иначе как
через свойства генеральной физической совокупности,
соответствующей объекту исследования. Свойства же генеральной
физической совокупности, выявляющиеся в процессе испытаний, зависят
от того, что представляют собой компоненты этой совокупности,
т.е. элементы опробования, и каковы условия их получения.
Физическая совокупность есть некоторая абстракция,
необходимая для понимания того, с помощью чего мы создаем представление
о свойствах объекта. Такой же абстракцией является и случайная
величина, которая берется в качестве модели для описания изучаемого
объекта.
Итак, изучаемая переменная величина (событие) может считаться
случайной лишь в определенных общих условиях, описывающих
испытание; первая группа этих условий определяет границы объекта
исследования, вторая группа характеризует элементы опробования,
а соответственно и ту генеральную физическую совокупность, по
свойствам которой создается суждение об объекте, и, наконец,
третья группа отражает методику получения результатов измерения.
Таким образом, результат единичного анализа можно
рассматривать в качестве значения данной случайной величины только для
заданных вполне определенных условий.
24
Если в силу природной разнокачественное™ компонентов
физической совокупности или (и) вследствие методических погрешностей
измерений изучаемый признак можно рассматривать в качестве
случайной величины, то задачей исследования является изучение этой
величины. Свойства же такой случайной величины проявляются
через свойства генеральной статистической совокупности. Отсюда
следует, что только свойства этой совокупности являются предметом
любого исследования.
Экспериментальное почвоведение имеет дело со случайными ве-.
личинами, в которые вкладывается вполне определенное конкретное
содержание. В качестве случайной величины может выступать рН,
содержание гумуса или запасы гипса в почве, водопроницаемость и
др. Нужно заметить, что наряду с такими, имеющими определенное
почвенное содержание, случайными величинами исследователю
приходится сталкиваться и с другими случайными величинами, не
имеющими какого-либо конкретного смысла, но совершенно
необходимыми,например, для проверки статистических гипотез
(см. гл. 7).
1.9. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ
Хотя случайные величины являются переменными, их наиболее
общие свойства можно охарактеризовать некоторыми постоянными
величинами. В связи с этим особое значение имеет понятие
математического ожидания, как среднего взвешенного из всех возможных
значений случайной величины ("взвешенное" означает, что при
вычислении среднего каждое значение берется столько раз, сколько оно
встречается в реальной совокупности), или пропорционально этому
количеству. Заметим, что существуют случайные величины, не
имеющие математического ожидания, В дальнейшем математическое
ожидание будем обозначать буквой Е с последующим указанием в
скобках соответствующей случайной величины, например Е(х) -
математическое ожидание случайной величины х, E(s2) -
математическое ожидание случайной величины s2 и т.д.
Отметим некоторые свойства математического ожидания.
Математическое ожидание постоянной величины а равно этой
постоянной величине:
Е(а) =в. A.1)
Если ко всем значениям случайной величины х прибавить
постоянную величину а (которая может быть и положительной, и
отрицательной), то математическое ожидание этой суммы равно сумме
математического ожидания случайной величины хи а:
Е(х + а)=Е(х)+а. A.2)
25
Математическое ожидание произведения случайной величины х на
постоянную величину а равно произведению математического
ожидания случайной величины х на эту постоянную:
Е(ах)=аЕ(х). A.3)
Очевидно также, что
Е(х/а) -Е(х)/а. A.4)
Математическое ожидание суммы (разности) случайных величин
х и z равно сумме (разности) их математических ожиданий:
Е(х + z) = Е(х) + E(z); Е(х -г)= Е(х) - E(z). A.5)
Если варьирование значений случайных величин (например, х и z)
осуществляется взаимно независимо, имеет место равенство:
E(xz) =E(x) -E(z). A.6)
1.10. МНОГОМЕРНЫЕ СЛУЧАЙНЫЕ ВЕЛИЧИНЫ
В предыдущих параграфах мы ограничивались рассмотрением
какой-либо одной случайной величины. На практике могут
возникать более сложные ситуации. Например, каждый компонент
некоторой физической совокупности может характеризоваться не одним,
а двумя, тремя и более свойствами. Так, в каждом из образцов,
принадлежащих некоторому объекту, можно исследовать обменные
кальций, магний и натрий, в результате чего одной физической
совокупности образцов будут соответствовать три статистические
совокупности результатов испытаний, отражающие свойства трех
случайных величин. Отдельные тройки значений этих случайных
величин связаны между собой принадлежностью одному элементу
опробования, в силу чего физической совокупности кохмпонентов
можно поставить в соответствие статистическую совокупность
троек значений трех случайных величин.
Появление некоторого сочетания значений трех случайных
величин можно рассматривать как одно событие одной, но многомерной
(в данном случае - трехмерной) случайной величины.
Многомерная случайная величина, или случайный вектор, как
всякая случайная величина соответствует вполне определенным
общим условиям проведения испытаний. В зависимости от числа
случайных величин, образующих случайный вектор, различают
двумерные, трехмерные и т.д. случайные величины. При этом совсем не
обязательно, чтобы все случайные величины, входящие в случайный
вектор, принадлежали одной физической совокупности, как это
имеет место в рассмотренном выше примере. Так, влажность почвы
на глубинах 0-5, 5-10, 10-20 и 20-30 см можно рассматривать как
четыре случайные величины, соответствующие четырем разным
физическим совокупностям. Однако, учитывая, что каждому образцу в
26
слое 0-5 см соответствуют определенные образцы в нижележащих
слоях, влажность почвы на четырех глубинах можно рассматривать
как одну четырехмерную случайную величину. Здесь каждые четыре
образца с разных глубин и соответствующие им значения случайных
величин влажности связаны принадлежностью к одной точке
поверхности почвы (соответствуют одной скважине).
Аналогично в качестве многомерной случайной величины могут
выступать связанные принадлежностью к одному разрезу величины
мощности горизонтов, содержания гумуса по горизонтам, рН,
глубина грунтовых вод и другие свойства. Общие условия для таких
случайных векторов определяются общими условиями проведения
испытаний при исследовании отдельных случайных величин. Эти
общие условия, а следовательно, и физическая размерность
случайной величины, должны быть постоянными для всего исследования,
так как в противном случае мы будем иметь дело с разными
случайными величинами.
Заканчивая рассмотрение основополагающих понятий, отметим,
что рассмотрение отдельных свойств почв как случайных величин
далеко не всегда представляется очевидным и правомерным.
Например, нередко возникают сомнения, можно ли считать, что
содержание гумуса в данном образце является случайной величиной, если
содержание гумуса как некоторой материальной субстанции в образце
вполне определенно и неизменно,а значит, представляет собой
постоянную величину. Очевидно, что содержание гумуса в данном
образце в данный момент времени в принципе вполне определенно и
физически есть величина постоянная. Дело лишь в том, что она нам
не известна; а вследствие того, что отдельные измерения этой
постоянной оказываются неодинаковыми, для описания изучаемого
явления в качестве математической модели используется случайная
величина. При этом математическое ожидание случайной величины и
является той самой постоянной, которая характеризует содержание
гумуса в образце и для оценки которой с приемлемой точностью
иногда приходится неоднократно повторять измерения.
Случайная величина как математическая модель лежит в основе
многих статистических методов изучения почв и связанных с ними
природных явлений, и плодотворность таких представлений сейчас
уже ни у кого не вызывает сомнений.
Вопросы для самоконтроля.
1. Каковы причины использования разных шкал измерений?
2. В чем проявляется относительность деления признаков на
качественные, порядковые и количественные?
3. Что такое испытание и что является его результатом?
27
4. Какие события и величины относятся к категории случайных?
5. Всякая ли переменная величина является случайной и всегда ли
случайная величина представляет собой переменную?
6. При каких условиях значения переменной могут считаться
принадлежащими одной случайной величине?
7. Когда и почему второстепенные условия могут быть причиной
переменности и случайности событий?
8. Почему пространственно-временные границы объекта должны
входить в понятие испытания?
9. Для чего и когда требуется регламентация параметров
элементов опробования?
10. Какова необходимость введения понятия генеральной
физической совокупности?
11. В чем отличие генеральной статистической совокупности от
статистической совокупности?
12. К чему приводит несоблюдение постоянства общих условий,
определяющих испытание?
13. Что такое математическое ожидание и каковы его свойства?
14. Что такое А>мерная случайная величина и что может собой
представлять элемент опробования, характеризуемый такой величиной?
15. Почему случайная величина как математическая модель
находит широкое применение в экспериментальном почвоведении?
Глава 2
ВЫБОРКИ И ГРУППИРОВКА
2.1. РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ И РАНДОМИЗАЦИЯ
Целью экспериментального исследования всегда является
изучение объекта с помощью свойств генеральной совокупности, при
этом генеральные физические совокупности практически никогда не
анализируются целиком, поскольку обычно технически это сделать
невозможно, да и не нужно. В большинстве случаев о свойствах
объекта приходится судить на основании результатов испытаний над
некоторым конечным числом компонентов физической
совокупности, называемым выборкой. Выборка никогда не представляет
интереса сама по себе, но с ее помощью исследователь получает
возможность судить о свойствах генеральной совокупности, а тем
самым и об объекте. Целью всякого экспериментального исследования
является изучение свойств объекта, а выборка служит всего лишь
источником информации о нем. Именно поэтому крайне важно,
чтобы выборка правильно отражала свойства объекта, чтобы
выборка была представительна, репрезентативна. Лучшим способом
обеспечения репрезентативности выборки считается рандомизация,
т.е. случайность отбора компонентов физической совокупности на
испытание. Рандомизация является условием чистоты опыта
независимо от того, будут ли в дальнейшем подвергаться статистической
обработке результаты исследований или нет. Очевидно, что
случайность значений изучаемой величины в эксперименте обычно
оказывается опосредованной случайностью выбора компонентов
физической совокупности в процессе испытания.
Случайность выбора компонента физической совокупности (или
точки опробования) на анализ совсем не означает, что следует брать
"что попало" и "где попало". Не говоря уже о том, что должны
соблюдаться общие условия проведения испытания (а значит нельзя
брать "что попало"), для обеспечения случайности следует
пользоваться некоторыми правилами, регламентирующими выбор
местоположения точки опробования в пространстве объекта (а иногда и
во времени).
2.2. МЕХАНИЧЕСКИЙ ОТБОР
Наиболее простым способом, нередко эффективно
обеспечивающим репрезентативность выборки, является механический (или
29
систематический) отбор, когда образцы (точки опробования) для
анализа отбирают через равные интервалы расстояния (или
времени). По сути дела именно этот принцип лежит в основе отбора
средней пробы на анализ, когда образец рассыпают на бумаге, делят
линиями на несколько квадратов и из каждого ложкой берут
некоторое количество почвы для приготовления пробы.
Чаще всего механический отбор осуществляют вдоль некоторой
линии. При этом нужно решить вопрос, через какой промежуток
брать образцы (или делать измерения) и откуда начинать отсчет.
Если объем выборки определен заранее, то желательно выбрать
такой промежуток между соседними точками, чтобы вся линия
опробования была представлена в выборке. Здесь можно поступить
следующим образом: разделить длину линии опробования (измеренную в
метрах, шагах и т.д. для непрерывных объектов или числом
измерений для дискретных объектов) на предполагаемый объем выборки и,
округлив полученное отношение до ближайшего удобного с
практической точки зрения числа, взять последнее как искомый
промежуток между точками опробования. Для обеспечения случайности
начала отсчета его можно определить как число букв в слове, с
которого начинается произвольно открытая страница любой книги. Это
число и будет числом единиц длины, либо числом элементов
дискретного объекта, с которого начинается отбор.
Так, если из 48 агрегатов некоторого размера, выделенных при
сухом просеивании образца почвы, для определения порозности
нужно отобрать 5, то для проведения механического отбора все
агрегаты должны быть расположены в один ряд. Исходя из отношения
48/5 интервал опробования можно взять равным 10. Отбор можно
начать с третьего агрегата (если воспользоваться тем
обстоятельством, что настоящий абзац начинается со слова, состоящего из трех
букв). Тогда анализу будет подвергнут каждый десятый агрегат,
начиная с третьего; они будут расположены на 3, 13, 23, 33 и 43-м
местах.
Механический отбор на поверхности можно осуществлять в
точках, равномерно распределенных по площади, например, по углам
квадратов, на которые разбивается вся исследуемая территория.
Следует отметить, что систематический отбор, подкупающий
своей простотой, не всегда оказывается надежным в обеспечении
рандомизации. Известно, что свойства почвы в пространстве
нередко изменяются с более или менее выраженной периодичностью,
особенно в условиях антропогенного воздействия (лесные посадки,
дренаж, орошение и пр.). Если в таких условиях расстояния между
точками опробования окажутся близкими к длине периода в изменении
30
изучаемого свойства, то это может оказаться причиной искаженного
представления об этом свойстве.
2.3- ТАБЛИЦА СЛУЧАЙНЫХ ЧИСЕЛ И ЕЕ ИСПОЛЬЗОВАНИЕ
Наиболее надежную рандомизацию можно обеспечить,
воспользовавшись таблицей случайных чисел. Для составления такой
таблицы необходимо иметь достаточно длинный ряд цифр,
последовательность которых чисто случайна.
Для удобства пользования все случайные цифры располагают в
определенной системе, например, считают, что каждые
последовательно полученные 3, 4 или 5 цифр составляют трех-, четырех- или
пятизначное число. По тем же соображениям удобства эти числа
располагают в виде таблиц, причем каждые строки и столбцы цифр
иногда еще и нумеруют. Полученная подобным путем таблица и
называется таблицей случайных чисел (см. табл. I в ПриложенииI,
Такая таблица предназначена для определения номеров тех точек
опробования, в которых должны быть проведены измерения или
взяты образцы.
Предположим, что после сухого просеивания некоторого образца
почвы мы получили 57 агрегатов размером 7-10 мм. Из этих 57
агрегатов нам нужно выбрать 5 для определения их порозности. Чтобы
не было никакой предвзятости в выборе, расположим все агрегаты в
виде цепочки, причем за начало цепочки будем считать ее левый
конец. Припишем всем агрегатам номера от 01 до 57. Для определения
номеров агрегатов, которые следует подвергнуть анализу,
рассмотрим таблицу случайных чисел, причем нет никакой необходимости
начинать просмотр таблицы с самого начала. Ее можно
использовать с любого столбца и с любой строки, а вести просмотр можно
в любом направлении - сверху вниз или снизу вверх, справа налево
или в противоположном направлении. Например, можно начать
просмотр с числа 62846, стоящего в 15-й строке столбца 15-19 (см.
табл. I).
Каждое число таблицы случайных чисел имеет пять знаков. Нас
же в данном примере интересуют только двузначные числа (в
пределах от 01 до 57), поэтому в каждом из пятизначных чисел будем
рассматривать только первые две цифры, например в числе 62846 мы
учитываем только 62. Агрегата с таким номером у нас нет. Идя от
числа 62846 вниз по столбцу, получаем число 09 (первые две цифры
09351). Агрегат с таким номером у нас имеется, значит, это - первый
из пяти нужных нам агрегатов. Аналогично просматривая
В Приложении таблицы пронумерованы римскими цифрами.
31
следующие цифры вниз по столбцу, найдем номера остальных
агрегатов: 36,42,01, 28.
Точно так же в пятизначных числах можно было бы
рассматривать только последние две цифры. Из того же столбца 15-19,
начиная с 15-й строки и двигаясь вниз, мы получили бы: 46, 51, 23, 08, 28,
т.е. анализу были бы подвергнуты агрегаты с этими номерами.
Для отбора случайных образцов в поле можно поступить
следующим образом. На прозрачной основе (калька, оргстекло)
вычерчивают сетку квадратов. Каждую вертикальную и горизонтальную
линии нумер уют, так что для каждого пересечения линий (точек)
можно точно указать их адрес. Если такую сетку равномерно по
площади распределенных точек (т.е. пересечений линий)
произвольно, "как попало", наложить на карту изучаемой территории, то
выбор местоположения намечаемого числа образцов можно свести к
нахождению соответствующего числа адресов среди тех точек,
которые выпали на всю площадь интересующей исследователя
территории.
Определив адрес первой точки, т.е. с помощью таблицы
случайных чисел найдя номер сначала вертикальной, а затем
горизонтальной линии, на пересечении которых лежит точка, устанавливают,
выпала ли эта точка на изучаемую территорию или нет. Если
выпала, то эта точка определяет место, где должен быть отобран первый
образец. Аналогично отыскивают местоположение остальных точек
отбора образцов.
2.4. ПОСЛОЙНАЯ ВЫБОРКА. ЗНАЧЕНИЕ РАНДОМИЗАЦИИ
В некоторых случаях, когда объект неоднороден (например,
почвенный покров участка как объекта образован почвами разной
степени окулътуреиности или разного вида), причем доля участия
разнородных частей известна, чтобы не ставить представительность
этих частей в выборке в зависимость от случая, прибегают к
послойной (или зональной) выборке. Суть этого способа состоит в том, что
рандомизацию проводят дифференцированно для каждой части
(зоны, слоя, как их называют в статистике), причем объемы подвы-
боров в этих частях пропорциональны доле их участия в составе
целого объекта. Такой прием позволяет более точно охарактеризовать
объект, в особенности, если объем выборки невелик.
Упомянутые выше приемы не исчерпывают всех способов
рандомизации, однако большинство из них базируется на знании
статистики, а мы лишь приступаем к знакомству с ней, поэтому
изложением трех описанных выше способов мы и ограничимся.
32
Заканчивая рассмотрение вопроса о рандомизации выборок и
способах ее обеспечения, отметим, что принцип рандомизации очень
важен в научном эксперименте, если характер исследуемого явления
допускает некоторую "вольность" в обращении с ним. Дело
заключается не только в том, что исследователь может сознательно
отбирать наиболее "подходящие" для работы компоненты физической
совокупности. Даже при полной объективности и добросовестности
в подходе к изучаемому вопросу нельзя избежать субъективного
взгляда на отбираемые образцы, а также психологических и
физиологических аспектов, нередко играющих немалую роль. Поэтому
отобранные "на глаз" выборки всегда в той или иной степени дают
превратное представление о характеризуемой ими совокупности1.
Все вышесказанное о важности получения случайной выборки
совсем не означает, что в отсутствии рандомизации опыты теряют
свое значение и статистической обработке не подлежат. Дело в том,
что в зависимости от характера проводимого исследования
отсутствие рандомизации может в большей или меньшей мере извращать
наше представление об изучаемых явлениях и процессах. В
соответствии с этим и выводы, получаемые в результате статистической
обработки таких опытов, также не будут лишены безупречности.
Нужно твердо усвоить, что рандомизация - это не каприз математиков-
теоретиков, а необходимое условие чистоты проводимых опытов.
2.5. ГРУППИРОВКА И РЯДЫ РАСПРЕДЕЛЕНИЯ
Выборка как источник информации о генеральной совокупности
дает возможность исследовать п значений случайной величины, где п
- объем выборки. Используя для обозначения случайных величин
буквы латинского алфавита, отдельные значения случайной
величины X, можно обозначить как хь где / - номер испытания,
принимающий значения от i = 1 до / = л. В зависимости от особенностей
изучаемой случайной величины отдельные ее значения могут
выражаться результатами измерений на любой из четырех шкал, т.е. это
могут быть числа для количественных признаков, названия или
условные обозначения для качественных признаков и т.д.
При проведении испытаний практически никогда не бывает так,
чтобы от первого результата xt к последнему хп значения случайной
величины изменялись закономерно. Например, трудно допустить,
что при определении водопрочности агрегатов некоторого размера
•Более подробно вопрос о значении рандомизации изложен в предисловии В.Н. Пере-
гудова к книге Дж.У. Снедекора "Статистические методы в применении к
исследованиям в сельском хозяйстве и биологии". Сельхозиздат. М., 1961. В гл.17 той же
книги можо найти описание способов получения рандомизированных выборок.
33
сначала будут попадаться только водопрочные агрегаты, а затем
только неводопрочные. Столь же сомнительно, чтобы в
рандомизированной выборке содержание обменного кальция от первого
анализа к последнему постепенно уменьшалось или наоборот
увеличивалось >
Получаемые в процессе исследования выборочные данные
обычно представляют собой неупорядоченный ряд результатов
измерений. Упорядочение значений, приведение их в определенную систему
представляет собой задачу, с которой прежде всего сталкивается
исследователь при статистической обработке полученных результатов.
При малом объеме совокупностей упорядочение данных не
играет большой роли, но для совокупностей большого объема, когда
число значений случайной величины измеряется десятками, тем более
сотнями, упорядочение оказывается если не необходимым, то по
меньшей мере желательным.
Наведение порядка в хаосе полученных данных обычно сводится
к представлению результатов испытаний в виде ряда распределения
(или вариационного ряда).
В простейшем случае ряд распределения может быть получен ран-
жироЕанием данных, т.е. с помощью размещения всех значений
случайной зеличины в порядке их возрастания (конечно, если признак
не измерен на классификационном уровне). При этом исходная
неупорядоченная последовательность значений х( (здесь /=1,2...л есть
порядковый номер в получении значений ;с,) будет заменена
последовательностью в порядке возрастания значений х{. Эти значения в
упорядоченной последовательности можно обозначить X; , где
/ = 1,2,...,л есть номер (место) в ранжированной последовательности.
Так, если при измерении рН получены п = 5 значений xt (для / от
1 до 5): 5,8; 5,4; 5,9; 6,3; 6,0, то после ранжирования х, разместятся в
последовательности л2, х\, хз, *5, ха; обозначая эти ранжированные
значения через х*, получим: х* =5,4; х\ =5,8; х\ =5,9; х*4 = 6,0;
х5 = 6,3.
Если объем выборки велик, то процедура ранжирования не
слишком облегчает обзор данных, и тогда прибегают к их группировке,
пригодной в качестве метода свертки информации и для
качественных признаков. Получающийся при этом ряд распределения - это
перечень классов значений случайной величины с указанием их
встречаемости. Число, показывающее, сколько раз в пределах
совокупности встречаются значения, принадлежащие тому или другому
классу, называется абсолютной частотой (или просто частотой).
34
В дальнейшем абсолютную частоту (за исключением специально
оговариваемых случаев) будем обозначать буквой/.
Пусть к - число выделенных классов, а у = 1, 2, ..., к - номер
класса. Значение у-того класса обозначим через Xj а соответствующую
ему частоту - через yj. Тогда ряд попарно связанных значений Xj и/j
образует ряд распределения (имеются в виду распределения частот
по разным классам значений случайной величины).
Очевидно, что для данной совокупности сумма частот всех
классов равна объему совокупности п:
J£fj=n> B.1)
м
где знак £ означаег суммирование частот^, для которых у пробе-
гает значения оту = 1 до у: ~ /с, т.е. £ // ~ /i + h +• • л/к •
Нередко подобную громоздкую запись суммирования можно
записать проще: 2У/, что означает суммирование /J по у, и даже совсем
j
просто в виде £ /, если по смыслу описываемой операции не может
быть разночтений.
Встречаемость отдельных значений по классам fj можно
охарактеризовать и с помощью относительных частот (или частостей),
представляющих собой отношение абсолютных частот к объему
выборки (или, что то же, объему ряда). Обозначив относительную час-
тотуу-го класса /?,, получим /?; = — .
Если сумма абсолютных частот по всем классам равна //, то
сумма относительных частот равна единице (с точностью до
округления):
£р =Itll = A±£±^lL = l. B.2)
j П П
Иногда частоты выражаются не в долях единицы, а в процентах,
и тогда сумма относительных частот оказывается равной 100%.
Конкретное содержание рядов распределения и особенности их
построения во многом определяются характером выборочной
информации и уровнем измерений случайной величины.
35
2.6. ГРУППИРОВКА КАЧЕСТВЕННЫХ
И ПОРЯДКОВЫХ ПРИЗНАКОВ
При измерениях на именной шкале значениями отдельных
классов Xj являются наименования, символы, числа, отражающие
качественную особенность каждого класса, а группировка сводится к
подсчету числа случаев, когда то или иное качество появилось при
проведении испытаний. Примерами получающихся в подобных случаях
рядов распределений может служить ряд, отражающий
встречаемость отдельных групп минералов среди п = 200 зерен пылеватой
фракции, выделенной из некоторого конкретного образца почвы
(табл. 2.1).
Таблица 2.1
Встречаемость зерен пылеватой фракции по разным группам минералов
{pj даны с точностью до 0,01)
Группа минералов
(*;)
Абсолютная
частота/}
Относительная
частота/?/
Кварц Полевые шпаты
(*0 (*2)
101 77
0,50 G,38
Слюды
(*з)
15
0,08
Прочие
(*4)
7
0,04
Сумма
частот
200
1,00
Последовательность, в которой располагаются классы значений
случайной величины, измеряемой на именной шкале, чаще всего
определяются частотами соответствующих классов: первые содержат
наиболее часто встречающиеся (в табл. 2.1 - кварц), последние -
редко встречающиеся.
Группировка результатов испытаний, в которой измерения
проводятся на порядковой шкале, очень похожа на только что
рассмотренную. Отличие состоит лишь в том, что, во-первых, классы
значений здесь обычно располагаются не по принципу их
встречаемости, а в порядке усиления (или уменьшения) проявления
изучаемого признака, и во-вторых, положение границ между
классами здесь обычно более условно. Примером получающихся при
этом рядов распределений может служить табл.2.2.
Таблица 2.2
Ряд распределения агрегатов с разной степенью выраженности серой окраски
Окраска агрегатов ( Xj)
Абсолютная частота/;
Темно-серые
53
Серые
81
Светло-серые
11
Палевые
5
Всего
150
36
2Л. КЛАССЫ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ
Более подробного рассмотрения заслуживает группировка
значений случайных величин, измеренных на интервальной шкале или
шкале отношений.
Группировка количественных признаков начинается с того, что
весь диапазон значений случайной величины делят на некоторое
число интервалов одинакового размера, на некоторое число классов,
как правило, одинаковой ширины.
Выбор числа классов к осуществляют в известной мере
произвольно. Прежде всего при этом обычно учитывают объем выборки и,
с увеличением которой от 20- 30 до 500- 1000 рекомендуется число
классов увеличивать от 5-6 до 10-11. Однако конкретные
особенности совокупностей, как и преследуемые цели, могут существенно
повлиять на выбор числа классов.
От числа классов зависит их ширина, или классовый промежуток,
выбор которого тоже в известной степени произволен. Примерную
оценку классового промежутка с можно получить, разделив
интервал, в пределах которого варьируют выборочные значения
случайной величины, на планируемое число классов. Для этого среди
всех значений случайной величины находят минимальное хШш и
максимальное Хтах и разность между ними делят на к. Полученное
отношение округляют до ближайшего "удобного" числа, которое и
берут в качестве с.
Так, если для порозности почвы вычисленное отношение
оказалось равным 2,3%, то более разумно взять за величину с не 2,3%, а
2,0, либо 2,5%.
При выборе классового промежутка нужно иметь в виду, что
точность его вычисления должна соответствовать той точности, с
которой получены значения случайной величины. Если обозначить
погрешность, с которой проводятся результат измерений, через А,
то классовый промежуток с должен быть кратен целому числу
погрешностей А, т.е. должно соблюдаться условие с ± тД, где т -
некоторое целое число, равное или большее 1.
Поэтому, например, если значения рН вычислены с точностью до
А = 0,05, то нельзя выбрать с = 0,07 и следует принять с = 0,05
(т = 1), либо взять с = 0,10 (т = 2).
После того как выбор величины классового промежутка
осуществлен, можно приступить к выделению самих классов, т.е. к
установлению начала и конца каждого из них и к нахождению их середин.
Под началом и концом класса следует понимать соответственно те
наименьшие и наибольшие значения случайной величины, которые
еще могут быть отнесены к данному классу. Очевидно, что при
з*
37
таком понимании начала и конца классов одно и то же знсчение не
может быть взято как конец одаого и начало соседнего классов.
Обычно нумерацию ведут от классов с наименьшими знагзншгчи
величины к классам с наибольшими значениями. В этом случае
конец любого предыдущего класса меньше начала последующего
всегда на величину Л, т.е, если конец у-го класса есть х", а начало
O'+U-ro класса есть х)+1,то
х)' = х;+1-Д. B.3)
Начала соседних классов, как и их концы, отличаются друг от
друга на величину классового промежутка, т.е.
x'hx=x)+c B.4)
и
*у+1=х; + с. B.5)
Не обязательно в качестве начала первого, наименьшего, класса
брать jtmiii. Исходя из соображений удобства, за начало первого
класса можно взять и значение, несколько меньшее лъ«п. В случае,
когда с = А, начало и конец каждого класса будут выражены одним и
тем же числом (x'j = x'j ), т.е. каждому классу будет соответствовать
одно значение случайной величины.
Если с > А, то каждому классу будет принадлежать несколько
отличных значений, среднее из которых представляет собой середину
класса. Обычно середину класса Xj находит как полусумму начала и
конца класса:
jf = *}+*)' B.6)
3 2
Если с = wA, то, как нетрудно показать,
, тп-\ .
*,=*}+ —Д. B.7)
Для удобства вычислений желательно, чтобы число было
целым, откуда следует, что выгодно брать число m нечетным.
При w>10 середину классов можно вычислить как полусумму
начал соседних классов:
X'i + Х'Г
Л"
J
J J+{ B.8)
38
или по эквивалентной формуле
Sj = х}+0,5е. B.9)
При этом число т целесообразно брать четным.
Середины соседних классов, как и их концы и начала,
отличаются друг от друга на величину классового промежутка.
Иногда при выделении классов предпочтительнее находить более
удобные значения середан классов, а не их начала и концы. В этих
случаях после выбора ширины класса в окрестности Хтт
(предпочтительно от Xmm до Xmm+ 0,5с) выбирают числовое значение,
удовлетворяющее соображениям "удобства", и принимают его за середину
первого класса. Затем, пользуясь приведенными выше
соотношениями, устанавливают середины остальных классов, начала и их концы.
В результате подсчета частот получают ряд распределения, в
котором серединам классов Зс; соответствуют частоты fp
показывающие, сколько раз значения случайной величины попали в
соответствующий класс. Примером подобного ряда может служить табл.2.3,
полученная при группировке и = 30 значений порозности агрегатов
В УСЛОВИЯХ, КОГДа JCmin = 47,3%, Jtmax = 63,1% И Д = 0,1%.
Группировка осуществлялась, исходя из удобства начал классов
при с = 3,0% и полученном при этом числе классов к = 6 (начала x'j
и концы x'j классов в табл.2.3 приведены для иллюстрации того
интервала значений, которые принадлежат каждому классу).
*;-*;
*/
/у
Таблица 2.3
Рад распределения порозности агрегатов
47,0-49,9 50,0-52,9 53,0-55,9 56,0-58,9 59,0-61,9 62,0-64,9
48,5 51,5 54,5 57,5 60,5 63,5
1 3 6 7 9 4
Наряду с установлением начала и конца классов как
необходимых элементов при подсчете часгот, в ряде случаев возникает также
потребность в выделении границ между классами *,/#+;;, каждую из
которых можно рассматривать одновременно и как верхнюю
границу предыдущего j-ro класса и как нижнюю границу последующего
(j+1)-го класса. Граница между классами равна полусумме конца
предыдущего и начала последующего классов:
X ; "Г X ;. 1
Очевидно такж^, что нижняя границау-го класса х/ -х\}
находятся по формуле
39
XU-D/J = XJ -°»5Л = *J -°>5c ' <2Л !>
а верхняя граница j-го класса Хуу+]} - по формуле
х]1фх) = х]+0,5Д = х, +0,5с. B.12)
При т = с/А £ 10 за границу между классами можно принимать
начала отдельных классов, т.е. считать, что
ХЛ(№) ~ ХН •
Так для примера, представленного в табл.2.3, учитывая, что
с/А = 30, за границу между первым и вторым классами можно
принять 50,0%, за граничу между вторым и третьим 53,0% и т.д. Нижняя
граница первого класса здесь равна 47,0%, а верхняя граница
последнего составляет 65,0%. Нетрудно убедиться, что соседние
границы между классами (а соответственно, нижняя и верхняя граница
каждого класса) отличаются друг от друга ровно на величину
классового промежутка.
В отличии от начала и концов классов, которые всегда
представляют собой значения, если не практически, то принципиально
могущие получиться при проведении испытаний, границы между
классами нередко оказываются условными, лишенными реального
смысла. Действительно, если ряд распределения составлен для дискретной
случайной величины, например, для числа колоний в чашке Петри,
то граница, равная 18,5 колоний, есть чистая абстракция.
2.8. ГРУППИРОВКА ЛОГАРИФМОВ ПЕРЕМЕННЫХ
На практике нередко встречаются ситуации, когда требуется
осуществи хо группировку не отдельных значений х, а их логарифмов.
Если для каждого х( уже известны у,- = lgxb то вся процедура
группировки у,- ничем не отличается от того, что было описано в § 2.7. Если
же для х{ логарифмы не найдены, а ряд распределения для х имеется,
то возникает желание получить распределение логарифмов с
помощью соответствующего преобразования рада распределения
значений xh что совершенно недопустимо.
Учитывая, что нахождение всех у, = lgx, иногда представляет
определенные трудности, для построения ряда распределений у можно
поступить следующим образом. Для Хтм и лъг находят их
логарифмы >?тах = IgA'mcx И )>min = IgAmin. РаЗДСЛИй ОЗЗНОСТЬ Между Vmav И } mm На
предполагаемое число классов к и округлив полученное отношение
до "удобного" числа с двумя значащими цифрами, получают
величину классового промежутка су С той же точностью Дг с какой
берется су, устанавливаю! границы между классами у/УGЧ// (они же
40
cv
являются началами классов y)+lt поскольку —— > 10) и середины
классов fj. Подсчет частот по выделенным классам значений yj
можно осуществить без нахождения всех у{ = \%хь если для Ууу+ц
найти антилогарифмы с точностью до ОДА*, соответствующие Xyy+j) в
логарифмическом масштабе. Подсчет частот по этим отдельным
классам значений х{ дает распределение частот по классам $j.
Для иллюстрации способа рассмотрим группировку п = 70
результатов определения водопроницаемости в логарифмическом
масштабе. Ранжированные данные по водопроницаемости х{ с
точностью до целых мм/мин образуют следующую совокупность:
1, I, 2, 2> 2, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9,
9, 10, 10, 10, 10, 11, 11, 12, 13, 13, 13, 13, 14, 14, 14, 14, 15, 16, 16, 16,
17, 17, 17, 17, 18, 18, 19, 19, 21, 21, 23, 24, 24, 26, 28, 31, 33, 33, 38, 48.
Здесь Xmin = 1 и Яшах = 48, огкуда ушгх~ lgl = 0,0000 и
jmax= lg48 = 1,6812. Если принягь к = 7, то, поскольку
Ушах - .Vmin 16812 - 0,0000
£ш*—rus«L = ! = оД402, можно за величину классового
к 1
промежутка взять су = 0,25. Тогда границами между классами
(началами классов) окажутся значения Ууу+и = 0,00; 0,25; 0,50; ...; 1,75,
антилогарифмы которых дадут граничные значения для ряда х: 1,0;
1,8; 3,2; 5,6; 10,0; 17,8; 31,6 и 56,2. При этом серединам классов у}
0,12; 0,3/; 0,62; ...; 1,62 будут соответствовать следующие начала и
концы классов в значениях х: 1, 2-3, 4-5, 6-9, 10-17, 18-31 и 32-55 (в
первом классе начало и конец класса совпадают, поскольку х( < 1,8 в
данном случае это только л{- 1). Подсчет частот по этим классам
дает следующий вариационный ряд для у{ = lgxt:
Уj ОД 2 0,37 0,87 1,12 1.37 1,62
fi 2 1M. 23 12 4
Аналогичный прием можно использовать и в том случае, когда
при наличии совокупности значений х требуется получить ряд
распределения или других нелинейных функций от л*.
2.9. ПРЕДСТАВЛЕНИЕ РАСПРЕДЕЛЕНИЙ
С ПОМОЩЬЮ КВАНТИЛЕЙ
Результаты выборочных наблюдений могут быть представлены
не только в виде рядов распределения, когда подсчету частот
предшествует выделение классов значений признака. Свертку
информации можно осуществить иначе, указав для изучаемой случайной
41
величины ряд значений эмпирически найденных квантилей.
Квантиль - это такое значение случайной величины, меньше которого в
совокупности содержится у-100% всего числа значений (или доля у от
общего числа значений). Если у-100%-й квантиль случайной
величины X обозначить Х(г), то лг(о,н» A0%-й квантиль) представляет собой
значение, меньше которого в совокупности содержится 10% общего
числа значений, a X(cj5) - значение, меньше которого содержится 75%
результатов испытаний. Квантили, соответствующие значениям у,
равным 0,1; 0,2; ...; 0,9, называются децилями. Децили делят
ранжированную последовательность значений случайной величины на 10
равных по числу частей. Квантили, делящие ранжированную
последовательность на 4 равные части, называются квартилями.
Квартиль X(o..i5), отсекающий 25% наименьших значений, обычно
называют нижним квартилем, а л>ол5), отсекающий 75% наименьших
значений, (и соотвегственно 25% наибольших значений), - верхним
квартилем. По аналогии с этим квантили jcrnjo) и Хф,щ называются
нижним и верхним децилями, Квантиль Х(о,5о>, делящий
ранжированную совокупность на дае равные по числу половины
(являющийся вторым квартилем), называется медианой.
Эмпирические значения квантилей по выборке объема п можно
найти по общей формуле
л;(у) =х*к +Д(**+1 -**) . V2.13)
где хк и хк+х значения изучаемой случайной величины,
находящиеся в ранжированной последовательности (в порядке возрастания)
на к-и и (/ст1)-м местах, а к и А - соответственно целая и
неотрицательная дробная @ < А < J) части в произведении
у(л + 1)=* + Д, B.14)
где у задается в долях единицы.
Так для п = 25 и у = 0,25 при вычислении нижнего квартиля имеем
у(и + 1) = 0,25 хB5 + 1) = 6,5 = 6 + 0,5; к = 6, А = 0,5 и, согласно
B.13), получим Х(о,25)= х*в+ 0,5 х (х* - х*6)> т.е., чтобы найти искомый
квантиль, следует к значению, стоящему на 6-м месте в
ранжированной последовательности, прибавить половину разности
значений, стоящих на 7-м и 6-м местах.
Разумный набор квантилей и значения у, для которых допустимо
вычислять квантили, зависят от объема выборок и желаемой
детальности описания выборочной совокупности.
Оптимальный набор у для описания эмпирического ряда может
быть следующим: 0,05; 0,10; 0,25; 0,50; 0,75; 0,90; 0,95. Однако не д;я
всех выборок такой набор квантилей можно получить, поскольку
для того чтобы набор квантилей имел содержательность, устойчиво
42
отражал характер вариабельности исследуемого свойства, разумно
использовать значения у, удовлетворяющие ограничению
sy*l- B15)
(Согласно менее жесткому ограничению, у и 1 - у не должны быть
меньше 1/(и+1)).
Поэтому вышеприведенный ряд значений у может быть
использован дт1я нахождения квантилей лишь в рыборках с объемом п £ 100.
При меньших объемах п набор значений будет сокращенным, а в
некоторых случаях и несколько измененным (см. табл.2.4): 0,06 и 0,94,
если для этих у еще можно вычислять квантили, а для у, равных 0,05
и 0,95, это уже невозможно, и аналогично 0,15 и 0,85 вместо 0,10 и
0,90.
Таблица 2.4
Оптимальный набор значений у для вычисления квантилей
в зависимости с г объема выборок л
п
п>\№
11-99
25-70
16-24
5-15
2<я<5
0,05
0,06
0,10
0,10
0,10
0,15
0,25
0,25
0,25
0,25
0,25
У
0,50
0,50
0,50
0,50
0,50
0,50
0,75
0,75
0,75
0,25
0,25
0,90
0,90
0,90
0,85
0,95
0,94
Допустим, что при определении содержания гумуса в пахотном
слое дерново-подзолистой почвы в пределах некоторого участка с
повторностыо п = 25 были получены следующие результаты (х,-,%):
2,02; 1,68; 1,75; 2,12; 1,58; 2,28; 1,41; 1,78; 1,53; 3,19; 1,49; 1,83; 1,48;
2,11; 1,91; 1,85; 1,66; 2,33; 2,47; 1,78; 1,69; 1,89; 1,77; 1,93; 1,85.
После ранжировки ряд приобрел следующий вид (**, %; здесь / -
номер места в ранжированной последовательности от i = 1 до
/ = 25): 1,41; 1,48; 1,49; 1,53; 1,58; 1,66; 1,68; 1,69; 1,75; 1,77; 1,78; J ,78;
1,83; 1,85; 1,85; 1,89; 1,91; 1,93; 2,02; 2,11; 2,12; 2,28; 2,33; 2,47; 3,19.
При л = 25 можно вычислить квантили для у, равных 0,10; 0,25;
0,50; 0,75 и 0,90 (см. табл.2.4). При у = 0,10 согласно B.14) имеем
к = 2 и Л - 0,6. Соответственно по формуле B.13), округляя до
сотых, получаем Х(оло) = 1,48 + 0,6 • A,49 - 1,48) = 1,49. Аналогично
получим .\7о,25) = 1,67; хсо.50) = 1,83; Х(о,75) = 2,06 и Х@,90) = 2,39.
Результаты свертки информации с помощью квантилей обычно
представляют в виде таблицы, где наряду с вычисленными
квантилями приводятся также минимальные и максимальные значения
43
(xmin, Xmax) и объем выборки п. Примером такого представления
может служить табл. 2.5.
Квантильный способ представления данных не является самым
удачным в качестве промежуточной процедуры при вычислении
средних и других статистических показателей, но в условиях обычной
обеспеченности даже простой вычислительной техникой это не
столь уж и важно. Этот метод свертки информации заслуживает
внимания прежде всего простотой интерпретации результатов» а
с другой стороны, возможностью в пределах одной таблицы
представления данных для разноразмерных признаков, в том числе и для
случаев, когда объемы выборок заметно различаются (см. табл.2.5).
Таблица 2.5
Квантили некоторых свойств горизонта Am* дерново-подзолистой почвы
(в скобках даны квантили для у = 0,15 и у = 0,85)
Свойство
Гумус, %
Р2О5,мг/100г
Водопроницаемость,
мм/мин
п
25
20
10
Xmin
1,41
4
0,4
0,10
1,49
F)
-
0,25
1,67
11
0,7
Х(У)ДЛЯУ
0,50
1,83
18
1,1
0,75
2,06
24
2,3
0,90
2,39
C8)
-
.Xmax
3,19
48
5,2
2.10. ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ РАСПРЕДЕЛЕНИЙ.
Данные, представленные в виде вариационного ряда, можно
изобразить графически, если по оси абсцисс откладывать значения при-
f. знака, а по оси ординат - частоту.
J^ Существует несколько способов
графического изображения рядов
распределения.
Если вариационный ряд
представлен отдельными значениями
дискретной случайной величины
(с = А) с указанием их абсолютных
или относительных частот, то
график представляет собой значение
Рис.2.1. Распределение частот fj числа 0рДИНаТ В ТОЧКаХ, Соответствующих
Xj ортшгейнов, крупнее 3 мм, выде- отдельным значениям Случайной ве-
ленных из 100 образцов подзолистого ЛИЧИНЫ, И ВЫСОТОЙ, ЛрОПлФЦИОНаЛЬ-
горизонта (объем образца 100 см3) ВОЙ ИХ Часто!ам (]>ЯС.?. I ).
404
30
204
101
0 1
+
Т"
6*j
44
4
0Д5-
0,20-|
ОД*
0,Ш
0,03
0£0
2>,5 -1,0 4,5 5JD 5,5 6/1 6,5 7,0 7,5 3tj
Рис.2.2. Гистограмма распределения
относительных частот pi по классам значений рН
(Xj ) для пахотного слоя почвы в пределах по-
Для непрерывных случайных величии графическое изображение
ряда распределения может быть дано в виде столбчатой диаграммы
(или гистограммы). При этом вариационный ряд изображают в виде
столбиков, границы между которыми проходят по ординатам,
соответствующим границам между классами, ширина основания
столбиков равна величине классового промежутка, а высота
пропорциональна частоте отдельных
классов (рис.2.2).
При необходимости
сравнения на одном рисунке двух
или большего числа
распределений выясняется, что
гистограмма оказывается для
этого не лучшим способом. В
таких случаях гораздо
удобнее пользоваться
графическим изображением
распределений в виде полигона час-
тот. Для построения
полигона частот на график
наносят точки, координаты
которых соответствуют
серединам отдельных классов и
их частотам, после чего
точки, соответствующие
соседним классам, соединяют
отрезками прямых. Полигон
частот должен начинаться и
заканчиваться на оси
абсцисс, чтобы получилась
замкнутая фигура, а это
можно сделать, если с обоих
концов ряда добавить по одному ближайшему классу, имеющему
нулевые частоты (рис.2.3).
Так, для ряда распределения рН (рисЛ.2) полигон следует начать
с класса, для которого Xj = 3,50, а заканчивать классом, для
которого Xj = 7,50; частоты этих классов равны нулю (рис.2.3).
Название "полигон частот" объясняется тем, что полученная в
результате построения фигура представляет собой многоугольник,
ограниченный снизу отрезком оси абсцисс, а сверху и сбоку -
ломаной линией.
3£ 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 Х}
Рис.2.3. Полигон распределения
относительных частот pj по классам значений рН (Xj).
45
I
зон
20
10
о
График, отражающий распределение, можно получить и не
прибегав к группировке. Дз1я этого ряд полученных значений
ранжируют и в полученной последовательности от наименьшего
значения к наибольшему каждому значению приписывают порядковый
номер с г 1 до п, где п ~ объем выборки. Если теперь, откладывая по
оси абсцисс значения случайной величины, а по оси ординат - их
номер в ранжированной последовательности, нанести на график
точки, соответствующие координатам "значение - номер" и соседние
точки соединить отрезками прямых, то получается график,
называемый огивой (рис.2.4).
Пусть, например,
ранжированная последовательность
п = 30 значений
водопроницаемости (х, мм/мин),
определяемой методом трубок с
переменным напором, на дерново-
подзолистой почве под
луговой растительностью
такова:
6, 10, 21, 22, 29, 31, 32, 33, 34,
36, 39, 41, 43, 44, 44, 44, 48, 48,
50,54, 55, 57, 57, 60. 63, 71, 86,
86,92, 125.
Тогда ее огива имеет вид,
изображенный на рис.2.4.
При квантильной
характеристике распределений для
построения графика находят
точки с координатами у
(ордината) и щ (абсцисса) и
соседние точки соединяют
отрезками прямых. Если на том
же графике взять точки с ко-
/
ординатами у и х„ где
/i + l
JC/ есть /-е значение
переменной в ранжированной
последовательности (/ ~ 1, 2, ..., п) и
соседние точки соединить
отрезками прямых то лепсо
убедиться, что такого рода функция распределения достаточно
точно характеризуется ломаной, построенной по нескольким кван-
тильным точкам (рис.2.5).
0 20 49 60 80 100 120 х
Рис.2.4 Огива распределения водопроницае
мости (х, мм/мин)
]
0,8-
0,6-
0,4-
0,2-
0-
» + 1
/
у
/
1 ' 1 » I""
1,2 1,6 2,0 2,4 2,8 \2
Рис.2.5. Распределение 25 значений
содержания гумуса (х) и квантилей распределения
(жирная линия)
46
Вопросы для самоконтроля.
1. Что такое выборка и какими свойствами она должна
обладать?
2. В какой мере репрезентативность выборки связана с
рандомизацией?
3. В чем отличие механической выборки от послойной?
4. Что такое ряд распределения и как он может выглядеть?
5.В чем состоит специфика классов при группировке значений
дискретных и непрерывных случайных величин?
6. Что такое квантиль случайной величины?
7. Какие ограничения существуют для вычисления квантилей?
8. Чем отличаются децили от квартилей и что между ними
общего?
9. О чем может говорить равенство нижних дециля и квартиля?
10. Что общего у гистограммы и полигона частот и чем они
отличаются друг от друга?
Глава 3
ВЕРОЯТНОСТЬ. ПАРАМЕТРЫ РАСПРЕДЕЛЕНИЙ
ЗЛ. СТАТИСТИЧЕСКАЯ УСТОЙЧИВОСТЬ
Несмотря на то, что результаты единичных испытаний над
случайной величиной не предсказуемы заранее, случайности также
оказываются подчиненными некоторым законам, законам случайности.
В этом нетрудно убедиться, если, соблюдая неизменность общих
условий, подучить ряд репрезентативных выборок, принадлежащих
ода ой и той же случайной величине.
Нагфимер, данные, приведенные в табл. 3.1, показывают, что
относительные частоты доя каждой группы минералов от выборки к
выборке не остаются одинаковыми, но меняются они не совсем
бессистемно. Действительно, ни разу не оказалось, чтобы зерен кварца
в выборке было очень мало или они составляли подавляющую часть
от общего числа просмотренных зерен. Точно также на слюдистые
минералы во всех выборках пришлось около 10% и не было случая,
чтЬбы этих минералов оказалось больше, чем кварца или полевых
шпатов.
Таблица 3.1
Относительные частоты, характеризующие встречаемость разных групп минералов
по повторным выборкам одинакового объема
(просматривалось по 100 зерен минералов пылеватой фракции)
Номер
выборки
1
2
3
4
5
кварц
*1
0,51
0,56
0,47
0,45
0,52
Группы минералов Xj
полевые шпаты
х2
0,40
0,33
0,38
0,42
0,35
слюда
*з
0,07
0,06
0,11
0,08
0,12
прочие
*4
0,02
0,05
0,04
0,05
0,01
Можно утверждать, что дальнейшее увеличение числа выборок
не изменит выявленную в общих чертах картину распределения
относительных частот, и для каждой группы минералов
относительные частоты будут колебаться в некоторых более или менее узких
пределах.
48
Рассмотренный пример является иллюстрацией общей
закономерности, получившей название устойчивости частоты (или
статистической устойчивости), которая известна давно и успешно
используется для прогноза событий. Это нашло отражение в множестве
народных примет, пословиц и поговорок (февраль - кривые дороги;
яблоко от яблони недалеко падает; июль - сеногной и др.).
32. ВЕРОЯТНОСТЬ. НЕВОЗМОЖНЫЕ, ДОСТОВЕРНЫЕ,
НЕСОВМЕСТИМЫЕ СОБЫТИЯ
Рассматривая табл. 3.1, нетрудно предугадать, что единичное
случайно взятое зерно из подвергнутого анализу образца вряд ли
окажется слюдой или тем более принадлежащим к группе прочих
минералов, так как по имеющимся у нас результатам эти минералы
встречаются относительно редко. Скорее всего случайно взятое
зерно будет либо кварцевым, либо полевошпатовым поскольку эти
группы минералов встречаются почти одинаково часто и нет
оснований сомневаться, что выявленное соотношение частостей в
последующих экспериментах может существенно измениться.
Таким образом, оценивая возможность того, что случайно взятое
единичное зерно окажется кварцевым или будет относиться к другим
группам минералов, мы, опираясь на статистическую устойчивость,
обращаемся к относительным частотам как показателям
вероятности некоторого события.
Вероятность - это количественная мера возможности
осуществления того или иного события. По относительным частотам можно
судить о вероятности лишь с большей или меньшей степенью
приближения, но, производя повторные выборки, можно убедиться, что
относительные частоты для каждого события колеблются около
некоторых постоянных величин. Эти постоянные величины и являются
вероятностями соответствующих событий.
Такое определение вероятности, основанное на поведении
относительных частот, получило название статистического.
К определению вероятности можно подойти и иначе. В принципе
изучаемый объект (известное количество пылеватой фракции,
выделенной из исходного образца некоторой почвы) представляет
собой конечную совокупность зерен различной минералогической
природы. Если из общего числа зерен N на кварц, полевые шпаты,
слюды и прочие минералы приходится соответственно N\, N2, N2, и
Na зерен, то их отношение к числу N характеризует /долю шансов
отдельно взятого зерна оказаться кварцем или другим минералом.
Следовательно, вероятность можно рассматривать как долю шансов,
49
благоприятствующих, тому или иному исход> того или иного
события. Такое определение вероятности известно как классическое.
Подобное определение вероятности позволяет рассматривать
вероятность не только как меру возможности осуществления некого
рого события, но и как характеристику того, какая доля от общего
объема генеральной совокупности приходится на данный класс
событий. Таким подходом к вероятности мы нередко будем
пользоваться.
Вероятность как количественную меру возможности события
чаще всего обозначают буквой Р. Как и относительная частота,
вероятность не может быть меньше нуля или больше единицы (или 100%,
если вероятность выражается в процентах). Событие, у которого ног
никаких шансов на осуществление, называется невозможным: щш
него Р = 0. Событие, которое при проведении испытания
обязательно наступает, называется достоверным; для такого события Р = 1.
Каждое зерно изучаемой фракции механических элементов может
оказаться либо кварцевым, либо полевошпатовым, либо
принадлежать какой-либо другой группе минералов. Однако невозможно,
чтобы одно зерно одновременно принадлежало двум разным,
группам минералов, такие два события в единичном испытании
произойти не могут. Если наступление одного события исключает
возможность наступления другого, т.е. если события не могут
осуществляться одновременно, то такие события называются несовмеалимы-
ми (непересекающимися).
Теорема сложения вероятностей состоит в следующем.
Вероятность наступления хотя бы одного из определенного набора попарно
несовместимых событий равна сумме вероятностей этих событий.
Пусть некоторые события А и В несовместимы; обозначив через
Р(А) вероятность события А, через Р(В') - вероятность события В,
через Р(А или В) - вероятность любого из событий А или В,
теорему сложения вероятностей можно записать так:
Р(А или В) = Р(А)+ Р(В). C.1)
В данных общих условиях эксперимента сумма вероятностей всех
возможных несовместимых событий, как и сумма относительных
частот в выборках, равна единице:
'fpy=l (/=U ■■•*),
где А' - число возможных событий.
Так, если вероятности, соответствующие приведенным в табл. 3.1
группам минералов, равны соответственно Р\ = 0,503, Рг = 0,348,
Ръ = 0,114, Ра = 0,035 и их сумма равна 1, то вероятность того, что
случайно взятое зерно окажется кварцевым .или полевошпатовым,
50
согласно теореме сложения вероятностей, равна
О 503 + 0,348 = 0,851, т.е. на эти две группы приходится 85,1% общей
численности зерен в изучаемом образце пылеватой фракции. Вероят-
ность того, что зерно окажется слюдой или попадет в группу
"прочих" минералов, очевидно, равна 0,П4 + 0,035 = 0,149. Ту же
вероятность можно получить, вычитая из единицы 0;851, поскольку эта
разность оценивает вероятность обнаружения не кварца и не
полевых шпатов, т.е. слюд и прочих минералов.
Теорема сложения вероятностей несовместимых событий в той
или иной форме достаточно часто используется в статистических
методах.
3.3. ПЕРЕСЕКАЮЩИЕСЯ СОБЫТИЯ.
НЕЗАВИСИМОСТЬ СОБЫТИЙ
Пересекающиеся события, как следует из самого названия, могут
происходить одновременно. Так, в совокупности агрегатов каждый
из агрегатов может быть механически прочным (событие А) или
непрочным (обозначим это событие А ). Очевидно, эти события
непересекающиеся (либо Л, либо А ) и если их вероятности равны Р(А) и
Р(А ), то Р(А) + Р(А ) = i. Те же агрегаты могут быть
водопрочными (событие В) или неводопрочными (событие В ) и при этом
Р(В) + Р(В ) = 1, поскольку эти события также несовместимы.
Вместе с тем каждый агрегат может быть механически прочен
(непрочен) и в то же время водопрочен (неводопрочен), т.е. события А (или
А)иВ (или В ) пересекающиеся.
Если пересекающиеся события А и В независимы, то вероятность
их совместного появления Р(АВ) равна произведению вероятностей
соответствующих событий Р(А) и Р(В):
Р(АВ)=Р(А) -Р(В). C.2)
Это равенство обычно используется для определения
независимости событий: если вероятность совместного появления событий
равна произведению вероятностей этих событий, то события
независимы.
Так, если для механической прочности Р(а) = 0,3 и РA) = 0,7, а
для водопрочности Р(в) = 0,6 п Р(~в ) =0,4, то в случае
независимости этих пересекающихся событий вероятность того, что
агрегат одновременно будет и механически прочен, и водопрочен, есть
Р(лв) = 0,3-0,6 = 0,18. Аналогично получим Р(ав ) =
= 0,3 • 0,4 = 0,12, Р(а в) = 0,7 • 0,6 = 0,42 и Р(л р ) = С,7 • 0,4 = 0,28.
Поскольку этими случаями исчерпываются все возможные сочетания
механической прочности и водопрочности, следует ожидать, что
51
Р(ав) +Р(аШ) +РA в) +РA ~в ) = 1. В самом деле, получаем
0,18 + 0,12 + 0,42 + 0,28= 1,00.
Если в действительности окажется, что вероятность совместного
появления изучаемых событий будет отлична от вычисленных,
например, получится, что Р(ав) = 0,3 (это, кстати, возможно лишь в
том случае, когда все механически прочные агрегаты в то же время
водопрочны, поскольку Р(а) = 0,3), то можно утверждать, что водо-
прочность и механическая прочность агрегатов не независимы.
Могут пересекаться на только два события. Например, если
пересекаются три события А, В, и С, то при их взаимной независимости
имеют место следующие равенства:
Р(АВ) = Р(А) . Р(В); Р(АС) = Р(А) • Р(С); п -.
Р(ВС) = Р(В) • Р(С); Р(АВС) =Р(А) < Р(В) - Р(С). У }
Если же хотя бы одно из равенств не соблюдается, то события
независимыми считать нельзя.
3.4. ЗАКОН РАСПРЕДЕЛЕНИЯ. РАСПРЕДЕЛЕНИЕ
ДИСКРЕТНЫХ ВЕЛИЧИН
В рассмотренном выше примере с минералогической оценкой
отдельных зерен пылеватой фракции мы познакомились со случайной
величиной, измеренной на классификационном уровне. Каждой
градации такой случайной величины может быть поставлена в
соответствие некоторая вполне определенная вероятность.
Аналогично, для порядковых величин с конечным числом
возможных градаций каждой градации соответствует некоторая
вероятность, сумма которых по всем градациям равна 1.
Совокупность всех возможных событий при проведении
испытания с указанием их вероятности может рассматриваться в качестве
закона распределения случайной величины. С принципиальной точки
зрения подобный способ описания закона распределения далеко не
всегда оказывается возможным. Дело не только в том, что число
возможных событий может оказаться слишком большим. Большое
число возможных исходов испытаний создает лишь технические
трудности, но если число таких исходов принципиально бесконечно
велико, то эти трудности оказываются не только технического
характера.
Для иллюстрации сказанного рассмотрим сначала распределение
вероятностей дискретной случайной величины. Допустим, что
объектом исследования является слой 15-19 см горизонта Аг дерново-
подзолистой почвы некоторого конкретного участка. В пределах
этого объекта в единичных объемах 100 см3 (объем цилиндра
высотой 4 см) количество (в штуках) ортштейнов крупнее 3 мм меняется в
52
пределах от 0 до 26. Распределение вероятностей (с точностью до
0,001) по классам значений при ширине класса с = 4 имеет вид:
х)-х] 0-3 4-7 8-И 12-15 16-19 20-23 24-27
Pj 0,238 0,251 0,207 0,164 0,097 0,032 0,011
Приведенный ряд распределения вероятностей, показывает,
например, что с вероятностью 0,164 в случайно взятом объеме 100 см3
может оказаться либо 12, либо 13, либо 14, либо 15 ортштейнов
крупнее 3 мм, а с вероятностью 0,032 - их число заключено в интервале
от 20 до 23.
С другой стороны, можно утверждать, что почти в половине всех
случаев B3,8 + 25,1 = 48,9%) число ортштейнов в объеме 100 см3
менее 8 штук и лишь в 4,3% всех возможных случаев это число равно
или превышает 20.
Использование теоремы сложения вероятностей в последнем
случае вполне оправдано, так как результат единичного испытания не
может оказаться равным одновременно и 3, и 4, а, следовательно,
принадлежать разным классам. По тем же соображениям
одновременно не может получиться 8 и 9 или 9 и 11 ортштейнов, а
это означает, что при уменьшении ширины класса вдюятности
новых классов должны подчиняться теореме сложения вероятностей
несовместимых событий. Так, если вместо с = 4 взять с = 2, то,
например, на месте класса, начало и конец которого равны 8 и 11, а
Р = 0,207, появятся два новых класса от 8 до 9 и от 10 до 11, а их
вероятности равны 0,112 и 0,095 @,112 + 0,095 = 0,207). Ширину класса
можно уменьшить еще в два раза и взять с ~ I. В этом случае на
месте каждого исходного класса при с = 4 окажется уже 4 класса.
Применительно к произвольно взятому нами классу с началом 8 и
концом И получим классы со значениями 8, 9, 10 и 11 и
соответствующие им вероятности 0,058, 0,054, 0,050 и 0,045, причем сумма
первых двух вероятностей равна 0,112, а вторых - 0,095
Очевидно, дальнейшее уменьшение классового промежутка
невозможно, так как при с = А каждый класс представлен единственным
значением случайной величины. Поскольку в случае дискретных
случайных величин уменьшение классового промежутка не может
продолжаться беспредельно, вероятности для отдельных значений
таких величин представляют собой вполне определенные конечные
величины, хотя они и могут быть очень малы.
Таким образом, закон распределения дискретной случайной
величины может быть задан перечислением всех значений такой
величины с указанием их вероятностей. Иногда закон распределения
можно описать математически, если известен вид зависимости Р(х)
отх.
4*
53
Графическое распределение вероятностей дискретной случайной
величкчы может быть представлено в виде серии ординат,
соответствующих значениям случайной величины, с высотой,
пропорциональной соответствующей вероятности, а также и в виде
гистограммы.
3.5. КРИВАЯ РАСПРЕДЕЛЕНИЯ НЕПРЕРЫВНЫХ ВЕЛИЧИН
Несколько иначе обстоит дело в рядах распределения
непрерывных величин, поскольку, по крайней мере теоретически, классовый
промежуток в таких рядах может быть сколь угодно мал.
Предположим, что в некоторых условиях проведения испытания
нам известно распределение вероятностей по классам порозности
отдельных агрегатов (см. табл. 3.2). Согласно этим данным, например,
порозность в границах 31,5- 32,5% встречается в 1,4% всех случаев,
т.е. в средцем 14 раз на 1000 агрегатов. В этом ряде порозностей
агрегатов классовый промежуток равен 1,0%, но его можно взять и
равным 0,5%. Тогда на месте каждого существующего класса (мы не
будем касаться крайних классов, где указана только одна из границ)
появилось бы два класса значений порозности, между которыми
соответствующим образом распределились бы вероятности Р,
приведенные для исходных классов в табл.3.2. Очевидно, сумма
вероятностей по каждым двум вновь образованным классам должна
быть равна вероятности соотвегсгвующего исходного класса. Ясно
также, что вероятность каждого новообразованного класса будет
меньше, чем исходного, так как каждый класс при с = 0,5%
составляет лишь часть от класса исходного при с = 1,0%.
Таблица 3.2
Распределение вероятностей по классам порозности отдельных агрегатов
xJI{J+\)
31,5
<31,5
0,002
32,5
32,0
0,014
33,5
33,0
0,079
34,5
34,0
0,207
35,5
35,0
0,291
36,5
36,0
0,269
37,5
37,0
0,110
38,5
38,0
0,019
39,5
39,0
0,006
>39,5
0,003
При уменьшении величины классового промежутка будут
соответственно уменьшаться и вероятности для получающихся более
узких классов. Теоретически величину классового промежутка с (как и
точность измерений А) можно уменьшать до бесконечно малого
размера, поскольку порозность агрегата есть величина непрерывная.
При с-й) вероятности, соответствующие отдельным классам, также
будут стремиться к нулю, а это означает, что для непрерывных
величин нельзя указать вероятность каждого из возможных их значений;
этим и отличаются непрерывные ряды от дискретных.
54
31 32 33 34 35 36 37 38 39 X
Заметим, что невозможность указать вероятность того или
другого значения непрерывной
случайной величины не означает, что
нельзя указать вероятность,
напрмер, для порозности 34,73%
(см. табл. 3.2). Здесь вероятность
конечна и в принципе может быть
указана, но лишь потому, что
х = 34,73% есть не отдельное
значение случайной величины, а
середина целого класса значений от
34,725 до 34,734%. Отдельным
значением является 34,73000...%, а
для такого значения вероятность
бесконечно мала и не может быть
указана.
В связи со сказанным
становится вполне понятным и то, что
распределение непрерывной
случайной величины не может быть
представлено в виде гистограммы,
где по оси ординат откладывается
вероятность: при уменьшении
классового промежутка
вероятность по отдельным классам
значений уменьшается и при с-^0
высота столбиков оказывается
бесконечно малой. При построении
гистограммы этих трудностей
можно избежать, если вероятность
на гистограмме выражать не
высотой столбиков, а их площадью.
В этом случае на гистограмме
распределения вероятностей по
классам порозности а1регатов
(рис. 3.1, а) общая площадь всей
фигуры (крайние классы,
имеющие очень малую вероятность, на
гистограмме не отражены, но в
суммарной площади должны
учитываться) считается равной единице, а площадь каждого отдельного
столбика в долях единицы соответствует вероятности отдельных
классов значений порозности.
31 32 33 34 35 36 37 38 39 X
Рис.3.1. Изменение общего вида
гистограммы, когда ширина класса с-»0, а
выражением вероятности является
площадь (заштрихованная на рисунке
площадь соответствует вероятности
значениям порозности отдельных агрегатов
оказаться в интервале от 32,5% до
33,5%)
55
Так, для класса в границах от 32,5 до 33,5% площадь столбика на
гистограмме (см. рис.3 Л, а) составляет 0,079 от общей площади
столбчатой диаграммы, что соответствует вероятности этого класса
значений.
При уменьшении классового промежутка на месте каждого
исходного столбика на гистограмме появляются более узкие столбики,
суммарная площадь которых должна быть равна площади
исходного столбика (см. рис.3.1, б), а суммарная площадь всех столбиков -
оставаться равной единице.
Для непрерывных случайных величин ширину класса можно
уменьшить до сколь угодно малых значений, и при этом общий вид
гистограммы делается все менее угловатым. В пределе при с->0
гистограмма оказывается ограниченной сверху некоторой плавной
линией, получившей название кривой распределения (см. рис.3.1, в).
3.6. ПЛОТНОСТЬ ВЕРОЯТНОСТИ.
ИНТЕГРАЛ ВЕРОЯТНОСТИ
Согласно вышеизложенному, площадь, заключенная между
кривой распределения и осью абсцисс, должна быть равна площади
исходной гистограммы, а площадь любого столбика исходной
гистограммы- площади, ограниченной соответствующими отрезками
оси абсцисс, ординат и кривой (заштрихованные участки на рис.3 Л,
а, б, в).
Для каждого достаточно узкого столбшса гистограммы
вероятность АР можно представить как произведение ширины основания
Ал: на высоту столбика, а это означает, что на оси ординат отклады-
АР „ АР dP
вается величина —. При Дл-*0 отношение — стремится к — в
Ах Ах dx
точке х. Эта производная получила название плотности
вероятности и в дальнейшем будем обозначать ее (я(х). Следовательно,
плотность вероятности
-W-f C.4)
есть ордината кривой распределения в точке jc, а кривую
распределения можно рассматривать как график плотности вероятности.
Таким образом, кривая распределения является графическим
выражением закона распределения непрерывной случайной величины.
Для любого заданного интервала значений от х\ до Х2, лежащего
в пределах возможной для случайной величины области значений,
вероятность Р(х\ <х <хг), выражением коъорой является
соответствующая площадь под кривой распределения, ограниченная
56
ординатами в точках xi и хг, можно найти с помощью
интегрирования:
х2
Р(х1 < х < х2) = J ®(x)dx. C.5)
х
Здесь |©(х)Лс-знак интегрирования, показьюающий, что дня на-
х.
хождения искомой площади требуется просуммировать на отрезке
от xi до xi все произведения co(x)dx.
Очевидно, что если случайная величина задана в конечной обла-
6
ста значений от а до Ь, то jco(x)dx = 1, т.е. вся площадь под кривой
а
распределения равна 1. Если случайная величина может принимать
+00
значения от - оо до +оо, то соответственно получим j®(x)dx = L
-оо
Поскольку рассматриваемый интеграл характеризует
вероятность того, что случайная величина примет значения в пределах
некоторого заданного интервала, он получил название интеграла
вероятности и в дальнейшем будем обозначать его ф(х).
Таким образом
<р(х} ,х2) = <р(х2) - <р(хх) = jco(x)<bc. C.6)
xi
Закон распределения непрерывных случайных величин может
быть описан в форме зависимости ю или <р от х.
Подчеркивая различия между дискретными и непрерывными
случайными величинами, отметим, что часто непрерывные случайные
величины приходится условно рассматривать как дискретные, а в
некоторых случаях пренебрегать дискретностью величин и
привлекать для описания их зяконов распределения методы,
разработанные для непрерывных величин.
3.7. КОНСТАНТЫ И ПАРАМЕТРЫ РАСПРЕДЕЛЕНИЯ
Случайные величины являются переменными. Однако их можно
охарактеризовать некоторыми постоянными величинами,
константами. В подавляющем большинстве случаев исследователи
ставят опыты в целях изучения этих констант, нахождения среди
наблюдаемой вариации общего, постоянного. Нередко любые
константы, характеризующие случайную величину, называют
параметрами. Столь широкое толкование термина "параметр"
нельзя признать оправданным. В дальнейшем под параметрами будем
57
noiiniirih .тишь те константы, которые входят в выражение закона
расшм;д-леппя сл\чайной величины, число же параметров
распределения зявисн': от закона распределения.
Среди кожч-шт чаще всего рассматриваются такие, которые ха-
рактеритлот средний уровень случайной величины ("средний" - в
широкм смысле слова). К этой группе могут быть отнесены мода и
медиана, (это так называемые непараметрические средниеI, а также
среднее арифметическое, среднее геометрическое, среднее квадрати-
ческое л др.
Вторая группа констант отражает степень вариабельности,
изменчивости случайной величины. Сюда относятся дисперсия,
стандартное отклонение, коэффициент вариации и некоторые другие
показатели.
Можно назвать и ряд других констант, с которыми приходится
иметь дело в связи со статистическим анализом экспериментальных
данных, таких как коэффициенты асимметрии и эксцесса,
коэффициент корреляции и другие, но с ними более подробно мы
познакомимся несколько позже. Следует отметить, что константы вообще и
параметры в частности относятся к генеральным совокупностям и не
могут быть найдены по выборочным данным. Константы - это
генеральные показатели. Именно о таких показателях и будет идти
речь в данной главе.
3.8..МОДА
Одной из констант, характеризующих средний уровень
случайной величины, является мода Мо. Мода - это наиболее часто
встречающееся значение случайной величины, имеющее большую
вероятность осуществления, чем другие значения. Для признаков,
измеренных на именной или порядковой шкале, мода представляет
собой тот класс, которому соответствует наибольшая вероятность.
Так, модой является кварц, если в генеральной совокупности
зерен некоторой фракции гранулометрического состава на кварц
приходится вероятность Р = 0,71, а следовательно, любому другому
минералу может соответствовать заведомо меньшая вероятность.
Для дискретных количественных признаков модой служит то
значение случайной величины, которому соответствует наибольшая
вероятность.
Рассмотрим, например, ряд распределения вероятностей Pj по
числу Xj импульсов ос-излучения за одну минуту:
' Заметим, что отнесение моды и медианы к средним не является общепринятым.
S
Pj
О 1 2
0,333 0,366 0,201
3 4 5 6
0,074 0,020 0,005 05001
Здесь модой является Mo = 1 импульс/мин.
Для непрерывных случайных величин мода представляет собой то
значение, которому соответствует наибольшая плотность
вероятности, т.е. наибольшая ордината на кривой распределения. Иными
словами, модальному значению непрерывной случайной величины
соответствует вершина кривой распределения1.
Так, на кривой распределения содержания гумуса (рис. 3,2) ее
вершине соответствует содержание гумуса, равное 4,12%, которое и
является модой.
Мода как показатель среднего значения признака используется
сравнительно редко, однако в ряде случаев указание модальной
величины оказывается весьма полезным. Например, указание
модального возраста растений, при котором они более всего отзывчивы на
то или иное воздействие (внесение подкормок, рыхление, поливы),
позволяет более разумно подходить к планированию различных
мероприятий, чем на основе среднего
арифметического возраста,
который может не совпадать с
модальным.
В ряде случаев модальная
величина содержания элементов
питания в почве может сказать гораздо
больше, нежели среднее
арифметическое содержание этих
элементов. Так, на слабоокультурен-
ных почвах при неравномерном
внесении удобрений в
сравнительно небольшом числе отобранных
в поле образцов может обнаруживаться большая концентрация
элементов питания, что сместит среднее арифметическое содержание
этих элементов для изучаемого объекта (поля, опытного участка) в
сторону относительно больших концентраций. В то же время
модальная величина содержания этих элементов будет
характеризовать наиболее распространенные, фоновые концентрации, которые
могут быть очень невелики как по абсолютным значениям, так и
сравнительно с соответствующими средними арифметическими.
Знание модальных величин содержания элементов питания может
0,0 1,0 2,0 3,0 4,0 5,0 6,0 .V
Рис.3.2. Кривая распределения
содержания гумуса с Мо = 4,12%
1 Заметим, что существуют распределения, для которых нельзя указать моду.
59
способствовать более разумному планированию мероприятий по
удобрению почв.
Кривые распределения изучаемых случайных величин нередко
могут иметь две вершины и более. Аналогичная картина может
наблюдаться и в распределении вероятностей дискретных признаков. В
таких случаях принято говорить о двумодальности или
позшмодальности. При этом моды могут быть (и чаще всего бывают)
неравноценными, т.е. соответствующие этим модам вероятности (плот! ости
вероятностей) не являются равными. Однако сам по себе факт
полимодальности представляет интерес тт >б! тчно свидетельствует о том,
что в рамках заданных общих условий проведения испытаний
имеются какие-то второстепенные факторы, обусловливающие
предпочтительное появление значений случайной величины в нескольких
разных интервалах. Выявление причин полимодальности обычно
помогает глубже проникнуть в суть изучаемого явления.
Из сказанного видно, что мода может быть указана при
измерениях, выполненных на любой шкале, причем если изучаемый
признак является количественным, тс мода выражается именованным
числом, имеющим размерность соответствующей случайной величины.
3.9. МЕДИАНА
Для случайных величин, значения которых могут быть
ранжированы, в качестве среднего иногда рассматривают медиану. Так как
значения, большие и меньшие медианы, равновероятны, то на
графике распределения плотности
вероятности медиане соответствует
ордината, которая делит площадь
под кривой распределения на две
равные части.
Например, на графике
распределения плотности вероятности
для плотности почвы (рис, 3.3)
Med= 1,21 г/см^.
Для дискретных признаков
более правильно утверждение, что в
одной половине ранжированного
ряда все значения случайных
величин должны быть менг.ше или
равны медиане, а в другой - больше или равны ей. Появление слов
"или равны" связано с тем, что в ранжированной
последовательности значений дискретной случайной величины середина такой
0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 *
Рис.3.3. Кривая распределения плотло-
сти почвы с Med = 1,21 г/см3
60
последовательности обычно приходится на дискретное значение,
которое повторяется многократно.
В примере из § 3.8, где приведено распределение импульсов
ot-излучения, середина ранжированного ряда приходится на
1 импульс/мин. При этом по одну сторон} от медианы находятся
значения 0 (на них приходится 0,333 от общей длины
ранжированной последовательности) и некоторая часть значений 1 (на них
приходится 0,167 длины последовательности, так что
0,333 + 0,167 = 0,5, а это означает серединное положение медианы).
По другую сторону от медианы находятся значения: 6, 5, 4, 3, 2
(в сумме составляющие 0,301 общей длины последовательности) и
остальная часть значений 1 (на нее приходится 0,199 общей длины
последовательности, причем в сумме 0,199 + 0,301 = 0,5). Таким
образом, здесь Med = 1 импульс/мин.
Для количественных признаков медиана - величина
именованная, имеющая размерность, соответствующую случайной величине.
ЗЛО. СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ
Среди констант, характеризующих средний уровень случайной
величины, особое место занимает среднее арифметическое (или
просто среднее), обычно являющееся одним их параметров
распределения. Как всякая константа распределения, среднее характеризует
генеральную совокупность значений случайной величины, что
нередко подчеркивается употреблением названия генеральное среднее
(или теоретическое среднее), если имеется опасение спутать среднее с
его выборочной оценкой, о которой речь пойдет ниже.
Если в генеральной совокупности отдельные значения могут
повторяться, то при вычислении среднего эти значения берут
соответствующее число раз (юти пропорционально их встречаемости, их
математическому Еесу, их вероятности), и в этом смысле среднее
является средним взвешенным. Следовательно, среднее арифметическое
есть не что иное, как математическое ожидание соответствующей
случайной величины. Обозначая среднее случайной величины X как
щ. (индекс у у, можно опускать, если без пояснений понятно, о какой
случайной величине идет речь), получим
ц = ВД C.7)
Для дискретной случайной величины, принимающей т
различных значений с вероятностями Р, (/ = l,2,...,w), среднее можно
вычислить по формуле
* = %PJXJ> C.8)
61
где вероятности /у, выраженные б долях единицы, представляют
собой математические веса^-х значений случайной величины X,
Так, если в объеме 100 см3 данного горизонта почвы (или объекта
исследования с заданными просгранственными границами) число
ортштейнов крупнее 3 мм может быть равным 0, 1.2,3 или 4
соответственно с вероятностями 0,750, 0,200, 0,040, 0,008 и 0,002, то я>ед~
нее число ортштейнов в объегле 100 см3 составит
ц = 0,750 • 0 + 0,200 . 1 + 0,040 • 2 + 0,008 • 3 + 0,002 - 4 ~ 0,312.
Для непрерывной случайной величины X, принимающей
значения в промежутке от а до Ь (а < Ъ), среднее находится с помощью ин-
хеширования:
ь ь
\х = j xdP = J xa>{x)dxt C.9)
a a
где co(x) - плотность вероятности случайней величины X,
Очевидно, что для вычисления среднего ао вышеприведенным
формулам нужно знать закон распределения случайной величины.
Среднее арифметическое, определяемое всеми значениями случайной
величины и их вероятностями, является как бы центром тяжести
статистической совокупности, и поэтому среднее нередко называют
центром распределения,
3.11. СВОЙСТВА СРЕДНЕГО
Среднее арифметическое является размерной величиной и имеег
ту же размерность, что и характеризуемая им случайная величина В
то же время среднее есть абстрактная величина, что наиболее ярко
проявляется в тех случаях, когда значение, численно равное
среднему, реально не может существовать. Так, лишено конкретного
смысла среднее число колоний на чашку Петри, равное 3,7, так как
число колоний реально не может быть дробным.
Для признаков, измеряемых по шкале отношений, среднее
арифметическое всегда положительно, чего нельзя сказать о средних для
признаков, измеренных на интервальной шкале. Например, среднее
содержание кремнекислоты в почве всегда положительно, но
окислительно-восстановительный потенциал в среднем может быть и
отрицательной величиной.
Поскольку среднее выступает как центр распределения, разность
между отдельными значениями случайной величины X и
соответствующим средним |д, (среднее всегда является вычитаемым) хг- ц на-
зываегся центральным отклонением. Очевидно, что центральные
отклонения могут быть как положительными, так и отрицательными,
сохраняя размерность соответствующей случайной величины.
62
Заметим, что генеральной совокупности случайной величины
ставится в соответствие генеральная совокупность центральных
отклонений, представляющих собой значения некоторой другой
случайной величины.
Учитывая свойства математических ожиданий (см § 1.9), легко
убедиться, что среднее в генеральной совокупности центральных
отклонений равно нулю (как и сумма центральных отклонений в
статистической совокупности): Е(х - у) ~ Е(х) -ц = у* - у ~ 0, т.е. для
дискретных величин:
для непрерывных случайных величин, принимающих значения в
интервале от а до Ь\
ь
|(х-ц)о(х)Л: = 0. C.11)
а
Так как среднее есть математическое ожидание, то используя
свойства математического ожидания, можно установить, что:
если у = х 4- а, то у.у = ух + а; C Л 2)
если у ~ ах, то ц>; = аах; C.13)
если v - л* 4 z, то ц^ = цх v ц~. C.14)
Здесь а - постоянная величина, а х, у, z - значения случайных вели
чин X, Y, Z.
Если случайные величины X и Z взаимно независимы' и у = xz, то
Иг = Rv|i2 . C.15)
Если у не является линейной функцией случайной величины
А\ то среднее цу не может быть выражено через uv. Например, если
>> = ах , то уу ? аух2.
3.12. СРЕДНЕЕ И СИСТЕМАТИЧЕСКИЕ
ПОГРЕШНОСТИ АНАЛИЗА
Утверждая, что среднее часто есть то, ради познания чего
осуществляется все исследование, мы немного неточны. Правильнее
утверждать, что за невозможностью (обычно технической)
непосредственного познания истинного значения изучаемой
постоянной мы вынуждены довольствоваться с учетом особенностей на
ших средств познания изучением некоторой другой постоянной
величины, которая является средним в некоторой генеральной
совокупности. Выбирая в качестве модели явления случайную величину,
■Требоа'и'/ге ;*■: зависимости достаточно, но но является необходимым.
63
мы отнюдь не всегда можем быть уверены, что среднее случайной
величины есть именно то, что мы хотели бы познать.
Действительно, определяя содержание гумуса в некотором
образце почвы, мы в общем преследуем цель определить истинное
содержание гумуса, но реально имеем дело с варьирующими результатами
повторных измерений, осуществляемых по той или иной методике.
Прибегая к модели случайной величины, мы вынуждены считать
целью изучение среднего этой величины. Мы не можем поставить
другую цель, так как оценка содержания гумуса возможна лишь при
использовании некоторого всегда конкретного способа анализа.
Однако совсем не исключено, что среднее в генеральной
совокупности результатов анализов не равно истинному содержанию
гумуса, т.е. эти две постоянные не равны между собой. В
большинстве случаев мы лишены возможности дать определенный ответ на
вопрос: равны или нет среднее значение случайной величины, с
которой мы реально имеем дело, и истинное значение изучаемого
явления.
Вместе с тем в ряде случаев этот вопрос можно ставить и успешно
решать. Чаще всего постановка подобных задач имеет место в
аналитической практике, когда требуется оценить пригодность того
или иного метода анализа.
Суть подобных исследований сводится к установлению
правильности анализа, т.е. к определению наличия и величины различия
между истинной величиной а изучаемого признака (например,
содержанием какого-либо компонента в массе почвы) и генеральным
средним результатов анализов этого признака. Разность ц - а
является систематической погрешностью анализа.
Если а = ц, то метод считается правильным. Если же а * ц, то
метод имеет систематическую погрешность, которую можно
учитывать, внося в результаты анализа поправку: Цпопр. = ц - я.
Очевидно, проверка правильности возможна при условии, что
истинное значение признака в точности известно. Иногда это может
быть обеспечено строгими теоретическими расчетами, иногда - с
помощью эталонов.
Так, если в эталонном образце почвы истинное содержание S102
равно а = 83,521%, а при использовании желатинового метода
валового анализа генеральное среднее результатов анализов есть
|Л = 83,315%, то используемый метод не является правильным и
применительно к исследуемому эталону характеризуется
систематической погрешностью 83,315 -83,521 = -0,206%.
В данном случае вопрос о правильности метода решается в чисто
теоретическом плане, и нас не интересует величина систематической
ошибки, а лишь ее наличие.
64
Если имеется ошибка (даже ничтожно малая), то метод нельзя
считать правильным, если нет ошибки, то метод правилен. В
реальной практике допустимо пренебречь небольшими различиями,
считая метод практически правильным, если цпопр. хотя и не равно нулю,
но достаточно мало. Однако это уже относится к вопросам
практической оценки правильности метода, которые будут рассмотрены
ниже.
ЗЛЗ. ДИСПЕРСИЯ
В качестве параметра, характеризующего вариацию значений
случайной величины, наиболее часто используется дисперсия.
Дисперсия величины X в статистике нередко обозначается D(x) или
V&r(x)i а чаще всего а2. Если следует уточнить, какую случайную
величину характеризует дисперсия, ее обозначение может содержать
соответствующий индекс, например, с2х.
Математически дисперсия есть среднее квадратов отклонений от
среднего, т.е. среднее квадратов центральных отклонений. Иначе
говоря, дисперсия случайной величины X есть математическое
ожидание квадрата отклонения случайной величины от своего среднего:
а2 = £[(*-цJ]. C.16)
Дисперсия не может быть отрицательной. Дисперсия постоянная
именованная величина, имеющая размерность, равную квадрату
размерности соответствующей случайной величины.
Из выражения C.16), учитывая свойства математического
ожидания (см. § 1.9), следует, что дисперсия случайной величины равна
разности между математическим ожиданием квадрата случайной
величины и квадратом ее математического ожидания:
а* = Е(х*) - 2\лЕ(х) + ц2 = Е(Х2) . ц2 = Е(Х2) . [Е(х)у. C.17)
Очевидно, что численное значение дасперсии будет тем больше,
чем большие значения могут иметь центральные отклонения, т.е. чем
значительней колеблются отдельные значения случайной величины
около среднего. Наоборот, чем меньше интервал возможных
колебаний случайной величины, тем меньше будет дисперсия.
Дисперсия постоянной величины равна нулю: D(a) = 0.
Для дискретных случайных величин дисперсия представляет
собой сумму произведений квадратов отклонений у-го значения
величины X от среднего ц на вероятность Pj (в долях единицы)
соответствующего значения:
a2=I,Pj(xj-\iJ. C.18)
5 £.А.Дмитриев
65
Для непрерывных случайных величин, принимающих значение в
интервале от а до Ъ (а <Ь), дисперсия представляет собой интеграл:
о2 =j(x-vJ<d(x)dx1 C.19)
а
где со (х) - плотность вероятности случайной величины.
Квадратный корень из дисперсии в статистике получил название
среднего квадратического отклонения. Не менее часто это отклонение
называют стандартным (или просто стандартом). Почти
общепринятым является обозначение стандартного отклонения буквой сг:
о = ^D(x) (в силу чего стандарт иногда называют сигмой).
Стандартное отклонение есть постоянная величина, условно
считающаяся положительной, поэтому перед ней ставить знаки
плюс-минус недопустимо.
Среднее квадратическое отклонение - величина именованная,
имеющая размерность случайной величины. Чаще всего именно
стандарт, а не дисперсия, используется в прикладных исследованиях
в качестве меры изменчивости, вариабельности изучаемой
случайной величины.
Используя свойства математического ожидания из § 1.9, можно
показать, что дисперсия не изменится, если все значения случайной
величины X уменьшить или увеличить на постоянную величину а, т.е. ес-
ли у = jc + а (или у = х - а), то
о2у-^2х и Gy~ox. C.20)
Если все значения случайной величины X умножить на постоянное
число а, то дисперсия увеличится в а2 раз, а стандарт - в \а\ раз, т.е.
если у = ах, то
а2у = а2ох и Оу = \а\ох. C.21)
Для независимых случайных величин дисперсия их суммы, как и
дисперсия разности, равна сумме дисперсий случайных величин, т.е. если
у = х + г или у = х - г, то при условии независимости xhz
o2y--:o2x+o2z. C.22)
Заметим, что это утверждение справедливо только для дисперсий,
и здесь стандарт функций равен не сумме стандартов случайных
величин, а квадратному корню из суммы дисперсий:
Vy = Vax
+ °z- C.23)
66
3.14. СТАНДАРТИЗОВАННОЕ ОТКЛОНЕНИЕ,
КОЭФФИЦИЕНТ ВАРИАЦИИ
Среднее квадратическое отклонение, характеризуя степень
неодинаковости значений случайной величины, часто выступает в
качестве меры вариабельности, в качестге единицы измерения
отклонений отдельных значений случайной величины от среднего и от
других значений.
Как уже было отмечено, разность между /-м значением случайной
величины Хи ее средним ц есть центральное отклонение,
характеризующее отличие от среднего в единицах размерности случайной
величины.
Центральное отклонение, выраженное числом стандартных
отклонений, получило название стандартизованного (нормированного)
отклонения. Обозначая стандартизованное отклонение щ для /-го
значения случайной величины X получим
и/^^Ji. C.24)
а
Так как для данной случайной величины ц и а постоянные, то и
есть линейная функция от X, а следовательно, вид закона
распределения при переходе от случайной величины X к величине U не
меняется. При этом каждому значению х{ соответствует вполне
определенное и единственное значение щ.
В отличие от центрального отклонения стандартизованное
отклонение безразмерно, что оказывается очень удобным. Как и
центральные отклонения, стандартизованные отклонения имеют среднее,
равное нулю: Е(и) = ^ = 0. Однако в отличие от центральных
отклонений эти отклонения имеют дисперсию (и стандарт
соответственно) равную единице: о2и-\.
В подобных случаях говорят, что случайная величина имеет
параметры ноль и единица (ц =" 0; а2 = 1). Именно такой случайной
величиной и является стандартизованное отклонение.
Отмеченные особенности стандартизованных отклонений имеют
огромное значение, так как позволяют законы распределения одного
вида, имеющие разные средние и дисперсии, свести к одному закону
с параметрами ноль и единица, и наоборот, от одного этого закона
перейти к любому конкретному с параметрами \ьх и с2х, если
заменить случайную величину U случайной величиной X согласно
выражению, полученному из формулы C.24):
х = цх + wax, C.25)
67
Как мера варьирования, стандартное отклонение не всегда
оказывается удобным, в частности при необходимости сравнения
вариабельности разноразмерных случайных величин. В связи с этим
широкое распространение получила безразмерная величина отношения
стандарта к среднему, обычно выраженная в процентах, получившая
название коэффициента вариации:
К =-100%. C.26)
Ц
Как мера относительного варьирования, эта константа
представляет интерес и в тех случаях, когда а увеличивается
пропорционально ц так, что V сравнительно мало зависит от среднего.
Заметим, что коэффициент вариации допустимо использовать
для характеристики вариабельности лишь тех случайных величин,
которые принципиально не могут приобретать отрицательных
значений, например, для измерений на интервальной шкале (отметки
рельефа местности, ОВП, температура и др.).
3.15. МОМЕНТЫ
В качестве констант, характеризующих случайную величину,
можно использовать математические ожидания целых степеней
случайной величины. Такие константы общег о вида
Ш = Е(*) C.27)
получили название начальных моментов /г-й степени. Очевидно, что
среднее арифметическое относится к такого рода моментам для
случая Л = 1, т.е. является начальным моментом первой степени:
\ц\) = Е(х) = ц. При к = 2, т.е. когда все значения х возводятся в
квадрат, начальный момент представляет собой среднее значение
квадрата случайной величины: щг> = Е(х2).
Аналогично можно найти начальные моменты третьего,
четвертого и других более высоких порядков, хотя эти последние обычно
практического интереса уже не представляют.
В А>ю степень можно возводить не сами значения случайной
величины Ху а их центральные отклонения х - ц. Математическое
ожидание центральных отклонений к-й степени называется центральным
о
моментом к-й степени. Обозначая его ц/^, запишем
li{k)=El(x-uk}. C.28)
Центральный момент первой степени равен нулю, поскольку
равна нулю сумма отклонений от среднего (формулы (ЗЛО) и C.11)).
68
Центральный момент второй степени, как это следует из
сопоставления формул C.16) и C.27) при к = 2, представляет собой дисперсию:
^B)=а2. C.29)
Из центральных моментов наряду с дисперсией обычно
заслуживают внимания также моменты третьей и четвертой степеней
о °
•iC) и цD). Между начальным и центральным моментами
существует определенная связь. В частном случае при к = 2 она находит
отражение в формуле C.17). Эти зависимости при к от 1 до 4 выглядят
следующим образом:
о
H(i)=0;
° _ 2 _ 2
^B) - ^B) - НЧ1) ~ ° > C.30)
^C) = ИC)-ЗЦB)-ЦA)+2м-о);
э 2 4
^D) = ИD) -4К'3) -ЦA) +6ЦB) -И<1) -ЗЦA).
Как начальные, так и центральные моменты имеют размерность
к-й степени соответствующей случайной величины. Моменты могут
представлять интерес не только сами по себе как константы
распределения, но и использоваться для вычисления некоторых других
показателей. Наиболее важными из них являются коэффициенты
асимметрии и эксцесса.
Коэффициент асимметрии, как показывает его название,
характеризует степень асимметричности распределения относительно
среднего. Математически он представляет собой отношение среднего
куба центральных отклонений к кубу стандартного отклонения:
о °
а= **?&.. C.31)
/о <j
Коэффициент асимметрии - величина безразмерная, могущая
принимать значения от -оо до +<». В случае симметричных
распределений ц(з> = 0 и а = 0. Для распределений, имеющих крутую левую
ветвь и полого падающую правую ветвь, а > 0 и асимметрия
называется положительной. Если сравнительно с правой ветвью
распределения левая более поло? а, то а < 0 и асимметрия отрицательна.
Такая асимметрия встречается реже.
Коэффициент эксцесса характеризует выпуклость или
"придавленность" кривой распределения. В его основе лежит отношение
<*
69
среднего значения четвертой степени центральных отклонений (т.е.
центрального момента четвертой степени) к четвертой степени
стандарта, т.е. к квадрату центрального момента второй степени),
которое, будучи уменьшенным на 3, и дает коэффициент эксцесса:
t.ha..}.ha..3. C.32)
а
МB)
Коэффициент эксцесса также есть величина безразмерная,
которая может принимать значения, как меньшие нуля (эксцесс
отрицателен, кривая распределения "придавлена" или даже двувершинна),
так и большие нуля (эксцесс положителен). Причины, по которым
для получения коэффициента эксцесса, упомянутое выше отношение
следует уменьшать на 3, будут установлены ниже при рассмотрении
закона нормального распределения.
Не существует общепринятых градаций того, какие значения а и
б считать большими, а какие малыми. Однако распределения при
JocJ < 0,5 можно условно отнести к слабоасимметричным, при
0,5 < |а| й 1,0 -к среднеасимметричным, а при |а| > 1,0 - к
сильноасимметричным. Положительную эксцессивность допустимо
рассматривать как слабую при е £ 1, как среднюю при 1 < е <> 5 и как
сильную при б > 5.
3.16. СРЕДНЕЕ И ДИСПЕРСИЯ В СОВОКУПНОСТИ
АЛЬТЕРНАТИВНЫХ ПРИЗНАКОВ
Характеризуя состояние пахотных земель в области, нередко
говорят, например, что в среднем половина земель требует
известкования. Ясно, что "в среднем" не означает, что в каждом хозяйстве
потребность в известковании одинакова. Если в лесном биогеоценозе
на ель приходится в среднем 75%, то оправдано было бы полагать,
что в любой выборке три четверти деревьев окажутся елью.
Очевидно, что и половина, и 75% (три четверти) действительно имеют
смысл какого-то среднего. Этим средним является доля.
В генеральной совокупности альтернативных признаков доля
представляет собой отношение числа событий, обладающих
некоторым признаком, к общему числу событий и, будучи по смыслу
вероятностью соответствующего события, обозначается, как и
вероятность, через Р. Доля альтернативных событий (отсутствие признака)
обозначается Q. Следовательно, Q есть вероятность отсутствия
признака. Доли Р и Q могут быть выражены либо в долях единицы
(откуда они и получили свое название) и тогда Р + Q = 1, либо в
процентах, и тогда их сумма равна 100%.
70
То, что доля относится к категории средних, можно показать с
помощью формулы C.8), учитывая, что единичное испытание есть
оценка принадлежности элемента опробований к классу,
обладающему каким-то признаком (х\ = 1), или к классу, в котором этот
признак отсутствует {хг = 0). Если первому классу соответствует
вероятность Р, а второму -вероятность Q, то
ц = Р1+2-0 = Р. C.33)
Это значение показывает среднее число благоприятных событий
(с наличием признака) на одно испытание, когда элементом
опробования является единичный дискретный компонент физической
совокупности (например, агрегат некоторой крупности,
характеризуемый водопрочностью), или когда элемент опробования
принадлежит континуальному объекту (например, некоторому горизонту, и
характеризуется наличием в образце белоглазки).
Согласно формуле C.18), учитывая, что ц = Р, l-P = g и
Р + Q = 1, найдем выражение для дисперсии:
а2 = р£=РA _/>). C.34)
Таким образом, в совокупности альтернативных признаков
среднее и дисперсия определяются одной величиной доли Р. В силу того,
что когда Р и Q выражены в долях единицы, сумма Р + Q равна
единице, дисперсия в совокупности альтернативных признаков имеет
важную особенность: она не может быть больше, чем 0,25 и
достигает максимума при условии равенства долей, т.е. при Р = Q = 0,5.
Соответственно величина стандартного отклонения в подобных
совокупностях не может быть больше, чем 0,5. Как уменьшение, так и
увеличение Р относительно значения Р = 0,5 приводит к
уменьшению дисперсии и стандартного отклонения.
Чтобы понять, в чем же проявляется максимальность
стандартного отклонения при близости долей к значению 0,5, рассмотрим
пример. Допустим, что имеется совокупность агрегатов некоторого
размера. Каждый агрегат может быть либо водопрочным, либо
неводопрочным, причем доля водопрочных агрегатов равна Р (заметим,
что это число, будучи долей шансов агрегату оказаться
водопрочным, есть вероятность). В чем же будет проявляться неоднородность,
характеристикой которой является стандартное отклонение?
Очевидно, например, в том, насколько различными будут получаться
результаты испытаний на водопрочность в последовательности
случайно отбираемых на анализ агрегатов. Если в такой
последовательности будут перемежаться как водопрочные, так и
неводопрочные агрегаты, то неоднородность будет большой. Существенно
меньшей неоднородность результатов испытаний окажется в
том случае, когда длинные последовательности из водопрочных
71
агрегатов изредка будут прерываться попаданием неводопрочных,
или наоборот. Однако эти последние случаи соответствуют либо
большим значениям доли Р, либо, наоборот, малым значением; а
наибольшая пестрота в результатах обнаружится при близости
долей Р и Q к 0,5. Именно это и отражает зависимость стандартного
отклонения от величины Р: если при Р = 0,5 имеем о = С,5 и при
Р = 0,3 (или Р = 0,7) а = 0,46, то при Р = 0,1 (или Р = 0,9), получим
а = 0,30, а при Р = 0,01 (или Р = 0,99) а = 0,10.
Тот факт, что стандартное отклонение в совокупности
альтернативных признаков ограничено сверху, возможный максимум этой
величины известен, а значение стандартного отклонения сравнительно
мало меняется в достаточно широком интервале значений доли (это
видно из приведенных выше данных), позволяет достаточно
надежно планировать число испытаний (объем выборок) при определении
долей (см. гл. 8).
Заметим, что если испытания на наличие того или иного события
проводить не на единичных компонентах дискретной совокупности,
а на элементах опробования, содержащих п дискретных
компонентов, и результаты испытаний выражать числом х случаев
наличия интересующего нас признака (очевидно, при этом х может в
единичных испытаниях принимать значения 0, 1,2, ..., л), то и
среднее, и дисперсия окажутся в п раз больше тех, которые получаются
по формулам C.33) и C.34) при п = 1 (см. ниже § 4.4).
Вопросы для самоконтроля.
1. Что такое статистическая устойчивость?
2. Что такое вероятность и мерой чего она является?
3. Какие события называются невозможными и какие
достоверными?
4. Могут ли независимые события быть несовместимыми?
5. Какие события называются пересекающимися?
6. Что такое кривая распределения и что она показывает?
7. Можно ли в принципе указать вероятность того, что
содержание гумуса в почве равно 2,63%, и если можно, то что эта
вероятность показывает?
8. Что такое плотность вероятности и интеграл вероятности?
9. Какими константами можно охарактеризовать средний
уровень случайной величины?
10. Что следует из того, что для некоторой совокупности медиана
Меньше среднего?
11. Что называется ожиданием случайной величины?
Глава 4
ЗАКОНЫ РАСПРЕДЕЛЕНИЯ
4.1. ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ
Естествоиспытателям приходится иметь дело с бесчисленным
множеством случайных величин, в чем-то отличных друг от друга и,
следовательно, подчиняющихся в чем-то разным законам
распределения. Однако среди этого множества законов распределений можно
выделить небольшое число хорошо изученных законов, к которым с
большим или меньшим приближением удается свести значительную
часть реально встречающихся распределений.
Среди таких законов наибольшую известность и значение,
несомненно, имеет закон нормального распределения. Нормально
распределенная величина - непрерывная переменная, которая может
принимать значения от -оо до +оо. Подобное распределение обычно
имеет место в тех случаях, когда варьирование признака в рамках
общих условий, определяющих испытание, вызывается большим
числом взаимно независимых факторов, доля участия каждого из
которых в создании общей вариабельности признака очень
невелика. При этом каждое из получаемых значений оказывается
результатом случайного сочетания различных по величине и
направлению воздействий на этот признак всей совокупности
факторов, составляющих второстепенные, не контролируемые
условия испытаний. Очевидно, что сигуации, в которых все факторы
действуют на признак в одном направлении, увеличивая или
уменьшая его значение, наименее вероятны, в силу чего наименьшие
значения признака встречаются весьма редко. Гораздо более
вероятным случаем является такой, когда одни факторы ведут к
возрастанию значений переменной, другие же к их уменьшению,
вследствие чего встречаемость значений признака, занимающих
срединное положение в вариационном ряде, оказывается
наибольшей. Получающийся в результате этого вид распределения
столь часто встречается при исследовании различных явлений,
что его первоначально принимали за норму распределения
случайных величин, и потому это распределение и получило
название нормального. В почвоведении нормальный закон обычно
неплохо аппроксимирует распределения плотности почвы,
общей порозности и влажности, содержания макроэлементов и гумуса,
рН, мощности горизонтов, а также распределение ошибок многих
анализов.
73
Математически закон нормального распределения можно
выразить формулой Гаусса-Лапласа:
cd(x) = —{—e^x'^^\ D.1)
где со (х) - плотность вероятности нормального распределения слу
чайной величины X, имеющей среднее у, и дисперсию а2, е = 2,718... -
основание натуральных логарифмов и п = 3,14....
Закон нормального распределения содержит два параметра:
среднее и дисперсию. В наиболее простом случае, когда величина X
имеет параметры ц = 0 и а2 = 1 (обозначим такую величину через Z)
формула D.1) примет вид:
^^ * -72 D.2)
л/2я
Как следует из приведенных формул, основные особенности
нормального распределения связаны с тем, что показатель степени
второго сомножителя отрицателен, а отклонение переменной от
среднего возводится в квадрат. Максимальное значение плотности
вероятности достигается при значениях переменной, равной среднему
(х = |i при z = 0), а равным отклонениям от среднего в большую или
меньшую сторону соответствуют одинаковые плотности
вероятности. В связи с этим нормальное распределение симметрично
относительно плотности вероятности, соответствующей среднему, в то
же время являющемуся и модой, и медианой распределения.
Иначе говоря, при нормальном распределении имеет место равенство
ц == Mo = Med. Из симметричности нормального распределения еле-
о
дует, что центральный момент третьей степени ц/3\ = 0 и
коэффициент асимметрии а = 0.
Для нормального распределения центральный момент четвертой
степени в три раза превышает квадрат дисперсии: \iu\ = 3 \х22 = За4.
Поскольку нормальный закон распределения в некотором смысле
считается эталонным, лежащим в основе обширного комплекса
различных статистических методов и критериев, целесообразно в
качестве характеризующих это распределение безразмерных констант
взять "удобные", служащие некоторыми "точками отсчета". В силу
этого за коэффициент эксцесса 8 взято отношение \хиу<з4,
уменьшенное на 3 (см. формулу C.32)). При этом для нормального
распределения 8 = 0.
74
Воспользовавшись формулой D.2), легко установить, что для зна-
^ений г равных, например, 0, 1, 2, 3 и 4, плотности вероятности
соответственно равны (с точностью до 0,0001) 0,3989, 0,2420, 0,0540,
00044 и 0,0001, что является хорошей иллюстрацией быстроты
уменьшения <ь(г) с ростом абсолютного значения z, в особенности
если эту зависимость представить графически (см. рис. 4.1).
График нормального распределения имеет вид одновершинной
симметричной кривой, обе ветви которой уходят в бесконечность,
асимптотически приближаясь к оси абсцисс. Заметим, что на кривой
распределения точки перехода от выпуклости к вогнутости,
симметрично расположенные относительно вершины, соответствуют
значениям-1 и +1.
Среди конкретных случайных величин X практически
невозможно найти такую, у которой среднее и дисперсия в точности были бы
равны
соответственно нулю и
единице. Тем не
менее
нормально
распределенная величина Z
с параметрами
ноль и единица
(Ц = 0, а2=1)
заслуживает
особого
внимания, поскольку к
распределению с
такими
параметрами можно
свести любое нормальное распределение, если значения х заменить
их стандартизованными отклонениями. Действительно, как мы уже
отмечали, отклонения и имеют параметры щ, = 0 и аи2 = 1, а
а
так как и есть линейная функция от х, то вид закона распределения
при замене х на и не меняется; если х была распределена нормально,
то и и должна быть распределена по такому же закону с
параметрами 0 и 1, т.е. как z.
От распределения случайной величины с параметрами 0 и 1 легко
перейти к распределению конкретной случайной величины с
параметрами ц и а2; если распределения и и z одинаковы, то заменяя и на
х~\х
Ц*-3*г Ц*-2вгг |1*-аж Мж \Lx+°x Их****
2,20
2ДО
3,56 4,24 4,92 5,60 6,28
Хг
Рис.4.1. Кривая нормального распределения (случайные
величины имеют параметры: г: ц2 = 0 и <т2 = 1; х: \х.х и <зх\
содержание гумуса хГ: ц = 4,24 и а = 0,68)
z, где z = -
а
получим
75
х = ц + zo, D.3)
откуда можно найти значения х, соогветствующие заданному
значению г. так z = 0 отвечает значение х = }r, z = 1 - значение х = ц + а;
г = —1,3 — значение х = ц- 1,3а и т.д.
Предположим, что содержание гумуса в верхнем
20-сантиметровом слое выщелоченною тяжелосуглинистого чернозема
подчиняется закону нормального распределения с параметрами ц = 4,24% и
а = 0,68%. Тогда, согласно формуле D.3) z = 0 будет соответствовать
значение х = 4,24% ; z= 1 - значение х = 4,92% ; z = 2 - значение
х = 5,60% ; z = -1 - значение х = 3,56% и т.д., а графически
распределение содержания гумуса можно представить уже известной нам
кривой распределения (см. рис. 4.1), где на оси абсцисс отложена
соответствующая шкала содержания гумуса (шкала хг).
4,2. ИНТЕГРАЛ ВЕРОЯТНОСТИ НОРМАЛЬНОГО
РАСПРЕДЕЛЕНИЯ
Учитывая симметрию кривой нормального распределения, можно
заключить, что при этом распределении вероятности значений,
превышающих среднее и меньших него, одинаковы и равны 0,5.
Поскольку графически выражением вероятности служит площадь под
кривой распределения, это проявляется в равенстве площадей под
кривой справа и слева о г наибольшей ординаты, соответствующей
значению ц.
Вероятность того, что нормально распределенная случайная
величина X с параметрами \i и а2 примет значение в интервале от xi до
хг (xi < хг)> можно найти графически как долю площади под кривой
распределения в соответствующем интервале значений х от общей
площади под кривой распределения. Однако более точно это можно
сделать, вычислив интеграл вероятности, который для нормального
закона имеет вид
ф[х1х2] = Ф(х2)-ф(х1) = -]= ]V<*-^2°2rfx. D.4)
Предпочтительнее находить интеграл вероятности не
вычислением по формуле D.4), а с помощью заранее составленных таблиц.
Однако ясно, что табулировать интегралы вероятности для различных
переменных с разными средними и дисперсиями совершенно
нереально, да в этом и нет надобности, поскольку всегда имеется
простая возможность от распределения конкретной величины X перейти
к распределению величины Z с параметрами 0 и 1, и наоборот.
Существует несколько подходов к табулированию интегралов
вероятности нормального распределения. Наиболее часто в таблицу
76
помещают значение <p(z) для интервалов значений переменной от О
до г или от -z до z. В табл.П Приложения приведены интегралы
вероятности нормального распределения в интервале от -оо до z:
F(z) = -j= je-z/2dz
\2п -оо
D.5)
Функция распределения F(z), как следует из формулы D.5), пока-
зьрает долю, которая приходится на значения переменных, меньших
z, от общего объема совокупности.
Так, из табл.П можно установить, что значениям z < -2,00
соответствует F(z) = 0,02275, т.е. при нормальном распределении с
параметрами ц = 0 и о2 = 1 вероятность встретить значение, меньше
-2,00, равна 0,02275, или иначе говоря, на такие значения
приходится 2,275% от всех возможных значений z. Из той же таблицы
следует, что P(z <-0,69у) = 0,24510, т.е. примерно четверть всех значений
не превосходит -0,69, а для Р = 99,010% значения z не будут больше,
чем 2,33.
Так как Р(-оо < z < +оо) = 1, то, зная F(zt) = P(z < z\), не 1рудно
найти вероятность P(z\ <z):
P(z\<z) = \-F(z\). D.6)
Пусть, например, z\ =1,30; тогда F(z\) = 0,90320, т.е.
P(z < 1,30) = 0,90320, откуда P(z > 1,30) = 1 - F(zi) = 1-0,90320 =
= 0,09680 и, следовательно, значения, большие чем z = 1,30 в
нормально распределенной совокупности встречаются в 9,680% случаев.
Зная функцию распределения для значений z\ и zi (zi < Z2), легко
найти вероятность того, что случайная величина примет значение в
интервале от z\ до zi\
P(zx <z<z2)= F(z2) -F(z\). D.7)
Так, для z\ = -1,75 и zi = 0,38 значения F(z) соответственно равны
0,04006 и 0,64803; поэтому
вероятность того, что случайно
полученное значение z будет находиться в
интервале от -1,75 до 0,38, равна
0,64803 -0,04006 = 0,60797. В этом
случае искомая вероятность
графически представляет собой
разность между площадями под
кривой распределения, ограниченной
справа ординатами,
соответствующими значениям z\ и zi
(рис.4.2).
-3-2 -1 0 1 1 3 Z
Рис.4.2. Графическое выражение
вероятности P(z\<z< zi) как разности
интегралов F(zi) -F(z{) (площади,
соответствующие F(z) заштрихованы
вертикально для z\ = -1,75 и
горизонтально ДЛЯ 22 = 0,38)
77
Если z\ и а имеют одинаковую абсолютную величину и
отличаются только знаками (z\ < zi, \z\\ = |Z2|), то в силу симметрии
нормального распределения имеем
F(zi) = 1 -F(z2) = P(z < zi) = P(z > z2),
а вероятность того, что случайная величина примет значение в
интервале от z\ до Z2, составит
P(zx < z < zi) = F(zi) -F(zx) = 1 - 2F(zi). D.8)
Найдем, например, вероятность того, что z примет значение от
z\ = -2,00 до zi = 2,00. Учитьгеая, что F(z\) = 0,02275 и
F(zi) = 0,97725, находим F(-2,00 <z <2,00) = 0,97725 - 0602275 =
= 0,95450. Тот же результат получим, используя формулу D.8):
Р(-2,00 < z < 2,00) = 1 - 2 • 0,02275 = 0,95450.
Интервал, ограниченный значениями, равноотстоящими по обе
стороны от среднего, при нормальном распределении соответствует
середине ряда распределения, т.е. наиболее часто встречающимся
значениям переменной1. При этом отклонения в большую или
меньшую сторону от указанного интервала равновероятны. Все это
обусловливает особый интерес к интервалам значений от -z до z.
Можно показать, что значения нормально рраспределенной величины при
Р = 0,50 заключены в пределах от -0,674 до 0,674. Вероятности 0,90
соответствует интервал от -1,64 до 1,64, а 95% объема совокупности
не выходит за пределы значений z = -1,96 и z = 1,96. Вероятностям
0,99 и 0,999 соответствуют интервалы, ограниченные значениями
z = ±2,58 и z = ±3,29.
Приведенные данные наглядно показывают, как с увеличением
абсолютной величины z растет вероятность, соответствующая
выделяемому интервалу значений. Из них также видно, что при
нормальном распределении большая часть значений переменной не слишком
сильно отклоняется от среднего (если отклонения рассматриваются
как стандартные).
Учитывая, что для нормально распределенной величины X с па
раметрами ц и а2 нормированные отклонения распределены как
величина Z, можно найти не только вероятность значений в заданном
интервале от х\ до хг, но и интервал значений х\ < х < Х2,
соответствующий заданной вероятности. В первом случае для значений х
'Заметим, что среди значений х\ и хг чаще встречается jci, если отношение вероятности
попадания в малую окрестность х\ к вероятности попадания в малую окрестность хг
больше единицы. Таким образом, представления о наиболее часто встречающихся
значениях переменной основываются не на вероятностях, а на отношениях вероятностей
(можно пользоваться отношением плотностей вероятностей).
78
одят нормированные отклонения м, которые, будучи нормально
ределенными, представляют собой величину z, а затем с по-
ью F(z) определяют искомые вероятности; во втором случае для
*ой вероятности Р по таблице отыскивают соответствующие
«дочения ±2 и по формуле D.3) находят искомые значения лл и Х7.
Пусть, например, требуется найти вероятность того, что в
выщелоченном черноземе содержание гумуса не превысит х = 3,50%, если
и = 4,24%, о = 0,68%, а распределение нормально. Тогда, поскольку
ySz= 3>50~4'24 =-1,09, получим Р(х< 3,50) =P(z< ~\,09) =
0,68
= 0,13786, т.е. содержание гумуса менее 3,50% в этих черноземах
встречается в 13,786% случаев. С вероятностью Р = 0,95, которой
соответствуют z = ±1,96, содержание гумуса в выщелоченном
черноземе в силу * формулы D.3) заключено в - интервале от
*, = 4,24-1,96-0,68 = 2,91% до х2 = 4,24 + 1,96 • 0,68 = 5,57%.
Очевидно, вне полученного интервала содержание гумуса встречается в
5% всех возможных случаев, причем в 2,5% случаев содержание
гумуса в этих почвах ниже 2,91% и столь же часто оно превышает
5,57%.
4.3. ЛОГНОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
Если закону нормального распределения подчиняется не сама
случайная величина X, а ее логарифм / = logpc (a - основание
логарифма), то величина X называется логарифмически нормально (лог-
нормально) распределенной, Логнормальный закон описывается
обычным уравнением Гаусса-Лапласа:
•с—' .тт. <■*■»
XG^lll
где Ц/ и а/2 - параметры нормально распределенной величины L, т.е.
Ц/ = E(l) = E(\ogax) - средний логарифм, а а/2 = Е[{1 - ju./J] - средний
квадрат отклонения логарифма значений от среднего логарифма
(дисперсия ряда логарифмов). При логнормальном законе
распределения величина X может принимать значения от 0 до +<х>.
Заметим, что антилогарифм величины ц,, т.е. gx~ яМ/ называется средним
геометрическим величины X, которое отличается от
математического ожидания (среднего арифметического) \хх = Е(х)
случайной величины X, причем gx < \ix. Соответственно антилогарифм
величины а/2 не равен дисперсии ах2 величины X.
Связь между ц, и цх и между а/2 и ах2 можно выразить
соотношениями
79
Ьц,+—-
И
\ix=e
cl=e2b»i+b2°>(eb4-l),
где b = logae.
Если / - натуральный логарифм от х (/ = hut), то
и
al=e2»'+°>(e°- -1).
D.10)
D.11)
D.12)
D.13)
Так как при нормальном распределении среднее и медиана
равны, и, следовательно, для случайной величины L имеем Ц/ = Med/,
медиана делит ряд распределения на две части, которым
соответствуют одинаковые вероятности Р = 0,5, то среднее геометрическое
gx логнормально распределенной величины равно медиане этой
величины: gx = Medx.
При логнормальном распределении мода Мох меньше не только
среднего \хХУ но и медианы Medx. В общем виде Мо может быть
вычислена по формуле:
Мох=*>'-*2а<\ D.14)
а при использовании натуральных логарифмов - по формуле
Mov =ец'-а' .
D.15)
Таким образом, если случайная величина X имеет логнормальное
распределение, то для моды, медианы и среднего арифметического
справедливы неравенства Мох < Medx < цх.
Коэффициент вариации Vx логнормально распределенной
случайной величины X, как выраженное в процентах отношение ах к \iXi
связан с дисперсией ряда логарифмов следующей зависимостью:
о] = Mog
1 +
100
D.16)
После перехода к десятичным логарифмам формула D.16) примет
вид
а/ = 0,4343 lg
uooJ
D.17)
80
Еще более просто выглядит формула D.16) для натуральных
логарифмов:
a,2=ln
uooJ
D.18)
Пусть, например, водопроницаемость почвы х (мм/мин)
распределена по логнормальному закону и тогда величина / = 1шс
распределена по нормальному закону. Если для ряда распределения
логарифмов ц,= 0,70 и а/=0,80, то gx = Medx = e070 = 2,01 мм/мин, a щ.,
ЪЛох и ох7 находим по формулам D.12), D.15) и D.13):
л™ 0.802
0,70+-- . п~
цх = е 2 = el,uz = 2,77 мм/мин,
Мох = в0-70-0'802 = е0'06 = 1,06 мм/мин,
а2 =е2о.7о+о,8о2Ло,802 .Л == е2-04(е0-64 -1) = 7,6906-0,8965 = 639 и
ах = 2,63 мм/мин.
Для определения вероятности, соответствующей тому или иному
интервалу значений логнормально распределенной величины X,
следует от значений х перейти к их логарифмам, найти для этих
логарифмов нормированные отклонения и, пользуясь таблицей F(z),
вычислить соответствующую вероятность. Так, в данном примере
вероятность нахождения водопроницаемости в интервале от х\ = 1
до Х2= 10 мм/мин находится следующим образом: /i =lnl = 0,00 и
0,00-0,70
0,80
uh=z}= —-^^г— = ~°>88, h = lnlO = 2,30
= Z2 = 2>30 °'70 = 4-2,00 , F(z\) = 0,18943, Ffz2; = 0,97725 и
0,о 0
Р(Кх< 10) = РA< / < 2,30) = 0,97725 - 0,18943 = 0,78782 * 78,8%.
Для нахождения интервала значений х, соответствующего
заданной вероятности Р, следует по формуле D.3) (естественно, заменив в
ней л1 на /, ц на ц, и а на а7) определить граничные значения /i и /г,
антилогарифмы которых и дадут искомые граничные значения х.
Так, для Р = 0,9 (этой вероятности соответствуют z = ±1,64) получим
Л = 0,70 - 1,64 • 0,80 = -0,61 и h = 0,70 +1,64- 0,80 = 2,01, откуда
Х2 = в2»01 = 7,46 мм/мин и х\ = е-0*6* = 0,54 мм/мин.
Итак, с вероятностью 0,9 водопроницаемость исследуемой почвы
колеблется в интервале от 0,54 до 7,46.
6 Е.А.Дмитриев
81
Возможность аппроксимации какого-либо эмпирического
распределения логнормальным законом (наиболее часто это
распределение водопроницаемостей и содержания некоторых
микроэлементов), совсем не означает, что в связи с этим следует отказаться
от среднего арифметического в пользу геометрического. Закон
распределения не имеет решающего значения в выборе среднего. Вид
вычисляемого среднего (среднее арифметическое, среднее
геометрическое и др.) определяется задачами исследования и выбором
критериев качества.
4.4. БИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
Биномиальное распределение возникает в том случае, когда
каждое испытание имеет два возможных несовместимых друг с другом
исхода, как например, в случае, когда каждое из зерен песчаной
фракции может оказаться кварцевым или некварцевым, а тот или
иной агрегат - водопрочным или нет. Если в условиях проведения
испытаний вероятность наличия признака (например "кварца")
обозначить через Р, а его отсутствия - через Q (при этом Р + Q = 1), то
вероятность Рп(х) в п испытаниях получить х раз (х = 0, 1, 2..., п)
наличие признака определяется выражением
Рп(х)= п- PxQ"-\ D.19)
х\(п-х)\
где знак ! называется факториалом и означает, что следует
перемножить целые числа от I до числа, стоящего под знаком факториала.
Так, п\ = 1 • 2 • 3 •... • (п - 1) • п. Заметим, что факториал нуля
считается равным единице @! = 1).
При биномиальном распределении в качестве случайной
величины выступает число случаев с заданным исходом (наличием кварца,
водопрочностыо и пр.) при фиксированном объеме выборки п.
Единственным параметром этого распределения является Р
(поскольку Q = 1 - Р), который может принимать значения в интервале
от 0 до 1. Для выборки объема п дисперсия биномиального
распределения находится по формуле:
а* = nPQ, D.20)
из которой следует, что дисперсия не может превосходить 0,25л. Это
наибольшее значение дисперсия принимает при Р = Q = 0,5.
Математическое ожидание
\i = E(x) = лР D.21)
случайной величины в биномиальном распределении представляет
собой среднее число появлений признака в выборках объема л.
82
Пусть среди достаточно большой совокупности агрегатов
некоторого размера 20% приходится на водопрочные, т.е. вероятность
того, что агрегат окажется водопрочным, Р = 0,2. Если из такой
совокупности брать выборки объемом п = 5, то среднее число
водопрочных агрегатов в одной выборке составит ц = 5 • 0,2 = 1,00, а
дисперсия, характеризующая вариацию в выборках, есть
<j2 = 5 • 0,2 • 0,8 = 0,80. Вероятность получить в единичной выборке
Х = 0, 1, ..., 5 водопрочных агрегатов можно вычислить по формуле
5!
р (х) = : 0,2х 0,8 х . Подставляя в нее последовательно зна-
э jc!E-jc)!
чения х от 0 до 5, получим (с точностью до 0,0001):
х 0 1 2 3 4 5
Рь(х) 0,3277 0,4096 0,2048 0,0512 0,0064 0,0003
На рис. 4.3 изображен график полученного распределения.
Вычисление вероятностей Рп(х) по формуле D.19) не
представляет больших трудностей, пока число п невелико. При больших
значениях п для нахождения Рп(х) прибегают к логарифмированию
выражения D.19):
lgPn(x) = IgTi! - lgx\ - lg (n - х)! + x\gP + (п - x)\gQ. D.22)
Поскольку логарифмы
факториалов можно найти в
справочниках по математике, нахождение
]gP„(x), а затем и искомой
вероятности Рп(х) не составляет
большого труда.
Биномиальное распределение
симметрично, когда Р = Q = 0,5.
При P*Q распределение
несимметрично и имеет одну моду,
причем с увеличением х на единицу
Р„(х + 1) возрастает сравнительно
с Рп(х) до тех пор, пока
выполняется условие х <Pn-Q.
В рассмотренном примере
Рп - Q = 0.2 • 5 - 0,8 = 0,2. Так как х = 0 < 0,2, то Рь(\) > Fs@), но
л: = 1, а тем более х = 2, 3,..., 5, уже превышают 0,2, в связи с чем
вероятности получения двух и большего числа водопрочных агрегатов
из пяти оказываются более низкими, чем Ps(l) (рис.4.3).
При больших п максимум Р„(х) расположен в окрестности
значения jc = Pw, причем при и-»оо и любых х величина Рп(х) также
стремится к нулю.
i Г з 4 5 х
Рис.4.3. Распределение числа х
водопрочных агрегатов в выборке объема
п = 5 при биномиальном
распределении (водопрочных агрегатов 20%)
83
Симметричность биномиального распределения зависит не толь,
ко от величины Р, но и от объема выборки п. Действительно, так как
при этом распределении центральный момент третьего порядка
определяется выражением
цC)=пР0B-Р), D.23)
а а2 = nPQ, то согласно формуле C.31) получим, что коэффициент
асимметрии
а =-%=£. D.24)
yfiPQ
0,8-0,2
Для рассмотренного выше примера имеем а = —===== = 0,7 .
V5-0,2-0,8
Центральный момент четвертой степени при биномиальном
распределении определяется по формуле
цD) = лРф.Ре(л-2) + 1], D.25)
а коэффициент эксцесса в силу формулы C.32) составляет
—-в
= PQ =1-6Р+6Р2 D.26)
п nPQ
_!_- 6
D 0,2-0,8 ЛЛС
В данном примере имеем е = -— = 0,05 .
Коэффициент вариации наряду с обычным способом его
вычисления по формуле C.26) можно найти из выражения
£-%. D.27)
Г = 100,^-%.
I 08
В данном примере находим К = 100 • I—!— = 90%.
По мере увеличения п биномиальное распределение приближается
к нормальному и тем быстрее, чем меньше отличаются друг от друга
Ри£.
Использование для описания распределения дискретной
величины х нормального закона с параметрами \л = пР и а2 = nPQ
84
практически допустимо при п > 25, если Р = Q = 0,5, а в случае
близости Р к 0 или 1 при соблюдении условия, что nPQ > 91 .
4.5. РАСПРЕДЕЛЕНИЕ ПУАССОНА
Распределение Пуассона используется для описания встречаемости
случайных событий, происходящих в течение того или иного
интервала времени (например, число ос-частиц, излучаемых почвой в
единицу времени), либо в пределах некоторого пространства (на
плоскости или в объеме почвы, как, например, число ходов червей на
некотором участке поверхности почвы, число ортштейнов в заданном
объеме, число зерен циркона на шлифе и т.д.). Пуассоновское
распределение описывается выражением
P{x)±vLe-»t D.28)
х\
где Р(х) - вероятность в единичном испытании получить х раз
(х = 0, 1, 2, ...) интересующее нас событие, ц - среднее число таких
событий на одно испытание, е - основание натуральных
логарифмов. Пуассоновское распределение можно использовать для
аппроксимации биномиального распределения, когда вероятность Р
появления изучаемого признака очень мала (например, наличие семян
сорняков среди группы из п взятых зерен посевного материала) и
тогда ц = пР.
Распределение Пуассона возникает в тех случаях, когда
вероятность обнаружения события в бесконечно малом временном
интервале (или области пространства) бесконечно мала, причем для
любых двух непересекающихся интервалов времени (или областей
пространства) вероятность обнаружения любого числа событий в одном
не зависит от числа событий в другом.
Распределение Пуассона характерно тем, что среднее ц и
дисперсия а2 численно равны и, как следует из формулы D.28), это
распределение описывается одним параметром.
Заметим, что в распределении Пуассона, как и при
биномиальном распределении, случайной величиной является число случаев, а
не значение таких свойств, как, например, содержание железа или
водопроницаемость. Для этих последних может иметь место
равенство средних и дисперсий, но это не должно служить достаточным
1 Повидимому, эти условия достаточно жестки, т.к., по исследованиям Раффа
использование нормальной функции распределения вместо биномиальной практически
допустимо (ошибки не превосходят 0,05 для всех л-), если nPm > 1,07.
6*
85
основанием для аппроксимации их распределений законом
Пуассона, который здесь не применим.
Если общее число испытаний (выборок) равно N, to число
выборок N(x), когда х = 0, 1, 2,..., можно найти по формуле
N(x) =NP(x). D.29)
Пусть среди агрегатов размером 2-3 мм на агрегаты капролито-
вого происхождения приходится 2%, т.е. вероятность того, что
случайно выбранный агрегат окажется ханролитом, Р = 0,02. Для
выборки объемом п = 100 среди агрегатов в среднем будет содержаться
ц = пР = 100 • 0,02 = 2 таких агрегата. Вероятность того, что в
отдельной выборке окажется х = 0, 1, 2,... капролита5 выражается фор-
2х
мулой Р(х) =—е'2 в которую нужно последовательно подставить
х = 0, х = 1 и т.д. Согласно формуле D.29), среди N = 100 таких
выборок число выборок при х = 0 должно быть теоретически равно
(округляя до целых) 14, при х = 1 оно равно 27, и далее для NB),
NC), ND), NE) и NF) соответственно 27, 18, 9, 4 и 1.
Если в выборку брать не 100 агрегатов, а больше (например, 150)
или меньше (например, 50 или 25), то \х будет меняться, а
соответственно будет изменяться иР(х)} что иллюстрирует рис. 4.4.
Луассоновское распределение
вероятностей обычно очень
асимметрично. При [i < 1
максимальная вероятность Р(х)
соответствует значению х = 0. С
увеличением ц распределение
становится более симметричным,
причем при данном \х возрастание
Р(х) с увеличением х наблюдается
Рис.4.4. Пуассоновское распределение . « у . ..
до тех пор, пока л; + 1 < ц (рис.4.4).
вероятностей при различном среднем ц.
При пуассоновском
распределении равны между собой не только
среднее и дисперсия (начальный момент первой степени и
центральный момент второй степени), но и центральный момент третьей
степени:
о о
М- = ЦB) = М-(з) • D3°)
В связи с этим, как следует из формулы C.31), коэффициент
асимметрии при пуассоновском распределении обратно пропорционален
стандарту распределения (или квадратному корню из среднего):
Р(х)
0,5
0,4
0,3
од-
0,1-
Л Л J
С
L^|i=0,5
\у-1Ь=1,0
/U^y.11^2,0
Х\\ ^Чу^<г'1=5'0
> 2 4 6 8 10
X
86
а=-^ = -. D.31)
Так как при пуассоновском распределении центральный момент
четвертой степени выражается соотношением
^D) = ц(Зц+1), D.32)
то из формулы C.32) получим, что коэффициент эксцесса обратно
пропорционален среднему (или дисперсии):
e = i = -L D.33)
Ц а2
Для рассмотренного выше примера, когда ц = 2, получим а = 0,71
ие = 0,50.
Из рассмотрения формул D.31) и D.33) следует, что для
распределения Пуассона асимметрия и эксцессивность положительны и с
увеличением среднего уменьшаются.
4.6. ДРУГИЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЙ
ДИСКРЕТНЫХ ВЕЛИЧИН
Рассмотрим еще некоторые законы, которые могут быть
использованы для аппроксимации распределений случайных величин в
почвоведении.
Среди таких законов, описывающих распределения дискретных
случайных величин, можно отметить отрицательный биномиальный
закон. Он описывает распределение случайной величины X,
представляющей собой число испытаний, в результате которых
интересующее нас событие впервые появляется ровно к раз (вероятность
появления такого события в единичном испытании равна Р, а
вероятность непоявления равна Q = 1 - Р). Очевидно, при этом х не
может быть меньше Р, а распределение вероятности Р(х) выражается
формулой
р{х)=ckx:lpk(\-p)x~k =ck:\pkQx-k, D.34)
где х = /с, /с+ 1, ,.м a C*l{ - число сочетаний из х- 1 элементов по
к - \ элементу. Название этого закона связано с тем, что правые
части формулы D.34) представляют собой последовательные члены
87
разложения бинома с отрицательным показателем:
Pk[i-{l-p)]-k=Pk(l-QYk.
Для этого закона имеют место следующие соотношения:
к D.35)
D.36)
D.37)
о2
а = -
ц=?'
_k(i-p)
р2
1-р
кО
"Р2'
1-Р
Jk(l-P) y[kQ'
8 =
l+4(l-P)-f(l-PJ J+4Q+Q2 D.38)
k(l-P) kQ '
F-IOOJ^. D.39)
Если для отрицательного биномиального закона принять к = 1,
то jc будет представлять собой число испытаний, необходимых для
того, чтобы интересующее нас событие впервые произошло ровно
один раз. При к = 1 имеем C%l\ = 1 и выражение D.34) примет вид:
P(x)-PQX'1 D.40)
где х= 1, 2, 3, .... Распределение вероятносгей, описываемое
формулой D.40), называется геометрическим. Для него справедливы
соотношения (при Р + Q = 1)
ц = 1, D.41)
2 Q
a = i7£, D.43)
Р2
8 = 6+—, D.44)
К = 100^2- D.45)
Биномиальное распределение возникает в том случае, когда
генеральная совокупность, из которой берется и элементов, бесконечно
велика. Если же генеральная совокупность конечна и случайно
88
Отобранные из нее компоненты обратно не возвращаются, то
распределение среди п отобранных элементов числа х элементов,
содержащих интересующее нас свойство, подчиняется гипергеометри-
цескому закону, который можно рассматривать как модификацию
биномиального. Обозначая объем генеральной совокупности через
#, а число элементов этой совокупности с интересующим нас
свойством - через А/, получим, что среди п взятых элементов вероятность
обнаружить х элементов с заданным свойством есть
six г*п-х
р(х\ = UA/ '^N-M D.46)
где х = 0, 1, 2, ..., пш(М,п). Ограничение сверху возможных
значений х наименьшим из значений М или п вытекает из того, что при
п>М максимально возможное значение лимитировано значением
х = Му а при п< М- значение х = п.
Для гипергеометрического распределения, учитывая, что Р = —
N
п N"M
и Q = , получим следующие формулы:
N
\i = пР. D.47)
^^nPQ(N-n) D48)
ЛГ-1 '
(l-2P)(N-2njN^i) D>49)
y[nPQ-(N-2)jN-n '
ywP(N-l)
4.7. ДРУГИЕ ЗАКОНЫ НЕПРЕРЫВНЫХ РАСПРЕДЕЛЕНИЙ
Для непрерывных случайных величин аналогом геометрического
распределения является показательное (экспоненциальное)
распределение. Закон экспоненциального распределения случайной
величины X определяется одним параметром X > 0 и имеет вид
afxJ^Xe-**. С4-51)
Интеграл вероятности определяется выражением
<р(х) = !-*-* D.52)
при х > 0.
Для этого распределения имеют место соотношения
а -
89
ц = 1, D.53)
А.
а2=^-, D.54)
Med = —= ц1п2, D.55)
Л,
V= 100%. а = 2 и е = 6. Экспоненциальный закон имеет место,
например, при распределении длин отрезков (времени, пространства)
между последовательными событиями, если распределение таких
событий подчиняется пуассоновскому закону.
Гамма-распределением называется такое распределение, при
котором случайная величина X принимает значения х > 0 и имеет место
плотность вероятности
Г(Р)
где р и X - параметры распределения, а Г(Р) - гамма-функция
Эйлера. Среднее и дисперсия гамма-распределенной случайной величины
таковы:
ц = £ D.57)
А,
И
_2 Р
откуда
%2 - D-58)
F = 100l- D.59)
104
Р = -^. D.60)
При гамма-распределении Мо = (р - 1)'Х (при р > 1), <х = 2Д/р,
6 = 6/0.
При целочисленных значениях р их можно рассматривать как
число независимых факторов, распределенных по
экспоненциальному закону, суммарное воздействие которых определяет
распределение случайной величины X. Если р достаточно велико (р > 11 и
V < 30%), то гамма-распределение мало отличается от нормального,
а при р = 1 оно совпадает с экспоненциальным.
90
Гамма-распределение является непрерывным аналогом
отрицательного биномиального распределения. При X = мц* и р = п гамма-
распределение называется эрланговским распределением с
параметрами п и и\ описывающим распределение протяженности
интервалов (времени, пространства) до появления пуассоновских событий
с параметром ц\
Если распределение случайной величины X определяется
влиянием "слабого звена" среди факторов, оказывающих влияние на эту
величину, ее распределение описывается законом Вейбулла (Вейбулла
- Гнеденко). В этом случае
а>(х) = р
D.61)
ф(х) = 1-ехр
D.62)
полагая — = X, получим
ю(х) = РА*мехр(-Я*р), D.63)
ф(х) = 1-ехр(-лхр). D.64)
Распределение Вейбулла имеет два параметра р и 9 (или р и X),
которые всегда больше нуля, и характеризуется тем, что независимо
от значений параметров вероятность Р(х<0) одинакова и равна
0,6321. Величину (9Р =1Д) называют масштабным параметром, а р
- параметром формы распределения Вейбулла. Среднее и дисперсия
этого распределения таковы:
ц = ег[1+1| = ГРгAД]
= *.*
Р
р.
-Г2|1
4
уу
Если р < 1, то Мо = 0; если же р > 1, то
2
Мо = Л р1-
1 IP
D.65)
D.66)
D.67)
Распределение Вейбулла при р = 1 переходит в экспоненциал!,-
ное, а при р = 3,3 оно хорошо аппроксимируется нормальным с
01
параметрами ц « 0,8975 -9, о * 0,3 • 0 и коэффициентом вариации
К* 30%.
При {3 = 2 распределение Вейбулла совпадает с распределением
Рэлея, для которого характерна умеренная положительная
асимметрия и соотношения
ц = ^ = 0,8862-6, D.68)
Л - q2| 1 _ я I _ ,,21 7 11 _aoi/i/;.q2 _ло-710...2
Bz| 1 |=^z|—1| =0,2146- 9Z = 0,2732-^ D.69)
и F = 100J--1=52,27%.
Для распределения Рэлея
Mo =-^г = 0,707Ь6 и Med = eVln2 = 0,8326 0. D.70)
л/2
Если случайная величина X может принимать значения только в
интервале от а до Ъ (а < 6), причем плотность вероятности на этом
отрезке постоянна и равна
ю(*) = т—> D.71)
Ь-а
где а <х <Ъ, то случайная величина X называется равномерно
распределенной. Для такой величины
H = Med = —, D.72)
а2 = <*^ ' D.73)
12
и а = 0 и с = -1,2. Например, по этому закону распределяются
ошибки округления последнего десятичного знака.
Ранее был рассмотрен логнормальный закон распределения,
когда нормальному закону подчиняегся не сама случайная величина X,
а ее логарифмы. Однако нормальному закону могут подчиняться и
некоторые другие функции от X. Распределения ряда таких
случайных величин, логарифмические функции от которых имеют
нормальное распределение, образуют семейство распределений
Джонсона. В практике почвенных исследований нашли применение
логарифмические преобразования вида
и =у + rjlnfx-s/, D.74)
92
w = Y+rjln , D75)
e+X-x
и = у + ц Arsh , D.76)
где U - функция случайной величины Х\ у, т\, е, к - некоторые
константы, Arsh - ареа-синус:
Arshi ^—^ I = In
х - е [х-е
+ 1
DЛ7)
Константы у, г\ зависят от асимметрии и эксцесса распределения
случайной величины X и определяют форму распределения, е
определяет уровень значений, а X - масштаб случайной величины. Если
функцию U случайной величины X можно рассматривать как
нормально распределенную, то случайная величина X считается
распределенной по соответствующему закону Джонсона.
Вопросы для самоконтроля.
1. Каковы основные особенности закона нормального
распределения?
2. Можно ли из области почвоведения привести примеры строго
нормально распределенных величин?
3. В чем состоят общие принципы отыскания вероятности
попадания нормально распределенной случайной величины в заданный
интервал значений с помощью таблицы интегралов вероятности?
4. Какое распределение называется логнормальным и какие
значения при этом может принимать случайная величина?
5. Что называется средним геометрическим и как оно соотносится
со средним арифметическим, модой и медианой при логнормальном
распределении?
6. Какими общими особенностями обладают случайные
величины, распределение которых описывается законом Пуассона и
биномиальным законом?
7. Чем отличаются условия применимости закона Пуассона и
биномиального закона?
Глава 5
ВЫБОРОЧНЫЕ ОЦЕНКИ И ОШИБКИ
РЕПРЕЗЕНТАТИВНОСТИ
5.1. КОНСТАНТЫ И ИХ ОЦЕНКИ
В большинстве случаев исследователь практически имеет дело не
с генеральными совокупностями, а с выборками, содержащими
информацию о свойствах генеральной совокупности. Выборки всегда
являются конечными и, составляя часть генеральной совокупности,
не позволяют получить точных значений тех констант, тех
параметров исследуемых случайных величин, ради изучения которых
проводится исследование. Выборочные результаты испытаний дают
возможность вычислить лишь оценки (констант, параметров),
например оценку среднего х для генерального среднего ц,
выборочную дисперсию s2 как оценку дисперсии а2 и т.д. В то время как
константы - величины постоянные, выборочные оценки констант
являются случайными величинами, в отношении которых справедливы
все указанные выше их особенности (см. гл. 1).
В перечень общих условий, определяющих испытание, в качестве
обязательного условия входит постоянство объема выборки. Если
это условие не соблюдено, то при прочих равных условиях (один
объект, одна и та же генеральная физическая совокупность,
неизменная методика анализа или процесса измерения) получаемые в
повторных выборках оценки, например, средних, окажутся
значениями разных случайных величин (по меньшей мере эти величины
будут иметь разные дисперсии).
Случайность оценок проявится в том, что, будучи вычисленными
по результатам повторных выборок, эти оценки принимают
неодинаковые и заранее неизвестные значения, хотя обычно исследователь
имеет дело лишь с одной выборкой из изучаемой генеральной
совокупности и получает одно значение для оцениваемой константы.
То, что оценки констант являются случайными величинами,
означает, что получаемые оценки нельзя отождествлять с самими
константами. В методологическом отношении такое отождествление
соответствует постановке знака равенства между явлением (каковым
является оценка) и сущностью (константой). Всегда следует
учитывать, что выборка позволяет лишь с той или иной погрешностью
судить о константе, но в силу случайности оценки мы не имеем
возможности сказать, насколько и в какую сторону (в большую или
94
иеяьшую) отличается оценка от неизвестной нам оцениваемой
константы.
* Наиболее часто константы характеризуются оценками,
выражаемыми одним числом. Такие оценки получили название точечных.
Точечными оценками являются, например, выборочные значения
среднего х , дисперсии s2 и т.д.
5.2. ОЦЕНКА МОДЫ
Поскольку мода Мо есть значение, встречающееся наиболее
часто (для дискретных величин) или имеющее наибольшую
плотность вероятности (для непрерывных величин), для оценки моды
нужно располагать таким объемом данных, чтобы о встречаемости
уже что-то можно было бы сказать. Поэтому оценку моды обычно
бывает целесообразно находить, когда выборка насчитывает по
меньшей мере 2-3 десятка данных и имеется возможность
построения ряда распределения. В этом случае за оценку моды то
принимают середину модального класса, т.е. класса, имеющего
наибольшую частоту. Если ширина класса с равна точности измерений А и
середина любого класса представляет собой единственное значение
случайной величины, то выборочное значение моды приравнивают
тому значению, которое встречается наиболее часто.
Пусть, например, число ортштейнов крупнее 3 мм в объеме 100
см3 в пределах некоторого слоя дерново-подзолистой почвы по
результатам п = 30 наблюдений дало следующий ряд:
Xj 0 1 2 3 4 5
fj 3 8 13 4 0 2
Здесь то = 2.
Если с > А, то в качестве моды допустимо принимать середину
модального класса, но при необходимости можно получить и более
точную оценку моды, используя линейную интерполяцию:
■~- *,.-,»■ + С-:f^f у E-1)
где индексы т, т-\ и т+1 соответствуют модальному, предмо-
дальному и послемодальному классам, а х^т_Хут - граница между
модальным и предмодальным классами (или нижняя граница
модального класса).
95
Таблица 5.1
Распределение плотности дерново-подзолистой почвы в пахотном слое (п = 150)
*/
-к-
1,08
7
1,13
19
1,18
21
1,23
29
1,28
26
1,33
18
1,38
12
1,43
9
1,48
6
1,53
3
Обычно найденную по экспериментальным данным оценку моды
называют просто модой. Это допустимо, если не забывать, что
полученная по выборочным данным мода является выборочной модой,
оценкой, которая лишь с большей или меньшей погрешностью
характеризует истинное значение моды, генеральную моду.
По данным, представленным в табл.5.1, за оценку моды можно
принять середину класса с наибольшей частотой то = 1,23 г/см3.
Учитавая, что здесь с - 0,05, а нижняя граница модального класса
х{т-\ут = 1*205, найдем более точную оценку:
29-21
то = 1,205 + 0,05 = 1,24 г/см3.
2-29-B1 + 26)
5.3. ОЦЕНКА МЕДИАНЫ
В отличие от моды оценку медианы можно получить по
выборочным наблюдениям малого объема (при п > 2), если признак
поддается ранжировке.
Если результаты наблюдений над количественным признаком не
представлены в виде вариационного ряда, то для нахождения оценки
медианы данные следует ранжировать. Обозначая ранжированные
значения случайной величины ху полученные в выборке объема я,
через х*, где / = 1,2, ...я, из соотношения B.13) получим для
вычисления медианы (выборочной) med:
при п четном:
* / * *\ ха + хй+\
med = xi+ 0,5(aVi -x^- -*-^, E.2)
при п нечетном:
med = хй« , E.3)
где индексы при х* - номер значения в их ранжированной
последовательности.
Пусть, например, в выборке объемом п = 5 получены следующие
данные по содержанию обменного Са (после ранжировки):
*Г: 7,4; 7,8; 8,2; 8,9; 9,8.
96
SfaK как п нечетно и (// + 1)/2 = 3, то значение, стоящее на третьем
цвете, и лвляется оценкой медиалы: med = 8,2 мг.экв/100 г почвы.
Рассмотрим теперь ранжированную выборочную
последовательность значений содержания гумуса:
х*: 1,35; 1,75; 1,85; 1,90; 2,05; 2,20.
Здесь w = 6- четное и медианой является полусумма значений,
стоящих на 3-м и 4-м местах: med = 0,5 • A,85 + 1,90) = 1,88 %.
Для данных, представленных в виде вариационного ряда такого,
что с > А в качестве оценки медианы можно принять середину
медианного класса, т.е. класса, в котором содержится значение,
соответствующее середине ранжированного ряда.
Так, для плотности почвы (см. табл.5.1) при /1=150 середина
ранжированного ряда приходится на значения, занимающие 75 и
76-е места. Легко установить, что соответствующие значения
принадлежат четвертому классу, для которого *4 = 1,23, а поэтому
можно считать, что med = 1,23 г/см3.
Из результатов такого подсчета, кстати, следует, что х15 и х76
должны быть наибольшими значениями из тех, что попали в класс с
серединой Xj = 1,23, так как значение плотности, стоящее на 77-м
месте, уже принадлежит следующему классу (сумма частот в первых
четырех классах равна 76). Поэтому можно полагать, что med = 1,23
- не самое лучшее решение. Действительно, в подобных случаях
более точную оценку медианы получают с помощью линейной
интерполяции по формуле
med = х{т_хут +с f- , E.4)
J m
где т - номер медианного класса, х^т_1)/т - нижняя граница
медианного класса, с - ширина класса, fm - частота медианного класса,
jmm-\
£ fj - сумма частот классов, предшествующих медианному.
н
В рассматриваемом примере с = 0,05, т = 4, хуа = 1,205,
£ fj =47 и тогда согласно формуле E.4) найдем
150 ,„
med = 1,205 + 0,05^ = 1,25 .
29
7 Е.А.Дмитриек
97
Утверждение, что вычисление медианы по формуле E.4) (илц
моды по формуле E.1)) дает более точную оценку, нежели
приравнивание медианы (или моды) к середине соответствующего
класса, не означает, что каждая конкретная оценка оказывается
ближе или дальше от оцениваемого генерального показателя.
Например, нельзя утверждать, что значение плотности 1,25
ближе к генеральному значению медианы, чем 1,23. Дело в том, что
любая выборочная медиана (и мода) есть случайная оценка, и если в
среднем использование формулы E.4) или E.1) улучшает оценку (об
этом речь пойдет ниже), то совсем не обязательно, чтобы это
улучшение происходило в каждом конкретном случае.
Медиану как показатель среднего значения признака вычисляют
сравнительно редко. Однако возможны такие ситуации, когда
медиана оказываегся наиболее применимой для характеристики средней
тенденции изучаемого свойства. Подобные случаи имеют место,
когда существует некоторая неопределенность крайних значений
признака (чаще всего максимального), что исключает возможность
вычисления среднего арифметического. Наиболее часто такая ситуация
складывается при изучении водопроницаемости (наличие
"провальной" водопроницаемости), но может возникнуть и при других
обстоятельствах, например, при подсчете площадей с различным
уклоном местности для некоторой территории (табл. 5.2).
К последнему классу углов отнесены углы, превосходящие 15°, и
для этого класса отсутствует верхняя граница; поэтому найти
средний арифметический угол наклона не представляется возможным.
Однако медианное значение найти можно. Очевидно, оно должно
соответствовать тому углу, который приходится в ранжированном
ряде на 50-й процент площади. Заметим, что в табл. 5.2 классы углов
наклона неодинаковы: классовый промежуток меняется от 0,5° в
первых двух классах до 10° в предпоследнем классе. Для подобных
исследований это весьма распространенное явление. Однако для
вычисления медианы это не существенно. Следует лишь иметь в виду,
что в формуле E.4) величину классового промежутка нужно брать
для модального класса.
Т аблица 5 . 2
Процент площадей с различным уклоном местности
Угол наклона, градусы
Процент площади
0-0,5 0,6-1,0 1,1-2,0 2,1-5,0 5,1-15,0 >15,0
31,4 „.23,? 15,4 11,8 9,1 8,6
Из табл. 5.2 следует, что 50-й процент находится во втором
классе (т = 2) с граничными углами 0,6 -1,0°. Поскольку нижняя и
верхняя границы медианного класса соответственно равны 0,55° и 1,05°,
98
ндоестве частот в данном примере выступают проценты. Так как
Ш?/ = 31,4 ,/ж = 23,7 и 0,5 и = 50,0, то согласно формуле E.4) получа-
' 500-314
mmed = 0,55 + 0,5 337 = °'94° *
Итак, медианное значение угла наклона местности приближенно
равно 0,9°.
5.4. ОЦЕНКА СРЕДНЕГО АРИФМЕТИЧЕСКОГО
Как уже было отмечено, среднее арифметическое - это константа,
часто являющаяся параметром распределения. Важность этой
константы и необходимость нахождения ее оценок практически в
любых исследованиях послужили достаточно серьезным основанием
для того, чтобы ввести различные обозначения для среднего и его
оценки. Сейчас принято среднее как константу обозначать
греческой буквой ц, как это уже делали, а оценку среднего - латинской
буквой с чертой, например, для случайной величины X - в виде х .
Такая система обозначений сразу показывает о чем идет речь, о
среднем или его оценке, и если, например, рассматривается среднее х , то
это среднее выборочное, т.е. оценка среднего, а не сама константа
И*.
Оценку среднего можно получить разными способами. Один из
самых простых и, как можно предположить, не самый точный
способ состоит в нахождении среднего как полусуммы наименьшего и
наибольшего значения величины, поскольку эти значения обычно
называют лимитами, то такая оценка равна полусумме лимитов:
- = *min+*max ^ E>5)
Эта оценка, очевидно, тем лучше характеризует среднее, чем
симметричнее распределение случайной величины. Преимущество такой
оценки в простоте ее вычисления, что используется для
предварительного анализа полученного материала и для контроля
от грубых промахов при вычислении среднего более сложным
методом.
Недостатки такого способа связаны с тем, что вычисление
среднего основано на учете только двух крайних значений, и они
наиболее изменчивы, что и делает эту оценку не очень надежной.
Для иллюстрации этого и других способов нахождения разных
оценок допустим, что плотность почвы охарактеризована выборкой
объемом и = 5 со значениями xt (г/см3): 1,23; 1,25; 1,25; 1,27: 1,30.
Тогда оценка х по формуле E.5) составит 0,5 • A,23 + 1,30) = 1,26.
99
объемом тг = 5 со значениями х,- (г/см3): 1,23; 1,25; 1,25; 1,27; 1,30. Тог*
да оценка Зс по формуле E.5) составит 0,5 • A,23 + 1,30) = 1,26.
При симметричности распределения в качестве оценки среднего
х можно использовать медиану.
Тогда для данного примера получим Зс = med = 1,25.
Наиболее часто оценку среднего находят как среднее
арифметическое всех значений:
Зс=£^-. E.6)
п
В дальнейшем мы будем иметь в виду именно такую оценку
среднего.
Так как для данного примера £х, -6,30, то 7 = -Lr- = 1,26.
Одинаковые значения ь выборке могут встречаться два и большее
число раз (здесь, например, значение 1,25 встречается дважды) и
соответствующее число таких значений должно входить в £х, при
вычислении среднею. Иначе говоря, при нахождении суммы зна
чений они должны быть взвешены их частотой, в силу чего такая
оценка среднего есть среднее взвешенное. Это особо следует иметь в
виду при вычислении среднего по сгруппированным данным, когда
выборочная совокупность представлена в виде вариационного ряда
с серединами классов Xj и их частотами^. При этом среднее
находят по формуле
х=^ . E.7)
п
Так, по данным, представленным в табл. 5.1, средняя плотность
_ 1,03-7 + 1,13.19+...+1,53-3 189,60 Л^А
почвы есть х = = = 1,264
150 150
Оценки среднего, найденные по сгруппированным данным,
конечно, не вполне равноценны оценкам, полученным по несгруппиро-
ваниым значениям переменной, но возникающие при этом ошибки
обычно настолько незначительны, что ими вполне допустимо
пренебречь.
5.5. МЕТОДЫ ХАРАКТЕРИСТИКИ ВАРЬИРОВАНИЯ
Результаты выборочных наблюдений дают возможность
различными способами отразить меру неодинаковости значений случайной
величины. Наиболее просто степень варьирования признака
отражается с помощью лимитов, *.е. минимального и максимального
значений случайной величины, полученных в выборке.
100
Так, если среди пяти значений плотности почвы Xmin = 1,23, а
-^ = 1,30 г/см3, то это может быть записано так:
ЪЛМ(х) = A,23 + 1,30) г/смз.
Иногда одновременно с указанием лимитов приводят амплитуду
колебаний, или размах варьирования Ry (индекс указывает объем
выборки), представляющую собой разность между максимальным
дгтах и минимальным Xmin значениями признака:
■*^(л) = -^niax — Xmin. E «8)
Например, для плотности почвы получим RE) = 0,07 г/см3.
Лимиты и размах особенно широко используют для
характеристики некоторых климатических особенностей изучаемого района.
Тдк, помимо средних многолетних температур воздуха по отдель-
ш>1М декадам, месяцам или сезонам обычно приводят минимальные и
максимальные температуры за соответствующий период.
Амплитудой обычно характеризуют размах колебаний температуры почвы
на разных глубинах. Широкое применение лимиты находят также в
микробиологии при описании размеров изучаемых объектов.
Лимиты и размах как показатели варьирования имеют
существенный недостаток, состоящий в том, что они учитывают только
крайние значения признака, которые наиболее легко меняются.
Пусть, например, при оценке содержания обменного калия в
пахотном слое дерново-подзолистой почвы в пределах поля площадью
10 га в трех повторных выборках объемом п = 7 лимиты и размах
оказались следующими (мг/100 г почвы):
LIM D,54-10,5) D,44-13,2) E,04-9,0)
Ren 6,0 8,8 4,0
С увеличением объема выборки вероятность получить редко
встречающиеся значения возрастает. Это приводит к тому, что
лимиты и размах оказываются функцией объема выборки, что также
ограничивает использование этих показателей варьирования.
Как следует из рассмотренного выше примера, лимиты по калию
не выходили за пределы D,4 -s- 13,2), а размах не превышал R(i) = 8,8.
В выборке же объемом п = 35 для того же поля было получено:
LIM = C,8 ч- 13,5) и #C5) = ,9,7 мг/100 г почвы.
Все эмпирически найденные лимиты и размахи представляют
собой оценки некоторых констант при фиксированных объемах
выборок. Если закон распределения случайной величины известен, то
можно указывать и соответствующие константы. Например,
известно, что при нормальном распределении с увеличением объема
выборки размах сначала, пока п невелико, растет интенсивно, но по
мере увеличения п этот рост затухает (табл.5.3).
101
Таблица 5.3
Увеличение размаха варьирования R(# с ростом объема выборки п
для нормального Z-pacnpcделения с параметрами 0 и 1.
п
кт
2
1,13
4
2,06
6
2,53
8
2,85
10
3,08
15
3,47
20
3,73
В качестве меры варьирования можно использовать межквар-
тыльное расстояние (межквартильный размах) R(q), представляющее
собой разность между верхним и нижним квартилями:
Rig) = *<0Л5) " Х@.25). E.9)
Если квартили получены на основе выборочных данных по
формуле B,13), то и они сами, и размах являются оценками некоторых
констант.
Пусть, например, в выборке объемом п = 7 были получены
значения содержания обменного калия (мг/100 г почвы): х( : 4,5; 7,2; 7,3;
8,0; 8,3; 9,0; 10,5. Тогда, поскольку Х(о,25) = 7,2 и Л(о,75) = 9,0, имеем
R(q) = 1,8 (в этом случае jRG> = 6,0).
В качестве меры вариации свойства межквартильный размах
используют сравнительно редко. В то же время он весьма прост в
интерпретации, так как показывает интервал (точнее - оценку
интервала, если размах найден по выборке) возможных различий между
крайними значениями интервала (обычно вблизи центра
распределения), содержащего половину всех возможных значений.
Лимиты и размах учитывают лишь некоторые значения
случайной величины, полученные в выборке, и в этом состоит их слабость.
Учет всех значений можно осуществить при вычислении среднего
абсолютного отклонения
9sZl*i-*l E10)
п
(центральные отклонения берутся по модулю, т.е. без учета знака).
Для характеристики неоднородности значений случайной величины
его используют сравнительно редко, а если и вычисляют, то с целью
проверки некоторых особенностей распределения, что и будет
показано ниже. Непредпочтительность использования этого показателя
в качестве меры разнообразия связана с его математическими
свойствами, что заставило исследователей прибегать к
характеристике варьирования с помощью более удобной для теоретических
исследований величины - дисперсии и ее оценки.
5.6. ОЦЕНКА ДИСПЕРСИИ И СТАНДАРТА
Дисперсия относигся к наиболее важным константам
распределения и: как уже было отмечено, ее обычно обозначают а2. Оценку
102
Ьютерсии, являющуюся не константой, а случайной величиной,
Сгобы не смешивать с самой дисперсией (эту оценку для простоты
•часто также называют дисперсией) обозначают s2. Соответственно
стандартное отклонение и его оценку обозначают а и s.
Оценку дисперсии как средний квадрат отклонений от среднего
по выборочным данным вычисляют по формуле
^£(*,-*J EП)
Заметим, что знаменателем последней формулы служит w-1, а не л,
как казалось бы, должно быть. Дело в том, что дисперсия есть
средний квадрат отклонения от среднего, т.е. от ц. Вместо ц мы
располагаем его оценкой х . Оталонения jc,-J оказываются связанными
условием . ]Г (х{ - х) - 0, а это означает, что, зная п - 1 отклонений
Xj-x , всегда можно найти и последнее л-е, т.е. оно уже
самостоятельно информации не несет, а вся информация содержится в любых
п - 1 отклонениях. Таким образом, из п слагаемых в числителе
формулы EЛ1) оказывается п - 1 независимых. Число независимых
элементов, по которым осуществляегся оценка, в статистике называется
числом степеней свободы^ в дальнейшем будем обозначать его v. В
обшем случае оно равно числу элементов, по которому вычисляется
оценка, минус число ограничений на эти элементы. При вычислении
оценки дисперсии по выборке объемом п число ограничений равно 1
(условие равенства нулю суммы отклонений), поэтому здесь
v = п - I. При нахождении оценки среднего по выборке объема п на
отдельные значения случайной величины никаких ограничений не
накладывается и v = п. В дальнейшем мы увидим, что число степеней
свободы является очень важным понятием и в каждом конкретном
случае нужно уметь его оценить.
Оценка дисперсии, как и сама дисперсия, есть величина
положительная, а ее размерность равна квадрату размерности случайной
величины. Извлекая корень из оценки дисперсии, получим оценку
стандарта s, также являющуюся всегда положительной и имеющую
размерность соответствующей случайной величины.
Формула E.11) показывает, что для нахождения оценки
дисперсии нужно знать отклонения от среднего для всех значений xh после
чего эти отклонения возвести в квадрат, просуммировать и
разделить на п - 1.
Для ряда значений плотности почвы это будет иметь следующий
вид ( п = 5, ]>>, = 6,30, х- 1,26):
103
Xi
Xj- x
(Xi-хУ
Тогда
1,23 1,25
-0,03 -0,01
0,0009 0,0001
Z(x,.-3cJ= 0,0028,
1,25 1,27
-0,01 0,01
0,0001 0,0001
/ = 0,0028: E-1):
1,30
0,04
0,0016
= 0,0007
(Г/СМЗJ;
s = ^0,0007 = 0,026 г/смз.
Практически вычисления проще вести по иной формуле, в
особенности при наличии даже самой простой вычислительной
техники. Легко показать, что формуле E.11) равносильны следующие:
E.12)
, E.13)
При использовании для вычисления ЭВМ и электронных
калькуляторов наиболее удобна формула E.12).
Для рассмотренного примера при этом получим
с.2
j
2>,2-
.2 _ £*.
п
2 —2
U32+l,252+...+l,302
6,302
s2 = ^— = 0,0007.
5-1
В некоторых случаях требуется пусть менее точное, но быстрое
получение стандартных отклонений, и тогда вопрос не решается с
помощью приведенных выше формул. Мы уже отмечали, что с
ростом объема выборки размах возрастает. Если изучаемое
распределение не слишком сильно отличается от нормального, то имеется
простая возможность быстрой оценки s по известным значениям п и /?0i>.
Дело в том, что если в случае нормального распределения величины
Z с параметрами 0 и 1 известна зависимость математического
ожидания для R(z,n) от л, где R(z.n) ~ число стандартных отклонений,
укладывающихся в размахе, то размах R^) любой другой нормально
распределенной случайной величины с дисперсией а2 должен в
среднем составлять
R(n) = °-R(z*> E.14)
В этом выражении могут быть известны и и соответствующее ему
значение R(z,n)> а также выборочная оценка /?с»>» что позволяет
получить оценку для а:
j = -5f!L. E.15)
R(Z.n)
104
Учитывая приблизительность такого способа получения оценки
sf можно воспользоваться несколькими легко запоминающимися
округленными значениями R(z,nh на которые нужно разделить
полученный размах R(jj) в зависимости от объема выборки п (при п = 2
получится точное значение s):
п 2 5 10 25 100
fUzjd 1,41 2 3 4 5
Так, для плотности почвы при п = 5 и R(S) = 0,07 получим
^«.0,07:2 = 0,035.
Конечно, для серьезных статистических исследований этот
способ рекомендовать нельзя (хотя подробные таблицы для R(z,n)
имеются), но он пригоден в качестве экспресс-метода, а также для
контроля грубых просчетов при вычислении s и s2 по формулам
E.11)-E.13).
5.7. СТАТИСТИЧЕСКИЕ ОЦЕНКИ
ПРИ ОБЪЕДИНЕНИИ ВЫБОРОК
Две или большее число выборок могут принадлежать одной
генеральной совокупности и при этом очевидно, что полученные в
разных выборках оценки, например среднего или дисперсии, оценивают
одно и то же среднее или дисперсию. Если выборки действительно
получены из одной генеральной совокупности или имеются
основания исходить из такого допущения, то выборки можно
просуммировать, объединить в одну и по такой суммарной выборке найти
единые оценки интересующих исследователя констант.
При наличии всех исходных данных, полученных при
выборочных исследованиях, их можно просто рассматривать как одну
выборку суммарного объема п = Щ (где rij - объем отдельных
выборок), для которой и вычисляют все необходимые оценки. Однако,
если исследователя интересуют только среднее и дисперсия, а по
отдельным выборкам соответствующие оценки уже имеются, то нет
никакой необходимости обращаться к исходным данным, так как
наличие ;щя к выборок сведений об их объеме itj (/ = 1,2 ... к) и
значениях Xj и sj вполне достаточно для вычисления х и s
объединенной выборки. Это тем более важно, если нет исходных значений
случайной величины по выборкам (например, при использовании
данных из литературных источников). Если объем суммарной
выборки п = щ, ю
Х" ; п ' E.16)
105
i=J ^ ' (M7)
Из приведенных формул следует, что среднее х объединенной
выборки вычисляется как среднее взвешенное, в силу чего для
каждого Xj в качестве веса берут объем соответствующей выборки иу.
При вычислении s2 дая объединенной выборки сумму квадратов
отклонений отдельных значений от общего среднего х (чисштель в
формуле E.17), являющийся аналогом числителя формулы E.11))
находят как сумму двух членов, первый из которых есть сумма
произведений 7-х оценок дисперсий на соответствующее им число степеней
свободы (?ij- 1). а второй есть сумма квадратов отклонений частных
средних Xj от общего среднего 5с , взвешенных соответствующими
объемами выборок iij.
Естественно, стандартное отклонение объединенной выборки
находят как корень из дисперсии s2, причемДшсло степеней свободы,^
которыми найдены эти оценки/равно сумме объемов частных
выборок минус единица, т,е. п - \1'Техника подобных вычислений хорошо
видна из таблицы 5.4. '
Таблица 5.4
Вычисление х , s2 и s суммарной выборки по значениям частных средних Xj
и стандартов sj в трех выборках объема л/, характеризующих порозность агрегатов (%)
в пределах одной генеральной совокупности
Величины
nJ
XJ
SJ
ftjXj
(nj-l)'S/
»A*j -*>2
Номер
1
10
38,6
2,4
386
51,84
1,6
частной выборки
2
10
37,8
2,9
378
75,69
1,6
3
20
38,2
2,7
764
138,51
0,0
К
ЗЕ
Суммы
Б nj = п = 40
Y.njXj =1528
и,-l)-jr/ = 266,04
nj(Xj - Зс J = 3,2
5.8. УСРЕДНЕНИЕ ОЦЕНОК ДИСПЕРСИЙ
В ряде случаев заведомо известно, что выборки принадлежат
разным генеральным совокупностям, в силу чего их объединение
невозможно. В то же время имеются достаточные основания считать,
что дисперсии случайных величин, характеризуемых разными
выборками, одинаковы, и полученные оценки sj1 по каждой из этих
106
выборок не дают оснований считать иначе (о проверке подобных
допущений см. § 9.2 и 9.3). Тогда, усредняя к оценок sf (j' = I, 2,..., к),
можно получить одну оценку s2, одинаковую для всех величин
дисперсии а2.
Подобная ситуация достаточно часто встречается при оценке
сходимости (воспроизводимости) какого-либо метода анализа на
заведомо разных объектах, имеющих близкие, хотя, как правило,
различные, средние значения изучаемых свойств. Так как сходимость
(воспроизводимость) обычно характеризуется дисперсией или
стандартом и относится к характеристике качества анализа (методики),
а не того, что анализируется, то усреднение оценок дисперсий в
подобных случаях представляется вполне допустимым и разумным.
Действительно, если при оценке сходимости классического
метода валового анализа SiCh в почве на к = 6 образцах,
проанализированных с одинаковой л, = 5 повторностыо, были получены
стандартные отклонения sf {/ = 1, 2,..., 6): 0,044; 0,048; 0,035; 0,060; 0,065 и
0,041%, то желательность усреднения полученных оценок не
вызывает сомнений.
Заметим, что усреднение стандартных отклонений всегда
осуществляют с помощью усреднения дисперсий, так что усредненная
оценка стандарта получается только как квадратный корень из
усредненной оценки дисперсии.
Усреднение оценок дисперсий производят с учетом их
математического веса, в качестве которого выступают соответствующие
каждой оценке sf числа степеней свободы vy = //,-- 1, где )ij- объем j-n
выборки:
,_!'}<«,-0_Z'j(»;-l> EЛ8)
S =
Е(И;-1) Tnj-k
Усредненной оценке дисперсии соответствует число степеней
свободы, которое на к меньше суммы объемов выборок (т.е. равно
сумме чисел степеней свободы усредненных оценок). При равенстве
объемов всех выборок (т = т- ... = щ = п) формула E.18) принимает
вид
*.*''
к ■ E19)
Соответствующее этой оценке дисперсии число степеней свободы
v = к(п - 1).
Так, для усреднения стандартных отклонений, оценивающих
аналитические ошибки определения SiO:, сначала найдем
107
усредненную оценку дисперсии по формуле E.19), поскольку
все к выборок имеют одинаковый объем:
2 0,0442 + 0,0482 + 0,0352 + 0,0602 + 0,0652 + 0,0412 Л ЛЛЛСА
s = — ■ - = 0,00250 от-
6
куда получим s = 0,050%. Эти оценки получены для числа степеней
свободы v = 6 E - 1) = 24.
Если объем каждой из к выборок равен nj9 а ху- есть /-е
(i=l,2,..., nj) значение bj-й выборке, для которой оценка среднего
равна Xj , то для каждой/-й выборки число sf(nj- 1) = E(*j--*, J»
т.е. является суммой квадратов отклонений от своего среднего Xj.
Следовательно, для всех к выборок числитель формулы E.18)
представляет собой сумму суммы квадратов отклонений и равенство
E.18) можно записать в виде
2 1Е<*„-*/J
Последняя формула показывает, что вычисление усредненной
оценки дисперсии можно осуществить не прибегая к
предварительным вычислениям оценки дисперсий по отдельным выборкам (если,
конечно, они не были вычислены ранее).
В частном случае, когда все к выборок имеют одинаковый объем
rtj = 2, усредненную оценку дисперсии при числе степеней свободы
v = к можно найти по формуле
~W E-21)
где Rj = ху - Х2/ есть размах ву-й выборке.
Пусть, например, в к = 5 образцах почв с повторностью п = 2
было определено содержание ила пипеточным методом и получены
следующие пары результатов:
j 1 2 3.4 5
xij 21,1 24,2 22,7 27,8 25,4
X2j 21,8 25,5 21,5 26,9 25,1
Тогда для Rj получим соответственно значение 0,7; 1,3; 1,2; 0,9;
0,3, откуда по формуле E.21) находим
2 0,72 +U2 +U2 +0,92 +0,32 4?52 А ..
5 = = = 0,45
2-5 10
и соответственно s = 0,67 при v = 5.
108
5.9. ОЦЕНКА КОЭФФИЦИЕНТА ВАРИАЦИИ
Зная выборочные оценки среднего и стандартного отклонения,
можно вычислить оценку коэффициента вариации v по формуле,
аналогичной C.26):
v = ^100%. E.22)
х
Так, если по выборке объема п = 5 для плотности почвы (г/см3)
х= 1,09 и >? = 0,15, то v=—100 = 13,8%.
1,09
Интерпретация оценок коэффициента вариации принципиально
ничем не отличается от интерпретации соответствующих им
констант; при этом следует учитьюать, что выборочная оценка
коэффициента вариации в отличие от самого коэффициента вариации есть
величина переменная и случайная.
Хотя в большинстве случаев коэффициенты вариации
колеблются в пределах от 0 до 50%, реже до 100%, указать придержки, какие
коэффициенты считать большими, какие малыми, очень трудно.
Помимо абсолютных оценок (например, коэффициент v = 0,001%
всегда мал, так же как v = 200% практически всегда велик), следует
исходить еще и из специфики характеризуемого явления. Например,
для водопроницаемости,измеряемой трубками диаметром 50 мм, в
большинстве случаев v = 20-50% вполне обычно, a v = 5% нужно
рассматривать как очень малый коэффициент вариации. В то же
время при определении плотности почвы буриком объемом
100 см3 коэффициенты вариации редко превышают 5-10%, а
значение v = 1-3% представляет собой вполне обычную величину,
которую низкой считать нет особых оснований. В некоторых случаях,
например при изучении концентраций веществ, содержание которых
в почве очень мало (микроэлементы, пестициды и пр.) вполне
естественными могут быть коэффициенты вариации, превышающие
100% (иногда в 1,5-2 раза).
Понятие о большом и малом коэффициенте вариации может
меняться даже для одного и того же свойства в зависимости от
объекта исследования. Например, коэффициенты вариации
водопроницаемости, вполне обычные для тяжелых почв, можно
расценивать как очень высокие на песчаных почвах, где
водопроницаемость гораздо более выровнена, нежели на почвах суглинистых и
глинистых, а коэффициенты вариации для рН и содержания
подвижных форм элементов питания могут быть на порядок более
высокими в окультуриваемых почвах, чем в целинных, вследствие
неравномерности внесения извести и удобрений.
109
Из сказанного следует, что для суждения об относительной вели-
чине коэффициента вариации необходимо хотя бы приблизительно
знать средние величины этих коэффициентов для аналогичных
случаев, т.е. для объектов, подобных изучаемому, и при использовании
сходных методов анализа.
5.10. ОШИБКИ РЕПРЕЗЕНТАТИВНОСТИ
Как неоднокртно отмечалось выше, оценки, плучаемые на основе
выборочных наблюдений, в отличие от соответствующих констант
представляют собой переменные случайные величины. В связи с этим
каждая такая величина имеет некоторый закон распределения и
может быть охарактеризована теми или иными константами (средним,
дисперсией, стандартным отклонением, коэффициентом вариации и
др.). Например, для оценок среднего х могут существовать свое
среднее ц* и дисперсия а|, для оценки дисперсии s2 - среднее ц ?. и
дисперсия а22 и т.д.
Существенным при этом является то, что целый ряд констант,
характеризующих распределение оценок, зависит от объема выборки,
по которой вычисляется оценка. Иначе говоря, для оценок как
случайных величин постоянство объема выборки является важным
общим условием, определяющим (наряду с другими условиями)
принадлежность отдельных оценок (практически получаемых или
теоретически возможных) к одной генеральной совокупности (одной
случайной величине).
Последнее означает, например, что среднее содержание
обменного кальция х = 7,42 мгэкв/ЮОг, полученное в выборке объемом
/1=5, принадлежит к генеральной совокупности оценок того же
свойства у того же объекта по той же методике, когда оценки
получаются по выборкам объема п - 5. Если в тех же общих условиях
испытаний изучаемого свойства выборка имеет объем п = 6 или любой
другой объем п ф 5, то оценка среднего принадлежит иной
случайной величине. Случайные величины х , соответствующие разным л,
имеют одинаковые средние, но по меньшей мере различаются
своими дисперсиями.
Очевидно, что чем больше выборка, тем с большей точностью
должно быть получено среднее, иначе говоря, тем меньше шансов,
что средняя оценка сильно отличается от генерального среднего.
Возможность единично полученной оценки более или менее
отклоняться от среднего связана с величиной стандартного отклонения в
ряду оценок. Именно этот параметр распределения и зависит от
объема выборки, уменьшаясь с ростом п.
ПО
Минимальный объем выборки есть п = 1. При этом оценкой
среднего х в каждой выборке является единственное полученное в
результате испытаний значение х. Если в индексе в скобках указать
фбъем выборки (хЦ то при п = 1 получим х,х\ = х. В этом случае
очевидно, что дисперсия ряда средних а| равна дисперсии а2х
случайной величины X: а| = а^.
При равенстве объема выборки п объему генеральной
совокупности N оценка среднего равна среднему х( v) = цх, т.е. превращается
в константу, а соответственно а| =0. При \<n<N имеем
с2х > а| > 0 и при и, близких к N, дисперсия о| близка к нулю.
Аналогичная зависимость дисперсии оценок от объема выборки
наблюдается и для оценок других констант. Ясно, что чем меньше
интервал, в пределах которого могут колебаться значения оценок
около своего среднего, тем лучше точечная оценка характеризует
константу, тем меньше погрешность в оценке константы. Так как
характеристикой варьирования оценок около своего среднего может
быть стандартное отклонение, то применительно к оценкам его
называют ошибкой соответствующей оценки. Учитывая, что размер
этой ошибки является функцией объема выборки, соответствующие
ошибки получили название ошибок выборочности, или ошибок
репрезентативности. Таким образом, для оценок среднего Зс ошибкой
среднего являегся стандартное отклонение сг?, для дисперсии s2 -
это а 2, для коэффициента вариации v - это av и т.д.
5.11. ОШИБКА СРЕДНЕГО
Среди ошибок репрезентативности наиболее часто представляет
интерес ошибка среднего. Чтобы показать, как она определяется,
допустим, что исследуемая случайная величина X распределена с
дисперсией а2, а выборка имеет фиксированный объем п.
Представим выборочное среднее в следующем виде:
- 2>, ^1 1 1 1
п п п п п
Заметим, что в выражении (*) каждое из слагаемых представляет
собой произведение значения случайной величины х на постоянное
111
число (поскольку п - величина постоянная). Функция такого вида,
как это следует из формулы C.21) имеет дисперсию
'АР-?*-
С другой стороны, б выражении (*) х есть сумма п значений
случайных величин, имеющих одинаковые дисперсии (**), а согласно
формуле C.22), дисперсия такой суммы равна сумме дисперсий
слагаемых, т.е.
Л 1 2 1
откуда
П /Г
2 а
а|= — E.23)
п
и соответственно
*х=-Т=- E-24)
Итак, стандартное отклонение для совокупности оценок
среднего, т.е. ошибок среднего, обратно пропорционально квадратному
корню из объема выборки. Это значит, что если стандарт
распределения случайной величины известен, то для заданного объема
выборки ошибку среднего можно легко вычислить, причем эта ошибка
представляет собой константу (поэтому и обозначена греческой
буквой).
Вычисление ошибки по формуле E.24) обычно практически
невозможно ввиду отсутствия сведений о точной величине дисперсии
а2 случайной величины. Однако если известна ее выборочная
оценка, то правомерна замена а на s> хотя при этом вместо ошибки
среднего Of будет получена ее оценка :
%=-7- E.25)
Именно эту величину обычно и называют ошибкой среднего,
однако обозначение ее латинской буквой подчеркивает, что это по
сути не сама ошибка, а ее оценка. В этом отношении обозначение
ошибки среднего (и других ошибок репрезентативности) буквой т,
широко распространенное до недавнего времени, менее удачно, к
тому же при подобном обозначении оказывается замаскированной
принадлежность ошибок к стандартным отклонениям.
Из формулы E.25) следует, что для получения ошибки
среднего нет необходимости располагать несколькими выборками
112
Еакового объема. Достаточно иметь одну выборку с объемом
( чтобы получить оценки дисперсии и среднего, а также и его
)КИ.
Ошибка среднего определяется величиной среднего квадратиче-
рсого отклонения и объемом выборочной совокупности. Чем больше
варьирование изучаемого свойства и, значит, чем больше а, тем
'больше оказывается и а^ (или s^ ) при данном п. С другой стороны,
jcaic бы ни было велико среднее квадратическое отклонение, при
достаточном увеличении числа наблюдений п можно получить сколь
угодно малое s^ . Это, как увидим ниже, обычно используют при
планировании объема выборок.
Так, если мощность пахотного слоя определяется с п = 5, харак-
. теризуется х = 24,3 см и s = 2,6 см, то ^ = -~ = 1,2 см. Это означает,
что если бы в пределах исследуемого участка почвенного покрова
измерение мощности пахотного слоя проводилось с повторностью
п = 5 многократно, то оценки средней мощности варьировали бы со
средним квадратическим отклонением, близким (учитывая выбороч-
ность этой оценки) к 1,2 см.
5.12. ОШИБКИ ДРУГИХ ОЦЕНОК
Ошибки дисперсий и стандартных отклонений обычно не
представляют практического интереса, так как о точности оценок этих
констант можно судить, воспользовавшись иными, более
корректными подходами, о чем речь пойдет ниже. Однако с
принципиальной точки зрения эти ошибки заслуживают внимания, поскольку
они принадлежат к группе ошибок репрезентативности,
иллюстрируют случайность соответствующих оценок и единообразие в
подходе к характеристике их варьирования. С учетом сказанного
приведем ошибки для некоторых оценок.
При нормальном распределении случайной величины X и
больших объемах выборок (например, при п > 100) оценка дисперсии s2
имеет стандартное отклонение
°>'=*2Ш'
E.26)
а для оценки среднего квадратического отклонения s ошибку можно
найти по формуле
'■'Ж <527)
8 Е.А.Дмитриев
113
При малых объемах выборки п оценку ss долее правильно
находить по формуле
s
s4 =■
5 V2(«-0 *
Для коэффициента вариации v ошибка sy составляет
E.28)
= V-
0,5+0,0001-v2
или менее точно:
4ъп'
E.29)
E.30)
Среднее абсолютное отклонение в, вычисляемое по формуле
EЛ0)> являясь оценкой соответствующего генерального значения,
также имеет свою ошибку репрезентативности, которая при условии
нормальности распределения величины х приближенно равна
^ = ji-I.-L« 0,603 JL. E.31)
Ошибку медианы 5med можно вычислить по формуле
*med=C-4r, E.32)
где с - некоторый коэффициент, зависящий от п. В выборке объемом
п = 2 коэффициент с в точности равен единице (при этом Med = х )
и с увеличением п постепенно возрастает: в случае нормального рас-
■£
пределения он стремится к л— при п -> <х>:
п 4 6 8 10 12 20 оо
с 1,09 1,14 1,16 1,18 1,19 1,21 1,25
5.13. ОШИБКИ ФУНКЦИЙ ОТ СЛУЧАЙНЫХ ВЕЛИЧИН
Часто полученные в результате выборочных наблюдений оценки
среднего используют в дальнейшем для нахождения тех или иных
величин, представляющих собой функцию от этих средних. Так,
средние значения плотности почвы используют для вычисления
массы того или иного слоя почвЫу а совместно со средними значениями
содержания какого-либо вещества (например, воды или элемента
114
ццтания) - ддя оценки запасов соответствующего вещества. В
подобных случаях функция, будучи зависимой от оценки, т.е. от
случайной величины, сама оказывается случайной величиной, а
следовательно, имеющей варьирование, которое можно охарактеризовать
соответствующей ошибкой (стандартным отклонением).
Пусть у функция от случайной величины X, ошибка
репрезентативности которой есть 5Я , величины а, Ъ, к - постоянные, а е -
основание натуральных логарифмов. Тогда ошибка функции sy в
зависимости от вида функции может быть вычислена по следующим
формулам1:
если у = а + х , то sy = s^ ; E.33)
если у = а х , то sy = \a\ s^ ; E.34)
если у = ±,то * НI^ = ^; <535>
если у = хк , то sy= xk~l • s^*J\k\ ; E.36)
если у = VJ , то sv = -—=■; E.37)
V2J
если у = аеЬх , то sy -\b\ys^ '> E.38)
если у = algftx , то ^ = -^^ . E.39)
В том случае, когда у есть функция двух или большего числа
случайных величин, ее ошибка оказывается функцией ошибок этих
величин. Наиболее просто ошибку функции можно найти тогда, когда
случайные величины, выступающие в качестве аргументов, взаимно
независимы. Так, для суммы или разности двух величин Зс и г ,
имеющих ошибки s^ и s^, ошибка равна квадратному корню из
суммы квадратов этих ошибок:
если у = х - I, или у = х + z > то sy = у j|- + jj . E.40)
Это правило справедливо для любого числа слагаемых и
вычитаемых при условии их независимости.
Ошибки произведения и частного оценок средних независимых
случайных величин в общем виде допустимо находать по следующей
формуле:
- Гл У
E.41)
1 Степень приближения формул E.35) - E.39) невысока и пользоваться ими нужно очень
осторожно.
115
При у = х z эту формулу можно переписать в виде
sy = V(^xJ+(^zJ . E.42)
X
а при у = з в виде
z
_ yjizsxJ +(xs-zJ E.43)
Для иллюстрации использования некоторых из приведенных
выше формул допустим, что требуется оценить запас влаги в слое
0-25 см, если в слое 0-10 см плотность почвы 5j с соответствующей
ошибкой Sj равна 1,02 ± 0,03 г/см3, а абсолютная влажность иу и ее
ошибка sw равны 29,51 ±0,72%. В слое 10-25 см значения этих
свойств таковы: d2±s^ - 1,13 ± 0,02 г/см3 и w2 ±s$ = 23,79 ± 0,65%.
Запас воды W в четвертьметровом слое почвы вычисляется как
сумма запасов воды W\ и Wi в слоях 0-10 см и 10—25 см: W = W\ + Wi.
Запас воды W^ в ;-м слое, выраженный в мм, вычисляется по
формуле
Щ = 091.Ц%кь (*)
где wt - абсолютная влажность почвы в %, ^ - плотность почвы в
г/см3, А/ - мощность слоя в см. Учитывая, что h\ = 10 см и fa = 15 см,
получаем: PFi = ОД • 29,51 • 1,02 • 10 = 30Д мм,
И^2 = 0,1 • 23,79 - 1,13 - 15 = 40,3мм, W = 30,1 + 40,3 = 70,4мм.
Из входящих в формулу (*) величин выборочными являются di и
wt (выборочной может быть и й,), а поэтому ошибка sw. для
каждого отдельного /-го слоя будет определяться ошибками средаей
плотности почвы и ее влажности. Согласно формуле
E.42), для произведения \vxdx ошибка s-^ оказывается
равной ^B9,5b0,03J + A,02 • 0,72J = 1,15 . Так как ft и 0,1 - величины
постоянные, то ошибка % в силу формулы E.34) есть
0,1 • 10 • 1,15 = 1,15 мм. Аналогично для слоя 10-15 см получим
s-^ = VB3,79-0,02J + (U3.0,65J =0,88 и sWi = ОД. 15-0,88 = 1,32 мм.
Зная ошибки в оценке среднего запаса влаги по отдельным слоям,
легко определить и ошибку s^ суммарного запаса влаги в слое
0-25 см; согласно формуле E.40) sw - ^/1Д52 +1,322 = 1,8 мм.
116
Итак, в результате выборочное™ сведений о влажности и
плотности почвы, запас влаги в слое 0-25 см, оцениваемый величиной
70,4 мм, характеризует истинный запас влаги с ошибкой
репрезентативности, равной 1,8 мм.
При использовании формул E.40) -E.43) существенно
выполнение условия независимости переменных.
Это можно проиллюстрировать на примере вычисления порозно-
стн почвы. Пусть для некоторого горизонта почвы средняя
плотность твердой фазы с ее ошибкой равна g ±sg = 2,67±0,02 г/см3, а
плотность почвы характеризуется значениями 1- 1,24 г/см3 и
s-d = 0,04 г/см3.
Для вычисления порозности Р существуют две равноценные
формулы:
z-d
Р = ± 100 (*)
Р = 100-—100, (**)
g
дающие одинаковую величину порозности.
В данном случае Р = 53,6 %.
Для нахождения ошибки sP порозности, вычисляемой по формуле
(*), следует прежде всего найти ошибку sgmd разности g-d. Согласно
формуле E.40), имеем (в дальнейшем нам потребуется величина s2g_d,
поэтому квадратный корень мы извлекать не будем):
s\_d =0,022+0,042 =0,0020. Теперь, учитывая, что g-d =1,43 и
используя формулы E.43) и E.34), получим
♦ i™V2,672.0,002 + l,432.0,022 лп0/ 0
sP = 100— — = 1,7%. Звездочка обозначает, что
2,672
ошибка sP рассчитана для функции вида (*).
Если порозность вычисляется по формуле (**), то согласно
формулам E.43) и E.34) с учетом равенства E.33), ошибка порозности
У2,672.0,042+1,242-0,022
2,672
Итак, ошибка в одном случае оказалась равной 1,5, в другом-
1,7%. Причина этих различий заключается в том, что при
вычислении sp не было соблюдено условие независимости средних:
составит sp = 100-^ - -^ - = 1,5 %.
8*
117
вычисление ошибки отношения — по формуле E.43) неправо-
g
мерно, поскольку разность g - d зависит от g. Если порозность
представлена в виде функции (**) от g и rf, то при вычислении ошибки sP
нарушения принципа независимости нет (вообще говоря, оно
остается, поскольку в принципе d не независимо от g, но этой
зависимостью допустимо пренебречь по причине ее малости). В итоге
получаем Р ± sP = 53,6 ± 1,5 %.
5.14. КАЧЕСТВО ОЦЕНОК
Выше мы отмечали, что для одной и той же константы ошибку
можно получить разными способами. Так, для среднего
арифметического в принципе можно взять в качестве оценки полусумму лимитов
(формула E.5)), хотя чаще используют среднее взвешенное (формулы
E.6) или E.7)). В случае симметричности распределения оценкой
среднего арифметического может служить выборочная медиана
(формулы E.2) -E.4)), а иногда и мода (формула E.1)). Аналогичная
неоднозначность подходов существует и при нахождении оценок
дисперсии, коэффициента вариации и других констант.
Очевидно, что оценки, полученные разными способами,
отличаются не только сложностью и трудностью их вычисления, но и
некоторыми качественными особенностями. Качество оценок может
проявляться по-разному, и некоторые из качеств оценок полезно знать.
Прежде всего заметим, что, будучи переменными случайными
величинами, оценки могут быть охарактеризованы математическими
ожиданиями. Очевидно, что наиболее желательна ситуация, когда
среднее взвешенное значение оценки равно оцениваемой константе,
но это бывает далеко не всегда. Равенство или неравенство
математических ожиданий оценок и соответствующих им констант служит
критерием для определения такого качества ошибок, которое
получило название смещенности.
Если математические ожидания при любом объеме выборки
равны оцениваемому параметру или константе, то такие оценки
называют несмещенными. Для смещенных оценок их математическое
ожидание отлично от оцениваемой постоянной величины.
Например, выборочное среднее, вычисляемое по формулам E.6) и
E.7), является несмещенной оценкой генерального среднего ц, так
как Е(х ) = Е(х) = ц при любых п. Такая же несмещенная оценка
для а2 есть s1, вычисляемая по формуле E.11), поскольку E(s2) = а2.
Если сумму квадратов центральных отклонений £(*,-*J
118
разделить на п, а не на п - 1, как в формуле E.11), то полученный
средний квадрат
также является оценкой дисперсии, но оценкой смещенной, посколь-
ку Е\
:а2.
Понятие смещенности, как видно, относится к средним, а не к
отдельным значениям оценок. В связи с этим можно утверждать, что в
среднем смещенная оценка дисперсии, полученная по формуле E.44),
занижает оцениваемый параметр о\ то это совсем не означает, что
каждая конкретная единичная смещенная оценка отличается от
соответствующего параметра больше, чем несмещенная оценка.
Так, в пример с плотностью почвы (см. § 5.6) бычо
получено значение ^ = 0,00070 (г/см^. Согласно формуле E.44),
s, = 0,00056 (г/см3J. Хотя последняя оценка смещенная, это отнюдь
не дает оснований утверждать, что оцениваемая величина а? ближе
к 0,00070, чем к 0,00056.
Сравнение формул E.11) и E.44) показывает, что по мере роста п
различие между оценками ^ и si стирается. Оценки, которые с
увеличением п стремятся к оцениваемой константе, называются
состоятельными оценками. Несмещенные оценки всегда являются
состоятельными. В этом отношении как выборочное среднее
арифметическое, так и обе оценки дисперсии, смещенная и несмещенная,
являются состоятельными оценками.
5.15. ОЦЕНКИ КОЭФФИЦИЕНТОВ АСИММЕТРИИ
И ЭКСЦЕССА И ИХ ОШИБКИ
Вычисление несмещенных оценок коэффициентов асимметрии и
эксцесса производятся по достаточно громоздким формулам и
обычно оказывается мало оправданным потому, что точное
значение таких коэффициентов, как правило, не слишком необходимо, а
ошибки этих коэффициентов при этом настолько велики, что
смещенностью вполне допустимо пренебречь. По этой причине оценки
А и Е коэффициентов асимметрии а и эксцесса б находят по
формулам наиболее простого вида:
А = У"-£(*/-*>3 _ E.45)
*»-W
Е(*,-*J VI (*,-*)
119
£= *•£(*,--^L_3 E46)
К*, -хJ
или, если оценка дисперсии s2 уже вычислена:
А = HLJXf-xj* ^ E 47)
Ttf3
Е=ч£(х,-х)А 3 E48)
Соответственно ошибки ^иЯ могут быть вычислены по формулам
*-^, E-49)
24
E.50)
из сравнения которых видно, что ошибка коэффициента эксцесса в 2
раза больше ошибки коэффициента асимметрии: sE = ЪА.
5.16. ОЦЕНКА ДОЛИ И ЕЕ ОШИБКА
Исследователю сравнительно редко бывают известны
генеральные доли с наличием признака Р или его отсутствием Q, как,
например, доля березы в колке, где все деревья наперечет и объем
генеральной совокупности деревьев конечен. Обычно о доле приходится
судить на основании выборки того или иного объема и, среди
элементов опробования которой некоторое их число /+ оказывается
с наличием признака, а /__ - с его отсутствием. При этом
/+ + /. = л, а
р = А, q = L_ E.51)
п п
представляют собой оценки долей Р и £), причем р + q = 1.
Так, если при оценке всхожести из п = 100 зерен всхожими
оказались/+ = 0,90, то р = 0,90. Оценку дисперсии семян по всхожести по
аналогии с C.34) можно определить по формуле
s2=p{\-p), E.52)
и она окажется равной s2 = 0,90 • A - 0,90) = 0,09.
120
Однако существенно больший интерес представляет ошибка
доли, характеризующая возможную вариацию р при данном объеме
выборки л. По аналогии с обычной ошибкой среднего ошибку доли
sp можно вычислить из выражения
В рассматриваемом примере она составляет s
J^ = 0,03.
V 100
Ошибка доли всегда меньше 0,5 и при заданном постоянном п
достигает максимального значения при/? = q = 0,5.
Вопросы для самоконтроля.
1. В чем принципиальное отличие констант распределения от их
оценок?
2. Зависит ли возможносгь получения оценок моды и медианы от
уровня измерений признака и объема выборки?
3. Чем отличаются оценки среднего арифметического,
полученные разными способами?
4. В чем отличие и что общего у смещенной и несмещенной
оценок дисперсии?
5. Что показьюают ошибки репрезентативности и к чему они
относятся - к константам или к их оценкам?
6. Что общего между всеми ошибками репрезентативности?
7. Можно ли провести аналогию между зависимостью случайных
величин от особенностей элементов опробования и зависимостью
оценок от объемов выборок?
8. Что такое качество оценок?
9. Чему может быть равна ошибка доли и почему?
Глава 6
ТЕХНИКА ВЫЧИСЛЕНИЙ И ПРЕДСТАВЛЕНИЕ
РЕЗУЛЬТАТОВ
6.L ОБЩИЕ ВОПРОСЫ ТЕХНИКИ ВЫЧИСЛЕНИЙ
Приведенные в предыдущих разделах формулы далеко не всегда в
их исходном виде используются для вычисления различных оценок,
поскольку та форма записи, которая хорошо отражает смысл
показателя, отнюдь не всегда указывает оптимальный путь для
проведения вычислений. Конечно, это касается не всех показателей, а лишь
тех, где приходится иметь дело с суммами некоторых функций от
значений случайных величин, поэтому мы здесь не будем касаться
техники вычислений таких показателей, как коэффициент вариации
или ошибки оценок.
Из рассмотрения формул, по которым находятся оценки среднего
E.6), дисперсии E.11), коэффициентов асимметрии E.43) и эксцесса
E.44), следует, что основные трудности технического характера
связаны с отысканием сумм: £х, , £(х,- ЗсJ , Z(*, -*K , Z(x/ ~*L •
В свое время, когда исследователи располагали лишь примитивной
вычислительной техникой, было разработано немало приемов для
упрощения вычислений этих сумм. Отчасти они строились на том,
что исходные значения х{ случайной величины X можно
преобразовать тем или иным способом, чтобы иметь дело с более простыми
числовыми значениями. Например,/все значения х, можно
уменьшить на некоторое постоянное число а и все оценки находить для
значений у -х -а. В дальнейшем, поскольку интерес представляет
не величина Г, а X, требуется внесение поправок, Х01Я при таком
преобразовании поправку приходится вносить лишь для среднего
(х = у +я),!оценки же для дисперсии, коэффициентов асимметрии и
эксцесса в поправках не нуждаются, поскольку для рядов х и у они в
данном случае одинаковы.
I Все значения х можно умножить на некоторое постоянное число
а и вести вычисления для значений у = ах. В этом случае необходимо
вносить поправки (см. формулу C.21)) не только для среднего, но и
с2
- У 2 *У
для дисперсии: х = — , sx = ~-.
а а2 ;
Возможно использование и обоих видов преобразований
одновременно. В настоящее время к этим приемам прибегают
сравнительно редко, так как даже простые электронные калькуляторы
позволяют успешно вести вычисления и с непреобразованными
данными.
Другой аспект проблемы упрощения вычислений связан с
возможностью представления интересующих нас сумм в ином более
развернутом виде и технически легче реализуемом при практическом
решении задач. Для упрощения записей обозначим суммы значений
случайной величины в к-й степени буквой S с индексом к:
s*=2>,V F-1)
а суммы центральных отклонений в к-\\ степени буквой С с
индексом к:
С* =Е (*/-*)* . F.2)
Так, при к~ 1 сумму £#,- будем обозначать S\ или просто 5,
£х? =Ли ^х,4=Ли т.д. Аналогично для суммы кубов
центральных отклонений имеем С3 =Х(Х/ ~*K • При it- 1, как известно,
С\ ~ Z(*i ~*) = 0 и эта величина интереса не представляет.
Наиболее часто используется сумма квадратов C2=X(*j-*) •
Если имеется необходимость, то в качестве индекса может
добавляться обозначение случайной величины, например, X*, = Sx,
I(z,.-zJ=C2,z.
С учетом принятых обозначений формулы E.6), E.11), E.43), а
также E.45), E.46) для вычисления средних и других оценок примут
следующий вид:
хЛ. F-3)
п
F.4)
F.5)
F.6)
F.7)
F.8)
*2
Л =
Е =
А
Е =
^2 .
71-Г
с34п
C2tJC2
С2
и2
= -£-•
nsb '
■%-'•
ИГ4
123
Обычно в основе представления исходных сумм Ск лежат
зависимости C.30), описанные при рассмотрении моментов При этом ока
зывается, что для вычисления средних, дисперсий, коэффициентов
асимметрии и эксцесса необходимо и достаточно найти суммы для
первых четырех степеней1: J
CW2- —; F.9)
П
C3=S3--S.S2+~S3; F.10)
п п*
C4=S4-±S.S3+±S2.S>-±S\ F.11)
6.2. ВЫЧИСЛЕНИЕ ОЦЕНОК ПО НЕСГРУЩЩРОВАШШМ
ДАННЫМ
Для несгругашрованных данных значения переменной в той
последовательности, в которой они получены, возводят
последовательно во вторую, третью и четвертую степени, а затем находят
суммы значений случайной величины в соответствующей степени
как это показано в табл.6.1. '
Учитывая, что п = 15 и используя формулы F.9)-F И) легко
найти суммы разных степеней отклонений от ' среднего:
С2 = 308-^1-= 34,93 ; С3 = 1630-^.64.308+Х.643 = 17 •
1э 15 152 '
С4 =9224--^1630-64 + -^--308-644 =134,07.
*^ 15
Дальнейшие вычисления х,#,АиЕпо формулам F.3) -F.6) не
вызывают затруднений: х = ~ = 4 27 • ^ _ 34>93 ^ tn
15 ' ' J "TiTi '50;
А- ^-17'77 оiv /г 15-134,07 ,
А ~ г = 0,33 Е = 3 = -135
34,937Н93 34,932 '
Заметим что таблицы к-х степеней случайной величины,
подобные табл. 6.1, обычно не составляют, поскольку современные
калькуляторы позволяют получать интересующие исследователя суммы
без промежуточных записей. Более того, поскольку сами суммы
• Для наиболее часто используемой суммы Сг, если нет опасения спутать ее с суммой
иных степеней, цифровой индекс может быть опущен. суммой
124
Таблица 6.1
Нахождение сумм S* для ряда значений твердости солонца (х - число ударов,
обеспечивающее погружение плунжера на глубину 10 см)
|_
1
2
3
4 1
5 |
6
7
8
9
10
11
12
13
14
15
_ z*f
Xj
3
3
2
3
5
7
3
4
4
3
6
6
6
3
6-
64
х?
9
9
4
9
25
49
9
16
16
9
36
36
36
9
36
308
х?
27
27
8
27
125
343
27
64
64
27
216
216
216
27
216
1630
*i4
81
81
16
81
625
2401
81
256
256
81
1296
1296
1296
81
1296
9224
нужны лишь для вычисления средних, дисперсий, стандартов и
других показателей, их, если позволяет вычислительная техника,
вообще не выводят из калькулятора.
6.3. ВЫЧИСЛЕНИЯ ОЦЕНОК ПО
СГРУППИРОВАННЫМ ДАННЫМ
Если экспериментально полученные исходные данные
представлены в виде перечня середин классов Xj с соответствующими им
частотами^, то процедура отыскания необходимых сумм
практически мало чем отличается от описанной выше. Разница заключается
лишь в том, что вместо отдельных значений х{ в /с-й степени
приходится брать значения середины классов х; в А-й степени с
соответствующим им математическим весом fy Тогда
1/Л-;
1/л-2;
1/л3;
!/>*/•
F.12)
F.13)
F.14)
F.15)
125
В табл.6.2 вычислены суммы Sk для исходных значений 5с, и fj.
Далее вычисления ведутся по формулам F.9) -F.11) и F.3) -F.6):
С, = 534200 - ОЮ- = 282869 ;
2 150
Сз = 66590000——6140-534200 + -^-61403 =21565844;
150 1502
С = 9821180000——6140 х
4 150
х66590000+-Дг 61402-534200 ^-j-61404 = 3025268939;
150"
150J
* = «М°=40,9; ^ = 2И869=1898 А = 21565844 -Уш
150 149 282869 V282869
Е= 3025268939-150 7
2828692
Таблица 6.2
Вычисление х , s2, А и Е для водопроницаемости почвы
с использованием формул F.12)-F.1S) для нахождения St
j
1
2
3
4
5
6
7
8
о
10
I
*>
10
30
50
70
90
ПО
130
150
170
190
fj
69
32
12
13
11
2
4
0
4
3
150
/;*;
690
960
600'
910
990
220
520
0
680
570
6140
f)XJ
6900
28800
30000
63700
89100
24200
67600
0
115600
108300
534200
fjtj
69000
864000
1500000
4459000
8019000
2662000
8788000
0
19652000
20577000
66590000
//*/
690000
2592000
75000000
312130000
721710000
292820000
1142440000
0
3340840000
3909630000
9821180000
Из приведенного примера легко видеть, что даже при наличии
калькуляторов вычисления могут оказаться весьма громоздкими. В
связи с этим часто используют такой прием. Значения х заменяют
на у} =
Xj - Хх
, где с - ширина класса, a xi- середина
наименьшего класса. При этом у{ примут значения на единицу меньшие
номера класса: >>у =j- 1.
126
В дальнейшем для значений у сначала находят все необходимые
суммы S^ согласно формулам F.12) -F.15) (заменив в них Xj на yj),
а затем и С^> по формулам F.9) -F.11).
Искомые значения среднего и дисперсии для изучаемой
переменной X вычисляют по формулам
cSv
X =Jti +-
п
^..Л*|
л-1
F.16)
F.17)
Таблица 6.3
Вычисление Зс , s2, А и £ для водопроницаемости почвы
с использованием преобразования у, - —*—
(xi = 10,<? = 20)
j
1
2
3
4
5
6
7
8
9
10
J&ttL
*У
10
3.0
50
70
90
ПО
130
150
170
190
fj
69
32
12
13
11
2
4
0
4
3
У)
0
1
2
3
4
5
6
7
8
9
fjyj
0
32
24
39
44
10
24
0
32
27
232
W
0
32
48
117
176
50
144
0
256
243
1066
W
0
32
96
351
704
250
864
0
2048
2187
6532
W
0
32
192
1053
2816
1250
5184
0
16384
19683
46594
Коэффициенты А и Е вычисляют по формулам F.5) и F.6), в
которых все Ск берут с индексом у. Такой прием существенно
упрощает вычисления, в чем легко убедиться, проведя вычисления для
ранее рассмотренного примера (см. табл.6.2) и учитывая, что с = 20 и
х,= 10 (табл. 6.3).
Согласно формулам F.9) -F.11) получаем
C2W=1066
2322
150
= 707;
Сад = 6532
— 232-1066 + -^
150 1502
2323 = 2696;
0^=46594-
150
• 6532-232+-
1502
-1066-232z-
150'
•2324=1908.
Наконец, по формулам F.16), F.17) и F.5), F.6) находим
127
^10.20.^ = 40,9; ^202.™=1898; А-_ ™*'f» = 1,76;
150 149 707-V707
7072
6.4. ВЫЧИСЛЕНИЕ ОЦЕНОК ПРИ ДОБАВЛЕНИИ ИЛИ
ОТБРАСЫВАНИИ ЕДИНИЧНЫХ ЗНАЧЕНИЙ
Часто по тем или иным соображениям нужно изъять из выборки
одно или несколько значений и для полученной выборки
уменьшенного объема заново вычислить оценки среднего и дисперсии (а
также стандартного отклонения, коэффициента вариации, ошибки
среднего). Если по выборке исходного объема п оценки х и s2
известны, то "исправленные" оценки среднего х * и дисперсии si в
выборке объема пФ -п-к, где к - число отбрасываемых значений,
можно вычислить без обращения ко всем п* значениям х. Пометив
все отбрасываемые значения, например, индексом х_, получим
п х - £ х_
(и-1>2 + пх2 -2>2 -(п-к)х2
s2 = к- .
п-к-1
При отбрасывании одного значения х. (при к = 1) имеем
_ пх - х_
х, =■
F.19)
F.20)
и-1
(и -1)s2 (х - х)
s2=—- "-Г ~ L F.21)
и-2
Допустим, что имеется и = 8 значений х содержания гумуса (%):
1,34; 1,48; 1,27; 1,15; 1,42; 1,36; 2,42; 2,15. Для этой выборки х -■ 1,57
и s2 = 0,208. Если отбросить одно значение х. = 2,42, то при и. = 7 по
8 • 1.57 - 2 42
формулам F.20), F.21) получим х. = —* = 1,45 ,
8-1
, (8 -1H^08 - fB,42 - U7J
s; = '- = о,ю5.
8-2
128
Если из исходной выборки с /1= 8 исключить два, например,
наибольших значения х„ B,15 и 2,42), то, согласно формулам F.18),
8-1,57-B,15+ 2,42)
F.19), найдем хт - ——~i-——}—l = 1,33 ,
6
, 7 0,208+ 8-1,572 -2J52 -2,422 -6-tf32 АЛ1,,
5
Сходная ситуация можех возникнуть, когда к выборке объема п
дополнительно добавляется к значений (обозначим такие значения
х+). Если оценки х и s2 былк ранее вычислены, то для нахождения
оценок х • к si по выборке увеличенного объема п* = п + к можно
воспользоваться формулами
Л* ~ л + Г ^ F.22)
2 _ (w-1)j2 +wjc2 +Sxf -(n + fcKc*
л = ^^ . F 23)
При A: = 1 получим
_ rix + x.
и+1
F.24)
2 _ ("" 1)?2+7Й(^"ЖJ <625>
s+ — .
n
Отсутствие необходимости обращения ко всем исходным
значениям, образующим выборку, не только упрощает процедуру
нахождения новых оценок среднего и дисперсии при отбрасывании или
прибавлении единичных значений, но и позволяет найти такие
оценки в том случае, когда отдельные значения исходной выборки
частично (а иногда и полностью) отсутствуют (например, при
использовании литературных данных).
6.5. ПРЕДСТАВЛЕНИЕ РЕЗУЛЬТАТОВ
СТАТИСТИЧЕСКОГО АНАЛИЗА
Выше мы познакомились лишь с оценками и их ошибками, но и
этого достаточно для выяснения того, какие результаты необходимо
приводить в качестве итога статистического анализа. Набор
показателей, характеризующих изучаемое свойство, рассматриваемое в
качестве случайной величины, может быть достаточно обширен,
однако всегда следует иметь в виду, что наличие возможностей их
вычисления еще не означает, что все они должны быть приведены.
129
Вычислять, а тем более придавать гласности, нужно лишь те пока-
затели, которые необходимы и достаточны для решения тех задач,
ради которых проводилось исследование. Поэтому, например,
совсем необязательно отыскивать все те оценки, техника вычисления
которых была описана в двух предыдущих параграфах.
В такой же мере это относится и к ошибкам оценок, тем более,
что при желании ошибки обычно можно вычислить, если
необходимые для этого данные представлены. Это последнее определяет
некоторый минимум сведений, который следует приводить, чтобы не
обесценить результаты статистического анализа. Эгот минимум
обязательно должен включать объем выборки л, среднее х и по
меньшей мере один из таких показателей как стандартное
отклонение s> коэффициент вариации v или ошибка среднего s-% . Какой из
этих показателей следует привести, зависит от направления
обсуждения и анализа эмпирически полученных данных, но если хотя бы
один из них приведен, то, пользуясь формулами E.20) и E.23),
можно при необходимости найти остальные два. Более того, этих
данных достаточно, чтобы найти ошибку коэффициента вариации и
многих других оценок (А, £, 9 и др.), а это особенно важно, если
задачи исследования предполагают необходимость указания
соответствующих оценок.
Сказанное совсем не означает, что если приведена, например
величина стандарта s, то противопоказано давать ошибку среднего
5^ и коэффициент вариации. Если ведется обсуждение этих величин,
если они нужны не просто как свидетельство того, что они
вычислены, то указание таких показателей не только возможно, но и
необходимо.
Наряду с желательностью оптимизации набора статистических
показателей не менее важно уметь приводить результаты
статистического анализа с нужной степенью точности. Так, стандартные
отклонения (и ошибки оценок в том числе) должны содержать не
более, чем две значащие цифры (если первая из них есть 1 или 2, то
допустимо приводить и три цифры). Точность оценки констант
определяется точностью ошибок и бессмысленно приводить оценки с
большей точностью, нежели их ошибки, но вполне допустимо
ограничиться меньшей точностью, если большая точность практически
не нужна.
В примере с характеристикой твердости солонца (см. табл. 6.1)
при п = 15 было получено 5F = 4.27 и s2 = 2,50. Поскольку в значении
s = д/2,50 = 1,58 первой значащей цифрой является единица, оценку
стандарта можно приводить с тремя значащими цифрами, как нами
130
и сделано. Ошибка среднего согласно формуле E 23) есть s^ -- 0,41, в
ней достаточно иметь две значащие цифры; так как эта ошибка
приводится с точностью А = 0,01, то и оценку среднего следует
давать с такой же точностью. Вычислив по формуле E.20)
коэффициент вариации v = 37,00%, а затем по формуле E.28) его ошибку
sv = 6,8%, заключаем, что приводить оценку коэффициента вариации
с Точностью до 0,01% безграмотно. При такой его ошибке
коэффициент вариации можно приводить лишь с точностью до 0,1% и даже
до 1%. Ошибки коэффициентов асимметрии и эксцесса по формулам
E.47) и E.48) соответственно равны 0,63 и 1,26. Поэтому
коэффициенты А и Е с большей точностью, чем до 0,01, приводить
нет смысла, а из практических соображений допустимо даже
ограничиться точностью до А = 0,1, и тогда оценки будут иметь вид
Л =0,3 и £ = -1,4.
Вопросы для самоконтроля.
1. С чем связано отличие рабочих формул от исходных для
вычисления основных оценок?
2. Чем определяется набор оценок и их ошибок, которые следует
вычислять?
3. Какими соображениями следует руководствоваться при опре^
делении минимального набора статистических показателей, которые
должны указываться при подведении итогов статистического
анализа?
4. С какой точностью следует приводить оценки и чем она
определяется?
Глава 7
СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ И ИХ ПРОВЕРКА
7.1. ОСНОВНЫЕ ПОНЯТИЯ
Исследователь, располагая результатами выборочных
наблюдений и используя оценки вместо интересующих его констант,
вынужден делать свои выводы и заключения относительно свойств
изучаемых случайных величин. Принятие решений в таких условиях
иногда создает немалые трудности, поскольку выводы должны
делаться в отношении свойств генеральных совокупностей, а при этом
всегда имеется возможность противопоставить выдвигаемому
утверждению некоторое другое.
Действительно, в силу выборочное™ полученных сведений
оценки одной и той же константы в разных выборках обычно бывают
неодинаковыми, а поэтому различия в оценке еще не являются
свидетельством того, что оцениваемые константы не равны между
собой. Это представляется достаточно ясным и не вызывающим
сомнений до тех пор, пока выборки принадлежат одной генеральной
совокупности. Однако обычно выборки принадлежат в чем-то
различным генеральным совокупностям, и тогда появляется искушение
все различия в результатах выборочных наблюдений объяснять тем,
что отличны друг от друга генеральные совокупности и
соответствующие им константы. В таких случаях обычно главным
критерием оказывается "похожесть на правду", и если выборочные
показатели этому критерию удовлетворяют, то выводы из их сравнения
рассматриваются соответствующими истине, т.е. отражающими
свойства генеральных совокупностей. Тем не менее
непротиворечивость логике изучаемого явления в подобных случаях не всегда
может служить убедительным аргументом в пользу выдвигаемого
утверждения, например о неравенстве констант. Так, вполне
логично считать, что промывка почвы должна приводить к уменьшению
величины плотного остатка. Поэтому если соответствующие
выборочные средние до и после промывки оказываются равными 1,23 и
1,12%, то исследователь считает себя вправе настаивать на
подобном заключении. Однако скептик может сказать, что промывка
величину плотного остатка не изменила, а наблюдаемые различия
всего лишь следствие случайной вариации.
Если в результате внесения нового вида удобрения по
результатам полевого опыта урожайность зерновой культуры оказалась
выше на 4 ц/га, то в отличие от энтузиаста исследователя осторожно
132
оценивающий ситуацию специалист может усомниться в реальности
прибавки, особенно если этому специалисту нужно принимать
решение об организации производства соответствующего удобрения.
Очевидно, что одни логические рассуждения при этом не могут
помочь в решении вопроса, какому из утверждений следует отдать
предпочтение.
Круг вопросов аналогичного характера может быть бесконечен,
и во всех подобных случаях суждения о наличии сходства или
различия, о равенстве или неравенстве всегда имеют характер лишь более
или менее правдоподобных допущений, причем в силу неполноты
информации любому предположению может быть
противопоставлено другое, отвергающее первое. Естественно, что эти допущения
касаются свойств генеральных совокупностей, поскольку именно они
являются объектом статистических исследований, а выборка служит
лишь источником информации об этих совокупностях. Некоторое
предположение о свойствах генеральной совокупности, которой
принадлежит выборка, представляет собой статистическую
гипотезу. Обычно она сводится к тому, что одной или нескольким
константам приписывается некоторое значение. Это исходное
предположение называется нулевой гипотезой и обозначается Но. Например,
допущение, что среднее ц равно постоянному числу я, записывается
как Но: \л = а.
Нулевой гипотезе противопоставляется некоторая
альтернативная гипотеза Н\, которую можно сформулировать по-разному,
например как цФ а или \х> а. Содержание нулевых или
альтернативных гипотез, как мы увидим ниже, бывает весьма различным и
касается предположений не только о константах, но и о более общих
особенностях генеральных совокупностей, например о соответствии
закона распределения изучаемой случайной величины некоторому
виду (например, нормальному).
Статистическая гипотеза может быть подвергнута проверке, суть
которой сводится к выяснению, насколько полученные в
выборочном наблюдении данные соответствуют выдвигаемой гипотезе. В
результате такой проверки нулевая гипотеза либо принимается, либо
отвергается в пользу альтернативной. Объективизация процедуры
проверки гипотез осуществляется с помощью соответствующих
критериев или тестов, представляющих собой определенный набор
правил, позволяющих принять или отклонить выдвигаемую нулевую
гипотезу. В основе критерия обычно лежит случайная величина с
известным законом распределения, единичное значение которой
вычисляется по результатам выборочных наблюдений с учетом
выдвигаемой нулевой гипотезы. Подобного рода случайные величины
нередко называются статистиками для проверки гипотез.
133
Правила, согласно которым нуль-гипотеза отвергается или
принимается, носят чисто вероятностный характер и определяются
исходя из задач исследования, особенностей объекта и других
соображении. Обычно всю область значений случайной величины,
используемой в качестве статистики для проверки гипотезы,
разделяют на две части, одна из Которых соответствует области принятия
нулевой гипотезы, а другая, так называемая критическая область, -
отклонению ее. Критическая область статистики для проверки
гипотезы состоит из всех значений, при которых принимается решение
отвергнуть #о. Значение, соответствующее границе между этими
областями называется критическим значением и устанавливается в
зависимости от принятого уровня значимости а, представляющего
собой ту вероятность, с которой значение случайной величины может
оказаться в критической области. Если полученное в результате
проведенного исследования значение случайной величины попадает
в критическую область, то нулевая гипотеза отвергается.
Принятие или отвержение одной и той же нулевой гипотезы
может зависеть от того, какова альтернативная гипотеза. Например,
гипотеза Но: ц = 0, не отвергнутая при Ни ц * 0, может быть
отвергнута с тем же а при Hi: ц> 0,1.
^Зтклонение нулевой гипотезы при попадании значения
случайной величины в критическую область нельзя рассматривать как
доказательство того, что гипотеза неверна, так как значения,
выходящие за пределы области принятия гипотезы Но могут иметь место и
в случае правильности нуль-гипотезы, и вероятность такого
события известна - она равна а. Отклоняя правильную нулевую
гипотезу, мы допускаем так называемую ошибку первого рода, принятый
же уровень значимости а характеризует риск допустить такую
ошибку. Иначе говоря, уровень значимости характеризует ту
вероятность, которой решено пренебрегать в данном исследовании.
Вероятность Р = 1 - а, которая соответствует области принятия
нулевой гипотезы, называется доверительной вероятностью. Если
значение случайной величины попадает в такую область, то нулевая
гипотеза при принятом уровне значимости а (или доверительной
вероятности Р) не отвергается, но это тоже ни в коей мере нельзя
расценивать как доказательство правильности нулевой гипотезы, так
как в действительности она может оказаться неверной.
Например, ц может отличаться от д, но если разность между
ними относительно невелика, то нулевая гипотеза Но: ц = а чаще будет
оставаться в силе, нежели отвергаться. Нужно иметь в виду, что в
некоторых случаях a priori известно, что нулевая гипотеза неверна, и
тем не менее ее следует проверять. Так, практически мы не имеем
дела со свойствами, распределение которых является строго
134
нормальным. Это делается очевидным, если вспомнить, что
нормально распределенная случайная величина должна принимать
значения от -оо до +оо. Тем не менее гипотезу о нормальности
распределения достаточно часто проверяют, но не для того чтобы проверить
ее правильность, а чтобы выяснить допустимость аппроксимации
изучаемого распределения нормальным законом.
Принятие нулевой гипотезы, когда она неверна, носит название
ошибки второго рода. Вероятность такой ошибки обозначается р.
С вероятностью 1 - р принятия нулевой гипотезы, когда она верна,
связывается в математической статистике понятие мощность
критерия.
Очевидно, что уменьшая вероятность ошибки первого рода (а),
мы неизбежно увеличиваем вероятность ошибки второго рода р.
Выбор уровня значимости а (а устанавливается обычно а, а не р)
определяется условиями проведения эксперимента,
ответственностью выводов и учетом того, ошибка какого рода наиболее
нежелательна. В большинстве случаев принимают а = 0,05 E%), что
соответствует доверительной вероятности Р = 0,95.
В большинстве случаев предпочтение нулевой гипотезы
оказывается равносильным признанию безрезультатности проведенных
исследований. Именно так можно оценить результаты эксперимента,
если нет оснований считать, что тот или иной фактор влияет на
изучаемый признак или нет оснований говорить о наличии динамики
свойства. Нередко это бывает связано с недостаточностью объема
выборок, увеличение которых по техническим или иным причинам
не представляется возможным. В подобных случаях бывает
допустимо увеличить уровень значимости до 10% (а иногда и до 20%), но
это означает, что в среднем из 10 (или из 5) случаев в одном мы
будем отклонять правильную нулевую гипотезу, т.е. надежность
выводов окажется очень небольшой. Для проверки спорных положений,
при ответственных рекомендациях выводы должны быть обеспечены
с доверительной вероятностью 0,99 или 0,999 (с 1%-м или 0,1%-м
уровнем значимости).
Заканчивая рассмотрение основных понятий, связанных с
проверкой статистических гипотез, отметим два важных
обстоятельства. Во-первых, общераспространенные термины "принять
гипотезу", "отвергнуть гипотезу", по своей сути являются сокращением
более тонких понятий таких, как "нет достаточных оснований,
чтобы нулевую гипотезу считать неверной" или "более предпочтительно
считать, что верна альтернативная гипотеза, нежели нулевая". Во-
вторых, проверка статистической гипотезы не дает возможности
что-либо доказать. Результаты проверки всегда носят
вероятностный характер и всегда остается (хотя подчас и ничтожно малая)
135
вероятность того, что принятая гипотеза, нулевая или
альтернативная, не соответствует действительности. Поэтому при
статистическом анализе результатов испытаний следует избегать выражений
со словом "доказано" (например, "мы доказали, что различия
существуют"), заменяя их более слабыми утверждениями ("можно
считать, что средние отличны друг от друга", "допустимо
рассматривать распределение как нормальное" и пр.), отмечая одновременно
уровень значимости как меру надежности делаемых заключений.
7.2. СТАТИСТИКИ ДЛЯ ПРОВЕРКИ ГИПОТЕЗ
Существует достаточно много статистик для проверки гипотез.
Мы ограничимся рассмотрением лишь нескольких наиболее важных
распределений, используемых для построения критериев.
1. Распределение Стьюдента. С появлением этого распределения в
статистике началась новая эра, поскольку оказалось возможным по
малообъемным выборкам делать столь же статистически
обоснованные заключения, как и по выборкам большого объема.
Распределение Стьюдента - это распределение отклонений
нормально распределенной случайной величины от генерального
среднего, нормированных выборочной оценкой среднего квадратическо-
го отклонения. Это распределение зависит от числа степеней
свободы v, с которым найдена оценка среднего квадратического
отклонения.
Классическим примером распределения Стьюдента является
распределение стандартизованных отклонений
Зс-ц
' = ~' <7Л>
где х - нормально распределенное выборочное среднее; \л -
генеральное среднее; s^ - ошибка среднего, вычисленная по выборке
объема п\ t - значение случайной величины, распределенной по
Стьюденту с v = п - 1
числом степеней свободы.
Кривая распределения
Стьюдента похожа по
внешнему виду на
, ,__...-, . , , . , кривую нормального
-3 ~2 -1 ° l 2 Ъ lyt распределения: она одно-
Рис.7.1. Кривые нормального распределения {г, верШИННа, СИММетрИЧНа,
сплошная линия) и распределения ^-Стьюдента при ее ветви асИМПТОТИЧесКИ
v = 3 (пунктирная линия) Приближаются К ОСИ аб-
сцисс (рис. 7.1). При
136
v-x» распределение Стьюдента стремится к нормальному
распределению с параметрами ц = 0 и а = 1.
Наибольшее отличие распределения Стьюдента от нормального
наблюдается при v = 1, когда при значениях переменной величины г,
близких к среднему, плотность вероятности распределения
Стьюдента меньше, а при значениях, сильно отличающихся от среднего,
больше, чем при нормальном распределении.
Для распределения Стьюдента составлены таблицы. Наиболее
распространенными являются те из них, в которых указаны
критические значения fa, больше которых единичное случайно полученное
значение | t | при данном v может произойти с вероятностью а (см.
табл. Ш Приложения). Очевидно, что fa есть квантиль A - а)
распределения t.
Из табл. Ж видно, что для одинакового уровня значимости a
критические значения ta с увеличением v уменьшаются, причем
особенно интенсивно при малых v и а.
Так, при увеличении числа степеней свободы с 1 до 2 значение
fo,05 уменьшается почти в 3 раза (с 12,71 до 4,30), а fo.oi - более, чем в
6 раз (с 63,66 до 9,92). При дальнейшем росте числа степеней
свободы уменьшение fa постепенно замедляется. Например, если v = 10,
то Го,о5 = 2,23, а fo.oi = 3,17, в то время как при v = со (т.е. при
нормальном распределении) Го,о5 = 1,96 и fo.oi = 2,58.
Отмеченный характер зависимости ta от v и а заслуживает
внимания, поскольку он во многом определяет стратегию выборочного
исследования, в частности повторность в проведении исследований.
2. Распределение хи-квадрат. Допустим, что случайная величина
Z распределена нормально с параметрами цг = 0 и о\ - 1. Если
взять п случайных значений г и найти сумму их квадратов, то
полученная сумма будет представлять собой значение некоторой
случайной величины,
обозначаемой х2 (хи-квадрат):
X2 = ЕЛ G.2)
Очевидно, эта
случайная величина, будучи
суммой квадратов, всегда
положительна и должна
зависеть от числа
слагаемых. Величина %2
может принимать значения
от 0 до -ню. Вид кривой
распределения
существенно зависит от числа
2 4
Рис.7.2. Кривые распределения
числом степеней свободы v
12 X2
2 с различным
137
слагаемых, точнее, от числа независимых слагаемых, т.е. от числа
степеней свободы v. При очень малых v распределение сильно
асимметрично (рис. 7.2), но асимметрия быстро уменьшается по мере уве-
личент*<1 числа степеней свободы. Для распределения у} среднее число
равно числу степеней свободы, а дисперсия - удвоенному числу
степеней свободы: ц 2 =v, a22 = 2v. Так как закон распределения %2
известен, то не составляет большого труда вычислить критические
значения %2а, случайно превысить которые при заданном v можно с
вероятностью а (см. табл. 1УПриложения).
3. Распределение F Фишера. Если имеются две оценки *у2 и s\
одной и той же дисперсии а2 нормально распределенной случайной
величины, то, принимая, что s2 > s\, можно найти отношение этих
оценок
представляющее собой случайную величину, распределение которой
было изучено Фишером, названо его имененем и обозначено буквой
F. Будучи отношением двух случайных величин, распределение F
зависит от числа степеней свободы vi и V2, с которыми найдены оценки
дисперсий в числителе (vi) и в знаменателе (v2). Так как с
увеличением vi и V2 обе оценки стремятся к одному и тому же параметру а2, то,
как легко догадаться, F при этом стремится к единице. Чем меньше
vi и V2, тем больше шансов получить в случайном порядке
достаточно отличные от единицы значения F. В этом легко убедиться, если
обратиться к таблице критических значений Fa, вероятность
превысить которые равна а (см. табл. V Приложения). Поскольку в
отличие от величин Г и х2 случайная величина F зависит от двух чисел
степеней свободы, таблица квантилей распределения F имеет два
входа - искомые значения Fa находятся на пересечении столбца и
строки, соответствующих числам степеней свободы для числителя и
знаменателя (т.е. числам степеней свободы, с которыми найдены
большая и меньшая оценки дисперсии соответственно).
Вопросы для самоконтроля»
1. Что называется статистической гипотезой и зачем нужны
альтернативные гипотезы?
2. Что собой представляют критерии проверки гипотез и на чем
они основываются?
138
3. Что такое уровень значимости и доверительная вероятность?
4. Почему при проверке статистических гипотез нельзя ничего
доказать и какой смысл имеют выводы из проводимой оценки
гипотез?
5. Что определяет выбор критического значения статистики для
проверки гипотезы?
6. В чем сходство и различие распределений Стьюдента и
нормального? При каких условиях различия в этих распределениях
особенно велики и какие практические выводы можно сделать из этого?
7. Что является случайной величиной хи-квадрат и от чего
зависят особенности ее распределения?
8. Каковы особенности распределения статистики F Фишера? Как
зависит критическое значение Fa при заданном а от числа степеней
свободы, с которыми найдены оценки дисперсий?
Глава 8
СТАТИСТИЧЕСКИЙ АНАЛИЗ ОДНОЙ ВЫБОРКИ
8.1. ОБЩИЕ ВОПРОСЫ АНАЛИЗА ВЫБОРКИ
Уже по одной выборке можно узнать немало интересного об
изучаемой случайной величине, нужно лишь уметь извлекать
содержащуюся в ней информацию, количество которой во многом
зависит от объема выборки и априорных знаний о свойствах изучаемого
объекта. Так, если существует достаточно оснований считать, что
свойство имеет распределение, близкое к нормальному, то единичное
значение можно рассматривать в качестве точечной оценки среднего
арифметического (а также моды и медианы). Если же распределение
заведомо асимметрично, то единичное значение скорее может
служить оценкой моды.
Если известно, что вариация значений свойства относительно
невелика (достаточно часто это наблюдается для рН, содержания ила
и некоторых других свойств), то даже однократный анализ свойства
может дать представление о границах его вариабельности. Однако
численную оценку дисперсии, стандартного отклонения и
коэффициента вариации можно получить лишь в том случае, когда выборка
содержит хотя бы два результата измерения. По мере дальнейшего
возрастания объема выборки уже можно получить оценки
коэффициентов асимметрии и эксцесса, широкого набора квантилей,
появляется возможность составить суждение о целесообразности
аппроксимации изучаемого распределения тем или иным законом. С
ростом объема выборки уменьшаются ошибки оценок,
увеличивается надежность выводов при проверке гипотез.
Возможность привлечения тех или иных статистических методов
к анализу выборки не означает, что эту возможность нужно всегда и
повсеместно реализовывать. Прежде всего нужно использовать лишь
те подходы и методы, которые диктуются самим исследованием.
Нередко для решения одной и той же задачи могут оказаться
пригодными разные методы, и исследователь имеет право либо
воспользоваться одним из них, либо реализовать возможность сопоставления
результатов, полученных с помощью разных методов. Некоторые из
таких методов рассмотрены ниже.
140
S J. ВЫБРАКОВКА
Выбраковка представляет собой процедуру отбрасывания одного
или нескольких значений (либо наименьших, наибольших ь
выборочной совокупности, либо и тех и других) на том основании,
что они слишком отличаются от основной массы остальных
результатов. Выбраковку обычно осуществляют на первых же
этапах анализа выборки и очень часто производят ''на глаз".
Например, если при анализе одного и того же образца почвы на
содержание гумуса получены результаты (в %): 1,51; 1,52; 1,53; 1,53;
1,61, то последнее значение почти наверняка может быть
выбраковано, и основания для этого кажутся вполне очевидными.
Выбраковка - процедура весьма ответственная, особенно, когда
выборка лгала по объему, так как в этом случае существенно
меняются все оценки и их ошибки. Однако и в выборках,
насчитывающих несколько десятков значений, отбрасывание даже одного из
них может существенно изменить статистические оценки, в
особенности, коэффициентов эксцесса и асимметрии, в меньшей мере -
дисперсии, еще меньшей ~ среднего, и практически не изменяется
оценка медианы,
Если никаких нарушений в общих условиях проведения испыга-
ний замечено не было, то выбраковку следует проводить с
осторожностью, по возможности исполь зуя критерия выбраковки, причем в
выборках с объемом п й 3 выбраковку лучлге вообще не проводить,
как это было показано специальными исследованиями.
Критерии выбраковки могут строиться на разных статистиках
для проверки гипотез. При этом проверяемые гипотезы
представляют собой некоторые преддоложения о принадлежности (или
непринадлежности) всех полученных в эксперименте значений одной и той
же случайной величине. Если вызывающее сомнение значение
обозначить Хсомн, а множество значений в изучаемой генеральной
совокупности X, то нулевая гипотеза состоит в предположении, что хСомн,
как и все остальные полученные в выборке значения, принадлежат
множеству X что может быть записано в виде Но: хСом» € X (е-знак
принадлежности элемента множеству). Альтернативная гипотеза
озшчаег, что Хсомн в отличие от всех прочих я не принадлежит
случайной ветчине X, т.е. Н\: Лсомн-еА". Причины непринадлежности
могут быть различны. Это может быть незамеченное в процессе
работы грубое нарушение методики, сбой в регистрирующей
аппаратуре, описка при записи результата и другие аналогичные
обстоятельства, приводящие к появлению артефакта (лаг. arte -
"искусственно" и factus -"сделанный"). Однако большое отклонение
Хсоми от основной массы значений не обязательно расценивать как
141
артефакт, поскольку оно может быть, HanpnMq), связано с
принадлежностью хсомн другой случайной величине, отличной от X по
каким-то параметрам, а, может быть и по виду распределения.
Правила, оправдывающие выбраковку, обычно строят
применительно к случаю, когда выборка принадлежит величине с
нормальным (или близким к нему) распределением. Рассмотрим один из
критериев выбраковки, заметив, что Хсомн всегда представляет собой
такое значение, которое наиболее сильно отличается от всех
остальных, а при этом центральное отклонение [хсомн - х \ оказывается
наибольшим из всех возможных. Соответственно максимальное
значение по абсолютной величине имеет и стандартизованное
отклонение
Так как максимум стандартизованного отклонения тгаах есть
случайная величина, меняющая свое значение от выборки к выборке,
то, зная, закон ее распределения, можно tmax, вычисленное но форму-
ле (8.1), использовать в качестве статистики дая проверки гипотезы.
Для этого нужно лишь знать критические значения ттах для
соответствующего уровня значимости а, и тогда критерий проверки
гипотезы о правомерности выбраковки примет следующий вид: если
хтах ~ хтах » ТО нулевая гипотеза может быть отвергнута, и
выбраковка соответствующего значения Лсомк признается допустимой; если
xmax<xmax , то следует считать, что статистических оснований для
выбраковки нет.
Для случая, когда выборки принадлежат нормально
распределенной величине, закон распределения ттах известен, что позволяет
табулировать критические значения xmaXe для заданного уровня
значимости а в зависимости от объема выборки п (см. табл. VI
Приложения). Из рассмотрения табл. М следует, что при данном уровне
значимости а с увеличением п критическое значение ттах
возрастает, что вполне естественно, поскольку с увеличением объема
выборки увеличивается размах варьирования и возрастает вероятность
появления больших отклонений от среднего.
В приведенном примере проверка статистической объективности
выбраковки результата Хсомн выглядит следующим образом (
предположение о близости распределения к нормальному здесь вполне
допустимо): х = 1,54; .у = 0,04; rmax=- — = 1/75. Из табл. М
0,04
142
находим, что если п = 5, то rmajt =1,92, что больше тЮах = 1,75.
Таким образом, отклонять нулевую гипотезу оснований нет, а
соответственно нет статистических оснований и для выбраковки,
Процедурой отбрасывания крайних значений нужно пользовать-
ся с большой осторожностью, даже если выбраковка представляется
статистически оправданной. Дело не только в том, что изучаемое
распределение может отличаться от нормального и тогда попадание
статистики в критическую область может не столько
свидетельствовать в пользу правомерности выбраковки, сколько в подтверждение
того, что распределение отлично от нормального. Отбрасывание
крайних значений более опасно-потому, что эти значения чаще всего
являются вполне естественной принтддежностью соответствующей
совокупности и, что особенно важно, подчас оказываются наиболее
заслуживающими внимания среди всех других. Например, в раде
распределения глубин промачиваиш* почвы при поливе наибольшие
значения, существенно отличающиеся от остальных значений,
встречаются редко и желание их отбросить всегда очень велико.
Однако такие значения никак не являются "засорителями"
совокупности, они ее непременная составляющая. Выбраковывая их, мы
исключаем одни из самых интересных и важных значений, поскольку
именно с ними оказываются связанными как непроизводительные
потери поливной воды, так и подъем уровня грунтовых вод, со всеми
следующими за этим отрицательными последствиями.
Выбраковка есть по сути дела процедура удаления брака, т.е.
результатов, возникших по причине нарушения техники измерения,
проведения анализа. Но вряд ли имеются основания рассматривать
как бракованные, присущие объекту значения, даже сильно
уклоняющиеся от всех остальных. Из этого, однако, не следует, что такие
значения вообще нельзя отбрасывать, В процессе анализа данных
иногда оказывается весьма полезным те или иные значения
исключить из выборки, но это не имеет отношения к выбраковке, так как
°тбрасываемые значения сами по себе заслуживают изучения.
Выбраковка же должна быть скорее исключением, чем правилом.
8-3. АНАЛИЗ ВАРИАЦИИ, АСИММЕТРИИ И ЭКСЦЕССА
После выбраковки, если она необходима и допустима, обычно
Вь*числяют основные оценки и их ошибки. Поскольку многие
приемы статистического анализа основываются на допущении о
нормальности распределения, проверка этого допущения заслуживает
внимания. Самый простой способ, позволяющий составить
предварительное представление о нормальности (точнее, об отличии от
НоРмальности) распределения, основан на рассмотрении величины
143
коэцфкдоента вариации. Конечно, коэффициент вариации прежде
всего интересен как безразмерный показатель вариабельности
случайной величины. Для многих свойств вариабельность и
коэффициент й^ришши как мера ее оценки могут существенно зависеть от
особенностей элементов опробования, обнаруживая очень заметную
тенденцию к уменьшению с увеличением пространства усреднения.
Поэтому анализ величины коэффициеюа вариации без учета
параметров (массы, объема, площади, формы) элементен опробования
оказывается столь же сомнительным, как оценка твердости почвы
без учета ее влажности.
В:яшшис особенностей пробоотбора {или вообще опробования)
ш величину коэффициента ьариации представляет интерес не
только потому, что вариация св< шетва являемся важной характеристикой
изучаемого объекта по исследуемому свойству, но и по той причине,
что от величины п формы пространства усреднения может зависеть
качество шшр оксидации распределения случайной величины тем
иглi иным законом.
Величина коэффициента вариации позволяет косвенно судить о
возможное™ агатрж шации распределения случайной величины
нормальным законом, Ь основе этого приема дежш то соображение,
что при симметричности, свойственное нормальному закону, левая
ветвь распределения (ветвь с наименьшими значениями) не может
быть слишком короткой, если се измерять чис^тм u/авдартаых от-
клонений. Если изучаемое свойство измерено на ткаж, отношений и,
следовательно, отдельные значения не могут быть отрицательны, то
эта ветвь по меньшей мере должна быть равной двум стандартам, в
противном случае начнет сказываться асимметрия в распределении;
это означает, что коэффициент вариации не должен превышать 50%.
С учетом- сказанного превышение коэффициентом вариации
величины 50% можно рассматривать как серьезный аргумент в пользу того,
что изучаемое распределение заметно отличается от нормального.
Если v < 50%, а тем более, когда v < 30%, распределение в принципе
может быть неплохо аппроксимировано нормальным законом, но
малость величины коэффициента вариации еще не означает, что
распределение близко к нормальному, так как существуют
распределения явно отличные от нормального, хотя и имеющие небольшие
коэффициенты вариации.
Так, при округлении чисел с точностью А в интервале от а - А/2
до а + А/2 распределение допустимо считать равномерным со
средним, равным я, и, как это следует из формулы D.73), стандартным
отклонением а ~ A/BV3). При этом коэффициент вариации
144
оказывается равным V = —-j= = 28,87 —, откуда следует, что F->0
laS a
приа-юо.
Например, если содержание ила округляется до целых процентов
и А = i%, то при а = 10% имеем V= 2,9%, а при а = 50% получим
К=0,6%. Как видим, малость коэффициента вариации не может
служить достаточным основанием для того, чтобы признать
допустимой аппроксимацию нормальным законом.
Заметим, что иногда очень большой коэффициент вариации,
существенно превышающий 50%, может не быть свидетельством
отличия распределения от нормального, если коэффициент вариации
вычислен для случайной величины, полученной в результате измерений
на интервальной шкале. В подобных случаях коэффициент "вариации
лучше не вычислять.
Оценку нормальности распределений можно строить на анализе
асимметричности и эксцессивности распределений, хотя такой
анализ нередко представляет интерес и сам по себе. Дело в том, что
факт обнаружения соответствующих особенностей в распределении
может служить поводом для выявления причин их возникновения, а
тем самым служит более глубокому пониманию сути изучаемых
явлений. При необходимости получаемые знания могут быть
использованы и для разработки методов получения исходной информации.
Как было отмечено ранее, при нормальном распределении
асимметрия и эксцесс отсутствуют (а = 0. е = 0). Полученные по
выборочным наблюдениям оценки А и Е практически никогда не бывают
в точности равны нулю, даже если генеральная совокупность
распределена строго нормально. Однако отличие А и Е от нуля связано
не только с тем, что они представляют собой оценки. Достаточно
часто распределения в генеральных совокупностях имеют ту или
иную асимметричность и эксцессивность, что не может не находить
своего отражения в оценках АиЕ.
Причины асимметричности распределений могут быть
различными. Например, среди факторов, влияющих на изучаемый признак,
может существовать такой, который является определяющим, а сам
распределен асимметрично. Так, известно, что значительной
положительной асимметрией обычно характеризуется распределение во-
допроницаемостей, что может быть прямым следствием пуассонов-
ского распределения числа крупных пор, приходящихся на
единичную площадь при измерении водопроницаемости.
Аналогично может обстоять дело с распределением содержания некоторых
элементов, если среди первичных почвенных частиц большая их
часть лишена этих элементов и лишь в некоторых частицах их
145
концентрация велика. Причиной асимметрии может служить способ
количественной характеристики признака. Так, размер пор может
быть охарактеризован и их диаметром, и площадью поперечного
сечения. При этом если распределение диаметров симметрично, то
асимметричным является распределение площадей и наоборот.
Достаточно часто распределение рН может считаться симметричным,
но это никогда не имеет места для распределения активностей
водородного иона.
В рамках заданных общих условий проведения испытаний среди
второстепенных условий может существовать мощный фактор,
определяющий повышенную встречаемость значений случайной
величины в одном, двух или большем числе интервалов значений. В
таких ситуациях распределение может оказаться мономодальным
или полимодальным. Так, неравномерное промачивание почвы
дождевыми или поливными водами может оказаться причиной
различной эксцессивности распределения влажности почвы на разных
глубинах. Иногда такие распределения удается рассматривать в
качестве суммы двух или большего числа распределений и
множество значений одной случайной величины представлять в виде
суммы случайных величин со своими параметрами.
Нужно иметь в виду, что асимметричность и эксцессивность
распределений могут существенно зависеть от размеров элементов
опробования, убывая с их ростом. Отсюда следует, что указание
особенностей элементов опробования играет очень большую роль и
отсутствие таких сведений может обесценить информацию.
Естественно, что при выборочных наблюдениях, имея дело с
оценками, исследователь лишен возможности делать
безапелляционные выводы о наличии или мере асимметрии и эксцесса. Получив
оценки А и Е, прежде чем обсуждать их величину, нужно выяснить,
существуют ли основания считать, что асимметрия и (или) эксцесс
вообще имеются у изучаемого распределения. В применении к
статистическим моделям эта дилемма для асимметрии выглядит как Но:
а - 0; Н\: а ^ 0, а для эксцесса как Яо: в = 0; Hi: e * 0. Для проверки
гипотез чаще всего прибегают к статистике, предположительно
распределенной по нормальному закону с параметрами 0 и 1.
Вычисление таких статистик осуществляется с помощью ошибок sA и sE. Счи-
И И
тается, что если J—L>3 и •L-^->3, то соответствующие нулевые
SA SE
гипотезы должны быть отброшены в пользу альтернативных.
Построение этих критериев проверки гипотез основано на том, что
вычисляемые отклонения являются по сути стандартизованными
отклонениями. Действительно, здесь числители представляют собой
146
отклонения оценок А или Е от генеральных значений а или е,
равных нулю, в условиях проверяемых нулевых гипотез. Поэтому отно-
И |Е|
шения ~иис некоторым приближением можно считать распре-
*л se
деленными по Стьюденту. Упрощение сводится к тому, что
критическое значение приравнено 3 независимо от объемов
выборок. Следует иметь в виду, что при малых объемах выборок ошибки
рассматриваемых оценок настолько велики, что вычисление оценок
А и Е очень часто оказывается лишенным смысла.
В § 6.2 в примере с анализом твердости при л = 15 было найдено
А = 0,33 и Е = -1,35. Проверим, можно ли утверждать, что
генеральная совокупность, которой принадлежит выборка, имеет
асимметричное или эксцессивное распределение. Согласно E.47) и E.48),
получаем sA = J— = 0,63 и sE = J— = 1,26; тогда — = —— = 0,5 и
V15 V 15 s a 0,63
1—L = = 1,1. В обоих случаях полученные отношения заметно
sE 1,26
меньше 3, поэтому никаких оснований для отказа от нулевых
гипотез нет, а следовательно, нет оснований и для утверждений, что
распределение твердости имеет какую-либо асимметрию или эксцесс.
Нередко из подобного анализа делается вывод, что коэффициенты
асимметрии и (или) эксцесса недостоверны. Лучше употреблять
выражение "статистически незначимы". Однако как бы выводы такого
рода не формулировались, суть их состоит в том, что коэффициенты
а и (или) б (но не А или Е) нельзя считать отличными от нуля, а уж
тем более утверждать, что, например, эксцессивность, судя по
значению Е = -1,35, имеет среднюю величину.
Из рассмотренного примера видно, что даже при не такой уж
малой выборке как п = 15 о статистической значимости
коэффициентов асимметрии и эксцесса говорить трудно вследствие очень
больших ошибок этих коэффициентов. Действительно, чтобы
утверждать, что а * 0 (или е * 0), нужно, чтобы полученные оценки
А (или Е) по меньшей мере в 3 раза по абсолютной величине
превышали ошибку, т.е. чтобы в рассмотренном выше примере было
\А\ > 0,63 • 3 = 1,89 и \Е\ > 1,26-3 =3,78. Если пойти по иному пути и
исходя из заданного значения А (или Е) вычислить минимальный
объем выборки, обеспечивающий признание асимметрии (или
эксцесса) значимым, то окажется, что при \А\ = 1,0 объем выборки
должен быть по меньшей мере равным п = 54, а при И| = 0,5 нужно
иметь п = 216. Такой же минимальный объем и = 216 обеспечивает
возможность утверждать, что е * 0 при \Щ = 1,0.
147
Из рассмотренных примеров видно, что в единичных выборках
небольшого объема вычисление коэффициентов асимметрии и
эксцесса не слишком целесообразно, поскольку даже при больших
значениях оценок \А\ и \Е\ утверждать что-либо по поводу этих
коэффициентов оказывается затруднительным.
Незначимость коэффициентов асимметрии или (и) эксцесса не
есть доказательство отсутствия асимметрии (эксцесса). Просто при
этом у нас нет достаточных оснований считать, что они имеются. С
другой стороны, отсутствие значимой асимметрии и (или) эксцесса
нельзя рассматривать как доказательство (или показатель)
нормальности распределения случайной величины. Дело в том, что
существуют случайные величины, не имеющие асимметрии или (и)
эксцесса, но тем не менее распределенные не по нормальному закону.
Другое дело, если есть возможность утверждать, что коэффициент
асимметрии (эксцесса) отличен от нуля. Тем самым можно
утверждать, что распределение отлично от нормального.
Именно так обстоит дело с распределением водопроницаемости
И
(см. § 6.3), где при п = 150, А = 1,76 и Е = 2,67 получено — = 8,8 и
За
J—L = 6,7, что в обоих случаях превышает критическое значение 3.
SE
Здесь есть серьезные основания для утверждения, что а*0ие*0и
что распределение отлично от нормального,
Н.4. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ
С ПОМОЩЬЮ КРИТЕРИЯ УИЛКА-ШАПИРО
Как было отмечено, судить о нормальности распределений по
отсутствию асимметрии и эксцесса, как это нередко делается,
достаточно рискованно. В то же время нормальность слишком часто
оказывается необходимым условием корректного использования
различных статистических методов, что вынуждает осуществлять
проверку гипотезы о нормальности изучаемого распределения.
Существует немало критериев проверки такой гипотезы. Некоторые из
таких критериев, называемых нередко критериями согласия, *могут
быть использованы для проверки возможности аппроксимации
изучаемого распределения разными законами, не обязательно только
нормальным.' Другие критерии являются узкоспециализированными,
пригодными для оценки согласия изучаемого распределения с
законом какого-либо конкретного вида. Одни критерии удобно
применять при небольших объемах выборок, другие можно применять
148
лишь в тех случаях, когда выборки насчитывают многие десятки
наблюдений.
Для проверки нормальности распределения, когда объем выборки
3 < п <, 50, можно использовать критерий Уилка-Шапиро
(узкоспециализированный). Применимость этого критерия ограничена
условием несгруппированности исходных данных.
Процедуру проверки нулевой гипотезы, сводящейся к
предположению, что выборка принадлежит нормально распределенной
величине, начинают с построения ранжированного ряда значений хг
(i = 1, 2, ..., п) от наименьшего (г = 1) до наибольшего (i = и). По
выборочным данным вычисляют сумму квадратов центральных
отклонений С (по формуле F.9)). Далее находят величину к согласно сле-
дующим правилам: если п - нечетное, то к = , если п - четное,
то к =—. Затем вычисляют вспомогательную величину В по
формуле:
где ап_м - некоторые коэффициенты, значения которых в
зависимости от п для 1=1, 2,..., к приведены в специальной таблице (см.
табл. VII Приложения). Заметим, что в формуле (8.2) сомножители,
стоящие в скобках, представляют собой не что иное, как разности
между значениями, расположенными симметрично относительно
концов ранжированного ряда (при нечетном п медианное значение,
занимающее [(п + 1) / 2]-е место при вычислении величины В не
используется).
Наконец, вычисляют величину W по формуле
И/ = *1 , (8.3)
С
которая и служит статистикой доя проверки гипотезы о
нормальности распределения. Если W< W^ny то с уровнем значимости а
распределение считается отличным от нормального. Если же W
превышает критические значения 1¥а,„, то распределение допустимо
рассматривать как нормальное. Критические значения W^n находят
в зависимости от а и п из таблиц (см. табл. VIII Приложения).
Например, проверим допустимость предположения о
нормальности распределения содержания гумуса, если в выборке с п = 5
ю*
149
результаты, приведенные в ранжированной последователь -
ности,были: 1,51; 1,52; 1,53; 1,53; 1,61.
Находим к = = 2. Взяв из табл. \1 коэффициенты ап_м для
п = 5 и i - 1 и 2,получим
В = 0,6646 A,61 - 1,51) + 0,2413 A,53 - 1,52) = 0.06887.
Согласно формуле F.9), С = 0,0064 и ж = 0'06887 = 0,741, Для
* 0,0064
и = 5 имеем Жо^ = 0,762 и, поскольку W = 0,741 < 0,762, можно
утверждать (рискуя ошибиться при этом в 5% случаев), что
распределение отлично от нормального.
8.5. ПРОВЕРКА ГИПОТЕЗЫ О НОРМАЛЬНОСТИ
РАСПРЕДЕЛЕНИЯ С ПОМОЩЬЮ КРИТЕРИЯ ХИ-КВАДРАТ
В тех случаях, когда выборка достаточно велика и представлена
серединами классов с соответствующими частотами, проверку
возможности аппроксимации изучаемого распределения тем или иным
законом достаточно часто осуществляют с помощью статистики хи-
квадрат.
Чтобы вычислить статистику %2, необходимо знать те
теоретические частоты, которые соответствовали бы отдельным классам
значений переменной величины, если бы изучаемое распределение
строго подчинялось аппроксимирующему закону, а частоты были бы
пропорциональны вероятностям соответствующих классов. При
этом обычно приходится делать некоторые допущения, например,
при аппроксимации нормальным законом при вычислении
теоретических частот предполагается, что среднее и дисперсия равны
имеющимся для них оценкам (ц = х , а2 = s2), a суммы абсолютных
частот эмпирически найденных ( £ /} ) и теоретических ( £ /} ) °ДИ"
наковы и равны п.
Мы уже частично рассматривали вопрос о технике вычислений
теоретических частот для биномиального и пуассоновского
распределений (см. § 4.4 и 4.5). При аппроксимации распределения
переменной X нормальным законом для отыскания теоретических частот
fj для каждого j-ro класса необходимо найти границы между
классами Xjrfj+l\H, выразив их в виде стандартизованных отклонений
Zy = (.Ху//у+1\-ц)/ст, для полученных значений отыскать с помощью
табл. И Приложения значения функции F(z). Если эта функция
табулирована для интервалов от - оо до z, то по разности между
значениями F(z), соответствующими соседним границам
150
между классами, можно найти вероятности отдельных классов
Pj = F(Zj) -F(Zjj), а умножив их на я, получить теоретические
частоты fj. Технику этих вычислений хорошо иллюстрирует табл. 8.1.
Таблица 8 . 1
Нахождение теоретических частот для рапределения плотности в пахотном слое
дерново-подзолистой почвы (п = 150, с = 0,10 г/см3, ц = 1,27, а = 0,113,
аппроксимация нормальным законом)
*/
1,05
1,15
1,25
1,35
1,45
1,55
£
fj
7
40
46
39
15
3
150
XJ\J«)
1,10
1,20
1,30
1,40
1,50
ZJ
-1,50
-0,62
0,26
1,15
2,04
F(zj)
0,0668
0,2676
0,6026
0,8749
0,9793
Pj
0,0668
0,2008
0,3350
0,2723
0,1044
0,0207
1,0000
fj
10,0
30,1
50,3
40,8
15,7
3,1
150,0
Поясним, что значения х^/.+л найдены по формуле B.12), а
вероятности и теоретические частоты крайних классов вычислены не
просто как вероятности (и частоты) соответствующих классов.
Вероятности крайних классов здесь отражают еще и возможность
получения любых значений, меньших наименьшего класса, а для конца
распределения - значений, превышающих наибольший класс.
Так, для наибольшего класса с х = 1,55 значение Pj = 0,0207,
полученное как разность 1 - 0,9793, характеризует вероятность того,
что плотность почвы примет значения, большие, чем 1,50.
Аналогично, для класса с х = 1,05 значение / = 10,0 и это нужно понимать
так, что /= 10,0 есть теоретическая частота того, что х окажется
меньше, чем х = 1,10.
Из сопоставления эмпирически найденных^ и теоретических
частот /, видно, что при их общем сходстве в поведении они в то же
время неодинаковы.
Проверку гипотезы о нормальности распределения можно
осуществить с помощью статистики х2> вычисляемой по любой из
формул:
х2_^(/;-/;>2 (8.4)
fj
151
или
2 ^ fj (8.5)
h
Если x2 ^ Xa » то нулевая гипотеза о сходстве изучаемого
распределения и аппроксимирующего отбрасывается; если у} <%2а, то она
остается в силе.
Нужно иметь в виду, что %2 допустимо вычислять при условии,
что ни одна из частот fj не меньше 5, а объем выборки достаточно
велик (и > 100, а по некоторым рекомендациям и л > 200). Если для
того или иного класса значений частота f} оказывается меньше 5,
то можно провести укрупнение классов. При аппроксимации
нормальным законом наименьшие частоты имеют крайние классы, в
связи с этим можно объединить крайние классы для того, чтобы
суммарная частота превысила 5.
Так, поскольку для класса с серединой х} = 1,55 в
рассматриваемом примере частота /, = 3,1 < 5, следует объединить этот класс с
предыдущим. Эмпирическая частота такого класса равна сумме
эмпирических частот: 15 + 3 = 18, а соответствующая теоретическая
частота есть 15,7 + 3,1 = 18,8.
Распределение вычисляемой по формулам (8.4) или (8.5) величины
X2 зависит от числа степеней свободы v, которое равно числу классов
к (после их укрупнения, если это необходимо) минус число
ограничений. Число ограничений зависит от того, каким законом
аппроксимируется изучаемое распределение. При аппроксимации
нормальным законом таких ограничений оказывается три. Это
допущения, что цх -х , а^. =^ и равенство сумм эмпирических
и теоретических частот: Y*fj - Z fj • Поэтому при проверке
нормальности распределения с помощью критерия у} значение
v = к -3. Это означает, кстати, что классов при проверке такой
гипотезы не может быть меньше, чем 4.
С учетом сказанного продолжим рассмотрение данного примера.
Вычисление статистики %2 с помощью формулы (8.4) приведено в
табл. 8.2.
Так как к = 5, то v = 5 - 3 = 2. Из табл. IV Приложения при v = 2
находим Хо,о5= 5,99. Поскольку %2 = 4,64 < х£о$= 5,99, нулевая
гипотеза не может быть отвергнута с уровнем значимости a = 0,05, а
152
распределение плотности почвы допустимо рассматривать как
нормальное.
Т аблица 8 . 2
Вычисление %2 для ряда распределения плотности почвы
*j
1,05
1,15
1,25
1,35
1,45
fj
7
40
46
39
18
fj
10,0
30,1
50,3
40,8
18,8
frh
-3,0
9,9
-4,3
-1,8
-0,8
(fi-fj>
0,90
3,26
0,37
0,08
0,03
X2 = 4,64
8.6. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ СРЕДНЕГО
Если величина X распределена нормально, а оценка
стандартного отклонения найдена с числом степеней свободы v, то закон рас-
х-и
пределения t = — нам известен, а, значит, мы можем указать, в
Sx
каких пределах может меняться t с заданной доверительной
вероятностью Р (или с заданным уровнем значимости ос = 1 - Р). Если t с
вероятностью Р по абсолютной величине не может быть больше га,
то отклонение х от ц с соответствующим уровнем значимости а не
может, очевидно, превышать tas^ . Таким образом, значение
можно рассматривать как абсолютную погрешность с уровнем
значимости а оценки цпо J.
Если ц не известно, то у нас нет возможности определить, в
какую сторону от ц смещена точечная оценка Зс, занижает ли эта
оценка среднее или , наоборот, завышает. Однако мы можем
утверждать, что по абсолютной величине отклонение этой оценки от
генерального значения среднего в любую сторону с уровнем
значимости а не превышает Аа =tas^- Так как х не отличается от ц
более, чем на tas^ , то верно и обратное утверждение, а именно, что
ц не может отличаться от х более, чем на tas^, т. е. среднее \а с
уровнем значимости а должно лежать в интервале значений от
x-taSx до x+tas-x~ (с учетом симметричности распределения i).
Эти два значения ограничивают так называемый доверительный
интервал среднего:
153
x-tasxuliux+tasz. (8.7)
Обозначая доверительный интервал среднего при уровне
значимости а через ха , запишем
xa=x±tass. (8.8)
Значения , ограничивающие доверительный интервал,
называются доверительными границами. Очевидно, нижняя граница среднего
есть
f;=x-fas5, (8.9)
а верхняя равна
x£=x + tass. (8.10)
В данном случае среднее характеризуется двумя числами,
соответствующими двум доверительным границам. Подобная оценка
констант получила название интервальной оценки.
Применимость подобного способа оценки среднего ограничена
условием близости закона распределения х к нормальному. Однако
оценки х обладают замечательным свойством, состоящим в том,
что с увеличением п распределение х стремится к нормальному
независимо от закона распределения X. В связи с этим распределение
х можно считать практически нормальным при п > 30, а при
близости распределения X к нормальному и при существенно меньших
значениях п. Для нормально распределенных величин X
распределение х нормально при любых и, а для симметричных - при п> 10.
Эта особенность оценок среднего позволяет достаточно корректно
использовать доверительные интервалы среднего при решении
широкого круга задач]
Как следует из вышеизложенного, для нахождения
доверительных интервалов нужно для заданного уровня значимости взять
критическое значение га (см. табл. Ш Приложения) с учетом v, с которым
найдена ошибка среднего, и, подставив необходимые значения в
формулу (8.7) или (8.8), провести вычисления.
Так , если точечная оценка влажности почвы с п = 10 окажется
равной * = 25,7% при ^ = 1,10, то генеральное среднее влажности
почвы с риском ошибиться в 5% случаев (т.е. при а = 0,05) будет
заключено в следующем интервале (при v = 9 имеем Го,о5 = 2,26):
f0f05= 25>7 ± 2Д6 - 1,10 = 25,7 ± 2,5 = B3,2 * 28ДI. Иначе говоря, с
95%-й уверенностью можно утверждать, что средняя влажность
почвы \х.х имеет значение в интервале от 23,2 до 28,2%.
1 Символ -г ознчает "от ... до".
154
Заметим, что повторность, в особенности если она невелика,
существенно влияет на ширину доверительного интервала, а тем
самым и на точность оценки среднего.
Для рассмотренного примера при п = 10 и а = 0,05 по формуле
(8.6) находим Ао,о5 = 2,26 • 1,10 = 2,5, т.е. абсолютная погрешность
равна 2,5% влажности почвы. С уменьшением п не только возрастает
ошибка среднего, но и увеличивается га при том же а. Однако даже
если бы то же значение s2 удалось получить при меньшем и,
точность оценки среднего оказалась бы ниже.
Допустим, что те же средние 5с = 25,7 и s-= 1,10 были получены
при п = 3. Для а - 0,05 и v = 2 имеем Го,о5 = 4,30 и
xojb = 25,7 ± 4,30 • 1,10 = B1,0 * 30,4) при Ao,os = 4,30 - 1,10 = 4,7. Как
видим, уменьшение обьема выборки с 10 до 3 даже при неизменности
оценок х и Sf привело к существенному расширению
доверительного интервала и соответствующему увеличению абсолютной
погрешности почти в 2 раза.
8.7. ПОКАЗАТЕЛЬ ТОЧНОСТИ ОПЫТА И ПОКАЗАТЕЛЬ
ОТНОСИТЕЛЬНОЙ ВЕРОЯТНОЙ ПОГРЕШНОСТИ
Достаточно часто погрешность, с которой найдена оценка
среднего, выражают безразмерным показателем, представляющим собой
отношение ошибки среднего к среднему, выраженное в процентах:
Этот показатель получил название точности опыта (по Сапеги-
ну). В силу своей безразмерное™ он позволяет сравнивать точность
оценок разноразмерных средних.
Если одинаковые средние и их ошибки получены при разных
объемах выборок ( а это возможно при неодинаковой дисперсии), то
показатель Р, согласно формуле (8.11), также будет одинаков
независимо от различий в объемах выборок. Поэтому если, например,
значения х = 25 J и s- = 1,10 оказались полученными как при п = 10,
так и при п = 3 (см. § 8.6), то показатель точности опыта в обоих
случаях один и тот же: Р = ——100 = 4,3 %.
В то же время мы отмечали, что при разных п точность в оценке
среднего нельзя считать одинаковой, если точность связывать с
одинаковым уровнем значимости. Несовершенство
рассматриваемого показателя состоит еще и в его названии: чем выше
показатель точности, тем меньше точность.
155
Если абсолютная вероятная погрешность оценки среднего Аа,
вычисляемая по формуле (8.6), показывает, на сколько может
отличаться генеральное среднее ц от оценки х при заданном уровне
значимости а, то отношение
Р =4^-Ю0 = ^100% (8.12)
JC X
можно назвать относительной вероятной погрешностью. Величина
Ра показывает, сколько процентов от среднего, принятого за 100%,
составляет абсолютная вероятная погрешность оценки среднего или
иначе, на сколько процентов от среднего отстоят границы
доверительного интервала, в пределах которого находится искомое среднее
при уровне значимости а.
Из сопоставления Р и Ра следует, что Ра = Pta. Если а = 0,05, то
для данного эксперимента показатель относительной вероятной
погрешности имеет по меньшей мере в 2 раза большее значение, чем Р,
так как при л-*» значение fo,o5-*l,96.
Возвращаясь к примеру с влажностью почвы, при п = 10 получим
Poos = — • ЮО = 9,7%, а при п = 3 имеем Р0,05 =—• 100 = 18,4%. Как
видим, в отличие от показателя точности опыта в обоих случаях
одинакового, показатель относительной вероятной погрешности
при а = 0,05 с уменьшением л от 10 до 3 возрастает почти вдвое (при
условии постоянства среднего и его ошибки).
8-8. ГАРАНТИРОВАННЫЕ МИНИМУМЫ
И МАКСИМУМЫ СРЕДНЕГО
В некоторых случаях исследователя может интересовать не
доверительный интервал возможных значений среднего, а лишь то
значение, меньше которого не может быть среднее при заданном риске
ошибиться. Такое значение получило название гарантированного
минимума среднего. Если обозначить его minCc )ш то получим
min(J)a= х- t2a jj. (8.13)
Заметим, что для получения гарантированного минимума с
уровнем значимости а в формулу (8.13) нужно подставить значение
r-Стыодента, взятое из таблицы Ж Приложения для числа степеней
свободы v, с которым найдена s^% для удвоенного уровня, т.е.
для 2а.
По аналогии с гарантированным минимумом среднего можно
найти и его гарантированный максимум:
156
max(x )a = x + t2a Sj . (8.14)
/ Между гарантированным минимумом и нижней доверительной
границей (как между гарантированным максимумом и верхней
доверительной границей) существует нечто общее: они об^а
ограничивают снизу (или сверху) возможные значения среднего/Однако если
нижней границе всегда соответствует верхняя границ? (и наоборот),
так что при этом доверительный интервал ограничен с двух сторон
(двусторонний доверительный интервал) , то гарантированный
минимум, как и максимум, ограничивает доверительную область
значений среднего только с одной стороны (односторонний
доверительный интервал).
В связи с этим при двустороннем доверительном интервале
уровень значимости а характеризует вероятность того, что среднее
окажется меньше нижней границы или выше верхней (эти
вероятности одинаковы и равны а/2), а при оценке гарантированного
минимума (максимума) уровень значимости а есть вероятность того,
что среднее можег быть меньше min(x )a (больше тах(х )a).
В связи с этим совпадение значений гарантированного минимума
с нижней доверительной границей ( а максимума - с верхней)
возможно при условии, что оценка двустороннего доверительного
интервала производится с вдвое большим уровнем значимости, чем
гарантированного минимума (максимума).
Гарантированные минимумы и максимумы представляют интерес
при решении разных задач, но чаще всего в связи с необходимостью
оценки возможных экспериментальных ситуаций. Это может быть,
например, гарантированный минимум весеннего запаса влаги в
почве. Нас не беспокоит, что этот запас в действительности окажется
больше минимума, а возможный минимум требуется знать, так как
от этого зависят виды на урожай. При оценке содержания
обменного натрия в солонцах гарантированный максимум позволяет
оценить предельное количество гипса, которое потребуется для
мелиорации солонцов. По гарантированному максимуму сопротивления
вспашке можно судить о наибольших возможных расходах горючего
и т.д.
Техника вычислений гарантированных минимумов или
максимумов трудностей не представляет.
Например, если в случае оценки обеспеченности растений влагой
для влажности почвы при п = 10, получили * = 25,7 и ^ = 1,10, то с
риском a = 0,05 можно утверждать, что средняя влажность не
должна быть ниже, чем (для v = 9 имеем Голо =1,83)
minEF)o,o5 = 25,7 - 1,83 • 1,10 = 23,7%. Аналогично можно найти
гарантированный максимум среднего расхода воды на
157
инфильтрацию через ложе канала; если при п = 25 получено
x±s- = 3,13 ±0,02 мм/сутки, то с а = 0,01 (для v = 24 имеем
fo,o2 = 2,49) находим maxEF)o,oi = 3,13 + 2,49 • 0,02 = 3,18 мм/сутки.
8.9. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДИСПЕРСИИ
Для дисперсии, как и для среднего, наряду с точечной оценкой
можно вычислить нижнюю и верхнюю доверительные границы.
Хотя оценка дисперсии и имеет свою ошибку репрезентативности, до-
верительный интервал для дисперсии лучше находить с помощью
иного метода, основанного на распределении х2- Если изучаемая
случайная величина имеет распределение, близкое к нормальному и
выборка объема п дала точечную оценку s2 дисперсии а2, то с
уровнем значимости а значение а2 будет лежать в следующих пределах:
—Ij—L^o2^—\ i. (8.15)
Ха/2 Xl-a/2
В формуле (8.15) %^/2 есть критическое значение %2,
распределенной с v степенями свободы, больше которого значения %2
встречаются с вероятностью •—. Критическое значение Xi2-a/2 есть значение,
ос
вероятность превысить которое равна 1 . Если a = 0,05, то для
левой части формулы (8.15) из табл. ^Приложения находят
значение х 0,025» а Я1151 правой части - значение %1,975 •
Допустим, при определении плотности почвы с объемом выборки
п = 5 получили s - 0,10 г/см3. Чтобы определить доверительный
интервал возможных значений дисперсии плотности с a = 0,05,
находим по табл. IV для v = 4 критические значения у}\ % 20т =11,14,
п «о гт А /о,сч 0Д02E-1) 2 0Д02E-1)
X5,975 = 0,48. По формуле (8.15) получаем ——~—<: а1 <— к ;
0,0036 < а2 < 0,08333. Обозначая доверительный интервал для
дисперсии через s I, имеем s 2т = @,0036 -г 0,0833).
Доверительный интервал для стандартного отклонения получим,
извлекая квадратные корни: s 005=@,06 + 0,29). Заметим, что
границы доверительных интервалов расположены асимметрично
относительно точечных оценок дисперсии и стандарта: точечные оценки
сдвинуты к нижней границе.
158
8Л0. СРАВНЕНИЕ СРЕДНИХ
С ПОСТОЯННЫМИ ВЕЛИЧИНАМИ
В некоторых случаях исследователь практически точно знает,
чему должно быть равно среднее. Например, приготовив буферный
раствор по известному рецепту, мы знаем величину рН этого
раствора. В стандартном образце почвы заранее известно содержание
отдельных элементов и т. д. Однако средний результат анализа ц
совсем не обязательно оказывается равным истинному значению
изучаемого признака а. Тем более обычно не бывают равны
постоянные величины а и оценка среднего х . Вместе с тем, если отличие а
от Зс естественно, то отсутствие равенства между ц и а может
вызвать тревогу, так как это означает, что метод анализа имеет
систематическую погрешность.
Если систематической погрешности нет, то должно иметь место
равенство ц = а. Тогда при данных оценках х и s- значение а с
уровнем значимости а должно находиться в пределах
доверительного интервала для среднего (формула (8.8)), т.е. отклонение а от х по
модулю не должно превышать tas^ . Сказанного достаточно для
того, чтобы сформулировать проверяемые гипотезы и критерии их
проверки. Примем Но: ц = я, Hi: \х ф а. Если ц = а и распределение х
х -а
близко к нормальному, то отношение распределено как
t - Стьюдента cv = n- 1, и лишь с малой вероятностью а значение
l-i l Может превысить ta. Тогда при t>ta оудем считать, что
верна альтернативная гипотеза, т.е. среднее результатов измерения ц
не равно постоянной величине я, а при / <7а нулевая гипотеза не
отвергается и допустимо считать , что ц = а.
Допустим, в стандартном почвенном образце содержание SiCb
равно а-: 82,15%. По результатам 4-кратного анализа некоторым
методом было получено х-82,03 при s-^ 0,039. Требуется
выяснить, можно ли отличие полученного х от а считать результатом
простой игры случая (аналитических погрешностей случайного
характера) или эта разница столь велика , что более разумно ее
связывать с наличием систематических погрешностей. Так как
82 03 — 82 15
1=—! 1—=3,08, а для v = 3 из табл. Ш Приложения находим
0,039 *
fo,o5= 3,18, и, значит, t <7a, то у нас нет оснований считать, что метод
имеет систематическую погрешность. Конечно, такое заключение
еще не есть доказательство правильности метода, но согласно
159
принятым критериям с уровнем значимости а = 0,05 можно считать
метод правильным.
8.11. ПЛАНИРОВАНИЕ ОБЪЕМОВ ЕДИНИЧНЫХ ВЫБОРОК
Грамотно спланированным опытом можно считать такой, когда
ответ на поставленный вопрос получается при наименьших затратах
средств и времени, а это прежде всего означает, чтФ число повторно-
стей в опыте должно быть по возможности необходимым и
достаточным для получения ответа с требуемой точностью и
надежностью. При этом нельзя упускать из вида, что всякое планирование
численностей совокупностей базируется на ряде допущений , и
результаты спланированных опытов по их уровням точности или
надежности не могут не зависеть от того , насколько эти допущения
оправдываются.
С другой стороны, даже при правильности начальных допущений
исход испытания может оказаться неудовлетворительным вследствие
неизбежного варьирования между возможными выборками. В силу
всего этого бессмысленно ставить задачу абсолютно точного
планирования объемов выборок, но это совсем не значит, что
планирование объемов вообще лишено какого-либо смысла, хотя бы потому,
что объем выборки является одним из важнейших, а нередко
единственным фактором, определяющим точность оценок и
надежность выводов.
Абсолютная Аа и относительная Ра вероятные погрешности
оценки среднего (формулы (8.6) и (8.12)) с учетом формулы E.23)
имеют вид
Да=-р*. (8.16)
<п х
Из этих формул видно, что Да и Ра зависят прежде всего от вели-
чины отношения -f=, на которую мы можем активно влиять через
объем выборки п. Заметим, что при данном а значения ta и Vw
попарно связаны, поскольку ta соответствует v = п - 1, так что
каждому а и л соответствует некоторое стандартное отношение -~г, убы-
вающее с ростом л.
160
*,=тг^ (8Л9>
Если значения среднего и стандартного отклонения
предположительно известны и требуется при заданном а получить оценку
среднего с погрешностью Аа или Рш то, как следует из формул (8.16) и
(8.17), нужно найти величину сомножителя -—-, обеспечивающего
л/и
равенство левых и правых частей в этих формулах, а затем и
соответствующую полученному отношению -j= величину объема вы-
борки.
Если табулировать и, соответствующие отдельным значениям
-j=, то нахождение необходимого объема выборки сводится к вы-
числению вспомогательной величины к\ по одной из формул
*i= —, (8.18)
s
100*
или, принимая во внимание равенство E.22), - по формуле
*i=— (8.20)
v
и нахождению из табл.К Приложения искомого п для заданного а
согласно условию к\ = -f=. Формула, по которой следует вычислять
fci, зависит от того, какая погрешность более интересует
исследователя (абсолютная или относительная), и от наличия сведений
(иногда очень приблизительных) о предполагаемых значениях
среднего х , стандарта s или коэффициента вариации v.
Данным приемом можно пользоваться при условии, что v < 40% и
прогнозируемый объем выборки п < 50.
Допустим, что требуется спланировать опыт по определению
влажности завядания таким образом , чтобы оценка среднего была
получена с относительной погрешностью Po,os= 5%. Проводившиеся
ранее аналогичные эксперименты показали, что коэффициент
вариации при подобных определениях очень близок к v = 6%. По
формуле (8.20) получим к\ = — = 0,83 и из табл.К для а = 0,05 найдем,
6
что объем выборки, могущий обеспечить требуемую точность
(обозначим его ла), есть ло,о5= 9.
11 Е.А,Дмитриев
161
Иногда в итоге проведенного исследования результат по то*
ности оказывается хуже, чем хотелось бы, и опыт нужно либо пере*
делать , либо проделать некоторое число дополнительных измерь
ний.
Например, по 4 повторностям содержание Р2О5 (в мг/ЮОг почвы}
оказалось определенным с погрешностью До,о5=6, а желательно
чтобы абсолютная погрешность оценки среднего не превышала
Ао,о5 = 4. Так как вариация данного свойства в рамках опыта оцени-
вается s = 2,8, то для простоты, округляя эту оценку до 3 и пользуясь
4
формулой (8.18), получим к\ =— =1,33, а из таблЛХ находим
ло,о5= 5. Следовательно, требуется добрать еще один образец.
Точно так же можно оценивать объем выборки, обеспечивающий
статистически значимое отличие среднего от постоянной величины,
если разность между средним х и постоянной а превысит
некоторую величину. Для этого следует, зная (быть может
предположительно) стандартное отклонение s в изучаемой совокупности и
задавая предполагаемую или минимальную величину разности d- рс-я|
(большей разностью уже нельзя пренебречь), вычислить
*,=- (8-21)
S
и по табл.К найти искомое иа.
Допустим, что изучаемый метод валового анализа
характеризуется воспроизводимостью при оценке SiCh величиной s- 0,08.
Содержание SiCh в эталонном образце известно и следует выяснить,
имеет ли метод анализа систематическую погрешность, причем ею
можно пренебречь, если она не превышает rf = 0,1. Тогда, поскольку
W \ ._
к\ = 1,25 , опыт нужно провести с повторностью ло,о5 = 6.
Если в результате вычислений окажется, что к\ < 0,37, то искомое
па можно найти по формуле
пп =
а "" -2
(8.22)
ч
где ta берется из табл.Ш Приложения для v = 00.
Пусть, при изучении плотного остатка водной вытяжки из
пахотного горизонта в пределах некоторого поля было обнаружено,
что вариация этой величины характеризуется значением v= 100%.
Исследователь желает оценить среднюю величину плотного остатка
с относительной погрешностью Ро,о5= 20%. Согласно формуле (8.20),
имеем к\ = 20 : 100 = 0,2. Так как в таблице К Приложения значение
162
^Bfai k\ < 0,37 отсутствует, то воспользуемся формулой (8.22); при-
ЩШ для а = 0,05 Г = 2,0, получим па = 2,02: о,22 = 100.
^Ири планировании объемов выборок не только значения ла, ис-
В^яемые десятками и сотнями, но и сравнительно небольшие, но
Высящиеся к трудоемким или дорогим анализам, нередко вызы-
Еде» разочарование у исследователей и , как следствие технической
Возможности проведения такого объема измерений, отказ от
^пользования статистических методов. Рассогласованность жела-
Арного объема выборок и практической возможности реализации
даого объема испытаний не столь уж редкое явление, но это отнюдь
|$ может служить основанием для отказа от статистического
подхода к анализу изучаемых явлений.
. При возникновении подобной ситуации прежде всего следует
лрознать, что в условиях существующей системы проведения испы-
фний (особенности объекта, элементов опробования, способов ана-
даза и пр.) достигнуть желаемой точности в оценке средних
невозможно. В целях сближения планируемой величины па и технически
выполняемой повторности можно пойти на увеличение задаваемой
погрешности или уровня значимости. Если это не даст должного
эффекта, то в итоге проведенного эксперимента с повторностью,
меньшей, чем это вытекает из результатов планирования, оценки
будут иметь весьма малую надежность, и скрывать это не следует.
Отказ от статистического анализа данных на том основании, что
требуемая повторность даже при согласии на большие погрешности
яри высоких уровнях значимости оказывается технически
неосуществимой, не может иметь оправданий. От того, что исследователь
не стал приводить статистические характеристики полученных
результатов, они точнее не будут, но сокрытие самого этого факта не
допустимо.
Если целью исследования является познание среднего уровня, то
для достижения заданной точности оценок средних можно не только
увеличивать число повторностей. В некоторых случаях этого можно
достигнуть , меняя форму, размер или способ отбора элементов
опробования (например, путём замены индивидуальных образцов
на смешанные).
8Л2- ПОГРЕШНОСТИ ОЦЕНКИ СРЕДНЕГО
И СМЕШАННЫЕ ОБРАЗЦЫ
Идея о замене анализа группы образцов анализом одного
смешанного образца была реализована почвоведами почти 100 лет
назад, хотя математического обоснования этой процедуры сделано яе;
163
было и в основе метода лежали чисто интуитивные представления о
механизмах снятия вариабельности, мешающей изучению среднего.
Сама по себе замена математического усреднения физическим
исходит из допущения о равноценности этих процедур. Такое
допущение в принципе правомерно лишь относительно свойств,
обладающих аддитивностью, например для валовых содержаний элементов
или веществ, плотности почвы и других, конечно, если протекание
анализа практически не зависит от особенностей состава или
организации анализируемых образцов. Для многих свойств, изучаемых
почвоведами, аддитивность может в большей или меньшей степени
нарушаться, и тогда физическое усреднение не может считаться
равнозначным математическому. Это относится к таким свойствам, как
рН, состав поглощенных катионов,
окислительно-восстановительные потенциалы, содержание подвижных элементов,
переходящих в ту или иную вытяжку, и пр. Все это требует осторожного
подхода к интерпретации полученных тем или иным способом данных,
имея в виду, что как результаты математического усреднения, так и
результаты анализа смешанных образцов, не совпадая по
значениям, характеризуют один и тот же объект исследования.
При условиях соблюдения аддитивности обычно считают, что в
соответствии с формулой E.23) дисперсия результатов анализа
смешанных образцов аBл), составленных из п индивидуальных, в п раз
меньше, чем дисперсия а2 результатов анализа индивидуальных
образцов:
о2(п)= —. (8.23)
Так как а^,) по своему смыслу аналогична ошибке среднего а7 и
характеризует погрешность в оценке среднего, то, располагая
некоторой априорной информацией о величине а, можно отыскать то
значение /*, при котором ау не превысит заданного значения. Из
формулы (8.23) следует, что, взяв соответствующее и, можно
получить сколь угодно малое значение ао,).
Однако в действительности дело обстоит сложнее, поскольку
величина а2, характеризующая вариацию значений результатов
анализа индивидуальных образцов, определяется не только
неодинаковостью значений изучаемого состава в отдельных образцах,
но и ошибками измерений. Эти ошибки, обычно называемые
аналитическими у нередко могут быть не только соизмеримыми с
неоднородностью элементов опробывания по изучаемому свойству,
но и существенно превышать природную вариабельность.
164
Достаточно часто можно считать, что случайные ошибки анали-
|ов независимы от природной неоднородности свойств в пределах
объекта. Тогда, используя в качестве меры вариации дисперсию,
подучим, что дисперсия результатов анализа индивидуальных образ-
2
цов а2 может быть представлена как сумма аналитической аан и
2
Природной а лр дисперсии:
o^G2aN+o2nv. (8.24)
Учитывая это, а также формулу E.24), заключаем, что по
результатам п измерений случайной величины X оценка среднего х
характеризуется ошибкой
с*в7ГЧ1~
а-+а^_ (8.25)
Если из п индивидуальных образцов приготовить один
смешанный, то при этом дисперсия результатов анализа окажется равной
л
o?rt=oi,+^2. (8.26)
п
поскольку процедура смешивания может влиять только на
природную дисперсию и тогда соответственно
L2 ^°"р (8-27>
JO ан
П
Сопоставляя формулы (8.25) и (8.27), легко убедиться,что
результаты математического и физического усреднения в принципе нельзя
считать равноценными по величине дисперсий, характеризующих
вариацию соответствующих значений. Во-первых, физическое
усреднение всегда дает большую дисперсию, нежели математическое
усреднение и тем большую, чем больший вес в общей дисперсии а2
приходится на аналитическую дисперсию <з\н. Во-вторых,
оказывается, что с помощью смешанных образцов дисперсию результатов
анализов нельзя сделать сколь угодно малой даже теоретически,
поскольку при w-юо, как это следует из формулы (8.27), ао,; не может
быть меньше аан.
Все рассмотренные в этом разделе соотношения между
дисперсиями можно отнести и к их оценкам.
Так, если в горизонте А1А2 дерново-подзолистой почвы
содержание MgO в индивидуальных образцах варьирует с дисперсией
*у2= 0,0215, а аналитическая дисперсия метода анализа оценивается
величиной s^ = 0,0204, то, как следует из рассмотрения формул (8.25)
/1*
165
и (8.27), если в них а заменить на л, использование смешанных
образцов для анализа содержания MgO лишено всякого смысла,
поскольку дисперсия результатов практически целиком определяется
аналитическими ошибками и не зависит от числа индивидуальных
образцов, из которых приготовляются смешанные. Желательной
погрешности в оценке среднего здесь можно добиться с помощью
анализа соответствующего числа индивидуальных образцов.
Иначе обстоит дело с анализом содержания в ?ом же горизонте
валового железа, поскольку при аналитической дисперсии
содержания РегОз, равной s^ = 0,00154, общее варьирование результатов при
анализе индивидуальных образцов оценивается как s2- 0,022, т.е. на
порядок более высокой величиной. Очевидно, в варьировании
результатов явно доминирующую роль здесь играет пространственная
неоднородность объекта, а это значит, что здесь смешанные
образцы могут быть весьма полезны.
8.13. ОЦЕНКА ИНТЕРВАЛА ВОЗМОЖНЫХ
ЗНАЧЕНИЙ ПРИЗНАКА
В ряде случаев наряду со среднем уровнем немалый интерес
может представлять информация о возможных отдельных значениях
случайной величины. Например, далеко не всегда сведения о среднем
содержании в почвах некоторого поля элементов питания могут
служить достаточным основанием для суждения об обеспеченности
отдельных растений этими элементами питания. По тем же
соображениям слабым утешением может служить вывод о непревышении
среднего содержания в почве некоторого пестицида ПДК (предельно
допустимой концентрации), если потребитель сельскохозяйственной
продукции использует для питания конкретное растение.
По выборочным данным информацию о возможных пределах
колебаний случайной величины дают лимиты, которые во всех
возможных случаях целесообразно приводить с соответствующим
предметным анализом и интерпретацией. Однако лимиты, как мы
отмечали, зависят от объема выборки и это существенно затрудняет
их использование в качестве показателей возможных пределов
колебаний признака.
Наиболее удобным оказывается способ оценки интервала
возможных колебаний для заданного уровня значимости а (или
доверительной вероятности Р = 1 - а). Такой способ может быть
реализован, если закон распределения изучаемой случайной величины
известен. В том случае, когда случайная величина X распределена
нормально (или достаточно близко к этому), доверительный
166
интервал значений ха для заданного уровня значимости а при
объеме выборки п можно найти по формуле
(гнЛ
xa = x±tasj , (8.28)
где ta соответствует v = п - 1.
Так, если среднее содержание в почве Р2О5 (мг/100г) составляет
х = 10,0 и s - 2,0, то при п = 10 и а = 0,05 получаем
_x0f05 =10,0±2,2б.2,0у^- =E,1 + 14,9).
Это означает, что в отдельных объемах почвы, равных объему
отбиравшихся образцов в пределах изучаемого поля, в 95% случаев
содержание Р2О5 может колебаться от 5,1 до 14,9 мг/100г.
Когда случайная величина X распределена логнормально или по
кривым распределения Джонсона, используя формулу (8.28), можно
найти интервальную оценку значений для соответствующих
логарифмических функций от случайной величины X, а затем обратным
преобразованием найти доверительные интервалы и для значений х.
Например, если считать, что распределение содержания X
гербицида симазина в почве неплохо аппроксимируется логнормальным
законом, причем известны / =-1,40 и £/=0,30, то при п = 16, при
а = 0,05 получим
/005 = l±t^5s^^ = -1,4012,13-0,30^ = (-2,06 + -0,74), откуда
хс,05=:@,13 + 0,48).
Очевидно, что исследователя не всегда могут в равной степени
интересовать обе границы значений случайной величины. Так, если
среднее содержание гербицида не превышает ПДК, то нижняя
граница не представляет интереса, чего нельзя сказать о верхней
границе. В таких случаях можно ограничиться вычислением
гарантированных (с уровнем значимости а) минимальных (min(x)a) или
максимальных (max(jc)a) значений случайной величины:
min(x)a = i- t2asJ^- (8.29)
max(jc)a =x+r2a^J (8.30)
Причины, по которым в таких случаях f-Стьюдента берется дГв*
уровня значимости 2а, рассматривались нами ранее (см. § 8.8) ^
167
8.14. ГРАНИЦЫ ТИПИЧНЫХ ЗНАЧЕНИЙ
Понятие о типичном обычно связывается с близостью к среднему
или с наиболее частой встречаемостью. В этом смысле говорят о
типичных разрезах, профильных кривых, значениях свойств. Однако
чисто интуитивное представление о типичном там, где это возможно
желательно сделать более строго определенным. Очевидно,Дго
критерии, позволяющие отделить типичное от нетипичного, могут быть
выработаны только на договорной основе и по сути своей должны
иметь вероятностную основу. Наиболее часто за типичные
принимаются значения, которым соответствует наибольшая вероятность
(плотность вероятности) в пределах интервала, содержащего 50%
объема генеральной совокупности. Для нормально распределенных
(или достаточно близких к этому) случайных величин типичными
значениями при этом являются значения, укладывающиеся в 50%-й
доверительный интервал (т.е. для а=0,5). Граничные значения ха (см.
формулу (8.28)) при ос=0,5 можно назвать границами типичности,
которые в случае нормального распределения определяют по формуле
Г/нТ
*о,5 -*±ro,5^ п > (8.31)
где Го,5 соответствует а = п - 1.
Подобный подход к оценке интервала типичных значений
допустим при не слишком больших отличиях распределений от
нормального. Это условие соблюдается, по-видимому, гораздо реже, чем
может показаться, и, что очень существенно, с увеличением объема
выборки ситуация не имеет тенденции к улучшению как при
определении интервала' возможных значений признака вообще, так и при
определении границ типичных значений в частности. Этим оценка
доверительного интервала значений признака принципиально
отличается от нахождения доверительного интервала среднего, когда с
ростом объема выборки распределение оценок асимптотически
стремится к нормальному. Это определяет допустимость и
целесообразность некоторых упрощений при вычислении типичных значе-
/л+Т
ний. Так, замечая, что с ростом п произведение r05J в правой
части формулы (8.31) достаточно быстро стабилизируется и при
п > 8 изменяется в пределах от 0,74 (п = 9) до 0,67 (w-юо) , можно
принять это произведение округленно равным 0,7 и тогда (при п > 8)
получим
хо,5= x±OJs. (8.32)
При 5 й п < 8 сомножитель при s допустимо принять равным 0,8,
а при /1 = 3 или п = 4 - равным 0,9.
168
8.15. АНАЛИЗ КВАНТИЛЕЙ
Анализ квантилей и лимитов может оказаться весьма полезным
док ДОЯ интерпретации особенностей изучаемой случайной
величины, так и для понимания результатов других статистических
вычислений.
Поскольку в качестве некоторого стандарта при изучении
распределений очень часто используется нормальное распределение,
полезно заметить, что для нормально распределенной случайной
величины нижний и верхний квантили симметрично отстоят от
медианы (и среднего арифметического) в меньшую и большую сторону.
Абсолютное отклонение крайних квартилей от медианы,
выраженное через стандартное отклонение, равно 0,674а. Поэтому меж-
квартильный размах Rq ( см. формулу E.9)) равен 1,348а, и это
может быть использовано для оценки стандарта по размаху:
S* = 1348 = °'742(*(°'75) " *(°'25)) * (8.33)
Симметричные относительно медианы квантили Хф,\5) и л:(о,85) при
нормальном распределении отстоят от медианы на 1,036а, а
следовательно, отклонения л:(о,50) -*(о,15) = Х(о,85) - *(о,50) по своему
значению примерно в 1,5 раза больше, чем отклонения от медианы
нижнего и верхнего квартилей:
*@,50) ~ *@,15) _ *@,85) ~ *@,30) _ *@,85) ~ *@,15)= j 54 /g 34)
Х(с\ sm "" Х(с\ ?<rt Х(п т*\ — Х/(\ <л\ Х(о 7« — Х/{
40,50) ~А@,25) А@,75) ~л@,50) л@,75) ~" л@,25)
Междецильный размах Х(о,90) - jc(o,io> оказывается почти в 2 раза
больше межквартильного размаха:
*@,50) ~ Х@,Ю) ^(О^О) ~ *@,50) *@,90) ~ X@,10)
= 1,90. (8.35)
Х@,50) ~ Х@,25) х@,75) "" *@,50) X{<bjb) ~ *@,25)
Отмеченные выше особенности квантилей при нормальном
распределении достаточны для анализа квантилей выборочного
распределения с учетом того, что асимметрия проявляется в различии
отклонений у- и A- у) - квантилей от медианы, а эксцессивность - в
отклонении значений отношений от приведенных в выражениях
(8.34) - (8.35) в большую сторону при положительной эксцессив-
ности и в меньшую при отрицательной.
Пусть, например, валовое содержание (в %) SiCh в горизонте АгВ
дерново-подзолистой почвы характеризуется следующими
квантилями: Х(о,ю)= 75,8; Jt(o,25)= 80,4; JC(o,50)= 81,6; Х(о,75)= 82,6; Х(о,90)= 84,2.
Заметим, что нижний квартиль меньше медианы почти на столько же,
насколько верхний квартиль больше нее, что свидетельствует о
неплохой симметричности распределения в центре.
169
Если доля у <0,5, то отношение разности отклонений у- и A-у)-
квантилей от медианы .V(o,50) к сумме этих отклонений может служить
показателем асимметричности распределения:
[~VA-Y) ^*@,50)]-[*@,50) ~Х(у)\ ХA_у) +Ху -2Х(,
40,50)
[Х(\-у) ~*@t50)| + [x@,50) ~X(y)J Л"A-У) ХУ
(8.36)
Если верхние квантили [jt(i-v)] отклоняются от медианы на
большую величину, чем нижние [х(у)], то ау принимает положительные
значения, что соответствует положительной асимметрии. При ином
соотношении отклонений асимметрия отрицательна. В случае
симметричности распределения яу = 0.
В данном примере при у=0,25 получаем
82,6 + 80,4-2-81,6 nnQ
82,6-80,4
Об асимметрии можно судить и по более простому показателю
. Х(\-У) ~Х@,50) ~ -„
а'у= , E.3/)
^((UO) ~ху
принимающему значения, равные 1, для симметричных
распределений, а у< 1 при отрицательной асимметрии и а у> 1 при
положительной.
В данном примере при у=0,25 имеем
82,6-81,6
а о,25= =0,83.
81,6-80,4
Показатели ау и а у между собой связаны зависимостью
а' -1
ау=-1 (8.38)
Y n;+i
и содержат по сути дела одну и ту же информацию об асимметрии
распределения, однако по соображениям удобства интерпретации
более предпочтительным можно считать показатель ау.
Итак, крайние квартили рассматриваемого распределения весьма
симметрично расположены относительно центра.
Если теперь сопоставить крайние децили, то мы обнаружим, что
отклонение нижнего дециля от медианы существенно больше, чем
верхнего: Х(о,50) - лг<о,ю) = 81,6 - 75,8 = 5,8 и Х(ощ - Х(о,50) = 84,2 - 81,6 =
= 2,6. Это является свидетельством асимметричности распределения
в области значений, ограниченных крайними децилями, что
подтверждается ростом значений коэффициента асимметрии:
170
84,2-81,6 ... , /оооч
jm\o) = — — = 0,45; согласно формуле (8.38) имеем
81,6 — 75,8
^•10)-0,45 + Г °'Ж
Как видим, в изучаемом распределении асимметричность
обнаруживается лишь в распределении крайних значений, но не в центре.
Изучаемое распределение проявляет не только отрицательную
асимметричность, но и положительную эксцессивность, о чем
свидетельствует отношение межквантильного размаха для у = 0,10 и
A-у) = 0,90 к межквартильному размаху, в 2 раза превышающее зна~
in/ л. /о осчч х(о,9)~~х(о,1) 84,2-75,8
чение 1,9 (см. формулу (8.35)): —^—к—±- = ~- - 3,8.
х@,75) ~ *@,25) *>2,0 ™ 80,4
Эксцессивность особенно заметно оказывается связанной с левой
ветвью распределения (со значениями, меньшими медианного), где
@'5)—^- = 4,8 в то время как аналогичное отношение для правой
*@,5)-"х@,25)
части распределения равно 2,6, что гораздо меньше отличается от
значения 1,9, присущего нормальному распределению.
Очевидно, изучаемое распределение содержания 8Юг в горизонте
АгВ является следствием отсутствия в ограниченной части объема
горизонта АгВ элювиальных процессов и (или) наличия в этой части
иллювиальных процессов. Существенное снижение содержания SiCh
в этой части объема и приводит к возникновению отрицательной
асимметрии и положительного эксцесса.
Квантильный анализ позволяет выяснить тонкие особенности
поведения значений случайной величины, за счет каких групп
значений возникают отличия от нормального распределения и пр. Так, с
помощью квантильного анализа в распределениях, нормальность
которых не отвергается критерием хи-квадрат, но имеющих
статистически значимую асимметрию, обычно устанавливается, что
центральная часть в таких распределениях действительно ведет себя как
нормально распределенная (распределение этой части и оценивается
на основании критерия хи-квадрат), и лишь один или оба крайних
дециля (или лг(о,о5), *<о,95), лимиты) проявляют слишком большие
отличия от медианы. Эти большие отклонения от центра и определяют
появление высоких коэффициентов асимметрии. Анализ поведения
квантилей и лимитов часто оказывается очень полезным для
понимания поведения изучаемого свойства и механизмов влияния
факторов, его определяющих.
171
8.16. АНАЛИЗ СОВОКУПНОСТИ КАК СМЕСИ
ПОДСОВОКУПНОСТЕЙ
Единичная выборка, характеризующая объект исследования,
может оказаться предметом достаточно сложного анализа, в
особенности, если выборка имеет большой объем, а в распределении
обнаруживаются те или иные отличия от нормального.
Наличие асимметрии или эксцесса, а тем более хорошо
выраженной полимодальности достаточно часто можно рассматривать
как результат смешения двух или большего числа подсовокупностей,
имеющих в чем-то различные параметры распределения.
Естественным желанием в таких ситуациях бывает нахождение оценок
параметров подсовокупностей и соотношения их объемов, что может
оказаться интересным как с точки зрения изучения организации
свойства в пространстве объекта, так и для понимания механизмов
формирования дифференцированное™ объекта по изучаемому
свойству.
Наиболее простая модель, которой можно при этом
воспользоваться, основана на допущении, что генеральная
совокупность, представляет собой смесь двух подсовокупностей с
разными средними Ц1 и Ц2 и дисперсиями а,2 и а\ , которые могут
быть и одинаковыми.
Если моду суммарного распределения можно считать модой
одной из подсовокупностей, то при симметричности распределения в
последней оценка этой моды может служить оценкой
соответствующего среднего. Тогда относительно моды более короткую ветвь
распределения можно считат^ образованной половиной одной из
подсовокупностей, что позволяет оценить как ее дисперсию, так и объем
соответствующей ей подвыборки. Наконец, располагая наряду с
этими сведениями оценками среднего и дисперсиями для выборки в
целом, можно вычислить аналогичные оценки и для второй
подсовокупности, а по отношению объемов подвыборок составить
представление о долевом участии подсовокупностей в суммарной
совокупности.
Допустим, что после полива поля с некоторой глубины были
отобраны образцы на влажность почвы (п = 100). Сведенные в
вариационный ряд с шириной класса с = 1,0% результаты определения
влажности оказались следующими:
Xj 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
fj 14 13 24 14 6456873311
172
Статистический анализ показал, что среднее х= 11,33
приходится на класс с серединой 11%, частота которого fj- 6 далеко не самая
высокая. Она в 4 раза меньше частоты модального класса с
серединой 9%. Так как s2= 10,47 и 5= 3,31 (сумма квадратов центральных
отклонений С- 1086,11 при v = 99), то отклонение среднего от
модального класса достаточно велико и свидетельствует о наличии
асимметрии. Действительно коэффициент асимметрии А =0,75 при
^=0,24 позволяет утверждать, что распределение влажности
положительно асимметрично. Из рассмотрения приведенного выше
вариационного ряда следует, что распределение влажности не только
положительно асимметрично, но и двумодально, хотя вторая мода в
области класса с xj = 15% выражена не слишком отчетливо.
Аппроксимация изучаемого распределения нормальным законом здесь
явно неудачна (рис. 8.1).
fjjj
2СН
15 i
Ю i
5Н
О
Можно допустить, что
отмеченные особенности в
распределении влажности
почвы являются следствием
того, что в результате
полива на изучаемой глубине
почва не везде оказалась
увлажненной. При этом в
выборке были представлены
две подсовокупности
значений влажности: не
измененные поливом (исходные) и
измененные им. Тогда
первым из них должна
соответствовать левая часть ряда
распределения, а второй -
правая. Учитывая, что в рассматриваемом примере наиболее
отчетливо выражена мода в левой части распределения, и допуская,
что эту моду можно рассматривать в качестве моды среднего первой
подсовокупности, в качестве оценки *, и moi по формуле E.1)
получим:
24-13
6 8 10 12 14 16 18 Xj
Рис.8.1. Эмпирическое A) и теоретическое B)
распределения частот по классам влажности
почвы (х) при их аппроксимации нормальным
законом с \л - 11,33% и а = 3,31%
3c-, = moi = 8,5 +1,0-
= 9,02.
2-24-A3 + 14)
Если все значения х, которые меньше moi, относятся к первой
подсовокупности, то при симметричности этого распределения
объем т подвыборки, соответствующей этой подсовокупности, равен
удвоенному числу значений х, меньших moi. Величину т в этом
173
случае можно найти по формуле (прибегая к линейному
интерполированию внутри модального класса):
"i=2(L/;^(-)J, (8.39)
где индекс т - номер модального класса, a fmt\ - частота в
пределах модального класса, соответствующая значениям, меньшим
модального, и определяемая из выражения
то- Хт-\
/*->=/(■.)—7-^ <8-40>
ИЛИ
fm(-)=fm Р,5 +
то-хи
(8.41)
Подставляя в формулы (8.39), (8.41) известные значения частот,
моды, середины модального класса хт и классового промежутка с,
9,02-9,0^
получим пх = 2
1 + 4 + 13 + +24 0,5 +
L0
= 61.
Очевидно, что если п = 100 и ал = 61, то П2=п-т= 100 -61 =39.
Из формулы E.14) можно установить, чему равно среднее х2 для
второй подвыборки, если известны общее среднее х и объем
выборки и, среднее одной подвыборки хх и объемы т и т обеих подвыбо-
рок:
_ хп-ххпх
х2 =—:—-
(8.42)
Подставляя в эту формулу необходимые данные, находим
11,33100-9,02-61
39
= 14,94.
Удваивая сумму квадратов центральных отклонений в левой
ветви распределения, можно найти сумму квадратов центральных
отклонений для первой подсовокупности:
с,=2^/)(х,-*«) +/*_)(*„-i,^ I (8'43)
Подставляя конкретные значения, получим
С, = 2Щ6.0 -9,02J + 4G,0 -9,02J + 13(8,0 - 9,02)* + 12,5(9,0 -9,02)^]=
= 77,94.
Прии1=61 имеем v=60n^f =1,30, т.е. я=1,14.
174
Учитывая связь между оценками дисперсий подсовокупностей и
дисперсией суммарной совокупности (см. формулу E.15)), легко
установить, что, располагая сведениями о средних, суммах
квадратов отклонений и объемах суммарной выборки и одной из подвыбо-
рок, можно найти сумму квадратов центральных отклонений Сг для
второй подвыборки, а затем и интересующую нас оценку
соответствующей дисперсии s2:
<- -\2
С,=С-СХ —
ПП\
(*!-*)
(8.44)
п-щ
(напомним, что значения без индекса соответствуют суммарной
совокупности).
Получаем
С2 =1086,11-77,94-
100.61(9,02-11,33J
= 174,42;
100-61
так как И2=39 и v = 38,тояг2=4,59, т.е. ^2=2,14.
По найденным оценкам параметров двух подсовокупностей
можно вычислить выравнивающие частоты для отдельных классов
значений влажности и проверить пригодность аппроксимации
нормальным законом распреде-
20Н
15Н
101
о
лений в подсовокупностях
(рис. 8.2).
Проведенный анализ
совокупности как суммы двух
подсовокупностей,
по-видимому, оказался успешным.
Из этого анализа следует,
что на изучаемой глубине в
61% объема почвы (в 61
случае из 100) после полива
влажность не изменилась, в
среднем имея хх = 9,0% при
s\ =1,14%. В 39% объема
почва была увлажнена до
Зс2= 14,9% приs2= 2,24%.
В рассматриваемом
примере вычисления оценок параметров подсовокупностей начинались с
подсовокупности, имеющей наименьшие значения. Если же более
выраженной оказывается правая мода, т.е. мода с более высоким
значением, то вычисления следует начинать с поиска оценок
параметров подсовокупности, формирующих правую часть суммарного
распределения. Техника этих вычислений в принципе не отличается
от рассмотренной выше, необходимо лишь учитывать, что
8 10 12 14 16 18 xj
Рис.8.2. Эмпирическое A) и теоретическое B)
распределения частот по классам влажности
почвы (х) при их аппроксимации нормальным
законом двух подсовокупностей
175
информацию о параметрах распределений подсовокупности мы
получаем по правой ветви распределения, содержащей наибольшие
значения изучаемой случайной величины. С учетом этого формулы
(8.39)—(8.41) должны иметь следующий вид (индекс " для
подсовокупности с наибольшими значениями сохраняется):
«2 =2(S/}+/«+)). (8-45)
х т - то
Лм»/--3 . (8-46>
с
U+)=fm{0M^^), (8-47)
где к - число классов, a fm/+\ - частота в пределах модального
класса, соответствующая значениям, превышающим моду.
Соответственно формула (8.43) при этом имеет вид
I ;'»m+l \ / J
(8.48)
а в формулах (8.42) и (8.44) индексы "Г и " следует поменять
местами.
На этом анализ данных по влажности почвы можно было бы и
закончить, однако на материалах данного примера можно
рассмотреть и возможные пути его продолжения. Заметим, что
подсовокупность увлажненных образцов почвы возникла в результате
повышения некоторой исходной влажности почвы. Если допустить,
что эта исходная влажность имела те же параметры распределения,
какими обладает первая из взятых подсовокупностей, т.е. случайная
величина х\, а возрастание влажности рассматривать как сложение с
величиной xi некоторой независимой от нее случайной величины Z,
ТО Х2=Х\ + Z.
В этом случае среднюю прибавку влажности почвы,
произошедшую в 39% объема изучаемого горизонта, можно оценить как
z = х2 - х{ = 14,94 - 9,02 = 5,92%.
Дисперсия этого прироста влажности в отдельных точках,
очевидно, может оцениваться по разности: s\-s\- s ,2 =
= 4,59- 1,30 = 3,29, откуда sz= 1,81.
Полученные результаты позволяют считать, что исходная
влажность почвы на рассматриваемой глубине, равная в среднем
xj = 9,02% при л =1,14%, в результате полива возрастает до
х= 11,33%, т.е. на 2,31%, но при этом в 3 раза (до ^ = 3,31)
увеличивается стандартное отклонение, характеризующее вариацию
влажности на этой глубине. Причиной столь неадекватной реакции
176
вариабельности на прирост влажности является то, что увлажнение
слоя происходит не сплошь, не повсеместно, а локально, по языкам
дромачивания. В области таких промочек, а они занимают по
найденным оценкам около 39% объема горизонта, влажность
возрастает в среднем на 5,92% со стандартным отклонением прибавки
влажности sz= 1,81, в результате чего стандартное отклонение влажности
в этих увлажненных зонах повышается до 52=2,14. Большая же
часть объема горизонта F1%) при этом своей влажности не
изменяет.
8.17. ОЦЕНКА ГРАНИЧНЫХ ЗНАЧЕНИЙ
МЕЖДУ ПОДСОВОКУПНОСТЯМИ
Продолжая анализ данных на примере с влажностью почвы,
заметим, что поскольку как и исходная влажность, так и ее прибавка
при увлажнении имеют большую неоднородность, то в условии
независимости этих случайных величин совсем не обязательно, чтобы
для увлажненной почвы значения влажности были более высокими,
чем для почвы, не увлажненной поливом. Это хорошо видно на рис.
8.2, где в некоторой области значения влажности почвы могут
принадлежать и той , и другой подсовокупностям.
Очевидно, что принадлежность отдельных значений к разным
подсовокупностям может быть далеко неравновероятной. Так,
влажность 6-7% едва ли можно отнести к подсовокупности,
соответствующей увлажненным образцам почвы, но в отношении значения
11 или 12% определенное суждение вынести очень трудно.
Тем не менее чисто статастически вопрос о том, какое
значение следует принять за граничное, разделяющее области
предпочтительной принадлежности к одной или другой
подсовокупности, может быть решен. Наиболее надежное нахождение
граничного значения хт возможно в том случае, когда смежные
подсовокупности имеют распределения, близкие к нормальным, а объемы
выборок насчитывают по меньшей мере десятки значений.
Существенную роль играет и относительная величина различий между
средними подсовокупностей.
Если в качестве критерия выбора граничного значения взять
равность ошибок первого рода при оценке принадлежности
значений к подсовокупностям, то граничное значение следует искать
как такое значение, которое обеспечивает равенство вероятностей:
Р(х\ > хт) = Р(Х2 < хт)> (8.49)
где XI и X2 - значения, принадлежащие первой и второй
подсовокупностям.
177
Граничное значение х\п допустимо рассматривать как значение,
в большую сторону от которого все значения принадлежат одной
подсовокупности, а в меньшую сторону - другой. Однако следует
иметь в виду, что при этом мы можем допустить ошибку, относя к
первой подсовокупности значения, принадлежащие ко второй, и
наоборот.
Если средние подсовокупностей равны jij и цг, причем jxi < ji2, то
вероятность упомянутой выше ошибки оценивается выражением
(8,49). Так как эта вероятность иногда может быть настолько
высокой, что пренебрегать ею было бы рисковано, то более правильно
рассматривать граничное значение как такое, по одну сторону от
которого более предпочтительно все значения рассматривать
принадлежащими одной случайной величине, а по другую сторону - к
другой случайной величине.
В техническом отношении нахождение граничного значения хт
можно осуществить, если с некоторыми допущениями условие (8.49)
заменить условием равенства абсолютных значений нормированных
отклонений jci/2 от средних разделяемых подсовокупностей1:
х1/2~*1 Х2~ХУ2
откуда
Х\ S-у • "^2*^1
412
sl +s2
(8.50)
(8.51)
Подставляя в (8.51) известные нам оценки, получим
WW + WW
1/2 1,14 + 2,14
Из приведенных вычислений следует, что в тех случаях, когда
влажность почвы не превышает 11,08%, ее предпочтительно
рассматривать как исходную, не испытавшую изменений в результате
полива, и наоборот.
Следует заметить, что изложенные выше приемы отыскания
граничных значений могут быть использованы отнюдь не только в
качестве одного из этапов анализа совокупности как смеси
подсовокупностей. Граничное значение можно вычислить и для
совокупностей, изучавшихся раздельно. Так, если в условиях Молдавии
карбонатные черноземы на глубине 30-40 см содержат в среднем *, = 2,83%
гумуса при si = 0,40% (m = 98), а обыкновенные черноземы на той же
1 Объёмы разделяемых подсовокупностей должны быть достаточно велики (и > 30) или
по меньшей мере практически одинаковы.
178
даубине имеют х2= 3,30% при л*2 = 0,51% (П2=117), то граничное зна-
2,83-0,51 + 3,30.0,40
иение окажется равным дг1/2 = : = 3,04%.
f^ F 1/2 0,40 + 0,51
Предпочтительность отнесейия черноземов к подтипу
карбонатных, если в них на соответствующей глубине содержится менее 3,04%
гумуса, и к обыкновенным, если гумуса окажется больше 3,04%, не
означает, что с помощью подобного критерия можно строго
однозначно разделять эти подтипы. Однако полезность подобного рода
оценок, например для целей диагностики почв, отрицать нельзя.
Последний из рассмотренных примеров, очевидно, относится уже
К случаю анализа двух совокупностей, чему будет полностью посвя-
-щена следующая глава.
8.18. АНАЛИЗ ДОЛЕЙ
Как и при анализе обычных средних, оценка доли и ее ошибка
представляют интерес вследствие того, что наряду с точечной
' оценкой имеется возможность найти доверительный интервал
для доли, а если нужно, то и ее гарантированные максимум или
минимум. Однако, будучи средним, доля обладает известными
особенностями, определяющими специфику некоторых подходов при
решении подобных задач.
Для их иллюстрации рассмотрим пример, в котором требуется
определить долю площадей, приходящихся на солонцы, в пределах
некоторого хозяйства. Основой для такой оценки служит
почвенная карта, а способ определения доли заключается в подсчете
числа точек, приходящихся в целом на все хозяйство (и) и в том
числе выпадающих на солонцы (f+). Этот способ определения доли
поверхности основан на допущении, что любая точка на карте
имеет равную вероятность быть опробованной, а положение точек
опробования в полной мере определяется игрой случая. Реально
процедуру подсчета ии/+ можно осуществлять, многократно
накладывая произвольным образом на анализируемую карту
разреженную сетку равномерно распределенных точек (например,
чтобы на всю площадь приходилось не более 100 точек). Смещая
случайным образом сетку и подсчитывая каждый раз общее число
точек и число точек, приходящихся на солонцы, получим суммарные
значения йи/+, которые позволяют оценить как долю поверхности
р, так и ее ошибку sp. Если из общего числа точек и=1038 на
солонцы выпало /^=321, то доля солонцов от общей площади
179
321
характеризуемой территории составляет/?= =0,309. Ошибка
л, ^«ч /0,309.0,691 ЛЛ1.
доли, согласно формуле E.53), есть sp = J— - =0,014.
Абсолютная погрешность оценки доли определяется обычным
образом по формуле (8.6) и для а=0.05 при v « oo (f0 05 = 1,96 )
получим А0 05 = 1,96-0,014 = 0,027 . Итак, точечная оценка доли площади
под солонцами равна 30,9% при погрешности 2,7% в ту или иную
сторону (риск большей погрешности, чем 2,7%, составляет 5%).
Это означает, что доверительный интервал для дода, вычисляемый
по формуле
fa=p±taspf (8.52)
аналогичной (8.8), таков:
Ими = °>309 ± 1,96 -0,014 = @,282+0,336).
Подобного рода оценки представляют интерес при общей
характеристике почвенного покрова, и тогда аналогичные оценки
можно получить и для других почв. Для этого при каждом
подсчете точек можно сразу вести дифференцированно учет числа
точек, приходящихся на разные почвы, выделенные на карте.
Как и в случае анализа обычных средних, по тем или иным
соображениям исследователя может интересовать лишь одна из
границ; тогда можно вычислить гарантированный минимум min(p)a
или гарантированный максимум тах(р)а доли с уровнем
значимости а:
mm(p)a=p-t2as, (8.53)
max(p)a= P+t2a s. (8.54)
Например, для характеристики почвенного покрова изучаемой
территории как объекта сельскохозяйственного использования или
предполагаемой мелиорации особый интерес может представлять
максимум возможной доли поверхности под солонцами, что
позволит оценить как максимальные возможные потери
сельскохозяйственной продукции, так и максимальные затраты на
мелиорацию таких почв. В рассматриваемом примере с риском
ошибиться в 5% случаев доля солонцов не должна превышать
тах(р)о,о5=0,309+1,64-0,0144=0,333 ,
т.е. 33,3% общей площади территории.
Как следует из формул (8.52) - (8.54) , вычисление
доверительных границ и гарантированных максимумов и минимумов доли
основано на допущении о нормальности распределения оценок
доли р. Такое допущение тем лучше оправдывается, чем ближе
180
доля Р к 0,5 и чем больше п. Когда доля Р оказывается слишком
малой или наоборот слишком большой, распределение оценок
доли р становится отличным от нормального, особенно при
небольших объемах выборок (сказывается то, что величина доли
может принимать значения лишь в интервале от нуля до
единицы). В результате этого использование формул (8.52) - (8.54) для
нахождения доверительных границ и гарантированных минимума
и максимума доли оказывается мало пригодным.
Как показал Фишер, это положение можно легко исправить,
если воспользоваться так называемым ^-преобразованием. Если долю
р представить в виде квадрата синуса некоторого угла ср/2, т.е.
• 2 Ф
/> = sin ~, (8.55)
то
<p = 2arcsin^/p. (8 56)
Заменяя распределение долей р распределением углов ср,
получим распределение, близкое к нормальному, с дисперсией а^,
зависящей только от объема выборки п. Если углы измерять в
радианах, то
а1=~ (8.57)
и ошибка репрезентативности при оценке генерального значения
угла, соответствующего доле Р, по углу ф, соответствующему
оценке доли/?, составит
1
*=-Г- • (8.58)
Располагая сведениями о ф и об объеме выборки и, можно
получить интервальную оценку для генерального значения угла:
а при необходимости гарантированные минимум min(^) или
максимум тах(^>) угла с уровнем значимости а:
тт(<р)а=<р^ , (8.60)
m*x(<p)a = <p+!f* . (8.61)
181
Для упрощения вычислений значения ср, соответствующие
разным значениям р, могут быть табулированы (см. табл. XVH
Приложения).
С помощью обратного преобразования, согласно формуле
(8.55), или воспользовавшись табл.ХУЦ можно перейти от углов к
долям и из результатов вычислений углов по формулам (8.59) -(8.61)
найти доверительные границы доли, их гарантированный
максимум или минимум.
Так, если при обследовании некоторого поля среди и= 100
скважин в /+ =7 случаях глубина промачивания после полива
превышала 1 м, то оценка доли поверхности с глубиной
промачивания свыше 1м есть р=7:100=0,07. Для интервальной
оценки доли Р воспользуемся ср-преобразованием.
Из табл.ХУИ найдем, что доле /?=0,07 соответствует ф=0,536.
Если нас удовлетворяет уровень значимости <х=0,05, то (при v=99
имеем г 0 05 = 1,98)
1 QQ
^0 05 = 0,536 ± -~= = 0,536 ± 0,198 = @,338 * 0,734).
VlOO
Согласно той же табл.ХУИ можно обнаружить, что полученным
доверительным границам угла соответствуют следующие границы
доли: /?005 = @,028-5-0,129). Таким образом, с вероятностью Р=0,95
(или с риском ошибиться а=5%) можно утверждать, что доля
поверхности поля, на которой глубина промачивания после полива
превышает 1м, составляет от 2,8% до 12,9%.
Вопросы для самоконтроля.
1. Что собой представляет выбраковка как статистическая
задача?
2. Можно ли по коэффициенту вариации судить о нормальности
распределения?
3. Что может быть причиной асимметричности или эксцессив-
ности распределений?
4. Можно ли по отсутствию асимметрии и эксцесса судить о
нормальности распределения и наоборот?
5. В чем различия критериев Уилка-Шапиро и хи-квадрат,
используемых для проверки нормальности распределений?
6. Какие частоты называются теоретическими и каковы общие
принципы их вычисления?
182
7. Что показывает абсолютная погрешность оценки среднего и от
чего она зависит?
8. Какие оценки называются интервальными и что они
показывают?
9. В чем различие показателя точности опыта и показателя
относительной вероятной погрешности?
10. Что показывает гарантированный максимум (минимум)
среднего и когда его следует вычислять?
11. Какие гипотезы составляют при сравнении средних с
постоянными величинами и какими могут быть критерии их проверки?
12. Какие принципы лежат в основе методов исчисления
достаточных объемов выборок?
13. В чем сходство и различие математического усреднения
результатов анализа индивидуальных образцов почвы и физического
усреднения при анализе одного смешанного образца,
приготовленного из тех же индивидуальных образцов?
14. Что общего и в чем отличие интервальной оценки среднего и
оценки интервала возможных значений случайной величины?
15. Какие значения можно считать типичными?
16. Как в значениях квантилей обнаруживает себя асимметрия
распределений?
17. Какие особенности распределений находят отражение в
поведении квантилей?
18. К чему сводится анализ совокупности, когда ее можно
рассматривать как сумму двух подсовокупностей?
19. Какие соображения лежат в основе методов нахождения
граничных значений между подсовокупностями?
20. Как дать интервальную оценку доли и ее гарантированный
максимум (минимум)?
21. Почему при близости доли к 0 или 1 приходится прибегать к
ф-преобразованию?
Глава 9
АНАЛИЗ ГРУППЫ ВЫБОРОК
9.1. ОБЩИЕ ОСОБЕННОСТИ АНАЛИЗА
Наиболее часто исследователи, проводя наблюдения, ставят
своей целью не характеристику какого-либо объекта самого по себе,
а выясняют наличие сходства или различия между объектами,
проявление динамики какого-либо свойства во времени, влияние
некоторого фактора на то или иное свойство. Почти всегда в таких
случаях наиболее интересующие исследователя вопросы сводятся к
выяснению того, различаются ли объекты по средним показателям,
меняются ли во времени средние значения, приводит ли воздействие
(известкование, орошение и прочее) к изменению средних значений
свойств (рН, урожайности, засоленности и пр.). Сравнительно редко
подобные вопросы возникают относительно дисперсий,
коэффициентов вариации, асимметрии и других особенностей случайных
величин.
В статистическом отношении решение многих задач подобного
характера можно свести к проверке нулевой гипотезы об отсутствии
различий между сравниваемыми константами (распределениями)
при различных альтернативах, из которых чаще всего берется
гипотеза о наличии каких-то различий.
Поскольку методы сравнения средних зависят от того, допустимо
ли дисперсии считать одинаковыми или нет, начнем с анализа
однородности дисперсий.
9.2. СРАВНЕНИЕ ДВУХ ДИСПЕРСИЙ
Если по двум выборкам получены оценки s \ и s \ дисперсий а \
и а 2 , то нулевую гипотезу Но: а \ = а \ (гипотезу об однородности
дисперсий) против альтернативной Я7: а2 ф<з\ обычно проверяют с
помощью статистики F. В полной мере корректна такая проверка
при условии нормальности обоих распределений, однако, как
показывает практика, использование статистики при неизвестных
законах распределений сравниваемых случайных величин использование
F-распределения для проверки однородности дисперсий не дает
существенных ошибок.
Для сравнения дисперсий вычисляют отношение большей оценки
дисперсии к меньшей (s * > s \ ):
184
F = s\/s\. (9.1)
Если Fa есть критическое значение F, найденное по табл. V
Приложения для заданного а и числа степеней свободы vi и V2, с
которыми получены оценки s] и s\ , то при F >Fa нулевую гипотезу
отвергают (с риском ошибки а) и считают, что дисперсии а \ и а\ не
равны. При F < Fa гипотеза об однородности остается в силе, что
позволяет при необходимости вычислить усредненную оценку
дисперсии согласно формуле E.16) с числом степеней свободы v = vi + V2.
- Однородность стандартных отклонений оценивается путем
проверки однородности дисперсий.
Так, если при изучении влажности почвы на двух участках было
получено ^i = 2,16 при п\ = 5 для одного участка и si = 1,37 при т = 4
для другого, то проверка однородности стандартов (Но : ai = 02)
осуществляется с помощью проверки однородности дисперсий (Но :
а* =о22). Так как F = 2,1 б2: 1,372 = 2,5, что меньше Fo.os = 9,1 (при
vi = 5 - 1 = 4 и V2= 4 -1 = 3), то нет оснований считать, что
дисперсии (а соответственно и стандартные отклонения) влажности на
сравниваемых участках различны.
9.3. СРАВНЕНИЕ БОЛЕЕ ЧЕМ ДВУХ ДИСПЕРСИЙ
Если число сравниваемых дисперсий больше двух, то имеется
возможность подбора разных пар оценок дисперсий для нахождения
их отношений. Использование в подобных случаях критерия,
основанного на F-распределении, приводит к завышению значимости
различий, причем оно тем больше, чем больше выборок
сравниваются друг с другом. В связи с этим проверку однородности
дисперсий, когда число оценок более двух, осуществляют с помощью
специальных статистик.
В том случае, когда совокупности имеют распределение, близкое
к нормальному, и все оценки дисперсий найдены с одинаковым
числом степеней свободы v, можно использовать критерий, основанный
на отношении максимальной оценки дисперсии к минимальной:
Fmax=.92maxA2min. (9.2)
Если Fmax > Fmaxia, где Fraax;a - табулированные критические
значения Fmax в зависимости от v и числа к сравниваемых оценок
дисперсий (см. табл. X Приложения), то дисперсии считаются
неоднородными, т.е. отдельные оценки дисперсий являются оценками по
меньшей мере двух разных дисперсий.
Пусть, например, на некоторой глубине в исследуемой почве в
последовательные к =10 сроков наблюдений варьирование
185
влажности, определенной с одинаковой по всем срокам повторно-
стью п = 5, оценивается следующими значениями /•: 1,69; 0,36; 1,44;
3,61; 2,56; 10,24; 17,64; 7,84; 0,90; 0,16. Тогда, учитывая, что
^max = WM и ^in = 0,16, находим Fmax = 17,64 : 0,16 = ПО. Соглас-
но табл. X, при v=5-l=4Hg = fc=iO получим Fmax:o,o5 = 44,6 .
Поскольку Fmax = 110 > Fmax,o,o5 = 44,6, следует признать, что дисперсия
влажности в разные сроки наблюдений не может считаться
неизменной.
Можно воспользоваться интересным приемом, представляющим
попарное сравнение всех дисперсий. Наиболее просто и сравнение, и
отображение его результатов осуществляется методом Ньюмена -
Койльса, согласно которому все к оценок дисперсий s 2 располагают
в ранжированный ряд от наименьшей s*2 до наибольшей s*k2.
Сначала оценки дисперсий сравнивают с s*1, начиная с наибольшей.
Если Fmax = sj2 : s*2 </w,a при g = А:, то нулевую гипотезу об одно
родности дисперсий не отвергают и на этом сравнение дисперсий
заканчивают. Если же iw > Ртгх^Сддя v и g = А:), то различия между
дисперсиями о*2 и а£2 расценивают как значимые и приступают к
СраВНеНИЮ ОЦеНОК S*2 И ^-1 СОПОСТаВЛеНИеМ Fmax = S^/S*1 С Fmax;a
для числа степеней свободы v и числа сравниваемых дисперсий
g = к - 1. ПрИ Fmax < Fmax;a(v,k-1) BCe ДИСПерСИИ ОТ а*2 ДО СГ^ ВКЛЮЧИ-
тельно считают одинаковыми и дальнейшее сравнение оценок с s*2
прекращают. При Fmax > Fmax:a(Kk-i) считают, что а*2 ^сг^2_, и
приступают к сравнению s*£_2 с .у*2, отношение которых сравнивают с
Fmax а для числа степеней свободы v и числа сравниваемых оценок
g = к - 2. Такое сопоставление, если нужно, производят для всех пар
оценок дисперсий.
При значимости этих различий с s*2 затем сравнивают s^ и
т.д., до тех пор, пока различия не окажутся незначимыми. Тогда
берутся за сравнение оценок, начиная опять с большей, с^2 , затем с
sf и т.д. Если номера оценок сравниваемых дисперсий в
ранжированной последовательности равны / и w, причем
1 <т, то для отношения Fmax= s *2/s*1 критическое значение Fraax;a
берут для g = т -1 + 1.
Подчеркивая в ранжированной последовательности незначимо
различающиеся оценки дисперсий и лежащие между ними оценки
186
Вкой сплошной линией, можно получить простую форму представ-
Квкя результатов такого анализа.
ВТ так, приведенные выше к = 10 оценок дисперсий влажности после
ранжировки дают следующий ряд s*2 : 0,16; 0,36; 0,90; 1,44; 1,69;
Р&56; 3,61; 7,84; 10,24; 17,64 . Сопоставляя s*2 последовательно с
*•$» 592 и тд#' наВДем fr»ax = 17,64 : 0,16 = ПО, что превышает
"Fmax;o,o5 = 44,6 (v= 4, g = 10) (см. Табл. X ), поэтому s*2 = 0.16 и
3*1 = 17,64 следует считать оценками разных дисперсий (о*2* а *1).
Далее, находим Fmax = 10,24 : 0,16 = 64, что превышает
Tw.-cos =41,1 (v= 4, g = 9); следовательно, различия также могут
считаться значимыми. Значимыми они оказываются и при сравнении
s*2 c s*% (Ям* = 49,0 > Fmax;o,o5 = 37,5). Однако различия между s*2 и
Sy2 значимыми считать нет оснований, поэтому дальнейшее
сравнение оценок дисперсий с s*2 можно прекратить и считать все оценки
от s*2 до s*2 различающимися незначимо и подчеркнуть их одной
непрерывной линией.
Аналогично можно сравнивать оценки дисперсий с 5^2 , начиная с
; s*l> затем с s*2 и т.д. Результаты проведенного сравнения оценок
i дисперсий в итоге можно представить следующим образом:
0,16 0,36 0,90 1,44 1,69 2,56 3,61 7,84 10,24 17,64
Из рассмотрения полученных данных следует, что с а = 0,05
дисперсии нельзя считать однородными (одинаковыми), так как
отсутствует одна непрерывная линия, объединяющая все оценки
дисперсий в их ранжированной последовательности. Если оценкам .у*2 ,
s*i »—» 5*о соответствуют дисперсии а*2, a^J2, ..., o*q , то, поскольку
s\2 ни одной сплошной линией не объединена с тремя самыми
большими оценками, можно утверждать, что дисперсия а*2 значимо
отличается от а*82, а*92 и o*q . С тем же риском а = 0,05 можно
утверждать, что s*l, с одной стороны, hj*2 и s*2 , с другой,
являются оценками разных дисперсий. В то же время дисперсии в интервале
от аз2 до а у2 нельзя считать отличными ни от а*2 или а^2, ни от
дисперсий aj2, а^2 или а*1, так как их оценки объединены хотя бы
одной сплошной линией.
187
Если выборки, дисперсии которых сравнивают, принадлежат ге>
неральным совокупностям, имеющим нормальное или близкое к
нему распределение (и это условие достаточно жесткое), то оценку
однородности ряда дисперсий можно проводить с помощью так
называемого критерия Бартлета> основанного на том, что
некоторая статистика В распределена как х2 с числом степеней свободы
v = к - 1, где к ~ число оценок одной и той же дисперсии. Критерий
Бартлета можно использовать и в том случае, когда объемы
отдельных выборок не равны. Для вычисления В необходимо найти
усредненную оценку дисперсии согласно формуле E,16) и некоторую
величину
( W
С = 0,4343
1 + -
I
3(к~\)
I
1
J nJ
1
J
Тогда
#:
fl»y-fcjig^-z[(^-i)ig^]
(9.3)
(9.4)
где s j и и, - оценка дисперсий и объем /-той выборки (/=1,2, ..., к),
s2 - усредненная оценка дисперсии.
Если В > х£ Для v = /: - 1, то с соответствующей вероятностью
нулевую гипотезу об однородности ряда дисперсий отвергают и
признают, что сравниваемые выборочные дисперсии являются
оценками двух или большего числа различных дисперсий.
Как следует из формул E.16), (9.3), (9.4), при использовании
критерия Бартлета требуется для каждой отдельной выборки объема п,
найти величины 1/(^-1), (лу-1) и (rij-l)\gs2j , а затем суммы
соответствующих величин для всех к выборок. После этого последовательно
отыскивают s2, lg s2, С и, наконец, 5.
Технику вычислений рассмотрим на конкретном примере. Пусть
при составлении статистического паспорта на пипетметод
механического анализа проанализировано 9 образцов (к = 9), из которых
один с 10-кратной повторностыо, а остальные с повторностью
п/=2К
1 При использовании критерия Бартлета желательно, чтобы rij £ 5. При несоблюдении
этого условия критерий малопригоден и результаты анализа следует интерпретировать
с большой осторожностью.
188
Для фракции физической глины полученные оценки дисперсии
s2j, характеризующие воспроизводимость анализа, представлены в
табл. 9.1 ♦ Следует выяснить, можно ли считать, что все полученные
выборочные дисперсии являются оценками одной и той же
дисперсии (это может иметь место, если варьирование результатов в по-
вторностях не зависит от индивидуальных особенностей
анализируемых образцов) или же такое допущение не оправдано и
выборочные дисперсии представляют собой оценку различных дисперсий.
Оценку однородности дисперсий проведем с помощью критерия
Бартлета. Вычисления необходимых сумм приведены в табл. 9.1.
Таблица 9. 1
Вычисление необходимых сумм при использовании критерия Бартлета
nJ
10
2
2
2
2
2
2
2
2
Z»y=26
А
6,917
0,020
1,300
0,021
0,250
2,756
4,202
0,325
0,044
—
4'
(nr\) s)
62,253
0,020
1,300
0,021
0,250
2,756
4,202
0,325
0,044
(nrl)lgsj
7,5591
-1,6990
0,1139
-1,6778
-0,6021
0,4402
0,6234
-0,4881
-1,3565
1^1^ = 71,171 Z[(*,-I)lg^]-2,913I
i/for1)
0,111
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
V—!— = 8,111
71171
Дальнейшие вычисления имеют следующий вид: s2= л1 ^ =4,187;
26-9
lgs2= 0,6219;
С = 0,4343
1+-
1
3(9-1)
8,111-
1
26-9
: 0,5800;
д_ B6-9H,6219-2,9131 П2
0,5800
При v = 9 - 1 = 8 находим Xo.os = 15,5 . Так как В < Хо,05 > т0 У нас
нет оснований считать, что дисперсии неоднородны, а
следовательно, можно допустить, что при определении пипетметодом
содержания физической глины дисперсия как характеристика
воспроизводимости метода не зависит от специфики взятых образцов. Лучшей
оценкой дисперсии при этом служит s2 = 4,19(%J и s - 2,0%.
189
9.4. СРЕДНЯЯ РАЗНОСТЬ И ЕЕ ЗНАЧИМОСТЬ
В ряде случаев оценку значимости различий между средними двух
совокупностей приходится осуществлять на основании выборок, в
которых отдельные значения из разных выборок попарно связаны
друг с другом. Наиболее часто такая связь является следствием
принадлежности результатов разных испытаний к одному элементу
опробования, например, когда изучаемое свойство в каждом образце
определяется двумя разными методами.
В подобных ситуациях объемы выборок одинаковы. Задачу
оценки значимости различий между средними \х\ и Ц2 можно решать
разными способами. Наиболее просто это можно сделать, прибегая к
вычислению попарных разностей между значениями x\t и хгь где хц -
значения первой случайной величины, X2t - второй случайной
величины, / = 1,2, ..., п есть номер пары, ал- число пар (объем любой из
выборок). Тогда ряд разностей rff= xi, -хц можно рассматривать как
выборку из некоторой генеральной совокупности со средним \id к
дисперсией а \ .
Если средние jjli и \х.г одинаковы, то \id должно быть равно нулю.
Эта нулевая гипотеза Н0: \xd = 0 обычно против альтернативной Hf.
\id* 0 (или, что то же самое, Hf. \i\ * цг) и подвергается проверке. В
связи с этим для ряда значений 4 вычисляют обычным образом
среднее d и его ошибку s^ (см. формулы E.6), E.11), E.23)), а затем
находят t =\d \/ Sj . Если t > ta для v = п - 1, то нулевую гипотезу
отвергают и делают заключение, что средняя разность \id (и
разность между средними |xi - \xi) не равна нулю, а значит, средние \х\
и }Л2 отличны друг от друга.
К подобному случаю сравнения средних можно свести задачу по
изучению влияния предварительного высушивания почвы при 105°
на величину максимальной гигроскопичности. Если каждый из 5
образцов почвы был в этом опыте разделен на две части и в одной из
них была определена максимальная гигроскопичность без
предварительного высушивания (х\(), а в другой - после высушивания (хг/), то
согласно описанному выше способу проверка предположения о роли
высушивания может выглядеть следующим образом:
jci, 6,41 6,27 6,33 6,05 5,52
JC2| 5,84 6,21 5,99 5,69 5,05
dt 0,57 0,06 0,34 0,36 0,47
Здесь d = 0,36; s s = 0,086; t = 0,36 : 0,086 = 4,19. При v = 5 - 1 = 4
находим fo,o5 = 2,78. Следовательно, у нас есть основания считать,
что средняя разность отлична от нуля, а тем самым мы можем
190
Утверждать, что высушивание изменяет в среднем величину
максимальной гигроскопичности (судя по знаку разности - уменьшает).
9.5. СРАВНЕНИЕ ДВУХ СРЕДНИХ ПРИ ОДИНАКОВОСТИ
ДИСПЕРСИЙ И НЕКОРРЕЛИРОВАННОСТИ ВЫБОРОК
В общем случае для проверки нулевой гипотезы Н0: Ц1 = \ii
против альтернативной Hi: ул * Ц2 при наличии оценок Зс i и х г и их
ошибок s^ и sx исходят из допущения, что разность d - х i -x г
является нормально распределенной случайной величиной со
средней ц</ = 0. Оценкой sd стандарта этой величины, обычно
называемой ошибкой разности, может служить
+ 4 • (9-5)
=я
Тогда t = d/sd должно быть распределено как r-Стьюдента и если
t £ ta, то нулевую гипотезу отвергают; если же t < ta > то различия
между средними считают статистически незначимыми. При условии
одинаковости дисперсий (это можно проверить с помощью критерия
F) ошибку разности вычисляют с учетом усредненной оценки
дисперсии i (см. формулу E.16)). При этом ошибки средних х i и х г
S S
примут вид —?= и -j=, где п\ и т - объемы выборок, а ошибка
разности есть
щ +и2
sd=sp^ (9.6)
и ей соответствует число степеней свободы v = л7 + п2 - 2. С этим v
считается распределенной и f-Стьюдента. В частном случае, когда
ni= n2 = п> получим
sd = sfijn> (9.7)
причем v = 2 (л - 1).
Так, с уменьшением влажности чернозема с 33,4 до 31,3%
твердость (в кг/см2) возросла, судя по выборочным данным, с х \ = 9,2
при .У; = 1,15 и п1 = 13 до х2 = 11,5 при52 = 1,72 и п2 = 5. Для
проверки предположения о том, что средние значения твердости с
колебанием влажности остаются неизменными (ц1 = Ц2), при альтернативе,
Что твердость в среднем меняется (цл * цг), проведем необходимые
вычисления с учетом того, что дисперсии допустимо считать
одинаковыми (а ] = а |):
191
И в77^ ^ ^-i^—-0,69,
d = 9,2 - 11,5 = - 2,3; r = 2,3 : 0,69 = 3,33.
При v = 13 + 5 - 2=16 даже ro.oi = 2,92, не говоря о fo.os, меньше
t = 3,33, поэтому можно с большой уверенностью утверждать (риск
ошибиться в утверждении не более 1%), что средняя твердость при
различной влажности не одинакова.
9.6. СРАВНЕНИЕ ГРУППЫ СРЕДНИХ
Если исследователем получено к выборочных оценок среднего, то
число их возможных пар при сравнениях равно 0,5/с(/с-1). Чем
больше к, тем шире возможность найти достаточно большую величину
разности, что приходится учитывать при сопоставлении средних,
когда к > 2. Недоучет этого обстоятельства приводит к
преувеличению числа значимых разностей.
Наиболее просто задача сравнения группы средних решается в
том случае, когда все к выборок имеют одинаковый объем п, причем
дисперсии всех совокупностей можно считать однородными. При
наличии этих условий вычисляют усредненную оценку S2 дисперсии
по формуле E.17) с числом степеней свободы v = k(n-\) и ошибку
средних ^зс» одинаковую (что обусловлено использованием единого
усредненного значения s при постоянстве п) для всех к значений х у
(/' = 1,2,..., к), согласно формуле E.23).
Наиболее предпочтительным следует считать способ сравнения,
когда оценки средних ранжируют и затем попарно сравнивают.
Если разность d между любыми двумя оценками средних превышает
или по крайней мере равна dai называемой наименьшей значимой
разностью (нередко называемой наименьшей существенной разностью,
или НСР), то разность ца между соответствующими средними
считают значимой с вероятностью Р = 1 - а.
Существует несколько способов вычисления da. По Дункану,
da^qaSj, (9.8)
где qa - некоторая величина, являющаяся функцией числа степеней
свободы v, с которым найдена ошибка среднего (v = к(п - 1)), и
числа сравниваемых средних g (см. табл. XI Приложения). Если g = 2, то
qa- ta4l •
Можно для всего ряда средних вычислить одну критическую
величину da (чаще всего именно так и делают), но это обычно
приводит к тому, что значимость различий несколько преуменьшается.
Более правилен подход, описанный ранее при сравнении группы
192
[ерсий, согласно которому в ранжированной последователь-
оценок х* от,наименьшей Зс* до наибольшей х£ сначала
вают значимость различии между щ и ^ по разности
fc* - х* сравнением ее с da , вычисленной по формуле (9.8), где qa
рется для g = к. Если х£ - х* < da , то все xj считают оценками
Одного среднего и на этом анализ значимости различий
заканчивается. Если же окажется, что х£ - х* >da , то различия между ц\
g ц* считают значимыми и приступают к сравнению Зс* с х^,
разность между которыми сравнивают с da , вычисленной при да ,
датой из табл. XI для того же v и g = к - 1.
. Если и здесь окажется, что d >da, то сравнивают Зс* с Зс£_2 и т.д.
до тех пор, пока разность между оценками средних не окажется
меньше критической. На этом сравнение оценок средних с Зс*
завершают. В ранжированной последовательности эти оценки и все
уценки, лежащие между ними, подчеркивают одной сплошной
линией, показывающей, что эти оценки могут считаться оценками одно-
Го среднего. Затем процедуру сравнения повторяют для Зс£ , х% и
t-Д., в каждом случае завершая подчеркиванием незначимо
различающихся средних, если эти средние уже не объединены одной
сплошной линией при предыдущем сравнении. При всех сравнениях
.средних значение qa берут из табл. XI для g, зависящего от числа
оценок, заключенных между сравниваемыми оценками. Если в
ранжированной последовательности номера сравниваемых оценок рав-
Иы/hwi, причем I<т, тоg = m- / + 1. Так, при сравнении Зс2* с Зс6*
Получим g = 6-2+l=5.
Допустим, что с повторностыо п = 4 были определены значения
J>H почвы на к = 5 участках с различным растительным покровом,
При этом получили следующие оценки средних xj и дисперсий Sj:
Xj 5,64 5,11 6,47 5,78 7,16
s) 0,38 0,26 0,41 0,31 0,55
Поскольку нет оснований считать дисперсии разными
{Ртах = 0>55 : 0,26 = 2,1 < Fmax;o,o5 = 50,7), найдем усредненную
оценку среднего квадратического отклонения s =^1,91:5 = 0,62 и
^шибку среднего s-= 0,62 :V? =0,31 с числом степеней свободы
JV = 5 • D - 1) = 15. После ранжировки получим Зс*:
I 5,11; 5,64; 5,78; 6,47; 7,16.
!
193
| 13 Е.А.Дмитриеи
При сравнении крайних значений х* = 5,11 и х$ =7,16 нц^Л
g = 5, v = 15, откуда rfo.os = 3,31 • 0,31 = 1,03 (в табл. XI go,os = 3,3u |
Разность 7,16 - 5,11 = 2,05 превышает 1,03, следовательно,^
можно считать значимой. Более того, даже разнос^
х*4 - х* = 6,47 - 5,11 = 1.36 превышает do,os = 1,03, хотя она и найде,
на для g = 5. Поэтому вычислять rfo.os для g = 4 уже нет смысла (оца
окажется меньше 1,03).
Сравнение разности х3* - х* = 5,78 - 5,11 = 0,67 с rfo.os 5
=3,160,31 = 0,98 свидетельствует о том, что эта разность незначима
поэтому сравнение Зс2ф с *; можно уже не производить.
Аналогично осуществляется сравнение х^ последовательно J
Х5, 5с4 ,...; 3?з с х$, х*А и т.д. Подчеркивая оценки незначимо отли.
чающихся друг от друга средних одной чертой, получим:
5,11 5,64 5,78 6,47 7,16
Если х*, х\,..., х5* являются оценками средних ц* , у.\ ,..., ц* >Щ
из полученного отображения результатов анализа следует,что ц|
значимо (с а = 0,05) отличается от у>*4и у.*5, а ц^ицз отличаются
только от Цз » поскольку оценки х^и Х3 хотя бы одной
непрерывной линией объединены как с х*, так ис х4*.
Если оценки средних найдены с неодинаковыми повторностями
rip то сравнение средних несколько усложняется. В том случае, когда
дисперсии можно считать одинаковыми, усредненную оценку сред!
него квадратического отклонения s для всех к выборок можно найти!
по формуле E.16) с числом степеней свободы v = E(/iy- ~ 1), а
наименьшую значимую разность - по формуле
^чЛ[^А. <9-9)
где Л/ и пт - объемы выборок для значений сопоставляемых оценок
средних в их ранжированной последовательности, ag = w- / + 1
(при / <т).
9Л. СРАВНЕНИЕ СРЕДНИХ ПРИ НЕРАВЕНСТВЕ ДИСПЕРСИЙ
Если случайные величины, средние которых следует сравнить
имеют разные дисперсии, то усреднение оценок дисперсий неправо
мерно, и тогда ошибку разности нужно вычислять непосредственно
через ошибки средних по формуле (9.5). Очень часто при этом
194
[>т, что ошибка разности sd определена с числом степеней сво-
j v = гц +п2 - 2 и с таким же числом распределено t = \d\/sd. Это
ко не так, что особенно важно иметь в виду при небольших объ-
I выборок. С некоторыми допущениями значения v в подобных
ах можно оценить по формуле
v=—; Г> (9.10)
и\ + _A-цJ
л, -1 п2 -1
(9.11)
^Х. "^Х,
v-B важности отмеченного обстоятельства легко убедиться на при-
|йре с изучением содержания гумуса на двух участках почвенного
«крова. Пусть для первого участка ^ = 3,12 при П/ = 4и5у = 0,24, а
второго х2 = 3,46 при п2 = 9 и s2 = 0,09 . Тогда, поскольку
flsl = 0,242/0,092 = 7,1 > Fo,o5 = 4,1 и дисперсии нельзя считать оди-
ковыми, находим s^ = 0,24/ <Д =0,12; s^ = 0,09/V9 =0,03;
«7^2^00? = 0,12; \d\ =3,12 -3,46 = 0,34; t =0,34/0,12 = 2,8.
■ '« По формулам (9.11) и (9.10) получим, что г можно считать рас-
еделенным с числом степеней свободы v = 3:
» т^—т = °>94;v =—2—^ г =3>4 •
■ 0,122+0,032 0,942 A-0,94J
3 8
у Так как при v = 3 имеем fo.os = 3,12, что больше t = 2,8, то
гипофизу о равенстве средних не отвергаем. Если v принимать равным
Hi + т - 2 = 11 (пренебрегая тем, что дисперсии не равны), то
результат оказался бы иным: Го,о5= 2,20 < t = 2,8 и среднее содержание
"Гумуса на участках можно было бы признать разным, но такой под-
Ход, как правило, преувеличивает значимость различий. Полезно
.заметить, что, как следует из рассмотрения формул (9.10) и (9.11), ес-
fom объем одной из выборок, например nh стремится к оо, то оценка
^среднего Зс, стремится к среднему ць соответствующая ошибка s^
^стремится к нулю и v определяется объемом второй выборки (п2 - 1),
^а сама задача сводится к выяснению значимости различий между
неизвестным средним Ц2 и постоянной величиной ць
195
9.8-ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ
СРАВНЕНИЯ СРЕДНИХ
Сравнивая средние, всегда следует учитывать их статистическую
природу, накладывающую определенный отпечаток на характер
выводов, всегда имеющих вероятностную основу. В связи с этим, когда
для простоты говорится о том, что полученные средние
статистически не различаются, нужно понимать, что речь идет не об оценках
средних, которые если и не одинаковы, то ставить под сомнение их
различие бессмысленно, а о тех генеральных средних, которые нам в
точности неизвестны. Если же различие между средними
утверждается, то совсем не обязательно, чтобы это различие было равно
разности между оценками соответствующих средних. Само по себе
утверждение о существовании различий есть лишь утверждение, что
разность между средними отлична от нуля. При необходимости,
располагая значениями оценок разности d и ее ошибки sd с
соответствующим числом степеней свободы v, можно получить
интервальную оценку разности согласно формуле (8.8):
da = d±tasd> (9.12)
где taSd представляет собой абсолютную погрешность в оценке
разности с уровнем значимости а.
Так, в § 9.7 было получено, что различие между двумя участками
по содержанию гумуса составляет d = хх - х2 = -0,34 при ^=0,12 и
v = 3.
Отсюда d0,os = (-0,34) ±3,12 - 0,12 = (-0,34) ±0,37 = +0,03 ч--0,71 .
Как видим, погрешность в оценке разности здесь составила 0,37%
содержания гумуса. В рамках проводимого исследования такая
погрешность оказалась достаточно большой, в силу чего разность
Ц1 - Ц2 с вероятностью Р = 0,95 может оказаться не только
отрицательной, но и положительной. Поэтому и не была отвергнута
нулевая гипотеза о равенстве средних с уровнем значимости а = 0.05 .
Утверждение о наличии или отсутствии различий ни в коей мере
нельзя трактовать как доказательство существования различий, а
тем более их отсутствия. Имея дело со случайными величинами и
проверяя гипотезы с помощью некоторых критериев, исследователь
практически никогда не имеет абсолютно полной гарантии верности
полученных выводов. Вывода всегда имеют надежность, в большей
или меньшей мере отличную от 100%. В §9.6. оценивалась
значимость различий в группе средних. Покажем на этом примере, что
если получение значимых различий рассматривать как доказательство
существования различий, то очень быстро можно прийти к абсурду.
196
^ основании отсутствия значимых различий будем считать дока-
: равенство средних ц * и ц з (их оценки соответственно равны
[1 и 5,78). По аналогичным соображениям можно считать дока-
равенство Цз = М-4 (их оценки 5,78 и 6,47), но тогда должно
место равенство ц,ш = \хт4 . Однако, следуя той же логике, мы
казали наличие разности между ц,* и |ij . Абсурдность ситуации
видна.
Значимость различий между средними во многом зависит от объ-
1ов выборок. С увеличением объемов, с одной стороны,
уменьшая ошибки средних и разностей, а с другой стороны, умень-
ается критическое значение ta. Поэтому при небольших п
доставлю часто различия оказываются статистически незначимыми, и
оборот. Однако нельзя обольщаться тем, что с помощью статис-
всегда можно получить нужный результат: чтобы показать,
различий нет, следует взять небольшие выборки, чтобы
полузначимые различия - выборки большого размера. Во-первых,
значимость различий очень часто связана с большой погреш-
ью оценок и если эти погрешности превышают практически или
ринципиально важные минимальные различия между средними, то
яедование нельзя считать завершенным или удачным. Во-вторых,
атлетически значимые различия могут быть столь малы по своей
*е,что это лишает их практического значения, а иногда и
еретического интереса.
На значимости различий иногда строят попытки классификации
ьектов: отсутствие различий служит основанием для отнесения
ьектов к одной какой-то группе, их наличие - к разным группам,
[акой подход нельзя считать удачным, поскольку с увеличением
ема выборок происходит не уточнение классификационных
рупп, а увеличение их числа, связанное с ростом числа значимых
|шзличий.
% 9.9. ПЛАНИРОВАНИЕ ЧИСЛЕННОСТИ ВЫБОРОК
f ПРИ СРАВНЕНИИ СРЕДНИХ
Ь Чаще всего планирование объемов выборок при сравнении сред-
производят, исходя из того, что после проведения исследования
я между средними должны быть оценены как статистически
чимые. Постановка задачи в таком виде, вообще говоря, не очень
Дело в том, что далеко не все, казалось бы, хорошо спланиро-
ie опыты дают предполагавшийся результат, и в этом нет ни-
о страшного. Если бы было иначе, то незачем проводить
197
эксперимент, ведь его результат в точности известен и введен в
условие задачи.
Планирование объемов выборок для оценки значимости
различий между средними обычно строят исходя из ряда допущений. Во-
первых, делают предположение о том, что разность между средними
d известна. Если значение даже приближенно трудно предположить,
то в качестве d берут наименьшую величину различий между сред
ними, которой уже нельзя пренебречь и которая имеет либо практи
ческое, либо принципиальное значение. При этом не следует забы
вать, что чем меньше выбрано d, тем надежней будут заключения, но
тем больше окажется и планируемый объем выборок. Чем больше
берется предполагаемая величина d, тем меньших заграт потребует
планируемый опыт, но гарантии получения значимых различий при
этом сокращаются.
Во-вторых, при планировании численностей выборок приходится
предполагать известными дисперсии сравниваемых совокупностей
Чаще всего при этом используют некоторую априорную
информацию, полученную на сходных объектах в сходных условиях
проведения опытов, а иногда и оценки, полученные ранее на изучаемых
объектах.
Соотношение объемов сравниваемых двух выборок по
возможности всегда должно быть оптимальным. Если дисперсии
совокупностей допустимо считать одинаковыми и равными s2t то
оптимальным является равенство объемов выборок: rij = п2 = —, где п -
суммарный объем двух выборок. При этом ошибка разности
оказывается наименьшей и, как следует из формулы (9.6), она составляет
Sd fr (9.13)
Чтобы предполагаемая разность между средними d могла быть
расценена как значимая, нужно, чтобы отношение
,= И=й/« (9.14)
sd 2s
оказалось не меньше гш соответствующего v = п - 2. Учитывая
зависимость ta от п и производя некоторые преобразования формулы
(9.14), можно установить, что для нахождения искомого суммарного
для двух выборок объема па нужно вычислить вспомогательную
величину
d^
к2~ As2 (9Л5)
198
по таблице стандартных отношении —, где ta соответствует
п
г = п - 2 (см. табл. XII Приложения), найти искомое па согласно
/2
до'вию кг =-2-. Планируемые объемы каждой из выборок будут
п
1аковы и равны щ = и2 = па /2.
» Пусть, например, неоднократными исследованиями было
установлено, что аналитическая ошибка определения плотности твердой
"фазы почв пикнометрическим методом близка к s = 0,03 г/см3. Если
|дам требуется установить, различаются ли между собой два образца
Що плотности твердой фазы не менее чем на d =0,05 г/см3, то,
поскольку к2~ 0,052 / 4-0,032 = 0,69 , из табл. XII получаем ло,о5 = 9.
^Округляя 9/2 в большую сторону, получим, что каждый образец
. дужно анализировать с 5-кратной повторностью.
>; Если дисперсии нельзя считать одинаковыми, то целесообразно
брать разные объемы выборок. При этом следует учитывать,что от
соотношения объемов п\ и пг зависит не только величина ошибки
разности, но и соответствующее ей число степеней свободы v. При
данном суммарном объеме выборок п = п\ + пг оптимальным
соотношением между п\ и пг является такое, которое обеспечивает
получение наименьшей ошибки разности sd при наибольшем v. Можно
показать, что это достигается, если — = — . При этом ошибке sd
п2 s2
соответствует v = п - 2. Тогда для нахождения суммарного объема
выборок пш обеспечивающего получение значимой разности, если
она по абсолютной величине по меньшей мере равна d, следует
вычислить величину
t2
И по табл. XII найти па из условия кг =—. Объемы отдельных выбо-
п
рок при этом составят
*=777"' пк=п«~\- (917>
% + s2
Подобный подход к оценке необходимого объема выборок
целесообразно использовать, когда имеются серьезные основания
считать, что дисперсия изучаемого свойства зависит от его среднего
гУровня, а также в тех случаях, когда проведенные исследования
1'
•* 199
выявили неоднородность дисперсий, но не позволили с необходимой
точностью и надежностью оценить различие в средних.
Пусть, например, при определении твердости почвы на двух
участках с п\ = пг = 10 получили результаты хх = 45,3 , s\ = 4,3 и х2 =:
39,8, S2 = 7,4, не позволившие утверждать, что различия по твердости
имеются. Тогда для проведения повторного исследования, могущего
дать более определенный ответ, если различия между средними не
52
менее, чем d = 5, получим кг =-, = 0,18; ло,о5 = 24-
D,3 + 7,4J
24-4 3
п = ^ ^ «9; п2 =24-9 = 15.
1о-05 4,3 + 7,4 2°'05
Если вычисленное значение кг < 0,13 , то искомое па можно найти
по формуле
Уа (9.18)
к2
ВЗЯВ ta ДЛЯ V = 00.
Планирование численности выборок как при оценке средних (см.
§ 8.11), так и при их сравнении, нередко вскрывает ситуации, когда
требующаяся повторность оказывается настолько большой, что
практически не может быть реализованной. Наиболее
распространенной реакцией исследователя в таких случаях бывает, к
сожалению, разочарование в статистических методах и отказ от их
использования. Невозможность практической реализации рекомендуемой
повторности означает, что в рамках проводимого эксперимента
нельзя сделать достаточно надежные выводы и заключения могут
носить лишь характер предположений, настаивать на которых
лучше не стоит. Само это знание малой надежности вьюодов должно
расцениваться как важная информация о качестве проведенного
исследования, и нет оснований скрывать малую надежность выводов,
если исследование все же проведено с достаточной повторностью.
9.10. КВАНТИЛЬНЫЙ АНАЛИЗ ГРУППЫ ВЫБОРОК
Наряду с решением задач о сходстве или различии тех или иных
констант, характеризующих сравниваемые случайные величины,
немалый интерес представляет анализ более тонкой структуры в
организации данных и ее изменении в разных объектах. Например, для
объяснения природы объектов исследователю может очень помочь
не только установление факта изменчивости средних или дисперсий,
но и то, как такая изменчивость происходит. Ведь при переходе от
200
Si02,
84-1
82
80
78
%
объекта к другому среднее, например, может измениться как
изменения всех значений на некоторую величину, так и
вие того, что лишь некоторая часть значений заметно воз-
t или уменьшилась. В решении этих вопросов большую помощь
вает анализ поведения квантилей распределений. При этом
[ не обязательно (хотя и возможно) проверять те или иные ста-
*еские гипотезы. Тем не менее познавательное значение такого
фидеистического анализа не вызывает сомнений.
/ Проведение квартального анализа наиболее удобно при
графическом отображении результатов вычислений.
^Дяя иллюстрации интерпретационных возможностей квантиль-
ЯЙГО подхода рассмотрим поведение квартилей и крайних децилей
удержания валового SiCh
ф дерново-подзолистой
0В£ве. Элементы опробо-
щдеия представляли собой
ЯЙвшндрические образцы
даометрической формы
Объемом 10 см3, что имеет
минципиальное значение
Щ& интерпретации
результатов анализов.
v Предварительно заме-
$Ш, что с процессом опод-
^мшвания связьгоается
появление содержания SiCh
1 валовом составе почвы и
ЧШ этот процесс сильнее
Шражен, тем больше
содержание оксида кремния,
8 йаоборот. Следователь-
Ф, значения верхних квантилей соответствуют более оподзоленному
Материалу в пределах горизонта, а нижних - менее оподзоленному
•ГО даже иллювиально обогащенному продуктами выноса из
вышележащих горизонтов. Если напряженность и направленность
Фоовиально-иллювиальных процессов с глубиной во всех
кистях горизонта меняется одинаково, то квантили содержания
8Юг должны меняться по профилю почвы однообразно, но
ЭЕого, как оказывается, не происходит. На рис. 9.1 представлены
Фантили раздельно по верхним (в), средним (с) и нижним (н) третям
•вследовавшихся горизонтов, показывающие, что в горизонте
W&2 и вплоть до середины АгВ медианное содержание
W2 остается практически без изменений, после чего резко
201
76'
74
н в
Al*2
А2В
в с
т
Рис.9.1. Изменение квантилей содержания
валового Sid по подгоризонтам дерново-
подзолистой почвы
снижается. В то же время нижний дециль Х(о,ю;, остающийся
постоянным в средней и нижней третях А1А2, начинает резко
уменьшаться уже в верхней трети горизонта АгВ, отражая тем самым появление
и увеличение в горизонте АгВ и Bi доли участия почвенного
материала, в той или иной мере не затронутого элювиальными
процессами или содержащего признаки иллювиальных явлений. В верхней
трети А2В объемная доля участия такого материала близка к 10% и
заведомо меньше 25%, так как нижний квартиль Х(о,25) здесь еще не
меняет своего значения по сравнению с вышележащими
горизонтами. В середине АэВ доля слабо или совсем незатронутого
элювиальными процессами материала уже превышает 25%, но меньше 50%
(здесь медиана еще не обнаруживает изменений).
Верхние квартиль и дециль содержания SiCh соответствуют
наиболее обогащенным кремнекислотой участкам, а это в
рассматриваемом случае может быть связано с локализование наиболее опод-
золенными участками горизонтов. Примечателен тот факт, что
верхние квартиль и дециль до середины АгВ не только не проявляют
еще тенденции к снижению, но имеют еще тенденцию увеличивать
свое значение, что может быть связано только с тем, что хотя
элювиальные процессы в горизонте АгВ и не идут повсеместно также
интенсивно, как в А1А2, но локально эти процессы здесь заходят
значительно глубже. Более того, можно утверждать, что в горизонте
А2В локально оподзоленные участки не просто репрезентируют
вышележащий элювиальный горизонт А1А2, а содержат материал с
экстремально выраженными элювиальными явлениями.
Рассмотрение поведения квантилей в разных горизонтах (слоях,
глубинах) позволяет судить о характере изменчивости изучаемого
свойства по профилю почвы. Прежде всего заслуживает внимания
анализ размаха колебаний между у- и A - у)-квантилями (между
Х(о,25) и Х(о,75), Х(о,\) и лг(о,9) и другими). Например, из рис. 9.1 видно, что
степень изменчивости в содержании Si02, оцениваемая по размаху
между первым и третьим квартилями, при переходе от горизонта
А1А2 к нижней трети горизонта А2В увеличивается в 3 раза, причем
в верхней грети горизонта АгВ увеличения размаха еще не
наблюдается. В то же время размах между крайними децилями уже в
верхней трети горизонта АгВ в 2 раза больше, чем в А1А2 и достигает
максимума к середине А2В. Особый интерес здесь представляет
неодинаковость поведения размахов между первым и третьим
квартилями и нижним и верхним децилями при переходе от горизонта А1А2
к верхней трети горизонта АгВ. При неизменности межквартильного
размаха (и, соответственно, вариации в средней области
ранжированного ряда) децили уже определенно отражают рост вариации
202
' переменной. Столь богатой информации о характере изменчивости
изучаемого свойства обычные статистические методы дать не могут.
Наряду со степенью изменчивости квантили позволяют судить об
асимметричности в изменчивости и характере ее проявления.
Для этого достаточно рассмотреть отклонения у- и A - у)-квантилей
от медианы, которые при симметричности в изменчивости должны
быть одинаковы. Так, по coдqшaнию SiCh в горизонте AiA2
изменчивость в пределах крайних квартилей и децилей можно считать
почти симметричной (медиана располагается близко к середине
между крайними квантилями). В верхней и средней третях горизонта
А2В асиммегрия отчетливо выражена в гораздо большей (в 2 - 2,5
раза) удаленности нижнего дециля от медианы сравнительно с
верхним децилем.
Как видим, рассмотрение квантилей и их изменения по профилю
почвы позволяет вскрыть детальную картину характера
изменчивости изучаемого свойства, а тем самым глубже познать механизмы,
определяющие специфику дифференциации почвенной толщи по
изучаемому свойству.
Квантили могут оказаться весьма ценным способом
характеристики переменных в случае анализа информационной ценности
образцов разного размера, с помощью которых характеризуется
изучаемый объект. Не меньший интерес представляет рассмотрение
поведения квантилей для изучения особенностей влияния отдельных
факторов на изучаемый признак. Например, рассмотрение долевого
участия тех или иных значений переменной величины может помочь
в выяснении особенностей увеличения содержания в почве
питательных элементов при внесении удобрений, вскрыть характер
неравномерности увлажнения почвы при орошении или специфику
расходования из почвы влаги путем ее десукции. Квантили могут оказать
большую помощь также для анализа структур смены почв в
пространстве, например в условиях комплексного почвенного покрова.
Учитывая, что определение квантилей не предполагает каких-
либо ограничений на характер переменных величин, оправданность
применения квантильного метода анализа оказывается гораздо
более широкой, чем обычных статистических методов обработки
данных.
9.11. СРАВНЕНИЕ ДОЛЕЙ
При
сравнении долей нулевая гипотеза сводится к
предположению, что генеральные доли Pi и Рг равны, а различия в оценках рх
и Pi обязаны не более чем обычной игре случая. Если эта гипотеза
203
верна, то при разности между оценками долей d-p[-p1 и ошибке
разности, вычисляемой обычным способом:
Sd=H+s2p2> (9Л9)
где sp и s?2 - ошибки долей, найденные по формуле E.53), отноше-
' и 2
ние t - — не должно превышать критического значения ta , которое
берется обычно для v = п\ + ni - 2. Если окажется, что г >ta, то с
соответствующим уровнем значимости а от нулевой гипотезы можно
отказаться в пользу альтернативной гипотезы, состоящей,
например, в том, что генеральные доли Pi и Pi не равны между собой.
Пусть, например, до и после вспашки поля доля водопрочных
агрегатов, определенных по Андрианову в выборках по т= т = 100
агрегатов, оказалась соответственно равной рх = 0,78 и #= 0,70 .
Тогда, поскольку spt = = 0,001716
„ si =^^=0,002100, 0>78-0,70 sjWsU0,
Р2 100 V0,001716 + 0,002100 0,062
что существенно меньше t0 05= 1,97, у нас нет серьезных оснований
утверждать, что вспашка изменила долю водопрочных агрегатов в
почве.
Более предпочтительно оценивать значимость различий долей,
особенно если их величина приближается к нулю или единице,
используя преобразование долей в углы ср. При этом нулевую гипотезу
о равенстве долей заменяют гипотезой о равенстве углов.
Соответствующие полученным оценкам долей р, ид углы ср} и ср2
находят из табл. XVII Приложения. Если объемы соответствующих
выборок равны т и пг, то в силу формулы (8.58) разности углов
d = cpj - ф2 соответствует ошибка
причем v = m + пг - 2.
При условии
"Nt^T' <9-20>
tM = \d\\hK>tQL (9.21)
нулевую гипотезу о равенстве углов (а соответственно и долей)
отвергают.
204
I
Заметим, что если величина t распределена с некоторым числом
степеней свободы, например с v = m+ пг- 2, как в выражении (9.21),
то t1 является случайной величиной, распределенной как Fc vi = 1
й V2= /ii + /12 — 2. Поэтому если все члены в выражении (9.21)
возвести в квадрат, а это иногда способствует упрощению вычислений,
то проверка нулевой гипотезы будет осуществляться с помощью
статистики F: нулевая гипотеза отвергается при условии, что
F = rf2Al^>Fa (922)
В рассмотренном выше примере с водопрочностыо агрегатов для
долей р{ = 0,78 ид = 0,70 углы согласно табл. ХУЦ оказываются
равными q>! = 2,165 и q>2 = 1,982 . Так как d = 2,165 - 1,982 = 0,183
и /II = /12 = 100, то получаем
п
= 0,183 J-
VI
/ = 0,183J-^H- = 13
tf 100 + 100
что меньше f005 = 1,97 . По формуле (9.22) находим
F=0,1832!™^=1,67,
200
что меньше F005= 3,9 при vi =1 и V2 = 198.
Вопросы для самоконтроля.
1. К чему относится утверждение об однородности дисперсий - к
дисперсиям или их оценкам?
2. С помощью какого критерия можно сравнить между собой два
стандартных отклонения?
3. В чем особенности проверки гипотезы об однородности
дисперсий в том случае, когда число оценок дисперсий больше двух?
4. Одинакова ли применимость критерия Бартлета однородности
дисперсий и критерия, основанного на максимальности отношения
оценок дисперсий?
5. Какая нулевая гипотеза проверяется при сравнении средних?
6. Какую роль играет однородность дисперсий при сравнении
средних?
7. Что означает незначимость различий между средними и с чем
она может быть связана?
Глава 10
ДИСПЕРСИОННЫЙ АНАЛИЗ
10.1. ОБЩЕЕ ПРЕДСТАВЛЕНИЕ О ПРИНЦИПАХ
ДИСПЕРСИОННОГО АНАЛИЗА
В сложной цепи взаимосвязанных явлений в качестве причин
варьирования изучаемого признака, называемого результативным,
могут рассматриваться некоторые другие признаки и явления,
которые обычно назьюаются факторами. Естественно, что это деление
чисто условно, так как те признаки, которые в данном случае
рассматриваются как фактор, в другом случае могут выступать в
качестве результативных, тем более, что вопрос о причинности далеко
не всегда решается просто.
Выяснение роли тех или иных факторов в варьировании
значений результативного признака может быть осуществлено с
помощью специального метода, получившего название дисперсионного
анализа. Чтобы судить о том, влияет ли данный фактор на
результативный признак, нужно чтобы сам факториальный признак имел
несколько уровней, которые принято называть градациями фактора.
Например, чтобы судить о влиянии глубины вспашки на урожай
пшеницы, нужно, чтобы факториальный признак (глубина вспашки)
имел по крайней мере две градации, т.е. две отличные глубины
вспашки.
Для проведения дисперсионного анализа данные наблюдений над
результативным признаком по отдельным градациям фактора
сводят в таблицу, составляющую так называемый дисперсионный
комплекс. Если изучается влияние на результативный признак градаций
одного какого-либо фактора, то дисперсионный комплекс
называется однофакторным. Число учитываемых факторов может быть
больше одного, тогда комплексы называются двух-, трехфакторны-
ми и т.д.
Градации учитываемых факторов по своему характеру могут
быть различны. В одних случаях они могут быть фиксированы
исследователем, не случайны, и тогда дисперсионный комплекс
соответствует так называемой I модели. Фиксированные градации
факторов обычно устанавливаются экспериментатором, исходя из целей
проводимого опыта. Такими фиксированными градациями служат,
например, различные дозы удобрений или норма известкования,
способы полива или приемы обработки почвы при изучении их
влияния на свойства почвы.
206
В других случаях градации фактора носят случайный характер, и
тогда дисперсионный комплекс соответствует так назьюаемой II
модели. Примером этой модели служит дисперсионный комплекс,
составленный для изучения влияния индивидуальности растений на
белковость зерна. Здесь отдельные градации изучаемого фактора
случайные представители из некоторого множества растений
данного сорта. Такими же случайными градациями могут считаться
отдельные точки (разрезы), в которых изучаются свойства какой-либо
почвы.
В двух- и более факторных комплексах один фактор может иметь
фиксированные градации, а другой случайные. Модель такого
комплекса называется смешанной (или III моделью). К такой модели
относится, например, дисперсионный комплекс, предназначенный для
выяснения роли в урожайности пшеницы сортовой специфики
(фиксированные градации) на нескольких опытных участках
(случайные градации).
Если числа наблюдений п над результативным признаком по
отдельным градациям изучаемого фактора в однофакторном
комплексе или по отдельным сочетаниям градаций в многофакторном
комплексе одинаковы, то комплекс называется равномерным, если же эти
числа различны, то комплекс называется неравномерным. Общее
число наблюдений над результативным признаком N = Ел принято
называть объемом дисперсионного комплекса.
Сущность дисперсионного анализа состоит в вычленении из
общей вариабельности результативного признака той части, которая
определяется влиянием учитываемых факторов, и части, связанной с
влиянием на результативный признак всех прочих факторов, не
учитываемых и объединяемых в группу случайных факторов. Степень
вариабельности при этом оценивается величинами дисперсий, и
дисперсионный анализ сводится к разложению общей дисперсии на
составляющие и к оценке статистической значимости дисперсий,
связанных с влиянием тех или иных учитываемых факторов на
величину результативного признака.
Дисперсионный анализ однофакторного комплекса строится в
предположении, что любое значение х результативного признака
можно выразить через его среднее значение ц для комплекса в целом,
через условное среднее щ для /-й градации фактора А (/ = 1,2, .., а,
где а - число градаций фактора А) и через случайные отклонения
w = x-//„ распределение которых в пределах отдельных градаций
фактора А нормально со средним ц^= 0 и дисперсией g2w
одинаковой для каждой из градаций фактора А:
x=n + (Mi-v) + w. (ЮЛ)
207
Если градации фактора А случайны (II модель), то условные
средние д представляют собой случайные значения, принадлежащие
некоторой случайной величине, и тогда, обобщая соотношение
A0.1) на всю возможную совокупность значений х, общую
дисперсию а2 можно выразить через дисперсию о2А условных сред-
них и случайную дисперсию а 2W (см. формулы C.20) и C.22)):
Для I модели щ не являются случайными величинами (поскольку
градации А фиксированы исследователем), поэтому их
неодинаковость нельзя характеризовать с помощью дисперсии. Однако, если
использовать те же технические приемы вычислений, то можно
получить некий аналог дисперсии для выражения неодинаковости
неслучайных величин. Обозначая его кА , для I модели получим
°2 = *а + <**• (Ю.З)
Аналогичные соотношения лежат в основе дисперсионного
анализа многофакторных комплексов.
Результаты выборочных наблюденний над результативным
признаком, сведенные в дисперсионный комплекс, не дают
возможности найти дисперсии, характеризующие вклад случайных и
организованных (учитываемых) факторов в общее варьирование
случайной величины X. Выборочные наблюдения позволяют лишь
получить оценки sA , кА, s2Wb соответствующих параметров оА,
к2А ,а^, поэтому для суждения о значимости влияния учитываемого
фактора (или факторов) на величину результативного признака
нужно оценить значимость соответствующей дисперсии (или
дисперсий). Применительно к однофакторному комплексу нулевая
гипотеза состоит в предположении, что фактор А на результативный
признак не влияет, поэтому все частные средние щ одинаковы и
равны общему среднему ц и, следовательно, оА (или кА) равна нулю.
Если обнаружится, что при таком допущении вероятность
получения данного значения sA (или к\) слишком мала, то это можно
рассматривать как аргумент для отказа от нулевой гипотезы в пользу
альтернативной гипотезы, состоящей в предположении, что агА (или
кА) * 0, а это равносильно признанию статистической значимости
влияния фактора А на результативный признак.
208
& 2. РАЗЛОЖЕНИЕ СУММЫ КВАДРАТОВ И ДИСПЕРСИИ
W ПРИ ДИСПЕРСИОННОМ АНАЛИЗЕ
* (НА ПРИМЕРЕ ОДНОФАКТОРНОГО КОМПЛЕКСА)
дисперсионный анализ основывается на возможности расчтене
•^ обшей суммы квадратов центральных отклонений и соответ"
дауюшего ей числа степеней свободы на отдельные составляющее
уделяемые структурой дисперсионного комплекса. В простейшей
^ае, когда результат измерений *, образуют однофакторный
^мплекс с а градациями фактора А и повторностью п 0 = 1 2
У* Ь 2 ";) М0ЖН° вь™'"> три суммы квадратов:' общую сумму
Ст, представляющую собой сумму квадратов отклонений отделе
X* от общего среднего х = -^ , где д/ = 2а/. .
9 N '1'
факгориальную сумму квадратов СА, представляющую собой суммт
квадратов отклонении частных средних х; от общей средней ?
взвешенных соответствующим числом повторностей п ■
С-?^^ " (I0.S)
случайную сумму квадратов С*, отражающую варьирование в пое
деиак отдельных градации фактора А и равную сумме квадратов от"
клонении хд от своих частных средних х•:
Си'=?[?Ь-^J]- A0.6)
Происхождение названий сумм квадратов очевидно: Ст характе
ризует общее варьирование в пределах дисперсионного комгшекса"
связанное с влиянием на результативный признак всех возмочь*
(тотальных) факторов Т как случайных, так и учитываемых- С ва
рьирование в ряду средних, которое может быть в определенной сте"
пени результатом воздействия на изучаемый признак учитываемого
нами фактора A; Cw - варьирование.связанное с влиянием на ре3уГ
^ГчтоТжГсе сТс1Х;случайных факторов w- м-но -:
казать, что между Сг, Сжи Сосуществует простая зависимость-
ct = Ca + Cw. '
Число степеней свободы, с которым вычисляется общая сумма
тдратов, на единицу меньше объема дисперсионного комплекс^
Т.е. у,• = N- 1. Число степеней свободы, соответствующее фазд
альнои сумме квадратов, зависит только от числа средних*
14 Е.А.Дмитриев
209
vA= a -I. Для Cwчисло степеней свободы равно объему комплекса Дг
за вычетом числа средних х{, т.е. a: vw = N - а . Очевидно, что здесь
также имеет место свойство слагаемое™:
vT=vA + vw. A0.8)
В существовании указанных соотношений легко убедиться на
примере, в качестве которого возьмем II модель однофакторного
равномерного комплекса. Результативный признак - содержание
гумуса Х(%), факториальный признак А - индивидуальные особен-
ности местоположения разрезов, в которых из пахотного слоя
отбирались образцы в 4-кратной повторности (щ = п = 4). Число
разрезов а = 5 соответствует пяти случайным градациям фактора А.
Объем дисперсионного комплекса N = 2>/ =ап -20.
Результаты проведенных анализов сведены в табл. 10 Л.
Таблица 10.1
Лг
Ai
А2
Аз
А4
As
3,05
3,30
3,01
3,42
2,99
х»
3,19
3,21
3,17
3,29
2,87
3,27
3,09
3,26
3,36
3,11
3,13
3,44
3,08
3,21
3,15
Щ
4
4
4
4
4
12,64
13,04
12,52
13,28
12,12
X г
3,16
3,26
3,13
3,32
3,03
Поскольку 2>^ = 63,60 и х = —!— =3,18 получим:
Ст= C,05 - 3,18J + ... + C,15 - 3,18J= 0,4050;
С л = 4[C,1б - 3,18J + ... + C,03 -3,18J] = 0,2056;
Cw = C,05 - 3,16J + .... + C,15 - 3,03J = 0,1994;
СА + Cw = 0,2056 + 0,1994 = 0,4050 = Cr; vr=20- 1 = 19;
vA = 5- 1 =4; v^=20-5= 15; у^ + у^=4 + 15= 19=vr.
Вычисление сумм квадратов обычно осуществляется не по
формулам A0.4) - A0.6), а способом, основанным на формуле F.9).
Учитывая, что в однофакторном равномерном комплексе все
повторности п{ одинаковы и равны п> то, принимая обозначения согласно
F.1) -F-2):
N = an, St^xy, S=£Si=E%, S2=Zx{
TSf
H.
II =-
N
НИЯ
210
можно получить следующие рабочие формулы для отыска
сА=нА-н,
CT = S2-H,
A0.9)
A0.10)
CW = S2-HA. A0.11)
Для рассматриваемого примера имеем: НА = 202,4536 ,
ц* 202,2480, S2 = 202,6530 и Ст= 0,4050 , СА = 0,2056 , Сж= 0,1994.
При делении суммы квадратов на соответствующее число
степеней свободы получаются средние квадраты, называемые
соответственно общим, факпгориальным и случайным:
N-\ а-\ N-a
Средний квадрат QT служит оценкой общей дисперсии а2,
характеризующей варьирование значений xtJ вокруг общей средней х ,
вызванное влиянием на результативный признак как изучаемого
фактора А, так и случайных причин. Случайный средний квадрат
Qw служит оценкой случайной дисперсии o2w и, значит, Qw=s2w
Средний квадрат QA характеризует варьирование в ряду
выборочных средних х,, и поэтому он отражает не только варьирование
средних ц,, если [а для разных градаций А неодинаковы, но и то
варьирование, которое имеет место в силу того, что вместо щ мы
используем их оценки xt. Можно показать, что в случае равномерного
комплекса II модели Q^ является оценкой a 2W + поА , а для I модели -
оценкой а 2w + riK2A .
Отсюда следует, что зная средние квадраты Q^ и Q^ ,можно
получить оценки s2A (или к\) для а2А (или к2А), характеризующих
варьирование (неодинаковость) средних ц,:
4(или^) = ^-^ (Ю.13)
Обычно нахождение оценки дисперсии s\ (или к2А) имеет смысл
проводить лишь в том случае, когда влияние изучаемого фактора не
вызывает особых сомнений, т.е. когда есть основания утверждать,
что <уа (или к2А) отлична от нуля. Значимость влияния фактора на
результативный признак оценивается с помощью статистики F,
которую можно вычислить как отношение: FA/W~-^-.
Qw
Если F> Fa для vi = a - 1 и V2 = N- я, то с соответствующей
вероятностью влияние фактора на результативный признак считается
статистически значимым.
Действительно, поскольку Q^ является оценкой выражения
®w + n<32A (или o2w + nK2A), a Qw - оценкой o2w, то дисперсионное
211
отношение F = —— в случае отсутствия влияния фактора на резу;;...
Qw
тативный признак, т.е. когда аА2 (или кА) равно нулю, будучи
отношением двух независимых оценок Q^ и Q^ одной и той же диспе ~
сии а ]у , должно варьровать около 1. Если аА (или к\ ) больше О, * о
центр распределения F оказывается больше 1. В случае, когда
выборочная величина F оказывается настолько большой, что
случайными причинами появление такого ее значения трудно объяснить,
нулевую гипотезу об отсутствии влияния изучаемого фактора
отбрасывают и признают, что <ja (или к\ ) больше 0.
Для приведенного выше примера получим:
^ 0,2056 ЛЛС1>1 _ 2 0,1994 ЛЛ1„
Q^ = ——- = 0,0514, Q^ = sw" = ~\— = 0,0133
4 15
YA/W --I = 3,9 ,что превышает Fo,os = 3,1 для vi = 4 и V2= 15.
Поскольку с вероятностью Р = 0,95 влияние местоположения разрезок
на содержание гумуса статистически значимо, можно оценить и
дисперсию а \ , которая характеризует* степень варьирования среднего
содержания гумуса между разрезами:
д, = 0,0514-0,0133 =00095
Если в результате проведенного анализа обнаруживается, что
величина FA/W < Fa и, следовательно, нет оснований считать, что
изучаемый фактор оказывает влияние на распределение результа
тивного признака, то средние квадраты Qw и QA в равной степени
можно рассматривать как оценки одной и той же дисперсии a 2W , ха
растеризующей в этом случае варьирование в пределах всего
комплекса. При этом лучшей для a2w можно считать оценку s^.,
усредненную из Qn/ и Q^. Усреднение следует проводить с учетом "веса"
этих средних квадратов, в качестве которого выступает
соответствующее им число степеней свободы:
Qw(N-a) + QA{a-\)
(N-a) + (a-l)
Откуда, учитывая, что Qw(N - а) = Ст QA(a - 1) - СА, CW+CA=CT,
s2 =-
получим sw
2 _ СТ
212
Как видим, в том случае, когда влияние фактора на
результативный признак незначимо, оценкой дисперсии изучаемой величины
может служить s2T . Если результаты дисперсионного анализа свести
в таблицу, то она примет вид, представленный в табл. 10.2.
Таблица 10.2
Источник
варьирования
Местоположение разреза
(фактор А)
Случайные причины
(фактор W)
Случайные и учитываемые
факторы G)
V
4
15
19
Сумма
квадратов С
0,2056
0,1994
0,4050
Средний
квадрат Q
0,0514
0,0133
0,0213
Оцениваемый
параметр
°W + ™A
a w
О т -С5 А + G w
F
3,9*
5^ = 0,0133 5^=0,0095 5^=0,0115 sA = 0,091
'*F>Fo.os = $,\.
Проведенное исследование свидетельствует о том, что
содержание гумуса варьирует как в образцах, отобранных в одном разрезе
(степень этого варьирования характеризуется величиной
Sw- 0,115%), так и от одного разреза к другому (степень
варьирования средних для разрезов содержания гумуса почти столь же велика,
как и в пределах одного разреза, и оценивается величиной
sA = 0,097%).
Значимость между средними квадратами обычно отображают
звездочками у значений F, отмечая в примечании к таблице, какому
минимальному уровню значимости соответствует различие (см.
табл. 10.2).
10.3. ОЦЕНКА СТЕПЕНИ ВЛИЯНИЯ ИЗУЧАЕМОГО ФАКТОРА
И ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ СРЕДНИХ
Установление влияния изучаемого фактора на результативный
признак вызывает естественное желание оценить степень этого
влияния, т.е. ту долю варьирования результативного признака,
которая обязана своим происхождением воздействию данного
фактора. Очень привлекательным в этом плане представляется равенство
Q
A0.7). Однако попытку взять отношение —— в качестве оценки по-
казателя степени влияния нельзя считать удачной по той причине,
что факториальная сумма квадратов является не только (а нередко и
не столько) результатом влияния изучаемого фактора А на признак,
по и следствием варьирования оценок xi. Для получения
исправленного показателя степени влияния из величины СА нужно взять лишь
ту часть, которая своим происхождением обязана только влиянию
14*
213
фактора А, С учетом этого для II модели дисперсионного комплекса
степень влияния можно оценить по формуле Миллса
^=1-7Г"> A0.14)
где е\ - показатель степени влияния фактора А в долях единицы.
Для модели I типа в качестве показателя степени влияния
пользуются так называемым внутриклассовым коэффициентом
корреляции, вычисляемым по формуле
_ Qa~Qw Пл,гч
'A-QA+{n-iJw A0л5)
или
Га =
кА A0.16)
кА +sw
Следует иметь в виду, что как rAt так и е\ , вычисляемые по
формулам A0.14) - A0.16), оказываются смещенными оценками рА и r\ \ ,
причем тем более смещенными (преуменьшенными), чем меньше
число градаций а при данном объеме дисперсионного комплекса N.
Вычисление е\ и гА имеет смысл производить лишь в том случае, когда
влияние изучаемого фактора статистически значимо.
Рассмотренный в 10.2 пример относится ко II модели
дисперсионного анализа. Учитывая, что фактор А влияет значимо, оценим
2 , 0,0133 л„0 „
степень этого влияния: е А = 1 — = 0,38 . Полученная величина
А 0,0213
означает, что местоположение разреза на 38% определяет
варьирование содержания гумуса. Остальные 62% из общей вариабельности
свойства являются следствием влияния случайных факторов, т.е. не
учитываемых нами и обусловливающих наличие неоднородности в
содержании гумуса в пределах одного разреза.
При условии значимости влияния изучаемого фактора на
результативный признак приобретает смысл установление границ
возможных значений средних \х по отдельным градациям фактора А.
Эти доверительные границы вычисляют согласно выражению
fia^Xi±ta^y A0.17)
л/л
где га берут из табл.ЖПриложения для v = vw = N - a, a sw = JQW .
214
;. Если влияние фактора статистически значимым не признано, то
>. доверительные границы среднего для комплекса в целом можно
оценить по формуле
Ia=x±ta^=, A0.18)
где ta берется для v = N-l,&sT= ^QT .
По результатам дисперсионного анализа содержания гумуса
(Табл. 10.1 и 10.2) имеем: sw = 0,115 , при vw = 15 ro,os = 2,13 и
х/;005= х, ± 0,12 . Для градации А и например, получаем
х1;0,05 = 3,16 ±0,12%.
10.4. УСЛОВИЯ ПРИМЕНИМОСТИ ДИСПЕРСИОННОГО
АНАЛИЗА И ПРЕОБРАЗОВАНИЯ ЗНАЧЕНИЙ
РЕЗУЛЬТАТИВНОГО ПРИЗНАКА
Дисперсионный анализ строится в предположении, что
изучаемый признак имеет нормальное распределение и его дисперсия по
всем градациям учитываемого фактора одинакова. Как показывает
практика, условие нормальности распределения не является очень
жестким, но условие однородности дисперсий должно выполняться
строго. Проверка выполнения этого условия осуществляется с
помощью критериев однородности дисперсий. Если обнаружится, что
дисперсии нельзя считать одинаковыми, то дисперсионный анализ с
исходными значениями х результативного признака проводиться не
может и приходится прибегать к некоторым нелинейным
преобразованиям значений результативного признака.
Так, если случайная величина X имеет распределение Пуассона,
когда дисперсия равна среднему, то дисперсионный анализ явно не
применим. В этом случае можно воспользоваться преобразованием
у = у[х и вести дисперсионный анализ по значениям у, для которых
дисперсия почти не зависит от среднего.
В случае пропорциональности стандарта распределения
среднему, а также в условиях, когда эффекты воздействия факторов не
суммируются (в основе дисперсионного анализа лежит слагаемость
эффектов), а перемножаются, значения результативного признака
можно заменить их логарифмами.
Заметим, что проведение преобразований не всегда дает
желаемый эффект, в силу чего после проведения преобразований проверку
пригодности данных для дисперсионного анализа следует
повторить.
215
Замена значений х на линейные функции от них (увеличение чщ
уменьшение всех значений на постоянную величину, умножение или
деление на постоянную величину) не изменяет пригодности данных
для проведения дисперсионного анализа, однако к таким преобразо-
ваниям иногда прибегают с целью упрощения вычислений.
Вычисленные по преобразованным данным значения F, г и е2 в полной
мере относятся и к непреобразованным данным. Если длл
исследователя представляют интерес средние, дисперсии и
стандартные отклонения для исходных данных, то полученные при
дисперсионном анализе линейно преобразованных данных соответствующие
оценки требуют корректировки (см. §6.1).
10.5. ДИСПЕРСИОННЫЙ АНАЛИЗ НЕРАВНОМЕРНОГО
ОДНОФАКТОРНОГО КОМПЛЕКСА
Схема вычислений при анализе неравномерного комплекса мало
чем отличается от приведенной выше. Отличия состоят в том, что
объем дисперсионного комплекса N можно найти только как £л, , а
S2
величину НА - как сумму отношений —*-, вычисленных для
отдельных градаций фактора А:
В неравномерном комплексе при оценке к\ (или s2A ) и гл по
формулам A0.13) и A0.15) вместо п следует подставлять усредненную
величину п , вычисляемую по формуле
N2 -V?i2
N(a-\)
10,6 ДИСПЕРСИОННЫЙ АНАЛИЗ ДВУХФАКТОРНОГО
КОМПЛЕКСА С ПОВТОРНОСТЯМИ
Наиболее простым является тот случай, когда в двухфакторном
комплексе для каждой градации одного фактора (например, А)
имеется полный набор всех градаций другого фактора (В). Если д ш
любого сочетания градаций факторов А и В величина
результативного признака определялась с повторностыо, превышающей
единицу, то можно не только определить влияние факторов А и В »
отдельности, но и влияние взаимодействия факторов А В (наличие
216
Ёмкого влияния проявляется в том, что характер изменений
результативного признака при смене градаций одного фактора зависит от
градации другого фактора).
g При анализе равномерных комплексов с повторностью п общая
, квадратов Ст может быть представлена в виде
С г = С а + С в + САВ + Cw.
Если число градаций фактора А равно а> а число градаций
фактора В равно Ь, то объем дисперсионного комплекса N = abn , а
числа, степеней свободы, с которыми находятся отдельные суммы
квадратов, таковы:
vT = N-l, vA = a-l, vB=b-l,vAB = vAvB, vw = ab(n-\).
Очевидно, что vt = vA + vB + vab + vw •
Схема вычислений и все небходимые формулы при проведении
дасперсионного анализа двухфакторного равномерного комплекса,
где значения результативного признака равны л^ (/ = 1, 2,..., а;
J* 1, 2, ..., Ь\\- 1,2,..., /i), представлены в таблице 10.3.
; Обычно оценку значимости факторов начинают с АВ. В том
случае, когда FAB/W < Fa (vi = vAB и vi - vw) это влияние признают незна-
^чимым, и тогда в качестве оценки для <32w берут усредненную вели-
чину Qnr =-iL- , где С w. = CV+ С^я и vjr = vw+ vab. Значимость
: vw*
' дисперсий a2A и g2b в этом случае определяют по отношению
соответствующих средних квадратов к Q ц/.: /^/и, ~—-™
.. (VI = Ул И V2 = V и/. ) И F^ = —■£- (V1 - Уд И V2 = V и/. ).
В том же случае, когда влияние взаимодействия факторов А В
оказывается значимым, способ оценки значимости дисперсий о2А и
о?в или кА hkJ зависит от того, каков характер градаций
учитываемых факторов. Если факторы имеют фиксированные градации
(I модель), то QAy QB и QAB взаимно независимы, и тогда значимость
&А нов определяют по величине отношения QA и Qz? к случайному
среднему квадрату: FAAV =-^- (vi = vA и V2 = vlv) и FBAr = ~-.
(Vl = VBH V2= Vh/).
Если же градации факторов имеют случайный характер
(П модель), то и Q^, и QB содержат некоторую часть, зависящую
°т совместного влияния факторов. В связи с этим проверку
217
статистической значимости а2А и а2в (т.е. проверку отличия этих
дисперсий от нуля) осуществляют по величине отношений
Fa/ab~-
- --*- (vi = v^h v2=vAB) и FB/AB = --2- (v\ = vB и V2=vAB).
Qab V * * ^ ™ Qab
Наконец, если дисперсионный комплекс соответствует
смешанной модели, то значимость влияния фактора с фиксированными
градациями определяют по отношению соответствующего среднего
квадрата к Q^, а влияние фактора со случайными градациями -
сравнением среднего квадрата с QAB.
Таблица 10.3
Схема вычислений при дисперсионном анализе двухфакторного равномерного
комплекса с а градациями по фактору А, Ь градациями по фактору В и повтороностью п
(i = 1,2,.., a; J = /Д..Д- / = 1,2,.., п; S = %хш>' $2 = Тхш* si = 5># / «У/ = 2>#;
#/ у р *
j
1-Sy S*«
~; Яд =
"> Нав =
Источник
варьирования
В
АВ
W
Т
V
я-1
лЬ(л -1)
С
НА-И
Нв-Н
ст- с a- cB-cw
S2 -Нав
S2-H
Q
САЬЛ
CbNb
Сав^ав
СцЛ>ц'
. F
I модель
Qa/Qw
Qb/Qw
Qab/Qw
II модель
Qa/Qab
QB/Q.4B
Qab/Qw
I модель: k\ = Qa Qw , k\-.
bn
II модель: s^Qa"Qab , s\--
bn
Qb "Qw f,2 _ Qab "Qw
' KAB ~
Qb ~ Qab л _ Qab ~ Qw
» *ab ~
Роль факторов А, В них взаимодействия АВ в варьировании
результативного признака при условии, что соответствующее F по
меньшей мере превышает 1, можно оценить величинами s2A , s2B и
s2AB (или к2А , к\, к2АВ). Техника подобных вычислений, в сводном
виде представленная в табл. 10.3, может быть проиллюстрирована
следующим примером. Изучалось влияние характера органических
добавок в почву (фактор Л) и вида дождевых червей (фактор В) на
водопрочность капролитов. Для этого в сосуды с почвой были
помещены черви двух видов (градации В\ и Bi), причем в одни сосуды
органических добавок не вносили (А\), а в другие добавляли листья
различных деревьев (Аг и Аз). Водопрочность капролитов (х,%)
определялась с повторностью п = 2 (табл. 10.4).
218
Таблица 10.4
Зависимость водопрочное™ капролитов (хр, %) от характера органических добавок в
почву (фактор А) и вида дождевых червей (фактор В). (I модель двухфакторного
равномерного комплекса с а = 3; Ь = 2; л = 2; * = 1,2,.., а; у = 1,2,.., ft; / = 1,2,.., л).
Градации
фактора
Ai
Ai
А2
Аз
Sj
Xyl
и
15
14
16
29
35
Ь
D)
A21)
B25)
A96)
B56)
(841)
A225)
Градации
h
sy | (ф
26 | F76)
30 : (900)
64 j D096)
120
14400
фактора Bj
Вг
х* | D) |s* \ (si)
3
8
24
30
27
32
F4)
E76)
(900)
G29)
A024)
11 | A21)
54 1B916)
59 ! C481)
124
15376
st
37
84
123
pi =
= 244
sf
1369
7056
15129
= 23554
-> о 244
•52=6166; Y,Sj = 29776; £S,y = 12190; //=32-2=12; Я =^—-= 4961,3;
Я, = "«1 = 5888,5; Яй = i?™ = 4962,7; *,, = ^ = 6095,0.
Источник
варьирования
A
В
AB
' W
T
■^■"■■^■■-■^■4
V
3-1 =2
2-1 = 1
2-1=2
2-3-B-l) = 6
12-1 = 11
i ——=^———■ i
С
5888,5-4961,3 = 927,2
4962,7-4961,3= 1,4
1204,7-927,2-1,4-71,0 = 205,1
6166-6095,0 = 71,0
6166-4961,3= 1204,7
0
463,6
1,4
102,6
11,8
109,5
F
39,3""^
0,Г
8,7*
463,6-11,8
2-2 '"
112,9
102,6-11,8
= 45,4
F > Fo.os; ***F > Fo.ooi; "F > Fo.os
.-• Проведение дисперсионного анализа обычно завершают
сопоставлением полученных оценок средних. В многофакторных
комплексах средние можно вычислять для разных групп подмножеств
Данных и при этом возникает известная трудность в индексации
оценок. Удобная форма лаконичной индексации для стандартной
Последовательности буквенных обозначений состоит в замене
индуса на точку для тех индексов, по которым осуществлено
усреднение. Так, в двухфакторном комплексе с а градациями фактора А и b
Градациями фактора В средние можно вычислить для отдельных
Градаций одного из факторов или для конкретного сочетания обоих
^факторов. Если в последовательности индексов ij при оценке средне-
f °э где i = 1,2,..., а и у = 1, 2,..., ft, заменить индекс / на точку, то х.;-
219
будет означать среднее по всем градациям фактора А дляу-й града. }
ции В. Аналогично, xim есть среднее для /-й градации фактора Л, а
Xjj - среднее для сочетания i-й градации фактора А су-й градацией В.
Используя подобную систему индексации, рассмотрим некоторые
результаты проведенного дисперсионного анализа. Как следует из
табл. 10.4, наиболее существенно на водопрочности капролитов ска-
зывается характер органических добавок. В среднем для обоих
видов червей без внесения листьев водопрочность капролитов равна
37
х1# = — = 9%, а при внесении листьев разных деревьев
84 123
х2т =— = 21% и х,т = = 31%. Сам по себе вид червей не оказы-
4 4
вает значимого влияния на водопрочность капролитов. Это
проявляется в том, что в среднем по всем градациям фактора А
120
водопрочность капролитов очень близка: х#1 = = 20% и
6
х.2=—=21%.
6
Однако водопрочность капролитов зависит от сочетания вида
червей с характером органических добавок. Действительно, если
внесение листьев (градация Аг) сравнительно с контролем {А \) у вида
червей В\ практически не приводит к увеличению водопрочности
капролитов (х и = —= 13% и х 21= —= 15%) то у червей вида В2
водопрочность капролитов увеличивается от х п = —= 6% до
54
Х22= — = 27%. Различие в органических добавках (Ai и Аз)
практически не сказывается на водопрочности капролитов червей
вида Вг{х и = 27% и х 32 = 30%), но очень заметно проявляется в
водопрочности капролитов червей вида В1 (х и = 15% и ni = 32%).
Эти особенности нашли свое отражение в том, что водопрочность
капролитов значимо зависит от взаимодействия факторов А и В.
10.7. ДИСПЕРСИОННЫЙ АНАЛИЗ ДВУХФАКТОРНОГО
БЕСПОВТОРНОСТНОГО КОМПЛЕКСА
В двухфакторном комплексе каждому сочетанию градаций
факторов может соответствовать лишь одно измерение результативного
признака. В таких комплексах, называемых бесповторностными,
220
Кщую сумму квадратов Ст можно разложить на три части, одна из
Вторых СА связана с влиянием фактора А, другая Св определяется
Боданием фактора В и третья Cw зависит от воздействия на
результативный признак случайных причин: СТ-СА + Св+ Cw. Соответ-
^венно общее число степеней свободы v оказывается суммой чисел
фепеней свободы, с которыми найдены отдельные суммы квадратов:
vr= va + vb+ vn^ где vA = а - 1, vB- b - 1, vw= vAvB, vT- N -l.
Заменим, что в бесповторностном комплексе нельзя оценить влияние
взаимодействия факторов Д и если такое влияние существует, то оно
мажет существенно сказаться на величине случайной суммы
квадратов (и соответствующем среднем квадрате), поскольку
взаимодействие факторов оказывается отнесенным к случайным факторам.
Схема вычислений при анализе двухфакторного бесповторност-
ного комплекса (табл. 10.5) достаточно проста и не требует особых
пояснений. Заметим лишь, что QA и QB являются оценками соответ-
9 *У *? **) "} *7
ственно ow + boA и ow + aoB для II модели или ow + bKA и
а]у + ак \ для I модели, a Qw - оценкой а 2W (и значит Qц/ = s2W).
Таблица 10.5
Схема вычислений при дисперсионном анализе бесповторностного двухфакторного
комплекса с а градациями фактора Ли b градациями фактора В
(JSf = ab;S = Z^*' *=Z^; A=S>0/ «a?V H = ^;Ha = -L^;Нв = ^— ;
/=1,2,..,в,\/ = 1,2,..,6)
Источник варьирования
А
В
W
т
V
va — а - i
vs^b- J
vv/ ~ vavb
vt = N- 1
С
Ca=Ha-H
Cb=Hb-H
Cw= Ct-Ca—Св
Ct=S2-H
Q
Qa = С a /va
Qb = Cb/vb
Qw= Cw/vw
Qt = Ct/vt
F
Fa/w = Qa/Qw
Fbav = Qb/Qw
* » (или ,* ) = &J^E.; /c | (или , | ) = &Z.
Обычно вычисление опенок ,?^ (fc^) и s\ (k2B) имеет смысл
только в том случае, если влияние соответствующих факторов
статистически значимо, т.е. когда FA/w-^->Fa (при vi = v^ и
Qw
V2=vw)u FB/w = --^~>Fa(npuvi = vBnv2=vw).
Если же один из факторов оказывает незначимое влияние
(например, А), то соответствующий средний квадрат (QA) можно
рассматривать наряду с Q^ как независимую оценку генеральной
221
случайной дисперсии gw, что позволяет вычислить усредненную
оценку случайной дисперсии (при незначимости влияния А) по фор.
W
'W
+ V.
муле Q w. = s2w. -Cw.h ir , где Сw- = Cw+ CA и v
Тогда при вычислении оценки значимой дисперсии (например,
оценок s\ или /с|) в соответствующей формуле (см. табл. 10.5)
можно использовать вместо Q^ величину Q w..
Таблица 10.6
Результаты взвешивания пробных укосов клевера (двухфакторный бесповторностный
комплекс; использовано преобразование вида»= 100(лгу— 0,50); в скобках приведены
квадраты соответствующих значений )
л,
Ах
Л2
Аъ
А*
А 5
Sj
s2j
yj
У a (Ji) пРи градации Bj
В\ j Вг \ Въ \ Ва
13 ! 30 j 22 1 37
A69); (900) ! D84) 1A369)
28 j 32 j 31 j 33
G84IA024I (961) 1A089)
4 i 27 j 19 : 25
A6) ! G29) 1 C61) ! F25)
11 j 15 j 33 j 27
A21)! B25) 1A089I G29)
6 : 24 j 35 j 31
C6) j E76) jA225)j (961)
62 j 128 j 140 j 153
3844 j 16384 j 19600 I 23409
12 | 26 j 28 | 31
Вь \ Be
14 j 15
A96IB25)
22 j 11
D84)|A21)
13 : 22
A69ID84)
19 j 8
C61)| F4)
20 : 12
D00IA44)
88 j 68
7744 j 4624
18 j 14
i i
Si
131
157
110
113
128
5 = 639
£Sy2 =75605
sf
17161
24649
12100
12769
16384
>'i
22
26
18
19
21
J^Sf =83063
S2 = 16121
i
a = 5, b = 6, # = 5-6 = 30, H
75605
639
83063
= 13611, HA =
30 6
13844,
#* = -
15121, ^ = 21.
Таблица 10.7
Окончание дисперсионного анализа (см. табл. 10.6)
Источник варьирования
А
В
W
т
V
5-1 =4
6-1 =5
4 • 5 = 20
30-1 =29
С
13844-13611 =233
15121-13611 = 1510
2510-233-1510 = 767
16121-13611 =2510
Q
58
302
38
87
F
1,5"
7,9*"
' Wm = 4 + 20 = 24, CWm = 233 + 767 = 1000, Q Wm •
1000
~24~
= 42,/с'
302 - 42
= 52.
F > Fo,oo\, ~F < Fo,o5.
222
Предположим, что для оценки однородности травостоя на
каждом из пяти вытянутых вдоль склона участков, занятых клевером,
фыло выкошено по 6 пробных двухметровых площадок, равномерно
размещенных вдоль склона (табл. 10.6). Чтобы выяснить, влияет ли
индивидуальность участков (фактор А, а = 5) и их местоположение в
разных частях склона (фактор В, Ь = 6) на величину укоса клевера,
дроведем дисперсионный анализ этого комплекса согласно
приведенной выше схеме (табл. 10.7).
Из табл. 10.7 следует, что влияние индивидуальности участков
'•(фактор А) на урожай клевера незначимо, но очень надежно
обнаруживается влияние местоположения пробных площадок на
различных частях склона (фактор В).
10.8. ИЕРАРХИЧЕСКАЯ СХЕМА
ДИСПЕРСИОННОГО АНАЛИЗА
В рассмотренных выше схемах дисперсионного auamna каждая
градация одного фактора сочеталась с каждой градацией другого
фактора, причем в принципе было безразличным, какой фактор
считать первым (А), а какой - вторым (В). Однако подобные схемы
встречаются далеко не всегда. Если, например, на а участках
(фактор А) отобрано по Ъ растений (фактор В), с каждого из
которых взято для определения хлорофилла по п листьев, то очевидно,
что хотя каждое растение и можно рассматривать как градацию
фактора В, но эти градации для разных градаций фактора А не ода
наковы: данному растению на участке А\ нельзя однозначно найти
соответствующее растение на участке /h. Отсутствие таких
соответствий приводит к отсутствию взаимодействия факторов.
Особенностью подобных схем является то, что по своему в таянию
на результативный признак факторы могут быть расположены в
определенной последовательности от более общих факторов к более
частным. Полученная при этом ступенчатая схема дисперсионно! о
комплекса получила название иерархической схемы (или схемы
выборки из выборок).
Иерархические лестницы факториальных признаков могут иметь
различную длину, а сами ступени - различную "высоту". Например,
в качестве ступеней можно взять участки noBq-шюсти почвы увели
чивающейся крупности: 0,01 м2 в пределах 1 м2, 1 м2 в пределах 25 м2,
25 м2 в пределах 0,1 га и т.д. Такое построение дисперсионного
комплекса позволяет обнаружить ту часть от общего варьирования
результативного признака, которая возникает на отдельных этапах,
ступенях увеличении размеров характеризуемых объектов. Здесь
ступени могут быть и более "высокими": например, отдельные пол». а
пределах территории одного хозяйства, отдельные хозяйства в п?> .
делах района и т.д.
Предположим, что на а контурах, соответствующих одной и : ;
же почвенной разности, взято по b площадок, в пределах которых г
"точках" отобрано по d образцов. Если каждый образец проана. .
зирован п раз, то общее варьирование всех полученных значешь
изучаемого свойства можно рассматривать как результат влиян ,
случайных факторов И7, обусловливающих неодинаковость дани?
анализа одного и того же образца (аналитическая погрешность^
как результат варьирования свойства между образцами в предел,
одной "точки" (фактор £>), между "точками" в пределах одной п.
щадки (фактор Q, между площадками в пределах одного кошу
(фактор В) и, наконец, между контурами (фактор А).
Таким образом, возрастание варьирования изучаемого признак
по мере увеличения площади опробования можно рассматривать к-
ступенчатый процесс, в котором переход на очередную ступе*
крупности площади как-то сказывается на общем варьирован-
свойства. Задача дисперсионного анализа в этом случае сводится
оценке той роли в общем варьировании признака, которую играт,
отдельные ступени.
В рассматриваемом примере все четыре учитываемые фактор
имеют случайные градации, и следовательно, дисперсионный ко\
плекс относится ко II модели. В равномерном комплексе его объе>
N = abedn. Если в таком четырехфакторном комплексе принять / =
2, ..., a;j = 1, 2, ..., b\ k = 1, 2, ..., с; / = 1, 2, ..., d; m =• 1, 2, ..., пу г;-
a,b,c,d - соотвеахтвенно число градаций по факторам А,В,С и Д а
-повторность, то с учетом отмеченных выше особенностей иерарх!
ческого комплекса получим, что число градаций по факторам А, !
С и D окажется соответственно равным a, ab, abc и abed. При это
отдельные градации факторов можно обозначить с помощью индсм
сов: Л,-, By, CiJkfDi/k/.
Иерархический дисперсионный анализ строят исходя из
допущения о возможности разложения общей дисперсии а2 на отдельные
составляющие, характеризующие вариацию средних для отдельны?
градаций более низкого уровня в пределах градаций последующего
более высокого уровня:
а2 = <з2А + а| + о2с + o2D + а и,. A0.20)
В соответствии с этим общую сумму квадратов С можно
представить в виде CT = CA + CB+CC + CD + Cw.
Для нахождения этих сумм квадратов требуется прежде всего
вычислить суммы значений Xgkim (в дальнейшем для простоты индексы
224
Вм х будем опускать) в пределах отдельных градаций факторов и в
Едем по комплексу, а также сумму квадратов всех N значений х:
£■ s=i:x,si = j:x,Sv=j:x,s(fi=zxtswa=zx9s2 = j:x*. 00,21)
~ ijklm jkbn klm Im m ijklm
Схема дальнейших вычислений и используемые при этом форму-
до приведены в табл. 10.8.
Напомним, что каждое значение F сопоставляется с табличным
да чисел степеней свободы vi и V2, соответствующих числам
степеней свободы, с которыми при вычислении F найдены средние
квадраты» стоящие в числителе и знаменателе. Например, для Fq^ это
yi=VCH V2= VD.
Отметим, что если средние квадраты Q& и Qr являются оценками
соответственно дисперсий с2W и а2 (и, значит, Qw=sly и Qr = /), то
остальные средние квадраты оценивают более сложные выражения:
Од-хги' + иа^;
Qc -» a L + па 2П + </иа 3,;
(Ю.22)
Q^-^a^ + waz> + dnoc + cdnoB ;
Q^ ->cj^ + na^ + dnoc + cdno2B + bcdno2A .
Соотношения A0.22) лежат в основе тех формул (см. табл. 10.8),
йо которым находятся оценки отдельных дисперсий. При F < 1
оценка соответствующей дисперсии не может быть вычислена и ее
условно можно приравнять нулю. Сумма дисперсий, стоящих в правой
части формулы A0.20), лишь приближенно оказывается равной
оценке £ дисперсии а2, как это и должно быть, учитывая, что мы
имеем дело с оценками.
Для иллюстрации техники вычислений при анализе подобного
Комплекса допустим, что в пределах поля в случайном порядке было
выбрано два участка площадью 500 м2 (фактор А, а - 2), внутри
Каждого из которых также случайно взяты по две площадки
размером 5 м2 (фактор В, Ь = 2). В каждой из таких площадок взято в
Случайном порядке по 4 площадки по 1 м2 (фактор С, с = 4), с
которых отбиралось по два образца объемом 100 см3 (фактор D, d = 2).
Из каждого образца бралось две пробы и в них определялось значе-
ниерН(л = 2).
В этой схеме "выборки из выборок" можно оценить тот вклад в
Общую дисперсию изучаемого свойства, который определяют
Неоднородности более мелких участков поверхности в пределах
более крупных участков. Для упрощения вычислений отдельные
Значения рН (обозначим их х) были преобразованы по формуле
225
Таблица 1 0.8
Схема вычислений при дисперсионном анализе равномерного иерархического
четырехфакторного комплекса (Н модель).
(Числа градаций по факторам А, В, Си Dсоответственно равны а» Ь, с, а\ повторность
равна л, объем дисперсионного комплекса N = abcdn, Н = , Н
N
j
bcdn '
S^
z%
нв = ——, нс = J——, hd •
can an
HSifkl
m
Источник варьирования
A
В
С
D
W
T
V
v = a - 1
v = a(b - 1)
v = ab(c - 1)
v = abc(d- 1)
v = abcd(n - 1)
С
сА = нА-н
С в = Нв -HA
С с = Не ~Нв
Cj} = Hd -Не
Cw-Hw~Hd
■ Ct=si-h
о.
Qa = CA/vA
Qb=Cb/vb
Qc=Cc/vc
Qd^Cd/vd
Qw~ Cw/vw
, gr=C7/vr
F
FA/b=Qa/Qb
F&c - QbIQc
Fcm = QdQD
Fd/w- QrJQw
При условии значимости влияния соответствующего фактора (и по меньшей мере при
F>\):slD
i_Qd-Qw Л_0с-0о p2_Qb-Qc
-> *l
dn
cdn
.Qa-Qb
bcdn
у = 100(x - 7,00). Исходные данные для значений у и все этапы
отыскания различных сумм S представлены в табл. 10.9.
Так как а = 2, Ъ = 2, с = 4, d = 2 и п = 2, то iV = 64 и
Я =1^061 = 35438, Я,= *^ = 36222, Нв =^= 38093,
64
32
16
9119ftR 116ЯЯЯ
Нс = _ - 52822, Нд = —= 58294 . Дальнейшие вычисления,
сведенные в табл. 10.10, показывают, что влияние факторов А и В
оказалось незначимым.
Окончательные, приведенные к значениям рН, средние квадратиче-
ские отклонения, характеризующие варьирование этого свойства в
пространстве, таковы: sw = 0,10, sD = 0,11, sc = 0,15, sB ~ sA = 0. Эти
результаты говорят о том, что в пределах изучаемого поля
варьирование значений рН в образцах, отобранных на метровке, характер;;
зуегся стандартным отклонением sD = 0,11.
Практически такая же вариабельность наблюдается и между мет
ровками в пределах 25-метровой площадки (sc = 0,14). Между
площадками в пределах одного участка, как и между отдельными
участками на поле, различия по величине рН допустимо считать
отсутствующими. Все это может служить основанием для заключения,
что вариабельность величин рН возникает лишь на низших ступенях
226
Таблица 1 0.9
Четырехфакторный иерархический равномерный комплекс {х - значения рН;
использовано преобразование вида у = 100(дг - 7,00))
1даера градаций
факторов
1 J * 1 \
1
f
2
1
2
2
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1 !
2 |
1 ;
2 !
i ;
2 i
i i
2;
1 j
2 j
1 ;
2 j
1 1
2 :
1 j
2 |
2 |
1 ;
2 !
1 :
2 !
1 :
2 !
1
2;
1 :
2 j
1 !
2 !
1 1
2 ;
Jfy**»
42
22
25
33
37
23
42
9
23
-8
4
33
43
18
43
18
21
18
37
9
23
41
-28
-2
-7
12
30
11
46
46
25
27
39
42
37
18
41
42
17
20
25
7
8
29
34
33
32
34
18
15
39
8
37
41
-67
2
-1
14
4
32
61
59
33
37
v2
УукЬп
1764
484
625
1089
1369
529
1764
81
529
64
16
1089
1849
324
1849
324
441
324
1369
81
529
1681
784
4
49
144
900
121
2116
2116
625
729
1521
1764
1369
324
1681
1764
289
400
625
49
64
841
1156
1089
1024
1156
324
225
1521
64
1369
1681
4489
4
1
196
16
1024
3721
3481
1089
1369
Sykl
81
64
62
51
78
65
59
! 29
: 48
-1
12
! 62
: 77
j 51
! 75
! 52
j 39
• 33
j 76
! 17
60
1 82
: -95
: 0
-8
26
34
43
107
105
58
64
S2
6561
4096
3844
2601
6084
4225
3481
841
2304
1
144
3844
5929
2601
5625
2704
I52i
1089
5776
289
3600
6724
9025
0
64
676
1156
1849
11449
11025
3364
4096
145
113
143
88
47
74
128
127
72
93
142
-95
18
77
212
122
s2
^yk
21025
12769
20449
7744
2209
5476
16384
16129
5184
8649
20164
9025
324
5929
44944
14884
s*
489
376
212
429
S2 St Sf
239121
865 748225
141376
44944
641 410881
184041
&*1506;
£3?*U59106.
52 = 61452; X^*/ = 116588;
2^ = 211288 ; ZS,y = 609482 ;
Таблица 10. lq
Окончание дисперсионного анализа (см. табл. 10.9)
Источник варьирования
Различия между площадками, В
Различия между метровками, С
Различия между образцами, D
Случайные причины, W
Факторы в целом, Т
1 ' i
V
1
2
12
16
32
63
i ■ i
С
36222-35438 = 784
38093-36222= 1871
52822-38093= 14729
58294-52822 = 5472
61452-58294 = 3158
61452-35438 = 26014
Г"" 1
2
784
936
1227
342
99
413
F
784 : 936 = 0,р
936: 1227 = 0,8-
1227:342 = 3,6**
342 : 99 = 3,4*"
4 = 342 " = 122; 4 = 1^1-211=221; 4=0; А =0 ;sw= 9,9;5D = U,0;5C= 14,9.
2 4
"F< Fo,o5; **Fo,oi < F< Fo.ooi
увеличения площади поверхности почвы, когда эта площадь менее
25 м2, т.е. варьирование рН является результатом
микронеоднородности почвы, а в мезомасштабе - между площадками и между
участками - дополнительного варьирования не возникает, а, значит,
как отдельные площадки размером 25 м2, так и участки по 500 м2
можно считать по величине рН однородными.
♦ *
*
Применение дисперсионного анализа в большинстве случаев
оказывается возможным лишь тогда, когда при получении
экспериментального материала учитывается предполагаемая схема его анализа.
Для дисперсионного анализа планирование эксперимента дает
важные преимущества, главные из которых состоят в том, что в много-
факторных опытах удается установить не только влияние отдельных
факторов на результативный признак, но и эффект взаимодействия
этих факторов, который нередко оказывается очень важной
характеристикой при анализе некоторых явлений. Постановка правильно
спланированного многофакторного эксперимента - это хорошо
продуманный перечень вопросов, который ставится перед из
учаемым природным явлением, а, как справедливо заметил Р.А.
Фишер, природа охотнее всего отвечает на логичный и продуманный
вопросник и часто воздерживается от ответа впредь до решения
какого-либо другого вопроса, если мы задаем ей один, казалось бы,
простой вопрос.
Каждое значение результативного признака в многофакторном
комплексе служит для оценки влияния всех факторов и всех
эффектов взаимодействия, а не одного какого-то фактора, как это обычно
бывает при сложившихся принципах постановки опытов. В силу
этого дисперсионный анализ позволяет дать более полную картину
существующих взаимосвязей при меньшей затрате средств и времени
на постановку экспериментов.
228
Вопросы для самоконтроля.
1. В чем принципиальное различие I и II модели дисперсионных
комплексов и какое это находит отражение в технике вычислений и
интерпретации результатов?
2. Что является непременным условием возможности проведения
дисперсионного анализа?
3. Почему анализ влияния фактора на средние значения признака
называется дисперсионным анализом?
4. На чем основаны принципы дисперсионного анализа?
5. Что представляет собой разложение суммы квадратов и всегда
ли факториальные суммы квадратов являются результатом влияния
факторов на результативный признак?
6. Почему средние квадраты не всегда являются оценками
дисперсий и оценками чего в таких случаях они являются?
7. Допустимо ли применять дисперсионный анализ, если
результативный признак представляет собой случайную величину,
распределенную по закону Пуассона?
8. С чем связаны трудности дисперсионного анализа
неравномерных комплексов?
9. Какие особенности присущи иерархическому дисперсионному
комплексу и к какой модели он относится?
10. С чем связана возможность проведения дисперсионного
анализа, если эксперимент проведен без повторностей?
Глава 11
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
11.1. ВИДЫ СВЯЗЕЙ И ИХ ПРЕДСТАВЛЕНИЕ
Среди задач, решаемых с помощью статистических методов,
особое место занимают задачи, связанные с изучением связей между
переменными величинами. Задачи такого рода в статистике решаются
с помощью специальных методов корреляционного и регрессной
ного анализа. Наиболее просто дело обстоит в том случае, когда
связь функциональная и каждому значению одной переменной
соответствует вполне определенное значение другой переменной, как,
например, связь между площадью крута и его радиусом.
В почвоведении большинство представляющих интерес связей
имеют не столь определенный характер. Так, при всей очевидности
наличия зависимости между массой агрегатов и их объемом, можнг
легко убедиться, что при этом агрегаты одинакового объема имеют
более или менее различные массы и наоборот. Связи, при которых
одному и тому же значению одной переменной могут соответствен
вать неодинаковые значения другой переменной, получили названк
корреляционных1.
Степень варьирования значений одного признака при фиксиро
ванном значении другого может быть различной. Если эта степень
варьирования относительно мала, то связь близка к функциональ
ной. При большом варьировании связь между изучаемыми
величинами менее выражена, степень связи меньше. Если любому значению
одного признака может соответствовать любое значение другого
признака, то связь между такими признаками отсутствует.
Корреляционные связи, таким образом, могут быть разной степени
выраженности, разной степени тесноты.
Предельным случаем наибольшей тесноты связи является связь
функциональная. Наименьшая теснота связи соответствует случаю
отсутствия связи, когда варьирование обоих признаков
осуществляется взаимно независимо. Степень тесноты связи может быть
выражена с помощью специальных показателей, вычисляемых при
проведении так называемого корреляционного анализа.
Характер взаимной изменчивости сравниваемых признаков
может быть отображен в различной форме. При сравнительно
1 Correlation - связь, соотношение. Корреляционная связь - это связь связности величин
(точнее, связность, парность).
230
Я^льшом объеме выборок результаты наблюдений над двумя
И^знаками можно представить в виде двух сопряженных рядов так,
R&B паре с каждым значением jc, величины X стоит соответствую-
Еде значение yt переменной Y. Такой ряд попарно связанных значе-
Ejg именуется корреляционным радом.
^Примером корреляционного ряда может служить ряд, отражаю-
ip0i взаимозависимость между содержанием в почве углерода (х) и
'ф&дего азота (у) в процентах:
' х 0,90 1,00 1,08 1,20 1,27 1,36
Г у 0,08 0,11 0,09 0,11 0,10 0,12.
Число пар значений в корреляционном ряду называется его обь-
«иом.
В данном случае объем ряда п = 6.
При больших объемах выборочных наблюдений прибегают к по-
Йроению корреляционных таблиц, или корреляционных решеток. В
?аких таблицах столбцы соответствуют отдельным классам с
серединами Xj по признаку X (/ = 1,2, ..., /с, где к число классов по X), а
строки - классам с серединами у( по признаку У (/ = 1, 2, ..., т, где
т- число классов по У). В каждую клетку, находящуюся на
пересечении отдельных столбцов и строк, вписываются частоты fjh
показывающие, сколько раз встречаются значения признака X,
попадающие в класс с Xj, когда сопряженные значения второго
Признака принадлежат к классу yt.
Так, из корреляционной табл. 11.1 следует, что при содержании
физической глины менее 10% (£, = 5) величина наименьшей влагоем-
кости менее 5,0% (у{ = 2,5) была встречена 3 раза (/h = 3).
Таблица 11.1
Корреляционная таблица зависимости наименьшей влагоемкости (у,%)
от содержания в почве физической глины {х,%)
й
2,5
7,5
12,5
17,5
22,5
27,5
L-
5
3
10
15
3
31
15
10
13
1
24
25
1
6
1
8
35
3
3
*/
45
2
1
3
55
2
1
3
65
8
8
75
6
6
/#
3
10
26
22
9
16
п=86
При том же содержании глины в 10 случаях была обнаружена
наименьшая влагоемкость в пределах 5,0 - 9,9% (у2= 7,5), причем та
231
же величина наименьшей влагоемкости была зафиксирована и в
тяжелых почвах: в 10 случаях, когда х2 = 15 и один раз при хг = 25.
В корреляционой таблице сумма частот по столбцам fj
характеризует распределение частот одного признака (х), а сумма частот по
строкам// - распределение частот второго признака. Очевидно, что
объемы выборок по обоим признакам пх = Щ и^ = Z/J одинаковы и
равны объему корреляционной таблицы и.
Связь между признаками может быть выражена графически. Если
по одной оси координат отложить значения признака х, а по
другой - у, то каждой паре наблюдений на графике будет
соответствовать точка с координатами х( и yt. Совокупность точек для всех
наблюдений образует на полученном точечном графике
корреляционное поле (рис. 11.1).
Когда результаты наблюдений
после группировки сведены в
корреляционную таблицу,
визуализация связи с помощью
корреляционного поля точек уже
невозможна, но в принципе может быть
осуществлена путем построения
призмограммы. Построение
такого графика обычно занимает
много времени и не всегда оправдано,
поскольку с неменьшим успехом
решает задачу визуализации сама
корреляционная таблица, если
принимать во внимание как
размещение ненулевых частот fa в
поле таблицы, так и поведение
значений этих частот. К примеру, из
таблицы 11.1 следует, что с
увеличением содержания физической
глины влагоемкость возрастает, причем наиболее заметно величина
влагоемкости увеличивается при изменении Xj от 5% до 25%.
Влагоемкость Jv ^ 7,5 встречается лишь при Xj = 5, а при Xj > 65
встречается только Ji = 27,5.
Как корреляционные, так и функциональные связи по форме
могут быть прямолинейными (или просто линейными) и криволинейными.
При корреляционной линейной связи, хотя каждому значению
одного признака и соответствует ряд отличных значений другого
признака, однако равным приращениям одного признака соответствуют
О
20
40 60
Рис.11.1. Зависимость между
логарифмом диффузивности (у) и влажностью
(х) почвы
232
1,40
1,20-1
"Л
V
в среднем одинаковые приращения другого признака. Графическое
изображение такой связи представляет собой корреляционное поле
точек, достаточно часто имеющее вид более или менее вытянутого
эллипса, длинная ось которого и отражает усредненную тенденцию
прямолинейной зависимости между признаками (см. рис. 11.1). При
функциональной линейной связи корреляционный эллипс
стягивается в прямую линию.
Криволинейность при корреляционной связи проявляется в том,
что корреляционное поле точек имеет изогнутую форму и среднее
течение линии, характеризующей взаимное изменение значений
переменных, идет по кривой, так что равным приращениям одного
признака соответствуют в среднем разные приращения другого.
Примером подобной
связи может
служить зависимость
между плотностью
почвы верхних слоев
и содержанием в них
гумуса в лесных
биогеоценозах (рис.
11.2).
Часто различают
прямые и обратные
связи. Прямыми
связями называют
такие, в которых
увеличение одного
признака
сопровождается увеличением
другого и наоборот
(см. рис. 11.1). При
обратных связях увеличению одной переменной соответствует
уменьшение другой.
О наличии крив о линейности и характере направленности
(прямая или обратная) связей иногда можно судить и по
корреляционным таблицам. К примеру, из табл. 11.1 следует, что связь между
влагоемкостью и содержанием физической глины отчетливо
криволинейна и в своем характере прямая, хотя к криволинейным связям
обычно понятие прямых и обратных связей применяется редко, тем
более, что само направление связи в разных участках значений
переменных может быть разным.
§ i,oo H
Щ 0,804
0,60 А
0,40
0,0
—1 1 I I I 1 И I—Т Г"
2,0 4,0 6,0 8,0 10,0
Гумус, %
Рис.11.2. Зависимость между плотностью почвы и
содержанием гумуса в ней (верхние горизонты почв в
лесных биогеоценозах)
233
11.2. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ
В большинстве случаев исследователь не знает a priori вид связи,
существующей между случайными величинами. Обычно о характере
зависимости судят лишь после получения экспериментальных
данных. В зависимости от характера точечного графика в первом
приближении решается вопрос, можно ли изучаемую связь
аппроксимировать уравнением прямой или эту связь более
целесообразно считать криволинейной.
Действительно прямолинейные связи встречаются достаточно
редко. Но во многих случаях аппроксимация линейной
зависимостью оказывается достаточно удачной, особенно если переменные
принимают значения в сравнительно узком диапазоне. Нередко не
большой криволинейностыо пренебрегают умышленно по той
причине, что линейные связи наиболее просто анализируются.
Показателем степени прямолинейной связи между признаками
служит коэффициент корреляции. Проведение корреляционного
анализа для оценки степени связи с помощью коэффициента
корреляции может считаться корректным, если выборочные совокупное?я
соответствуют полностью рандомизированной (недетерминировая
ной) модели, т.е. когда обе переменные, связь между которыми
изучается, являются величинами случайными. Если для одного из
признаков значения произвольно подбираются исследователем
(детерминированная модель), что в явной или скрытой форме имеет
место достаточно часто, то технически вычисление коэффициента
корреляции возможно, но возникают трудности с интерпретацией
результатов корреляционного анализа (на что обычно не
обращается, к сожалению, внимания).
Выборочная величина коэффициента корреляции, вычисленная
для полностью рандомизированной модели, является оценкой
соответствующего генерального коэффициента корреляции. Однако
интерпретация величин коэффициента корреляции и оценка их
значимости хорошо известны лишь для случая, когда значения
сопоставляемых величин в генеральных совокупностях распределены
нормально, т.е. когда имеет место двумерное нормальное
распределение. Недетерминированные модели такого типа можно назвать
корреляционными моделями.
Для пояснения особенностей коэффициента корреляции как меры
линейной связи между случайными величинами обратимся к
корреляционному ряду, отражающему зависимость между содержанием в
почве углерода (х) и общего азота (у):
JC, 0,90 1,00 1,08 1,20 1,27 1,36
yt 0,08 0,11 0,09 0,11 0,10 0,12.
234
Заменим этот исходный ряд х( и yt на ряд сопряженных значении
х —х У~У
Стандартизированных отклонений xXj = -J , и ryi =-J , учи-
sx sy
^ываяучто х= 1,135,^ = 0,173, у = 0,102 и лу = 0,015,получим
%щ -1,36 -0,78 -0,32 +0,38 +0,78 +1,30
-1,47 +0,53 -0,80 +0,53 -0,13 +1,20.
%Л
Очевидно, что в случае прямой связи между сопоставляемыми
величинами стандартизированные отклонения в парах
предпочтительно должны иметь одинаковый знак (как в нашем случае,
например)» а пр*1 обратной связи, когда возрастанию одного признака
соответствует уменьшение другого, знаки отклонений должны быть
по преимуществу противоположные. Поэтому если попарно
переложить стандартизированные отклонения и найти сумму всех
произведений Ътхту, то как знак этой суммы, так и ее значение могут
нести информацию о направлении связи и ее величине. Мешает
использованию Ътхту в качестве меры связи то, что будучи суммой,
эта величина зависит от длины корреляционного ряда. Учитывая,
Ч£0 Ътхху не может по абсолютной величине превышать число п - 1,
эде п - объем корреляционного ряда, причем равенство Ътхту = п - 1
возможно лишь в том случае, когда связь между хи у строго
линейна и функциональна, отношение 1.тхту кй-1 может быть
использовано в качестве меры корреляционной связи.
Эта мера получила название коэффициента корреляции и в
качестве параметра двумерного распределения обычно обозначается
Греческой буквой р, а ее оценка, найденная по выборочным
наблюдениям, обозначается аналогичной буквой латинского алфавита г, и
таким образом
_1>хг, A1.1)
т .
/7-1
Для рассматриваемого примера будем иметь:
тхту\ 1,999 -0,413 0,256 0,201 -0,101 1,560,
3 502
£гхГу = +3,502 и, учитывая, что п = 6, г -——- = 0,70.
6 — 1
Поскольку xXj = ^—- и Ту. = ——— , из формулы A1.1) получим
sx sy
г_£(*<-*Хц-50 (П.2)
{n-\)sxsy
235
£(*, - *)(.v, - у)
г = ■
W-1
Sxsy
(П.З)
В формуле A1.3) числитель представляет собой оценку среднего
значения попарных произведений центральных отклонений, полу.
чившего название ковариации и обозначаемого обычно cov{x,jA
Таким образом, в генеральных совокупностях х и у коэффициент
корреляции
cov{x, у]
Р=-
ахоу
(П.4)
представляет собой отношение ковариации к произведению
стандартных отклонений соответствующих случайных величин.
Поскольку ковариация может рассматриваться как мера совместной
вариации величин, как "совместная дисперсия л: и у" а произведение
ахсту есть среднее геометрическое из дисперсий ох<зу = ^сг£а2у , то
коэффициент корреляции можно считать стандартизованной кова-
риацией.
Величина коэффициента корреляции может принимать значения
в интервале от -1 до +1. Эти крайние случаи соответствуют
функциональной
прямолинейной связи между
признаками, обратной, когда р = -1,
и прямой при р = 4-1. При
отсутствии прямолинейной
связи р = 0.
Промежуточные величины р между
нулем и единицей
соответствуют разной степени
тесноты связи.
При линейной связи на
точечном графике,
отражающем эту связь между
значениями нормально
распределенных величин х и yf
корреляционное поле точек
имеет вид более или менее
вытянутого эллипса. По
мере увеличения тесноты
в г
Рис. 11.3. Вид корреляционного эллипса при
различной степени связи
236
[ корреляционный эллипс делается все более вытянутым, и при
«шальной связи р = 111 он превращается в прямую линию
11.3). При р = 0 корреляционное поле точек имеет форму круга.
образом, по виду корреляционного эллипса можно составить
оставление о степени тесноты связи (и, конечно, о ее направле-
11.3. ОЦЕНКИ И ЗНАЧИМОСТЬ КОЭФФИЦИЕНТА
КОРРЕЛЯЦИИ
Коэффициент корреляции г, вычисляемый по выборочным дан-
I, является точечной оценкой генерального коэффициента р,
который характеризует степень связи между признаками в
генеральных совокупностях. В силу выборочное™ даже при отсутствии связи
£фи р = 0) оценка г обычно отлична от нуля. Поэтому, получив
оценку г, исследователь вынужден сразу же решать вопрос, дает ли
полученная оценка какие-либо основания для утверждения, что
связь есть, имея в виду связь в генеральных совокупностях, а не в
рамках полученных выборок. Другими словами, вопрос сводится к
Оценке значимости связи, т.е. к проверке утверждения, что р * 0.
Как всякая оценка, г является величиной случайной и,
следовательно, она может быть охарактеризована стандартным
отклонением, именуемым ошибкой коэффициента корреляции. Обычно оценку
ошибки коэффициента корреляции вычисляют по формулам при
и>100:
1-г2
или при п <100
^=-7=, A1.5)
л/п-1
Для проверки нулевой гипотезы Но: р = 0 против альтернативы
Hi: p*0 прибегают к вычислению статистики r-Стьюдента
(учитывая, что при верности нулевой гипотезы г - р = г):
'--• A1.7)
И если t > (a (ta берется при п < 100 для v = п ~ 1, при п > 100 для
v = oo), то Но отвергается их соответствующим уровнем значимости
Делается утверждение о наличии линейной связи (р * 0).
Подобный способ оценки значимости коэффициента корреляции
Не является безукоризненным, особенно если оцениваемый
коэффициент корреляции по абсолютной величине близок к единице
237
(при этом распределение оценок г заметно отличается от нормально.
И
го, а распределение отношений — - от распределения Стьюдента).
Sr
Более правильную оценку значимости р можно получить, если
воспользоваться преобразованием z, предложенным Р.А.Фишером,
где
z=0,5{ln(l + r)-ln(l-r)} A1.8)
(z =f(r) см. в табл.ХШ Приложения).
Преимущество случайной величины z по сравнению с г состоит в
том, что z распределена приближенно нормально практически
независимо от величины среднего значения \xz и объема выборок п. К
тому же среднее квадратическое отклонение аг, характеризующее
варьирование z, определяется только объемом выборок п и не зависит
otz:
СТг=7^Г <п-9'
Поскольку гипотезе Но: р = 0 соответствует Но: \iz = 0, то
критерий проверки гипотез сводится к вычислению
t-—=z^fn^3 A1.10)
и сравнению полученного t с га для v = оо. При г > га можно утверж
дать (с риском ошибиться в 100а% случаев), что связь имеется
(р*0).
К примеру, для г = +0,70, согласно табл. ХШ, z = 0,8673. При п = 6
t = 0,8673 V6-3 = 1,50, что меньше to,os = 1,96, поэтому утверждать
что \\.z значимо отличается от нуля, нет оснований, а соответственно
нельзя считать статистически значимым и коэффициент корреляции
(т.е. нельзя утверждать, что р ф 0). Как видим, хотя полученный ко
эффициент корреляции и достаточно велик, однако при столь малом
объеме корреляционного ряда считать корреляцию статистически
значимой нельзя. Такое значение коэффициента корреляции г може!
быть результатом обычной игры случая, когда связь между
изучаемыми явлениями отсутствует.
Использование преобразования z дает возможность корректного
получения интервальной оценки р. Для этого следует найти
доверительные границы цг, что легко сделать, принимая во внимание
нормальность распределения z и то, что математическое ожидание для z
примерно равно
238
цг = 0,5{1пA+/>)-1пA-р)}-^-^:
(fa берется для v = оо). Затем, прибегая к помощи табл.Х1У
Приложения, можно найти те значения г, которые соответствуют нижней и
верхней границам для \х2.
Так для нашего примера получим (п = 6; г = 0,70; z = 0,8673;
a = 0,05): 0,8673-1,96 4--^ < ц, < 0,8673 + 1,96-Д—^^ ,
v3 2'5 уЗ 2 О
т.е.-0,33 <цг< 1,93.
Нижняя граница для ц2 получилась в данном случае
отрицательной, а это значит, что нижняя граница интервальной оценки р также
отрицательна по знаку.
Обращаясь к табл.Х1У, найдем, что доверительные границы
коэффициента корреляции оказываются равными г005 = -0,32 •*- 0,96.
Как видим, с a = 0,05 генеральное значение коэффициента
корреляции может находиться в очень широкой области, включающей не
только практически все положительные значения коэффициента
корреляции, но и большую часть отрицательных. Очевидно, он
может иметь и нулевое значение.
Все операции по проверке значимости коэффициента корреляции
можно упростить, заранее вычислив для различных абсолютных
значений оценок г минимальные объемы корреляционных рядов,
обеспечивающих возможность утверждать с уровнем значимости а,
•что р * 0, т.е. утверждения наличия линейной связи (табл.ХУ
Приложения).
Та же таблица может служить для оценки необходимого и
достаточного числа повторностей пш чтобы при ожидаемой величине г
коэффициента корреляции можно было утверждать, что связь есть
(р * 0) при за/данном уровне значимости а. Именно этот подход и
положен в основу при составлении соответствующей таблицы.
Как следует из формулы A1.10), чтобы отклонить Но: \xz = 0
(и Но: р = 0) для заданного z (и г), нужно по меньшей мере
обеспечить равенство г = ta. Тогда искомое па определится по формуле
ла=4+з- (пл2)
Z
Так, воспользовавшись табл.ХУ, мы обнаружим, что коэффици-
с'п корреляции, оценка которого по модулю равна 0,70, можно счи-
а«ь статистически значимым с a = 0,05, если п по крайней мере
239
равно 9. У нас повторность п = 6, что меньше 9, следовательно, ко-
эффициент корреляции незначим, И минимальная повторность, ко.
торая может обеспечить значимость коэффициента корреляции при
г = 0,70, есть ло,о5 = 9, что следует иметь в виду, если опыт планкру,
ется повторить.
11.4. ВЕЛИЧИНА КОЭФФИЦИЕНТА
КОРРЕЛЯЦИИ И ЕГО СМЫСЛ
При корреляционных связях абсолютная величина р обычно
отлична от единицы, в связи с чем перед исследователями возникает
проблема качественной оценки степени тесноты связи между
изучаемыми признаками,т.е. при каких р связь можно считать тесной,
а при каких - слабой.
Общепринятой градации для такой оценки не существует, но
некоторые условные рекомендации дать можно. Они основываются на
том, что квадрат коэффициента корреляции является оценкой в
долях единицы той части варьирования одного признака, которая
связана с варьированием другого признака. Если, например, связь
между содержанием в почве углерода и валового азота характеризуется
коэффициентом корреляции г = 0,70, то это можно
интерпретировать так, что на 0,702, или на 49%, варьирование содержания
углерода связано с варьированием содержания азота, а на 51%
варьирование этих признаков осуществляется взаимно независимо.
Величина квадрата коэффициента корреляции может иметь
самостоятельный интерес, поэтому ее иногда выделяют в качестве
особого параметра, именуемого коэффициентом детерминации. Если с
учетом сказанного оценить разные абсолютные значения
коэффициентов корреляции, то за весьма тесную связь условно можно считать
такую, при которой |р| > 0,85 (при этом варьирование признаков
взаимосвязано приблизительно на 75% и более), за тесную связь -
когда 0,85 > р > 0,7 (при этом взаимосвязанная вариация признаков
лежит в пределах 75-50%), и слабой можно считать связь, если
р <* 0,7 (при этом варьирование одного признака менее чем на 50%
связано с варьированием другого признака).
Указанные нридержки для качественной характеристики степени
связи хотя и условны, однако они в определенном смысле и
абсолютны, так как установлены безотносительно к изучаемым
явлениям, исходя лишь из особенностей самого коэффициента корреляции.
Нужно иметь в виду, что строго прямолинейные связи межДУ
свойствами природных объектов и явлений - достаточно редкий
случай. Обычно даже там, где связь считается прямолинейной, *
действительности имеет место некоторая криволинейность.
240
рую либо не замечают, либо ею пренебрегают. В силу этого
Ьициент корреляции, являющийся мерой прямолинейной связи,
до отличается от единицы, даже если связь функциональная, но
рямолинейная1.
це более важным обстоятельством, определяющим величину ко-
яента корреляции, является то, что каждый изучаемый приз-
\ часто находится в сложной взаимосвязи с большим числом дру-
10£ лризнаков, прямо или косвенно оказывающих влияние на его
•^ьирование. В силу этого связь между каждой парой взятых приз-
ДОов оказывается в той или иной мере затушеванной, смазанной
деянием всех прочих неучитываемых признаков. Роль не принятых
^внимание факторов может быть разной, как следствие этого,
коэффициент корреляции будет то больше, то меньше отличаться от
<дрнницы.
; Так, связь между величиной максимальной гигроскопичности и
задержанием физической глины для некоторого типа почвы обычно
достаточно велика, хотя и осложнена недоучетом минералогическо-
Ю состава почв, характера поглощающего комплекса и некоторых
других явлений, так или иначе сказывающихся на величине макси-
М|Ш>ной гигроскопичности. Связь же между урожайностью
некоторой культуры и, например, содержанием в почве подвижных
фосфатов, хотя и существует, однако обычно бывает невелика, так как в
ЯОДеныпей, а обычно и в большей степени, урожайность зависит еще
ШОТ множества других факторов: различные свойства почв, погод-
Ше условия, особенности хозяйствования, сортовая специфика
культуры и т.д.
Следует заметить, что величина коэффициента корреляции, даже
Шоп она и велика, еще не дает оснований для суждения о практи-
ЗДасой важности обнаруженной связи. Нередко встречаются случаи,
яагда небольшая по величине связь оказывается очень важной
в практическом отношении, и в то же время связь, близкая к
Функциональной, может подчас представлять лишь академический
"Ийтерес. Причина разной практической значимости одной и той же
■®шчины связи заключена в особенностях коэффициента
корреляции, что обнаруживается из рассмотрения формулы A1.1).
Поскольку стандартизированные отклонения тх и ту не
претерпевают изменений при линейных преобразованиях переменных х и у,
Ф коэффициент корреляции оказывается одинаковым для очень
|^ных по внешнему облику корреляционных рядов.
ание р возможно лишь при априорной гарантии отсутствия нелинейных свя-
:, если х\у хг,..^п - независимые реализации нормальной величины с нулевым
и единичной дисперсией, a yj = xj- (xjKf3 , I <> j £ п , то гп -» р (х,у) = О, хотя
* hj> имеется функциональная связь.
241
Рассмотрим для примера ряд значений xt и соответствующие ему
ряды значений у\, у" и у'" :
1,27 1,36
30 50
100 120
100,10 100,12.
Оценка корреляции между значениями ряда х и любым из рядов у
дает одинаковый результат: г = 0,70, поскольку у"=у\ + 70 и
у"' = 100 + 0,001 у" , а при подобных преобразованиях
1 Уг ' И * У1 *
В то же время, если допустить, что л: есть плотность почвы, а у -
урожай сена, то связь в парах значений х, -у\ несомне!шо
заслуживает дальнейшего изучения, в парах Х/-.у" это менее интересно, а в
парах Х{ -у"' с практической точки зрения никакого значения не
имеет, даже если бы она была очень статистически значимой.
При интерпретации результатов анализа следует иметь в виду,
что коэффициент корреляции отражает степень связи между
изменчивостью случайной величины вне зависимости от абсолютной
величины этой изменчивости и от того среднего уровня переменной
величины, на котором изменчивость проявляется. Сам по себе
коэффициент корреляции не вскрывает ни природы связи, ни что от чего
зависит. Он характеризует меру связи между величинами, а не
зависимость х от у или наоборот (это проявляется в том, что гху = гух).
Природу связи, причинно-следственные отношения, лежащие в
основе связей, позволяет вскрыть лишь предметный анализ.
11.5. ТЕХНИКА ВЫЧИСЛЕНИЙ
КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
Формула A1.1) хорошо вскрывает смысл и особенности
коэффициента корреляции, но мало пригодна для практического
использования. При вычислении коэффициента корреляции исходят из
выражения, вытекающего из формулы A1.2):
где согласно формуле F.2), С2х и С2у есть суммы квадратов
центральных отклонений для рядов х и уу а Сху по аналогии с принятым*1
242
х{ 0,90 1,00 1,08 1,20
у\ 10 40 20 40
у/ 80 ПО 90 110
у/' 100,08 100,11 100,09 100,11
Назначениями в формуле F.2) есть сумма попарных произведений
Ь^ггральных отклонений:
Cxy = Z(^-3cX^-y). A1.14)
Суммы С2х и С2у обычно находятся согласно формуле F.9):
?2 S2
Г - ? --£- и Г - 9 у
^
Сху по аналогичной формуле
^ху — ^ху
srs„
A1.15)
A1.16)
raeSx=5>;. ,Sy=2>, , s2x =Zxj, s2y=Zyf, sxy = 2>,.y,.
Таким образом, для вычисления г нужно найти перечисленные
суммы. Техника нахождения этих сумм представлена в табл. 11.2 и
к«к и последующие вычисления С2ж, С2у, Сху и г, пояснений не
требует.
I
*;
0,90
1,00
1,08
1,20
1,27
1,36
6,81
У;
0,08
0,11
0,09
0,11
0,10
0,12
0,61
А
0,8100
1,0000
1,1664
1,4400
1,6129
1,8496
7,8789
у]
0,0064
0,0121
0,0081
0,0121
0,0100
0,0144
0,0631
Таблица 1
ху
0,0720
0,1100
0,0972
0,1320
0,1270
0,1632
0,7014
1 .2
С2х = 7,8789-6,812/б = 0,1496;
С2у= 0,0631 -0,612/б = 0,0011;
Сху =0,7014-6,81-0,61/6 = 0,0090;
°>0090
г = , — = 0,70.
V0?1496-0,0011
При вычислении коэффициента корреляции по данным,
представленным в виде корреляционной таблицы, нахождение сумм S
осуществляется на основе середин классов с учетом соответствую-
ВШх частот: 5Я = I f}x}; Sy = £ f,y,; 52x = £/,*?; S2y = £/jy,2,
*y ~HfjtXjyi> rP£J = 1, 2, ..., А:, /г- число классов по признаку X,
** 1, 2,..., т, т - число классов по признаку F, j£ - частота класса с
**рединой Xj yfi - частота класса с серединой yt yfj{ - частота для
сования классов Xj и У/.
,& 243
Если взять в качестве примера данные, приведенные в табл.1 \,\
то получим Sx = 2090, Sy = 1435, S2x = 97550, S2y = 28038, S^ = 47025 и
C2x = 46758, C2j = 4093, Cxy = 12151 и, наконец, г = 0,88.
11.6. ЧАСТНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ
Коэффициент корреляции гху отражает связь между случайными
величинами 1иУв данных общих условиях проведения испытаний.
Среди второстепенных условий при этом могут быть и обычно
бывают факторы, которые в большей или меньшей мере оказывают
влияние на какую-либо одну или на обе случайные величины. Это
влияние можег быть прямым или опосредованным, но сам факт
возможности такого влияния означает, что перевод того или иного
фактора из второстепенных условий в общие может повлиять на
характер изучаемой связи.
В эксперименте далеко не всегда имеется техническая
возможность тот или иной фактор стабилизировать на заданном уровне,
но, если в качестве одной из случайных величин, например Z, этот
фактор может быть измерен наряду с X и У, то связь между X и У
при исключении влияния Z может быть оценена.
Коэффициент корреляции, характеризующий подобную связь,
получил название частного коэффициента корреляции. Его принято
обозначать буквами р или г (соответственно для константы или ее
оценки) с индексами, указывающими, между какими признаками
связь оценивается, а через точку - при исключении какого признак а.
В случае, когда между любой парой признаков из X, У и Z связь
не очень сильно отличается от прямолинейной и степень связи
оценивается парными коэффициентами корреляции rxy, rxz и ryz, то част
ный коэффициент корреляции rxyz между признаками X и У при
исключенном влиянии Z может быть вычислен по формуле
- - Г*У-Г"ГУ A1Л7)
Так, если связь между урожайностью травосмеси (У) и суммой
поглощенных оснований (X) оценивается гху = 0,78, а между урожай
ностью и содержанием глины (Z) - rZJ = 0,86, то естественно возни
кает вопрос, не является ли связь между X и У следствием всего лишь
того, что урожайность зависит от содержания глины, а поскольку от
этого последнего очень существенно зависит сумма поглощенных
оснований, то наличие связи между урожайностью и суммой
поглощенных оснований представляется вполне естественным.
Подтверждением правомерности таких соображений служит и то,
что между содержанием ила и суммой обменных катионов связь
244
сьма велика: rV2 = 0,88. Возникающие в этой ситуации
предположения могут быть проверены либо постановкой специальных опы-
ов, где при фиксированности содержания физической глины изуча-
ся зависимость урожайности травосмеси от различий в сумме
поглощенных оснований, либо путем вычисления частного
коэффициента корреляции rxyz, что технически, очевидно, проще (хотя
равноценность этих подходов не очевидна). Согласно формуле A1.17)
> 0,78-0,86-0,88
получаем гх>,г =-
J(l-0,862)(l-0,882)
= 0,10.
Как видим, зависимость урожайности травосмеси от суммы
поглощенных оснований при исключенном влиянии содержания физи-
|юекой глины оценивается очень маленькой величиной
коэффициента корреляции. Относительно высокая величина коэффициента
корреляции гх>=0,78 явилась, очевидно, следствием того, что уро-
■ жайность прямо или косвенно связана с содержанием глины, а сумма
поглощенных оснований в определенной степени является косвенной
оценкой содержания глины.
Графически отношение между
\ X и Y может быть отображено с
помощью корреляционных
эллипсов. При различных
фиксированных значениях Z корреляционное
поле точек на графике
зависимости у от х по форме оказывается
весьма близким к кругу, так как
Txy.z~ 0,10 мало отличается от нуля
(эти корреляционные поля на рис.
11.4 обведены сплошной линией)*
Однако в целом корреляционное
поле точек в координатах у и х
для различных z оказывается
сильно вытянутым (эллипс,
очерченный пунктирной линией) в
силу того, что частные корреляционные эллипсы для разных z
оказываются смещенными друг относительно друга вдоль некоторой
линии. В результате этого получается положительный
корреляционный эллипс, к тому же отражающий достаточно большую степень
связи.
Вообще говоря, соотношение между частными корреляциями и
общей корреляцией может быть различно. На рис. 11.5 схематично
245
. 16*
Рис.11.4. Соотношение между
частными корреляционными эллипсами
(сплошная линия) и общим
корреляционным эллипсом (пунктирная линия)
показаны некоторые из возможных случаев такого соотношения.
Общий положительный корреляционный эллипс может получиться в
результате суммирования не только положительных частных
корреляционных эллипсов (а), но и при суммировании отрицательных
частных корреляционных эллипсов (б). При наличии заметной
отрицательной частной корреляции
общая связь может быть как
положительной F), так и
отрицательной (в) и равной нулю (г).
Следует иметь в виду, что
умышленно организуя
эксперимент или непреднамеренно
проводя его в узком интервале значений
интенсивно влияющего фактора,
исследователь можег получить
оценку по сути дела частного
коэффициента корреляции, иногда
Риса 1.5. Некоторые виды соотноше- Даже не догадываясь об этом.
ний между частными и общими корре- Учитывая, СКОЛЬ Заметно МОГУТ
ляционными эллипсами отличаться общие и частные
коэффициенты корреляции,
необходимо с большой осторожностью сравнивать направления и теснот\
связей между одинаковыми признаками казалось бы в очень
сходных условиях.
11.7. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ СПИРМЕНА
Рассмотренные выше коэффициенты корреляции вычисляются л
интерпретируются исходя из допущения о нормальности раслред -
ления обеих случайных величин. В действительности такое
допущение не всегда выполняется. И хотя к малым отклонениям от но
мальности коэффициент корреляции не очень чувствителен, одна;
"засоренность" той или иной выборки даже одаим-даумя сильно с
клоняющимися от остальной группы значениями может оказать ;
причиной не только изменения меры тесноты связи, но и ее знака.
В тех случаях, когда о законе распределений ничего не извести ,
а тем более, когда есть серьезные основания думать, что одна iviA
обе случайные величины имеют распределения заметно отличные с г
нормального или "засоренные" сильно отклоняющимися от
основной массы значениями, целесообразно прибегать к характеристике
меры коррелированное™ с помощью коэффициента корреляция
Спирмена ps (или его оценки rs).
246
•<9
Коэффициент корреляции Спирмена относится к категории так
«взываемых ранговых статистик. Для его вычисления необходимо
значения хг и у{ в корреляционном ряду заменить их рангами Я(хг) и
RCyd- Rjm этого значения каждой случайной величины ранжируются
{см. § 2.5) и в порядке возрастания приписываются ранги от 1 до ?г,
где п - объем выборки. Ранги таким образом представляют собой
•целые числа 1,2,...,;/, соответствующие номеру занимаемого места в
ранжированной последовательности. Если два или большее число
значений имеют одинаковую величину, vim обычно приписывается
одинаковый раыг, равный среднему значению из номеров,
занимаемых этими значениями мест.
К примеру, в корреляционном ряду, отражающем связь между
содержанием углерода (х() и азота (у?) по результатам анализа // = 6
образцов:
Xi 1,00 1,08 1,20 1,27 1,30 1,36
yt 0,11 0,09 0,11 0,10 0,08 0,12
Заменив л, и у{ на их ранги R(xt) и R(yt), получим корреляционный
ряд:
R(x0 1 2 3 4 5 6
R(y0 4,5 2 4,5 3 1 6
Очевидно, при положительной связи меньшим рангам R(xt)
должны соответствовать меньшие ранги Я(у;) и наоборот. При
отрицательной свягзи меньшим значениям рангов Я(хг) будут
соответствовать большие ранги /?(у,) . Неустойчивость в таких
соотношениях должна соответствовать снижению тесноты связи вплоть до ее
отсутствия, когда любому рангу одного признака может
соответствовать любой ранг другого признака. Коэффициент корреляции
Спирмена, отражающий эту меру связи, вычисляется по формуле
где d{= R(x^) - R(jyi)> те- попарная разность рангов.
% Коэффициент: корреляции Спирмена может принимать значения
°т-1до+1.
В рассматриваемом примере, поскольку ряд разностей имеет вид
4:-3,5; 0; -1,5; I; 4; 0
и 21 d? =31,5, получаем rs = l 7——v = 0,10.
1 6.C6-1)
247
Будучи вычислены на основании результатов выборочных
экспериментов, значения rs оказываются оценками некоторых генерала
ных значений этих коэффициентов ps. Поэтому, чтобы иметь
уверенность в том, что связь, характеризуемая подобным образом,
есть, нужно оценить значимость коэффициента корреляции p5j
т.е. значимость его отличия от нуля. Таким образом, нулевая
гипотеза при этом имеет вид Но: ps = 0. Альтернативой этой гипотезе
чаще всего выступает предположение Hi: ps* 0. Проверку нулевой
гипотезы против Н\ проще всего осуществить, сопоставив
вычисленное значение rs с критическим значением rs , извлекаемым из
табл.XVI Приложения для заданного уровня значимости а и
соответствующего объема корреляционного ряда п.
При \rs\ > rs нулевая гипотеза отвергается с уровнем значимости
а и делается заключение о наличии связи.
В нашем примере л=6и, согласно табл. XVI, rs^s = 0,85, что
существенно больше полученного rs- 0,10 , поэтому говорить о
наличии связи между X и Г у нас нет никаких серьезных оснований.
Критическое значение rs при п > 10 можно оценить с хорошим
приближением по формуле
rs. ~
,[тГл
, 0,19
п-1
м
A1.19)
где ta берется из табл.Ж Приложения для v = оо. При п > 40 хорошую
оценку rs можно получить по более простой формуле
rs.=-j=- A1.20)
Для иллюстрации устойчивости коэффициента корреляции
Спирмена к единичным "выбросам" значений обратимся к только
что рассмотренному примеру. Можно установить, что обычный ко
эффициент корреляции здесь столь же мал (г = 0,04), как и rs~ 0,10
Теперь допустим, что в исходном корреляционном ряду последнее
значение х{ оказалось не 1,36, а 1,86. Очевидно, что это изменение ж
повлечет за собой изменения соответствующего ранга, а поэтому ь
коэффициент корреляции Спирмена останется без изменения. Но
обычный коэффициент корреляции при этом возрастет до г = 0,43.
Коэффициент корреляции Спирмена с успехом может быть
использован для оценки наличия закономерного изменения
переменной во времени или пространстве, есДи такое изменение не слишком
отличается от линейного.
248
р Отличная от случайной последовательность, проявляющаяся в
■ повышении (или понижении) случайной величины вдоль некоторой
линии, именуется линейным трендом. Поскольку коэффициент
корреляции Спирмена является мерой линейной связи между рангами,
то о наличии линейного тренда можно судить по rs. В этом случае
оценивается связь между рангом переменной и номером (рангом)
места этой переменной в пространственной (или временной)
последовательности.
Так, если 10-кратное измерение мощности горизонта А вдоль
некоторой линии через каждые 0,5 м дало результаты (xif см):
xt 5 7 6 10 9 12 12 11 14 12 ,
наталкивающие исследователя на предположение, что эта
последовательность неслучайна, то, заменив последовательность xt
последовательностью их рангов R(xi), и приписав ?-му месту в
пространственной последовательности ранг Rh численно равный f, получим
корреляционный ряд:
Rt 1 2 3 4 5 6 7 8 9 10
R(x0 13254886 10 8.
Ряд попарных разностей d{ при этом оказывается равным:
dt 0 -1 +i -i +1 -2 -1 +2 -1 +2 .
Поскольку п = 10 и У d] = 18, получаем rs =1 7 г = +0,89.
10(l02-lj
Из табл.ХУТ Приложения следует, что при п = 10 rs = 0,79, а
значит с большой уверенностью можно утверждать (риск ошибиться
в этом утверждении не превышает 1%), что мощность горизонта А
линейно связана с положением точки промера вдоль линии
опробования и увеличивается от начала линии к ее концу (об этом
свидетельствует положительный знак у rs). Иначе говоря, можно
утверждать, что в изменении мощности горизонта А имеется линейный
тренд, к тому же весьма отчетливо выраженный, поскольку rs
близок к единице.
Из приведенных примеров легко усмотреть важную особенность
рассматриваемого коэффициента - отсутствие необходимости
количественного выражения результатов измерений. Действительно ко-
. эффициент корреляции Спирмена может быть использован для
оценки степени связи, когда один или оба признака оказываются
249
измеренными на порядковой шкале. Так, один из признаков може
представлять собой, например, степень окрашенности почвенной,
образца в серый цвет, если образцы по этому признаку ранжиро
вать, а затем приписать им соответствующий ранг в получаемой по
следовательности.
В заключение следует заметить, что приписывание смежным в
ранжированной последовательности значениям х{ или у{ одинаковых
рангов не может не сказаться на значении коэффициента корреля
ции Спирмена. вычисляемого по формуле A1.18). И хотя rs можно
считать достаточно устойчивым к замене нескольких разных рангов
в их последовательности на одинаковые ранги, равные средним их
значениям, при большом числе усредняемых рангов, а тем более
когда усреднение приходится делать на относительно большой
группе рангов, коэффициент корреляции Спирмена следует
вычислять по формуле, учитывающей усреднение рангов:
. . Н"'-')-^-7^ A1.21,-
где Г представляет собой уменьшенную в 12 раз сумму произведений
числа т смежно расположенных усредненных рангов на -квадрат
этого числа без единицы:
1 Ык (
T^ — Zmjlmi-l), A1.22)
где / = 1, 2, ..., /с, к - число групп усредненных рангов, mt - число
усредненных рангов в 1-й группе (/?//> 2).
Индексы у Г показывают, что соответствующая величина
находится для ряда рангов в совокупности признака X или Y.
Для иллюстрации техники вычислений в подобной ситуации
допустим, что 15 образцов почвы, в которых было определено
содержание органического углерода, были ранжированы по окраске (по
выраженности у образцов серого цвета). В отличие от содержания
углерода (признак X), где одинаковых значений не оказалось и
ранги R(xt) со значениями от 1 до 15 (и - 15) нигде усреднять не
пришлось, окраска почвы (признак Y) у ряда образцов оказалась
настолько сходной, что в ранжированной по окраске
последовательности ряду образцов пришлось приписывать одинаковые ранги
Я(у1). В окончательном виде корреляционный ряд получил вид:
R(xt) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
R(y,) 2 2 2 4 6,5 5 6,5 9 9 11,5 9 11,5 14 15 13.
250
Легко убедиться, что здесь £<// = 19,0, и по формуле A1.18)
649,0
15(l52
В ряду R(xt) усреднения рангов не было и поэтому Тх = 0. В ряду
R(y\) имеется к = 4 группы усредненных рангов со средними
значениями 2; 6,5; 9 и 11,5. Число mt в двух группах оказалось равным 2 и
в двух группах - 3. Поэтому по формуле A1.22) получим
Ту=—[з(з2-1) + 2B2-1) + з(з2-1) + 2B2-1)] = 5,0.
Воспользовавшись формулой A1.21), найдем rs более точно:
-•15(l52-l)-19,0-0-5,0
|l45(l52-l)-2.o][l45(l52-l)-2.5?0
0,966.
Как видим, с точностью до тысячных результат оказался таким
же, как по формуле, не предусматривающей введения поправки.
Рассмотренный пример может дать кое-какое представление о том,
какие усреднения рангов могут не играть роли доя оценки
коэффициента корреляции Спирмена.
11.8. ТЕТРАХОРР1ЧЕСКИЙ ПОКАЗАТЕЛЬ СВЯЗИ
Для вычисления обычного парного коэффициента корреляции
необходимо, чтобы оба признака были измерены на количественных
шкалах. Коэффициент корреляции Спирмена можно вычислить, если
один или оба признака измерены на порядковой'шкале. Но связь
может существовать и между признаками качественными и даже
альтернативными. В этом последнем случае она проявляется в
отсутствии независимости их взаимного появления. Такая связь тоже
может быть измерена,
Поскольку альтернативные признаки могут иметь лишь две ipa
дации, то корреляционная решетка, отражающая связь между
такими двумя признаками, оказывается представленной четырехклеточ-
ной таблицей. Если столбцы такой таблицы соответствуют
например, признаку А с двумя градациями А и А , из которых
первая обозначает наличие этого признака, а вторая - отсутствие, а
строки принадлежат признаку В с аналогичными градациями В и
В , то весь возможный набор сочетаний признаков оказывается
ограниченным четырьмя вариантами: АВ> А В , А В и А В , а
251
частоты этих событий / разместятся на пересечении
соответствующих столбцов и строк, имея соответствующие индексы (табл. 11.3).
Таблица 11.3
Схема четырехклеточной корреляционной решетки
В
в
в
А
/ав
fa
h
А
1
h,
hb
h
fB
h
n = fA+fj=fB + h
Сумма частот по столбцам дает общее число случаев
/а = /ав+/Ав с наличием признака А или /2 = /АВ + fAB с его от
сутствием. Общее число случаев с наличием или отсутствием второго
признака дают частоты fB = fAB + fAB и fB = fAB + /АВ . Сумма все;
частот четырехклеточной таблицы дает общий объем корреляцией
ной решетки я. Если допустить, что единичные результаты измере
ния есть единица при наличии того или иного признака и ноль при
его отсутствии, то оценками средних значений для признаков А и В
будут доли рА - /А /п и рв - /в /п, а формула вычисления
коэффициента корреляции по редуцированной до четырех клеток
корреляционной решетке примет вид (формула Бравэ)
Jab'Ja~b~Jab'Jab /ПГ.
Tq = ; ^= -=— . A1 .L$.
VJ А ' f~A ' fs 'f'B
Вычисленный по этой формуле коэффициент Бравэ нередко име
нуется тетрахорическим показателем связи. Как и обычный
коэффициент корреляции гв может принимать значения в интервале от -
до +1. В первом случае это соответствует наличию признака А, ког
да (и только когда) отсутствует признак В и наоборот. Если наличие-
признака А неизбежно влечет за собой наличие признака В и
наоборот, то гв = 1. Во всех остальных случаях -1 < гв < +1.
Если вспомнить, что вероятность (см. § 3.3) совместного
осуществления независимых событий А и В равна произведению вероятно
стей этих событий, то соответствующие этому условию теоретиче
ские частоты в клетках четырехпольной таблицы могут быть
найдены путем деления произведения итоговых частот в соответ
ствующих строке и столбце на общий объем корреляционной табли
цы. Например, эмпирической частоте fAB будет соответствовать
теоретическая частота, соответствующая условию независимости
252
- f . /
признаков Л и В, /^ = ———, частоте fAg - теоретическая часто-
та /Ав ~ ~—~ и тд- ^ случае, если эмпирические частоты в
точности равны теоретическим, что соответствует независимости
признаков А и В, тетрахорический показатель связи оказывается равным
нулю, в чем легко убедиться, подставив в формулу A1.23) вместо
эмпирических частот их теоретические значения.
Будучи вычисленным на основании выборочных данных, гв
оказывается оценкой некоторого генерального показателя рв.
Поскольку отличие рв от нуля означает отсутствие независимости признаков
Л и В, то критерием проверки гипотезы Яо: р#= О можно взять
критерий согласия, основанный на статистике %2: если
^/ав-/лв-/лв-/лв\-»/*) AL24)
Ja'Jb'Ja' J в
для v = 1, признаки А и В считаются не независимыми, а рвФ 0.
В числителе левой части неравенства A1.24) член л/2
представляет собой так называемую поправку на непрерывность. Если объем
выборочной совокупности насчитывает по меньшей мере несколько
сотен наблюдений, эту поправку можно не вносить и тогда
Х2 = иг|. A1.25)
Оценку значимости рв с помощью %2 допустимо проводить при
условии, что все теоретические частоты в клетках таблицы должны
быть не менее 5.
Для иллюстрации техники вычислений тетрахорического
показателя связи рассмотрим результаты измерений в л = 182 точках
принадлежности почв к лугово-каштановым (А) или прочим A;
солонцы, светло-каштановые), а растительности - с наличием типчака (В)
и без него (я). Учитывая, что при наличии лугово-кагатановых
почв в/А = 38 случаях, а типчака в/5 = 58 (табл. 11.4), при взаимной
независимости этих событий частота их совместной встречи
38-58
Должна была бы быть fAB- = 12,1, а это меньше эмпири-
182
ческой частоты /АВ = 32, можно ожидать, что сравниваемые явления
не независимы.
253
Таблица 1 \
Корреляционная решетка зависимости наличия ( А ) или отсутствия (А )
лугово-каштановой почвы при наличии (В ) или отсутствии (В ) типчака
В
в
А
32
6
Л = 38
/1
26
118
£ = 144
Л = 58
/*=124
я= 182
Поскольку /лв , являющаяся наименьшей из всех четырех
теоретических частот, больше 5, то проверка значимости связи с
помощью х2 допустима.
т-г 1 •«« ЛЛч 32*118 —6*26 _ ___
По формуле (П.23) получаем гв = , = 0,577.
V38-144-58-124
Формулы A1.24) и A1.25) дают значения у} соответственно
равные 57,6 и 60,6, что существенно выше Хо,оо5= 7>88 даже для
а = 0,005, поэтому каких-либо достойных внимания сомнений в
наличии связи здесь быть не может.
Следует заметить, что тв могут достигать своих крайних
значений + 1 и -1 лишь в тех случаях, когда fB = fA и соответственно,
/-=/^. В рассмотренном примере получить гв = 1 принципиально
невозможно, поскольку типчак встречен в 58 точках, а лугово-
каштановая почва только в 38. Если бы даже все события А
произошли при условии наличия события В и/АВ = 38, мы получили
быгя=0,70.
В тех случаях, когда один или оба признака измерены на
количественных шкалах, альтернативные классы одного из признаков
можно выделить таким образом, чтобы было обеспечено равенство
/а =/в- Допустим, признак А, измеренный на классификационном
уровне, среди п измерений был обнаружен в fA числе случаев. Если
второй признак В, измеренный на количественной шкале,
предпочтительно связан с А таким образом, что наличию А соответствуют
более высокие значения, то числу/^ случаев наличия А должно
соответствовать равное ему число fB наиболее высоких значений
признака В, которые и составят класс В по этому признаку. К классу В
будут отнесены все остальные более малые значения. Например, в
ранжированной последовательности признака х граничным
значением, разделяющим классы В и В будет у-квантиль Х(у), где
у = 1 -Рв> Рв = /в1п~ Доля значений х{ больших Х(у) при условии
/а =/в- Тогда событием В будет х >JC(Y>, а В - х <jc<T).
254
[ частоты/л и/в одинаковы, то одинаковы частоты fj и /^
|r_ = f £ . В этом случае, сохраняя обозначение п для объема че-
Гехклеточной таблицы и/АВ для частоты совместных событий А и
Я принимая обозначения/ -fA =/#, получим более простое выра-
ае для формулы A1.23):
r -fAB-n-f2 A1.26)
Так, если среди п = 100 кубиков с ребром 2 см в пределах карбо-
рггно-иллювиального горизонта солоди белоглазка (А) была обна-
|*ужена в/А = 16 случаях, и резонно допустить, что именно этим
образцам должно соответствовать наибольшее содержание карбонатов
^событие £), то, принимая/л =/# = 16 и имея рв = 16 : 100 = 0,16 и
у s=l -0,16 = 0,84, по известным формулам B.13 - 2.14) можно
вычислить квантиль Х(о,84) содержания карбонатов, который оказался
(равным 17,9%. После подсчета частот четырехпольная таблица
f убрела вид, представленный в табл. 11.5.
Таблица 11.5
Корреляционная таблица связи наличия белоглазки (А)
с содержанием СаСОз более Х(о,84)= 17,9% (В)
В{х>\7,9)
В (х<П,9)
А
9
7
16
А
1
11
84
16
84
100
Подставляя в формулу A1.26) соответствующие значения, полу-
9-100-162 л ло
там rB=—t г =0,48.
16A00-16)
11.9. НЕСИММЕТРИЧНЫЕ МЕРЫ АССОЦИАЦИИ
ТетраХорический показатель связи относится к центрированным
(ноль - отсутствие связи, пределы колебаний от -1 до +1)
симметричным показателям. Его можно трактовать и как меру
приуроченности появления одного признака к наличию второго, и второго к
первому, и как меру связи между отсутствием одного признака и
отсутствием второго, так как гАВ = гвл = г^% = г^ .
Однако существуют явления, связь между которыми не имеет
симметричного характера. Возникновение оглеения, например, мы
связьюаем практически однозначно с повышением увлажнения
почвы, но отнюдь не всегда повышение увлажнения влечет за собой
255
оглеение. Такого рода связи могут оцениваться несимметричными
мерами ассоциации, наиболее широко используемыми в геоботахщ.
ке.
Весьма часто в качестве несимметричной меры ассоциации
используется коэффициент Дайса
КОа/в=^, A1.27)
/в
показывающий, насколько наличие признака В влечет за собой
появление события А. Соответственно коэффициент
KDb/a = ^- (П.28)
J A
отражает ассоциированность события В с событием А. В этих фор
мулах/л и/я - частоты появления событий А я В среди п испытаний.
/лв - частота совместного их появления (см. табл. 11.3). Коэффици
ент Дайса нецентрирован. Например, КОл/5 = 0 соответствует
"отрицательной ассоциации" событий: при наличии В событие /.
отсутствует. Если события В я А независимы друг от друга
KD^/в = 0,5. При КОл/£ = 1 наличие признака В однозначно вызы
вает появление признака А.
Оценки коэффициентов Дайса имеют дисперсии
^2 :=kdaib^-kdaib) A1.29)
Jb
KDb/aJI-KDb/a) (i i.30}
v2
S*&BIA "
J A
Принимая во внимание, что повторности при оценках подобных
мер ассоциации обычно исчисляются десятками и более, допустимо
считать, что ошибкам, полученным по формулам A1.29-11.30)
соответствует число степеней свободы v = <x>. При необходимости эти
ошибки можно использовать для нахождения доверительных
интервалов KD.
Обращаясь к ранее рассмотренным данным, представленным в
табл. 11.4, получим два коэффициента Дайса: KD^/b^ 32/58 = 0,55 и
KD^ = 32/38 = 0,84, из которых следует, что наличие типчака в
растительности E) практически не играет роли в том, будет ли здесь
почва лугов о-каштановая или нет, поскольку KDy4/5= 0,55 близок к
0,5, соответствующему отсутствию ассоциированности. Это, в
частности, означает, что проведение границ распространения лугово-
каштановых почв по границам распространения типчака лишено
256
|рований. Но в то же время предпочтительность наличия типчака
i лугово-каштановой почве не вызьшает сомнений.
Из рассмотренного примера уже должно быть видно, что коэф-
*енты Дайса неудобны для интерпретации из-за своей нецент-
!*Ированности. В связи с этим более удобно пользоваться
центрированной модификацией коэффициентов Дайса, так называемым
трансформированным коэффициентом Дайса - TKD.
Для оценки меры ассоциированности признака А с признаком В
YKD может быть вычислен по формулам (обозначения см. в табл.
11.3)
TKDAm=fAB~flB , A1.31)
JB
ЕЛИ
TKDa/b = 2^.-1. A1.32)
JB
Соответственно, для нахождения меры ассоциации признака В с
признаком А получим
TKDb/a^*"^, A1.33)
J A
нли
TKDh/a = 2^2.-1. A1.34)
J A
Очевидно, что между TKD и KD существует связь очень простого
вида:
TKD = 2KD-1.
Удобство TKD как меры ассоциации заключается в том, что этот
коэффициент так же как коэффициент корреляции г и rSi как
показатель связи гв, может меняться в интервале значений от -1 до +1. Эти
крайние значения соответствуют либо непременному отсутствию
одного признака при наличии другого (TKD = -1), либо
обязательному присутствию первого, если второй есть (TKD = +1). Нулевое
значение TKD соответствует отсутствию зависимости появления
одного признака от наличия второго.
Проверка значимости зависимостей, измеряемых TKD (и KD)
Может приближенно осуществляться с помощью %2, вычисляемых по
формулам:
угЛ^в-Глв) ={tkDa/bJ./b (п.з5)
JB
Дня зависимости наличия А от наличия В и
47 Е.А.Дмитриев
257
%2Jf*>-fAB) ={TKDBIAf.fA A1.36)
J A
для зависимости Вот А.
Если %2> Ха2 ДДЯ v = 1, то с уровнем значимости а гипотеза о
независимости отвергается.
Для данных, представленных в табл. 11.4, будем иметь (формула
11.31) TKDа/в = 32~26 =0,103 и (по формуле 11.34)
58
TKD^= 2^-1=0,684.
38
Соответственно (формулы 11.35-11.36) для зависимости А/В:
Х2= 0,1032-58 = 0,62, для зависимости В/А: %2 =0,6842-38 = 17,79 .
Поскольку для v = 1, Хо,05= 3,84 и xo.oi = ^М\ можно заключить,
что о какой-либо зависимости А от В говорить не приходится, а
обратная зависимость статистически очень значима. Это проявляется
и в значениях TKD, мало отличного от нуля для TKD^/д = 0,103 и
достаточно высокого у TKDB/A = 0,68.
Как и при анализе коэффициентов Дайса, мы пришли к
заключению, что распространение типчака отчетливо связано с наличием
лугов о-каштановых почв, хотя обратного никак нельзя утверждать.
При этом вывод об отсутствии ассоциированности лугово-кашта-
новых почв с типчаком на основе анализа TKD выглядит гораздо
более естественно, чем при рассмотрении нецентрированных
коэффициентов Дайса.
Вопросы для самоконтроля.
1. В чем отличие корреляционных связей от функциональных?
2. Что называется корреляционным рядом и корреляционной
таблицей?
3. Какие связи называются прямыми и прямолинейными?
4. Какая модель называется корреляционной?
5. Что собой представляет коэффициент корреляции и пределы
его колебаний?
6. Что называется корреляционным эллипсом? Какова связь его
формы с величиной коэффициента корреляции?
7. Как оценивается статистическая значимость коэффициента
корреляции и что это означает?
8. Что показывает коэффициент детерминации?
258
9. Насколько статистическая значимость и величина
коэффициента корреляции могут определять практическую важность изучае-
|>й связи?
10. Что показьгоает частный коэффициент корреляции?
11. В чем специфика коэффициента корреляции Спирмена?
12. Какие задачи можно решать с помощью коэффициента кор-
|#1яции Спирмена?
гГ 13. Какими показателями можно измерить взаимную сопряжен-
Гть альтернативных признаков?
л 14. С помощью какого критерия оценивается статистическая зна-
юсть тетрахорического показателя связи?
15. Что общего и в чем отличие тетрахорического показателя свя-
коэффициента Дайса и трансформированного коэффициента
$айса?
Глава 12
РЕГРЕССИЯ
12.1. ПОНЯТИЕ О РЕГРЕССИОННОМ АНАЛИЗЕ
Корреляционный анализ дает возможность получить общее пред-
ставление о наличии взаимно связанной вариации у признаков и
степени тесноты этой связи. Для решения некоторых задач этого
бывает вполне достаточно, однако в значительном числе случаев
корреляционный анализ может рассматриваться как первый этап в
изучении взаимной изменчивости признаков. Следующим этапом
таких исследований является определение количественной
зависимости между значениями переменных, осуществляемое с помощью
регрессионного анализа.
Регрессионному анализу может и не предшествовать
корреляционный, и не только потому, что первый является вполне
самостоятельным анализом, но и в силу того, что условия применимости
регрессионного анализа гораздо менее жестки, чем корреляционного.
Очень часто значения одного из признаков произвольно
подбираются, исходя из задач эксперимента. Вычисление коэффициента
корреляции в такой детерминированной модели нельзя считать
корректным, но регрессионный анализ здесь обычно может быть
использован, так как основное условие правомерности его
применимости состоит в том, что для любого заданного значения
переменной, взятой в качестве аргумента (независимая переменная),
распределение величин второго признака (зависимой переменной)
близко к нормальному. Такая модель нередко именуется
регрессионной. Очевидно корреляционная модель всегда является и
регрессионной, но при этом обратного сказать нельзя.
Предположим, имеется ряд сопряженных результатов измерения
величины испарения (в мм/сутки) со свободной водной поверхности
(х) и с поверхности насыщенной влагой почвы (у) в пределах
некоторого участка почвенного покрова:
х 0,3 0,3 0,4 0,4 0,4 0,5 0,5 0,6 0,6 0,7 0,7 0,7 0,8 0,8
у 0,4 0,5 0,4 0,6 0,7 0,5 0,7 0,6 0,9 0,6 0,9 1,0 0,9 1,0
Из приведенных данных видно, что при одинаковом испарении с
поверхности воды испарение с поверхности почвы в большей или
меньшей мере отлично друг от друга. Усредняя значения у, для
каждого отдельного значения х получим так называемые условные
260
Кедни<
Еаданн
г
(среднее значение признака Г при условии, что X имеет
е у(
иное значение):
0,3 0,4 0,5
0,45 0,57 0,60
0,6
0,75
0,7
0,83
0,8
0,95.
\ Нанеся на точечный график, отражающий зависимость между х и
!* (рис. 12.1), значения у<х\ и соединив соседние точки отрезками
прямых, получим некоторую линию, именуемую эмпирической ли-
$даей регрессии. Эта линия показьюает, как меняются условные сред-
> вие значения испарения с поверхности почвы с изменением
испарения со свободной водной поверхности. Очевидно, что любое
4^рачение у,х\, будучи вычисленным на основе выборочных данных,
Цсть в действительности лишь случайная оценка некоторого
условного среднего \ьу . И этим прежде всего объясняется обычно
наблюдаемая изломанность эмпирической линии регрессии.
> Изучаемую зависимость ц^
ОТ х с большим или меньшим
приближением можно описать
уравнением того или иного вида. Вид
.зависимости может быть
теоретически выведен, но чаще всего о
характере связи исследователь нечто
узнает лишь в результате
проведения эксперимента, и практически
всегда математическое описание
зависимости представляет собой
более или менее удачную
аппроксимацию истинной связи.
Уравнения, описывающие
зависимость между переменными при
Корреляционном характере связи,
получили название уравнений регрессии. Будучи аппроксимацией,
такие уравнения дают возможность получить условное среднее {iy
Для заданного значения х, выравненное согласно выбранному виду
уравнения регрессии, и поэтому в зависимости от выбора вида
уравнения одному и тому же значению х могут соответствовать более
или менее совпадающие с истинными условными средними \iy
выравненные средние ц .
При рассмотрении рис. 12.1, например, в качестве
аппроксимирующего очень напрашивается уравнение прямой:
261
. 17*
0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 х
Рис. 12.1. Эмпирическая (пунктир) и
теоретическая линии регрессии
испарения влаги из почвы (у) от испарения с
водной поверхности (х) - 1;
теоретическая линия регрессии х/у - 2
»уи=ау/х+Ру!хх> 02.1)
где ау/х и ру1х есть некоторые постоянные величины, именуемые
параметрами уравнения регрессии, в данном случае линейной, при
условии, что у рассматривается в качестве функции от х, что нашло
отражение в индексах при этих коэффициентах.
Не располагая всей полнотой информации о случайных
величинах х и у мы лишены возможности в точности определить ау/х и
$у/х, но оценки ау/х и Ъу/Х для них могут быть получены. При этом
уравнение регрессии A2.1) может быть записано:
У(х)=ау/х + Ьу/хх, A2.2)
где р/х\ - выравненная оценка условного среднего juy . Если в
рассматриваемом примере ау/х= 0,16 и Ьу/Х = 0,97, то A2.2) приобретает
вид: У(х\- 0,16 + 0,97х. Графически выражение такой зависимости
у*х\ от х (в данном случае это прямая линия, см. рис, 12.1) получило
название теоретической линии регрессии.
Для каждого сопряженного ряда величин X и Y обычно бывает
можно найти множество уравнений данного вида (например,
уравнений прямой) с несколькими отличными коэффициентами, которые
удовлетворительно характеризуют количественную зависимость
между изучаемыми признаками. Но среди всех этих уравнений,
видимо, может существовать одно, которое в некотором смысле
наилучшим образом описывает изучаемую связь. Наиболее часто
наилучшими оценками параметров уравнения регрессии считаются
такие, которые обеспечивают получение минимальной суммы
квадратов отклонений эмпирически найденных значений зависимой
переменной у{ от вычисленных по уравнению у*х\:
l(tt - У(х,)) = min'' = *> 2> -> п- A2.3)
Способ, позволяющий найти оценки параметров уравнения
данного вида, удовлетворяющие уравнению A2.3), получил название
способа наименьших квадратов.
Говорить о существовании связи между признаками можно лишь
тогда, когда условные средние одного признака различны для
отличающихся значений другого признака. Параметры уравнения
регрессии, количественно характеризующие изменение функции с
изменением аргумента, получили название коэффициентов регрессии,
Таким коэффициентом регрессии, например, является $yjx в
уравнении A2.1) или его оценка Ъу/х в уравнении A2.2). Если
262
коэффициент регрессии равен нулю, то функция от
соответствующего аргумента не зависит. Так, предположив, что в уравнении
A2.1) Ру/х* 0> получим, что fiy -oLyjx при любых значениях х и
•При этом все \лу одинаковы и равны \iy.
Оценки коэффициентов регрессии никогда не бывают в точности
равны нулю, даже если в генеральных совокупностях связь между
переменными полностью отсутствует. В связи с этим перед
регрессионным анализом встает еще одна задача, а именно выяснить,
насколько неслучайно эмпирически полученный коэффициент
регрессии отличен от нуля и, следовательно, можно ли утверждать, что
связь между признаками реально существует.
Критерии, используемые для оценки статистической значимости
' коэффициентов регрессии (значимости отличия их от нуля), требуют
соблюдения еще одного дополнительного условия: дисперсии
зависимой переменной при различных значениях независимой
переменной должны быть одинаковы. Обычно это условие достаточно
хорошо соблюдается. Там же, где есть основания предполагать, что
это допущение не соответствует действительности, следует провести
проверку однородности дисперсий описанными выше способами.
12.2. ПРЯМОЛИНЕЙНАЯ РЕГРЕССИЯ
Наиболее простым видом регрессии является линейная регрессия.
Такая регрессия легче поддается анализу, а в графическом
выражении для такой регрессии проще обнаруживаются все отступления от
нее. Не удивительно поэтому, что если есть возможность какими-
либо способами свести криволинейную регрессию к прямолинейной,
то такие возможности используются. Наиболее часто при этом при-
меняется изменение масштаба для одной или обеих переменных, на-
пример, путем замены величин на их логарифмы, квадраты,
квадратные корни и пр. Вид необходимого преобразования проще
выбрать при наличии точечного графика, отражающего
зависимость сравниваемых величин
Подобрав способ преобразования, позволяющий свести
криволинейную регрессионную зависимость к прямолинейной, следует
убедиться, что к полученным преобразованным данным регрессинный
анализ может быть применен. Если при различных значениях
аргумента значения зависимой переменной нельзя считать хотя бы
приблизительно распределенными нормально, а тем более, если
дисперсии функционального признака при различных значениях аргумента
нельзя считать одинаковыми, то регрессионный анализ таких
данных корректно выполнен быть не может, даже когда зависимость
263
между преобразованными переменными очень хорошо описывается
уравнением прямой.
Если аппроксимирующим уравнением берется уравнение прямой
вида A2.2), то для отыскания оценок ау/х и Ъу/х нужно иметь систему
из двух уравнений. При использовании способа наименьших
квадратов коэффициенты ау/х и Ьу/Х находятся путем решения системы
уравнений
[nay{x+bylxYdx = Idy
k/x£-*+V*I*2=2>.y.
A2.4)
Из этой системы следует, что
, _ЪУ п A2.5)
иУ/х
T*'-{Zx)
п
ИЛИ
Ых =У~Ьу/хХ • A2.7)
Из приведенных формул следует, что для нахождения оценок
параметров линейной регрессии нужно найти суммы 2дг, Ту, £х2 и Ъху>
а дальнейшие вычисления трудностей не представляют. Для примера
со скоростью испарения влаги из почвы у в качестве функции от
скорости испарения с водной поверхности (х) техника вычислений
выгляди! следующим образом (размерность х и у мм/сутки):
X
0,3
0,3
0,4
0,4
0,4
0,5
0,5
0,6
0,6
0,7
0,7
0,7
0,8
0,8
1.x = 7,7
У
0,4
0,5
0,4
0,6
0,7
0,5
0,7
0,6
0,9
0,6
0,9
1,0
0,9
Ю
Zy = 9,7
xi
0,09
0,09
0,16
0,16
0,16
0,25
0,25
0,36
0,36
0,49
0,49
0,49
0,64
0,64
1*2=4,63
ху
0,12
0,15
0,16
0,24
0,28
0,25
0,35
0,36
0,54
0,42
0,63
0,70
0,72
0,80
Ъху = 5,72
264
,„ 7,7-9,70
V2 — 0385 9,70-0,97-7,7 ...
&„/,. = ~i— = = 0,97, av/r = = 0,16.
,« 7,72 0,395 'A 14
14
В уравнении линейной регрессии коэффициенты а и р и их
оценки а и Ъ представляют собой размерные величины: свободный член а
(и а) имеют размерность функционального признака, коэффициент
регрессии C (и Ъ) - отношение размерностей функции к аргументу.
Так, в полученном уравнении у<х\ = 0,16 + 0,97х, ау/х = 0,16 мм/сутки и
Ъу/Х = 0,97(мм/сутки)/(мм/сутки), т.е. Ъу/Х оказывается в нашем
примере безразмерным по причине одинаковости размерностей
функции и аргумента.
Пользуясь уравнением регрессии можно установить, чему в
среднем равно значение зависимой переменной при заданном значении
независимой переменной. Есзш коэффициенты в уравнении являются
оценками, как это обычно и бывает, то результат вычислений будет
оценкой условного среднего. Так, при х = 0,5 получим
У(х) = 0,16 + 0,97-0,5 = 0,64 мм/сутки.
Следует заметить, что всякое уравнение регрессии имеет
определенные границы применимости, В общем случае нельзя уравнение,
полученное на основании анализов одной группы объектов
(например, подзолистых почв), использовать для прогнозирования
значений зависимой переменной другой группы (например, у солонцов).
Рискованно также прибегать к уравнению регрессии для оценки
значений функционального признака, если значения аргумента
выходят за пределы тех значений свойства, по которым уравнение
было выведено, поскольку часто те зависимости, которые мы
рассматриваем как прямолинейные в действительности являются некоторой
частью криволинейной зависимости, отчетливо обнаруживаемой
лишь при соответствующем расширении значений аргумента.
Именно поэтому, приводя уравнения регрессии, всегда следует указывать
область их применимости.
Если регрессионный анализ проводится на корреляционной
модели, то в качестве функции с равным основанием может быть взят и
признак У, и признак X. Этим двум подходам будут соответствовать
два уравнения регрессии: у*х\ = ау/х + Ъу/хх и xty\ = ах/у + Ьх/уу.
Коэффициент регрессии Ьу/Х в первом из них показывает,
насколько изменяется в среднем у при изменении х на единицу
измерения, Ьх/у во втором - на сколько изменится в среднем х при
изменении у на единицу измерения.
265
На первый взгляд может показаться, что Ьх/у представляет собой
обратную величину от Ьу/х. И если, к примеру, Ъу/х = 0,97, то Ьх/у
должен быть равен 1/0,97 = 1,03, т.е. при изменении испарения с
поверхности почвы на 1 мм/сутки испарение с водной поверхности должно
измениться на 1,03 мм/сутки. Легко убедится, что в
действительности это далеко не так. Заменив в формуле A2.5) х на у и наоборот
и выполнив все вычисления по нахождению необходимых сумм,
получим
Yxy-LZll 5 72 9'70,7'7
о / — = — = = о,бэ ,
(У Л2 9 72 0,589
yv2.UJJ_ 7,31- —
что существенно отличается от ожидаемого нами значения 1,03.
При корреляционных связях абсолютная величина любого
коэффициента регрессии всегда меньше обратной величины другого, в
силу чего эти коэффициенты и именуются коэффициентами
регрессии (от латинского regressio - движение назад). По этой причине
недопустимо простыми алгебраическими преобразованиями из
уравнения регрессии у по л получать уравнение х по у. Искомые
коэффициенты в уравнении регрессии х по у можно получить лишь с
помощью формул A2.5-12.7) (похменяв в них д: и у местами). Для
нашего примера эта зависимость будет иметь вид: x(yp0,10+0,65j.
Соответствующая этой зависимости теоретическая линия
регрессии х/у (см.рис.12.1) не совпадает с линией регрессии у/х, и в этом
проявляется специфика корреляционной связи. Чем меньше степень
линейной связи, тем больше угол между линиями регрессии. При г
(или р) = 0 линии регрессии х/у и у/х оказываются взаимно
перпендикулярными и идущими параллельно осям координат. При строго
функциональной связи (|р| = 1) линии регрессии сливаются в одну.
Эти особенности линейной регрессии хорошо вскрываются при
рассмотрении взаимосвязи коэффициента регрессии и коэффициента
корреляции. Если в формуле A2.5) числитель и знаменатель
разделить на // - 1 и обобщить полученное выражение на генеральную
двумерную совокупность, то мы получим генеральный коэффициент
регрессии в виде
covM
По аналогии с ним коэффициент регрессии х по у будет
представлять собой отношение ковариации величин х и у к дисперсии
266
Из формулы A1.4) видно, что
cov{x,y\=paxoy A2.10)
и, следовательно,
>„*=%> A2Л1)
Из рассмотрения последних формул видно, что любой из
коэффициентов регрессии может быть равен обратной величине другого
только в том случае, когда |р| = I. Из тех же формул следует, что при
р = 0 Рух = $х/у = 0, а при р * 0 оба коэффициента регрессии и
коэффициент корреляции всегда имеют одинаковый знак.
Перемножая коэффициенты регрессии, получим
Р>/х"Рх/> =Р2 И Р = /Ру/хРх/у . A2.13)
т.е. коэффициент корреляции есть среднее геометрическое- из
коэффициентов регрессии. Поскольку всегда |р| < 1, то произведение
коэффициентов регрессии не может превышать единицу, что можно
использовать для проверки правильности вычислений.
Соотношения A2Л 1-12.13) остаются справедливыми и доя
оценки соответствующих параметров:
Ъу/х=—г\ bx/y=^-r; г = Jby/xbx/y . 02.14)
^х Sy
Так дтя рассматриваемого нами примера, согласно формуле
A1.13), можно найти, что г = 0,80, а поскольку sx = 0,174 и sv = 0,213,
то bv/Y =
_ МП .о,80 = 0,97 , bxlv = ^lZi-0,80 = 0,65иг = Д97-0,65 - 0,79
у/х 0I?4 х/у 0,213 V
(возможные различия в численном значении оценок, вычисляемых
по разным формулам, связаны с округлениями при вычислениях).
Следует заметить, что при исследовании корреляционных связей
всегда имеется техническая возможность вычисления и
коэффициента корреляции и обоих коэффициентов регрессии, но корректность
таких вычислений и иитепретируемость результатов корреляционно-
регрессионного анализа определяется мерой соответствия изучаемой
системы корреляционной или регрессионной моделям.
267
12.3. ЗНАЧИМОСТЬ ПАРАМЕТРОВ ЛИНЕЙНОЙ РЕГРЕССИИ
При корреляционных связях уравнения регрессии вида A2.1-12.2)
показывают, как в среднем меняется с изменением аргумента среднее
значение функции, а не отдельные ее значения. В регрессионной
модели, как было отмечено ранее, дисперсия функции при разных
значениях аргумента предполагается одинаковой. Тогда отдельные
значения функции, например, у в зависимости от аргумента х могут
быть описаны уравнением
где w - значения случайной величины W, имеющие размерность у, со
средним \х^ и некоторой дисперсией a2w ^O1. Соответственно
дисперсию функции о2у в этом случае можно представить в виде суммы
двух дисперсий, одна из которых о2 связана с зависимостью Д v
от х согласно A2. 1), а вторая v2w - с вариацией у(х) возле \ь.у
аг'^а2 +а2 02.16)
У У[х) w •
Для конкретной выборочной реализации, когда формула A2.15)
приобретает вид
y(xray/x+by/xx+w=y(x)+w, A2.17)
и когда у есть оценка среднего, используя принцип дисперсионного
анализа, можно общую сумму квадратов
СГ=С2У-^(У>-УJ °2Л8)
с соответствующим ей числом степеней свободы vT-n- 1
разложить на две составляющих: факториальную Су/Х, связанную с
наличием регрессии у/х :
СУ/Х=Т,(У(Х)-УJ A2.19)
с числом степеней свободы vy/x = 1, и случайную Cw с vw~ n - 2:
п W - V A2.20)
Очевидно, что при этом Ст = Су/х + Cw и vr = vy/x+ vw. С
практической точки зрения, полезно знать, принимая во внимание
1 Иначе говоря, предполагается, что случайные величины uw = при
всех х\, л:2, ..., х„ независимы, одинаково распределены (т.е. линейность исчерпывает все
связи) и их распределение не сильно отличается от стандартного нормального.
268
обозначения A1.14 - 11.16), что существует ряд равноценных
формул доя вычисления С:
Cw=C2y-^-, A2.21)
Cw=C2y~by/xCxy, A2.22)
Cw=(l-r>H2y. A2.23)
Рабочие формулы для вычисления Ciy, Сгх, Сху были приведены
ранее A1.14-11.16). Сумме квадратов Cw соответствует vw = п - 2,
поэтому оценкой дисперсии a2w, характеризующей случайное
варьирование отдельных значений yt вокруг линии регрессии у/х,
может служить величина
л — 2
Среднее квадратическое отклонение sw имеет важное значение
для оценки статистической значимости параметров уравнения
регрессии а и р по их оценкам а и b и для построения доверительной
зоны регрессии. Для регрессии у/х ошибки для awb могут быть
получены согласно формулам
*w А
Z*,2
«£(*/-*) \nCix
■w\^- A2.25)
или
ъцг *w
jZ(x}-xf ^
A2.26)
A2.27)
Используя эти ошибки, можно оценить статистическую
значимость параметров а и р. Проверяемые при этом нулевые и
альтернативные гипотезы обычно имеют вид: Но: а = О, Ни а ф 0 и Но: Р = О,
Hi: p ф 0. Проверка гипотез осуществляется с использованием
критерия Стьюдента: при t < ta считается верной нулевая гипотеза, при
t>ta- нулевая гипотеза отвергается в пользу альтернативной. Здесь
ta - значение величины t при v = п - 2 и заданном уровне значимости
И И
a, a t - вычисленное значение: t = — и t = —.
*а Sb
269
В рассматриваемом примере с испарением влаги для случая
регрессии у/х Сгу = 0,589, Cix = 0,395, Сху = 0,385, откуда по формуле
A2.21) Cw =0,589-^y= °>214' ПРИ я = 14 по формуле A2.24),
sw - "J = 0,0178 и sw- 0,134. Поскольку ^=4,63, то по форму-
463
лам A2.25) и A2.27) найдем: sa =0,134/ ' =0,123 и
у 14-0,395
с °»134 П9П
sb = , =0,213.
д/0,395
Поскольку при v = 14 - 2 = 12 fo.os = 2,18, а для ау/х- 0,16 и
^v/jc-0,97 г = ——= 1,30 и г = —— = 4,55, то есть основание
у 0,123 0,213
утверждать, что §у/х * 0, но в отношении ау/х того же сказать нельзя.
Значимость отличия коэффициента регрессии от нуля означает,
что условные средние для функционального признака можно
считать зависимыми от значений переменной х.
Незначимость отличия ау/х от нуля можно рассматривать как
свидетельство того, что линия регрессии может проходить через
начало координат. В этом случае уравнение линейной регрессии может
быть представлено в виде
£у(ж)=Р,/** A2.28)
и соответственно
У(*)=Ьу1*х ' О2-29)
где оценка коэффициента регрессии по способу наименьших
квадратов вычисляется по формуле
6v/ -2fias^2L. A2.30)
y*~Yxi s
lx
При этом ошибка коэффициента регрессии
где sw находится согласно формуле A2.24), а
*«*«-£-» <12-31>
'2х
270
<W„~&. 02.32)
В нашем примере получим Cw =731—! = 0,243; sw = 0,142;
4,63
Ьу/х 124
Поскольку t = -У— - —— = 18,73 существенно больше Го,о5 =2,18
sb 0,066
(и даже fo.ooi = 4,32), то можно с очень большой уверенностью
утверждать, что $у/х * 0. По полученным данным уравнение будет
иметь вид: у,х\ - 1,24х.
12.4. АНАЛИЗ КРИВОЛИНЕЙНЫХ СВЯЗЕЙ
Прямолинейные связи представляют собой один из наиболее
простых видов связей, к тому же далеко не самый распространенный.
Гораздо чаще исследователю приходится сталкиваться со связями
криволинейными. При этом лишь сравнительно редко вид связи
теоретически оказывается предсказуем, и тогда задача сводится к
нахождению параметров уравнения регрессии данного известного
вида. В большинстве случаев почвовед получает первое представление
о характере изучаемой связи после проведения эксперимента. О виде
связи в этом случае можно только догадываться, что вынуждает
исследователя заниматься подбором наиболее удачного вида
уравнения регрессии. Для этого можно брать уравнения разного
вида и, определив их параметры, оценивать хотя бы визуально,
степень сходства полученных теоретических линий регрессии с
эмпирической. Большую помощь в выборе вида уравнений связи при этом
оказывает точечный график.
Нередко бывает, что несколько уравнений разного вида хорошо
описывают характеризуемую связь, но не зная природу взаимосвязи,
нельзя с определенностью сказать, какое из этих уравнений более
естественно. Удачный подбор уравнения еще не есть основание для
утверждений, что изучаемая связь в действительности имеет именно
такой вид, что именно это уравнение должно объяснить природу
связи.
Основной задачей при анализе криволинейных связей является
нахождение оценок параметров в уравнении данного вида. Чаще
всего оценки параметров отыскиваются по способу наименьших
квадратов согласно условию A2.3). Технически наиболее просто
Проводятся вычисления по этому способу, когда уравнение регрессии
Может быть представлено в виде линейной связи относительно
оцениваемых параметров. При этом гребуется решить систему из
271
стольких уравнений, сколько параметров входит в предполагаемое
уравнение связи. В общем случае способ получения отдельных урав*
нений такой системы состоит в том, что сначала отыскивается об.
щий вид уравнений системы, для чего все члены исходного уравне-
ния связи последовательно умножаются на коэффициенты
при определяемых параметрах, и в результате получается
столько уравнений, сколько параметров содержит исходное
уравнение. К примеру, в уравнении параболы второго порядка общего
вида у = а + Ьх + сх2 требуется определить значения а, Ъ и с.
Коэффициенты при этих параметрах соответственно равны 1, х и х2.
Умножая все члены исходного уравнения на 1, получим вид первого
уравнения системы, умножая на л: - второго, на х2 -третьего:
у = а + Ьх + сх2,
ух = ах + Ьх2 + сх3,
ух2 = ах2 + Ъхг + сх4.
Если в каждое из этих уравнений последовательно подставить все
пары значений хиу и затем все полученные уравнения одного вида
просуммировать, то получится система уравнений, решая которую
относительно а, Ъ и с можно получить искомые оценки по способ)
наименьших квадратов.
Так, если имеется п пар значений х и у, то первое уравнение будет
получено в результате суммирования:
у{ =a + bx{ +CXJ2
у2 =а + Ьх2 +сх\
yn=a + bxn+cx2n
^Уг ^na + b^Xi+c^Tx? .
Аналогичным образом можно получить и другие два уравнения,
и тогда система уравнений примет вид
|Ел*/=в1^+*1*/2+<£*/ A2.33)
Легко убедиться, что такой же способ составления системы
использован и в случае линейной регрессии A2.4).
272
Основная вычислительная работа при отыскании оценок пара-
яров криволинейной зависимости, как следует из способа состав-
ния системы уравнений типа A2.33), связана с нахождением раз-
[чных сумм: 2>, 2>2 и др. Для наглядности рассмотрим технику
1числения при аппроксимации связи между величиной наименьшей
[агоемкости (х, %) и содержанием в почве физической глины (у,%)
>авнением параболы второго порядка (табл. 12.1). Система урав-
ш в общем виде для этого случая нами уже получена A2.33).
Таблица 12.1
Вычисление сумм для оценки параметров уравнения параболы 2-го порядка
(jc - содержание физической глины,%;>> - наименьшая влагоемкость почвы,%)
X
2
3
7
5
6
9
6
8
11
19
13
21
24
21
45
56
65
59
65
71
76
592
Z_
4
7
10
12
13
13
15
15
15
15
18
18
19
22
23
26
26
27
27
29
30
384
х2
4
9
49
25
36
81
36
64
121
361
169
441
576
441
2025
3136
4225
3481
4225
5041
5776
30322
X*
8
27
343
125
216
729
216
512
1331
6859
2197
9261
13824
9261
91125
175616
274625
205379
274625
357911
438976
1863166
х<
16
81
2401
625
1296
6561
1296
4096
14641
130321
28561
194481
331776
194481
4100625
9834496
17850625
12117361
17850625
25411681
33362176
121438222
*£
8
21
70
60
78
117
90
120
165
285
234
378
456
462
1035
1456
1690
1593
1755
2059
2280
14412
х2у
16
63
490
300
468
1053
540
960
1815
5415
3042
7938
10944
9702
46575
81536
109850
93987
114075
146189
173280
808238
Подставив в нее соответствующие суммы из табл. 12.1 и
учитывая, что п = 21, получим
[384 = 21а+ 592*+30322с
|l4412 = 592a+303226+1863166c
[808238 =30322л + 1863166ft+121438222с.
Решая эту систему, найдем а = 8,46, Ъ = 0,540, с = -0,00375 и
соответственно уравнение регрессии вида: у,х\ = 8,46+0,540л: -0,00375х2.
Подставляя в это уравнение содержание физической глины х,
**ожно получить усредненную оценку наименьшей влагоемкости
Почвы. Например, для х = 20% получим
273
у{х) =8,46 + 0,540-20- 0,00375- 202 =17,7.
Изучаемая связь может аппроксимироваться уравнениями
разного вида. В целом схема вычислений для оценки параметров
уравнений регрессии остается той же, как в рассмотренном нами примере,
хотя иногда приходится прибегать к некоторым преобразованиям
исходного уравнения, чтобы придать зависимости линейную форму.
Ниже приводятся системы уравнений, которые приходится решать
для отыскания параметров уравнений регрессии некоторых видов.
1. у = ах + blgx
\llyx = a^x2^b^xlgx
[Lyigx = <*I>ig*+*>Z(ig*J •
2. у = abx;lgy = lga+xlgb
[Xxlgy^lgaZx + lgbZx2.
Ъ.у =axb\\gy =lga + blgx
fc\gy = n\ga + bZ\gx
jsig УЧ x^lgdZXgx + bZ (lg x)\
4. у - axbecx; In у = In a+bin x + ex
fckiy^nhia + bj^hix + c^x
\j^lnxlny = lnay£\nx + bY,(lnx) +с%х\пх
\£xln у = \па^х + bJ^xkix + cYtX1
Вычисление оценок параметров уравнений регрессии обычно
представляет собой достаточно трудоемкую процедуру, особенно
если объем корреляционных рядов велик, а число параметров в
уравнении регрессии превышает два. Поэтому подобного рода работу
целесообразно осуществлять на ЭВМ.
12.5. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ
Переменная величина у нередко может рассматриваться в
качестве функции к разных величин jci, JC2,..., хк. Значения независимых
переменных могут быть заданы исследователем (детерминированная
модель), а могут быть получены в результате рандомизированного
отбора (рандомизированная, или недетерминированная модель).
274
Если в последнем случае распределение величин Yt Xi, Хг> ..., Хк
^допустимо считать нормальным, то модель считается
корреляционной.
При числе независимых переменных больше одного
регрессионный анализ именуется множественным. Проведение множественного
регрессионного анализа вполне корректно осуществимо только в
том случае, когда распределение зависимой переменной при различ-
* ных фиксированных значениях независимых переменных близко к
нормальному и дисперсия зависимой переменной у при различных
значениях признаков х может считаться одинаковой.
При прямолинейной множественной регрессии, т.е. когда
зависимая переменная рассматривается как линейная функция от каждой
из независимых переменных, уравнение регрессии имеет вид:
У(*>хг-..хк) = а + Ь^ + *№+-+М* > A2.34)
где Уихх\- есть оценка условного среднего значения признака Y
при данных значениях независимых переменных Х\, Х% ...,ХЬ a a, Ь\,
Ьъ ..., Ьк - оценки параметров уравнения регрессии.
Систему уравнений, позволяющую отыскивать оценки искомых
параметров по способу наименьших квадратов, можно составить
согласно правилам, изложенным в предыдущем параграфе, но следует
иметь в виду, что при числе независимых переменных,
превышающем два (а их число может в некоторых случаях измеряться
десятками!), трудность вычисления очень велика и лишь вычисления с
помощью ЭВМ по специальным программам дают возможность
решить эти задачи.
Чтобы рассмотреть особенности множественного регрессионного
анализа обратимся к простейшему из уравнений регрессии этого
типа, включающему лишь две независимых переменных:
У(Х[,хг)=а + ь\^^Ь2х2. A2.35)
По способу наименьших квадратов параметры этого уравнения
могут быть найдены по формулам:
Г .Г -С .Г
1 __ 2х2 ^ухх ^ххх2 ^ух2
С .Г -С2
^2х} ^2х2 ^х{х2
h - ^2х\ '^У*г ~^*1*г '^УЬ A2.36)
D ,
Г .С -С2
^2хх ^2х2 ^х,х2
a = y-blxl -b2x2i
где у , х{ и х2 - средние арифметические зависимой и независимых
переменных, а величины С по аналогии с формулами A1.15-11.16)
275
СЪ
^2х2
Г
Wtx2
с
с
^ух2
s2x
si
С Х2
"Л2х2- —
l3 v *Ь v-
_ С *1 х2 1
- ° х.х, |
-*у« — !
С ^*2
~ ° ух2
' 2 /2
A237)
ГДе 0Х( - 2 Хи ; «>х2 - 2 x2i ' *$> - 2 Уг » ^2х, ~ 2 ХМ » ^2х2 ~ X ^2/ 5
^х, = ЕУг*м; *V2 = Z>№/; * = i, 2,..., п.
Допустим, для черноземных почв некоторого района имеются
сведения о величине максимальной гигроскопичности, содержании ила и
гумуса. Рассматривая величину максимальной гигроскопичности
как зависимую переменную (у), желательно найти уравнение
регрессии, отражающее зависимость у от содержания ила (х\) и гумуса (xi).
В табл. 12.2 приведены исходные данные и все вычисления,
связанные с отысканием необходимых S. Подставляя найденные суммы S в
уравнение A2.37) и учитывая, что п = 13, найдем
C1Xi -9124
334'
13
= 542,77;
С7х = 835,89-
94,72
13
146,04;
334-94 7
С,- =2504,8- ' =71,74;
хЛ 'в
1553-947
Cvx =1186,66 --^--^- = 55,36;
УХ2 13
Зс, = 334:13 = 25,7 ; х2 = 94,7:13 = 7,28.
Отсюда по формулам A2.36): fc, =
Cvx =4124,3-155'3'334 =134,28;
ух, '13
7 = 155,3:13 = 11,95;
146,04-134,28-71,74-55,36
542,77-146,04-71,742
= 0,21,
542,77-55,36-71,74-134,28
542,77-146,04-71,742
= 0,28,
а = 11,95 - 0,21 • 25,7 - 0,28 • 7,28 = 4,5.
Следовательно, уравнение регрессии y/xi,X2 имеет вид:
У(х„х2) =4,5+0,21*, +0,28х2.
276
Таблица 12.2
Вычисление сумм »Vnpn множественном регрессионном анализе
(у - максимальная гигроскопичность, х\ - содержание ила, хг - содержание гумуса;
все переменные в % массы сухой почвы)
~!Г
У
14,1
13,1
13,7
11,1
12,2
14,0
10,5
14,9
П,4
11,0
13,3
10,5
5,5
155,3
Л'!
31
31
25
32
28
37
29
27
21
19
22
20
12
334
Х2
7,6
7,5
5,1
7,4
7,8
7,7
4,6
И,7
5,8
2,2
13,1
12,2
2,0
94,7
*,2
961
961
625
1024
784
1369
841
729
441
361
484
400
144
9124
х2
Х2
51,16
56,25
26,01
54,76
60,84
59,29
21,16
136,89
33,64
4,84
171,61
148,84
4,00
835,89
Х\Х2
235,6
232,5
127,5
236,8
218,4
284,9
133,4
315,9
121,8
41,8
288,2
244,0
24,0
2504,8
ух\
437,1
406,1
342,5
355,2
341,6
518,0
304,5
402,3
239,4
209,0
292,6
210,0
66,0
4124,3
ухг
107,16
98,25
69,87
82,14
95,16
107,80
48,30
174,33
66,12
24,20
174,23
128,10
11,00
1186,66
У2
198,81
171,61
187,69
123,21
148,84
196,00
110,25
222,01
129,96
121,00
176,89
110,25
30,25
1926,77
В уравнении множественной регрессии коэффициенты Ь\, Ьг, ..., Ьк
являются так называемыми частными коэффициентами регрессии,
отражающими зависимость переменной у от одного из признаков
хихгУ..,хк при исключении влияния остальных независимых
переменных, что можно отобразить индексами у соответствующих
коэффициентов регрессии, например, Ьу/ХгХ х х , для частной регрессии у
по х\ при исключенном влиянии независимых переменных хг, лз, ...,
хк (в индексе они отделены точкой). Так, в рассмотренном нами
примере by =by/x^2 =0,21 и b2=by/x^ -0,28.
Частные коэффициенты регрессии всегда в той или иной мере
отличаются от соответствующих парных коэффициентов регрессии.
Так, для рассматриваемого примера легко установить, что
С2у =71,53, а поскольку С2Хг = 146,04 и Сух^ - 55,36 , то коэффициент
Корреляции между у и хг по формуле A1.13) гу/х = 0,88 . Найдя, что
•Уу=2,44, а $Х2 =3,49, получим, согласно формуле A2.14), парный
Коэффициент регрессии Ьу/Хг = 0,62, который существенно
отличается от аналогичного частного коэффициента регрессии by/X2.Xi = 0,28.
Размерность частных коэффициентов регрессии, как и парных
Коэффициентов, равна отношению размерности зависимой
переменной к размерности соответствующей независимой переменной.
277
18*
При множественной регрессии случайная (остаточная) сумма
квадратов Cw может быть найдена по формуле аналогичной A2.22):
Cw =С2У -b\cyXx -Ь2Сух2 — '~ЬьСухк' A2.38)
Поскольку Cw соответствует число степеней свободы v = п - к -1,
то оценка случайной дисперсии
2 ^W
4= f-r- A2.39)
n-k-l
Располагая величиной s^, можно вычислить ошибки отдельных
коэффициентов регрессии sb. В случае двух независимых переменных
ошибки s^ и s^ могут быть найдены по формулам
ДА = I %с, ' A2-40>
\Г* Л1Х2
Поскольку материалы выборочных наблюдений позволяют
получать лишь оценки параметров уравнения регрессии, то одной из
задач множественного регрессионного анализа является оценка
статистической значимости коэффициентов регрессии, т.е. определение
значимости отличия отдельных pi, P2, ..., р* от нуля при данных
значениях их оценок fci, 62, ..., Ък и соответствующих им ошибок sbi
sbi...,sb . Значимость коэффициента регрессии проверяется с
помощью статистики t =—. Если t > ta для у = л-/г-1,тос уровнем
Ч
значимости а соответствуюищй коэффициент регрессии считается
значимым (т.е. р * 0), а тем самым признается наличие связи между у
и соответствующей независимой переменной.
Так, в рассматриваемом примере имеем
I 11R4
Cw = 71,58 - 0,21 ■ 134,28 - 0,28 - 55,36 = 27,83, % =J —=1,67,
JA = l'61 = 0,074 и t = 0,21 : 0,074 = 2,85,
I 71.742
,542,77--^-
V 146,04
278
sK 1,6? = Па14Я и t = 0,28:0,143= 1,92.
71742
Jl46,04---^-
V 542,77
Учитывая, что при v = 10 Го,о5 = 2,23, приходим к выводу, что
величина максимальной гигроскопичности статистически значимо
связана с содержанием ила (х\)> о влиянии же содержания гумуса с
заданной уверенностью ничего определенного сказать нельзя.
При множественном регрессионном анализе зависимость
функции от отдельных аргументов может быть представлена не только
линейным видом. Если есть основания для беспокойства, что
линейная аппроксимация зависимости у от того или иного аргумента
слишком груба, то в уравнение множественной регрессии могут быть
введены нелинейные составляющие, и тогда уравнение
множественной регрессии будет относиться к нелинейным. Чаще всего
нелинейность вводится либо в виде параболических составляющих, либо
логарифмических, чтобы сохранить линейность относительно
оцениваемых коэффициентов, например в таком виде:
у(хих2>х3) = а + Ь{х{ + Ь2х2 +Ьъх\ +Ьлхъ +b5 lgx3.
И хотя соблюдение линейности упрощает процедуру вычислений,
проведение множественного регрессионного анализа практически
всегда является трудоемким процессом, а в случае, когда число
оцениваемых параметров превышает 3-4, когда число независимых
переменных велико (а оно может иногда измеряться десятками),
проведение множественного регрессионного анализа с технической
стороны оказывается весьма сложной задачей, решить которую
можно лишь с помощью ЭВМ. Но если трудности вычислений в
настоящее время сравнительно легко преодолимы при обеспеченности
современной вычислительной техникой, то интерпретация
результатов статистического анализа всегда остается уделом исследователя,
а эта задача подчас не менее сложна, нежели сама техника счета.
12.6. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ В
СТАНДАРТИЗОВАННОМ ВИДЕ
Частные коэффициенты регрессии отражают количественную
зависимость признака, рассматриваемого в качестве функции от
значений отдельных независимых переменных. Однако роль каждой из
независимых переменных в определении значения зависимой
переменной определяется не только величиной коэффициента регрессии,
но и тем, как сильно могут меняться значения разных аргументов.
279
Степень участия каждой из независимых переменных в оценке
величины функционального признака может быть охарактеризована с
о
помощью стандартизованных коэффициентов регрессии Ъ,
показывающих насколько меняется нормированное отклонение
У\х\>х2>">Хк)-~У
uv =— зависимой переменной, если нормированное
sy
X ~~Х
отклонение их = одной из независимых переменных меняется
на единицу.
Уравнение регрессии в стандартизованном масштабе имеет вид:
йу = Ь, иХ] +Ь2иХ2 4-...+ Ьд. иХк . A2.42)
Вычисление коэффициентов регрессии осуществляется по
формулам
и h ^ h h ^ h h ^ A2.43)
о у о у о у
Применение этих коэффициентов должно осуществляться с
осторожностью, гак как их обоснованная интерпретация возможна
только в случае корреляционной модели (для недетерминированной
модели эти коэффициенты могут быть вычислены и при этом они
о
могут служить оценками для C в генеральной многомерной
совокупности, однако интерпретация этих коэффициентов оказывается
затруднительной).
Так, если в результате проведенного анализа было
установлено, что уравнение регрессии, описывающее зависимость удельной
теплоты смачивания (у, дж/г почвы) от содержания ила (jci,%),
величины максимальной гигроскопичности (х2,%) и содержания гумуса
(хз,%) , имеет вид у(хх, л2, хъ) = 1,6 + 0,034х1 +1,7 \хг + 1,25х3, а
5^=7,64, sx =9,40, sX2=2,89 и 5^=2,59, то, допуская, что
рассматриваемый пример соответствует корреляционной модели,
940 * 289
получим: Ъ\ = 0,034 -±— = 0,04 ; Ь2 = 1,71 -=- = 0,64 ,
7,64 7,64
4=1,25-^ = 0,42.
3 7,64
В стандартизованном масштабе уравнение регрессии
приобретает вид йу(х\ = 0,04wX( +0,64wX2 +0,42ыХз.
280
Из этого уравнения видно, что при изменении отдельных
аргументов на одно стандартное отклонение функциональный признак
(теплота смачивания), измеренный в аналогичных единицах,
изменяется далеко не одинаково. Наиболее значительно влияние
максимальной гигроскопичносги (х2), и совсем ничтожно влияние
содержания ила (х\): на единицу изменения wx значение й / ч меняется в
среднем на 0,04. Полезно заметить, что абсолютная величина
стандартизованных коэффициентов регрессии не связана с их
статистической значимостью. В рассматриваемом примере при п = 20 и
ошибках коэффициентов регрессии ^ =0,290, s^ =0,96 и s^ =0,46
из трех аргументов статистически значимое влияние оказывает лишь
содержание гумуса (л*з), но стандартизованный коэффициент
регрессии при этом признаке на трегь меньше, чем при хг (максимальной
гигроскопичности).
Если множественный регрессионный анализ проводится на
корреляционной модели, можно вычислить множественный
коэффициент корреляции R, характеризующий степень связи между зависимой
переменной и всеми независимыми переменными:
Величина R2 (множественный коэффициент детерминации) при
этом оценивает ту долю от общего варьирования признака у,
которая обусловлена существованием связи между у и величинами
независимых переменных х.
17 8
В рассматриваемом примере R2 = 1 L- = 0,69 и R = 0,83. Ва-
JO,J
рьирование значений теплоты смачивания на 69% связано с
вариацией учтенных в исследовании признаков, а на 31% варьирование
происходит под влиянием случайных неучтенных факторов.
Квадрат множественного коэффициента корреляции можно
представить в виде:
r2 =A+dhX^ +^+-"+**;^-dh' A2,45)
где ryXx, ryXi, —,ryXk есть парные, вычисленные по формуле A1.2) или
A1.3) коэффициенты корреляции между признаками уих\,уи хг> ...,
уихк.
Если объем множественной модели п достаточно велик, а число
независимых переменных к настолько мало, что отношение
281
л-1
допустимо считать практически равным единице, и соответ-
п-к-1
ственно величиной можно пренебречь, то R2 с достаточным
n-fc-1
приближением можно оценить по выражению
Л2 =I_CV_> A246)
С2у
При этом доля участия каждой из независимых переменных лл, хг,
..., лА (при исключенном влиянии всех остальных) в создании общего
о
варьирования признака у будет оцениваться величинами bx ryx^ 5
о о
b2ryXi , ...,bkryx , а в сумме они дадут оценку доли вариабельности
признака у, обусловленной влиянием всех учитываемых
независимых признаков х:
R? = Ъ, гуХ] +Ь2 гуХг +...+Ьк гуХк . (*2.47)
В нашем примере коэффициенты корреляции между уихихгихъ
соответственно равны: гух - 0,60 гух = 0,76 и гух = 0,54. Согласно
формуле A2.47) получаем
R; =0,04-0,60 + 0,64-0,76 + 0,42.0,54 = 0,024 + 0,486 + 0,227 = 0,74.
В рассматриваемом примере п очень невелико, в силу чего
формула A2.47) дает преувеличенное представление о той роли, которую
играют как отдельные независимые переменные, так и учитываемые
факторы в целом в варьировании значений у. Однако даже в данном
случае расхождения между коэффициентами детерминации R2 = 0,69
и Rl = 0,74 не настолько велики, чтобы пренебречь возможностью
оценки относительной доли участия отдельных факторов в создании
вариабельности зависимой переменной. Из разложения R% видно,
что около 49% варьирования значений теплоты смачивания связано
с вариацией максимальной гигроскопичности, около 23% - с
вариацией содержания гумуса и лишь 2% (в принципе об этом
вообще не стоит и упоминать) - с вариацией содержания ила.
Статистическую значимость множественной регрессии
(корреляции) можно оценить с помощью статистики F, если найти
отношение оценки Sy/X x х^ дисперсии, обусловленной существованием
регрессии у по переменным х\, хг> ..., хк , к оценке s]y случайной
дисперсии:
282
«2
F
syi*x>x2'-x* A2.48)
*w
где
Л =С^>^^ t A2.49)
к
a
Cy/x„x2)..,x, =^2^ ~Cw • A2.50)
Если F >Fa для vi = /cHV2 = fl-A:- 1, то связь между у и хотя бы
одним из аргументов признается статистически значимой.
В нашем примере С2у = 1108 , Cw = 285 и Су/х|Х 1>х, = 1108 - 285 =
823
= 823. Поскольку /с = 3, то •?*/* Х2,х3 = = 274.
Учитьгоая, что s2w =17,8, получим F = -z-r= 15,4. При л = 20 и
17,8
к = 3 vi = 3 и V2 = 16. Пользуясь табл. V Приложения узнаем, что при
таких числах степней свободы для а = 0,01 F = 5,3, что существенно
меньше полученного нами. Следовательно, практически с полной
уверенностью можно утверждать, что теплота смачивания связана с
учитываемыми признаками (или хотя бы с одним из них).
12.8. ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ
РЕГРЕССИОННОГО АНАЛИЗА
Регрессионный анализ - весьма эффективное средство познания
изучаемых явлений, однако всегда нужно иметь в виду, что
интерпретация результатов такого анализа должна проводиться с
большой осторожностью и со знанием специфики предмета
исследования.
Прежде всего нельзя упускать из вида то важное обстоятельство,
что ни корреляционный, ни регрессионный анализ не вскрывают в
явном виде причинно-следственные отношения между изучаемыми
признаками. Нахождение функции по известному аргументу может
иметь смысл как определения следствия по известной причине, так и
причины, вызвавшей известное следствие. Примером первого служит
уравнение регрессии влажности завядания (у) по величине
максимальной гигроскопичности (х): у(х) = 2,34 + 1,41*.
Оценкой причины (влажности почвы, у,%) по известному
следствию (электропроводности, х, ом1) служит уравнение
Я*) = Ю,2 + 3-104х.
283
В некоторых случаях вообще бывает трудно указать, что есть
причина, а что следствие, как, например, при изучении зависимости
между объемом агрегатов и их массой. Иногда наличие той или
иной связи между признаками вызвано их зависимостью от
некоторого фактора, оставшегося в рамках проведенного эксперимента "за
скобками". Так, возможная связь между твердостью почвы и
объемом пор аэрации может быть следствием зависимости и того и
другого от влажности.
Явно недооцениваемые трудности в интерпретации результатов
регрессионного анализа связаны с тем, что в почвоведении
изучаемые зависимости обычно представляют собой "вырезку" из
весьма сложной цепи взаимосвязанных явлений, в силу чего
учитываемые факторы, выступающие в качестве аргументов функции,
берут на себя обязанности отразить влияние многих других факторов,
нами не учитываемых. По этой причине коэффициенты регрессии
при тех или иных аргументах практически никогда не отражают в
чистом виде роль соответствующих факторов, что существенно
затрудняет интерпретацию коэффициентов регрессии.
Для иллюстрации этого методологически важного положения
обратимся к примеру, рассмотренному в 12.5. При анализе связи
между величиной максимальной гигроскопичности (у) и
содержанием ила (х\) и гумуса (xi) мы нашли, что ух х = 4,5+0,2 Ь^ +0,28л: 2.
Из этого уравнения следует, что каждый процент гумуса
изменяет максимальную гигроскопичность на 0,28%. Если исключить из
рассмотрения содержание ила, то уравнение регрессии примет вид:
ух = 7,4 +0,62л: 2, здесь каждый процент гумуса приводит к
изменению максимальной гигроскопичности в среднем на 0,62%. Еще более
удивительный результат получается, если наряду с илом и гумусом
учесть влияние суммы обменных оснований (хз):
Ух„х2,хг =2,7 + 0Д2х1 +0,03х2 +0,13*3.
Согласно этому уравнению, содержание гумуса практически не
влияет на максимальную гигроскопичность почвы. Стоит заметить,
что при этом меняются не только абсолютные значения
коэффициентов регрессии, но и их статистическая значимость. Исследователь
почти всегда не может учесть влияние всех факторов, связанных с
функциональным признаком, в силу чего всегда имеется опасность
преуменьшения или преувеличения роли того или иного фактора, а
из приведенного примера видно, сколь могут быть велики различия
в коэффициентах регрессии.
В большинстве случаев получающиеся результаты
регрессионного анализа не противоречат логике изучаемого явления, в силу чего
интерпретация результатов выглядит вполне правдоподобной и
284
даже убедительной. Но не следует забывать, что правдоподобность
еще не есть свидетельство соответствия действительности.
Необходимость осторожности в интерпретации результатов
бывает очевидна лишь в том случае, когда получающаяся связь
выглядит противоречащей здравому смыслу. Так, для степных почв
Крыма урожайность зерновых (у, ц/га) связана с запасом в почве
подвижного фосфора в пересчете на Р2О5 (х, т/га) уравнением
Я*) = 21,7-8,9х.
Поскольку отрицательная зависимость между урожайностью и
содержанием фосфора представляется странной, исследователь
догадывается, что здесь что-то не так, и по размышлении
устанавливает, что во всем виновата солонцеватость почв, которая повышает
подвижность фосфора, но в то же время снижает урожай.
Повышение содержания подвижного фосфора в почве может оказывать
положительное влияние на урожайность, но отрицательное влияние
солонцеватости такое влияние маскирует.
Для прогноза урожайности по содержанию подвижного фосфора
последнее уравнение пригодно, но оно, очевидно, не годится для
разработки приемов активного воздействия на урожай, и не только
потому, что для повышения урожая нужно было бы извлекать
фосфор из почвы. Дело в том, что если бы из уравнения следовали более
естественные и более выполнимые рекомендации по управлению
функцией, это еще не означает, что наши попытки управления
оказались бы эффективными. Ведь отрицательная связь урожая с
запасами подвижного фосфора вполне закономерна, но даже если бы мы
сумели убрать какое-то количество фосфора из почвы, урожайность
вряд ли бы возросла, так как в изучаемой природной обстановке
урожайность снижается с ростом содержания фосфора не благодаря
этому росту, а несмотря на этот рост. И подобные подчас
неожиданные ситуации могут возникать в казалось бы вполне понятных и
легко анализируемых условиях. Именно по этой причине уравнения
регрессии оказываются пригодными для прогноза функции по
известным значениям аргументов в условиях, аналогичных тем, в
которых собирался фактический материал для построения уравнения,
но они с большой осторожностью могут быть использованы для
целей разработки методов управления функциональным признаком
путем воздействия на признаки, выступающие в качестве
аргументов.
285
Вопросы для самоконтроля.
1. Какой анализ называется регрессионным и какое у него
назначение?
2. В чем проявляется сходство и различие эмпирической и
теоретической линий регрессии?
3. Какими качествами обладают оценки параметров уравнения
регрессии, найденные по способу наименьших квадратов?
4. В чем отличие корреляционной модели от регрессионной?
5. Для чего используются уравнения регрессии и что
регламентируют условия их применения?
6. Когда и почему при линейной регрессии коэффициент
регрессии х по у не равен обратной величине коэффициента регрессии у по
х(ьх,у*уьу,ху>
7. Есть ли ограничения на величину и знак произведения
коэффициентов линейной регрессии ьу1х-ьх1у и что такое произведение
показывает?
8. Как проверяется значимость параметров уравнения регрессии?
9. В чем отличие линейной регрессии от крив о линейной?
10. Что показывают коэффициенты регрессии в уравнении
множественной регрессии и какова их размерность?
11. Каковы особенности использования и интерпретации
уравнений множественной регрессии в стандартизованном виде?
12. Какой смысл имеет коэффициент множественной корреляции
и как он связан с парными коэффициентами корреляции?
13. В какой мере уравнения регрессии отражают причинно-
следственные отношения между признаками?
14. Как и для решения какого рода задач можно использовать
уравнения регрессии?
15. В чем заключаются трудности интерпретации результатов
регрессионного анализа?
ПРИЛОЖЕНИЯ
Таблица случайных чисел B500 случайных цифр)
Таблица I
00
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
00-04
54463
15389
85941
61149
05219
41417
28357
17783
40950
82995
96754
34357
06318
62111
47534
98614
24856
96887
90801
55165
75884
16777
46230
42902
81007
68089
20411
58212
70577
94522
42626
16051
08244
59497
97155
98409
45476
89300
50051
31753
79152
44560
68328
46939
83544
91621
91896
55751
85156
07521
OS-OQ
22662
85205
40756
69440
81619
98326
94070
00015
84820
64157
17676
88040
37403
52820
09243
75993
03648
12479
21472
77312
12952
37116
43877
66892
00333
01121
67081
13160
42866
74358
86819
33763
27647
04392
13428
66162
84882
69700
95137
85178
53829
38750
83378
38689
86141
00881
67126
62515
87689
56898
10-14
65905
18850
82414
11286
10651
87719
20652
10806
29881
66164
55659
53364
49927
07243
67879
84460
44898
80621
42815
83666
84318
58550
80207
46134
39693
51111
89950
06468
24969
71659
85651
57194
33851
09419
40293
95763
65109
50741
91631
31310
77250
8635
63369
58625
15707
04900
04151
21108
95493
12236
1S-1Q
70639
39226
02015
88218
67079
92294
35774
83091
85966
41180
44105
71726
57715
79931
00544
62846
09351
66223
77408
36028
95108
42958
88877
01432
28039
72373
16944
15718
61210
62038
88678
16752
44705
89964
09985
47420
96597
30329
66315
89642
20190
56540
71381
08342
86256
54224
03795
80830
88842
60277
?о-?д
79365
42249
13858
58925
92511
46614
16249
91530
62800
10089
47361
45690
50423
89292
23410
59844
98795
86085
37390
28420
72305
21460
89380
94710
10154
06902
93054
82627
76046
79643
17401
54450
94211
51211
58434
20792
25930
11658
91428
98364
56535
64900
39564
30459
23068
46177
59077
02263
00664
39102
?S-?Q
67382
90669
78030
03638
59888
50948
75019
36466
70326
41757
34833
66334
67372
84767
12740
14922
18644
78285
76766
70219
64620
43910
32992
23474
95425
74373
87687
76999
67699
79169
03252
19031
46716
04894
01412
61527
66790
23166
12275
02306
18760
42912
05615
85863
13782
55309
11848
29303
55017
62315
Ч0-Я4
29085
96325
16269
52862
84502
64886
21145
39981
84740
78258
86679
60332
63116
85693
02540
48730
39765
02432
52615
81369
91318
01175
91380
20423
39220
96199
96693
05999
42054
44741
99547
58580
11738
72882
69124
20441
65706
05400
24816
24617
69942
13953
42451
20781
08467
17852
12630
37204
55539
12239
3S-™
69831
23248
65978
62733
72095
20002
05217
62481
62660
96488
23930
22554
48888
73947
54440
73443
71058
53342
32141
41943
89872
87894
03164
60137
19774
97017
87236
58680
12696
05437
32404
47629
55784
17805
82171
39435
61203
66669
68091
09609
77448
79149
64559
09284
89469
27491
98375
96926
17771
07105
40-44
47058
60933
01385
33451
83463
97365
47286
49177
77379
88629
53249
90600
21505
22278
32949
48167
90368
42846
30268
47366
45375
81378
98656
60609
31782
41273
77054
96739
93758
39038
17918
54132
95374
21896
59058
11859
53634
48708
71710
83942
33278
18710
97501
26333
93842
89415
52068
30506
69448
11844
4S-4Q
08186
26927
15345
77455
75577
30976
76305
75779
90279
37231
27083-
71113
80182
11551
13491
34770
44104
94771
18106
41067
85436
10620
59337
13119
49037
21546
33848
63700
03283
13163
62880
60631
72655
83864
82859
41567
22557
03887
33258
22716
48805
^861^
65747
91777
55349
23466
60142
09808
87530
01117
Таблица П
Интеграл вероятности F(z) = , J в dz
л/2я _оо
(вероятность P(zi<z) = F(z); ноль целых и запятая опущены)
у.
-3,9
-3,8
-3,7
-3,6
-3,5
-3,4
-з,з
-3,2
-3,1
-3,0
-2,9
-2,8
-2,7
-2,6
-2,5
-2,4
-2,3
-2,2
-2,1
-2,0
-1,9
-1,8
-1,7
-U6
-1,5
-1,4
-1,3
-1,2
-1,1
-1,0
-0,9
-0,8
-0,7
-0,6
-0,5
-0,4
-0,3
-0,2
-0,1
-0,0
0,00
00005
00007
00011
00016
00023
00034
00048
00бб9
00097
00135
00187
00256
00347
00466
00621
00820
01072
01390
01786
02275
02872
03593
04457
05480
06681
08076
09680
П507
13567
15866
18406
21186
24196
27425
30854
34458
38209
42074
46017
50000
0,01
00005
00007
00010
00015
00022
00032
00047
00066
00094
00131
00181
00248
00336
00453,
00604
00798
01044
01355
01743
02222
02807
03515
04363
05370
06552
07927
09510
11314
13350
15625
18141
20897
23885
27093
30503
34090
37828
41683
45620
49601
0,07
00004
00007
00010
00015
00022
00031
00045
00064
00090
00126
00175
00240
00326
00440
00587
00776
01017
01321
01700
02169
02743
03438
04272
05262
06426
07780
09342
11123
13136
15386
17879
20611
23576
26763
30153
33724
37448
41294
45224
49202
о,оя
00004
00006
00010
00014
00021
00030
00043
00062
00087
00122
00170
00233
00317
00427
00570
00755
00990
01287
01659
02118
02680
03362
04182
05155
06301
07636
09176
10935
12924
15150
17619
20327
23270
26435
29806
33360
37070
40905
44828
48803
0,04
00004
00006
00009
00014
00020
00029
00042
00060
00084
00118
00164
00226
00308
00414
00554
00734
00964
01255
01618
02068
02619
03288
04093
05050
06178
07993
09012
10749
12714
14917
17361
20045
22965
26109
29460
32997
36693
40516
44433
48405
0,05
00004
00006
00009
00013
00019
00028
00040
00058
00082
00114
00159
00219
00298
00402
00539
00714
00939
01222
01578
02018
02559
03216
04006
04947
06057
07353
08851
10565
12507
14686
17106
19766
22663
25785
29116
32697
36317
40129
44038
48006
0;06
00004
00006
00008
00013
00019
00027
00039
00056
00079
00111
00154
00212
00289
00391
00523
00695
00914
01191
01539
01970
02500
03144
03920
04846
05938
07214
08692
10384
12302
14457
16853
19489
22363
25463
28774
32276
35942
39743
43644
47608
0,07
00004
00005
00008
00012
00018
00026
00038
00054
00076
00107
00149
00205
00280
00379
00508
00676
00889
01160
01500
01923
02442
03074
03836
04746
05821
07078
08534
10204
12100
14231
16602
19215
22065
25143
28434
31918
35569
39358
43250
47210
0,08
00003
00005
00008
00012
00017
00025
00036
00052
00074
00104
00144
00199
00272
00368
00494
00657
00866
01130
01463
01876
02385
03005
03754
04648
05705
06944
08379
10027
11900
14007
16354
18943
21770
24825
28096
31561
35197
38974
42858
46812
0,00
00003
00005
00008
00011
00017
00024
00035
00050
00071
00100
00140
00193
00264
00357
00480
00639
00842
01101
01426
01831
02330
02938
03673
04551
05592
068 U
08226
09852
11702
13786
16109
18673
21476
24510
27760
31207
34827
38591
42466
46416
289
Таблица П. Окончание
7.
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
us
1,6
1J
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
0,00
50000
53983
57926
61791
65542
69146
72575
75804
78814
81594
84134
86433
88493
90320
91924
93319
94520
95543
96407
97128
97725
98214
98610
98928
99180
99379
99534
99653
99744
99813
99865
99903
99931
99952
99966
99977
99984
99989
99993
99995
0,01
50399
54380
58317
62172
65910
69497
72907
76115
79103
81859
84375
86650
88686
90490
92073
93448
94630
95637
96485
97193
97778
98257
98645
98956
99202
99396
99547
99664
99752
99819
99869
99906
99934
99953
99968
99978
99985
99990
99993
99995
0,0?
50798
54776
58706
62552
66276
69847
73237
76424
79389
82121
84614
86864
88877
90658
92220
93574
94738
95728
96562
97257
97831
98300
98679
98983
99224
99413
99560
99674
99760
99825
99874
99910
99936
99955
99969
99978
99985
99990
99993
99996
0,0Т
51197
55172
59095
62930
66640
70194
73565
76730
79673
82381
84850
87076
89065
90824
92364
93699
94845
95818
96638
97320
97882
98341
98713
99010
99245
99430
99573
99683
99767
99831
99878
99913
99938
99957
99970
99979
99986
99990
99994
99996
0,04
51595
55567
59483
63307
67003
70540
73891
77035
79955
82639
85083
87286
89251
90988
92507
93822
94950
95907
96712
97381
97932
98382
98745
99036
99266
99446
99585
99693
99774
99836
99882
99916
99940
99958
99971
99980
99986
99991
99994
99996
0,05
51994
55962
59871
63683
67364
70884
74215
77337
80234
82894
85314
87403
89435
91149
92647
93943
95053
95994
96784
97441
97982
98422
98778
99061
99286
99461
99598
99702
99781
99841
99886
99918
99942
99960
99972
99981
99987
99991
99994
99996
0,06
52392
56356
60257
64058
67724
71226
74537
77637
80511
83147
85543
87698
89617
91308
92786
94062
95154
96080
96856
97500
98030
98461
98809
99086
99305
99477
99609
99711
99788
99846
99889
99921
99944
99961
99973
99981
99987
99992
99994
99996
007
52790
56749
60642
64431
68082
71566
74857
77935
80785
83398
85769
87900
89796
91466
92922
94179
95254
96164
96926
97558
98077
98500
98840
99П1
99324
99492
99621
99720
99795
99851
99893
99924
99946
99962
99974
99982
99988
99992
99995
99996
0,08
53188
57142
61026
64803
68439
71904
75175
78230
81057
83646
85993
88100
89973
91621
93056
94295
95352
96246
96995
97615
98124
98537
98870
99134
99343
99506
99632
99728
99801
99856
99896
99926
99948
99964
99975
99983
99988
99992
99995
99997
Q0Q
53586
57535
61409
65ПЗ
68793
72240
75490
78524
81327
83891
86214
88298
90147
91774
93189
94408
95449
96327
97062
97670
98169
98574
98899
99158
99361
99520
99643
99736
99807
99861
99900
99929
99950
99965
99976
99983
99989
99992
99995
99997
Таблица
Критические значения статистики Стьюдента ta
при различном числе степеней свободы v; вероятность = а
V
1
2
3
4
5
6
7
8
9
10
П
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
оо
0,50
1,00
0,82
0,76
0,74
0,73
0,72
0,71
0,71
0,70
0,70
0,70
0,70
0,69
0,69
0,69
0,69
0,69
0,69
0,69
0,69
0,69
0,69
0,68
0,68
0,68
0,68
0,68
0,68
0,68
0,68
0,68
0,68
0,68
0,67
0,20
3,08
1,89
1,64
1,53
1,48
1,44
1,42
1,40
1,38
1,37
1,36
1,36
1,35
1,34
1,34
1,34
1,33
1,33
1,33
1,32
1,32
1,32
1,32
1,32
1,32
1,32
1,31
1,31
1,31
1,31
1,30
1,30
1,29
1,28
Уровень
0,10
6,31
2,92
2,35
2,13
2,02
1,94
1,90
1,86
1,83
1,81
1,80
1,78
1,77
1,76
1,75
1,75
1,74
1,73
1,73
1,72
1,72
1,72
1,71
1,71
1,71
1,71
1,70
1,70
1,70
1,70
1,68
1,67
1,66
1,64
0,05
12,71
4,30
3,18
2,78
2,57
2,45
2,36
2,31
2,26
2,23
2,20
2,18
2,16
2,14
2,13
2,12
2,11
2,10
2,09
2,09
2,08
2,07
2,07
2,06
2,06
2,06
2,05
2,0S
2,04
2,04
2,02
2,00
1,98
1,96
значимости а
0,02
31,82
6,96
4,54
3,75
3,36
3,14
3,00
2,90
2,82
2,76
2,72
2,68
2,65
2,62
2,60
2,58
2,57
2,55
2,54
2,53
2,52
2,51
2,50
2,49
2,48
2,48
2,47
2,47
2,46
2,46
2,42
2,39
2,36
2,33
0,01
63,66
9,92
5,84
4,60
4,03
3,71
3,50
3,36
3,25
3,17
3,11
3,06
3,01
2,98
2,95
2,92
2,90
2,88
2,86
2,84
2,83
2,82
2,81
2,80
2,79
2,78
2,77
2,76
2,76
2,75
2,70
2,66
2,62
2,58
0,002
318,3
22,33
10,21
7,17
5,89
5,21
4,78
4,50
4,30
4,14
4,02
3,93
3,85
3,79
3,73
3,69
3,65
3,61
3,58
3,55
3,53
3,50
3,48
3,47
3,45
3,44
3,42
3,41
3,40
3,38
3,30
3,23
3,16
3,09
0,001
636,6
31,60
12,94
8,61
6,86
5,06
5,40
5,04
4,78
4,59
4,44
4,32
4,22
4,14
4,07
4,02
3,96
3,92
3,88
3,85
3,82
3,79
3,77
3,74
3,72
3,71
3,69
3,67
3,66
3,65
3,55
3,46
3,37
3,29
291
Таблица
Квантили распределения х2 (вероятность Р( %2 > Ха ) = а)
V
1
2
3
4
5
6
7
8
9
10
Н
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
0,995
0,0439
0,010
0,072
0,21
0,41
0,68
0,98
1,34
1,74
2,16
2,60
3,07
3,57
4,08
4,60
5,14
5,69
6,27
6,84
7,43
8,03
8,64
9,26
9,89
10,52
11,16
11,81
12,46
13,12
13,79
14,46
15,13
15,82
16,50
17,19
17,89
18,59
19,29
19,99
20,71
0,990
0,0316
0,020
0,115
0,30
0,55
0,87
1,24
1,65
2,09
2,59
3,05
3,57
4,11
4,66
5,23
5,81
6,42
7,02
7,63
8,26
8,89
9,54
10,19
10,86
11,52
12,19
12,88
13,57
14,26
14,95
\5,66
16,36
17,07
17,79
18,51
19,23
19,96
20,69
21,43
22,16
Уровень значимости а
0,975
0,0398
0,051
0,22
0,48
0,83
U24
1,69
2,18
2,70
3,24
3,82
4,40
5,01
5,63
6,26
6,91
7,56
8,23
8,91
9,59
10,28
10,98
11,69
12,40
13,12
13,84
14,57
15,31
16,05
16,79
17,54
18,29
19,05
19,81
20,57
21,34
22,11
22,88
23,65
24,43
0,950
0,0239
0,103
0,35
0,71
1,15
1,64
2,17
2,73
3,33
3,94
4,58
5,23
5,89
6,57
7,26
7,96
8,67
9,39
10,12
10,85
11,59
12,33
13,09
13,85
14,61
15,38
16,15
16,93
17,71
18,49
19,28
20,07
20,87
21,66
22,47
23,27
24,08
24,88
25,69
26,51
0,050
3,84
5,99
7,82
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,69
24,99
26,29
27,59
28,87
30,14
31,41
32,61
33,93
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77
44,99
46,19
47,40
48,60
49,80
50,99
52,19
53,38
54,57
55,76
0,025
5,02
7,38
9,35
11,14
12,83
14,45
16,01
17,54
19,02
20,48
21,92
23,34
24,74
26,12
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98
48,23
49,48
50,73
51,97
53,20
54,44
55,67
56,89
58,12
59,34
0,010
6,64
9,21
11,35
13,28
15,09
\6,8\
18,48
20,09
21,67
23,21
24,73
26,22
27,69
29,14
30,58
32,00
33,41
34,81
36,12
37,57
38,93
40,29
41,64
42,98
44,61
45,64
46,96
48,28
49,59
50,89
52,20
53,48
54,78
56,06
57,34
58,62
59,89
61,16
62,43
63,69
0,005
7,88
10,60
12,84
14,86
16,75
18,55
20,28
21,96
23,59
25,19
26,76
28,30
29,82
31,32
32,80
34,27
35,72
37,16
38,58
39,99
41,40
42,79
44,18
45,56
46,93
48,29
49,65
50,99
52,34
53,67
55,00
56,33
57,65
58,96
60,28
61,58
62,88
64,18
65,48
66,77
Таблица V
Критические значения Fa для а = 0,01 (верхнее число) и а = 0,05 (нижнее число)
в зависимости от числа степеней свободы vi (числителя) и \г (знаменателя). Вероятность P(F> Fa) = a
V2 1 2 3 4 5 6 7 8 9 10 11 12 14 16 20 24 ' 30 40 50 75 100 200 500 qq
1 4052 4999 5403 5625 5764 5859 5928 5981 6022 6056 6082 6106 6142 6169 6208 6234 6258 6286 6302 6323 6334 6352 6361 6366
161 200 216 225 230 234 237 239 241 242 243 244 245 246 248 249 250 251 252 253 253 254 254 254
2 98,5 99,0 99,2 99,2 99,3 99,3 99,3 99,4 99,4 99,4 99,4 99,4 99,4 99,4 99,5 99,5 99,5 99,5 99,5 99,5 99,5 99,5 99,5 99,5
18,5 19,0 19,2 19,2 19,3 19,3 19,4 19,4 19,4 19,4 19,4 19,4 19,4 19,4 19,4 19,4 19,5 19,5 19,5 19,5 19,5 19,5 19,5 19,5
3K4,1 30,8 29,5 28,7 28,2 27,9 27,7 27,5 27,4 27,2 27,1 27,1 26,9 26, В 26,7 26,6 26,5 26,4 26,4 26,3 26,2 26,2 26,1 26,1
10,1 9,6 9,3 9,1 9,0 8,9 8,9 8,8 8,8 8,8 8,8 8,7 8,7 8,7 8,7 8,6 8,6 8,6 8,6 8,6 8,6 8,5 8,5 8,5
4 21,2 18,8 16,7 16,0 15,5 15,2 15,0 14,8 14,7 14,6 14,5 14,4 14,2 14,1 14,0 13,9 13,8 13,7 13,7 13,6 13,5 13,5 13,5 13,5
7.7 6,9 6,6 6,4 6,3 6,2 6,1 6,0 6,0 6,0 5,9 5,9 5,9 5,8 5,8 5,8 5,7 5,7 5,7 5,7 5,7 5,7 5,6 5,6
5 16,3 13,3 12,1 11,0 11,0 10,7 10,5 10,3 10,2 10,1 10,0 9,9 9,8 9,7 9,6 9,5 9,4 9,3 9,2 9,1 9,1 9,1 9,0 9,0
6,6 5,8 5,4 5,2 5,1 5,0 4,9 4,8 4,8 4,7 4,7 4,7 4,6 4,6 4,6 4,5 4,5 4,5 4,4 4,4 4,4 4,4 4,4 4,4
6 13,4 10,9 9,8 9,2 8,8 8,5 8,3 8,1 8,0 7,9 7,8 7,7 7,6 7,5 7,4 7,3 7,2 7,1 7,1 7,0 7,0 6,9 6,9 6,9
6.0 5,1 4,8 4,5 4,4 4,3 4,2 4,1 4,1 4,1 4,0 4,0 4,0 3,9 3,9 3,8 3,8 3,8 3,8 3,7 3,7 3,7 3,7 3,7
7 N2 3 9,6 8 5 7,9 7,5 7,2 7,0 6,8 6,7 6,6 6,5 6,5 6,4 6,3 6,2 6,1 6,0 5,9 5,9 5,8 5,8 5,7 5,7 5,7
5 6 4 7 4*4 4 1 4,0 3,9 3,8 3,7 3,7 3,6 3,6 3,6 3,5 3,5 3,4 3,4 3,4 3,3 3,3 3,3 3,3 3,3 3,2 3,2
8 П,3 8,7 1,6 7,0 6,6 6,4 6,2 6,0 5,9 5,8 5,7 5,7 5,6 5,5 5,4 5,3 5,2 5,1 5,1 5,0 5,0 4,9 4,9 4,9
5,3 4,6 4,1 3,8 3,7 3,6 3,5 3,4 3,4 3,3 3,1 3,3 3,2 3,2 3,2 3, 1 3, 1 3, 1 3,0 3,0 3,0 3,0 2,9 2,9
9 10,6 8,0 7,0 6,4 6,1 5,8 5,6 5,5 5,4 5,3 5,2 5,1 5,0 4,9 4,8 4,7 4,6 4,6 4,5 4,5 4,4 4,4 4,3 4,3
5.1 4,3 3,6 3,6 3,5 3,4 3,3 3,2 3,2 3,1 3,1 3,1 3,0 3,0 2,9 2,9 2,9 2,8 2,8 2,8 2,8 2,7 2,7 2,7
10 10,0 7,9 6,6 6,0 5,6 5,4 5,2 5,1 5,0 4,9 4,8 4,7 4,6 4,5 4,4 4,3 4,3 4,2 4, 1 4, 1 4,0 4,0 3,9 3,9
5 0 4,1 3,7 3,5 3,3 3,2 3,1 3,1 3,0 2,0 2,9 2,9 2,9 2,8 2,8 2,7 2,7 2,7 2,6 2,6 2,6 2,6 2,6 2,5
U 9,7 7,2 6,2 5,7 5,3 5,1 4,9 4,7 4,6 4,5 4,5 4,4 4,3 4,2 4, 1 4,0 3,9 3,9 3,8 3,7 3,7 3,7 3,6 3,6
4.8 4,0 3,6 3,4 3,2 3,1 3,0 3,0 2,9 2,9 2,8 2,8 2,7 2,7 2,7 2,6 2,6 2,5 2,5 2,5 2,5 2,4 2,4 2,4
12 9,3 6,9 6,0 5,4 5,1 4,8 4,7 4,5 4,4 4,3 4,2 4,2 4,1 4,0 3,9 3,8 3,7 3,6 3,6 3,5 3,5 3, 4 3,4 3,4
4 8 3,9 3,5 3,3 3,1 3,0 2,9 2,9 2,8 2,8 2,7 2,7 2,6 2.6 2.5 2,5 2,5 2,4 2,4 2,4 2,4 2,3 2,3 2,3
Таблица V. Продолжение
V2 1 2 3 4 5 6 7 8 9 10 11 12 14 16 20 24 30 40 50 75 100 200 500 оо
13 9,1 6/7 5J il 4^9 4^6 М 43 4~2 4Л 4~0 4,0 3,9 3,8 3,7 3,6 3,5 3,4 3,4 3,3 зГз V3 572 зГГ"
4,7 3,8 3,4 3,2 3,0 2,9 2,8 2,8 2,7 2,7 2,6 2,6 2,6 2,5 2,5 2,4 2,4 2,3 2,3 2,3 2,3 2,2 2,2 2,2
14 8,9 6,5 5,6 5,0 4,7 4,5 4,3 4,1 4,0 3,9 3,9 3,8 3,7 3,6 3,5 3,4 3,3 3,3 3,2 3,1 3,1 3,1 3,0 3,0
4,6 3,7 3,3 3,1 3,0 2,9 2,8 2,7 2,7 2,6 2,6 2,5 2,5 2,4 2,4 2,4 2,3 2,3 2,2 2,2 2,2 2,2 2,1 2,1
15 8,7 6,4 5,4 4,9 4,6 4,3 4,1 4,0 3,9 3,8 3,7 3,7 3,6 3,5 3,4 3,3 3,2 3,2 3,1 3,0 3,0 2,9 2,9 2,9
4,5 3,7 3,3 3,1 2,9 2,8 2,7 2,6 2,6 2,6 2,5 2,5 2,4 2,4 2,3 2,3 2,3 2,2 2,2 2,2 2,1 2,1 2,1 2,1
16 8,5 6,2 5,3 4,8 4,4 4,2 4,0 3,9 3,8 3,7 3,6 3,5 3,5 3,4 3,3 3,2 3,1 3,0 3,0 2,9 2,9 2,8 2,8 2,8
4,5 3,6 3,2 3,0 2,9 2,7 2,7 2,6 2,5 2,5 2,5 2,4 2,4 2,3 2,3 2,2 2,2 2,2 2,1 2,1 2,1 2,0 2,0 2,0
17 8,4 6,1 5,2 4,7 4,3 4,1 3,9 3,8 3,7 3,6 3,5 3,5 3,4 3,3 3,2 3,1 3,0 2,9 2,9 2,8 2,8 2,7 2,7 2,7
4,5 3,6 3,2 3,0 2,8 2,7 2,6 2,6 2,5 2,5 2,4 2,4 2,3 2,3 2,2 2,2 2,2 2,1 2,1 2,0 2,0 2,0 2,0 2,0
18 8,3 6,0 5,1 4,6 4,2 4,0 3,8 3,7 3,6 3,5 3,4 3,4 3,3 3,2 3,1 3,0 2,9 2,8 2,8 2,7 2,7 2,6 2,6 2,6
4,4 3,5 3,2 2,9 2,8 2,7 2,6 2,5 2,5 2,4 2,4 2,3 2,3 2,2 2,2 2,1 2,1 2,1 2,0 2,0 2,0 1,9 1,9 1,9
19 8,2 5,9 5,0 4,5 4,2 3,9 3,8 3,6 3,5 3,4 3,4 3,3 3,2 3,1 3,0 2,9 2,9 2,8 2,7 2,6 2,6 2,5 2,5 2,5
4,4 3,5 3,1 2,9 2,7 2,6 2,5 2,5 2,4 2,4 2,3 2,3 2,3 2,2 2,1 2,1 2,1 2,0 2,0 2,0 1,9 1,9 1,9 1,9
20 8,1 5,8 4,9 4,4 4,1 3,9 3,7 3,6 3,4 3,4 3,3 3,2 3,1 3,0 2,9 2,9 2,8 2,7 2,6 2,6 2,5 2,5 2,4 2,4
4,3 3,5 3,1. 2,9 2,7 2,6 2,5 2,4 2,4 2,3 2,3 2,3 2,2 2,2 2,1 2,1 2,0 2,0 2,0 1,9 1,9 1,9 1,8 1,8
21 8,0 5,8 4,9 4,4 4,0 3,8 3,6 3,5 3,4 3,3 3,2 3,2 3,1 3,0 2,9 2,8 2,7 2,6 2,6 2,5 2,5 2,4 2,4 2,4
4,3 3,5 3,1 2,8 2,7 2,6 2,5 2,4 2,4 2,3 2,3 2,2 2,2 2,1 2,1 2,0 2,0 2,0 1,9 1,9 1,9 1,8 1,8 1,8
22 7,9 5,7 4,8 4,3 4,0 3,8 3,6 3,4 3,3 3,3 3,2 3,1 3,0 2,9 2,8 2,7 2,7 2,6 2,5 2,5 2,4 2,4 2,3 2,3
4,3 3,4 3,0 2,8 2,7 2,6 2,5 2,4 2,3 2,3 2,3 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,8 1,8 1,8
23 7,9 5,7 4,8 4,3 4,0 3,7 3,5 3,4 3,3 3,2 3,1 3,1 3,0 2,9 2,8 2,7 2,6 2,5 2,5 2,4 2,4 2,3 2,3 2,3
4,3 3,4 3,0 2,8 2,6 2,5 2,4 2,4 2,4 2,3 2,2 2,2 2,1 2,1 2,0 2,0 2,0 1,9 1,9 1,8 1,8 1,8 1,8 1,8
24 7,8 5,6 4,7 4,2 3,9 3,7 3,5 3,4 3,2 3,2 3,1 3,0 2,9 2,8 2,7 2,7 2,6 2,5 2,4 2,4 2,3 2,3 2,2 2,2
4,3 3,4 3,0 2,8 2,6 2,5 2,4 2,4 2,3 2,3 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,9 1,8 1,8 1,8 1,7 1,7
25 7,8 5,6 4,7 4,2 3,9 3,6 3,5 3,3 3,2 3,1 3,0 3,0 2,9 2,8 2,7 2,6 2,5 2,4 2,4 2,3 2,3 2,2 2,2 2,2
4,2 3,4 3,0 2,8 2,6 2,5 2,4 2,3 2,3 2,2 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,8 1,7 1,7 1,7
26 7,7 5,5 4,6 4,1 3,8 3,6 3,4 3,3 3,2 3,1 3,0 3,0 2,9 2,8 2,7 2,6 2,5 2,4 2,4 2,3 2,2 2,2 2,1 2,1
I 4,2 3,4 3,0 2,7 2,6 2,5 2,4 2,3 2,3 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,8 1,8 1,7 1,7 1,7
Таблица V. Окончание
vi
V2 1 2 3 4 5 6 7 8 9 10 11 12 14 16 20 24 30 40 50 75 100 200 500 оо
27 7,7 5^5 4^6 4J 3^ 3^6 3^4 зЗ 3J 3J 3~0 2,9 2,8 2,7 2,6 2,5 2,5 2,4 2,3 2,2 2,2 2,2 2,\ 2,1
4,2 3,3 3,0 2,7 2,6 2,5 2,4 2,3 2,2 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,8 1,7 1,7 1,7 1,7
28 7,6 5,4 4,6 4,1 3,8 3,5 3,4 3,2 3,1 3,0 2,9 2,9 2,8 2,7 2,6 2,5 2,4 2,3 2,2 2,2 2,2 2,1 2,1 2,1
4,2 3,3 2,9 2,7 2,6 2,4 2,4 2,3 2,2 2,2 2,1 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,7 1,7 1,7
29 7,6 5,4 4,5 4,0 3,7 3,5 3,3 3,2 3,1 3,0 2,9 2,9 2,8 2,7 2,6 2,5 2,7 2,3 2,3 2,2 2,1 2,1 2,1 2,0
4,2 3,3 2,9 2,7 2,5 2,4 2,3 2,3 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,8 1,7 1,7 1,7 1,6 1,6
30 7,6 5,4 4,5 4,0 3,7 3,5 3,3 3,2 3,1 3,0 2,9 2,8 2,7 2,7 2,5 2,5 2,4 2,3 2,2 2,2 2,1 2,1 2,0 2,0
4,2 3,3 2,9 2,7 2,5 2,4 2,3 2,3 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,8 1,7 1,7 1,7 1,6 1,6
32 7,5 5,3 4,5 4,0 3,7 3,4 3,2 3,1 3,0 2,9 2,9 2,8 2,7 2,6 2,4 2,4 2,3 2,2 2,2 2,1 2,0 2,0 2,0 2,0
4,1 3,3 2,9 2,7 2,5 2,4 2,3 2,2 2,2 2,1 2,1 2,1 2,0 2,0 1,9 Г, 9 1,8 1,8 1,7 1,7 1,7 1,6 1,6 1,6
34 7,4 5,3 4,4 3,9 3,6 3,4 3,2 3,1 3,0 2,9 2,8 2,8 2,7 2,6 2,5 2,4 2,3 2,2 2,1 2,1 2,0 2,0 1,9 1,9
4,1 3,3 2,9 2,6 2,5 2,4 2,3 2,2 2,1 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,6 1,6 1,6 1,6 1,5
36 7,4 5,2 4,4 3,9 3,6 3,3 3,2 3,0 2,9 2,9 2,8 2,7 2,6 2,5 2,4 2,3 2,3 2,2 2,1 2,0 2,0 1,9 1,9 1,9
4,1 3,3 2,9 2,6 2,5 2,4 2,3 2,2 2,1 2,1 2У\ 2,0 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,6 1,6 1,6 \,6 1,5
38 7,3 5,2 4,3 3,9 3,5 3,3 3,1 3,0 2,9 2,8 2,7 2,7 2,6 2,5 2,4 2,3 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8
4,1 3,2 2,8 2,6 2,5 2,3 2,3 2,2 2,1 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,6 1,6 1,6 1,5 1,5
40 7,3 5,2 4,3 3,8 3,5 3,3 3,1 3,0 2,9 2,8 2,7 2,7 2,6 2,5 2,4 2,3 2,2 2,1 2,0 2,0 1,9 1,9 1,8 1,8
4,1 3,2 2,8 2,6 2,5 2,3 2,3 2,2 2,1, 2,1 2,1 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,7 1,6 1,6 1,5 1,5 1,5
50 7,2 5,1 4,2 3,7 3,4 3,2 3,0 2,9 2,8 2,7 2,6 2,6 2,5 2,4 2,3 2,2 2,1 2,0 1,9 1,9 1,8 1,8 1,7 1,7
4,0 3,2 2,8 2,6 2,4 2,3 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,7 1,7 1,7 1,6 1,6 1,5 1,5 1,5 1,5 1,4
70 7,0 4,9 4,1 3,6 3,3 3,1 2,9 2,8 2,7 2,6 2,5 2,4 2,3 2,3 2,1 2,1 2,0 1,9 1,8 1,7 1,7 1,6 1,6 1,5
4,0 3,1 2,7 2,5 2,3 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,1 1,6 1,5 1,5 1,4 1,4 1,4 1,3
100 6,9 4,8 4,0 3,5 3,2 3,0 2,8 2,7 2,6 2,5 2,4 2,4 2,3 2,2 2,1 2,0 1,9 1,8 1,7 1,6 1,6 1,5 1,5 1,4
3,9 3,1 2,7 2,5 2,3 2,2 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,6 1,6 1,5 1,5 1,4 1,4 1,3 1,3 1,3
400 6,7 4,7 3,8 3,4 3,1 2,8 2,7 2,5 2,5 2,4 2,3 2,2 2,1 2,0 1,9 1,8 1,7 1,6 1,6 1,5 1,4 1,3 1,2 1,2
3,9 3,0 2,6 2,4 2,2 2,1 2,0 2,0 1,9 1,8 1,8 1,8 1,7 1,7 1,6 1,5 1,5 1,4 1,4 1,3 1,3 1,2 1,2 1,1
оо 6,6 4,6 3,8 3,3 3,0 2,8 2,5 2,5 2,4 2,3 2,2 2,2 2,1 2,0 1,9 1,8 1,7 1,6 1,5 1,4 1,4 1,2 1,1 1,0
I 3,8 3,0 2,6 2,4 2,2 2,1 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,6 1,6 1,5 1,5 1,4 1,3 1,3 1,2 1,2 1,1 1,0
Таблица Ж
Критические значения хаах в зависимости от объема выборки л.
Д^««>^«вM=«
п
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
а
0,05
1,41
1,71
1,92
2,07
2,18
2,27
2,35
2,41
2,47
2,52
2,56
2,60
2,64
2,67
2,70
2,73
2,75
2,78
2,80
2,82
2,84
2,86
2,88
2,90
2,91
0,01
1,42
1,73
1,97
2,16
2,31
2,43
2,53
2,62
2,69
2,75
2,81
2,86
2,90
2,94
2,98
3,02
3,05
3,08
3,11
3,13
3,16
3,18
3,20
3,22
3,24
п
28
! 29
30
35
40
45
50
60
! 70
| 80
90
100
120
150
200
1 300
400
500
I 600
700
800
900
1000
1500
2000
а
0,05
2,93
2,94
2,96й
3,02
3,08
3,12
3,16
3,22
3,28
3,33
3,37
3,40
3,46
3,53
3,61
3,73
3,80
3,87
3,92
3,96
3,99
4,02
4,05
4,14
4,21
0,01
3,26
3,28
3,29
3,36
3,42
3,48
3,52
3,58
3,64
3,70
3,74
3,77
3,83
3,90
3,98
4,09
4,17
4,24
4,28
4,32
4,35
4,38
4,41
4,50
4,56
296
Таблица VH
Коэффициент #„_/+] для вычисления статистики Уилка-Шапиро при л от 3 до 50
(ноль целых и запятая опущены)
1
1
2
3
4
5 |
г
1
2
3
4
5
6
7
8
9
/ ,
1
2
3
4
5
б
7
8
9
10
11
12
13
i
1
2
3
4
5
6
7
8 !
9
10
11
12
13
14
15 |
16
37 |
з
7071
11
5601
3315
2260
1429
0695
19
4808
3232
2561
2059
1641
1271
0932
0612
0303
27
4366
3018
2522
2152
1848
1584
1346
1128
0923
0728
0540
0358
0178
_4
6872
1677
12
5475
3325
2347
1586
0933
0303
20~"
4734
3211
2565
2085
1686
1334
1013
0711
0422
0140
28
4328
2992
2510
2151
1857
1601
1372
1162
0965
0778
0598
0424
0235
0084
5
6646
2413
13
5359
3325
2412
1707
1099
0539
21 ~
4643
3185
2578
2119
1736
1399
1092
0804
0530
0263
29
4291
2968
2499
2150
1864
1616
1395
1192
1002
0822
0650
0483
0320
0159
Г\
6
6431
2606
0875
к
14
5251
3318
2460
1802
1240
0727
0240
г
22
4590
3156
2571
2131
1764
1443
1150
0878
0618
0368
0122
п
1Q
4254
2944
2487
2148
, 1870
1630
1415
1219
1036
0862
0697
0537
0381
0227
0076
L
7
6233
3031
1401
i
15
5150
3306
2495
1878
1353
0880
0433
1
23
4542
3126
2563
2139
1787
1480
1201
0941
0696
0459
0228
1
31
4220
2921
2475
2145
1874
1641
1433
1243
1066
0899
0739
0585
0435
0289
0144
8
6052
3164
1743
0561
16
5056
3290
2521
1939
1447
1005
0593
0196
24.
4493
3098
2554
2145
1808
1512
1245
0997
0764
0539
0321
0107
32
4188
2898
2463
2141
1878
1651
1449
1265
1093
0931
0777
0629
0485
0344
0206
0068
9
5888
3244
1976
0947
17
4968
3273
2540
1988
1524
1109
0725
0359
25
4450
3069
2543
2148
1822
1539
1283
1046
0823
0610
0403
0200
33
4145
2876
2451
2137
1880
1660
14<>3
1284
1118
0961
0812
0669
0530
0395
0262
0131
10
5739
3291
2141
1224
0399
18
4886
3253
2553
2027
1587
1197
0837
0496
0164
26
4407
3043
2533
2151
1836
1563
1316
1089
0876
0672
0476
0284
0094
34
4127
2854
2439
2132
1882
1667
1467
1301
1140
0988
0844
0706
0572
0441
0314
0187
0062
297
Таблица УЕ Оконча
I
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24 i
25 '
35
4096
2834
1 2427
| 2127
1883
1673
1487
1317
1160
1013
0873
0739
0610
0484
0361
0239
0119
43
3894
2684
2334
2078
1871
1695
1539
1398
1269
1149
1035
0927
0824
0724
0628
0534
0442
0352
0263
0175
0087
36
4068
2813
2415
2121
1883
1678
I486
1331
1179
1036
0900
0770
0645
0523
0404
0287
0172
0057
44
3872
2667
2323
2072
1868
1695
1542
1405
1278
1160
1049
0943
0842
0745
0651
0560
0471
0383
0286
0211
0126
0042
37
4040
2794
2403
2116
1883
1683
1505
1344
1196
1056
0924
0794
0667
0559
0444
0331
0220
ОНО
45
3850
2651
2313
2065
1865
1695
1545
1410
1286
1170
1062
0959
0860
0765
0673
0534
0497
0412
0328
0245
0163
0081
й
38
4015
2774
2391
2110
1880
1686
1513
1356
1211
1075
0947
0824
0706
0592
0481
0372
0264
0158
0053
fl
46
3830
2635
2302
2058
1865
1695
1548
1415
1293
1180
1073
0972
0876
0783
0694
0607
0522
0439
0357
0277
0197
0118
0039
1
39
3989
2755
2380
2104
1880
1689
1520
1366
1225
1092
0967
0848
0733
0622
0515
0409
0305
0203
0101
47
3808
2620
2291
2052
1859
1695
1550
1420
1300
1189
1085
0986
0892
0801
0713
0628
0546
0465
0385
0307
0220
0153
0076
40
3964
2737
2368
2098
1880
1691
1526
1376
1237
1108
0986
0870
0759
0651
0546
0444
0343
0244
0146
0049
48
3789
2604
2281
2045
1855
1693
1551
1423
1306
1197
1095
0998
0906
0817
0731
0648
0568
0489
0411
0335
0259
0185
0111
0037
41
3940
2719
2357
2091
1876
1693
1531
1384
1249
1123
1004
0891
0782
0677
0575
0476
0379
0283
0188
0094
49
3770
2589
2271
2038
1851
1692
1553
1427
1312
1205
1105
1010
0919
0832
0748
0667
0588
0511
0436
0362
0288
0215
0143
0071
42
3917
2701
2345
2085
1874
1694
1535
1392
1259
1136
1020
0909
0804
0701
0602
0506
0411
031*
0227
0136
0045
50
3751
2574
2260
2032
1847
1691
1554
1430
1317
1212
1113
1020
0932 .
0846
0664
0685
0603
0532
0459
0389
0314
0244
0174
0104
0035
298
Таблица МП
Критические значения статистики Уилка-Шапиро Wa
в зависимости от объема выборки п. Вероятность P(W< Wa) - a
п
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
0,01
0,753
0,687
0,686
0,713
0,730
0,749
0,764
0,781
0,792
0,805
0,814
0,825
0,835
0,844
0,851
0,858
0,863
0,868
0,873
0,878
0,881
0,884
0,888
0,891
а
0,05
0,767
0,748
0,762
0,788
0,803
0,818
0,829
0,842
0,850
0,859
0,866
0,874
0,881
0,887
0,892
0,897
0,901
0,905
0,908
0,911
0,914
0,916
0,918
0,920
0,10
0,789
0,792
0,806
0,826
0,838
0,851
0,859
0,869
0,876
0,883
0,889
0,895
0,901
0,906
0,910
0,914
0,917
0,920
0,923
0,926
0,928
0,930
0,931
0,933
п
27
28
29
30
31
32
33
> 34
35
; 36
37
1 38
1 39
40
1 41
42
43
44
45
1 46
47
! 48
49
50
0,01
0,894
0,896
0,898
0,900
0,902
0,904
0,906
0,908
0,910
0,912
0,914
0,916
0,917
0,919
0,920
0,922
0,923
0,924
0,926
0,927
0,928
0,929
0,929
0,930
а
0,05
0,923
0,924
0,926
0,927
0,929
0,930
0,931
0,933
0,934
0,935
0,936
0,938
0,939
0,940
0,941
0,942
0,943
0,944
0,945
0,945
0,946
0,947
0,947
0,947
0,10
0,935
0,936
0,937
0,939
0,940
0,941
0,942
0,943
0,944
0,945
0,946
0,947
0,948
0,949
0,950
0,951
0,951
0,952
0,953
0,953
0,954
0,954
0,955
0,955
299
Достаточная численность единичной выборки ла, где ла = /1
4~п
Таблица
:*i
кх
>9,0
4,46-9,0
2,48-4,45
2,18-2,47
1,68-2,17
1,40-1,67
1,28- 1,39
1,18-1,27
1,09-1,17
1,03-1,08
0,97- 1,02
0,93 - 0,96
0,89-0,92
0,85-0,88
0,82-0,84
0,80-0,81
0,77 - 0,79
0,75 - 0,76
0,73-0,74
0,71-0,72
0,69-0,70
0,67 - 0,68
0,65-0,66
0,63-0,64
0,61-0,62
0,59-0,60
0,57 - 0,58
0,55-0,56
0,53-0,54
0,51-0,52
0,50
0,49
0,48
0,47
0,46
0,45
0,44
0,43
0,42
0,41
0,40
0,39
0,38
0,37
<0,37
0,20
2
2
2
2
3
3
3
3
3
4
4
4
4
4
4
5
5
5
5
5
5
6
6
6
6
7
7
7
8
8
8
9
9
9
10
10
10
10
10
11
12
12
13
14
1,7
*?
Уровень значимости а
0,10
2
2
3
3
3
4
4
4
5
5
5
6
6
6
6
7
7
7
7
8
8
8
9
9
10
10
И
11
12
13
13
13
14
14
15
15
15
17
17
18
19
.20
21
22
2,9
*?
0,05
2
3
3
4
4
5
5
6
6
7
7
7
8
8
9
9
9
9
10
10
11
11
12
13
13
14
15
15
16
17
18
19
19
20
21
22
22
23
24
25
26
28
29
30
4,0
К2
0,01
3
4
5
5
6
7
8
9
10
10
11
12
13
13
14
14
15
16
17
17
18
19
20
21
22
23
24
26
28
29
30
32
33
34
35
37
38
40
42
44
46
48
50
53
6,8
К2
0,001
4
5
7
8
9
11
12
14
15
16
17
18
20
21
22
23
24
25
26
27
29
30
31
33
35
37
39
42
44
47
49
51
53
55
58
60
63
65
68
71
75
79
83
88
11,5
К2
300
Таблица X
Критические значения статистики Fmn в зависимости от числа степеней свободы v,
с которыми найдены оценки дисперсий, и числа сравниваемых оценок дисперсий g
для а = 0,05 вероятность Р( FmKK > Fmtx^ ) = а
V
2
3
4
5
6
7
8
9
10
12
15
20
30
60
со
2
39,0
15,4
9,60
7,15
5,82
4,99
4,43
4,03
3,72
3,28
2,86
2,46
2,07
1,67
1,00
3
87,5
27,8
15,5
10,8
8,38
6,94
6,00
5,44
4,85
4,16
3,54
2,95
2,40
1,85
1,00
4
142
39,2
20,6
13,7
10,4
8,44
7,18
6,31
5,67
4,79
4,01
3,29
2,61
1,96
1,00
5
202
50,7
25,2
16,3
12,1
9,70
8,12
7,11
6,34
5,30
4,37
3,54
2,78
2,04
1,00
6
266
62,0
29,5.
18,7
13,7
10,8
9,03
7,80
6,92
5,72
4,68
3,76
2,91
2,11
1,00
g
7
333
72,9
33,6
20,8
15,0
11,8
9,78
8,41
7,42
6,09
4,95
3,94
3,02
2,17
1,00
8
403
83,5
37,5
22,9
16,3
12,7
10,5
8,95
7,87
6,42
5,19
4,10
3,12
2,22
1,00
9
475
93,9
41,1
24,7
17,5
13,5
ил
9,45
8,28
6,72
5,40
4,24
3,21
2,26
1,00
10
550
104
44,6
26,5
18,6
14,3
11,7
9,91
8,66
7,00
5,59
4,37
3,29
2,30
1,00
П
626
114
48,0
28,2
19,7
15,1
12,2
10,3
9,01
7,25
5,77
4,49
3,36
2,33
1,00
12
704
124
51,4
29,9
20,7
15,8
12,7
10,7
9,34
7,48
5,93
4,59
3,39
2,36
1,00
301
Таблица XI
Критические значения коэффициента Дункана ^а^ для а = 0,05 (v - число степеней свободы, g - число сопоставляемых оценок среднего)
1 , . .. .. , , . 8- ., . . , . .
у [ 2 3 4 5 6 7 8 9 10 12 14 16 18 20 50 100
1 17,97 17,97 17,97 17,97 17,97 17,97 17,97 17,97 17,97 17,97 17,97 17,97 17.97 17,97 17,97 17,97
2 6,08 6,08 6,08 6,08 6,08 6,08 6,0$ 6,08 6,08 6,08 6,08 6,08 6^0$ 6,08 6,08 6,08
3 4,50 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52
4 3,93 4,01 4,03 4,03 4,03 4,03 4,03 4,03 4,03 4,03 4,03 4,03 4,03 4,03 4,03 4,03
5 3,64 3,75 3,80 3,81 3,81 3,81 3,81 3,81 3,81 3,81 3,81 3,81 3,81 3,81 3,81 3,81
6 3,46 3,59 3,65 3,68 3,69 3,70 3,70 3,70 3,70 3,70 3,70 3,70 3,70 3,70 3,70 3,70
7 3,34 3,48 3,55 3,59 3,61 3,62 3,63 3,63 3,63 3,63 3,63 3,63 3,63 3,63 3,63 3,63
8 3,26 3,40 3,48 3,52 3,55 3,57 3,58 3,58 3,58 3,58 3,58 3,58 3,58 3,58 3,58 3,58
9 3,20 3,34 3,42 3,47 3,50 3,52 3,54 3,54 3,55 3,55 3,55 3,55 3,55 3,55 3,55 3,55
10 3,15 3,29 3,38 3,43 3,46 3,49 3,50 3,52 3,52 3,53 3,53 3,53 3,53 3,53 3,53 3,53
11 3,11 3,26 3,34 3,40 3,44 3,46 3,48 3,49 3,50 3,51 3,51 3,51 3,51 3,51 3,51 3,51
12 3,08 3,22 3,31 3,37 3,41 3,44 3,46 3,47 3,48 3,50 3,50 3,50 3,50 3,50 3,50 3,50
13 3,06 3,20 3,29 3,35 3,39 3,42 3,44 3,46 3,47 3,48 3,49 3,49 3,49 3,49 3,49 3,49
14 3,03 3,18 3,27 3,33 3,37 3,40 3,43 3,44 3,46 3,47 3,48 3,48 3,48 3,48 3,48 3,48
15 3,01 3,16 3,25 3,31 3,36 3,39 3,41 3,43 3,45 3,46 3,48 3,48 3,48 3,48 3,48 3,48
16 3,00 3,14 3,24 3,30 3,34 3,38 3,40 3,42 3,44 3,46 3,47 3,48 3,48 3,48 3,48 3,48
17 2,98 3,13 3,22 3,28 3,33 3,37 3,39 3,41 3,43 3,45 3,46 3,47 3,48 3,48 3,48 3,48
18 2,97 3,12 3,21 3,27 3,32 3,36 3,38 3,40 3,42 3,44 3,46 3,47 3,47 3,47 3,47 3,47
19 2,96 3,11 3,20 3,26 3,31 3,35 3,38 3,40 3,42 3,44 3,45 3,47 3,47 3,47 3,47 3,47
20 2,95 3,10 3,19 3,26 3,30 3,34 3,37 3,39 3,41 3,44 3,45 3,46 3,47 3,47 3,47 3,47
24 2,92 3,07 3,16 3,23 3,28 3,32 3,34 3,37 3,39 3,42 3,44 3,46 3,46 3,47 3,48 3,48
30 2,89 3,04 3,13 3,20 3,25 3,29 3,32 3,35 3,37 3,40 3,43 3,45 3,46 3,47 3,49 3,49
40 2,86 3,01 3,10 3,17 3,22 3,27 3,30 3,33 3,35 3,39 3,42 3,44 3,46 3,47 3,50 3,50
60 2,83 2,98 3,07 3,14 3,20 3,24 3,28 3,31 3,33 3,37 3,41 3,43 3,45 3,47 3,54 3,54
120 2,80 2,95 3,04 3,12 3,17 3,22 3,25 3,29 3,31 3,36 3,39 3,42 3,45 3,47 3,58 3,60
оо I 2,77 2,92 3,02 3,09 3,15 3,19 3,23 3,26 3,29 3,34 3,38 3,41 3,44 3,47 3,64 3,74
Достаточная суммарная численность двух выборок ла> ла = /
Таблица ХП
= *2
кг
>24,6
12,2-24,5
4,62-12,1
3,24-4,61
2,32-3,23
2,02-2,31
1,61-2,01
1,29-1,60
1,10-1,28
1,00-1,09
0,94-0,99
0,82-0,93
0,75-0,81
0,70-0,74
0,62 - 0,69
0,57-0,61
0,54 - 0,56
0,51-0,53
0,47-0,50
0,45 - 0,46
0,42 - 0,44
0,39-0,41
0,37 - 0,38
0,35-0,36
0,33-0,34
0,31 -0,32
0,29-0,30
0,27-0,28
0,25 - 0,26
0,23-0,24
0,22
0,21
0,20
0,19
0,18
0,17
0,16
0,15
0,14
0,13
< 0,13
0,20
4
4
4
4
4
4
4
4
4
4
4
5
5
5
5
5
5
5
6
6
6
6
7
7
7
7
8
8
9
9
9
10
10
11
и
11
12
13
13
14
1,7
/с2
Уровен
0,10
4
4
4
4
4
5
5
5
5
6
6
6
7
7
7
8
8
8
8
9
9
10
10
10
П
П
12
12
13
14
15
15
16
16
17
18
19
20
21
22
2,9
ь значимости а
0,05
4
4
4
5
5
5
6
6
7
7
7
8
8
9
9
10
10
П
И
12
12
13
13
14
15
15
16
17
18
19
20
21
22
23
24
25
26
28
30
33
4,0
*2
0,01
4
5
6
7
7
8
9
10
И
П
12
13
13
14
15
16
17
17
18
19
20
21
22
23
24
26
27
29
30
33
34
36
37
39
41
44
46
49
51
55
6,8
fc2
0,001
6
7
8
9
П
12
13
15
16
17
18
19
21
22
24
25
26
27
29
30
32
34
35
37
39
41
43
46
49
53
56
58
61
64
61
IX
75
80
86
92
П,5
303
Таблица ХШ
г
0,0
0,1
0?
0,3
0,4
0,>
0,6
0,7
0,8
0,9
0
0,0000
0,1003
0,2027
0,3095
0А236
0,5493
0,6931
0,8673
\ ,0986
J,4722
Значения величины
1
0,0100
0,1105
0,2132
0,3206
0,4356
0,5627
0,7089
0,8872
1,1270
1,5275
2
0,0200
0,1206
0,2237
0,3317
0,4477
0,5763
0,7250
0,9076
1,1568
1,5890
3
0,0300
0,1308
0,2342
0,3428
0,4599
0,5901
0,7414
0,9287
1Д881
1,6584
Z для значений /
4
0,0400
0,1409
0,2448
0,3541
0,4722
0,6042
0,7582
0,9505
1,2212
1,7380
5
0,0500
0,1511
0,2554
0,3654
0,4847
0,6184
0,7753
0,9730
1,2562
1,8318
• от 0,00
6
0,0600
0,1614
0,2661
0,3769
0,4973
0,6328
0,7928
0,9962
1,2933
1,9459
до 0,99
7
0,0700
0,1717
0,2769
0,3884
0,5101
0,6475
0,8107
1,0203
1,3331
2,0923
8
0,0800
0,1820
0,2877
0,4001
0,5230
0,6625
0,8291
1,0454
1,3758
2,2976
9
0,0900
0,1923
0,2986
0,4118
0,5361
0,6777
0,8480
1,0714
1,4219
2,6467
Таблица XIV
Значения величины *• для значений z от 0,00 до 2,99 (ноль целых и запятая опущены)
__£_
0,0
о л
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
гл
2,3
2,4
2,5
2,6
2,7
2,8
2,9
~_JL-_
, 0000
0997
1974
2913
3800
. 4621
5370
6044
6640
7163
7616
8005
8337
8617
8854
9051
9217
9354
9468
9562
9640
9704
9757
9801
9837
9866
9890
9910
9926
9940
1
0100
1096
2070
3004
3885
4699
5441
6107
6696
7211
7658
8041
8367
8643
8875
9069
9232
9366
9478
9571
9647
9710
9762
9805
9840
9869 .
9892
9912
9928
9941
2
0200
1194
2165
3095
3969
4777
5511
6169
6751
7259
7699
8076
8397
8668
8896
9087
9246
9379
9488
9579
9654
9716
9767
9809
9843
9871
9894
9914
9929
_, 9942
3
0300
1293
2260
3185
4053
4854
5580
6231
6805
7306
7739
8110
8426
Ь692
8917
9104
9261
9391
9498
9587
9661
9722
9771
9812
9846
9874
9897
9915
9931
9943
4
0400
1391
2355
3275
4136
4930
5649
6291
6858
7352
7779
8144
8455
8717
8937
9121
9275
9402
9508
9595
9668
9727
9776
9816
9849
9876
9899
9917
9932
9944
5
0500
1489
2449
3364
4219
5005
5717
6351
6911
7398
7818
8178
8483
8741
8957
9138
9289
9414
9518
9603
9674
9732
9780
9820
9852
9879
9901
9919
9933
9945
6
0600
1586
2543
3452
4301
5080
5784
6411
6963
7443
7857
8210
8511
8764
8977
9154
9302
9425
9527
9611
9680
9738
9785
9823
9855
9881
9903
9920
9935
9946
7
0700
1684
2636
3540
4382
5154
5850
6469
7014
7487
7895
8243
8538
8787
8996
9170
9316
9436
9536
9618
9686
9743
9789
9827
9858
9884
9904
9922
9936
9947
8
0800
1781
2729
3627
4462
5227
5915
6527
7064
7531
7932
8275
8565
8810
9015
9186
9329
9447
9545
9626
9693
9748
9793
9830
9861
9886
9906
9923
9937
9948
9
0900
1877
2821
3714
4542
5299
5980
6584
7114
7574
7969
8306
8591
8832
9033
9201
9341
9458
9554
9633
9699
9753
9797
9834
9864
9888
9908
9925
9938
9949
304
Таблица XV
Минимальный объем корреляционного ряда ла, при котором с вероятностью
Р = 1 - а можно утверждать, что р ^ 0 при данном г
г
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
0,11
0,12
0,13
0,14
0,15
0,16
0,17
0,18
0,19
0,20
0,21
0,22
0,23
0,24
0,25
0,26
0,27
0,28
0,29
0,30
0,31
0,32
0,33
0,34
0,35
0,36
0,37
0,38
0,39
0,40
0,41
0,42
0,43
0,44
0,45
0,46
0,47
0,48
0,49
0,50
0,10
27964
6769
ЗОЮ
1695
1022
753
554
424
336
272
225
190
162
140
122
107
95
85
77
69
63
58
53
49
45
42
39
36
34
32
30
28
27
25
24
23
21
20
19
19
18
17
16
16
15
14
14
13
13
12
0,05
38419
9607
4272
2404
1534
1067
785
601
476
385
318
268
228
197
172
151
134
119
107
91
88
80
74
68
62
58
54
50
47
44
41
38
36
34
32
31
29
27
26
25
24
2
22
21
20
19
18
18
17
16
SL
0,01
66361
16593
7377
4151
2647
1841
1354
1035
819
663
547
460
391
338
294
258
229
204
183
165
149
136
124
114
105
97
90
84
78
73
68
64
60
56
53
50
47
45
43
40
38
37
35
33
32
30
29
28
27
25
0,001
108310
27080
12038
6773
4318
3002
2208
1687
1335
1080
891
748
637
549
478
419
371
330
296
261
242
220
201
184
170
156
145
134
125
117
109
102
96
90
85
80
75
71
67
64
61
58
55
52
50
47
45
43
41
39
г
0,51
0,52
0,53
0,54
0,55
0,56
0,57
0,58
0,59
0,60
0,61
0,62
0,63
0,64
0,65
0,66
1 0,67
0,68
0,69
0,70
0,71
0,72
0,73
0,74
0,75
0,76
1 0,77
' 0,78
0,79
I 0,80
0,81
| 0,82
1 0,83
0,84
0,85
0,86
0,87
' 0,88
0,89
1 0,90
0,91
0,92
1 0,93
0,94
I 0,95
1 0,96
0,97
1 0,98
0,99
0,10
12
12
11
11
И
10
10
10
9
9
9
9
8
8
8
8
8
7
7
7
7
7
7
6
6
6
6
6
6
6
6
6
5
5
5
5
5
5
5
5
5
5
4
4
4
4
4
4
4
0,05
16
15
15
14
14
13
13
12
12
11
И
11
10
10
10
10
9
9
9
9
8
8
8
8
8
7
7
7
7
7
7
6
6
6
6
6
6
6
5
5
5
5
5
5
5
5
4
4
4
SL
0,01
24
23
23
22
21
20
19
19
18
17
17
16
16
15
15
14
14
13
13
12
12
12
11
11
И
10
10
10
9
9
9
8
8
8
8
7
7
7
7
7
6
6
6
6
5
5
5
5
4
0,001
38
36
35
33
32
31
29
28
27
26
25
24
23
22
22
21
20
19 .
19
\8
17
17
16
15
15
14
14
13
13
12
12
12
11
11
10
10
10
9
9
8
8
8
7
7
7
6
6
6
5
305
Критические значения коэффициента корреляции Спирмена г%
(р, отличен от нуля с уровнем значимости а, если n^rt )
п
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
а
0,05
0,94
0,85
0,78
0,72
0,68
0,64
0,61
0,58
0,56
0,54
0,52
0,50
0,48
0,47
0,46
0,45
0,44
0,43
0,01
0,94 ,
0,88 i
0,83
0,79
0,76
0,73
0,70
0,68
0,66
0,64 ,
0,62
0,60
0,58
0,57
0,56
0,54
п
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
<
0,05
0,42
0,41
0,40
0,39
0,38
0,38
0,37
0,36
0,36
0,36
0,34
0,34
0,33
0,33
0,33
0,32
0,32
0,31
a ж
0,01
0,53
0,52
0,51
0,50
0,49
0,48
0,48
0,47
0,46
0,45
0,45
0,44
0,43
0,43
0,42
0,41
0,41
0,40
306
Таблица XVH
Значения <р = 2arcsiiiv/> (<р даны в радианах; Р> %)
р
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8-
0,9
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35 ,
36 i
1 0
I 0,000
, 0,063
0,089
0,110
0,127
0,142
0,155
0,168
0,179
0,190
0,200
0,284
0,348
0,403
0,451
1 0,495
0,536
0,574
0,609
0,644
0,676
0,707
0,738
0,767
0,795
0,823
0,850
0,876
0,902
0,927
0,952
0,976
1,000
1,024
1,047
1,070
1,093
1,115
1,137
1,159
1,181
1,203
1,224
1,245
1,266
1,287
1
0,020
0,066
0,092
0,111
0,128
0,143
0,156
0,169
0,180
0,191
0,210
0,291
0,354
0,408
0,456
0,499
0,539
0,577
0,613
0,647
0,679
0,711
0,741
0,770
0,798
0,826
0,853
0,879
0,905
0,930
0,955
0,979
1,003
1,026
1,050
1,072
1,095
1,117
1,140
1,161
1,183
1,205
1,226
1,247
1,268
1,289
2
0,028
0,069
0,094
0,113
0,130
0,144
0,158
0,170
0,181
0,192
0,220
0,298
0,360
0,413
0,460
0,503
0,543
0,581
0,616
0,650
0,682
0,714
0,744
0,773
0,801
0,828
0,855
0,881
0,907
0,932
0,957
0,981
1,005
1,029
1,052
1,075
1,097
1,120
1,142
1,164
1,185
1,207
1,228
1,249
1,270
1,291
3
0,035
0,072
0,096
0,115
0,131
0,146
0,159
0,171
0,182
0,193
0,229
0,304
0,365
0,418
0,465
0,507
0,547
0,584
0,620
0,653
0,686
0,717
0,747
0,776
0,804
0,831
0,858
0,884
0,910
0,935
0,959
0,984
1,007
1,031
1,054
1,077
1,100
1,122
1,144
1,166
1,187
1,209
1,230
1,251
1,272
1,293
4
0,040
0,075
0,098
0,117
0,133
0,147
0,160
0,172
0,184
0,194
0,237
0,311
0,371
0,423
0,469
0,512
0,551
0,588
0,623
0,657
0,689
0,720
0,750
0,778
0,807
0,834
0,861
0,887
0,912
0,937
0,962
0,986
1,010
1,033
1,056
1,079
1,102
1,124
1,146
1,168
1,190
1,211
1,232
1,253
1,274
1,295
5
0,045
0,077
0,100
0,118
0,134
0,148
0,161
0,173
0,185
0,195
0,246
0,318
0,376
0,428
0,473
0,516
0,555
0,592
0,627
0,660
0,692
0,723
0,752
0,781
0,809
0,837
0,863
0,889
0,915
0,940
0,964
0,988
1,012
1,036
1,059
1,082
1,104
1,126
1,148
1,170
1,192
1,213
1,234
1,256
1,277
1,297
6
0,049
0,080
0,102
0,120
0,136
0,150
0,163
0,175
0,186
0,196
0,254
0,324
0,382
0,432
0,478
0,520
0,559
0,595
0,630
0,663
0,695
0,726
0,755
0,784
0,812
0,839
0,866
0,892
0,917
0,942
0,967
0,991
1,015
1,038
1,061
1,084
1,106
1,129
1,151
1,172
1,194
1,215
1,237
1,258
1,279
1,299
7
0,053
0,082
0,104
0,122
0,137
0,151
0,164
0,176
0,187
0,197
0,262
0,330
0,387
0,437
0,482
0,524
0,562
0,599
0,633
0,666
0,698
0,729
0,758
0,787
0,815
0,842
0,868
0,894
0,920
0,945
0,969
0,993
1,017
1,040
1,063
1,086
1,109
1,131
1,153
1,175
1,196
1,217
1,239
1,260
1,281
1,302
8
0,057
0,085
0,106
0,123
0,139
0,152
0,165
0,177
0,188
0,198
0,269
0,336
0,392
0,442
0,486
0,528
0,566
0,602
0,637
0,670
0,701
0,732
0,761
0,790
0,818
0,845
0,871
0,897
0,922
0,947
0,972
0,996
1,019
1,043
1,066
1,088
1,111
1,133
1,155
1,177
1,198
1,220
1,241
1,262
1,283
1,304
9
0,060
0,087
0,108
0,125
0,140
0,154
0,166
0,178
0,189
0,199
0,277
0,342
0,398
0,446
0,491
0,532
0,570
0,606
0,640
0,673
0,704
0,735
0,764
0,793
0,820
0,847
0,874
0,900
0,925
0,950
0,974
0,998
1,022
1,045
1,068
1,091
1,113
1,135
1,157
1,179
1,200
1,222
1,243
1,264
1,285
1,306
307
Таблица ХУЛ. Продолжение
р
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
51
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
0
1,308
1,328
1,349
1,369
1,390
1,410
1,430
1,451
1,471
1,491
1,511
1,531
1,551
1,571
1,591
1,611
1,631
1,651
1,671
1,691
1,711
1,731
1,752
1,772
1,793
1,813
1,834
1,855
1,875
1,897
1,918
1,939
1,961
1,982
2,004
2,026
2,049
2,071
2,094
2,118
2,141
2,165
2,190
2,214
2,240
2,265
2,292
2,319
1
1,310
1,330
1,351
1,371
1,392
1,412
1,432
1,453
1,473
1,493
1,513
1,533
1,553
3,573
1,593
1,613
1,633
1,653
1,673
1,693
1,713
1,734
1,754
1,774
1,795
1,815
1,836
1,857
1,878
1,899
1,920
1,941
1,963
1,984
2,006
2,029
2,051
2,074
2,097
2,120
2,144
2,168
2,192
2,217
2,242
2,268
2,294
2,321
2
1,312
1,333
1,353
1,374
1,394
1,414
1,434
3,455
1,475
1,495
1,515
1,535
3,555
1,575
1,595
1,615
1,635
3,655
1,675
1,695
1,715
1,736
1,756
1,776
1,797
1,817
1,838
1,859
1,880
1,901
1,922
1,943
1,965
1,987
2,009
2,031
2,053
2,076
2,099
2,122
2,346
2,170
2,194
2,219
2,245
2,271
2,297
2,324
3
1,314
1,335
1,355
1,376
1,396
1,416
1,436
1,457
1,477
1,497
1,517
1,537
1,557
1,577
1,597
1,617
1,637
3,657
1,677
1,697
1,717
1,738
1,758
1,778
1,799
1,819
1,840
1,861
1,882
1,903
1,924
1,946
1,967
1,989
2,011
2,033
2,056
2,078
2,101
2,125
2,148
2,172
2,197
2,222
2,247
2,273
2,300
2,327
4
1,316
1,337
1,357
1,378
1,398
1,418
1,438
1,459
1,479
1,499
1,519
1,539
1,559
1,579
1,599
1,619
1,639
1,659
1,679
1,699
1,719
1,740
1,760
1,780
1,801
1,821
1,842
1,863
1,884
1,905
1,926
1,948
1,969
1,991
2,013
2,035
2,058
2,081
2,104
2,127
2,151
2,175
2,199
2,224
2,250
2,276
2,302
2,330
5
1,318
1,339
1,359
1,380
1,400
1,420
1,440
1,461
1,481
1,501
1,521
1,541
1,561
1,581
1,601
1,621
1,641
1,661
1,681
1,701
1,721
1,742
1,762
1,782
1,803
1,823
1,844
1,865
1,886
1,907
1,928
1,950
1,971
1,993
2,015
2,038
2,060
2,083
2,106
2,129
2,153
2,177
2,202
2,227
2,252
2,278
2,305
2,332
6
1,320
1,341
1,361
1,382
1,402
1,422
1,442
1,463
1,483
1,503
1,523
1,543
1,563
1,583
1,603
1,623
1,643
1,663
1,683
1,703
1,723
1,744
1,764
1,784
1,805
1,826
1,846
1,867
1,888
1,909
1,931
1,952
1,974
1,995
2,018
2,040
2,062
2,085
2,108
2,132
2,156
2,180
2,204
2,229
2,255
2,281
2,308
2,335
7
1,322
1,343
1,363
1,384
1,404
1,424
1,444
1,465
1,485
1,505
1,525
1,545
1,565
1,585
1,605
1,625
1,645
1,665
1,685
1,705
1,725
1,746
1,766
1,786
1,807
1,828
1,848
1,369
1,890
1,911
1,933
1,954
1,976
1,998
2,020
2,042
2,065
2,087
2,111
2,134
2,158
2,182
2,207
2,232
2,258
2,284
2,310
2,338
8
1,324
1,345
1,365
1,386
1,406
1,426
1,446
1,467
1,487
1,507
1,527
1,547
1,567
1,587
1,607
1,627
1,647
1,667
1,687
1,707
1,727.
3,748
1,768-
1,789
1,809
1,830
1,850
1,871
1,892
1,913
1,935
1,956
1,978
2,000
2,022
2,044
2,067
2,090
2,113
2,136
2,160
2,185
2,209
2,234
2,260
2,286
2,313
2,341
9
1,326
1,347
1,367
1,388
1,408
1,428
1,448
1,469
1,489
1,509
1,529
1,549
1,569
1,589
1,609
1,629
1,649
1,669
1,689
1,709
1,729
1,750
1,770
1,791
1,811
1,832
1,853
1,873
1,894
1,916
1,937
1,958
1,980
2,002
2,024
2,047
2,069
2,092
2,115
2,139
2,163
2,187
2,212
2,237
2,263
2,289
2,316
2,343
308
Таблица ХУД. Окончание
р
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99,0
99,1
99,2
99,3
99,4
99,5
99,6
99,7
99,8
99,9
100
0
2,346
2,375
2,404
2,434
2,465
2,498
2,532
2,568
2,606
2,647
2,691
2,739
2,793
2,858
2,941
2,952
2,962
2,974
2,987
3,000
3,015
3,032
3,052
3,078
3,142
1
2,349
2,377
2,407
2,437
2,469
2,501
2,536
2,572
2,610
2,651
2,695
2,744
2,799
2,865
2,942
2,953
2,964
2,975
2,988
3,001
3,017
3,034
3,054
3,082
2
2,352
2,380
2,410
2,440
2,472
2,505
2,539
2,575
2,614
2,655
2,700
2,749
2,805
2,872
2,943
2,954
2,965
2,976
2,989
3,003
3,018
3,036
3,057
3,085
3
2,355
2,383
2,413
2,443
2,475
2,508
2,543
2,579
2,618
2,659
2,705
2,754
2,811
2,880
2,944
2,955
2,966
2,978
2,990
3,004
3,020
3,038
3,059
3,089
4
2,357
2,386
2,416
2,447
2,478
2,512
2,546
2,583
2,622
2,664
2,709
2,760
2,818
2,888
2,945
2,956
2,967
2,979
2,992
3,006
3,022
3,040
3,062
3,093
5
2,360
2,389
2,419
2,450
2,482
2,515
2,550
2,587
2,626
2,668
2,714
2,765
2,824
2,896
2,946
2,957
2,968
2,980
2,993
3,007
3,023
3,042
3,064
3,097
к
6
2,363
2,392
2,422
2,453
2,485
2,518
2,553
2,591
2,630
2,673
2,719
2,771
2,831
2,904
2,947
2,958
2,969
2,981
2,994
3,009
3,025
3,044
3,067
3,102
7
2,366
2,395
2,425
2,456
2,488
2,522
2,557
2,594
2,634
2,677
2,724
2,776
2,837
2,913
2,948
2,959
2,971
2,983
2,996
3,010
3,027
3,046
3,069
3,107
8
2,369
2,398
2,428
2,459
2,491
2,525
2,561
2,598
2,638
2,681
2,729
2,782
2,844
2,922
2,949
2,960
2,972
2,984
2,997
3,012
3,028
3,048
3,072
3,113
9
2,372
2,401
2,431
2,462
2,495
2,529
2,564
2,602
2,642
2,686
2,734
2,788
2,851
2,931
2,951
2,961
2,973
2,985
2,999
3,013
3,030
3,050
3,075
3,122
309
ЛИТЕРАТУРА
Айвазян С.А. Статистическое исследование зависимостей.
М., 1988.
Б е й л и Н. Статистические методы в биологии. М., 1983.
Благовещенский Ю.Н., Самсонова В.П.,
Дмитриев Е. А. Непараметрические методы в почвенных
исследованиях. М., 1987.
Дмитриев Е.А. Использование статистических методов при
проведении режимных наблюдений. В кн.: Принципы организации и
методы стационарного изучения почв. М., 1976.
Зайцев Г. Н. Математическая статистика в
экспериментальной ботанике. М., 1984.
Лакин Г.Ф. Биометрия. М., 1980.
Мостселлер Ф., Тьюки Д ж. Анализ данных и регрессия.
М., 1982.
Прохоров Ю.В., Розанов Ю.А. Теория вероятностей.
Основные понятия. М., 1973.
Снедекор Дж.У. Статистические методы в применении к
исследованиям в сельском хозяйстве и биологии. М., 1961.
У р б а х В . Ю. Биометрические методы. М., 1964.
Химмельблау Д. Анализ процессов статистическими
методами. М., 1973.
Чертко Н.К. Математические методы в физической
географии. Минск, 1987.
СПРАВОЧНИКИ
Айвазян С.А., Енюков И.С, Мешалкин Л.Д.
Прикладная статистика. Основы моделирования и первичная
обработка данных. М., 1983.
Айвазян С.А., Енюков И.С, Мешалкин Л.Д.
Прикладная статистика. Исследование зависимостей. М., 1985.
Большее Л.Н., Смирнов Н.В. Таблицы
математической статистики.М., 1983.
ОСНОВНЫЕ ОБОЗНАЧЕНИЯ
Латинские буквы
А - обозначение учитываемого фактора в дисперсионном
анализе; оценка коэффициента асимметрии.
а - коэффициент при вычислении статистики Уилка-Шапиро;
оценка параметра а в уравнении регрессии; постоянная
величина; число градаций фактора А в дисперсионном анализе.
В - вспомогательная величина при вычислении статистики
Уилка-Шапиро; обозначение учитываемого фактора в
дисперсионном анализе; статистика Бартлета.
Ъ - оценка параметра в уравнении регрессии; постоянная
величина; число градаций фактора В в дисперсионном анализе.
С - вспомогательная величина при вычислении статистики
Бартлета; обозначение учитываемого фактора в
дисперсионном анализе; сумма квадратов центральных отклонений.
с - число градаций фактора С в дисперсионном анализе;
ширина класса (классовый промежуток).
cov - ковариация.
D - дисперсия; обозначение случайной величины (разности
между случайными величинами).
d - разность между значениями.
Е - обозначение математического ожидания; оценка
коэффициента эксцесса.
е2 - оценка показателя степени влияния.
F - интеграл вероятности; статистика Фишера.
Fmax - статистика для проверки однородности группы дисперсий.
/ - абсолютная частота; обозначение функции.
g - среднее геометрическое; целочисленная переменная величина.
Н - вспомогательная величина при вычислении суммы
квадратов; обозначение гипотезы.
/ - обозначение номера в некоторой последовательности.
j - обозначение номера в некоторой последовательности.
KD - коэффициент Дайса.
к - вспомогательная величина при планировании численности
выборок; оценка к в дисперсионном анализе; целое число (при
вычислении квантилей); число классов.
/ - логарифм логнормально распределенной случайной
величины; номер места в последовательности.
Med - медиана.
Мо - мода.
т - номер места в последовательности.
med - оценка медианы.
311
mo - оценка моды.
N - объем генеральной совокупности; объем дисперсионного
комплекса; число выборок.
п - объем выборки.
Р - вероятность, доверительная вероятность; доля событий с
наличием признака; показатель точности опыта.
Ра - показатель относительной вероятной погрешности.
р - относительная частота; оценка доли.
Q - вероятность альтернативного события; доля событий с
отсутствием признака; средний квадрат центральных
отклонений в дисперсионном анализе.
q - оценка доли.
qa - вспомогательная величина (коэффициент Дункана).
R - оценка множественного коэффициента корреляции; размах
варьирования; ранг значения случайной величины.
г -оценка коэфициента корреляции.
гв - тетрахорический показатель связи (коэффициент Бравэ).
rs - оценка коэффициента корреляции Спирмена.
S - сумма значений случайной величины.
s - оценка стандартного (среднего квадратического) отклонения.
Т - вспомогательная величина при вычислении rs ; обозначение
суммарного источника варьирования в дисперсионном
анализе.
TKD - трансформированный коэффициент Дайса.
/ - статистика Стьюдента.
и - вспомогательная величина при вычислении числа степеней
свободы; нормированное (стандартизованное) отклонение.
V - коэффициент вариации.
v - оценка коэффициента вариации.
W - суммарное обозначение случайных источников
варьирования в дисперсионном анализе; статистика Уилка-Шапиро.
w - значение случайной величины, имеющей а*, = 0.
X - обозначение случайной величины (аналогично: Y, Z и
другие).
х - значение случайной величины X (аналогично у, z и другие).
ху - у-квантиль случайной величины X.
z - значение нормально распределенной случайной величины с
juz = 0иа22 = 1; вспомогательная величина, функция от оценки
коэффициента корреляции г.
Греческие буквы
а - коэффициент асимметрии; параметр уравнения регрессии;
уровень значимости, вероятность ошибки 1-го рода.
312
р - вероятность ошибки П-го рода; параметр распределения; п
раметр уравнения регрессии.
у - доля значений переменной величины, не превышающих з
А - неотрицательная дробная часть числа; погрешность измер
ний.
Да - абсолютная вероятная погрешность оценки среднего с уро
нем значимости а.
6 - коэффициент эксцесса.
г}2 - показатель степени влияния.
9 - среднее абсолютное отклонение.
к2 - вклад в общую дасперсию результативного признака фа
тора с фиксированными градациями (дисперсионный ан )•
X - параметр распределения,
ц - среднее арифметическое.
о
fi(k) - начальный момент к-той степени.
1%) - центральный момент А>той степени.
v - число степеней свободы.
р - коэффициент корреляции.
а - среднее квадратическое (стандартное) отклонение, стандар
т - нормированные (стандартизованные) отклонения.
тгаах- статистика для проверки правомерности выбряковки'
Ф - интеграл вероятности; угол, функция доли.
X2 - статистика хи-квадрат.
со ~ плотность вероятности.
Надбуквенные символы
- - обозначение усреднения, обозначение точечной оценки сред
него.
= - обозначение доверительного интервала.
~- обозначение середины класса.
л - обозначение выровненного условного среднего, uuljn
теоретической частоты
Верхние индексы
* - обозначение ранжированное™ значений перемеНН°и-
' и "- обозначение начала и конца класса.
' и " - обозначение нижних и верхних границ доверительного
тервала.
313
Предметный указатель
Амплитуда колебаний
Артефакт
Асимметрия
Вектор случайный
Величина
- детерминированная
- многомерная
-случайная 15,
Вероятность
- доверительная
Выборка
- механическая
- послойная
Выбраковка
Гипотеза
- альтернативная
- нулевая
- статистическая
Гистограмма
Граница
- доверительная
— среднего
- между классами
- между подсовокупностями
- типичных значений
Группировка
Дециль
Диаграмма столбчатая
Дисперсионный анализ
— применимость
Дисперсионный комплекс
— бесповторностный
— вторая модель
— иерархическая модель
— многофакторный
— неравномерный
— однофакторный
— первая модель
— равномерный
— третья модель
Дисперсия
Доверительный интервал
Доля
Закон распределения
— биномиальный
отрицательный
— Вейбулла (-Гнеденко)
101
141
146
26
15
26
24
49
134
29
29
32
141
133
133
133
45
154
154
39
178
168
34
42
45
206
215
206
220
207
223
206
216
206
206
207
207
65
153
70
52
82
87
90
— гамма
— геометрический
- - гипергеометрический
— Джонсона
— логнормальный
— нормальный
— Пуассона
— равномерный
— Рэлея
— Стьюдента
— Фишера
— хи-квадрат
— экспоненциальный
— эрланговский
Значимость статистическая
— уровень
Испытание
Интеграл вероятности
Квантиль
Квантильный анализ 169,
Квартиль
Класс
- начало
- конец
- середина
- ширина
Ковариация
Константы
Корреляционная связь
— криволинейная
— обратная
— прямая
— прямолинейная (линейная)
Корреляционная таблица
Корреляционное поле
Корреляционный
-ряд
- эллипс
Коэффициент
- асимметрии
- вариации
-Дайса(КО)
— трансформированный (TKD)
- детерминации
- корреляции
— внутриклассовый
— множественный
89
88
88
92
79
73
84
92
91
136
138
137
89
90
134
134
13
57
42
200
42
34
38
38
38
37
236
57
232
233
233
232
231
232
231
233
69
68
256
257
240
234
214
281
314
— Спирмена
— частный
- регрессии
— частный
- эксцесса
Кривая распределения
Критерий
- выбраковки
- Дункана
- Уилка-Шапиро
- однородности
— дисперсий Фишера
— группы дисперсий
Бартлета
- проверки гипотез
- согласия
Критическая область
Критическое значение
Лимиты
Максимум гарантированный
— отдельных значений
— среднего
Медиана 42,
Минимум гарантированный
— отдельных значений
— среднего
Мода
Модель
- корреляционная
- рандомизированная
- регрессионная
Моменты
- начальные
- центральные
Объект исследования
— дискретность
Объем
- выборки
— планируемый 161,
— усредненный
- дисперсионного комплекса
- корреляционного ряда
- совокупности
Огива
Однородность дисперсий
Ожидание математическое
Отклонение
-среднее
— абсолютное
— квадратическое
- стандартное
247
244
265
277
69
56
142
192
148
185
185
188
133
148
134
134
90
167
156
60
167
156
58
234
234
260
68
68
17
20
30
197
216
207
231
22
46
184
25
102
66
66
- стандартизованное 67
- нормированное 67
- центральное 62
Оценка 94
- дисперсии 103
- доли 120
- интервальная 154
- дисперсии 158
- доли 180
- коэффициента корреляции 239
- разности между средними 196
- среднего 154
- констант 94
-коэффициента асиметрии 119
- коэффициента вариации 109
-коэффициента эксцесса 120
- медианы 94
- моды 95
- смещенность 118
- состоятельность 118
- среднего 99
- условного выравненного 262
- стандартного отклонения 169
- точечная 95
Ошибки
- второго рода 135
- оценок параметров уравнения
регрессии 269
- первого рода 134
- репрезентативности 111
- - абсолютного отклонения 114
- - дисперсии 113
--доли 121
- коэффициента вариации 114
- медианы 114
- среднего 112
- стандартного отклонения 113
- функций от оценок средних 115
Параметры распределения 57
Параметры уравнения регрессии 262
Плотность вероятности 56
Погрешность
- анализа систематическая 64, 159
- измерений 37
- оценки среднего
абсолютная 153
относительная 156
Показатель
- асимметрии 170
- связи тетрахорический 252
- степени влияния фактора 214
- точности опыта
- эксцесса
Полигон частот
Правильность метода 65,
Преобразование значений
Преобразование q>
Преобразование z
Признак
- альтернативный
- качественный
- количественный
- порядковый
- результативный
- факториальный
Размах
- варьирования
- междецильный
- межквартильный 102,
Разность
- наименьшая значимая
-средних 191,
-средняя
Рандомизация
Регрессия
- криволинейная
- множественная
— в стандартизованном виде
- прямолинейная
- теоретическая линия
- эмпирическая линия
Репрезентативность
Ряд
- вариационный
- корреляционный
- распределения
Связь
- корреляционная
- функциональная
События
- достоверные
- невозможные
- независимые
- непересекающиеся
- несовместимые
155
171
45
159
215
181
238
12
12
13
13
206
206
101
169
169
192
194
190
29
260
271
275
280
263
262
261
29
34
231
34
230
230
14
50
50
51
50
50
- пересекающиеся
-случайные 14,
Совокупность
- генеральная
- - статистическая
— физическая
- статистическая
- физическая
- как сумма подсовокупностей
Способ наименьших квадратов
Среднее
- арифметическое
- геометрическое
- условное выравненное
Средний квадрат
Стандарт
Статистика для проверки гипотез
Степень влияния фактора
Сумма квадратов
— общая
— случайная
— факториальная
Таблица корреляционная
— четырехклеточная
Теснота связи
Точка опробования
Тренд линейный
Усреднение оценок дисперсий
Устойчивость статистическая
Фактор случайный
Частота
- абсолютная
- относительная
- теоретическая
Числа случайные
Число степеней свободы
Шкала измерений
— именная
- -интервальная
- - классификационная
- - относительная
- - порядковая
Эксцесс
Элемент опробования
51
24
22
19
22
19
172
262
61
80
261
211
66
133
213
209
209
209
231
252
240
21
249
107
49
209
34
34
35
150
31
103
11
11
12
11
12
И
146
19
ОГЛАВЛЕНИЕ
Предисловие 3
Введение 5
Глава 1 .Измерения, испытания, величины, совокупности. 11
1.1. Шкалы измерений A1).1.2. Испытания, события, величины A3). 1.3. Общие и
второстепенные условия проведения испытаний A5). 1.4. Объект исследва-
ния A7). 1.5. Физическая совокупность и ее компоненты A9). 1.6. Дискретность
объектов и особенности элементов опробования B0). 1.7. Техника
измерений случайной величины B1). 1.8. Статистическая совокупность,
объем совокупности B2). 1.9. Математическое ожидание B5). 1.10. Многомерные
случайные величины B6). Вопросы для самоконтроля B7).
Глава 2 . Выборки и группировка. 29
2.1. Репрезентативность выборки и рандомизация B9). 2.2.Механический
отбор B9). 2.3. Таблица случайных чисел и ее использование C1). 2.4. Послойная
выборка. Значение рандомизации C2). 2.5. Группировка и ряды распределения
C3). 2.6. Группировка качественных и порядковых признаков C6). 2.7. Классы
количественных признаков C7). 2.8. Группировка логарифмов переменных D0).
2.9. Представление распределений с помощью квантилей D1). 2,10. Графическое
представление распределений D4). Вопросы для самоконтроля D7).
Глава 3. Вероятность.Параметры распределений. 48
3.1. Статистическая устойчивость D8). 3.2. Вероятность, Невозможные,
достоверные, несовместимые события D9). 3.3. Пересекающиеся события.
Независимость событий E1). 3.4. Закон распределения. Распределение дискретных
величин E2). 3.5. Кривая распределения непрерывных величин E4). 3.6. Плотность
вероятности. Интеграл вероятности E6). 3.7. Константы и параметры
распределения E7). 3.8. Мода E8). 3.9. Медиана F0). ЗЛО. Среднее
арифметическое F1) .3.11. Свойства среднего F2). 3.12. Среднее и систематические
погрешности анализа F3). 3.13. Дисперсия F5). 3.14. Стандартизованное отклонение,
коэффициент вариации F7). 3.15. Моменты F8). ЗЛ 6. Среднее и дисперсия в
совокупности альтернативных признаков G0). Вопросы для самоконтроля G2).
Глава 4 . Законы распределения. 73
4,1. Закон нормального распределения G3). 4.2, Интеграл вероятности нор
мального распределения G6). 4.3. Логнормальное распределение G9). 4.4.
Биномиальное распределение (82). 4.5. Распределение Пуассона (84). 4.6. Другие
законы распределений дискретных величин (87). 4.7. Другие законы
непрерывных распределений (89). Вопросы для самоконтроля (93).
Глава 5. Выборочные оценки и ошибки репрезентативности. 94
5.1. Константы и их оценки (94). 5.2. Оценка моды (95). 5.3. Оценка
медианы (96). 5.4. Оценка среднего арифметического (99). 5.5. Методы
характеристики варьирования A00). 5.6. Оценка дисперсии и стандарта A02) 5.7.
Статистические оценки при объединении выборок A05). 5.8, Усреднение оценок
дисперсий A06). 5.9. Оценка коэффициента вариации A09). 5 10. Ошибки
репрезентативности A10). 5.11. Ошибка среднего A11). 5.12. Ошибки других
оценок A13). 5.13. Ошибки функций от случайных величин A14). 5.14. Качество
оценок A18). 5.15. Оценки коэффициентов асимметрии и эксцесса и их ошибки
A19). 5.16. Оценка доли и ее ошибка A20). Вопросы для самоконтроля A21).
317
Глава 6. Техника вычислений и представление результатов. 122
6.1. Общие вопросы техники вычислений A22). 6.2. Вычисление оценок по
несгрушшрованным данным A24). 6.3. Вычисления оценок по
сгруппированным данным A25). 6.4. Вычисление оценок при добавлении или отбрасывании
единичных значений A28). 6.5.Представление результатов
статистического анализа A29). Вопросы для самоконтроля A31).
Глава 7. Статистические гипотезы и их проверка. 132
7.1. Основные понятия A32). 7.2.Статистики для проверки гипотез A36).
Вопросы для самоконтроля A38).
Глава 8. Статистический авнализ одной выборки. 140
8.1. Общие вопросы анализа выборки A40). 8.2. Выбраковка A41). 8.3. Анализ
вариации, асимметрии и эксцесса A43). 8.4. Проверка нормальности
распределения с помощью критерия Уилка-Шапиро A48). 8.5. Проверка гипотезы о
нормальности распределения с помощью критерия хи-квадрат A50). 8.6.
Доверительный интервал среднего A53). 8.7. Показатель точности опыт* и показатель
относительной вероятной погрешности A55). 8.8. Гарантированные минимумы
и максимумы среднего A56). 8.9. Доверительный интервал дисперсии A58).
8.10. Сравнение средних с постоянными величинами A59). 8.11. Планирование
объемов единичных выборок A60). 8.12. Погрешности оценки среднего и
смешанные образцы A63). 8.13. Оценка интервала возможных значений
признака A66). 8.14. Границы типичных значений A68). 8.15. Анализ
квантилей A69). 8.16. Анализ совокупности как смеси подсовокупностей A72).
8.17. Оценка граничных значений между подсовокупностями A77). 8.18. Анализ
долей A79). Вопросы для самоконтроля A82).
Глава 9. Анализ группы выборок. 184
9.1. Общие особенности анализа A84). 9.2. Сравнение двух дисперсий A84).
9.3. Сравнение более чем двух дисперсий A85). 9.4. Средняя разность и ее
значимость A90). 9.5. Сравнение двух средних при одинаковости дисперсий и
некоррелированности выборок A91). 9.6. Сравнение группы средних A92).
9.7. Сравнение средних при неравенстве дисперсий A94). 9.8. Интерпретация
результатов сравнения средних A96). 9.9. Планирование численности выборок при
сравнении средних A97). 9.10. Квантильный анализ группы выборок B00).
9.Ц. Сравнение долей B03). Вопросы для самоконтроля B05).
Глава 10. Дисперсионный анализ. 206
Ю.1. Общее представление о принципах дисперсионного анализа B06).
10.2. Разложение суммы квадратов и дисперсии при дисперсионном анализе (на
примере однофакторного комплекса) B09). 10.3. Оценка степени влияния
изучаемого фактора и доверительных интервалов средних B13). 10.4. Условия
применимости дисперсионного анализа и преобразования значений
результативного признака B15). 10.5. Дисперсионный анализ неравномерного
однофакторного комплекса B16). 10.6. Дисперсионный анализ двухфакторного
комплекса с повторностями B16). 10.7. Дисперсионный анализ двухфакторного
бесповторностного комплекса B20). 10.8. Иерархическая схема дисперсионного
анализа B23). Вопросы для самоконтроля B29).
Глава 11. Корреляционный анализ. 230
11.1.Виды связей и их представление B30). 11.2.Коэффициент корреляции B34).
11.3-Оценки и значимость коэффициента корреляции B37). 11.4.Величина
коэффициента корреляции и его смысл B40). 11.5.Техника вычислений коэффициента
корреляцииB42). И.б.Частный коэффициент корреляции B44).
11.7.Коэффициент корреляции Спирмена B46). 11.8.Тетрахорический показа-
318
тель связи B51). 11.9.Несимметричные меры ассоциации B55). Вопросы для
самоконтроля B58).
Глава 12. Регрессия. 260
12.1. Понятие о регрессионном анализе B60). 12.2. Прямолинейная
регрессия B63). 12.3. Значимость параметров линейной регрессии B68). 12.4. Анализ
криволинейных связей B71). 12.5. Множественная регрессия B74). 12.6.
Множественная регрессия в стандартизованном виде B79). 12.8. Интерпретация
результатов регрессионного анализа B83). Вопросы для самоконтроля B86).
Приложения. 287
Таблица I. Таблица случайных чисел B88). Таблица П. Интеграл вероятности
F(z) нормального распределения B89). Таблица HL Критические значения
статистики Стьюдента га B91). Таблица IV. Квантили распределения %2 B92).
Таблица V. Критические значения Faраспределения Фишера B93). Таблица VL
Критические значения хтшх B96). Таблица Ш Коэффициент #n_/+i для
вычисления статистики Уилка-Шапиро B97). Таблица YBL Критические
значения статистики Уилка-Шапиро Wa B99). Таблица К. Достаточная численность
единичной выборки па C00). Таблица X Критические значения статистики
Fm9X C01). ТаблицаЖ Критические значения коэффициента Дункана qa,g
C02). Таблица Ж Достаточная суммарная численность двух выборок па,
C03). Таблица ХЕ Значения величины г для значений г C04). Таблица XIV.
Значения величины г для значений г C04). Таблица XV. Минимальный объем
корреляционного ряда па C05). Таблица XVI Критические значения
коэффициента корреляции Спирмена rs C06). Таблица XVE Значения
<p=2arcsW7> C07).
Литература. 310
Основные обозначения 311
Предметный указатель 314
Учебное издание
Дмитриев Евгений Анатольевич
Математическая статистика в почвоведении
Зав. редакцией И. И. Щехура
Редактор О. В. Апентьева
Художественный редактор А. Л. Прокошев
Переплет художника Б.С.Козакова
Технический редактор Н.И.Матюшина
ИБ № 7302
ЛР №040414 от 27.03.92
Подписано в печать 9.08.95
Формат 60x90/16 Бумага офс. № 2
Гарнитура Тайме . Офсетная печать
Усл. печ.л. 20,0. Уч.-изд. л. 20,55
Тираж 1000 экз. Заказ 12бб Изд. №2822
Ордена "Знак Почета" издательство Московского университета.
103009, Москва, ул. Б.Никитская, 5/7.
Типография ордена "Знак Почета" изд-ва МГУ.
119899, Москва, Ленинские горы.