Text
                    

Н>. Г. Шестаков Математические методы В ГЕОЛОГИИ Допущено Государственным комитетом СССР по народному образованию специального образования СССР в качестве учебного пособия для студентов геологических специальностей вузов и университетов дательство Красноярского университета Красноярск 1988
УДК 51—7 : 55 Шестаков Ю. Г, Математические методы в геологии: Учеб, пособие для студентов геологических специальностей. Красноярск: Изд-во Краснояр. ун-та, 1988. — 208 с. - В учебном пособии с учетом особенностей использования матема- тических методов в геологии рассмотрены основы теории вероят- ностей и статистической: обработки, дисперсионный, корреляционный и регрессионный анализы; распознавание образов, описание прост- ранственных закономерностей и математическое моделирование при поисках и разведке; сбор, хранение и обработка геологоразведоч- ных материалов с помощью ЭВМ. Включены примеры решения ти- повых задач геологии, элементы безмашинного контроля знаний, графическая интерпретация существа предлагаемого математическо- го аппарата, задания для выработки навыков его применения. Пра- вильность получаемого при выполнении заданий может быть про- верена сопоставлением результатов с ответами. Для студентов геологических специальностей и геологов-произ- водственников, имеющих дело с обработкой числовых, порядковых и качественных геолого-геохимических данных. Табл. 57, ил. 56, список лит.— 24 назв. Печатается по решению редакцйонио-издательского совета Красноярского университета Рецензенты: кафедра теории вероятностей механико-математического факультета МГУ, канд, геолого-минерал. наук доцент В. А. Ермолов (Московский горный институт) Ш 1004000000 ---------------24—88 М 17'8(03)—88 © Издательство Красноярского университета, 1988
ПРЕДИСЛОВИЕ Характерной особенностью современной геологии является широкое проникновение математических методов в практику повседневной обработки данных. Наряду с традиционными описаниями признаков и событий вводится количественный анализ фактов, а словесная аргументация подкрепляется математическими обоснованиями устанавливаемых законо- мерностей. Меняются требования и к подготовке инженеров- геологов. С 1976 г. существовавший в учебных графиках курс «Вычислительная математика в инженерных и экономических расчетах» заменен курсами «Вычислительная математика и программирование», «Математическая статистика», а с 1985 г. последний преобразован в «Математические методы в геоло- гии». Настоящее учебное пособие отвечает программе названно- го курса, утвержденной Учебно-методическим управлением по высшему образованию для подготовки инженерных кадров специальности 08.01 — «Геологическая съемка, поиски и раз- ведка месторождений полезных ископаемых», включает ха- рактеристику статистических методов обработки данных и опи- сания пространственных закономерностей, вопросы класси- фикации объектов и распознавания образов, моделирования геологических процессов и применения ЭВМ при организации сбора, хранения и обработки геолого-геофизической и геохи- мической информации. В основу пособия положен материал лекций, которые автор читал в 1967—1974 гг. сотрудникам подразделений ПГО «Красноярскгеология» и читает с 1972 г. студентам геологических специальностей Красноярского ин- ститута цветных металлов Основной задачей при написании пособия автор считал не изложение основ математических алгоритмов обработки гео- 1 Шестаков Ю. Г. Математическая статистика: Курс лекций для студен- тов геолог, специальностей. Красноярск: Изд-во Краснояр. ун-та, 1976. 82 с. Шестаков Ю. Г. Математическая^статистика: Учеб, пособие. Красно- ярск: Изд-во Краснояр. ун-та, 1982. 116 с. 3
логической информации, а ознакомление обучающегося с су- ществующими методами ее обработки (для успешного приме- нения математики в повседневной жизни геологу достаточно знать смысловую сторону решения задач и представлять ус- ловия применения выбираемых критериев). Математическое обоснование используемых в геологии критериев отвлекало бы студента от основной задачи — овладения методами обработ- ки эмпирических данных: оно невыполнимо ни в заданном объеме пособия, ни в отводимое на его изучение время. Заин- тересованные в углубленных знаниях могут найти нужные сведения в руководствах и монографиях, приведенных в спи- ске литературы. В приложении даны математико-статистические таблицы, необходимые для пользования описанными в учебнике крите- риями. Большое значение придается контролю за усвоением из- лагаемого материала, при этом, как известно, лучшим явля- ется проверка 'умения пользоваться полученными знаниями при решении конкретных задач. Материал глав включает разбор типовых ситуаций, контрольные вопросы и набор за- даний для самостоятельного решения. Верность действий по выбору необходимого аппарата решения поставленных задач и интерпретации результатов обучающийся может проверить, сравнив полученное с ответами. Набор задач ограничен в ос- новном базисными знаниями студентов на время прохожде- ния настоящего курса (общая геология, кристаллография, па- леонтология, минералогия, структурная геология, частично петрография). Включены наиболее простые задачи поисков и разведок, которые будут изучаться на последующих курсах и в решении которых (с учетом выполнения курсовых и дип- ломных проектов) студентам потребуется применение мате- матических методов и ЭВМ. Некоторые примеры рассматри- ваются на ограниченном числе данных, носят иллюстративный характер, подобраны для прослеживания обучающимся все- го вычислительного процесса. В списке литературы приведе- ны основные работы по вопросам применения математики в геологии, опубликованные в последние годы. Хотелось бы, чтобы пособие оказалось полезным в овла- дении математическими методами обработки данных и стар- шему поколению геологов, программы математической под- готовки которых в высших и средних специальных учебных заведениях ограничивались прохождением курса высшей ма- тематики. С этой целью и учетом того, что в подготовке гео- 4
логов существенную роль играет отображение изучаемых процессов и явлений в виде рисунков и графиков, а убежде- ния базируются на ссылках на авторитеты, при изложении материала часто дается графическая интерпретация сущест- ва рекомендуемых формул и получаемых с их помощью ре- зультатов, приводятся мнения ведущих советских и зарубеж- ных специалистов по* вопросам применения математики в гео- логии. МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ Освоение основного материала курса предусматривается за 30—32 часа лекций с закреплением полученных знаний и приобретением навыков обработки данных за столько же ча- сов практических занятий. Пособие содержит 11 глав, девять из которых (№ (2—10-я) сопровождаются вопросами про- граммированного контроля по усвоению пройденного матери- ала, примерами решения типовых задач и заданиями для са- мостоятельного решения. Часть материала (мелкий шрифт) предназначена для самостоятельного освоения. На изложение материала глав: второй (некоторые поло- жения теории вероятностей), четвертой (проверка статистиче- ских гипотез), шестой (корреляционный анализ), восьмой (пространственно-статистический анализ), рекомендуется от- вести по две лекции. При 32-х часах дополнительную (заклю- чительную) лекцию можно провести на вычислительном цент- ре геологического объединения (экспедиции, вуза) с привле- чением специалистов-геологов, использующих в своих рабо- тах математические методы и ЭВМ. Контроль усвоения теоретического материала предусмат- ривается проводить на практических занятиях (раздача мате- риала и сбор ответов — в начале первого часа, примерно 10 мин; проверка ответов — во время решения студентами основной задачи, когда можно пригласить каждого студента и показать допущенные ошибки). При выполнении практических занятий, с целью сокраще- ния времени на рутинный счет, желательно членение число- вых данных между студентами, обобщение решений на дос- ке с интерпретацией полученного. В конце занятия хотелось бы или осуществить решение рассмотренной задачи на ЭВМ, или продемонстрировать результаты выполненного заранее решения. 5
Глава 1 ВВЕДЕНИЕ В ДИСЦИПЛИНУ л 1.1. ЦЕЛЬ ПРЕПОДАВАНИЯ И ЗАДАЧИ ИЗУЧЕНИЯ Задачи изучения дисциплины вытекают из требований гео- логоразведочной службы страны и квалификационной харак- теристики специалиста-геолога. После прохождения теорети- ческого курса и выполнения практических занятий студент обязан: знать основные принципы геолого-математического моделирования, главные типы моделей и особенности их при- менения; овладеть методами математической обработки гео- логической, геохимической и геофизической информации; уметь формулировать геологические задачи в виде, удобном для их решения математическими методами и выбирать наи- более эффективные пути достижения цели; иметь отчетли- вое представление о возможностях, использования ЭВМ при ведении съемочных, поисковых и геологоразведочных работ. В грамотной математической обработке и интерпретации современной геологии нуждаются данные полевых наблюде- ний, описания петрографо-минералогических лабораторий и аналитические результаты физико-химических, материалы магнитных, гравиметрических, электроразведочных, сейсми- ческих, радиометрических, спектрометрических, фотометри- ческих, радарных, телевизионных, люминесцентных и т. п. съемок подземного, наземного, аэровоздушного и космическо- го исполнения. За последние годы значительно увеличилась роль данных, получаемых считывающими устройствами не- посредственно с карт, с аэрофотоснимков, в том числе тепло- вого и инфракрасного излучения, со снимков, сделанных с космических спутников. Современный поток геологических данных столь интенсивен, а данные эти так разнообразны, что обработка их с необходимой детальностью в отводимые сроки без математических методов и услуг ЭВМ становится невозможной. Овладеть математическими методами решения геологи- ческих задач, указывают Р. Миллер и Дж. Кан [17], значит е
получить способ действий, управляемый набором правил, применение которых всеми заинтересованными исследовате- лями сведет к минимуму ошибки интерпретации, уменьшит неясность и неопределенность в выводах при обработке дан- ных. Ознакомление с таким способом действий, привитие уме- ний пользоваться им в практической деятельности — цель преподавания дисциплины «Математические методы в гео- логии». 1.2. К ВОПРОСУ ПРИМЕНЕНИЯ МАТЕМАТИЧЕСКИХ МЕТОДОВ В ГЕОЛОГИИ Рассматривая роль и место математики в геологии, акаде- мик В. И. Смирнов 1 отмечает, что математика вошла в гео- логию вначале вероятностной ветвью и дала много полезно- го для объективной оценки геологических выводов, основан- ных на выборке, почти одновременно геологи начали исполь- зовать теорию корреляции для суждения об одних геологиче- ских величинах по другим, связанным с первыми генетиче- ски, парагенетически или пространственно, по мере развития математических методов в наш обиход была вовлечена дис- кретная математика по модели распознавания образов в свя- зи с оценкой перспектив выявления геологических объектов, компьютерная математика захватила широкие сферы геоло- гии, обусловила разработку математических моделей природ- ных процессов. В настоящее время математические методы имеют существенное значение для оценки рудоносности про- винций, рудных полей, месторождений, анализа геохимических закономерностей строения и состава рудных тел, разложения многочисленных рудных месторождений в закономерные ря- ды рудных формаций, рациональной разведки их, разбраков- ки геофизических и геохимических аномалий. Составители программы настоящего курса указывают, что относительно применимости математики в геологии в насто- ящее время существуют различные мнения: нецелесообразно, так как ей недоступны сложность природных явлений, их внутренняя нерасчлененность; обязательно, только она обес- печивает решение современных задач, но предварительно не- обходимо формализовать существующие геологические поня- ’ Математические методы при прогнозе рудоносности. М.: Наука, 1977. С. 3. 7
тия и представления, перевести их с естественного разговор- ного языка на формализованный машинный; необходимо для обработки и обобщения экспериментальных данных, причем формализации подвергается не геологическая наука, а толь- ко объект непосредственного наблюдения в соответствии с поставленной задачей исследования. «Такой подход рассмат- ривается как геолого-математическое моделирование, при вы- полнении которого должен быть обеспечен комплекс условий, гарантирующих соответствие геологических и математических моделей» [14, с. 9]. Убедительным доказательством того, что геология сего- дняшнего дня активно берет на вооружение математику и методы обработки данных на ЭВМ, служат Социалистические обязательства трудовых коллективов организаций и пред- приятий Министерства геологии СССР по ускорению научно- технического прогресса и повышению эффективности произ- водства в XII пятилетке, в которых, наряду с традиционными пунктами, предусмотрено завершить внедрение методов про- гнозирования и оценки ресурсов полезных ископаемых на ос- нове компьютерной системы «Регион», обеспечить в 1989 го- ду, на полгода раньше установленного срока, разработку и внедрение принципиально новой системы автоматизирован- ной обработки данных геофизических исследований в важней- ших нефтегазоперспективных районах страны. Об использовании математических методов за рубежом можно судить по публикации президента Международной ас- социации математической геологии США1 Т. Уиттена, кото- рый отмечает, что долгое, время геологическая наука носила описательный характер, в геологических процессах домини- руют случайные события и взаимодействия. В последние 25 лет произошла «замечательная революция» — введение в геологию моделей и внедрение ЭВМ. Построение математиче- ских моделей заставило членить изучаемые явления на со- ставные части с привлечением понятий физико-химических и биологических процессов для написания математических урав- нений. В ближайшие 25 лет ожидается взрыв открытий. Обу- словленность этого: физика, химия и математика занимают должное место в преподавательской деятельности и научных исследованиях; геологические явления начинают изучаться как системы, определяющие реальный процесс и могут быть * Математические методы и автоматизированные системы в геологии// Экспресс-информация, зарубежный метод, опыт. 1984. Вып. 2. 8
смоделированы количественно на основе собранных для этих целей данных (модели могут быть отвергнуты или пересмот- рены, мнения же умирают только с их авторами). Рассмотрим классификацию пород на осадочные, извер- женные, метаморфические, возможность уточнения ее на ос- нове математического подхода. При разбиении совокупности А на классы Ai математика предусматривает выполнение трех требований: 1—AinAk=0, (i=H=k); 2—2А,=А; 3—Ai^O. Применительно к совокупно- сти «порода» и разбиению ее на классы первое требование означает, что не должно быть ни одной разновидности, кото- рая могла бы быть отнесена к двум различным классам; вто- рое — не должно быть ни одной разновидности, которая не могла бы быть отнесена ни к одному из выделенных классов; третье — не должно быть ни одного класса, в который нель- зя бы было отнести хотя бы одну из разновидностей пород. Второе и третье требования классификации пород на осадоч- ные, магматические и метаморфические удовлетворяется, а первое — нет. Существуют осадочные и магматические поро- ды, подвергшиеся метаморфизму, а это означает неизбеж- ность отнесения образцов их различными людьми к различ- ным классам. Первое положение классификации объектов требует выделение не менее пяти разновидностей пород: оса- дочные, осадочные метаморфизованные, магматические, маг- матические метаморфизованные, метаморфические. Мы живем в период становления математической геологии и выработки на ее основе совершенно нового подхода к ана- лизу геологических явлений, указывает А. Б. Вистелиус, спе- циалистов в этой области очень мало, она бесконечно пере- гружена лицами, весьма далекими или от геологии, или от математики, естественен хаос, существующий ныне в литера- туре по математической геологии, бороться с ошибочными тенденциями нужно не административными Путями, а пока- зом тех направлений, которые дают реальные геологические результаты [7]. Думается, что знакомство с содержанием учебника будет способствовать увеличению числа тех геологов, для которых важно не только получать наблюдения по изучаемым процес- сам и явлениям, но и добиваться, чтобы они служили базой серьезных, обоснованных выводов и высказываемых гипотез. С вопросами хронологии применения различных матема- тических методов для решения геологических задач желаю- 9
щие могут познакомиться по работам И. П. Шарапова [22], У. Крамбейна и Ф. Грейбплла [15], Н. В. Боровко [4], А. Б. Вистелиуса [7], А. Б. Каждана [13]. 1.3. ГЕОЛОГИЧЕСКИЕ ДАННЫЕ, ОБЪЕКТЫ ИЗУЧЕНИЯ, РЕШАЕМЫЕ ЗАДАЧИ Геологические данные делятся на количественные (признак характеризуется числом, например, содержание меди в пробе 0,27%), полуколичественные (изучаемые объекты могут быть упорядочены по усилению какого-либо свойства, например, сульфидов нет — 0, мало — 1, много — 2), качественные (констатируется наличие или отсутствие признака, например, гранитов в обнажении нет — 0, есть — 1). Математической обработке поддаются все указанные типы данных, и обосно- ванные геологические выводы могут быть получены даже по качественной информации при ограниченном числе наблюде- ний. Выражение полуколичественных и качественных данных в процентных величинах, то есть числом, не повышает досто- верности получаемых результатов, а при оценке тесноты свя- зей между малым набором признаков неизбежно ведет к по- явлению наведенных отрицательных зависимостей. Количест- венные данные, как правило, не могут быть абсолютно вер- ными, зависят от точности инструмента (метода), с помощью которого получаются, подвержены систематическим и случай- ным ошибкам измерения (определения). Объектами геологических исследований являются метал- логенические провинции, рудные районы, узлы и поля, ме- сторождения, зоны оруденения, тела, рудные столбы, мине- ральные агрегаты, зерна минералов, породы, окаменелости, процессы осадконакопления, стадийность магматизма, зако- номерности околорудного преобразования вмещающих пород и рудоотложения, зональность его и многое другое. Матема- тические методы изучения имеют дело не с материальными объектами и явлениями, а с совокупностями значений оцени- ваемых признаков, которыми эти объекты и явления облада- ют. Чтобы не допустить грубых ошибочных заключений, по- лучаемых на их основе, необходимо избегать использования таких совокупностей в отрыве от реальной природы изучае- мого. 10
Определение объекта изучения в каждом конкретном слу- чае зависит от решаемой задачи и формулировки условий, при которых осуществляется оценка признаков. При решении своих задач геолог располагает конечным числом наблюде- ний, характеризующих, как правило, незначительную часть изучаемого объекта. Расположение наблюдений зачастую не- равномерно, что обусловлено обнаженностью территорий, трудностями вскрытия изучаемых тел. Как указывает Д. А. Ро- дионов [18, с. 9], необходимо четко представлять, на- сколько опробуемая совокупность представительна по отно- шению к изучаемой. Приводим некоторые типы геологических задач, решаемых математическими методами: оценка средних значений измеряемых признаков; характеристика изменчивости их; математическое описание распределения значений приз- наков на объектах изучения; установление характера и силы связи между признаками, отражающими специфичность неоднородности строения объ- ектов и факторами, определяющими направленность протека- ния процессов, реализуемость явлений; математическое описание установленных корреляцион- ных зависимостей; решение вопросов сходства — различия изучаемых объек- тов, процессов и явлений на основе сравнения средних зна- чений, характеристик изменчивости, законов распределения замеряемых параметров, характера и тесноты корреляцион- ных зависимостей между значениями их; установление закономерной и случайной составляющих изменчивости изучаемых параметров на линии, площади, в объеме; выбор наиболее информативных признаков и последую- щие классификация объектов изучения, выделение слабых сигналов на фоне случайных помех; построение карт комплектных показателей перспективно- сти оцениваемых территорий на конкретные виды полезных ископаемых; определение эрозионного среза зон оруденения; оценка прогнозных ресурсов изучаемых площадей; выбор сети наблюдений, оптимальных кондиций для раз- ведуемых месторождений, систем вскрытия и отработки про- мышленных объектов; 11
подсчет запасов на основе методов пространственно-стати- стического анализа; моделирование геологических явлений с целью познания процессов осадконакопления, магматизма, закономерностей локализации оруденения и формирования минерало-геохими- ческих ореолов вокруг рудных тел, образования вторичных ореолов и потоков рассеяния при их разрушении и т. п. 1.4. ГЕОЛОГО-МАТЕМАТИЧЕСКИЕ МОДЕЛИ — ОСНОВА УСПЕШНОГО ПРИМЕНЕНИЯ МАТЕМАТИЧЕСКИХ МЕТОДОВ В ГЕОЛОГИИ Моделирование с целью познания процессов и явлений применяется при изучении систем, не поддающихся экспе- риментальным исследованиям и строгому описанию одновре- менно действующих многочисленных факторов. Природные геологические процессы в большинстве случаев относятся именно к таким системам, и при их изучении строгое понятие «закон» заменяется расплывчатым «модель». Модель в от- личие от закона, имеющего на данном уровне знаний харак- тер абсолютной истины, обеспечивает лишь приближенное представление о возможном протекании описываемого гео- логического процесса, исхода события, об изменении состоя- ния или закономерностей размещения объектов. К уяснению существа и возможностей математического моделирования можно подойти через понятие метода анало- гий, широко используемого в геологии, позволяющего оцени- вать трудно (дорого) определяемые признаки по хорошо про- являющимся или не требующим для изучения больших зат- рат средств и времени. Если объекты А и Б характеризуются рядом одинаковых свойств, а у одного из них наблюдается еще и дополнительное, то на основе метода аналогий пред- полагают, что и второй не лишен такого свойства, но по ка- ким-то причинам оно явно не проявилось или наличие его пока не установлено. При этом помнят, что предположение не достоверно и подлежит проверке. Допустим, имеются два аномальных участка, на площадях которых развиты изве- стняки, гранодиориты, на контакте — скарны, ,а в пределах их для одного — магнетитовые руды. Геолог вправе предпо- лагать наличие руд и в пределах другого, где они, возможно, не вышли на поверхность. Иначе чем объяснить наличие маг- нитной аномалии? Решение этой же задачи можно объяснить 10
и на основе использования понятийной модели генезиса скар- новых магнетитовых руд (геолог знает, что при наличии кон- такта карбонатных пород с умеренно кислыми интрузиями возможно образование скарнов; при определенных условиях на скарны накладывается магнетитовое оруденение; наличие скоплений магнетитовых руд фиксируется в магнитном поле). Моделирование можно рассматривать как развитие метода аналогии на физико-химической, геометрической, математиче- ской основе. Модели — это искусственно созданные (умозри- тельные или материально реализованные) объекты, фигуры и математические выражения, воспроизводящие свойства и характеристики изучаемых объектов, явлений и процессов. В геологии они применяются давно. Утверждение, например, о том, что температура земли возрастает с глубиной, является моделью, оно может быть выражено в виде зависимости t=aH, где t — температура; Н — глубина; а — коэффициент увеличения температуры на сотню метров. Более точна мо- дель вида t=t0+aH, где t0 — температура на поверхности земли в рассматриваемой точке. Приведенные выражения описывают изменение температуры с глубиной по линейному закону, с развитием науки могут быть уточнены нелинейны- ми зависимостями для различных интервалов глубин. С появлением вычислительной техники моделирование ста- ло одним из важнейших методов научного познания. С его помощью можно ответить на вопросы, возникающие на эта- пах замысла и предварительного проектирования будущей си- стемы без применения дорогостоящего метода проб и ошибок, имитировать особенности функционирования системы в об- становках, нереализуемых в натурных ситуациях, уменьшить потребность в сложном оборудовании и сложных лаборатор- ных испытаниях, сократить сроки испытаний от месяцев и лет до секунд и минут, дать информацию о развитии (функ- ционировании) системы во времени. Моделирование во мно- гих случаях является единственным методом решения задач, анализ которых не может быть осуществлен ни в лаборатор- ных, ни в натурных экспериментах и наблюдениях. Выделя- ют физические, геометрические, понятийные, математические модели. Физические модели отражают подобие форм геомет- рических соотношений и происходящих в них физических про- цессов. Примерами их являются; определение свойств лета- тельных аппаратов в аэродинамической трубе (устойчивость 13
модели самолета проверяется обдуванием воздуха, на заре развития самолетостроения устанавливалась методом проб и ошибок, платой за которые часто была смерть испытателя); исследование гидротехнических сооружений путем натурных испытаний функционирования аналогичных объектов умень- шенного масштаба (плотина высотой в одну сотую от проек- тируемой с соответствующими уменьшениями ширины, устой- чивости материала и т. п.); изучение процессов складкооб- разования наклоном плоскости, на которую нанесены слои песка, глин, илн боковым давлением на слои пластелнна раз- личных цветов; изучение закономерностей выпадения в оса- док из взмученного состояния частиц различной крупности или различных химических соединений из раствора; разделе- ние пород основного состава на сульфидную и силикатную составляющие в результате экспериментальной плавки. Геометрические модели представляют собой объек- ты, геометрически подобные прототипу, дают внешнее пред- ставление, часто служат для демонстрационных целей, при- меры: слепки самородков, рук знаменитых музыкантов; ма- кеты кораблей, самолетов, строения зоны оруденения разведы- ваемого месторождения (нанесение разрезов на оргстекло и расположение стекол в пространстве); геологические, геохи- мические, геофизические и т. п. карты и планы; графики за- висимостей между значениями изучаемых признаков, фото- графии. Понятийные модели являются мыслимым образом природных явлений. Основаны на наблюдениях, служат для выражения изучаемого явления в идеализированной форме, отвечают существующему уровню знаний. Чаще всего каче- ственные, помогают при проверке конкурирующих гипотез. С освобождением от несущественных особенностей поддают- ся формализации и могут представляться в виде математиче- ских. Приводить специальные примеры нет необходимости, ибо основная часть процессов и явлений в геологии описана на уровне понятийных моделей. Взяв, например, геологиче- ский словарь, можно прочесть: «Альбитизация — метасома- тическое и главным образом гидротермальное образование альбита... характерна для процессов соссюритизации, пропи- литизации, зеленокаменного перерождения, спилитизации и формирования зеленых сланцев» (выделено нами. — Ю. Ш.). Модель одного процесса — альбитизации характеризуется 14
семью понятийными другими, причем для первых двух уже имеются математические описания. Математические модели — абстрактный аналог фи- зических, геометрических, понятийных моделей, в которых силы, события, соотношения участков, площадей, понятия и т. п. элементы заменены математическими символами, свя- занными между собой определенными отношениями. Пред- полагается лишь тождественность математического описания процесса (явления) в оригинале и математическом выраже- нии. Различают детерминированные и стохастические (стати- стические, вероятностные). Детерминированная модель — аналитическое представление закона, при котором для данной совокупности входных значений на выходе может быть получен единственный, всегда постоянный результат. Вид ее у—f(xi, х2, ..., хь), где у — зависимая переменная (функция), a Xi—Хк — независимые (аргументы). Стохастиче- ская модель содержит случайный элемент е, имеет вид у= — f(xb х2, ..., хь)+е. Если на входе задана некоторая сово- купность значений, на выходе получаются близкие, но разли- чающиеся между собой результаты. Различие их обуславли- вается влиянием случайных, неуправляемых воздействий не- учтенных факторов. При характеристике результатов, полу- чающихся на основе использования таких моделей, говорят не о законе, а о закономерности. Суть детерминированного моделирования продемонстриру- ем следующими примерами. Прямолинейное движение твер- дого тела с трением описывается линейным дифференциаль- ным уравнением где ш — масса тела; s — пройденный путь; г — коэффициент трения; F — сила, приложенная к телу, а процесс электрической цепи, содержащей последовательно включенную индуктивность и сопротивление, уравнением LS+R1T=U<‘>’ где L — индуктивность; q — количество электричества; R — сопротивление; U — напряжение. 15
Оба уравнения можно представить в общем виде: d2x dx ... a*d? + a>-dF = y(t)’ здесь х — играет роль s и q; aj—m и L; а2—г и R; y(t)—F(t) и U(t). То есть процесс торможения поездов, например, под- дается изучению на стенде, необходимо лишь установить ко- эффициенты перехода от одних переменных к другим и со- брать нужную электрическую цепь. Естественно, что это пот- ребует меньших затрат времени, труда и энергии, а глав- ное — будет безопаснее, чем проведение натурных испытаний с торможением разновесных, идущих с различной скоростью, при различной погоде железнодорожных составов. Как указывает Л. И. Четвериков [21], информация в гео- логии разнообразна по качеству (от вкусовых ощущений до строения вещества под электронным микроскопом) и форме (от зрительных зарисовок до значений параметра, замерен- ных по самой совершенной физико-химической методике). На основе геологического анализа столь разнообразных данных, с учетом имеющегося по аналогичным объектам, создается геологическая модель изучаемого в виде отчета (описания), представления исследователя о его происхождении и т. п. Ге- ологические модели индивидуальны, несут частный характер, недостаточно формализованы. При переходе к созданию ма- тематической модели моделируются не отдельные (частные) геологические объекты, а сложившиеся на основании всей имеющейся информации, в достаточной мере типизированные Рис. 1. Соотношения между геологическими объектами, геологической и математической моделями (по Л. И. Четверикову) и формализованные представления о целой группе подобных ему геологических объектов. Степень соответствия такой мо- дели изучаемому будет целиком зависеть от того, насколько она отражает основные особенности строения, генезиса, ме- 16
годики изучения подобной группы реальных объектов, процес- сов, явлений. Соотношение между реальным объектом, гео- логической и математической моделями этот исследователь выразил посредством геометрической модели (рис. 1, стрел- ками показаны потоки информации и воздействие коррек- тирующих сигналов). По рисунку видно, что создание типо- вой геологической модели и построение на ее базе математи- ческой в основе своей являются задачами геологическими. Сложность не в математической стороне вопроса, а в самой геологий, требующей обобщений и абстракций. Глава 2 НЕКОТОРЫЕ ПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ 2.1. ПЕРВИЧНЫЕ ПОНЯТИЯ И ТЕОРЕМЫ Первичными понятиями в теории вероятностей являются: со- бытие, вероятность, случайная величина, статистическая ус- тойчивость эксперимента. Под событием понимают результат опыта или естествен- ного явленйя, который может быть получен или не получен при имеющихся условиях, например: извлечение шара опре- деленного цвета из урны, где имеются одинаковые по форме, отделке и весу шары различных расцветок; оценка знаний студента — плохо, удовлетворительно, хорошо, отлично на экзамене в высшей школе; появление конкретного содержа- ния щелочей при. анализе образца гранита. События принято обозначать буквами А, В, С и т. д. Из повседневного практического опыта известно, что возмож- ность появления событий различна. Например, если по воз- вращении из маршрута в рюкзаке геолога имеется 30 образ- цов интрузивных и 3 образца осадочных пород, то очевидно, что при отборе наугад первого мешочка с образцом пород больше шансов извлечь интрузивные породы, так как их в 10 раз больше, чем осадочных. Количественной мерой объек- тивной возможности события при данных условиях являет-
ся вероятность его. Для установления границ изменения этой величины рассмотрим предельные случаи. Если наступление события при данных условиях исключе- но, то такое событие называют невозможным и ему приписы- вают вероятность, равную нулю. Примеры невозможных со- бытий: извлечение черного шара из урны, в которой имеются только белые шары; оценка знаний студента цифрой 6; об- наружение промышленных содержаний железа при анализе неизменных известняков. Если событие при данных условиях обязательно наступа- ет в каждом испытании, то такое событие называют досто- верным, а вероятность его считают равной единице. Примеры достоверных событий: извлечение белого шара из урны, в которой находятся только белые шары; назначение одного из студентов учебной группы старостой; обнаружение кальция при химическом анализе известняков. Вероятность появления какого-то события прямо пропор- циональна числу го случаев, благоприятствующих появлению этого события, и обратно пропорциональна числу п всех ра- вновозможных случаев, могущих произойти при данном ис- пытании: р = 1п:п. (2.1) На практике изучение всех возможных случаев зачастую невыполнимо, и вместо вероятности используется частность, вычисляемая по той же формуле (2.1), но при условии, что п — имеющиеся (йзученные), а не все возможные случаи. Ве- роятность характеризует объективную возможность появле- ния события, например, интересующий нас минерал может появиться в 20 шлихах из 100 изготовленных по сколкам изу- чаемой породы. Частость же—практическая оценка этой воз- можности, характеризует свершившийся факт. Если для изу- чаемых пород изготовить несколько партий шлифов по 100 штук каждая, то совсем не обязательно, что в каждой из них окажется по 20 с интересующим, нас минералом. Откло- нения возможны на одно, два и больше чисел в сторону за- вышения и занижения, но чем оно больше от вероятного, тем реже будет наблюдаться. В дальнейшем оговорим условие использования частости вместо неизвестной или трудно оп- ределяемой вероятности. Графическая интерпретация понятия вероятность дана на рис. 2, а. Допустим, что площадь М — тупиковая стена коридора с гладкими стенами, полом и потолком. По направ- лению к ней бросают мяч, обязательно достигающий стены. 18
Имеем площадь благоприятных исходов (площадь попада- ний) М и площадь всех возможных (по условию) — также М. Вероятность попадания мяча в стену равна М: М= 1 — до- стоверное событие. Площадь непопаданий равна нулю, а это означает, что вероятность не попасть в нее равна 0: М—0— невозможное событие. Рис. 2. Графическая интерпретация теорем вероятностей Выделим в пределах М некоторую часть (площадь А). Ве- роятность попадания в нее при случайном бросании мяча оп- ределяется соотношением площадей А и М, то есть р (А) = =А:М, для которого справедливо: 0<р<1. Если площадь А будет стремиться к наиболее возможному значению, то р бу- дет стремиться к единице, иначе — к нулю. События делятся на совместные и несовместные. Несов- местными называют события, совместное наступление кото- рых при одном испытании невозможно: появление белого и черного шара при извлечении одного шара из урны; выступ- ление студента в самодеятельности и сдача в то же время за- чета (технический вуз); единовременное отнесение изучаемо- го образца к изверженным и осадочным породам. Примеры совместных: появление белого шара с четным номером; вы- ступление в хоре и сдача зачета (училище искусств); отне- сение образца пород к изверженным метаморфизованным. Вероятность наступления одного из нескольких несовме- стных событий А, В, ..., К равна сумме вероятностей этих событий (теорема сложения вероятностей), то есть Р(А) или В, или .... или К) =Р(А) +Р(В) +... + Р(К)- (2.2) Если при данных условиях наступает одно из событий А, В, ..., К, то такая совокупность образует полную систему со- бытий. Сумма вероятностей событий, образующих полную систему, равна единице. Два события, А и А, образующие полную систему, называются противоположными. Очевидно, 19
Р(А)4~Р(А) = 1. Если обозначим Р(А)=р и P(A)=q, то p + q = l и q=l—р. Примеры противоположных событий: по- явление шара с четным или нечетным номером (спортлото); получение — неполучение студентом стипендии; наличие или отсутствие в шлихе золота. Допустим, имеет 100 проб, 30 из которых характеризуют- ся содержаниями элемента А до 1 % ,50 — от 1 до 2, 20 — более 2%. Если взять наугад одну пробу из имеющихся, то вероятность того, что содержание элемента А в ней будет ме- нее одного процента, равна Р(А<1 %) =30 : 100=0,3. Веро- ятностб"'Того, что проба будет иметь содержание не менее одного процента, равна Р(А>1%) =Р(А = 1—2%) + + Р(А>2%) = (50 : 100) + (20 : 100) =0,7. Это же значение можно получить на основе понятия противоположных собы- тий: Р (А> 1 %) = 1—Р (А< 1 %) = 1—0,3=0,7. На рис. 2, б дана графическая интерпретация теоремы сложения вероятностей и понятия полной системы событий. Вероятность попадания мяча в площади А или В равна сум- марной части их от общей площади, то есть Р (А или В) = = (A-f-B):M=A:M-{-B :М=Р(А)+Р(В). Точка по усло- вию может попасть только на участки площадей А, В и ос- тавшуюся часть М* общей площади, то есть Р(А)+Р(В) + +Р(М*) = 1. Вероятность совместного наступления двух событий (од- новременно или последовательно) равна произведению веро- ятности одного из них на условную вероятность другого, вы- численную в предположении, что первое событие уже насту- пило (теорема умножения вероятностей), то есть: Р(Аи В)=Р(А)ХРа(В)=Р(В)ХРв(А), (2.3) где Ра (В) и Рв(А) — условные вероятности появления одно- го из событий, вычисленные в предположении, что другое уже состоялось. Какова вероятность того, что для взятых наугад двух проб (предыдущий числовой пример) одна будет содержать элемент А в количестве менее одного (событие А), а другая не менее одного (событие В) процента? Допустим, что в результате первого испытания взята про- ба с содержанием менее процента. Вероятность этого собы- тия равна 30 : 100. Вероятность того, что вторая проба будет содержать не менее процента, при условии, что в предыдущей было меньше, равна 70 : 99, так как после первого извлечения осталось только 99 образцов, из которых 70 благоприятны 2ft
для появления интересующего нас события. Имеем: Р(А и В) = Р(А)ХРа(В) = (30: 100)Х(70:99)«0,212. Та- кое же значение получим, если допустим, что первоначально состоялось событие В, а затем А. В целом интересующая нас вероятность (одна проба с содержанием менее процента, а другая — не менее) примерно равна 0,424. На рис. 2, в дана графическая 'интерпретация теоремы умножения. Вероятность совместного наступления событий А и В равна отношению площади АВ к площади поля событий М. Разделим и умножим это отношение на А: АВ-А М-А ’ рассмотрим отдельно отношения А:М и АВ:А. Первое есть Р(А). Во втором случае поле событий сужается до А, то есть рассматривается, что точка может попасть только в А, а АВ — часть этой площади, благоприятная для интересую- щего нас события, то есть АВ : А равно вероятности события В, при условии, что А имело место. В том случае, когда вероятность наступления одного со- бытия не зависит от наступления другого, события называ- ют независимыми. Очевидно, что в этом случае РА(В) = = Р(В), а Рв(А)=Р(А), и теорему умножения вероятно- стей пишут в виде Р(А и В) =Р(А)ХР(В), то есть веро- ятность совместного наступления двух или большего числа независимых событий равна произведению их вероятностей. После знакомства с теоремой умножения легче понять суть теоремы сложения совместных событий. Вероятность на- ступления одного из двух событий равна сумме их вероятно- стей без вероятности их совместного наступления, то есть Р(А или В) ==Р(А)+Р(В)—Р(А и В). (2.4) В том случае, когда события А и В несовместны, Р (Л и В)=0, приходим к (2.2). Графическая интерпретация теоремы сложения двух сов- местных событий дана на рис. 2, в. Площадь А или В равна сумме их площадей без участка перекрытия АВ, то есть Р(А + В) — (А+В—АВ) : М=Р(А)+Р(В)—Р(АВ). При трех совместных событиях А, В, С имеются перекрытия АВ, АС, ВС, исключение которых приведет к выпадению из благопри- ятного для попадания мяча участка АВС (рис. 2, г): Р(А + В + С) = Р(А)+Р(В)+Р(С) — Р(АВ) — Р(АС) — —Р(ВС)+Р(АВС). 21
Пример. Вероятности обнаружения зерен вольфра- мита (событие А) и касситерита (событие В) в шлихе для изучаемой территории равны 0,4 и 0,3. Определить вероятность того, что при промывке первого шлиха бу- дут обнаружены оба минерала, будет обнаружен хотя бы один из минералов, не будет обнаружено ни одного неназванных минералов. ~Так как появления каждого из минералов есть неза- висимые события, то Р (А и В) —0,4X0,3—0,12, веро- ятность появления хотя бы одного из них Р(Л или В) = 0,4 + 0,3—0,12=0,58, а ни одного (Р(А + В) = 1—Р(А или В) = 1—0,58=0,42. Это же значение можно полу- чить через вероятности событий Р(А) и Р(В)2 Р(А) = = 1—0,4=0,6 и Р(В) =1—0,3=0,7. Р(А и В)=О,6Х Х0,7=0,42. Пользуясь теоремами сложения и умножения вероятно- стей, можно получить формулу полной вероятности. Пусть событие А наступает только при появлении одного из несов- местных событий Hi, Н2..Нл, образующих полную систему. Допустим при этом, что вероятности таких событий и услов- ные вероятности Phi(A), Рнг(А), ..., Рнп(А) известны. Тогда можно показать, что Р(А)=2Р(Н1)ХРН1(А). (2.5) 1=1 Назовем события Hi, при появлении одного из которых мо- жет наступить событие А, гипотезами, тогда формула (2.5) выражает следующую важную теорему. Если событие А может наступить при одной из гипотез Hi, то полная вероятность события А равна сумме произве- дений вероятностей гипотез Hi на соответствующие услов- ные вероятности события А, вычисленные при условии, что гипотезы Hi имели место. Пример. Наличие противоклещевой прививки у школьников — членов общества «Юный геолог» рас- сматривается как событие А. Из школ двух районов го- рода изъявили желание работать с геологами во время летних каникул школьники трех классов, один из пер- вого района и два — из второго. Класс первого района содержит 20 членов общества, 18 из которых имеют при- вивки. Классы второго района содержат по 15 членов, из которых по 9 имеют прививки. 22
Определить вероятность того, что юный геолог, вы- бранный случайно из всех присутствующих, имеет при- вивку. Гипотезами является выбор школьника из класса оп- ределенных районов города. Вероятности таких гипотез: Р(Н1) = 1:3; Р(Н2)=2:3. Условные вероятности со- бытия А для школ соответствующих районов: Phi (А) = = 18:20 и Рнг(А)=9:15. Полная вероятность выбора школьника, имеющего прививку: Р(А) = (1:3)Х Х(18:20) + (2:3)Х(9: 15) =0,7. 2.2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ. И ИХ ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ Под случайной величиной понимается случайный (статистиче- ски устойчивый) эксперимент с числовыми исходами, напри- мер: содержание элемента А в пробе; число появлений зе- рен минерала А в шлихе. Характер изменения случайных величин в указанных при- мерах различен. Содержание может принимать любые значе- ния в определенных пределах, число же появления зерен минерала может быть только целым. Величины, которые мо- гут принимать лишь отдельные (не обязательно целые) зна- чения, являются дискретными, а любые значения заданного интервала — непрерывными. Примером дробных дискрет- ных могут служить результаты спектрального анализа: 0,001; 0,002; 0,003; ...; 0,01; 0,02; 0,03; ...; 0,1; 0,2; 0,3; ... %. Дискретная случайная величина может задаваться таб- лично, графически, аналитически. При табличном способе за- даются значения случайной величины и соответствующие им вероятности: ( аь а2, аз, ..., an 1 k I Pi, Р2, Рз,Рп I , 0<р<1, Spi=l. i=i При графическом способе задания на оси абсцисс откла- дывают значения, принимаемые этой величиной, а на оси ор- динат — соответствующие им вероятности (рис. 3). При аналитическом способе соответствие между значения- ми, принимаемыми случайной величиной, и вероятностями этих значений, задаются некоторой функцией p = f(x), назы- ваемой законом распределения случайной величины. Для не- 23
прерывной случайной величины вводится понятие интеграль- ной функции распределения F(x). Функция F(x) определяет для каждого значения х вероятность того, что случайная ве- личина X примет значение меньше х, то есть F(x)=P(X<x). Вероятность того, что случайная величина X примет значе- ние в интервале от а до Ь, равна разности значений интег- ральной функции на концах этого интервала, то есть ь P{a<X<b} = f f(x)dx=F(b)— F(a), (2.6) а где f(x)>0 — плотность распределения вероятностей непре- рывной случайной величины, значение f f(x)dx=l. -—со Рис. 3. Дискретное распреде- Рис. 4. Непрерывное распре- ление деление На рис. 4 показаны непрерывное распределение и пло- щадь, отражающая вероятность принятия случайной вели- чиной X значений от 10 до 12. Во многих случаях закон распределения случайной вели- чины неизвестен и нет необходимости им задараться, доста- точно знать основные параметры случайной величины: мате- матическое ожидание М и дисперсию Д. Математическим ожиданием дискретной случайной вели- чины X называется сумма произведений значений, принимае- мых этой величиной, на соответствующие им вероятности, то есть М(Х) =Xipi + x2p2+...+xp— X XiPi. (2.7) i=i Если X — непрерывная случайная величина, изменяющая- ся в пределах от —<х> до +оо с плотностью вероятности f(x), 24
то ее математическое ожидание определяют из выражения М(Х) — f xf(x)dx. Для краткости математическое ожидание обозначают буквой а. Некоторые свойства этого параметра: 1. М(С)=С, то есть математическое ожидание постоян- ной величины равно самой постоянной величине. 2. М(СХ)=СМ(Х), то есть постоянный множитель мож- но выносить за знак математического ожидания. 3. M(X+Y+...+Z)=M(X)+M(Y) + ...+M(Z), то есть ма- тематическое ожидание суммы нескольких случайных величин равно сумме их математических ожиданий. Дисперсией Д(Х) случайной величины X называется ма- тематическое ожидание квадрата отклонения случайной ве- личины X от ее математического ожидания, то есть Д(Х) = =М(Х—М(Х))2. В развернутом виде дисперсия дискретной случайной ве- п 4 личины определяется выражением D(X)=S(xi—а)2р1; а i=i непрерывной D (X) — J (х—a)2f(x)dx. Дисперсию принято обозначать через о2. Некоторые свойст- ва этого параметра: 1. D(C)=0, то есть дисперсия постоянной величины рав- на нулю. 2. D(CX) =C2D(X), то есть постоянный множитель мож- но выносить за знак дисперсии, возводя его в квадрат. 3. D (X+Y+.„+Z)=D(X)+D (Y)+...+D(Z), то есть дис- персия суммы нескольких взаимно независимых случайных величин равна сумме дисперсий этих величин. 4. D(X)=M(X2) — (М(Х))2, то есть дисперсия случайной величины X равна разности математического ожидания квад- рата этой величины и квадрата ее математического ожи- дания. Наряду с основными параметрами случайной величины (математическим ожиданием и дисперсией), при решении во- проса о выборе типа распределения используют показатели асимметрии си и эксцесса аг распределения: М(Х—М(Х))3 М(Х—М(Х))4 «1— -------г-----; «г—1 ------—-------3 о3 о4 25
Для симметричных кривых распределения ои и а% равны ну- лю, правоасимметричных ои>0, левоасимметричных а><0. Для распределений с резко выраженным пиком (островер- шинных) — а2>0, а для плосковершинных—«2<0 (рис. 5,6). Рис. 5. Право- (а) и левоасим- метричное (б) распределения Рис. 6. Остро- (а) и плосковер- шинное (б) распределения 2.3. ФУНКЦИИ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ СЛУЧАЙНЫХ ВЕЛИЧИН Рассмотрим лишь некоторые наиболее часто встречающиеся в практике обработки геологической информации функции распределения. Биномиальное распределение. Вероятность появления со- бытия A m раз при п независимых испытаниях определяют формулой (2.8) где р — вероятность появления события А при отдельном ис- пытании, q — вероятность непоявления Этого события, равная 1—р; символ п! (и — факториал) есть произведение всех на- туральных чисел от 1 до п включительно, причем 0! = 1. Чи- сло появлений события будет случайной величиной, принима- ющей значения гл—0, 1, 2, ..., п с соответствующими вероят- ностями Рт.л- Пример. Вероятность появления элемента А в изуча- емых породах 0,4. Отобрано пять образцов. Определить вероятность появления средн них одного, двух и т. д. об- разцов с содержанием интересующего нас элемента. 26
Имеем р=0,4, q=l—р = 1—0,4=0,6; п=5. Вероят- ность того, что средн отобранных пяти образцов ни один не содержит элемента А, равна: Р^ = -ОЦ5^)Т-0’40 °’65”° ’ °'°78 • Для других сочетаний получим: Pi 5=0,2592, Р25= = 0,3456, Р3,5=0,2304, Р4>5=0,0768, Р5,5==0,0102. Наибо- лее вероятно, что два из пяти отобранных образцов бу- дут содержать элемент А. Некоторые свойства биномиального распределения: 1. М(ш)=а=пр, то есть математическое ожидание числа появлений события в независимых испытаниях равно произ- ведению числа испытаний на вероятность появления события в отдельном испытании. 2. D(m)=o2=npq, то есть дисперсия числа появлений'со- бытия m в и независимых испытаниях равна произведению числа испытаний на вероятности появления и непоявления со- бытия в отдельном испытании. График биномиального распределения симметричен толь- ко при p = q=0,5 (рис. 7). 0 1 2 5 Рис. 7. Биномиальное распределение (a) p=q; (б) p<q Наиболее вероятное число появления испытаний ш0 опре- деляется из следующих соотношений: m0>np—q; ш0<пр + р. Вероятность появления события хотя бы один раз при п ис- пытаниях определяется формулой Ri.n— 1—qn. Количество опытов, которые нужно осуществить для того, чтобы с веро- ятностью не меньше Р можно было утверждать, что данное событие произойдет хотя бы один раз, определяется форму- лой п>1п(1—Р):1п(1—р), где р — вероятность появления этого события в каждом опыте. Пример. Вероятность обнаружения минерала А в шлихе при изучении пегматитов конкретной территории равна 0,2. Сколько нужно изготовить шлихов, чтобы быть уверенным (с вероятностью 0,9), что хотя бы в одном из них искомый минерал будет обнаружен? 27
Рщ. n Необходимое количество шлифов: п>—2,3026: (—0,2232) «10. При больших пит пользоваться формулой (2,8) не- удобно, применяется приближенная формула 1 __ (т —пр)2 —....е 2пРЧ У 2^npq Обозначив ]/npq=o и (ш—пр) : Vnpq=t, полу- 1 -Л- 1 -А чим Рщ.п= /==е 2 ’ Значения <p(t) — ./г^е. 2 а У 2т ж у 2т 1 табулированы (прил. 2, табл. 1). Пользуясь таблицей, можно быстро определять значения Pm.n. Пример. Определить вероятность того, что в 10 из 26 образцов гранита будет обнаружен интересующий нас минерал, если вероятность появления этого минера- ла при одном испытании равна 0,4. Имеем n=26, т=10, р=0,4, q=0,6. Находим о и t; О=уо,4X0,6X26=2,5; t= (10—26x0,4) : 2,5=—0,16. По прил. 2, табл. 1 t=0,16 соответствует <p(t) =0,394; Р1о.2в=О,394 : 2,5=0,158. Распределение Пуассона является предельным случаем биномиального, когда вероятности появления событий р и q очень малы, а число п испытаний достаточно большое. Ма- лость р или q определяется тем, что произведение пр при из- менении п практически остается неизменным. Функция распределения вероятностей Пуассона имеет вид km.e-x m “ ml (2-9) где m — число появлений события, принимающее значения 0, 1, 2, ..., п раз; Z — параметр распределения, равный произве- дению числа испытаний на вероятность появления события при отдельном испытании; то есть пр; Рт — вероятность то- го, что событие появится m раз. Для практического пользо- вания имеются таблицы значений Рт при различных значе- ниях к (прил. 2, табл. 2). Некоторые свойства распределения Пуассона: 1. М(ш)=‘Л, то есть математическое ожидание случайной величины, распределенной по закону Пуассона, равно пара- метру распределения к. 28
2. П(т)=Л, то есть дисперсия числа появлений события равна параметру распределения X. Чем больше Л, тем боль- ше рассеяние случайной величины. Равенство D(m)=M(m) может служить критерием опознания такого распределения. График распределения Пуассона всегда асимметричен с «1>0 (рис. 8). При Л>9 он приближается к симметричному, а распределение Пуассона может быть заменено нормаль- ным. Рис. 8. Кривые распределения Пуассона для различных зна- чений Z Нормальное распределение является другим предельным случаем биномиального (при неограниченном возрастании чи- сла испытаний). Плотность вероятности его имеет вид 1 (х'а)2 f(x) = -l=e . (2.Ю) а у 2т: Нормальное распределение играет наиболее важную роль в теории вероятностей и математической статистике. Возни- кает оно, когда на изменение случайной величины влияет множество различных независимых факторов, каждый из ко- торых в отдельности не имеет преобладающего значения. Нормальное распределение часто встречается в окружающей нас действительности (нормально распределены ошибки из- мерений, содержания основных окислов в интрузивных поро- дах, значения плотности пород и т. п.). Некоторые свойства нормального распределения: 1. Параметр а характеризует математическое ожидание случайной величины, являясь центром распределения. Изме- нение параметра не влияет на форму кривой, а только вызы- вает смещение ее вдоль оси Ох. 2. Параметр характеризует изменчивость случайной ве- личины (меру растянутости кривой вдоль оси Ох): чем боль- ше о, тем кривая более растянута.
3. График нормальной кривой симметричен относительно прямой Х=а (одинаковые по абсолютной величине отрица- тельные и положительные отклонения случайной величины от центра равновероятны). 4. По мере увеличения разности (х—а) значение f(x) убы- вает. Это значит, что большие отклонения менее вероятны, чем малые. При (х—а)->оо значение f(x) стремится к нулю, но никогда его не достигает (теоретически возможны как угодно большие отклонения случайной величины от ее мате- матического ожидания, однако появление их маловероятно). Вероятность отклонения случайной величины от ее матема- тического ожидания на величину более Зет составляет всего 0,0027 («правило трех сигм»). График функции нормального распределения представляет собой колоколообразную кри- вую (рис. 9). Рис. 9. Кривая нормального распре- деления Если ввести безразмерную переменную t= (х—а) : о, то функция f(x) приводится к видуГ(х)=—р=-е 2 = — <p(t). а]/2тс а Значение функций приведены в приложении: $(t) —табл. 1, Ф (х) — табл. 3. Какое из возможных значений примет случайная величи- на в результате отдельного испытания, точно предсказать нельзя. Если же число испытаний достаточно велико, то при некоторых условиях в появлении значений этой величины ус- танавливается определенная закономерность, и можно с оп- ределенной вероятностью говорить об ожидаемом. Вступает в силу закон больших чисел, под которым обычно понимают совокупность теорем, устанавливающих условия, при которых совокупное действие многих случайных причин приводит к результату, почти не зависящему от случая. Приведем две из них. 30
Теорема Бернулли. Если неограниченно увеличивать чис- ло независимых испытаний, в каждом из которых вероят- ность наступления события А равна р, то с вероятностью, как угодно близкой к единице, можно ожидать, что частость появ- ления события будет как угодно мало отличаться от его веро- ятности при отдельном испытании, то есть lim| (tn: n)—р|->0, n->OO где (m : п) — частость, ар — вероятность появления события при единичном испытании. Теорема Чебышева. Если Хь Х2, ..., Хп — попарно неза- висимые случайные величины, дисперсии которых ограниче- ны одним и тем же числом, то при достаточно большом чис- ле испытаний можно утверждать с вероятностью, сколь угод- но близкой к единице, что разность между средней и матема- тическим ожиданием этой средней по абсолютной величине окажется меньше сколь угодно малого числа, то есть lim|a—х|->0. П—>оо Таким образом, большое число наблюдений является не- обходимым и достаточным условием для того, чтобы свойст- ва закономерности, присущие явлению, но не обнаруживаю- щиеся из-за случайных причин в единичных наблюдениях, нашли свое количественное выражение в среднем значении. Закон больших чисел позволяет с вероятностью, близкой к единице, утверждать, что частость, среднее, эмпирическая кривая распределения и т. и. достаточно близки, соответст- венно, к вероятности, математическому ожиданию, теорети- ческой кривой распределения и т. п., которые неизвестны. 2.4. МАТЕРИАЛ ДЛЯ ПРАКТИЧЕСКИХ ЗАНЯТИЙ Решение типовых задач Задача 1. Обозначим через А событие, состоящее в том, что на площади поисков обнаружены осадочные, через В — изверженные, через С — ме- таморфические породы. В процессе изучения четырех участков произош- ли события: а) АхВхС; б) АхВхС; в) АхВхС; г) АХВХС. Дать геологическую интерпретацию этим событиям. Решение. Событие АхВхС (состоялось событие А при одновременно не- состоявшихся событиях В и С) означает^ что в пределах участка встре- чены только осадочные породы; АхВхС — осадочные и изверженные; АхВхС — все разновидности названных пород. Событие АхВхС оз- начает, что в пределах участка не встречено ни осадочных, ни извержен- ных, ни метаморфических пород (изучаемый участок земной поверхности, допустим, покрыт льдом, и породы, его слагающие, наблюдать не уда- лось), то есть события А, В, С не представляют полной совокупности воз- можных. 31
Задача 2. Одним из методов поиска полезных ископаемых является шли- ховая съемка (из отложений рек, ручьев, логов и т. п. отбирают рыхлый материал с последующей промывкой его и изучением оставшихся Мине- ралов). Обозначим через А событие, состоящее в том, что хотя бы один нз трех отмытых шлихов содержит зерно (знак) золота, а через В — все три шлиха пустые (не содержат золота). Что означают события А+В; АВ? Решение. Событие А+В означает, что хотя бы одно из интересующих нас событий произойдет. При изучении трех шлихов возможны следующие случаи: все шлихи не содержат золота, но это н есть событие В; одни шлнх, нли два, или три содержат золото, но уго и есть событие А. Дру- гих событий для заданных условий рассматриваемой задачи быть не мо- жет. Знак «плюс» можно заменить в рассуждениях союзом «или». Собы- тие А или В — достоверное, так как или А, или В произойдет, а собы- тие А и событие В представляют собой все возможные случаи. Сочета- ние АВ предполагает совместное наступление событий А и В, произойти не может, ибо знак «умножить» следует интерпретировать как союз «и», но и наличие, и отсутствие золота одновременно в одном и том же ма- териале невозможно. Задача 3. При геолого-съемочных работах осуществляют замер физиче- ского поля (магнитности, плотности, электропроводности и т. и.) Допу- стим, что замер осуществляется прибором, электрическая цепь которого приведена на рис. 10. , Рис. 10. Схема электрической цепи оцениваемого прибора. Решение. Разрыв в цепи произойдет в том случае, если выйдут из строя элемент А нли В, и В2 и В3. Событие разрыва цепи прибора, следователь- но, можно записать в виде выражения С=А+В!В2В3 (читается: хотя_бы одно из событий А нли В(В2В3 обязательно произойдет). Выражение С= =А+В| и В2 в В3 допускает также, что могут произойти н оба указан- ных события одновременно, но в этом случае прибор тем более не бу- дет работать. Разрыва в цепи не будет, если элемент а будет исправен и хотя бы одни нз элементов ,ЬК будет оставаться в исправном состоянии. Следова- тельно, событие С, состоящее в отсутствии разрыва в цепи прибора, вы- ражается: С=АХ (В1 + В2+В3).. Задача 4. Допустим, что заводская вероятность невыхода из строя эле- мента а (задача 3) в течение полевого сезона составляет 0,95, а Ьк 0,9. Определить, обеспечивает ли конструкция прибора (см. рис. 10) выполне- ние полевых работ с вероятностью 0,97? Как необходимо усложнить схе- му, если желаемое не обеспечено? Решение. Вероятность события С при заданных условиях равна 0,95х X (0,9+0,9+0,9—0,81—-0,89—0,81+0,729) =0,949 (меньше необходимой и наиболее слабое звено — элемент а). Поставив параллельно два таких элемента, будем иметь С= (a( + a2)X(b+b2+b3) = (0,975) х (0,999) =0,973. 32
Усложнив схему, достигли требуемую вероятность безаварийной (в течение полевого сезона) работы каждого узла и прибора в целом. Задача 5. Кристалл пирита, имеющий форму куба со штриховкой на гра- нях, распилен на 110’00 кубиков одинакового размера. Полученные кубики тщательно перемешаны. Определить вероятность того, что кубик, извле- ченный наудачу, будет иметь: а) четыре грани со штриховкой, б) три гра- ни со штриховкой; в) две грани со штриховкой; г) одну грань со штри- ховкой; д) ни одной грани со штриховкой. Решение. Число всех возможных случаев извлечения кубика равно 1060. Первоначальный куб имеет штриховку на всех шести гранях. Число слу- чаев, благоприятствующих появлению кубика с четырьмя гранями, сохра- нившими штриховку, равно нулю, так как только кубики, полученные из угловых частей первоначального куба, имеют максимальное число граней со штриховкой, но число нх равно трем. Число благоприятных случаев по- явления кубнка с тремя гранями, имеющими штриховку, равно восьми — угловые (рис. 11, а). различное число граней со Рнс. 11. Расположение кубиков, имеющих штриховкой Две грани со штриховкой сохраняются у кубиков, приходящихся на ребра первоначального куба, причем количество их на ребре равно вось- ми (угловые имеют по 3 грани со штриховкой). Общее число кубиков со штриховкой на двух гранях равно 9& (двенадцать ребер по восемь на каждом, рис. 11, б). Одну грань со штриховкой могут сохранить 64 ку- бика, выходящие одной стороной на одну нз граней первоначального куба, (рис. 11, в). Общее количество таких кубиков равно 64x6= 324. Ни одной грани со штриховкой не имеют кубнкн, полученные после распиливания остальной части первоначального куба. Число их составит 512 (рис. 11, г). В итоге имеем: вероятность появления кубика, имеющего штриховку на четырех гранях, 0:1000=0; на трех гранях 8:1000=0,008; на двух 96: 1000 = 0,96; на одной 324: 1000=0,324; без штриховки 512 : 1000=0,512. Учитывая, что никаких других кубиков при указанном распиливании не может появиться, рассматриваемое явление можно считать полным со- бытием, вероятность его должна быть равна единице. Действительно- 0,0'08+0,096+0,324+0,512= 1,000. Задача 6. Студент с практики отправил на кафедру 4 образца: свежие вмещающие породы; породы околорудно измененные; оруденелые поро- ды; руду. В отсутствие руководителя практики уборщица поместила об- разцы на полку случайным образом. Найти вероятность того, что образ- цы оказались упорядоченными от свежих вмещающих пород до руды. 2—418 33
Решение. Вероятность того, что первым на полку помещен образец све- жих вмещающих пород, равна 1/4 (один из четырех возможных). Веро- ятность того, что из трех оставшихся будет взят для помещения на пол- ку вторым образец околорудно измененных пород, равна 1/3, но при этом на полке должен уже быть образец свежих вмещающих пород, то есть Р= 1/4Х1./3. Рассуждая аналогичным образом, получаем вероятность упо- рядочения всех образцов на полке от свежнх вмещающих пород до руды случайным человеком: Р= 1/4Х1/ЗХ1/2Х1/1 = 1/24=0,04 (пример в че- тырех случаях нз ста четыре образца, помещаемые на полку случайным образом, окажутся упорядоченными от свежнх вмещающих пород до руды). Задача 7. Вероятность обнаружения знака золота в шлихе для данной территории равна 0,2. Шлихи отмывают до обнаружения хотя бы одного знака. Какое количество шлихов следует отмыть в пределах оцениваемого участка этой территории, чтобы с вероятностью 0,85 можно было утверж- дать об отсутствии золота? Решение. Необходимое количество шлихов: п^1,8961 : 0,1615=12 (1,8961 и 0,1615 — значения натуральных логарифмов чисел 0,15 н 0,8, полученных как разности 1—0,85 и 1—0,2). Только при отмывке такого количества шлихов и при отсутствии в них золота можно с вероятностью 0,85 для заданных условий утверждать о бесперспективности участка. Задача 8. Разведка месторождения должна осуществляться шестью бу- ровыми станками, снабжение электроэнергией — от передвижной подстан- ции. Доставка громоздкой подстанции на участок работ затруднительна. Известно, что часть времени (передислокация буровой вышки, ликвида- ция аварий, наращивание бурильных труб) буровой станок не потребляет энергию, то есть необходимая мощность подстанции не равна мощности, одновременно потребляемой всеми станками. Допустим, что вероятность события А (станок не потребляет энергию) равна 0,4. Определить наиболее вероятное число станков, одновременно не потребляющих энергию, и вероятность одновременного -отключения 0, 1, 2, ..., 6 станков. Указание: при расчетах иметь в виду, что отключение станка от под- станции является случайным событием и не влияет на работу остальных. Решение. Принимая во внимание то, что вероятности отключения и неот- ключения станка от подстанции примерно равны 0,4 и 0,6. Для решения задачи воспользуемся формулой биномиального распределения. Наиболее вероятное число станков, одновременно не потребляющих энергию, будет больше — равно 6x0,4—0,6, но меньше—равно 6X0,4+0,4, то есть лежит в интервале значений 1,8—2,8. Так как число станков может быть только целым, то в полученном интервале находим наиболее вероятное число одновременно не потребляющих энергию станков, равное 2. Вероятности отключения различного числа станков (0, 1, 2, 3, 4, 5, 6) из шести име- ющихся составят: = 0. (б^Г0’40-0'6'’- °'М7 Pi.. = 1!(661 п, -0,4’-0,6» - 0,19 ; 34
P^°2l(66- 2)-0-48 0'6‘ " °’31 Далее получим: Р3-.б-=0,28; Р4;6«0,14; Р6:6=0,04; Р6:б~0,004, то есть наиболее вероятно одновременное неполучение электроэнергии двумя станками. При заданных условиях необходимую мощность подстанции сле- дует определять из числа одновременно работающих четырех станков при учете допустимой перегрузки. Задачи для самостоятельного решения 1. Для изучения породы изготавливают тонкий срез (шлиф), который поосматривают под микроскопом в проходящем свете. Обозначим через А событие, состоящее в том, что хотя бы 1 из четырех изготовленных шли- фов содержит интересующий нас минерал, а через В — количество шли- фов с интересующим нас минералом не менее двух. Что означают проти- воположные события А и В? 2. Для подсечения предполагаемого рудного тела забуривают скважину. Обозначим через А событие, состоящее в том, что скважина подсечет (встретит) рудное тело, а через В — не подсечет (рудного тела вообще нет). Какое событие следует добавить к названным А и В, чтобы полу- чилась полная группа событий? 3. Геофизический прибор состоит из двух блоков первого типа и трех второго. Событие Ai(i=l,2) — исправен i-ый блок первого типа, Bj(j=l, 2, 3) — j-ый блок второго типа. Прибор может работать, если исправен хотя бы один блок первого типа и не менее двух второго. Выразить со- бытие С, означающее исправность прибора через события Ai и Bj. 4. Обозначим через А событие, состоящее в обнаружении пирита в изу- чаемом образце, В — халькопирита, С — пирротина. Найти выражения для событий, состоящих в том, что при изучении рудного образца прои- зошли: а) только событие А; б) только А и В; в) все три события; г) по крайней мере, одно из названных; д) по крайней мере, два любых; е) ни одного события не произошло. 5. Вероятности обнаружения различных содержаний элемента А в изу- чаемых породах: до 1%—0,08; от 1 до 2% — 0,М; от 2' до 3% — 0,16; от 3 до 4% — 0,30 и от 4 до 5% — 0,35. Определить вероятность того, что при анализе образца таких пород со- держание элемента А: а) не будет выше 3%; б) не окажется ниже 3%. I&. Вероятность встречи минерала в шлифе изучаемой породы равна 0,4. Изготовление 8 шлифов. Найти наивероятнейшее число шлифов, в ко- торых минерал будет встречей, и соответствующую вероятность появления этого числа (распределение принять биномиальным). 7. Допустив, что вероятность принадлежности изучаемой структуры к нефтяной или водяной равновероятны, определить, что вероятнее: а) три из четырех изучаемых могут оказаться нефтяными или пять из восьми? б) не менее трех из четырех или пяти из восьми? 8. Рассчитать зависимость вероятности появления хотя бы одного со- бытия А прн 10 независимых опытах от вероятности его появления в каждом опыте для следующих вероятностей: 0,01; 0,05; 0,1; 0,2; 0,3; 0,4; 0,5. 9. Сокращение пробы производят в несколько последовательных эта- пов дробления до определенной крупности кусков, перемешивания, сокра- щения. После каждого сокращения для дальнейшего дробления остается 2* 35
часть исследуемого материала. Событие Ai(i=l,2 к) заключается в том, что в отобранной части материала содержание элемента больше, чем в исходном. Вероятность этого события равна 0,5. Определить вероятность того, что при всех сокращениях в отбираемом для дальнейшего сокраще- ния материале будет происходить завышение содержаний (при решении задачи иметь в виду, что завышение—занижение содержаний на каждом этапе сокращения представляет собой случайное независимое событие). Контроль знаний по главе 2 По какой из формул определяются: вероятность (частость) события; вероятность совместного наступления независимых событий; вероятность суммы совместных событий; вероятность совместного наступления зависи- мых событий; необходимое число наблюдений (опытов), при которых со- бытие обязательно произойдет хотя бы одни раз; вероятность случайной величины, распределение которой не противоречит закону Пуассона; ве- роятность случайной величины, распределение которой не противоречит биномиальному закону; плотность вероятности случайной величины, рас- пределение которой не противоречит нормальному закону? В каком интервале (13—15) изменяются значения вероятностей (ча- стостей)? В каком случае (17—18) имеем ряд непрерывных значений со- держания элемента? На плакате или листах, выдаваемых студентам вместе с вопросами (порядок которых меняется), должны быть правые части формул (2.1)—• (2.1'09, а также выражения: 11. np+p>m0>np--q; 12. >1п(1—Р) : 1п(1—р); 13. от —1 до 0; 14. от —1 до 1; 15. от 0 до 1; 16. = (Р(А) ХР(В); 17. 0,1, 0,2, 0,3, 0,6, 1; 18, 0,11, 0,19, 0,28, 0,58, 1,03 (пример, прнл. 3). Глава 3 ОСНОВЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ВЫБОРОЧНЫХ ДАННЫХ Задачи математической статистики состоят в том, чтобы по результатам случайных экспериментов (выборкам) сделать содержательные выводы о вероятностных моделях, адекват- но отражающих закономерности изменения замеряемых при- знаков в изучаемых процессах, явлениях. В большинстве руководств по математической статистике указывается, что объектом ее изучения является совокупность наблюдаемых значений случайной величины. По нашему мне- нию, следовало бы указывать — «совокупность случайных значений изучаемой величины», что существенно уменьшило бы число .противников широкого использования статистиче- ских методов изучения‘Явлений, подчиняющихся определен- 36
s* ним геологическим закономерностям. Случайно не содержа- ние элемента в конкретной пробе руды, а материал, попавший в нее, местоположение его отбора в рудном теле. При полу- чении результата анализа, к тому же, имеем лишь оценку истинного содержания, то есть опять случайность, но уже обусловленную ошибками определения. 3.1. ВЫБОРКА, ТРЕБОВАНИЯ К НЕЙ Результаты химического анализа пород по профилю, замеры физических свойств образцов керна, характеристики пара- метров раковин и т. п. данные представляют собой выборки из генеральных совокупностей, характеризующих явление в целом (химический состав отложений, физические свойства руд и пород, условия обитания былых организмов). В общем случае имеем: Xi, Ха, ..., хп — независимые наблюдения (слу- чайные величины), одинаково распределенные по закону F(t)=P{xi< t}, при i=l, 2, .... п. Задача геолога, использу- ющего статистические методы обработки информации, заклю- чается в том, чтобы по свойствам исследуемого признака в выборке сделать (с определенной вероятностью) заключение о его свойствах в генеральной совокупности. Чтобы выбороч- ная совокупность (выборка) могла служить решению ука- занной задачи, она должна удовлетворять определенным тре- бованиям. 1. Выборка должна быть представительной, то есть необ- ходимо, чтобы объекты выборки правильно представляли изу- чаемую совокупность. Представительство выборки обеспечи- вается случайным отбором объектов генеральной совокупно- сти, то есть таким отбором, при котором каждый объект име- ет равные шансы попасть в выборку. 2. Выборка должна быть достаточной по объему. Опреде- ление числа наблюдений, необходимого для получения обос- нованных выводов, — одна из главных задач, с которыми приходится иметь дело геологу при использовании математи- ческих методов. Если оно будет недостаточным, результаты могут оказаться неопределенными, избыточным — потребу- ются лишние расходы (отбор материала, анализ, обработ- ка) . Численное решение задачи будет дано в разделе 3.3, по- сле рассмотрения выборочных статистических параметров. Объективность интерпретации статистических данных во многом зависит от организации их получения. Направлен- 37
ность отбора может обусловить появление систематических ошибок. Непонимание этого часто порождает сомнения в эф- фективности статистических методов. Важность первого тре- бования к организации выборки покажем на одном из при- меров. В пределах оцениваемой территории развиты масси- вы интрузивных пород, частично метасоматически изме- ненных. Свежие, измененные интрузивные и вмещающие их породы одинаковы для всех массивов, а промышлен- ные скопления рудного элемента наблюдаются с единич- ными. Долгое время, увеличивая число проб, искали раз- личие «перспективных» (сопровождающихся оруденени- ем) и «неперспективных» массивов. Получалось, что све- жие разности не различаются, содержание рудного при- мерно 0,002 % > измененные не различаются, содержание рудного в них в два раза меньше. Наконец, и те и дру- гие массивы опробовали случайным образом. Оказалось, что содержание в «перспективных» в полтора раза ни- же, чем в «нецерспективных». В чем дело? Содержание ниже, а именно с ними связаны промышленные скопле- ния рудного элемента. Случайный отбор проб отразил различие площадей (объемов) измененных пород. Боль- ше переработано — больше вынесено, а каждый куби- ческий километр пород при переработке (для выявлен- ных условий) может дать: P=VxdXc:100, где: V — объем; d — удельный вес; с — содержание элемента, % (1000000000 м3ХЗ т/м3X0,0005== 15000 т металла). Второе требование менее жесткое, чем первое. Статисти- ческие методы дают возможность выяснить: противоречит ли проверяемая гипотеза имеющимся наблюдениям, причем статистические критерии указывают риск, связанный с при- нятием ошибочных решений, что позволяет даже при малом числе данных делать обоснованные выводы. 3.2. СПОСОБЫ ОТБОРА ДАННЫХ Различают случайный, типический, серийный и механический отборы объектов из изучаемых совокупностей в выборку. При случайном отборе объекты извлекают по одному с помощью карточек, на которых поставлены номера проб, или с помощью таблиц случайных чисел. В первом случае после 3®
тщательного перемешивания извлекают нужное количество карточек и обработку информации осуществляют по данным тех проб, номера которых извлечены в выборку. Во втором случае в таблице случайных чисел выбирают произвольно количество колонок, соответствующее порядку числа объектов в исходной совокупности, и выписывают не- обходимое количество строк. Например, необходимо выбрать 30 проб из совокупности в 300 данных. Так как объем всей совокупности характеризуется трехзначным числом, то возь- мем три колонки цифр, например, 6, 7, 8 (прил. 2, табл. 4), и выпишем значения 106, 993, 566, 201, передвинемся на од- ну—две колонки вправо (влево), вновь выпишем значения и т. д. Значения 993, 566 превышают выборочную совокуп- ность и могут быть пропущены или уменьшены на число nk, где п — имеющийся объем данных, к=1, 2 и т. д. (вместо 993 получим 993—300X3=93, вместо 566—300=266). При типическом отборе объекты извлекают не из всей совокупности в целом, а из каждой ее типической части. На- пример, при оценке содержаний элемента в интрузивном мас- сиве, состоящем из гранитов и гранодиоритов, в выборку дол- жны быть включены представители каждой из пород (допу- стим, пропорционально площадям развития). При серийном отборе изучаемую совокупность разбивают на группы и в выборку включают отдельные группы целиком. Например, контрольный отбор проб при литохимпческой съем- ке осуществляют повторным отбором проб по профилям или их частям. При механическом отборе в выборку отбирают объекты через определенный шаг (количество номеров). Например, при необходимости отбора 30 проб из совокупности, насчи- тывающей 300 номеров, в выборку следует включить каждую десятую пробу. Выбор начального номера носит случайный характер. Более сложны вопросы организации отбора проб (заме- ров) в планируемых работах. При решении их должно учиты- ваться существо стоящих перед геологом задач. Поясним по- следнее на примере оценки фонового содержания элемента (среднего значения) в породах при ведении литохимической съемки. Пробы отбираются по определенной сети; казалось бы, что статистическая модель должна иметь вид С1=М+еь где Ci — содержание в i-ой пробе, М. — среднее содержание в опробуемых породах, ei — случайная компонента, отража- ющая природную неоднородность содержаний на площади. 39
Такая модель учитывает один источник изменчивости и была бы приемлемой, если бы определения содержаний спектраль- ным анализом были безошибочны. Фактически это не так, и случайная компонента где си — составляющая при- родной неоднородности, a 6t — ошибка определения содержа- ния в Рой точке. Модель должна иметь вид Ci=M+ai-|-6i. Имеем две случайные компоненты. Для их оценки необходим отбор в каждой точке не менее двух проб с последующей раздельной обработкой и анализом, что и предусмотрено ин- струкцией по геохимическим методам поисков. С алгоритмом вычисления систематической и случайной ошибок анализа, технической и природной составляющих изменчивости содер- жания элементов можно познакомиться по работе Р. И. Ду- бова *. Как указывают У. Крамбейн и Ф. Грейбилл [15], при вы- боре плана отбора материала необходимо: построить поня- тийную геологическую модель, определить изучаемую сово- купность, измеряемые характеристики и источники изменчи- вости, влияние которых следует установить; построить такой статистический аналог модели, в котором математическая структура наблюдений учитывала бы изучаемый источник из- менчивости; выбрать план опробования, соответствующий данной статистической модели. 3.3. ВЫБОРОЧНОЕ РАСПРЕДЕЛЕНИЕ И ЕГО ОСНОВНЫЕ ХАРАКТЕРИСТИКИ В результате отбора данных получают п значений признака. Основой для изучения выборочной совокупности является ряд распределения — упорядоченная совокупность значений при- знака и соответствующие им частоты X], х2, ..., хк пь п2, ..., пк, где П1+П2+ — +пк=п — объем выборки. Ряд распределения составляют следующим образом. 1. Из имеющихся значений признака X выбирают наи- меньшее, наибольшее, размах распределения, W. 1 К вопросу об основных характеристиках точности спектрального ана- лиза геохимических проб//Спектральный анализ в геологии и геохимии. М., 19167; С. 124—128. 40
2. Определяют число классов группировки к. Опыт пока- зывает, что наиболее целесообразно его принимать в преде- лах от 8 до 15 (меньшее для небольшого объема данных). Для определения к может быть использована эмпирическая формула к= 1+4 'Ign. При n = 50, ign=l,7 и к—8; при п= = 100, lgn=2,0 и к=9; при n=1000, Ign.= 3,0- и к=13. 3. Определяют интервалы группировки (величину класса): C=W:k. 4. Выбирают границы классов. Границы первого класса следует выбрать так, чтобы он содержал наименьшее значе- ние изучаемой величины. Последующие классы образуются добавлением величины С к большему значению предшеству- ющего интервала (важно, чтобы первый и последний классы образуемого ряда были одинаковы по вероятности попадания в них крайних значений признака). 5. Данные «разносят» по классам и подсчитывают числа их в каждом классе (частоту). За оценку класса принима- ется среднее арифметическое значение его границ. При груп- пировке большого числа данных удобно пользоваться «пра- вилом конверта» (четыре точки, четыре соединяющих их сто- роны, две диагонали). Каждый «конверт» равен 10. Составление ряда распределения рассмотрим на примере следующих данных (результаты анализа 100 проб гранитов на один из элементов): 0,60 3,91 5,83 3,86 3,39 6,83 2,62! 3,20 4,82 6,61 6,31 6,17 4,89 4,98 2,27 5,37 4,67 5,64 4,88 2,59 3,18 3,12 4,11 5,64 4,21 3,00 Э,2® 4,38 6,42 5,40 5,00 6,00 8,401 2,11 4,74 4,51 1,61 5,78 2,91 7,27 5,86 2,48 2,50: 4,32 3,71 5,24 5,43 2,81 5,67 3,93 3,31 5,95 4,54 6,00 3,58 4,27 4,41 4,40i 5,55 3,71 5,50 4,516 5,91 б'б1 4,59 4,33 1,91 6,00 3,99 4,44 4,69 3,73 3,73 4,13 4,66 ' ' 4,76 61,42 5,00 4,36 4,00 4,14 5,89 2,72 7,91 3,41 3,65 4,47 3,34 5,14 4,00 7,00 4,34 5,91 3,44 4,34 5,24 1,11 4,85 5,32 2,41 Минимальное содержание изучаемого элемента равно 0,60, максимальное — 8,40%. Размах 8,40—0,60=7,80%. Количе- ство классов к= 1+4 lg!00=9. Длина интервала группиров- ки равна 7,80 : 9« 1,00%. Границы интервалов группировки равны 0,0—1,00; 1,00—2,00; 2,00—3,00 и т. д. 41
Результаты разнесения исходных данных по классам бу- дут выглядеть слёдующим образом (содержания 1,00; 2,00 и т. д., совпадающие с граничными классов, относят в класс меньших значений): Гоанипы классов При статистической обработ- ке наряду с основным рядом распределения используют пре- 0,00—1,0*01 1,00—'2!,001 0,50 1,50 1 3 образованные ряды. Среди них 2;00—3,00 2,50 И можно указать следующие: 3,00—4,00 3,50 21 1. Ряд, в котором вместо ча- 4,00—5,00 4,50 31 стот Hi используют частости 5,00—6,00 6,00—7,00 5,50* 6,50 23 7 ((01=щ:п). Для рассматрива- 7,00—8,00 7,50 2 емых данных ряд частостей 8,00—9,00 8,50 1 имеет вид (х, 0,5, 1,5, 2,5, 3,5, 4,5, 5,5; 6,5, 7,5, 8,5 [со, 0,01', 0,03, 0,11, 0,21 , 0,31, 0,23, 0,07, 0,02 0,01. 2. Ряд с накопленными частотами Nj, где Ni=ru + n2+... 4-П1 — сумма частот от первой до i — включительно. Для наше- го примера ряд накопленных частот имеет вид Гх, 0,5, Ь,5, 2,5, 3,5, 4,5, 5,5, 6,5, 7,5, 8,5 iNi 1, 4, 15, 36, 67, 90, 97, 99, 100 Иногда составляют ряды накопленных частостей: ряды, в которых вместо значений признака берут отклонения этих значений от среднего и т. п. х Для изучения рядов используют также их графическое изображение. Если по оси абсцисс откладывать значения х, а Рис. 12. Полигон распределения Рис. 13. Гистограмма распре- деления 42
по оси ординат — частоты щ, то каждой паре Xi, щ на плос- кости будет соответствовать одна точка. Соединив такие точ- ки, получим график ряда распределения — полигон (рис. 12). Иногда строят график другого вида — гистограмму (рис. 13— по оси ординат отлагается величина Hi, деленная на цену класса группировки). Вместо значений щ могут фигуриро- вать Ni и т. п. Графическое изображение ряда накоплен- ных частот для рассматриваемых данных показано на рис. 14. Рис. 14. Кривая накопленных частот Графическое изображение ряда удобно наглядностью, но не дает возможности исследовать распределение изучаемого признака полностью, решать вопросы сходства — различия сравниваемых данных. Наиболее удобным и полным являет- ся аналитический способ исследования ряда, состоящий в том, что устанавливают числовые показатели (статистики): среднее значение, дисперсию, среднее квадратическое откло- нение, показатели асимметрии, эксцесса и др., изучают функ- цию накопленных частот . ... ЧИСЛО X! < t п (t) = •---~J----, со t < оо . Среднее арифметическое значение вычисляется по форму- 1 п лам х—— у Xi для группированных данных П ". 1=1 к 2 XjHj (3.1) и характеризует собой центр распределения, вокруг которо- го группируется основная масса данных. Одно среднее не мо- 43
жет полностью характеризовать ряд. Сравним, например, два распределения: Xi 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 Пн 1, Й, 8, 12, 17, 20, 17, 12, 8, 2, 1 П12 — — — 6, 12, 64, 12, 6, — — —. Средние значения деления различаются этих выработок равны, однако распре- (рис. 15). Одна из кривых растянута О 2 4. 6 8 10 Рис. 15. Ряды с одинаковыми сред- ними и различными дисперсиями: s2(a) <s2(6) вдоль оси — характеризует большую изменчивость, вторая компактная, с малым разбросом значений признака. Мерой рассеяния изменчивости ряда служит выборочная дисперсия, 1 п определяемая по формулам s2=---------i 2 (Xi—х)2, для труп- - п 1 i=i пированного ряда К 2 (xi - х )2 ni s2 = --------------- (3.2) Выборочная дисперсия обладает теми же свойствами, что и дисперсия случайной величины о2. Корень квадратный из выборочной дисперсии есть среднее квадратическое отклоне- ние (основное отклонение, стандарт): s—]/s2. В отличие от дисперсии эта статистика характеризует изменчивость изу- чаемой величины в истинных значениях, тогда как дисперсия— в квадратных. Для данных рис. 15 Sj —1,6; s2=0,54, то есть один ряд от другого по разбросу значений отличается почти в 3 раза. При больших п выборочные характеристики оказываются близкими к соответствующим теоретическим, то есть х«а = =Mxt; s2«o«Dxb Fn(t)«F(t). 44
В практике обработки геологической информации широ- ко применяют коэффициент вариации, рассчитываемый на основе среднего и среднего квадратического: V= (s : х) X100. (3.3) Для рассмотренных рядов (см. рис. 15) Vi=32,0%, V2— = 10,7%. Параметр безразмерный и позволяет сопоставлять разброс разноименных признаков, например, мощностей руд- ных тел и содержаний рудного компонента. Наряду с названными, для характеристики выборочного распределения используют показатели асимметрии А и экс- цесса Е, соответствующие параметрам щ и а2 случайной ве- личины. Выборочный показатель асимметрии характеризует меру скошенности ряда влево или вправо от среднего значе- ния и вычисляется по формуле к А = 2 (xi ~ x)3ni i=M__________ ns3 Если распределение симметричное, то А=0; правоасиммет- ричное — А>0, левоасимметричное — А<0 (рис. 16). (3.4) 1У- Рис. 16. Графики асимметрич- ных распределений: а—А=0— симметричное; б — А>0 — правоасимметричное; в — А< <0 — левоасимметричное Рис. 17. Графики, распределе- ний с различным эксцессом: а—Е=0 — нормальное; б — Е>0 — островершинное; в — Е<0 — плосковершинное ' Выборочный показатель эксцесса служит мерой крутизны кривой распределения и вычисляется по формуле ! к 2(Х| - x)4Hj 45
Для ряда распределения, график которого близок к нор- мальной кривой, Е=0. При Е>0 распределение называется островершинным, при Е<0 -* туповершинным (рис. 17). Порядок вычислительных операций при оценке статистиче- ских параметров показан в табл. 1. Таблица 1 Интервал группи- ровки Сред- нее клас- са, Xi П1 Х1П1 Х1—X (Xj— Х)2П1 (Xi—x)sm (Xi—х)4П1 0,00—1,00 0,50 1 0,50 —3,91 15,2881 —59,7765 233,7260 1,01—2,00 1,50 3 4,50 —2,91 25,4043 —73,9265 215,1262 2,01—3,00 2,50 11 27,50 —1,91 40',1291 —76,6466 146,3950 3,01—4,00 3,50 21 73,50 —0,91 17,3901 —15,8250 14,4007 4,01—5,0*0 4,00 3)11 139,50 0,09 0,2511 0,0226 0,0020 5,01—6,00 6,50 23 126,50 1,09 27,3263 29,7857 32,4664 6,01—7,00 6,50 7 45,50 2,09 30,5767 63,9053 133,5621 7,01—8,00 7,50 2 15,50 3,09 1'9,0962 59,0073 182,3324 8,01—9,00 8,50 1 8,50 4,09 16,7281 68,4179 279,8293 100 441,00 190,1900 —5,0358 1237,8401 Имеем: х=441,00 : 100=4,41; s2= 192,1900 : 100= 1,9219; s= =1/1,9210 = 1,39; V= (1,39: 4,41) X 100=32%; А=—5,0358: : (2,67X100) =0,02; Е = (1237,8401:(3.69ХЮ0) )—3=0,35. Объем выборки может быть определен или с учетом допу- стимой относительной ошибки определяемого среднего значе- ния изучаемого признака у, или с учетом его допустимой аб- солютной ошибки d. В первом случае необходимо знание ко- эффициента вариации признака в изучаемой совокупности, во втором — среднего квадратического отклонения: n=(taXV:y)2; n = (taXs:d)2, (3.6) где п — число наблюдений, которое обеспечит вычисление среднего с принятыми допустимыми ошибками; ta — значение случайной величины, распределенной по закону Стьюдента, соответствующее вероятности 1—а (прил. 2, табл. 5). Вычис- ление V и s осуществляется по опытной выборке небольшого объема или принимается по аналогии с другими объектами. Допустим, по опытной выборке имеем х=ЗО°/о, s=6%, п=25. Коэффициент вариации составит 6:30X100=20. Ошибка среднего с вероятностью 0,95 равна 2x6 : ]/25=2,4%, или 8% относительных. Необходимо определить объем вы- 46
борки, которая обеспечивала бы получение оценки среднего с 5% -ной относительной ошибкой (1,5% абсолютных). Объем та- кой выборки равен: п = (2\20 : 5) 2=б4; п= (2\6>< 1,5) 2=64. Кроме среднего арифметического (3.1), в геологии_ ис- пользуются среднее взвешенное (хВЗв), квадратическое (хкв), кубическое (хКуб), геометрическое (хгеом), гармоническое (Храрм), вычисляются по формулам: Для одних и тех же данных справедливо: хГарм<Хгеом<хар< <хкв<хкуб. С помощью логарифмирования исходных данных получают среднее логарифмическое lgx= (S IgXjHi) : п, анти- логарифм которого равен среднему геометрическому. Средние значения для данных табл. 1 равны: Хгарм — 3,72 с Хгеом — = 4,14 < х=4,41 < Хкв=4,57< хКуб=4,80. Среднее гармоническое используется при оценке экономи- ческих показателей (эффективности работы в единицу време- ни, брака в работе и т. п.), геометрическое — для характе- ристики содержаний по данным спектрального анализа, диа- метра частиц в дробленой пробе, размера золотин, для оп- ределения ураганного значения и т. п., квадратическое — в теории контрольных анализов проб, точности подсчитанных запасов, а кубическое — редко, при изучении крупности рос- сыпного золота, частиц дробленой породы. Б практике первичной обработки данных часто использу- ют непараметрические показатели — медиану и моду, кото- рые могут служить приближенной оценкой среднего значе- ния. Медианой (Me) ряда распределения называют то значе- ние х, которое делит ряд на две равные по численности ча- сти. Если ряд не сгруппирован, то есть каждое значение встре- 47
чается только один раз, то при нечетном количестве данных Me = Xn+i, а четном Me = 0,5 /х п + Xn+1'j (3.7) \ 2 2 ) • Для ряда чисел 2, 3, 4, 5, 6 Ме=4, а для ряда 2, 3, 4, 5, 6, 7 Д1е—(4 + 5) : 2=4,5. Если ряд сгруппированный, то медиану вычисляют по формуле Me = xm + С O’5“~-N-m , (3.8) nm+i где xm — начало интервала, содержащего медианное значе- ние; С — длина интервала; Nm — накопленная частота, соот- ветствующая началу интервала, содержащего медианное зна- чение; nm+I — частота медианного интервала; и — объем вы- борки. Пример. Определить медиану для ранее приведенных данных (см. табл. 1). Имеем n=100, С=1,0, хт=4,00, Nm=l + 3+11 + 21 = 36, nm+1=31. Решение. Me=4,00+1,0X (50—36) : 31=4,45. Модой (Мо) ряда распределения называют то значение Хь которому соответствует наибольшая частота. При‘графи- ческом изображении ряда распределения в виде полигона мо- да равна значению Xi, которому соответствует максимум кри- вой. В нашем примере модальным является интервал содер- жаний от 4,0 до 5,0. Мо равна примерно 4,5. Модальное зна- чение можно уточнить, пользуясь формулой Мо = хт + С ---------Пт<~. П/т~1------V > (3.9) Фт пт-1) (nm Пт+1) где хт — начальное значение модального интервала; пт-ь пт, Пт+i — количество проб в домодальном, модальном и по- слемодальном классах. Для данных рассматриваемого при- мера уточненное значение моды будет равно 41_91 М0 - 4ДО + 1 (31-21) + (31-23) =4» В случае распределений, близких к симметричным (как в нашем случае), мода, медиана и среднее значение близки ме- жду собой. Непараметрической оценкой изменчивости признака яв- ляется размах, а среднего квадратического (при р-аспределе- 48
нии, близком к нормальному) — шестая часть его (для дан- ных табл. 1 составит 7,8 : 6=1,3). Среднее для совокупности с качественными данными (есть — 1, нет — 0) численно равно частости обнаружения изучаемого признака, то есть х=щ : п, где щ — число наблю- дений с наличием признака, а дисперсия, характеризующая неоднородность (пестроту) статистической совокупности, рав- на произведению частости обнаружения признака на ча- стость необнаружения. Максимальное значение ее не превы- шает 0,25 (получается при равном числе йстреч и невстреч). 3.4. МАТЕРИАЛ ДЛЯ ПРАКТИЧЕСКИХ ЗАНЯТИЙ Решение типовой задачи Задача 1. Имеется 45 значений содержания элемента А в изучаемых ру- дах: 0,1 0,8 1,2 1,5 2,0 2,6 3,5 4,9 6,8 0,3 0,8 1,3 1,5 2,1 2,8 3,7 5,1 7,2 0,3 0,9 1,3 1,7 2,4 3,0 3,9 5,6 7,9 0,4 1,1 1,4 1,7 2,4 3,2 4,4 5,8 8,4 0,5 1,1 1,5 1,9 2,6 3,5 4,5 6,4 9,6 Сгруппировать данные и определить значения среднего содержания эле- мента А в изучаемых рудах, а также дисперсию, среднее квадратическое, асимметрию, эксцесс и коэффициент вариации. Решение. Пользуясь правилами группирования, находим: размах выборочной совокупности — 9,5 (9,6—0,1); возможное число классов группировки — 8 (1 +4Xlg 45); длина интервала группировки составит 1,2% (9,5:8), принимаем чис- ло, удобное для счета (из меньших значений); определяем границы классов группировки: 0,01—1,0; 1,0—2,0; 2,0—3,0; 3,0—4,0; 4,0—'5,0; 5,0—6,0; 6,0—7.0; 7,0—8,0; 8,0—9,0; 9,0—10,0. Оценка- ми этих интервалов при расчете, соответственно, будут 0,5; 1,5; 2,5; 3,5; 4,5; 5,5; 6,5; 7,5; 8,5; 9,5; разносим имеющиеся данные по классам: От — до Х| П1 ОТ — до Xi Hi 0,0—1,0 0,5 8 5,0—6,0 5,5 3 ДО—2,0 1,5 13 6,0—7,0 6,5 2 2,0—3,0 2,5 7 7,0—8,0 7,5 2 3,0—4,10 3,5 5 8,0—9,0 8,5 1 4,0—5,0 4,5 3 9,0—10,0 9,5 1 49
На основе полученных значений определяем статистические параметры (табл. 2). Таблица 2 Х1 П1 Х,П1 Xi—X (Xi—х)2П1 (Xl—x)sHi (Х1—X) 4П| 0,5 8 4,0 —2,5 50,00 —125,00 312,50 1,5 13 19,0 —1,5 29,25 — 43,8® 65,82 2,5 7 17,5 —0,5 1,75 — 0,88 0,44 .3,5 5 17,5 0,5 1,25 0,62i 0,31 4,5 3 13,5 1,5 6,75 10,12 15,18 5,5 3 16,5 2,5 18,75 46,88 117,20 6,5 2 13,0 3,5 24,50 85,75 300,12 7,5 2 15,0 4,5 40,50 182,25 820,12 8,5 11, 8,5 5,5 30,25 166,38 905,09 9,5 1 9,5 6,5 42,25 274,63 1875,06 45 134,5 245,25 596,87 4331,84 Первоначально по сумме третьего столбца вычисляем среднее: 134,5:45= =3,00. По суммам пятого, шестого, седьмого столбцов находим диспер- сию — 245,25 : 44=5,57; среднее квадратическое ]/5.57=2,36; асимметрию — 596,87 : (45 x 5,57x 2,36) = 1,01; эксцесс — 433.li,84 : (45x5,57x5,57)—3= =0,10; коэффициент вариации — (2,36 : 3,00) XI00=78. Задачи для самостоятельного решения 1. Допустим, что в определенном регионе имеются проявления двух сходных по многим признакам интрузий, но с одной из них генетически свя- заны месторождения и рудопроявления полезного ископаемого, а с другой нет. Высказано предположение, что породы должны различаться по со- держаниям элемента А. Смоделировать распределение содержаний эле- мента А в сравниваемых породах (табл. 3, 4). Отобрать по 30 проб каж- дой из пород (сформировать выборки с помощью таблицы случайных чи- сел), определить статистические параметры для последующего сравнения пород с целью решения вопроса их сходства — различия (часть студентов группы формирует выборки по табл 3, остальные по табл. 4). 2. При анализе проб, отобранных в пределах рудного тела, получены следующие значения содержаний элемента, А, %: 0,29 0,25 0,35 0,45 0,35 0,39 0,40 О',42 0,32 0,37 0,27 0,37 01,35 0,44 0,35 0,30 0,34 0,31 О',32 0,36 0,39 0,33 0,41 0,35 0,30 0,33 0,38 0,33 0,33 0,38 0,38 0,28 0,30 0,40 0,36 0,32 0,32 0,42 0,35 0,35 0,39 0,29 0,33 0,31 0,33 0,36 0,34' О; 30' 0,30 0,36 0,37 0,35 0,34 0,34 0,31 0,34 0,30 0,43 0,34 0,32 0,37 0,35 0,34 0,34 0,31 0,43 0,36 0,34 0,34 0,41 0,37 0,28 0,46 0,32 0,34 0,31 о.зь 0,36 0'34 0,36 50
Таблица 3 Таблица 4 №№ проб Х1 №№ проб Xi №№ проб XI №№ проб Xi №№ проб Х1 №№ проб Xi 1 3,9 31 5,8 61 4,3 1 5,1 31 3,6 61 4,2 2 6,2 32 2,8 62 6,6 2 3,1 32 2,8 62 3,2 3 3,1 33 4,4 63 2,6 3 0,2 33 1,5 63 5,9 4 6,0 34 6,0 64 5,4 4 6,8 3’4 4,6 64 2,1 5 2,2 35 3,9 65 7,3 5 2,1 35 2,6 65 4,3 6 5,9 36 4,9 66 3,9 6 4,1 36 1,7 66 2,0 7 4,6 37 5,6 67 3,7 7 5,2 37 0,4 67 2,2 8 3,7 38 2,1 68 4,4 8 1,1 38 6,7 68' 3,3 9 5,9 39 4,3 69 6,8 9 2,2 39 1,6 69 6,0 10 4,3 40 6,0 70 5,4 10 2,2 40 3,7 70 4,4 И О',6 41 5,6 71 3,0 11 4,2 41 1,8 71 1,1 12 6,3 42 4,1 72 4,5 .-ИЗ 1,2 42 2,7 72 3,4 13 3,3 43 7,9 73 5,2 13 0,4 43 2,7 73 2,3 14 5,0 44 3,4 74 4,3 14 8,7 44 3,8 74 6,4 16 5,9 45 4,8 75 4,3 15 2,3 45 1,7 75 4,5 16 3,3 46 4,9 76 4,8 16 4,3 46 1,6 76 1,2 17 5,9 47 6,4 77 3,6 17 5,3 47 0,5 77 3,5 18 5,8 48 2,9 78 5,2 18 1,3 48 4,9 78 2,4 19 4,9 49 5,7 79 4,7 19 3,3 49 2,8 79 0,6 20 4,1 50 5,6 80 4,1 20 4,4 50 3,9 80 4,6 21 8,4 51 4,0 81 7,0 01 2,4 51 5,5 81 1,3 22 2,6 52 3,4 82 2,4 20 6,3 52 5,0 82 3,6 23 4,5 53 2,3 83 5,0 23 0,3 53 1,0 83 7,5 24 5,9 54 4,2 84 3,3 24 3,4 54 2,9 84 2,5 25 3,7 55 4,7 85 4,8 25 1,4 55 1,8 85 3,7 26 2,7 56 3,7 86 2,8 26 7,8 56 2,6 86 1,4 27 1 5,9 57 3,6 87 4,7 27 2,5 57 4,1 87 4,7 28 3,2 58 4,6 88 3,2 28 4,5 5® 3,1 88 2,6 29 5,6 59 4,7 89 1,6 29 5,4 59 3,0 89 3,8 30 4,4 60 3.4 90 5,4 30 3,5 60 1,9 90 1,5 Найти выборочное среднее и среднее квадратическое отклонение: а) непо- средственно используя имеющиеся данные; б) разбив данные на 7 интер- валов с ценой деления класса 0,02 (0,25—0,27; 0,27—0,29 и т. д.). 3. Имеется следующее распределение содержаний элемента А в изу- чаемых породах: Xi TH Х| Х1 П| Х1 П1 0,41 а 0,47 9 0,53 41 0,59 11 0,43 2 0,49 9 0,55 76 0,61 4 0,45 8 0,51 14 0,57 2’1 0,63 3 Найти выборочное среднее, среднее квадратическое, коэффициенты асим- метрии и эксцесса. 51
Контроль знаний по главе 3 По какой из формул определяются: необходимый объем выборки; сред- нее арифметическое для группированного ряда; дисперсия для Группиро- ванных данных; эксцесс для группированных данных; асимметрия для группированных данных; коэффициент вариации; медиана группирован- ного ряда; мода? В каком случае (13—15) имеем ряд частостей; то же — накопленных частот? На плакате или листах с вопросами, выдаваемых студентам, дол- жны быть правые части формул (3.1)—(3.9), (2.8)—(2.10) (повтор ма- териала), ряды распределений: 13. Х[, пь х2, П2, .... Хк .... Пк. 14. Хь Хг, Хк (0], (1)2, ...» (Ок- 15. Х1, Х2, .... Хк .Ni, N2, ..., Nr. Глава 4 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ 4.1. ОЦЕНКА ПАРАМЕТРОВ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ До сих пор говорилось о вычислении статистик выборочного распределения. Для исследователя же важно нахождение оце- нок параметров генеральной совокупности (среднего содержа- ния интересующего нас элемента по блоку или месторожде- нию, среднего значения плотности руд различного соста- ва и т. п.). Если из генеральной совокупности бесконечного или до- статочно большого объема взяты к случайных выборок объ- ема п, то в каждой из них интересующая нас статистика (среднее значение, среднее квадратическое отклонение и т. д.) примет определенное значение ®i(i=l, 2, ..., к), причем эти значения вообще не равны между собой. Таким образом, сама выборочная статистика ® является случайной величи- ной, которая имеет определенное математическое ожидание М((Э) и дисперсию D(0). Случайный характер их выражает- ся в том, что они больше или меньше характеристик гене- ральной совокупности (совпадают в отдельных случаях), то есть при обработке выборочных данных получают оценку значений статистических параметров. При увеличении объема выборок рассеяние выборочных статистик уменьшается, вы- 52
борочные характеристики по вероятности сходятся к гене- ральным. Выборочная оценка & — приближенное значение соответ- ствующего параметра 0. Точность ее тем выше, чем меньше абсолютная величина их разности. Утверждение это будет тем надежнее, чем больше Р((0—в) <©< (0 + е)) = р — ве- роятность того, что параметр 0 попадает в интервал (0—е, 0 + е), е — заданная точность оценки. Интервал (0—е, 0 + е) называют доверительным, концы его — доверительными гра- ницами параметра 0, а р — доверительной вероятностью. Раз- мер е выбирается таким, чтобы вероятность нахождения 0 вне доверительного интервала (а— 1—р) была малой (смысл а: если а=0,05, то в 5 случаях из 100 выборочное 0 в сред- нем может выйти за значения доверительных границ, а при а=0,01—1 раз). Доверительные границы статистических па- раметров определяют с помощью ошибок, вычисляемых по следующим формулам: 8a=/4;8e = 2/+. (4.1) Общий вид формулы для определения доверительных ин- тервалов: 0—ta6e<0<0 + ta6e. Распределение величины tQ зависит от числа степеней свободы f=n—1. Пример. Определить доверительный интервал сред- него содержания элемента А в изучаемых породах (см. данные табл. 1). Имеем х=4,41, 6х=0,14. Задавшись доверительной вероятностью 0,95(а=0,05), находим (прил. 2, табл. 5) при п=100, t=l,98. Доверительный интервал равен 4,41—1,98X0,14<х^4,41 + 1,98X0,14, или 4,13<х<4,69, то есть с вероятностью 0,95 можно утверждать, что сред- нее значение содержания элемента А в изучаемых поро- дах больше 4,14%, но меньше 4,69%. 53
4.2. ТЕОРЕТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ И РАСЧЕТ ЕГО ЧАСТОТ Под теоретическим распределением понимают распределение изучаемого признака в генеральной совокупности. Прежде всего,, необходимо выбрать распределение, которое лучше других приближалось бы к наблюдаемому (эмпирическому). Главная роль при таком определении отводится аналитиче- ским признакам — критериям, подтверждающим или отвер- гающим гипотезу (допущение) о соответствии эмпирического распределения выбранному теоретическому. Так, критерием нормальности распределения является равенство нулю показа- телей асимметрии и эксцесса («1=0, а2=0). Однако часто оценки этих показателей (А и Е), вычисленные для выборок, взятых даже из нормально распределенной совокупности, отли- чаются от нуля. Возникает необходимость определить, суще- ственно ли наблюдаемое отличие? Если выборка достаточно большая (п^ЗО) и величины yi=A : 6д<3; 72=Е : 6е<3, то гипотеза о нормальности рас- пределения не отвергается. Для данных табл. 1 А=—0,02; бд—0,24; yj=0,08; Е=0,35; бЕ^О.49; 72—0,71, следовательно, гипотеза о нормальности распределения содержаний элемента А в изучаемых породах не отвергается. Распределение Пуассона может быть выбрано в том слу- чае, когда речь идет о редких явлениях (вероятность появле- ния события мала), причем оценки ш и s2(m) существенно между собой не различаются. Наряду с применением аналитических критериев при вы- боре типа распределения следует внимательно анализировать сущность изучаемого явления, решая, насколько его физиче- ское содержание соответствует выбранной модели (типу рас- пределения). Полезно также сравнить графики эмпирическо- го и теоретического распределений. После выбора соответствующего типа распределения по выборочным данным вычисляют его параметры и с помощью таблиц рассчитывают частоты теоретической кривой (прил. 2, табл. 1, 2). Расчет теоретических частот нормального распределения осуществляют по формуле ш- ^Х<р(М. (4.2) 54
где fii — теоретические частоты, п — объем выборочной сово- купности, ti — нормированное отклонение случайной величи- ны от ее математического ожидания, (ti)—см. прил. 2, табл. 1, С — длина класса группировки. Пример. Рассчитать теоретические частоты нормаль- ного распределения для данных табл. 1. Имеем х—4,41; s=l,39; С=1,0; п = 100, распределение близко к сим- метричному. Результаты вычисления приведены в табл. 5. Таблица 5 Xi П1 Xi—X 1 * и “j х 1 <P(ti) cx«p(ti) “'= S COitl til 0,50 1 —3,91 2,81 0,008 0,006 0,6 1 1,50 3 —2,91 2,09 0,045 0,032 3,2 3 2,50 11 —1,91 1,37 0,156 0,112 11,2 11 3,50 21 -0,91 0,65 0,325 0,232 23,2 23 4,50 31 0,09 0,06 0,398 0,286 28,6 29 5,50 23 1,09 0,78 0,29-4 0,121 21,2 21 6,50 7 2,09 1,50 0,120 0,093 9,3 9 7,50 2 3,09 2,22 0,034 0,0'24 2,4 2 8,50 1 4,09 2,94 0,005 0,004 0,4 1 100 100 Существует прием построения нормальной кривой по по- лученным статистикам. Определяют максимальное значение nmax==CN : S|;2n, соответствующее центру распределения (в рассматриваемом случае птах=1ХЮ0 : 1,39у2ХЗ, 14=29). Па- раллельно шкале значений признака наносят шкалу средне- квадратических отклонений, получаемую вычитанием и добав- лением значений s к среднему (4,41 + 1,39=5,80; 4,41—1,39= = 3,02 и т. д.). Пользуясь табл. 1 (прил. 2), выписывают веро- ятности появления признака для выбранных интервалов и со- ответствующий центру распределения принимают за единицу. Для остальных определяют долю его, в рассматриваемом слу- чае имеем: ti 0,0 +0,5 + 1,0 + 1,5 +2,0 +2,5 + 3,0 <₽(ti) 0,399 0,352 0,242 01,130 0,054 0'018 0,004 CP (ti) : <p(tmax ) 1,000' 0,882 0,607 0,325 0,135 0,043 0,011 Умножением максимального числа проб на значения послед- ней строки получают количество их для различных t;(29x 55
ХО,882=26, аналогично для остальных: 18; 9; 4; 1,2; 0,3). Полученные точки наносят на график и соединяют плавной линией (рис. 18). Рис. 18. Гистограмма выбо- рочного распределения и по- строенная для него кривая нор- мального распределения Для вычисления частот распределения Пуассона определя- ют выборочное среднее число появлений события, принимае- мое за параметр. Расчет частот теоретического распределе- ния и, ведется по формуле n(=nPmi, (i=0, 1, 2, .... m), (4.3) где п — объем выборочной совокупности, Рт — значения функции Пуассона (прил. 2, табл. 2). Пусть имеется выборочная совокупность Гх. 0,2, 0,3, 0,4 0,5, 0,6, 0,7, 0,8 [щ 13, 27, 28, 17, 9, 4, 2. Преобразуем приведенный ряд к виду Г Xi 0, 1, 2, 3, 4, 5, 6 (mi 13, 27, 28, 17, 9, 4, 2, где mi получены вычитанием наименьшего значения из каж- дого Xj и делением разностей на длину интервала. Таблица 6 пи Рип n + Pml П1 О' 0,135 13,5 14 1 0,271 27,1 27 2 0,271 27,1 27 3 0,180 18,0 18 4 0,090 9,0 9 5 0,036 3,6 4 6 0,012 1,2 1 Для преобразованного ряда m=2,02; s2 (гл) =2,03, то есть m«s2. Таким образом, для выборочной совокупности вы- полняется критерий распреде- ления Пуассона. Принимаем А=т=2 и по табл. 2 (прил. 2) находим значения Pmi (табл. 6). 56
4.3. СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ И КРИТЕРИИ ИХ ПРОВЕРКИ Рассмотрим некоторые ситуации, возникающие при стати- стической обработке геологических данных. 1. Одно из значений изучаемой величины резко отлича- ется от основной массы данных. Принадлежит ли последнее значение изучаемой совокупности или оно является следстви- ем включения в выборку случайной пробы других пород, ошибкой анализа, переписи и т. п.? 2. Б результате обработки данных по двум выборкам пог лучены различные значения среднего содержания. Является ли полученное различие выборочных средних следствием ре- ального различия изучаемых явлений (объектов) или носит случайный характер? 3. Обработка данных изучаемой величины в пределах двух участков выявила различные значения дисперсий. Свидетель- ствует ли это о различии изучаемых участков по изменчиво- сти величины? 4. Получено различие частостей появления определенных значений изучаемого признака в двух массивах данных. Сви- детельствует ли это о реальном различии распределений изу- чаемого признака для изучаемых явлений (объектов)? Во всех приведенных примерах необходимо решить вопрос о том, являются ли полученные различия статистик отраже- нием реального различия изучаемых совокупностей или носят случайный характер? Для решения этого вопроса разработан ряд критериев, позволяющих в каждом конкретном случае оценить, существенно полученное различие или случайно. В каждом из таких случаев задача сводится к проверке гипоте- зы об отсутствии различия сравниваемых статистик. Такое предположение принято называть нудевой гипотезой и обозна- чать Но- Так, для первой ситуации нулевой гипотезой является до- пущение того, что сомнительное значение принадлежит к той же генеральной совокупности, что и остальные выборочные данные. Для второй ситуации ею является допущение, что изучаемые явления (объекты) не различаются по средним со- держаниям. Нулевая гипотеза должна быть отвергнута в том случае, если ее вероятность мала. На практике она отвергается при Р(Н0)<а, где а — принятый уровень значимости. 57
В том случае, когда нулевая гипотеза не подтверждается и должна быть отвергнута, различие сравниваемых статистик признается существенным. Если нулевая гипотеза не отверга- ется, утверждать, что рассматриваемые статистики действи- тельно равны, нет оснований, хотя это и возможно. Отбор дополнительных данных может привести к тому, что нулевую гипотезу придется отвергнуть. Применительно к геологии отмеченное можно пояснить следующим примером. Разбуривается магнитная аномалия. Нулевая гипотеза — рудных скоплений нет. Скважина не встретила рудного тела. Можно ли утверждать, что природа аномалии нерудная? Скважина могла не встретить тела (за- бурена не в том месте, не под тем углом, имеет недостаточ- ную глубину и т. п.). Если скважина подсечет руду, то нуле- вая гипотеза будет отвергнута уверенно! Принадлежность крайних значений к изучаемой сово- купности. Применение статистических критериев основано на допущении, что распределение изучаемого признака в ге- неральной совокупности не противоречит определенному за- кону. Для нормально распределенной совокупности аномаль- ность Xi-ro значения проверяют с помощью формулы Ti= ]xi—х| : s. (4.4) Если Ti>Ta(n), то Xi (проверяемое) значение является аномальным с вероятностью р— 1—а (рис. 19) и должно быть исключено из выборочной совокупности (допустимые значе- ния см. в прил. 2, табл. 6). Рис. 19. Примеры графическо- Рис. 20. Графический смысл го проявления аномальных критерия т значений Для малых выборок (закон не известен) существует уп- рощенный способ оценки принадлежности крайних значений к заданной совокупности 58
x' = xn Xn -1 . _ _Хг___Xl_ ,4 5) xn - x2 ’ Xn-! - Xj ’ где r' — критерий оценки наибольшего значения, %" — наи- меньшего, Xi, х2, хп_1, хп — первое, второе, предпоследнее и последнее значения выборочных данных, упорядоченных по возрастанию. Графическая интерпретация критерия показана на рис. 20. Оценивается отношение разности (а) к разбросу (в). Возможные значения т' и т" приведены в прил. 2, табл. 7. Пример. Имеем пять замеров — 1,10; 1,30; 1,35; 1,40; 2,15, по которым необходимо определить среднее значе- ние изучаемого признака. Настороженность вызывает значение 2,25, которое больше предыдущего на 0,75. Оп- ределим т'=(2,15—1,40) : (2,15—1,30) =0,882. .Таблич- ное значение то,os' (5) =0,689. Так как тЭМ11';>то,о5', то значение 2,15 из подсчета среднего следует исключить. Сравнение средних значений двух эмпирических совокуп- ностей. Заданы две выборочные совокупности, для которых известны Xi, х2 и д', и б£2 или Х|, х2, пь п2, S]2 и s22. Нулевая гипотеза состоит в том, что средние существенно не различа- ются. Проверку ее осуществляют с помощью критерия Стью- дента, t = । X2.L = 1 Xl ~ X2-L— , (4.6) /W+W + s22: n2 второе выражение получено из первого с учетом того, что 6X=S : Ун. Нулевая гипотеза отвергается, если полученное значение превысит табличное (прил. 2, табл. 5) при принятом уровне значимости а и имеющемся числе степеней свободы f= = П1 + П2—2 (под числом степеней свободы понимают число данных изучаемой совокупности, могущих принимать произ- вольные значения, не изменяющие общего уровня, около ко- торого это варьирование происходит). Допустим, имеем три значения 1, 2, 3, среднее их 2, если попытаться подобрать новую совокупность из трех членов, для которой среднее ра- внялось бы двум, то очевидно, что f=2—при двух случай- ных, третье должно обеспечить сумму 6, в критерии (4.6) ис- пользуются средние и дисперсии, то есть наложено две связи. Пример. Для элемента А имеем: Х] =40,15; 6^=0,91; П] = 32; х2=42,20; 6'^=0,85; п2=40, а элемента В: хд = = 1,20; бд=0,05; х2=1,00; й72=0,05. Оценить различие 59
средних. Имеем: 1д=|40, 15—42, 201 : ]/0,912 + 0,852 = = 1,65; t3Mn= 1,65<to>o5 (70) =1,98, то есть различие не- существенное; tB=|l,2—1,01 : ]/0,052 + 0,052=3,0; t3Mn= = 3,0>t0,05 (70) =1,98, то есть различие существенное. Почему же различие средних в 2,05% для элемента А несущественно, а 0,2—В — существенно? С вероятностью 0,95 средние по выборкам для элемента А могут иметь значения 40,15±2X0,91, то есть 38,33—43,06 и 42,2+2 X X0,85=40,5—43,9 (большое перекрытие); для элемен- та В имеем 1,2 + 2x0,05(1,1—1,3) и 1,0+2X0,05(0,9— — 1,1) перекрытия нет (рис. 21). Рис. 21. Графическое представ- ление различий средних содер- жаний элементов А и В Иногда возникает необходимость определить, существен- но ли отличается выборочное среднее от заданной величины, допустим, сравнить среднее значение разведываемого ком- понента по блоку с минимально-промышленным. Имеем х —заданную величину минимально-промышленного содер- жания по блоку, х — среднее содержание разведываемого компонента по блоку, <6Х — ошибку определения этого среднего. Формула для вычисления критерия Стьюдента при- мет вид t = I х " *1 (4.7) ох (заданная величина ошибки не имеет, УО2+6Х2=6Х). Нуле- вая гипотеза не отвергается, если вычисленное значение ока- жется меньше допустимого при принятом уровне значимости и имеющемся числе степеней свободы. Сравнение совокупностей с попарно связанными замера- ми. В практике геологических работ часто возникает необ- 60
ходимость вести обработку совокупностей с попарно связан- ными замерами (результаты основных и контрольных ана- лизов, данные различных видов опробования одних и тех же забоев и т. п.). Задача состоит в установлении существенно- сти различия таких данных. Для решения ее рассматривают разности каждой пары связанных замеров xfl—Xi2=Ai. Если систематической ошибки нет, то отклонения в большую и меньшую сторону одного замера по отношению к другому должны быть примерно одинаковы, и SAi«0. Совокупность разностей замеров можно рассматривать как некоторый ряд, характеризующийся определенным сред- ним значением А и дисперсией S2(A). Нулевая гипотеза сос- тоит в том, что А=0 (рис. 22). Рис. 22. Оцениваемое расхож- дение (А—0) между теорети- ческим (а) и эмпирическим (б) распределениями критерия раз- ностного ряда Критерием проверки нулевой гипотезы является величина t==A : 6д, (4.8) где б д— ошибка среднего. Если полученное значение t не превышает табличного при принятом уровне значимости и данном числе степеней свободы f=n—1, то оснований от- вергнуть нулевую гипотезу нет. * Сравнение многомерных средних. Сопоставление выбо- рочных совокупностей, охарактеризованных ш признаками, может быть осуществимо с помощью критерия Бондаренко [2-3]: ГЛ 7.2 р w2= 2 Wj2, Wj2=-M , (4-9) j=i s]“ где Zj — среднее значение разностного ряда j-ro признака, соотнесенного к одному из признаков, являющегося главным; Sj —> среднее квадратическое отклонение этих значений; щ — число данных ]'-го признака. Если W3M„2>xa2(m), то выборки различаются существенно по совокупности признаков. Если Wj2>Xa2(m= 1), то выборки различаются по j-му признаку. 61
Пример. В табл. 7 приведены содержания элемента А в породах при определенных содержаниях кремнекис- лоты. Таблица 7 SiO2 65 66 67 68 69 70 71 72 73 74 А (1 массив) — 2,0 2,0 2,5 2,5 3,0 3,0 3,5 4,0 4,5 А (2 массив) 1,0 1,5 2,5 2,0 3,0 2,5 — — —' — Оценить, различаются ли породы по содержанию эле- мента А? Если сравнить содержания элемента А на основе критерия Стьюдента, то получим xi = 3,00, Si2=0,55, х2=2,1, S22 = 0,39, t3Mn=2,6>to,o5 (13) =2,16, следова- тельно породы существенно различаются по средним значениям. В то же время массив 1 представляет собой более кислые разности пород. При использовании критерия W сравнение содержаний элемента А ведут для пород од- ного ряда кислотности, то есть сопоставляют пробы с одинаковыми содержаниями кремнекислоты. Для дан- ных табл. 7 имеем: SiO2 Zl Zl2 66 +0,5 0,25 67 —0,5 0,25 68 +0,5 0,25 69 —0,5 0,25 70 +0,5 0,25 0,5 1,25 z=0,5: 5=0,1 s2(z) = l,25: 5—0,12=0,24. w _ 0,12-5 _ Wa--614~= °’2’ Wa.3mii<Xzo,os = 3,84, говорить о существовании различия пород по содержанию элемента А нет оснований. На рис. 23 показаны расхождения элемента А при различных значе- ниях кремнекислоты. Имеем то плюсовые, то минусовые расхождения, которые могли быть обусловлены ошибками анализа. Допустим, имели бы данные о расхождениях элемента В: 0,2; 0,1; 0,2; 0,2 (сумма 0,7, а квадратов 0,11). z=0,7:5=0,14; s2(z)=0,11:5—0,142 = 0,0024; WB=(0,142X 62
Х5) :0,0024 = 41, что значительно больше допустимого, равного 3,84. Нулевая гипотеза об отсутствии различия по- род по этому элементу отвергается (различия неболь- шие, но закономерные). Рис. 23. Графический смысл различия содержаний при ис- пользовании критерия W2i —1---1—-—1---1-----1----1--- пользовании критерия W2i 66 67 68 69 70 Сравнение дисперсий двух выборочных совокупностей. Не- редко выборочные совокупности не различаются по средним, но могут существенно различаться по дисперсиям. Для сравнения дисперсий, используется критерий Фи- шера: s2 большая s2 меньшая (4.Ю) Значения критерия Фишера для уровня значимости 0,05 приведены в прил. 2 (табл. 9). Таблица имеет два входа по числу степеней свободы: fi=ni—1, f2=nz—1, где Hi — коли- чество проб в выборке, имеющей большую дисперсию. Гра- фический смысл различия дисперсий см. на рис. 15. Пример. Оценить различие рассеяния содержаний элемента А в породах двух изучаемых массивов по сле- дующим данным: щ— 30, xi = 0,25; Si2=0,12; п2=40; Х2=0,25, s22=0,04. Имеем: F=0,12 : 0,4=3,00. Таблич- ное значение FO1O5(29,39) = 1,74. TaR как F3Mn больше табличного, то различие дисперсий следует признать значимым. Первый массив имеет больший разброс со- держаний вокруг среднего, и его следует рассматривать более перспективным на выявление участков, обогащен- ных элементом А. Сравнение дисперсий имеет большое значение при уста- новлении однородности изучаемого материала. Средние раз- меры песчинок (гальки, щебня) в пределах сравниваемых участков могут быть одинаковы, а разбросы их вокруг сред- них — нет. В итоге качество сырья в пределах сравниваемых участков может оказаться различным. 63
Для одновременного сравнения нескольких дисперсий мо- жно воспользоваться критерием Бартлета. Величина 1 / m m B==r~ - 2(ni — ^feSi2) . \ i=l 1=1 1 / m 1 1 \ где C = 1 + з /n] n | n. ]' S । ’ 1) I )=In, 1 ^(п,- 1) I \ i=l / 1 rti s2 = "N ДТ 2(l*i ~ s*2 ’ распределенная как x2 c (m~1) степенями свободы. Если В<%2 (m—1), говорить о сущёСтвенном различии дисперсий нет ос- нования. Сравнение выборочного распределения с теоретическим. После вычисления частот выбранного теоретического распре- деления необходимо оценить степень согласия между эмпири- ческими и теоретическими частотами. Для оценки использу- ют критерии к и %2. Критерий Л предложен А. Н. Колмогоровым и И. В. Смир- новым. Единственным условием его применения является до- статочная численность выборочных данных (нескольких де- сятков). Для сравнения эмпирического распределения с тео- ретическим критерий А определяют по формуле А=О:Уп, (4.11) где D—|Nj—Ni|max — наибольшее значение абсолютной разности между накопленными значениями частот эмпириче- ского и теоретического распределений. Теоретическое значе- ние А не зависит от объема выборки и числа степеней свобо- ды, а определяется только выбранным уровнем значимости. Для а=0,05; А=1,36; а=0,01; А~1,63. Расчет критерия А покажем на примере обработки дан- ных замера плотности руд одного из рудопроявлений (табл. 8, здесь щ — эмпирические частоты, fit — теоретические, вычис- ленные из предположения, что распределение значений плот- ности не противоречит нормальному закону). Наибольшее значение 0 = 2,0; А = 2:У6О=29. Так как АЭмп<Ао,о5, то считать, что эмпирические частоты отличаются от теоретических существенно, нет оснований. 64
Таблица 8 Х1 П1 П1 Ni Ni D 2,35—2,45 1 1 0 1 2,45—2,55 2 2 3 2 1 2,55—21,65 5 7, 8 9 1 2,65—2,75 12 13 20 22 2 2,75—2,85 19 16 39 38 1 2,85—2,95 13 13 52 51 1 2,95—3,05 5 7 57 58 1 3,05—3,15 2 2 59 60 1 31,15—3,25 1 — 60 60 0 60 60 Критерий %2, предложенный Пирсоном, определяют по формуле %2=S (Hi—fii)2 : ill, (4.12) где nt — эмпирическая частота; fit — теоретическая частота. Если %2эмп<%2а(1), гипотеза о согласии эмпирического и тео- ретического распределения не отвергается. Число степеней свободы определяется в зависимости от применяемого теоре- тического закона. Для нормального закона f=k—3 (к—чи- сло классов .группировки), для закона Пуассона f=k—2. Для применения критерия необходимо, чтобы количество данных в кажДом классе было не менее трех—пяти. Расчет критерия покажем на примере обработки предыдущих дан- ных, предварительно объединив классы с малой численно- стью проб (табл. 9). Таблица 9 Х1 П1 П1 П|—П| (ni—ni) : ni • Менее 2,65 8 9 1 0,11 2,65—2,75 12 13 1 0,08 2,75—2,85 19 16 3 0,56 2,85—2,95 13 13 0 0 2,95 и более 8 9 1 0,11 60 60 0,86 Число степеней свободы f=5—3=2. Табличное значение Х2о,ов (2) =5,99, и отвергать нулевую гипотезу нет оснований, эмпирическое распределение может отвечать нормальному. 3—418 65
Графическая интерпретация существа критериев Л и %2 по- казана на рис. 24 (пунктирная линия — эмпирическое, спло- шная — теоретическое распределение). В первом случае ча- стоты суммируют и сравнивают наибольшее различие накоп- ленных, во втором — сравнивают сумму относительного раз- личия частот (квадраты — для учета плюсовых и минусо- вых расхождений). Рис. 24. Графическая интер- претация существа критериев (сравниваемых характеристик распределений) Л (а) и х2 (б) Сравнение двух эмпирических распределений осуществля- ют с помощью тех же критериев X и %2. В этом случае рас- сматривается различие выборок не по какому-либо из пара- метров (среднему, дисперсии), а по различию выборочных распределений в целом. Если окажется, что выборочные со- вокупности распределены одинаково (без уточнения закона такого распределения), то имеющиеся выборки можно рас- сматривать как принадлежащие к одной генеральной сово- купности. Такая проверка особенно важна при объединении данных различных авторов-. Для сравнения двух выборочных совокупностей критерий 7. вычисляют по формуле Ь=| (Nil : П1) —(Ni2 : n2) |maxXV (П1Хп2) : (ш+п2), (4.13) где пь п2 — объемы выборок; Nn, N12 — соответствующие на- копленные частоты. Расчет критерия показан на примере сра- внения двух типов пород по распределению изучаемого при- знака (табл. 10). Таблица 10 Х1 Пи П|2 Nn Nl2 Nn : П| N12 П2 (Nn : П,)— (N12 : n2) 1 5 12 5 12 0,091 0,200 1 0,109 2 12 26 17 38 0,309 0,633 0,324 3 20 12 37 50 0,673 0,833 0,160 4 14 7 51 57 0,927 0,950 0,023 5 4 55 3 60 55 60 1,000 1,000 0,000 66
Максимальное значение разностей равно 0,327, Х=0,327х XV(55X60) : (55 + 60)— 1,75, Так как ЛЭМп>^0,05> то можно считать, что выборочные совокупности различаются по изу- чаемому признаку. При сравнении двух выборочных совокупностей критерий X2 вычисляется по формуле х2 = 1 у (nit‘n2 ~ п^-щ)2 (4 14) щ n2 Hi + п2 где Hi и п2 — количество данных в сравниваемых выборках; к — число классов группировки; Пп, ni2 — количество данных в i-том классе первой и рторой выборок. Полученное значе- ние %2 сравнивают с табличным "при принятом уровне значи- ? мости и числе степеней свободы, равном f—1. Если вычислен- ное значение больше табличного, то гипотеза о принадлежно- сти выборок к одной генеральной совокупности отвергается. Пример расчета критерия показан в табл. 11. > • Т аблица 11 Иц П|2 Пц+П|2 ПцХп2 П|2ХП1 ПнХПг— П12 + П1 (ПцХП2—П12ХП,)2 Пц+П12 5 12 17 300 660! —360 71624 г 12 26 38 720 1430 —710 13266 20 12 32 1200 660 540 9110 14 7 21 840 385 455 9858 ( 4 3 7 240 165 75 804 55 60 115 40664 Полученное значение х2=40664 : (55x60) =12,32. Табличное значение x2o,os(4) —9,49. Так как х2эмп>х2о,65, то выборочные данные не принадлежат к одной генеральной совокупности. Из непараметрических приведем критерии сравнения вы- борок по средним значениям, сопоставления сопряженных данных Вилкоксона и сопоставления выборок по распреде- лениям X' Колмогорова—Смирнова, которые применимы при ( малом числе данных. Вместо сравнения самих значений Xi, х2, ..., хк и yi, у2,..., ут сопоставляют их ранги (номера в упорядоченной единой Совокупности) с получением сумм Тх и Ту. Допустимые зна- чения Та даны в прил. 2 (табл. 10). Если меньшая сумма меньше допустимого, то нулевая гипотеза об отсутствии раз- личия сравниваемых выборок по средним отвергается. ( з’ 67
Пример. Имеем 5 замеров плотности одних (2,65; 2,67; 2,68; 2,70; 2,73 г/см3) и 10 замеров других (2,69; 2,71; 2,74; 2,75; 2,78; 2,80; 2,82; 2,83; 2,84; 2,86) пород. Расположим имеющиеся данные в порядке возрастания и припишем им номера рангов: Х1 У1 Rx Ry Х1 У1 Rx Ry 2,65 1 2,75 9 2,67 — 2 — — 2,78 —— 10 2; 68 <— 3 — — 21,80 — 11 — 2,69 — 4 — 2,82 — 12 2,70 5 —— 2,83 — 13 — 2,71 — 6 — 2,84 — 14- 2,73 .—- 7 -— 2,86 .—. 15 — 2,74 — 8 7 18 102 Наименьшая сумма рангов получена для образцов пер- вой совокупности. Допустимое значение Та (при к=5 и т=10)=23. Эмпирическое Тх = 18 меньше допусти- мого. Породы по плотности различаются существенно. При сопоставлении сопряженных данных ранжируются абсолютные расхождения (одинаковым приписывается сред- нее значение). Определяют сумму рангов менее встречающих- ся (плюсов или минусов). Сравнивают с допустимым значе- нием (прил. 2, табл. 11). Если она меньше допустимого — различие сравниваемых выборок по значению изучаемого при- знака существенно. Пример. Имеем значения Aj=Xi—уц 0,5; —1,2; 0,8; —0,5; —1,6; —1,0; 0,2; —1,1; —0,5; —1,5; 0,4; -0,7, ко- торым соответствуют ранги: 4 10 7 4 12 8 1 9 4 11 2 6. Меньше отклонений в сторону завышения (плюсов), их сумма рангов: 4-f-7-}-1-|-2= 14. Допустимое значе- ние То,os (при п=12) = 15, то есть сравниваемые ряды значений различаются. Используя критерий Л, вычисляют накопленные ча- стости и определяют их абсолютные разности Dj = = ]соц—И121. Вычисляется значение (V3Mn)2=D2(niX Xn2) : (П1+П2), которое сравнивается с допустимым 1,84 (а=0,05). Если оно больше допустимого, различие существенно. 68
Таблица 12 Плот- ность, г/смэ Частоты Накоп- ленные частоты Накоп- ленные частости D, Х1 У1 Nxj Ny, <011 <012 2,65 1 0 I 0 0,2 0,0 0,2 21,67 1 0 2 0 0,4 0,0 0,4 2,68 1 0 3 0 0,6 0,0 0.6 2,69 0 1 3 1 0,6 0,1 0,5 2,70 1 0 4 1 0,8 0,1 О',7 2,71 0 1 4 2 0,8 0,2 0,6 2,73 1 0 5 2 1,0 0,2 0,8 2,74 0 1 5 3 1,0 0,3 0,7 21,75 0 1 5 4 1,0 0,4 0,6 2,78 0 1 5 5 1,0 0,5 0,5 2,80 0 1 5 6 1,0 0,6 0,4 2,82 0 1 5 7 1,0 0,7 0,3 2,83 0 1 5 8 1,0 0,8 0,2 2,84 0 1 5 9 1,0 0,9 0,1 2,86 0 1 5 10 1,0 1,0 0,0 В табл. 12 показан пример расчета критерия для данных сравнения пород по плотности. Максимальное значение D = 0,8. Значение (Л'ЭМп)2= =0,82(5Х10) = (5+10)— 2,13. Полученное больше допустимо- го, при а=0,05. Сравниваемые ряды с вероятностью более 0,95 различаются существенно. При качественных признаках сравнение выборочных дан- ных сводится к проверке различия частостей появления при- знака, То есть t = о>1 — о)2 №г(1 ~ <Д2) (4.15) п2 где П[ и п2 — объемы выборок. 69
4.4. МАТЕРИАЛ ДЛЯ ПРАКТИЧЕСКИХ ЗАНЯТИИ Решение типовых задач Задача 1. Для данйых типовой задачи предыдущей лабораторной рабо- ты определить ошибку среднего и оценить доверительный интервал воз- можных значений этой статистики в генеральной совокупности с 95%-ным доверительным уровнем. Решение. Находим ошибку среднего — 2,36: }'45=0,36. При имеющемся числе проб и заданном доверительном уровне допустимое значение кри- терия равно 2,01 (прил. '2, табл. 5). Доверительный интервал среднего 3—2,01X0,364-3+2,01x0,36, окончательно 2,284-3,72. На основе выбороч- ных данных можно утверждать, что истинное значение элемента А в рудах не меньше 2,28 и не больше 3,72. Столь неточный результат обусловлен значительной неоднородностью руд по содержанию изучаемого элемента (коэффициент вариации 78). Задача 2. На основе выборочного распределения содержаний элемента А в рудах (типовая задача предыдущей лабораторной работы) рассчитать те- оретические частоты распределения Пуассона. Таблица 13 Исходные данные Расчетные данные Х1 П1 П11 Hi . П11П1 РШ1 П1 1 2 3 4 5 6 7 . 0,5 8 0 8 0 0,135 6 1,5 13 1 13 13 0,271 12 2,5 7 2 7 14 0,271 12 3,6 5 3 5 15 0,180 8 4,5 3 4 3 12 0,090 4 5,5 3 5 3 15 0,036 2 6,5 2 6 2 12 0,012 1 7,5 2 7 2 14 0,005 — 8,5 1 8 I 8 01,001 — 9,5 1 9 1 9 — — 45 45 112 45 70
Решение. Преобразуем исходный ряд (табл. 13, колонки 1, 2) выборочно- го непрерывного распределения к распределению дискретного вида и оп- ределим параметр X (колонки 3—5). Л= 112 : 45=2,49. Воспользовавшись табл. 2 приложения 2, определяем вероятности появления различного числа событий в выборе, распределенной по закону Пуассона при Х=2,0 (колон- ка 6). В колонке 7 получены теоретические частоты путем умножения значе- ний колонки 6 на объем выборки, с округлением результата до целых чисел (число проб не может быть дробным). Задача 3. Даны значения изучаемого признака в рудах: 0,6 2,5 3,4 4,1 4,6 5,4 6,2 7,6 2,1 4,6 7,4 1,3 2,7 3,6 4,3 4,8 5.4 6,4 8,2 3,2 5,2 1,7 3,1 3,7 4,5 5,1 5,7 6,7 12,9 3,9 6,0 Среднее содержание по ним — 4,9, среднее квадратическое отклонение— 2,4. Значение 12,!9 вызывает настороженность. Проверить, не является ли оно аномальным. Решение. Находим t=(12,9—4,9) : 2,4= 3,3, что больше to,os(30) =2,04. Содержание 12,9 — аномальное, из подсчета статистических параметров должно быть исключено (ошибка при записи, анализе, включение в вы- борку изучаемых пород чуждого образца и т. п.). Уточненные значения среднего и среднего квадратического по изучаемым породам — 4,5 и 1,9. Имеем симметричное распределение: | Х| 0,5, 1,5, 2,5, 3,5, 4,5, 5,5, 6,5, 7,5, 8,5, ( ni 1. 2, 3, 6, 6, 6, 3, 2, 1. Задача 4. Для изучения распределения элемента А из гранитов опреде- ленного региона отобрано 208 проб. В результате анализа их получен ряд (содержания увеличены в 1000 раз): 1'х, 0,1, 0,5, 1, 2, 3, 6, 10, 20, 30, 60, 100, 200 300 lni 1. 3, 9, 15, 25, 38, 40, 34, 23, 12; 5, 2, 1. Известно, что интересующий нас элемент не образует самостоятельных вы- делений, а входит в виде изоморфной примеси в один из второстепенных минералов, что распределение этого минерала в породе неравномерное, что определение содержаний осуществлялось полуколичественным спектраль- ным анализом. Решение. Из двух первых условий можно предположить, что распределе- ние элемента А в изучаемых породах не противоречит логнормальному за- кону, а из третьего следует, что обработку данных нужно вести не для со- держаний, а для логарифмов. На рис. '25 приведены графики распределения элемента А по выбороч- ным данным для содержаний и их логарифмов. Кривая распределения ло- гарифмов содержания близка к симметричной, что также не противоречит гипотезе о возможности логнормального распределения элемента А в вы- борочной совокупности. 71
n e5x Рис. 25. Графики распре- делений содержания эле- мента А: а — значения; б — логарифмы значений В результате статистического пересчета данных получено lgx=—2,05; slgx=0,53; Algx=—0,105; •Elgx=0,529; у1=0,06'; ^’2=1.56, то есть выбо- рочное распределение не противоречит логнормальному закону. Далее приведено сравнение теоретических частот Hi логнормального распределе- ния (средний логарифм — .2,05, среднее квадратическое отклонение лога- рифмов 0,53) с эмпирическим рядом Hi. Xi JgXi п. П1 Xi 1£Х1 П1 П1 ОДОМ —4,00 1 — 0,02 —1,70 34 33 О',0005 —3,30 3 3 0,03 —1,52 23 23 0,0011 —здо 9 8 0,06 —1,22 12 13 0,00)2 —2,70 15 17 0,1 —1,00 5 6 0,003 —2,52 25 27 О',2 —0,70 2 2 О',006 —2,22 38 36 О',3 —0,52 1 1 0,01 —2,00 40 39 208 208 Теоретические частоты логнормального распределения близки эмпири- ческим. Задача 5. Проверить существенность различия руд по средним и диспер- сиям содержаний элемента A (ni=45; Xj=3,0, Si2=5,57; n2=30, x2=4,5, s22=3,61). .________________ Решение. Имеем t= |4,5—3,0| : У (5,57 : 45) + (3,6 : 30) =3,0, что больше допустимого 2,0: при £=(45+30—2) и принятом уровне значимости 0,05 (прил. 2, табл. 5) F=5,57 : 3,6= 1,55. Допустимое значение при имеющих- ся объемах выборок (прил. 2, табл. 9) — 1,76. Сравниваемые руды су- щественно различаются по средним содержаниям элемента А, предпола- гать их различие по дисперсиям (по разбросу содержаний) на основе име- ющихся данных нет оснований. 72
Таблица 14 Исходные данные Расчетные данные Х1 П1 П1 Ni Ni Di 0,5 8 6 8 6 2 1,5 13 12 21 18 3 2,5 7 12 28 30 2 3,5 5 8 33 38 5 4,5 3 4 36 4-2 6 5,5 3 2 39 44 5 6,5 2 1 41 45 4 7,5 2 — 43 45 2 8,5 1 — 44 45 1 9,5 1 —, 45 45 0 Задача 6. Можно ли считать, что выборочное распределение содержаний элемента А в ру- дах не противоречит распреде- лению Пуассона? Исходные данные — результаты реше- ния задачи 2. Решение. Воспользуемся крите- рием Колмогорова—Смирнова (значения эмпирических и тео- ретических частот по табл. 14, колонки 2,3). Максимальная разность меж- ду накопленными эмпирически- ми и теоретическими частота- ми равна 6. Значение критерия 6;}'45 = 0,9. Полученное мень- ше допустимого при уровне значимости 0,05, равного 1,36. Делать заключение о том, что выборочное распределение противоречит распределению Пуассона, нет ос- нований. Задача 7. Продолжить решение задачи о сопоставимости руд по содер- жанию элемента А (см. задачу 1, где получено; что руды существенно различаются по средним и не различаются по разбросам содержаний). Применить критерий, учитывающий одновременно и средние, и разброс. Решение. Воспользуемся критерием Колмогорова—Смирнова. Расчет его показан в табл. 15. Таблица 15 Исходные данные Расчетные данный Х1 Иц П12 N(1 N12 Ntl : П) Nj2 ' ^2 Di 0,5 8 1 х 8 1 0,18 0,03 0,15 1,5 13 2 21 Э 0,47 0,10 0,37 2'5 7 3 28 6 0,63 0,20 0,43 3,5 5 6 33 12 0,74 0,40 0,34 4,5 3 6 36 18 0,81 0,60 0,21 5,5 3 6 39 24 0,88 0,80 0,08 6,5 2 3 41 27 0,92 0,90 0,02 7,5 2 2 43 29 0,96 0,97 0,01 8,5 1 1 44 30 0,98 1,00 0,02 9,5 1 — 45 30 1,00 1,00 0,00 45 30 73
Наибольшее значение разности между накопленными частотами эмпири- ческих распределений — 0,43. Значение критерия: 0,43Х|'(45Х,30) • : (45-1-30) = 1,94, что значительно больше допустимого — 1,36. Вывод: ру- ды сравниваемых выборок существенно различаются по распределению содержаний элемента А. Задачи для самостоятельного решения 1. Используя данные, полученные в процессе самостоятельного решения задачи 1 лабораторной работы 3, оценить: ошибки статистических пара- метров; доверительные интервалы основных параметров при 95%-ном до- верительном уровне; соответствие выборочного распределения нормально- му закону или закону Пуассона (при выборе проверяемого теоретиче- ского закона обратить внимание на форму кривой выборочного распреде- ления и учесть значения специальных показателей соответствия выбороч- ного распределения определенному закону). 2. Для приведенных в табл. 16 данных рассчитать частости и теорети- ческие значения вероятностей по классам (нормальный закон). Таблица 16 Мощ- ность, м Х| П1 Мощ- ность, м Х| Щ 2—4 3 2 14—16' 15 20 4-6 5 4 161—11'8 17 19 6—8 7 7 18—20 19 10 8—10 9 15 20—22 21 5 10—1'2 11 17 221—24 23 2 12—14 13 19 24—26 25 2 3. Замеры длин скорлупок крабов, живущих в мелкой и глубокой во- де, дали следующие результаты: средняя длина скорлупы (см) 8,41+0,04 и 8,59+0,05. Можно ли считать полученную разницу средних существен- ной или ее следует приписать случайности выборки? Распределение при- нять нормальным, число замеров в обоих случаях по 50, а принять рав- ным О',05. 4. Рудная залежь, представленная кварцитами с вкрапленностью суль- фидов, разделена горными выработками на шесть выемочных блоков. По результатам опробования их определены средние содержания цинка. Оценить однородность руд по приведенным ниже данным: № блока 1 2 3 4 5 6 Число проб 105 78 69 81 96 59 Среднее 1,25 0,89 0,94 0,92 0,73 0,86 Среднее по всем блокам 0,96; среднее квадратическое 0,84. 74
5. Результаты анализа данных экспериментального опробования (сов- мещение точек отбора проб бороздового — А и шпурового — Б методов) приведены ниже. Осуществить проверку равенства дисперсий. А Б А Б А Б А Б А Б 1,65 2,50 0,15 0,30 0,80 1,10 0,50 0,40 1,20 1,15 1,201 1,10 1,30 1,20 0,20 0,10 0,95 0,80 0,65 0,35 0,24 0,31 0,45 0,25 1,05 1,20 0,75 0,45 1,50 1,10 0,27 0,64 1,00 0,75 0,65 1,10 0,14 (0,65 1,20 1,50 1,15 1,30 0,75 0.75 0,17 0,201 0,73 1,00 0,01 0,10 0,30 0,25 G. На одних и тех же точках профиля двумя приборами А и В сня- ты отсчеты: А 0,66 0,63 0,68 0,60 0,67 0,63 0,59 0i,62 0,62 0,60 В 0,63 0,60 0,57 0,56 0,59 0,58 0,62 0,59 0,59 0,57. Проверить, нет ли в полученных отсчетах существенного расхождения? Ис- пользовать критерий Стьюдента и разностного ряда. 7. Проверить с помощью критерия X гипотезу о том, что выборочные распределения задачи 2 (для самостоятельного решения) не противоречат нормальному закону с математическим ожиданием и разбросом, равными выборочному среднему и выборочной оценке среднего квадратического. 8. При изучении шлифов пород установлен следующий ряд значений: mi 0, 1, 2, 3, 4, 5; Hi 229, 211, 93, 35, 7, 1, где mi — число зерен появления изучаемого минерала в шлифе; щ—число шлифов с i-ым количеством зерен (i=0, 1, ..., 5). Прове- рить с помощью критерия х2, согласуются ли эмпирические данные с ги- потезой б распределении минерала в изучаемых породах по закону Пу- ассона? За значение X закона Пуассона принять выборочное среднее (а принять равным 0,05). 9. Результаты анализа двух рудных тел (X и Y) на элемент А приве- дены ниже. Проверить гипотезу о том, что обе выборки принадлежат одной генеральной совокупности, то есть гипотезу о том, что существен- ного различия распределений элемента А в сравниваемых породах нет (применить Х-критерий). 75
X У X У X У X У X У 0,51» 0,50 0,50 0,35 0,30 0,31 0,47 0,36 0,41 0,44 0,35 0,35 0,69 0,16 0,28 0,46 0,49 0,15 0i,14 0,51 0,33 0,69 0,54 0,51 0,51 0,36 0,28 0,48 0,29 0,55 0,54 0,60 0,48 0,50 0,37 0,39 0,47 0,46 0,31 0,24 0,24 0,54 0,36 0,50 0,14 0,30 0,95 0,36 0,73 0,17 0,42 0,42 0,50 0,48 0,42 0,30' 0,18 0,38 0,43 0,37 0,58 . 0,68 0,43 0,53 0,36 0,38 0,66 0,40 0,28 0,38 0,57 0,54 0,46 0,25 0,28 0,55 0,35 0,38 0,64 0,46 0,54 О',55 0,56 0,48 0,20 0,36 0,34 0,55 0,72 0,12 0,24 0,33 0,48 0,36 0,48 0,24 0,38 0,51 О’,35 0,28 0,38 0,56 0,43 0,53 0,66 0,23 0i,56i 0,25 0,60 0,23 0,70 0,36 0,56 0,23 0,64 0,16 0,32 0,11 0,46 0,38 10. По данным типовой задачи 3 рассчитать теоретические частоты рас- пределения элемента А в рудах. С помощью критерия %2 проверить про- тиворечие выборочного распределения нормальному закону. Контроль знаний по главе 4 По какой формуле определяются: аномальность отклоняющихся зна- чений случайной величины, распределенной по нормальному закону; ано- мальность наибольшего значения при малом числе данных и неизвест- ном законе распределения; различие двух выборок по средним; различие выборок по дисперсиям; различие выборок с попарно связанными замерами; различие двух выборок по комплексу признаков (сравнение многомерных средних); теоретические частоты нормального распределения; существен- ность различия двух выборочных распределений на основе метода Колмого- рова—Смирнова; существенность различия выборочного и теоретического распределений на основе метода Пирсона? На плакате или листах с вопросами, выдаваемых студентам, должны быть правые части формул (4.1)—(4.5) и некоторых формул из глав 2— 3 (повторение). Работа (для самостоятельного выполнения, по вариантам, ц присутствии преподавателя) В результате проведения Поисково-оценочных работ на участке Мед- вежьем выявлено и прослежено на поверхности 2 рудные жилы: Северная и Южная, залегающие среди гранитов. С целью прослеживания оруденения на глубину пройдена скважина, которой подсечен один рудный интервал (рис. 26). 76
Результаты опробования жил в горных мента А приведены в табл. 17. выработках на содержание эле- Таблица 17 Рис. 26. План и разрез участка Мед- вежьего Содержание Х1 Количество проб, П1 Север- ная Юж- ная 0,00—0,20 0,1 2 1 0>,20—0,40 0,3 8 3 0’40^-0,60 0,5 13 9 0,601—0,80 0,7 11 12 0,80^—1,00 0'9 8 14 1,00—1,20 1,1 5 7 1,20—1,40 1,3 2 3 1,4'01—1,60 1,5 1 1 50 50 Среднее 0,67 0,79 Дисперсия 0,10 0,08 Результаты опробования рудного интервала по скважине приведены в табл. 18 (десять вариантов). Варианты содержаний элемента А Таблица 18 1 2 3 4 5 6 7 8 9 10 0,21 0,05 0,41 0,49 -1,55 0,44 0,24 0,2® Э,09 0,61 0,7® 0,41 0,83 0,99 0,11 0,62 0,41 0,41 0,89 0,82 0,41 0,62 1,05 0,62 0,41 0,21 0,64 0,61 0,41 0,87 0,65 0,42 0,43 0,22 0,23 0,46 0,84 0,83 0,63 0,41 0,0® 0,63 0,09 0,47 0,63 0183 1,11 0,21 1,22 0,63 0,43 1,05 0,84 1,51 0,13 1,09 1,16 0,77 0,72 0,84 0,23 0,21 0,30 0,83 1,04 0,63 0,44 0,43 0,63 1,25 0,60 0,65 0,45 0,64 0,25 0,47 0,67 0,63 0,82 0,95 1,05 0'43 0,62 0,24 0,65 0,64 0,59 0,88 1,05 0,44 0,44 0,66 0,86 0,45 0,83 0,85 0,86 1,06 0,74 0,64 0,51 01,66 0,14 1,10 0,44 0,67 0,74 0,75 0,44 0,58 1,00. 0,45 0,47 0,85 0,27 1,08 OJ8 0,84 0,6'7 0,87 0,76 0,24 0,64 0,65 0,66 0,48 0,45 0,64 0,87 0,87 0,25 0,90 0,28 0,26 0,85 0,66 0,70 Ю\90' 1,1Ю 0,43. О',60 1,10 0,49 0,43 0,17 0,87 01,87 0,60 0,76 0,67 0,16 0,68 1;10 1,30 0,48 0,80 0,14 1,11 0,46 0,89 0,75 0,47 0,51 0,67 0,68 0,49 0,31 1,31 0,68 1,20 0,40 0,29 0,67 0,10 0,29 0,68 0,46 0,63 0,88 0,45 1,10 0,59 0,19 0,41 0,29 0,12 0,72 0,46 0,64 0,68 0,49 1,25 0,88 0,88 1,12 0,51 0,88 0,67 0,48 0,90 77
Продолжение табл. 18 1 2 3 4 5 Б 7 8 9 10 0,37 0,70 0,53 0,69 0,70 0,93 1'17 1,52 1,38 0,47 0,87 0,15 0,32 0,28 0,87 1,14 0,74 0,49 0,51 0,70 0,51 0,49 0,701 0,51 0,34 0,54 0,33 0,81 0,30 1,10 0,28 0,75 0,97 0,71 0,51 0,83 0,49 0,47 0,50 0,34 0,53 0,96 0,21 0,39 0,53 0,83 1,00 0,72 0,94 0,46 0,68 0,33 0,56 0,53 1,30' 0,75 1,20 0,98 0,75 0,73 0,33 0,79 0,74 0,73 0,53 0,94 0,90 0,31 0,53 1,15 0,96 0,51-' 0,24 0,91 0,75 0,55 0,74 0,51 0,29 1,30 0,67 0,40 К42 0,30 0,39 0,77 0,59 0,77 0,55 0,39 0,54 0,52 0,58 0,55 0,16 0,87 0,39 1,20 1,00 0,44 1,30 1,55 0,34 0,75 0,54 0,56 0,83 0,18 1,16 0,75 0,55 0,80 0,76 1,20 0,95 0,99 0,78 0,35 0,34 0,35 1,49 0,53 0,20 0,33 0,79 1,17 1,23 0,59 0,59 1,02 0,29 0,20 0,38 0,57 0,55 1,32 0,65 0,99 0,79 0,55 0,57 0,54 0,78 0,80 1,00 0,40 0,80 0,65 1,46 0,79 0,63 0,39 0,99 0,35 0,56 0,59 1,50 0,37 0,36 1,50 0,59 0,56 0,60 0,59 1,19 0,79 0,57 0,57 0,60 0,57 0,61 1,00 0,79 0,95 0,60 1,44 L.39 0,80 1,201 0,20 0,27 0,60 0,40 0,37 0,59 0,60 0,80 0,40 0,90 0,80 Сопоставить имеющиеся результаты опробования рудных подсечений с целью увязки тел в пределах разреза. Возможные варианты увязки тел показаны на рис. 27: руды всех подсечений существенно не раз- личаются* по содержанию элемента А (рис. 27, а); руды Северной жилы существенно отличны от Южной и подсеченных скважиной (рис. 27, б); руды Южной жилы отличны от Северной и подсеченных скважиной (рис. 27, в); руды всех подсечений различны (рис. 27, г). План работы 1. Сгруппировать данные опробования рудного подсечения по сква- жине и определить среднее и дисперсию содержаний элемента А. 2. Сравнить руды жил Северной и Южной. Возможно: а) жилы различаются по среднему содержанию и по разбросу — пе- реходим к проверке увязки тел. (см. рис. 27, б; в); б) жилы не различаются ни по среднему, ни по разбросу — перехо- дим к проверке увязки рудных тел (см. рис. 27, а; г); Рис. 27. Возможные варианты увязки рудных тел участка Медвежьего 78
в) жилы различаются по одному и не различаются по другому крите- рию (несогласованность заключения) — переходим к проверке их сход- ства — различия на основе единого критерия, учитывающего характер распределения элемента А в рудах (использовать критерий Колмогорова — Смирнова или Пирсона). 8. Выполнить построение схематического разреза увязки рудных под- сечений или сделать заключение о неоднозначности решаемой задачи (не- достаточность данных, отсутствие резких различий в содержаниях элемен- та А, их распределений в сравниваемых рудных подсечениях). Глава 5 ДИСПЕРСИОННЫЙ АНАЛИЗ 5.1. ПОНЯТИЕ И ЗАДАЧИ Изменчивость случайной величины вызывается одновремен- ным действием целого ряда причин (факторов). Во многих случаях возникает необходимость оценить меру влияния от- дельных факторов и их взаимодействий на изменение иссле- дуемой величины. Возможность разделения суммарного влия- ния всех факторов (изучаемых и неучтенных) на отдельные составляющие основана на свойстве дисперсии, утверждаю- щем, что если на случайную величину X действуют взаимно независимые факторы, то общую дисперсию этой величины можно представить в виде суммы дисперсий, обусловленных ими, влиянием учтенных (изучаемых) и неучтенных (остаточ- ную). Раздел статистики, изучающий влияние факторов на из- менчивость случайной величины, называется дисперсионным анализом. Задача его — выделить те факторы и их сочета- ния, которые оказывают существенное влияние на изменение изучаемой величины. В зависимости от количества учитыва- емых факторов различают однофакторный и многофакторный дисперсионный анализ. Каждый фактор представляет собой переменную величину, изменяющуюся дискретно или непре- рывно. Точечные значения дискретной величины и интерваль- ные непрерывных называют уровнями факторов и обознача- ют цифрами 1, 2, 3 и т. д. 79
Приведем несколько примеров геологических задач, реше- ние которых может быть выполнено с помощью дисперсион- ного анализа. 1. Установить влияние выветривания на изменение содер- жаний элемента А в изучаемых породах (один дискретный фактор — выветривание, может варьировать на уровнях: 1— свежие породы; 2 — выветрелые породы или на уровнях: 1— свежие: 2 — слабо выветрелые; 3 — сильно выветре- лые и т. п.). 2. Определить влияние веса пробы и способа ее отбора на изменение содержаний разведываемого компонента. Фак- тор А — способ отбора пробы дискретный, может варьиро- вать на уровнях: 1 — точечный; 2 — бороздовый; 3 — задир- ковын. Фактор В — вес пробы — интервальный (непрерыв- ный). Уровнями его могут быть: 1 — вес до Xi кг; 2 — вес от Xi кг до х2 кг; 3 — вес более х2 кг и т. д. 3. Установить влияние степени измельченности материа- ла, метода сжигания, изменения силы тока, времени прояв- ления пластинок и исполнителя на воспроизводимость полу- количественного спектрального анализа. Всего пять факто- ров, из них первый, третий, четвертый принимают непрерыв- ные значения, второй и пятый — дискретные, каждый мо- жет варьировать на нескольких уровнях. Значения случайной величины принято обозначать через Xik, Xjjk и т. д. Последний индекс к всегда обозначает номер про- бы, остальные указывают, на каком уровне каждого из факто- ров наблюдается соответствующее значение случайной вели- чины. Если количество значений случайной величины на раз- ных уровнях всех факторов одинаково, то дисперсионный ана- лиз называют равномерным, если различное — неравномер- ным. Как и при решении других задач статистическими мето- дами, при дисперсионном анализе формулируется предполо- жение (нулевая гипотеза Но) о том, что фактор или их вза- имодействие не оказывают существенного влияния на изме- нение величины X. Проверка гипотезы Но проводится с помощью F-критерия Фишера: F=s2A:s2z; F=s2ab : s2z и т. д., где s2A, s2AB —дис- персии, обусловленные фактором или взаимодействием фак- торов, s2z — случайная дисперсия, то есть дисперсия, обус- ловленная неучтенными факторами. Вычисленное значение F сравнивают'с табличным FK(fi, fz) при заданном уровне зна- чимости и имеющихся числах степеней свободы Е и fz. При F3Mn>Fa гипотеза Но отвергается. С вероятностью р = 1—а 80
можно утверждать, что фактор или взаимодействие факторов оказывают существенное влияние на изменение случайной ве- личины. Чтобы выводы при дисперсионном анализе были обосно- ванными, необходимо соблюдать следующие условия: 1. Изучаемые факторы должны быть независимыми. 2. Распределение выборочных данных не должно проти- воречить нормальному распределению или быть достаточно близким к нормальному. 3. Дисперсии, обусловленные ошибками воспроизводимо- сти на разных уровнях одного и того же фактора, должны быть однородными, то есть не должны существенно разли- чаться. Если первое из этих условий не будет выполнено, то есть учитываемые факторы будут зависимы, то выделить влияние каждого из них в отдельности окажется невозможным. Тре- бование нормальности выборочного распределения допускает некоторые отклонения, так как критерий Фишера, используе- мый в дисперсионном анализе, применим и к распределени- ям, отличным от нормальных (путем соответствующих преоб- разований выборочное распределение зачастую удается при- вести близко к нормальному: x'=ilgx; x'=lg(x±a); х'=1 :х; х'— 1 : "J/x; х'=ха). Однородность дисперсий не должна нарушаться и прове- ряется с помощью критерия Кохрена (прил. 2, табл. 14): к G—s2max : X szi, где s2max — наибольшая (проверяемая) дис- 1=1 Персия; к — число проверяемых. Если вычисленное значение меньше табличного при fi=ni—1 (rii — число данных, по ко- торым вычислена проверяемая дисперсия), то дисперсии од- нородны. ' 5.2. ОДНОФАКТОРНЫЙ АНАЛИЗ Пусть случайная величина X изменяется под действием одно- го учтенного фактора А, варьирующего на.а уровнях, причем на каждом из них зафиксировано п значений (замеров), то есть анализ равномерный. В этом случае исходную информацию и вспомогательные вычисления удобно располагать в виде таблицы (см. табл. 19). Далее приводим порядок вычисления. 81
1. Складывают построчные значения xik и получают Сь а ап сумма которых дает C=S Ci=S S xtk— итог колонки 3. 1=1 1=11=1 2. Каждое значение Ci возводят в квадрат и все значения к суммируют. Образуется число C=S Ci2 — итог колонки 4. i=i 3. В колонке 5 проставляют квадраты каждого из наблю- даемых значений. 4. Элементы С/' (колонка 6) образуются построчным сум- мированием квадратов значений случайной величины. Их сумма дает величину а ап C"=ECi"=2 W- 1=1 1=1 1=1 сумму квадратов всех значений выборки. 5. С помощью полученных сумм определяют сумму квад- ратов общих эффектов Q=C"—C2:N; (5.1) сумму квадратов эффектов фактора А Qa= (С': и) —(С2 : N); (5.2) сумму квадратов случайных эффектов Qz=Q—Qa. (5.3) 6. Определяют числа степеней свободы фактора А и слу- чайных факторов fA=a—1 и fz=N—а. (5.4) 7. Вычисляют дисперсию фактора А s2A=QA:fA (5.5) и случайную дисперсию s2z=Qz:fz. (5.6) 8. На основе полученных значений s2a и s2z вычисляют критерий Фишера F=s2A:s2z (5.7) и сравнивают значение с табличным Fa(fA, fz), после чего делают вывод о вкладе фактора А в изменение случайной ве- личины X. 82
9. Вычисляют средние значения на уровнях Xf = Ci: п и оценивают тенденцию их изменения. Пример. Необходимо установить, существенно ли влияет процесс выветривания (фактор А) на изменение плотности пород. Есть данные о замере плотности в све- жих (уровень 1), слабо выветрелых (уровень 2) и силь- но выветрелых (уровень 3) породах. На каждом уровне фактора А замерялось по 4 образца (табл. 19). Таблица 19 Х1к С/ (С/)2 Xi к2 1 2,5 2,6 2,7 2,6 10,4 108,16 6,25 6,76 7,29 6,76 27,06 2 2,5 2,5 2,4 2,6 10,0 100,00 6,25 6,25 5,76 6,76 25,02 3 2,3 2,4 2,5 2,4 9,6 92,16 5,2® 5,76 6,25 5,76 23,06 30,0 300,32 75,14 Имеем: Q : 12=0,08; fz=N—а = =75,14—302: 12=0,14; Qz== 0,14—0,08=0,06; 12—3=9; s2a=0,08:2= QA=300,32 : 4—302 : fA=a—1=3—1=2; =0,04; s2z=0,06: 9= =0,007; F=0,04:0,007=5,5; Fo,o5 (2,9) =4,26; F3Mn> >Fo,o5. следовательно, процесс выветривания существен- но влияет на изменение плотности пород. Общий итог: вклад учтенного фактора в общую дисперсию составля- ет 57% (0,08 из 0,14), неучтенных — 43% (0,06 из 0,14), то есть выветривание обуславливает значительную долю изменчивости плотности пород;.Х] = 10,4 : 4=2,6; х3= = 10,0:4=2,5; х3=9,6 : 4=2,4, то есть выветривание уменьшает плотность пород (приведенное свидетельству- ет, что, решая задачи оценки природы возмущающего объекта геофизических аномалий, необходимо стремить- ся к получению горно-буровыми работами наиболее све- ~ жих разностей развитых на их площадях пород). При осуществлении дисперсионного анализа следует пом- нить, что уменьшение всех значений на постоянную величину дисперсии не меняет, метод использует отношение дисперсий, то есть увеличение в одно и то же число раз каждого значе- ния не изменит конечных результатов. Покажем это на при- мере обработки предыдущих данных. Вычтем наиболее часто встречающееся значение (2.5) и увеличим остатки в 100 раз. 83
Х1к с/ (С/)2 Х1К2 101214 16 0141 6 2 Oi О —1 1 О О О О' 1 1 2 3 —2 —1 О —1 —4 16 4 1 О 1 6 О 32 14 Q=14—О2: 12=14; QA=32:4—О2: 12=8; Qz=14—8=6; fA=3—1=2; fz=12—3=9; S2A=8:2=4; s2z=6: 9=0,7; F=4 : 0,7=5,5, то есть получили то же самое с меньшим объ- емом вычислений. 1 С помощью однофакторного дисперсионного анализа осу- ществляется проверка гипотезы об однородности нескольких независимых выборок. В случае неравномерного однофакторного дисперсионного анализа вычисления проводят с небольшими изменениями. Объем всей выборки N='Snt, где щ — число значений xtk в строке. Сумму квадратов эффектов фактора А вычисляют по формуле Qa=2 (С'(: щ)—СЕ : N. (5.8) i=i 5.3. ДВУХФАКТОРНЫЙ АНАЛИЗ Для равномерного двухфакторного дисперсионного анализа исходную информацию и вспомогательные вычисления рас- полагают в виде таблицы (см. табл. 21). Вычисления прово- дят в следующем порядке: _ п 1. В колонке 5 записывают построчные суммы Сц=Е Хци к=1 значений случайной величины (наблюдаемых на i-м уровне фактора А и j-м уровне фактора В). Сумма их дает a b к С = У У, У, хцк — сумму всех значений выборки. i=l i=l i=l 2. В колонке 6 полученные суммы Cij возводят в квадрат, а Ъ образуют 2 2 Cjj2 . i=l i=l 84
3. В колонке 7 суммируют значения случайной величины, наблюдаемые только на i-м уровне фактора А. 4. Данные колонки 8 образуются возведением в квадрат сумм Cia, вычисленных в колонке 7. Полученные значения а суммируют и получают S C2ia- Аналогично образуются дан- 1=1 ь ные колонок 9 и 10 и сумма 2 C2jB для значений случайной j=i величины, наблюдаемых на одном и том же уровне факто- ра В. 5. Колонку 11 получают возведением в квадрат каждого из значений хци. 6. Построчное суммирование элементов колонки 11 дает элементы колонки 12, сумма которых образует а b п с'=2 2 W i=i 1=1 i=i 7. По полученным суммам вычисляют суммы квадратов соответствующих эффектов: ' а) общих — Q=C'—C2:N, где N—abn; ' (5.9) б) каждого из факторов — 1 а С2 ’ 1 Ь С2 2 Си" - :'QB = 2 V - т; (5.10) в) взаимодействия — lab la 1 b Г2 Оав - v 2 S - ^2 Си" - 2 V + ; (б-") г) случайных — Qz=Q—Qa—Qb—Qab. (5.12) 8. Определяют числа степеней свободы по формулам: fA=a—1, fB=b— 1; fAB= (а—1) (b—1); fz=ab(n—1). (5.13) 9.. Вычисляют дисперсии каждого фактора, взаимодейст- вия факторов и случайную дисперсию: s2a=Qa’• Ьа; s2b=Qb : 1гь s2Ab=Qab : Нв; s2z=Qz: fz. (5.14) 10. Для каждого фактора и их взаимодействия вычисляют критерии Фишера: Fa=s2a : s2z; FB=s2B : s2z; Fab=s2ab : s2z, (5.15) которые сравнивают с табличными FK(fi, fz) при принятом 85
уровне значимости и имеющихся числах степеней свободы. В зависимости от результатов сравнения нулевая гипотеза при- нимается или отвергается. ( Пример. Установить влияние спектроскописта (фак- тора А) и воспроизводимости расшифровки спектро- грамм во времени (фактор В) на достоверность резуль- татов спектрального анализа. Для решения этого вопро- са проведена двойная расшифровка почернений спектро- грамм 5 проб с известными содержаниями двумя спек- троскопистами. Результаты анализа (отношения к истин- ному содержанию) приведены в табл. 20. Таблица 20 № пробы Первый спектроскопист Второй спектроскопист Первое оп- ределение Второе опреде- ление Первое оп- ределение Второе оп- ределение 1 1,5 1,5 0,8 1,о 2 1,0 1,0 1,0 1,0 3 1,5 2,0 1,0 1,0 4 1,0 1,0 0,6 0,8 5 1,0 1,0 1,0 1,0 Расчет д^ухфакторного дисперсионного анализа по этим данным приведен в табл. 21. Таблица 21 № опы- та Уровни факторов XijH Cli Ct-2 М] Ci а А В 1 1 1 1,5 1,0 1,5 1,0 1,0 6,0 36,00 2 1 2 1,5 1,0 2,0 1,0 1,0 6,5 42,25 12,5 3 2 1 0,8 1,0 1,0 0,6 1,01 4,4 19,36 4 2 2 l,0i 1,01 1,0 0,8 11,0 4,8 23,04 9,2 21,7 120,65 86
Продолжение табл. 21 Ь1А С,в CjB2 X г11к с/ 2,25 1,00 2,25 1,00 1,00' 7,50 156,25 10,4 108,16 2,25 О',64 1,00 1,00 4,00 1,001 1,00 0,36 1,00 1,00 9,25 4,00 84,64 240,89 11,3 127,69 235,85 1,00 1,0'0 1,00 0,64 1,00 4,64 25,39 На основе суммарных значений по колонкам 5, 6, 8, 10, 12 имеем: Л осоп 21,72 1ОС.Л 240,89 21,7* п гг Q — 25,39 go — 1,8о , Qa — ~~20 ~~ 212? ’ Л 235,85 21,72 Qb = -jo-------20~ ~ 0,04 ’ Л 120,65 240,89 235,85 , 21,72 п ЛП йдв = —-----------jo-------10“ + ~2G~ = °’00 ; Qz = 1,85—0,55—0,04=1,26; fA= fB=fab = 1; fz=2X2(5—1) = 16; s2a=0,55; s2b=0,04; s2Ab=0,00; ^ = -^ = °’08’Fa-W^6’88: F» = W“°'S0; Fab=0; Fo,05(1,16) =4,49. Значение FA превышает табличное, что свидетельствует о существенном влиянии фактора А на достоверность результа- тов спектрального анализа. Значения FB и Fab меньше таб- личного, фактор В и взаимодействие АВ на достоверность анализа влияния не оказывают. Вклад спектроскописта — 30% (0,55 из 1,85), воспроизводимости — 2% (0,04 из 1,85), совместного влияния изучаемых факторов — 0%. Суммарный вклад учтенных факторов составляет 32%, неучтенных — 68 87
(1,26 из 1,85). На достоверность спектрального анализа, кро- ме учтенных факторов, влияют степень измельчения материа- ла, метод сжигания проб, сила тока, время проявления пла- стинок и множество других факторов; они и обуславливают основную изменчивость процесса анализа. Приведенный пример является иллюстративным, показывающим порядок расчета и смысловую трактовку получаемых результатов. Для оценки достоверности спектрального анализа приведенных данных явно недостаточно. Автор многократно сталкивался с затруднениями геоло- гов по восприятию факта существенности влияния на измене- ние изучаемой величины сочетаний признаков при несущест- венном влиянии каждого из них в отдельности. Далее на ил- люстративном геологическом примере сделана попытка объяс- нения существа подобного явления. Пример. Оценить степень влияния состава пород (фактор А, уровни: 1 — карбонатные породы, 2 — си- ликатные) и вида метасоматического их преобразования (фактор В, уровни: 1 — скарнирование, 2 — альбитиза- ция) на степень концентрации полезного ископаемого. Исходная информация по восьми месторождениям (в скобках — оцифровка признаков); Ns объекта Крупность месторож- дения Вмещающие породы Околорудное изменение 1 мелкое (1) силикатные (2) скарнирование (1) 2 среднее (2) силикатные (2) альбитизация (2) 3 крупное (3) карбонатные (1) скарнирование (1) 4 мелкое (1) карбонатные (1) альбитизация (2) 5 среднее (2) карбонатные (1) альбитизация (2) 6 крупное (3) силикатные (2) альбитизация (2) 7 мелкое (1) силикатные (2) скарнирование (1) 8 среднее (2) карбонатные (1) скарнирование (1) Качественный анализ данных свидетельствует, что место- рождения различной крупности встречаются в тех и других породах, сопровождаются одинаковыми изменениями их. Результаты счета приведены в табл. 22. 88
Таблица 22 2112398 64 145 2 2 3 2 5 25 7 49 9 4 13 15 63 ИЗ ИЗ 33 Имеем: Q=33—152 : 8 = 5; s2A=0; s2B=0; QA = 113 : 4—-152: 8»0; szAB=4:l=4; Qb=113:4—152:8«0; s2z= 1 : 4=0,25; QaB=63:2—113:4— —113:4+152: 8=4; FA=0; FB=0; Qz=5—0—0—4=1; Fab=4 : 0,25= 16; fA=fB=fAB=l; F0>05(l,4)=7,71. fz=4; Так как FA и Fb меньше табличного, то можно утверждать, что влияние каждого из учтенных факторов в отдельности не- существенно, в то время как совместное их действие оказы- вает значимое влияние на изменение величины запасов ме- Рис. 28. Графическая интерпретация влияния факторов породы (А) и око- лорудное изменение ее (В) на ру- доотложение Qt сторождения (Fab5>F0i05 (1,4)). Общий итог: вклад влияния состава пород — 0%, вида изменения — 0%, совместного вли- яния этих факторов — 80%, неучтенных — 20%. Учтенные факторы обуславливают большую часть влияния всех воз- 89
можных на изменение изучаемой величины. Графическая ин- терпретация полученного дана на рис. 28. Для сочетания AiBi; А2В2 имеем крупность объектов (2+3) : 2=2,5, тогда как для A[B2 и В]А2 — только 1,5. То есть для концентрации полезного ископаемого благоприятны зоны скарниров^дия карбонатных пород и участки альбитизации силикатных, а не просто те или иные породы или те или иные проявления око- лорудного изменения их. Установление различия нескольких выборок может быть осуществлено с помощью непараметрического однофакторно- го дисперсионного анализа, который не требует нормально- сти распределений и однородности дисперсий [17]: 12 k R-2 Н “ W+T) S + - 3 (N + ') • где к — число сравниваемых выборок объемом nt каждая; N — общее число данных; Ri — сумма рангов i-й выборки в общей совокупности данных. При щ>5 статистика Н распре- делена как %2 с (к—1) степенями свободы. Вычисление Н покажем на примере сравнения пород по плотности (см. гл. 4), для которых различие было установле- но с помощью критериев Вилкоксона и Колмогорова-Смир- нова. Имеем R] = 18, П|=5, R2 = 102, п2=10. н 12 ( 182 1022 \ , Н 15-16 ( 5 + 10 j 3 (15+ 7,2 ’ Полученное больше Fo,05— 3,84, то есть гипотеза об отсутст- вии различия сравниваемых пород по плотности отвергается. 5.4. МАТЕРИАЛ ДЛЯ ПРАКТИЧЕСКИХ ЗАНЯТИЙ Решение типовой задачи Задача 1. В пределах трех горизонтов сульфидного месторождения ото- брано по 4 пробы с определением содержания меди. Оценить влияние фактора «окисление» на изменение содержаний изучаемого элемента. Ис- ходные данные приведены в табл. 23. Таблица 23 Уровни фактора А Содержание меди, % Поверхность 0,51 Горизонт — 30 м 0,52 Горизонт — 60 м 0,42 01,52 0,56 0,57 0,54 0,56 0,58 0,44 0,50 0,52 90
Решение. Воспользуемся тем свойством дисперсии, что изменение всех значений признака на постоянную величину не меняет значений дисперсии, вычтем из всех значений содержания величину 0,52 и полученные разно- сти увеличим в 100 раз. Преобразованные данные приведены в табл. 24. Таблица 24 А . Хи< Ci Ci2 Х21к С/ Ai — 1 0 4 5 8 64 1 0 16 25 42 А2 0 2 4 6 12 144 0 4 16 36 56 Аз -10 —8 -2 0 —20 0 400 608 100 64 4 0 163 266 Сумма квадратов общих эффектов: 266—(О2:12) =266. Сумма квадратов эффектов фактора «окисление»: 608:4—(О2: 12) = 152,0. Сумма квадратов случайных эффектов: 266—152,0=114,0. Число степеней свободы фактора и случайных неучтенных эффектов — 3—1=2 и 12—3=9. Дисперсии фактора и случайных эффектов — 152,0:2 = = 76,00 и 114,0:9=12,7. Критерий Фишера — 76,00; 12,7=6,0. Полученное значение больше допустимого (прил. 2, табл. 9), равного 4,26. Влияние фактора «окисление» на изменение содержаний меди по го- ризонтам существенное. Доля влияния составляет 152,0 : 266X100«57%. Средние значения на различных горизонтах 0,54; 0,55; 0,47; то есть при переходе от поверхности к горизонту — 30 м среднее содержание ме- ди увеличивается, а с переходом к горизонту — 60 м уменьшается до значений меньших, наблюдавшихся с поверхности (по всей видимости, име- ем дело с зоной окисления, зоной вторичного обогащения, зоной первич- ных руд). Задачи для самостоятельного решения 1. Вмещающие породы представле- ны пятью разновидностями. Из каж- дой разновидности отобрано по 4 про- бы, в которых определено содер- жание изучаемого элемента. Устано- вить, влияет ли фактор «разновид- ность породы» на изменение концент- раций содержания элемента. 2. Имеются данные о содержании изучаемого элемента по четырем бло- кам месторождения с севера на юг. Оценить влияние фактора «изменчи- вость по простиранию» па изменение содержаний основного компонента в рудах месторождения. Уровни фактора Содержания изуча- емого элемента 1 0,42 0,55 0,67 0,67 2 0,66 0,91 0,96 0,98 3 0,35 0,50 0,60 0,69 4 0,64 0,70 0,79 0,81 5 0,70 0,79 0,88 0,90 03 5 °- Ш ь Содержания изучае- сч го мого элемента 1 0,6 0,7 0,8 1,1 2 0,6 0,7 1,1 1,2 3 0,9 1,2 1,3 1,4 4 0,7 0,9 1,0 1,0 91
3. Жила полиметаллической руды пересекает семь разновидностей вме- щающих пород. Оценить, влияет ли фактор «порода» на изменение объем- ного веса руды. Исходные данные (по семь замеров объемного веса руд жилы в пределах каждой из разновидностей вмещающих пород) приве- дены ниже._____________ Уровни фактора Значения объемного веса 1 2,95 2,50 2,55 2,80 2,80 2,60 2,75 2 2,60 2,95 2,70 2,90 2,65 3,25 2,50 3 2,65 2,75 2,80 2,75' 2,60 3,00 3,40 4 ' 2,55 2,85 2,60 2,65 здо 2,70. 3,10 5 2,75 2,45 2,90- 3,00 2,50 3,00 2,60 6 2,80 2,50 2,85 2,95 2,95 2,90 3,40 7 2,60 2,55 2,70 2,70 2,95 2,80 3,15 4. Оценить влияние фактора А (мощность жилы), фактора В (глубина ее залегания), а также их совместные влияния на среднее содержание разведываемого компонента. Исходные данные (содержания .разведывае- мого компонента) приведены в табл. 25. Уровни фактора А: 1 — мощность от 5 до 15 см; 2 — от 15 до 25; 3 — от 25 до 35; 4 — от35 до 45; уро- вни фактора В:1 — верхний горизонт; 2 — средний; 3-—нижний. Таблица 25 Уровни факто- ра А Уровни фактора В 1 2 3 1 1,0 5,0 6,0' 1,0 3,0 5,0 2,0 3,0 7,0 2 2,0 2,0 5,0 2,0 5,0 8,0 3,0 8,0 10,0 3 1,0 4,0 10,0 2,0' 2,0 и.о 6,0 7,0 8,0 4 - 5,0 10,0 12,0 2,0' 10,0 15,0 4,0 7,0 10,0 5. В пределах одного из месторождений необходимо оценить влияние факторов А (метод опробования) и В (положение опробуемого участка относительно оси складки) на содержание разведываемого компонента. Фактор А изменяется на пяти уровнях, фактор В — на трех. Исходные данные приведены в табл. 26 (содержания в условных единицах). Таблица 26 Уровни факто- ра А Уровни.фактора В 1 2 3 1 81 64 16 9 81 36 25 0 36 25 16 121 2 81 9 ч 4 0 1 1 4 1 9 25 25 3 9 4 О' 1 4 1 1 4 1 16 16 49 4 9 0 1 4 1 0 9 36 1 О' 1 -16 5 0 0 4 4 1 4 9 1’6 4 0 25 81 92
Контроль знаний по главе 5 По какой формуле при однофакторпом дисперсионном анализе опре- деляются: сумма квадратов общих эффектов, сумма квадратов эффекта оцениваемого фактора, число степеней свободы случайных эффектов, дис- персия фактора, критерий Фишера для оценки значимости влияния факто- ра на изменение изучаемой величины; при двухфакторном: сумма квадра- тов общих эффектов, сумма квадратов взаимодействия факторов; число степеней свободы взаимодействия факторов; дисперсия взаимодействия факторов; критерий Фишера для оценки значимости взаимодействия факто- ров на изменение случайной величины? На плакате или листах с вопросами, выдаваемых студентам, должны быть правые части формул (5.1)—(5.15). Глава 6 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ 6.1. ПОНЯТИЕ И ЗАДАЧИ Известно, что промышленные скопления магнетитовых руд обычно обнаруживают там, где фиксируется магнитная ано- малия, то есть между величиной запасов таких руд Q и ин- тенсивностью магнитного поля Z существует определенная за- висимость,- но зависимость, отличная от называемых в мате- матике функциональными, когда каждому значению,Xi (аргу- мента) соответствует конкретное значение yi (функции). Зависимость между массой руды и магнитным полем ослож- няется магнитностью вмещающих пород, глубиной залегания рудных тел, залеганием их и другими факторами. Между случайными переменными X и Y существует кор- реляционная зависимость, если каждому значению независи- мой переменной X соответствует некоторое распределение пе- ременной Y, причем с изменением значений х( закономерно изменяются математические ожидания у, этих распределений. Примерами корреляционных зависимостей в геологии мо- гут служить связи между содержаниями изучаемого компо- нента и удельным весом руды, между содержаниями опреде- ленных элементов в породе и ее радиоактивностью, между ве- личиной давления бурового снаряда на забой и скоростью бу- рения и т. п. По тесноте различают связь сильную, среднюю и слабую; по характеру — прямую (с увеличением значений одного па- 1 93
раметра увеличиваются значения второго) и обратную (с уве- личением значений одного, значения другого уменьшаются); по форме — линейную и нелинейную (рис. 29). У Рис. 29. Графическое представление корреляци- онных зависимостей: а — сильная; б — средняя; в — слабая; г •— отсутствует; а—в — прямая; д — обратная; а—в, д — линейная; е — нели- нейная Изучение корреляционных зависимостей проводится таб- личным, графическим й аналитическим мегодами. При табличном изучении корреляционных связей зави- симость между величинами X и Y задается двумерной табли- цей, называемой корреляционной решеткой. Составляется она тем же способом, что и ряды распределения, но здесь надо разносить каждую пару данных одновременно по классам значений xt и yt. На основе данных таблицы распределения можно сделать вывод о характере зависимости между X и Y. Однако ясно ответа на вопрос о силе и форме связи она не дает (табл. 27). Каждому интервалу значений интенсивности магнитного поля соответствует определенное распределение запасов, при- чем с изменением Z распределения Q изменяются в сторону больших значений. Графическим изображением совокупности всех пар зна- чений (xi, уО является множество точек плоскости, образую- щих поле корреляции (рис. 30). Поле корреляции также не дает ясного представления о характере зависимости между X и Y. Более четко она проявляется, если построить график за- висимости между значениями х, переменной X и средними значениями yi переменной Y. График дает наглядное пред- ставление о зависимости между величинами X и Y и позволя- ет делать некоторые выводы о ее характере и форме (рис. 31). 94
Таблица 27 15—25 2 1 1 25—36 1 3 2 35—45 1 3 45—55 — 1 1 55—65 — — 1 65—7i5 _ _ _ 75—85 _ _ _ 85—95 — _ _ 1 1 — — — 2 1 1 — — 3 3 11 — 2 4 Il- li 3 1 1 -112 1 — — 1 2 80 60 40 о & оо а • До о о____________4Z 10 20 30 40 20 Рис. 30. Поле корреля- Рис. 31. Линия регрес- ции сии Наиболее полный метод изучения корреляционных зави- симостей — аналитический, состоящий в установлении число- вых показателей меры и формы зависимости между X и У. Основные из них — корреляционное отношение и коэффици- ент корреляции. 6.2. ПАРНАЯ КОРРЕЛЯЦИЯ Оценка связи между двумя признаками осуществляется с по- мощью корреляционного отношения и коэффициента корре- ляции. Корреляционным отношением ц называется отношение ме- ры рассеяния условных средних зависимой переменной к ме- ре рассеяния всех значений зависимой переменной, то есть т] = о (у,) : о (у), где у — значения, принимаемые зависимой 95
переменной; yi —условные средние, соответствующие значе- ниям Хь По выборочным данным вычисляют выборочное кор- реляционное отношение n-Sfyi) : S(y). (6.1) Значение т| изменяется от 0 до 1. Равенство т]=0— необхо- димое и достаточное условие отсутствия корреляционной за- висимости. При т] = 1 корреляционная связь переходит в функциональную s(yi)=s(y), когда все значения перемен- ной, соответствующие определенному Xi, совпадают с yi, то есть каждому конкретному значению Xj соответствует одно- единственное у, (рис. 32). Равенство s(yi)=0 возможно, у . * - i i j & : • , o I, Xj Xj I4 I* Рис. 32. Разброс значений зави- симой переменной у и ее ус- ловных средних у когда все у,—у, то есть лежат на одной линии (аргумент из- меняется, функция не реагирует, связи нет). Коэффициент корреляции вычисляется по формуле S (xi—х) (yt—у) 9 (п— l)s(x)s(y) ’ 1 и представляет собой правильную дробь, изменяющуюся от — 1 до +1. При г>0 зависимость прямая, при г<0 — об- ратная, г=0 свидетельствует об отсутствии линейной связи, но не является показателем независимости X и Y. При |г| = 1 между X и У устанавливается линейная функциональная за- висимость вида у=ах-)-Ь. Доказано, что всегда t]>|r|. Ра- венство т] = | г | имеет место только в случае, когда зависи- мость между X и Y линейная, то есть это равенство может служить простейшим критерием линейности зависимости X и Y. Более строгая оценка линейности связи — критерий t= =k : 6k, где к=ц2—г2 — мера криволинейности: 6k — ошибка к, вычисляемая по формуле 6к=2Ук+к2 (2—г]2—г2) :fn. Если 96>
t3Mn<ta, связь может быть признана линейной. Последова- тельность вычислительных операций при определении коэф- фициента корреляции покажем на примере. Пример. Результаты анализа 15 проб руды на эле- менты X и Y приведены в табл. 28 (колонки 1, 2). Не- обходимо установить, существует ли линейная связь между изменениями содержания элементов в рудах? Таблица 28 Х1 У1 Х1—X У1—У (xi—х)2 (У1—У)2 (Xi—х) (У1—у) 0,1 1,1 —0,3 —2,0 0,09 4,00 0,60 0,6 4,4 0,2 1,3 0,04 1,69 0,26 0,4 2,3 0 —0,8 0' 0,64 0 0,5 3,9 0,1 0,8 0,01 0,54 0,08 0,2 1,5 —0,2 —1,6 О',04 2,56 0,32 0,3 2,2 —0,1 —0,9 0,01 0,81 0,09 0,4 2,6 0 —0,5 О' 0,25 0 0,5 4,2 0,1 1,1 0,01 1,21 0,11 0,2 1,9 —0,2 —1,2 0,04 1,44 0,24 0,7 5,5 0,3 2,4 0,09 5,76 0,72 0,4 2,9 0 —0,2 0 0,04 0 0,3 2,4 —0,1 —0,7 0,01 0,49 0,07 0,5 4,2 0.1 1,1 0,01 1,21 0,11 0,3 2,6 —0,1 —0,5 0,01 1,25 О',05 0,6 4,8 0,2 1,7 0,04 2,89 0,34 6,0 46,5 0,40 23,88 2,99 На основе суммарных значений по колонкам 1, 2, 5, 6, 7 имеем: х=6,0: 15=0,4; У=46,5 : 15=3,1; s(x)= У0,40 : 14=0,17; з(у)=У23,88: 14=1,31; гку=2,99: (14X0,17X1,31)=0,96. Для вычисления корреляционного отношения необходимо сгруппировать исходные данные по значениям независимой переменной и применить формулу (3.1). Для расчетов удоб- нее пользоваться следующими формулами вычисления квад- ратичных отклонений: S(У1) =у ((2yi2ni) : п) —у2; s(у) = y(Syi2:n)—у2, которые следуют из четвертого свойства дисперсии. 4-418 97
Расчет корреляционного отношения показан в табл. 29. Таблица 29 Х1 Содержание, yi 2yi П1 У1 У12 У12гн 0,1 1,1 1,1 1 1,1 1,21 1,21 0,2 1,5 1,9 3,4 2 1,7 2,89 5,78 0,3 2,2 2,4 2,6 7,2 3 2,4 5,76 17,28 0,4 2,3 2,6 2,9 7,8 3 2,6 6,76 20,28 0,5 3,9 4,2 4,2 12,3 3 4,1 16,81 50,43 0,6 4,4 4,8 9,2 2 4,6 21,16 42,32 0,7 5,5 . 5,5 1 5,5 30,25 30,25 167,55 На основе полученной суммы имеем: s(У1) = ]/(167,55: 15)—3,12= 1,26; s(у) = 1,31 (вычислено ранее); т] = 1,26: 1,31=0,96. Так как получен- ные значения г и ц равны между собой и близки к единице, то можно утверждать, что связь между содержаниями эле- ментов X и Y в изучаемых рудах тесная, линейная. Мерой рассеяния г и ц служат их основные ошибки, вы- числяемые по формулам бг=У(1-г2) : (п-2); 6ч=У(1-п2) : (п-2). (6.3) Значимость коэффициента корреляции определяется кри- терием t=r : 6Г. Если вычисленное гэмп больше табличного (прил. 2, табл. 5) при f=n—2, то коэффициент корреляции значимый. Аналогично определяется значимость корреляци- онного отношения. Пример. На основании обработки данных получено значение коэффициента корреляции, равное 0,80. Ко- личество проб 55. Определить, является ли полученный коэффициент значимым? Ошибка 6Г=У(1—0,64) : (53) =0,10, t=0,80:0,10> >8. Полученная величина больше табличной, следова- тельно, коэффициент корреляции является значимым. Значимость коэффициента корреляции может быть про- верена и по таблице критических значений коэффициента кор- реляции для различных объемов выборки (прил. 2, табл. 12). При п=55, го,05=0,26. Полученное значение г=80 больше табличного, что подтверждает значимость вычисленного ко- эффициента. 98
Основные ошибки коэффициента корреляции и корреля- ционного отношения позволяют определить доверительные интервалы для соответствующих параметров г и ц (в случае нормальности распределений): г—^r-J-ta6r; Т]—ta6n<T]< -f-tafit). Пример. Определить доверительный интервал ко- эффициента корреляции, если г=0,80 и 6г=0,03, при- няв а=0,05. Имеем: 0,80—1,96 X 0,10<г<0,80+1,96X0,10 или 0,60<г<1,00. Для оценки достоверности коэффициента корреляции, су- щественности различия двух его значений, а также для пост- роения доверительного интервала более надежно пользовать- ся критерием Фишера. Для вычисленного значения г (прил. 2, табл. 13) определяют величину z-0,51n^-±|, (6.4) где z — случайная величина, распределение которой близко к нормальному. Ошибка z оценивается по формуле 6z = l:Vn—3, (6.5) то есть зависит только от объема выборки. Критерий надеж- ности z — t=z : 6Z. При t9Mn>ta, г значимо. Доверительный интервал для коэффициента корреляции с помощью величины z находят следующим образом. По z и 6Z определяют значения Zj=z—ta6z и z2=z+ta6z, на основе которых по табл. 13 приложения определяют соответствую- щие им значения п и г2, являющиеся доверительными гра- ницами для г, то есть ri<f<r2. Пример. Определить доверительный интервал для коэффициента корреляции г—0,80 при п=55. Приняв а=0,05, находим (прил. 2, табл. 13), что г=0,80 соответствует величина z = l,099. При имеющем- ся числе данных: 6Z= 1 : ]/52==0,139, Zi = 1,099—2,0Х X 0,139=0,821; z2 = 1,099+2,0x0,139= 1,377. По полу- ченным значениям и z2 находим граничные значения коэффициента корреляции 0,68<г<0,88. Величину z можно использовать для проверки существен- ности различия двух выборочных коэффициентов корреля- ции. Ошибка разности 6z,-Z2=yi : (п,-3) + 1 : (п2-3), (6.6) где П1 и п2 — объемы выборок, для которых вычислены зна- 4» 99
чения ti и г2. Если величина t=|zi—z2| : 6Z1_Z2 больше ta(f), то с вероятностью р=1—а можно утверждать, что различие между п и г2 значимое. Пример. В результате статистической обработки дан- ных по содержаниям меди и никеля в двух типах руд (сливных и вкрапленных) получены коэффициенты кор- реляции 0,75 и 0,60). Количество проб сливных руд 28, вкрапленных 53. Существенно ли различаются руды по тесноте связи между элементами медь—никель? Для Г]=0,75 (прил. 2, табл. 13), Zj=0,973; для г2= =0,60, z2—0,693. Основная ошибка 6Z1-Z2=yi (28—3)4- + 1 : (53—3) =0,245; t = 10,973—0,6931 : 0,245= 1,1. Табличное значение to,os(78) —1,99 по тесноте связи ме- жду содержаниями меди и никеля изучаемые руды не различаются (нет основания говорить о различии на ос- нове имеющихся данных). Оценка тесноты связи может использоваться для сравне- ния выборок. Допустим, имеются данные о содержаниях двух элементов в сравниваемых породах: массив А элемент Х = 1, 2, 3 и элемент Y=l, 2, 3; массив В, соответственно, 1, 2, 3 и 3, 2, 1. Для приведенных данных все статистические парамет- ры одинаковы и различить породы невозможно. В то же вре- мя видно, что в породах массива А с увеличением содержа- ний одного элемента увеличивается и содержание другого, то- гда как в породах массива В уменьшается (рис. 33). Для Рис. 33. Линии зависимостей между содержаниями в сравниваемых по- родах: А — прямая; В — обратная массива А имеем прямую, для массива В — обратную связь между содержаниями изучаемых элементов. За счет перехода к двумерной модели два неинформативных признака образо- вали один информативный признак характера связи. 6.3. МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ Корреляция двух случайных величин X и Y — частный случай более распространенной в окружающей нас действительности 100
множественной корреляции, когда изменение одной из пере- менных зависит от изменения множества других. При иссле- довании таких связей возникает две существенно отличных друг от друга задачи: определение тесноты связи между па- рами факторов, когда влияние других исключено, тесноты ли- нейной зависимости между одним из факторов (функцией) и остальными (аргументами). Показатель, характеризующий тесноту линейной связи ме- жду двумя признаками X и Y, когда влияние других факторов исключено, называется частным коэффициентом корреляции. Для трех признаков — X, Y, Z могут быть вычислены следую- щие частные коэффициенты корреляции: взаимодействие ме- жду X и Y при фиксированном Z — __ ______rxz—rXyXrzy ХУ’2- У (1--r2xz) (1-r2yz) , ’ взаимодействие между X и Z при фиксированном Y. __ rxz—ГхуХггу_________ XZ’y_ Г(1-Г2Ху) (l-r2yz) ’ взаимодействие между Y и Z при фиксированном X (6.7) (6.8) г ____ _____ryz ryxXrzX_ yZ‘X“ V (l-r2yx) ( l-r2zx) ' Значимость частных коэффициентов корреляции определяют так же, как и парных, при f=n—(m-|-2), где m — число за- крепляемых признаков. Пример. В результате обработки данных анализа пя- тидесяти проб на элементы X, Y, Z получены следующие статистики: х = 1,00; у=30,00; z = 10,00; s(x)=0,50, s (у) =10,00; s(z)=5,00; rxy=0,60; rxz=0,80; ryz=0,70. При n=50 rc,5=0,26, то есть полученные коэффициенты являются значимыми. Частные коэффициенты корреля- ции: = 0,60-0,80-0,70 xy'z V (1-0,80s) (1 - 0,702) _ 0,80-0,60-0,70 гм.у ~ _о,6О2)(1 -0,70») = 0,70-0,80-0,60 yz.x - у (1 _ 0,802)(1 - 0,602) 101
Коэффициент корреляции между X и Y при закрепленном Z стал незначим, то есть связь между ними обусловлена вза- имодействием содержаний этих элементов с содержаниями элемента Z. Связь между содержаниями элементов Y и Z, X и Z стала слабее, чем без закрепления содержаний третьего элемента, но осталась значимой, то есть существует в приро- де, а не обусловлена влиянием третьего. Показателем тесноты связи между одним из факторов и остальными является коэффициент множественной корреля- ции. Для зависимости X от Y и Z его вычисляют по формуле Р _ j /" r2xy4~r2xz—2rxyl'xzZyz (6.10) I 1—r2yz где R — положительное число, изменяющееся в пределах от 0 до 1. Равенство R=0 свидетельствует об отсутствии линей- ной связи между X и остальными переменными; при R = 1 связь линейная функциональная. Множественный коэффици- ент корреляции всегда не меньше соответствующих парных коэффициентов корреляции, то есть Rx^|rxy|; Rx^|rxz. Значимость коэффициента множественной корреляции опре- деляется с помощью табл. 12 (прил. 2), при t=n—m—2, где m — число признаков. Пример. Определить множественный коэффициент корреляции для зависимости элемента Z от элементов X и Y, используя данные предыдущего примера: Л0,80а+0,702—2X0,80X0,70X0,60 п ое ------------1=ож-------------- =0А Так как PaMn=O,85>Ro,o5 (45) =0,29, то полученное зна- чение множественного коэффициента корреляции следу- ет считать значимым. RZ= 1/ 6.4. СТАТИСТИКИ СВЯЗИ ДЛЯ ПОРЯДКОВЫХ И КАЧЕСТВЕННЫХ ПРИЗНАКОВ В геологической практике встречается немало задач, в которых необходимо оценить тесноту зависимости между при- знаками, не поддающимися количественному измерению, на- пример, между двумя элементами, содержания которых оце- нены значениями — не обнаружено, следы, меньше 0,001, или установить, есть ли связь между ориентацией магнитной ано- 102
малии (меридиональная, северо-восточная, широтная, севе- ро-западная) и природой возмущающего объекта (рудная, нерудная). В первом случае рассматривают два признака, каждый из которых может быть упорядочен по своим значениям, то есть расположен в порядке возрастания или убывания этих значе- ний. Во втором случае возможно только сгруппировать объ- екты изучения по принадлежности к той или иной качествен- ной группе (ориентировке, рудности). Мерой связи для зави- симостей первого вида является показатель корреляции ран- гов р, для второго — коэффициент взаимной сопряжен- ности К. Корреляции рангов. Если пронумеровать объекты, упоря- доченные по какому-либо признаку, то такая совокупность будет называться ранжированной. Пример. В результате осмотра шести образцов оп- ределенных пород получены следующие значения содер- жаний минерала А: мало, нет, очень мало, очень много, много. Расположив их в порядке возрастания и пронуме- ровав, получим ранжированную совокупность: содержание [зет очень мало мало много очень много ранг 12 345 Если среди объектов есть несколько, обладающих одним и тем же значением признака X (численным или качественным), то их предварительно располагают один за другим, а затем каждому присваивают ранг, равный среднему арифметическому их предварительных рангов. Для данных: нет, нет, нет, очень мало, мало, мало, ма- ло, много, очень много, очень много, — будем иметь: очень очень значение [ нет мало мало много много ранг 12 4 6 8 9,5 (2 получено как среднее из: нет — 1, нет — 2, нет — 3 (14-2+3) :3=2). Теснота связи для порядковых признаков характеризуется показателем корреляции рангов, который определяют форму- лой . 6 Е d2 ₽=1 ~(n»~- 1) n ’ <611) 103
где d — разность между рангом признака X и рангом соответ- ствующего ему признака У; п — объем совокупности (число пар значений Xi, Yi). Показатель корреляции рангов изменяется в пределах —1<р<1. При р=0 линейная связь между признаками от- сутствует, при р=±1 связь функциональная. Значение р>0 свидетельствует о прямой зависимости между изучаемыми признаками, р<0 — обратной. Пример. В табл. 30 приведены содержания элемен- тов А и В в десяти пробах пород по данным полуколи- чественного спектрального анализа. («—» означает, что содержание элемента не обнаруживается, а «сл»—очень мало, на пределе чувствительности анализа). Опреде- лить тесноту связи между содержаниями изучаемых эле- ментов. Таблица 30 Содержание элементов Ранг Исправленный ранг Разность рангов А Б Ra Re Ra Rb М| d2 — СЛ 1 3 1,5 4,0 2.5 6,25 0,001 <0,001 9 6 9,5 7,0 2.5 6,25 сл сл 3 4 4,0 4,0 0 0> <0,001 <0,001 6 7 7.0 7,0 0 0 — — 2 1 1,5 1,5 0 0 сл — 4 2 4,0 1.5 2,5 6,25 <0,001 <0,001 7 8 7,0 7.0 0 0 0,001 0,001 10 9 9,5 9,5 0 0 сл сл 5 5 4,0' 4,0 0 0 <0,001 0,001 8 10 7,0' 9,5 2,5 6,25 Сумма 25,00 Имеем: р = 1—(6X25,0 : 10(102—1)) ==0,85. Распределение коэффициента ранговой корреляции близ- ко к нормальному с основной ошибкой бр=1 : —1. Оценка значимости проводится методами, аналогичными оценке г, при f=n—1. Пример. Оценить значимость коэффициента ранго- вой корреляции, полученного в предыдущем примере. Принимаем а=0,05; бр=1:У10—1 = 0,33; 1=0,85: : 0,33=2,58. Так как 1эмп>1о,о5(7) = 2,37, то говорить об отсутствии связи между содержаниями элементов в изучаемых породах основания нет. Связь устанавливает- 104
ся сильная. Естественно, что при обработке реальных данных желательно иметь большее число проб. Коэффициент взаимной сопряженности. Рассмотрим зави- симость между двумя качественными признаками А и В, ко- торые принимают значения Аь Az, ..., А’ю и Bi, В2, ..., Вг. Ме- рой зависимости между А и В будет коэффициент взаимной сопряженности К = f.....-----, (6.12) v nj/(m — 1) (/ — 1) где п — количество проб; m — количество градаций призна- ка А;/— количество градаций признака В; х2=2 (пц—йц)2): йц; Пц — эмпирические, а пц — теоретические частоты появ- ления объектов, обладающих значениями признаков Aj и Вр Если х2эмП<Х2а (f=(m—1) (/—1) ), то связь значима. Вычисление коэффициента взаимной сопряженности пока- жем на примере оценки тесноты связи между характером возмущающего объекта магнитной аномалии (признак А) и характером гравитационного поля (признак В). Признак А принимает значения: Ai — нерудная аномалия, Аг — рудная. Признак В принимает значения: Bi — отрицательные значе- ния, В2 — ступень, В3 — положительные значения приращений силы тяжести. Результаты изучения: А Таблица 31 В А, Аг П j Градация признака А. Аг n-j в. 26 5 30 в, 25 15 5 15 30 В2 20 20 40 10 —10 В2 20 20 40 В3 5 25 30 20 0 20 0 П1 50 50 100 Вз 5 15 25 15 30 —10 10 П1 50 50 100 Из 50 изученных нерудных 25 приурочены к отрицатель^ ному полю, 20 — к области перехода от отрицательного поля к положительному, 5 — к положительным значениям его. Для рудных наблюдается обратное. 105
Для вычисления коэффициента взаимной сопряженности составим вспомогательную таблицу (табл. 31). Во 2—3-й ко- лонках ее записано по три числа: эмпирическая частота, тео- ретическая частота и разность между ними. Теоретические частоты определяют по формуле гф= (niXnij) : п, где n — общее число данных. Например, для первой строки первой графы теоретическая частота Пц= (50x30) : 100= 15; для второй строки первой графы П21— (50x40) : 100=20 и т. д. Если сумма разностей теоретических и эмпирических частот по строкам и столбцам равны нулю, то вычисления проведе- ны правильно. „ 102 О2 , -102 , - 102 , О2 Определяем значение X Н---fg- 4--2б~” 20 -I- -гр- =26,8, которое больше x2o,os(2 — 1)(3 — 2) = 5,99 , 10 то есть связь значима. Оценка ее составляет 26,8 = 0,48, 100/(3 - 1)-(2 - 1) и можно утверждать, что между характером возмущающего объекта и характером гравитационного поля существует связь, близкая к средней. Для интерпретации получаемых связей между признаками часто пользуются методом построения круговых диаграмм. Окружность, которую впоследствии можно и не показывать, делится на участки по числу признаков. В точках деления проставляют обозначения признаков, каждый из которых соединяют с остальными сплошны- ми (положительная связь) или пунктирными (отрицательная) ли- ниями. Тесноту связи (слабую, среднюю, сильную) отражают их толщиной. Например, в табл. 32 приведены парные коэффициенты корреля- ции между пятью признаками в трех массивах пород. Необходимо 106
Окончание табл. 32 Признак Массив С 2 3 4 5 1 0;48 0,44 —0,42 -0,24 2 0,44 —0,33 0,38 3 0,24 0,23 4 0,24 охарактеризовать полученные зависимости и на их основе попы- таться решить вопрос об однородности пород. Рис. 34. Диаграммы корреляционных связей в сравниваемых по- родах. По диаграммам (рис. 34) видно, что между оценками связей изучаемых параметров в породах массивов А и В лишь одно отличие (признаки 1 и 3), тогда как для А и С, В и С их по восемь (1 и 3, 1 и 4, 1 и б, 2 и 3, 2 и 4, 2 и 5, 3 и 4, 4 и 5), причем различия и по наличию — отсутствию связей, и по характеру их (положительная-— отрицательная). При большом числе признаков и сопоставляемых объектов прием затруднителен. Можно просчитать корреляцию ме- жду значениями парных корреляций для всех сопоставляемых объ- ектов и построить дендрограмму. Таблица 33 № Названия месторождений № месторождения 1 2 3 4 5 6 1 50 лет Октября 1,00 0,71 0,64 0,40 0,42 0,54 2 Авангард 1,00 0,78 0,19 0,29 0,61 3 Тесиктас 1,00 0,31 0,52 0,25 4 Приорское 1,00 0,49 0,62 5 Кусмурун 1,00 0,66 6 Кафан 1,00 107
В табл. 30 приведена часть данных из учебного пособия [20, с. 43], достаточная для понятия существа метода построения ден- дрограмм (коэффициенты корреляции между матрицами парных коэффициентов содержания десяти рудных элементов в месторож- дениях и рудопроявлениях). Ранжируем пары значений месторождении по убывающему зна- чению коэффициента корреляции: 2 и 3 (0,78), 1 и 2 (0,71), 5 и 6 (0,66), 1 и 3 (0,64) и т. д. Объединяем в первую группу родствен- ных объектов месторождения 2 и 3. Замечаем, что с каждым из них есть связи первого. Просчитываем среднее арифметическое его ко- эффициентов с ними: (0,71+0,64) : 2= 0,675, что больше коэффици- ента 0,66, свойственного для объектов 5 и 6, то есть объект 1 более похож на месторождения 2 и 3, чем на все остальные. Выделяем в самостоятельную группу объекты 5 и 6 и проверяем близость чет- вертого к той и другой выделенным группам. Среднее коэффициен- тов его с объектами 5 и 6 равно (0,49+0,62) : 2=0,555, а с объекта- ми 1—3 — (0,40+0,19+0,31) : 3=0,30, то есть он более похож иа объекты 5 и 6. Проверяем родство выделившихся групп, сопостав- ляя 1 и 2, 3 поочередно с 4, 5, 6. Имеем: (0,40 +01,42 + 0,54+ 0,19+ +0,29+0,61+0,31 +0,52+0,25) : 9 = 0,39 — слабую положительную связь. Геологическая интерпретация — первые три месторождения пред- ставлены рудами, сложенными преимущественно пиритом, халькопи- ритом, пирротином, тогда как вторые содержат в значительных ко- личествах сфалерит и галенит — минералы, характерные для более поздней полиметаллической, или барит-полиметаллическон стадии оруденения. В целом же все объекты принадлежат к медноколчедан- ным, что и нашло отражение на дендрограмме (рис. 35). Построе- ние дендрограммы особых пояснений не требует — по оси ординат указаны значения коэффициента корреляции. 35. Дендрограмма род- месторождений по дан- ным табл. 33 Оценки связи между признаками используются во многих ме- тодах решения геологических задач, в том числе в методе главных компонент (МГК) и факторном анализе (ФА), требующих для по- нимания знаний матричной алгебры. При использовании МГК вместо исходных данных — таблиц (матриц) с n-строками наблюдений и m-столбцами значений приз- наков рассматриваются матрицы ковариаций. Задачей является ин- 108
терпретация ее структуры. Модель преобразования исходных дан- ных имеет вид г Xj = 2 №ijzj ’ ' = Ь 2, . . . , m ; j — 1, 2, . . . , г ; m , i=l где <оц — факторные нагрузки; zj — главные компоненты (факторы). Если Х1 включают переменные различной физической природы (ха- рактеризуются различной размерностью), то необходима их норма- лизация (вычитание из каждого значения среднего и деление на среднее квадратическое отклонение). Рассмотрим случай ковариационной матрицы порядка 2X2, пред- положив, что имеем значения изучаемых признаков X, и Х2. Исходные значения признаков и получение на их основе оценок дисперсии и ковариации показано в табл. 34. Таблица 34 Признаки (X!-X.)2 Х2—Х2 (Х^Х2)2 (Х,-Х^Х Х(Х2-Х2) Xi х2 1 1.0 —2 4 —2 4 4 2 1,5 —1 1 —1,5 2,26 1,5 2 2,5 — 1 1 —0,5 0,25 0,5 3 2 0 0 —1 1 0 3 3 0 0 0 0' Oi 3 4 0 0 1 1 0 4 3,5 1 1 0,5 0,25 0,5 4 4,5 1 1 1,5 2,25 1,5 5 5 2 4 2 4 4 27 27 12 15 12 равны Средние Х1 и Х2 равны Г" ? Д = 15:8=1,9. Ковариация равна 12:8=1,5. 27:9=3,0. Дисперсия Х1 = 12:8=1,5, а Х2= В матричной форме 1.5 1,5 имеем: . Собственные векторы матрицы дают глав- 1,6 1,9 ные оси эллипсоида изменений признаков, а собственные значения— длины этих осей. МГК сводится к нахождению осей и определению их длин. Для рассматриваемого примера суммарная дисперсия 1,5+1,9= =3,4, причем первый признак обуславливает 44,1% ее, а второй— 55,9%. Исключение из рассмотрения любого из признаков привело бы к потере примерно половины информации. Определим собствен- ные значения Л матрицы 1,5 - X 1,5 1,5 1,9 — X ‘ 109
Имеем: (1,5 - X)- (1,9 - X) - 1,5-1,5 = О, к2 — 3,14k 4- 0,6 = О, . - (- 3,4) ± ]/3,42-4-1-0,6 3,4 + /9Д6 X =------------------------------- =---------------- откуда Xi=3,215 и 7.2=0,186. Сумма их равна сумме дисперсий ис- ходных признаков, но доля дисперсии главного фактора уже со- ставляет 94,6%. Определим координаты векторов. Для первого имеем: ’ 0 ' О Г1,5 1,51 [1.5 1,9] 3,215 О О 3,215 1Г 22 пли —1,7'15 Пц + 1,5 U21; 1,5 Иц—1,315 U2i = 0, что дает —3,216 Пц = =—2,815 ц21. Полагаем иц=1 и находим и21=—3,215 : —2,815—1,142. Нормализуем вектор к единичной длине: Пц= 1 : 1,52=0,66 и u2i = = 1,142 : 1,52 = 0,76(1,52=У12+1.1422), то есть для первого вектора имеем координаты Х,=0,66 и Х2=0,75. Аналогично для второго име- ем Xi=—0,75 и Х2=0,66. Используем полученные значения собст- венных векторов для вычисления проекции признаков на главную ось: Уц = 0,66Хц+0,75Х|2 и Yi2=—0,75Хц+0,66X12 (для первой строки табл. 34 получим: 0,66х 1 +О,75х 1 = 1,41 и —0.75Х 1+0,66x4 = ——0,09). В целом имеем: Yn 1,41 '2,39 3,20 3,48 4,23 4,98 5,27 6,02 7,05; Y12 —0,09 —0,51 0,15 —0,93 —0,27 0,39 —0,69 —0,03 —0,45. На рис. 36 дано графическое представление исходных и преоб- разованных значений признаков. Дисперсия вдоль оси oZt увеличи- лась, но не равна сумме первоначальных, то есть с переходом к уче- ту одного фактора неизбежна некоторая потеря информации (при Рис. 36. Рассеяние двумерных данных: а — исходных; б — преобразованных функциональной зависимости между переменными переход к ис- пользованию одного фактора обеспечил бы учет всей дисперсии). Коэффициенты преобразования исходных данных представляют со- бой факторные нагрузки, а отношение Z, к сумме всех — вес глав- ной компоненты i-го фактора. В рассмотренном примере он равен 3,215:34=94,6%. 110
МГК используется в ФА в качестве исходного момента. Среди же ФА различают несколько схем. Наиболее распространены R-ме- тод, исследующий соотношение между переменными на основе кор- реляционной матрицы, и Q-метод, изучающий соотношение между наблюдениями (объектами) с целью размещения их в определен- ном порядке, причем матрица может быть представлена как зна- чениями коэффициентов корреляции, так и коэффициентами про- порционального сходства: _ cos«ip - ( s Х„ • хА = 1/(2 XU*V 2 М . ' * \j=i /\j=i J где aip — угол, соответствующий двум' любым m-мерным результа- там наблюдения Xi и Хр. При а=90°, cosa=0 — сравниваемые на- блюдения не имеют ничего Общего; при a=0°, cos</.= 1— между на- блюдениями полное сходство (указанный коэффициент будет исполь- зоваться и при решении задач распознавания). Задача ФА — преобразовать исходное признаковое пространст- во с расщеплением на составляющие, обусловленные действием об- щих и характерных факторов. Общие факторы — те, которые име- ют значимые нагрузки не менее чем на две переменные, характер- ные — которым свойственно ненулевое значение только для одной переменной. Моделью такого преобразования является к Xj = 2 “ij zj + ei; 1 = 1,2......... m ; j = 1, 2, . . . , к ; j—i к < m , где li — случайная составляющая (в отличие от МГК число фак- торов обязательно меньше числа признаков). Установление общих факторов геометрически означает нахожде- ние пространства наименьшей размерности, допускающее содержа- ние в нем одновременно всех переменных. После нахождения глав- ных факторных осей они подвергаются вращению, способствующе- му нахождению наилучшего их расположения в признаковом про- странстве. Факторные нагрузки в ФА — не что иное, как коэффициенты кор- реляции между исходными и преобразованными переменными. Зна- чения их понимаются в относительном смысле. Если фактор связан с признаком А положительно, а Б — отрицательно, то это интер- претируется как воздействие противоположного характера. Сумма нагрузок каждого отдельно взятого фактора для всех переменных равна собственному значению матрицы; сумма факторных нагрузок всех факторов во всех переменных равна суммарной дисперсии; сум- ма квадратов факторных нагрузок i-й переменной на полный набор факторов равна полной дисперсии данной переменной; суммирование попарных произведений нагрузок двух переменных на полный набор одноименных факторов дает величину коэффициента корреляции ме- жду этими переменными; факторные нагрузки изменяются от —1 до 1. В сравнительном плане отмечают, что целью МГК является оцен- ка и диагональных, и внедиагональных элементов матрицы, а ФА — только внедиагональных, то есть внимание обращается только на коэффициенты ковариации (корреляции). В МГК факторы опреде- 111
ляются в соответствии с критерием максимизации их вклада в сум- марную дисперсию всех переменных. В ФА они находятся по прин- ципу максимизации связей между переменными. В МГК считается, что основная часть дисперсии переменной важна для исследования и связана с другими наблюдаемыми переменными, в ФА предпола- гают, что исходным данным присуща значительная доля специфич- ности, и используют только ту составляющую переменной, которая скоррелирована с другими переменными. В обоих методах предпо- лагают, что остатки не коррелируют с факторами, причем в ФА— не коррелируют и между собой. Матричные операций ФА даже для малого числа переменных практически невыполнимы вручную. Широкое внедрение его в гео- логию обязано появлению ЭВМ. С типовыми задачами, решаемы- ми на основе применения МГК и ФА, можно познакомиться по ра- боте ['!]. Для детального изучения этих методов рекомендуются, кроме названной, монографии [110; 12, 15, 17]. 6.5. МАТЕРИАЛ ДЛЯ ПРАКТИЧЕСКИХ ЗАНЯТИЙ Решение типовых задач Задача 1. Оценить характер и тесноту связи между признаками А и Б в рудах по данным изучения 15 образцов: А 1 2 34122346324 5 3 Б 156 '6 24 01557 4 246 3 Решение. Группируем имеющиеся данные для определения средних значе- ний признака Б, отвечающих определенным значениям прйзнака А (табл. 35). Таблица 35 Значение А Соответствующие им значения Б Сред- нее Б 1 1 2 — — 1,5 2 5 4 0 2 2,75 3 6 5 4 3 4,5 4 6 5—4 5,0 5 6 — — — 6,0 6 7 — — — 7,0 Если построить график зависимости средних значений признака Б, от- вечающих определенным значениям признака А, то полученную ломаную кривую можно аппроксимировать прямой, то есть имеющаяся между при- знаками связь может быть оценена с помощью коэффициента корреляции. Расчет коэффициента приведен в табл. 36. Средние значения А=45: 15= =3,0; В=60 : 115=4,0. Средние квадратические значения признаков, соот- ветственно, равны V28 : 14= 1,41 и У58: 14=2,04. Коэффициент корреля- ции равен 31 ; (13Х 1,41X2,04) =0,77. Ошибка его равна У(1—0,772) :У15= 112
= 0,18, коэффициент значим, так как 0,77:0,18=4 больше допустимого табличного (прил. 2, табл. 5), равного при уровне значимости 0,05 и име- ющемся числе данных 2,16. Проверку значимости полученного коэффици- ента можно осуществить и с помощью табл. 12 приложения. Критичес- кое значение для имеющихся условий равно 0,51. Полученное значение ко- эффициента превышает эту величину. Доверительные границы 0,77—0,11 х Х2,13-=-0,77+0,18x2,13 или 0,3 9 с г 1,0. Точнее оценка получается на ос- нове z-преобразовавия. Значение г=0,77 соответствует z=l,02. Ошибка 6Z=1 : 1'15—3=0,35. Доверительный интервал z : 1,02—2, 13X0,35<^ze51,02+ +2,13x0,35 или 0,38=1,76, чему соответствует: 0,36сг<0,94. Таблица 36 А В А—А Б—Б (А-А)2 (Б—Б)2 (А-А) X Х(Б-Б) 1 1 —2 —3 4 9 6 2 б — 1 1 1 1 — 1 3 6 0 2 0 4 0 4 6 1 2 1 4 2 1 2 —2 —2 4 4 4 2 4 —1 0 1 0 0 2 0 — 1 —4 1 16 4 3 5 0 1 0 1 0 4 5 1 1 1 1 1 6 7 3 3 9 9 9 3 4 0 0 0 0 0 2 2 —1 —2 1 4 2 4 4 1 0 1 0 О' 5 6 2 2 4 4 4 3 3 0 —1 0 1 0 45 60 28 58 31 Задача 2. Оценить тесноту нелинейной связи между признаками А и Б в рудах по данным изучения 9 образцов: А I 3 2 4 3 2 5 3 4; Б I 2,5 1,5 2,5 3 2,5 1 3,5 1,5. Решение. Просчитав средние значения признака Б1, соответствующие оп- ределенным значениям признака Ai, и, построив график, увидим, что с уве- личением значений признака А значения Б1 вначале возрастают, а затем падают, то есть связь между ними нелинейная. 113
Расчет значений корреляционного отношения дан в табл. 37. Таблица 37 А, Б, XBi Hi Bi Б12П1 W 1 1,0 — — ' 1,0 1 1 ,1 1,0 2 1,5 2,5 — 4,0 2 2 8 8,5 3 2,5 3,0 3,5 9,0 3 3 27 27,5 4 1,5 2,5 — 4,0 2 2 8 8,5 5 1,0 — — 1,0 1 1 1 1,0 19,0 9 45 46,5 По итоговым данным таблицы определяем: Б= 19 : 9 =2,1; s(Bi) = =У(46,5: : 9) —2,1й =0,9; s(Bi) =У(45: 9)—2,12: = 0,78; т] = 0,78: 0,9=0,87. Примечание. Просчет коэффициента корреляции по этим же данным показал бы значение, близкое к нулю, то есть при отсутствии линейной зависимости между изучаемыми признаками может существовать. значи- мая нелинейная связь. Задачи для самостоятельного решения 1. Даны значения плотности X и зольности Y для 18 образцов изуча- емых углей. Необходимо: а) установить характер зависимости между зольностью и удельным весом изучаемых углей; б) оценить тесноту свя- зи между этими признаками; в) выполнить оценку значимости получен- ной характеристики связи. Исходные данные: X Y X Y X Y X Y X Y X Y 1,5 25 1,3 4 1,4 20 1,6 25 1,3 5 1,5 24 1,2 4 1,5 17 1,8 36 1,4 6 1,5 24 1,4 20 1,7 30' 1,5 24 1,3 . 7 1,6 26 1,7 33 1,4 9 2. Оценить выборочный коэффициент корреляции между изменениями содержаний А12О3 и РеО в изучаемых породах на основе имеющихся ре- зультатов анализа 25 проб: ai2o3 FeO A12O3 FeO AI2O3 FeO A12O3 FeO А12О3 FeO 14,45 0,65 14,60 0,80 13,30 0,27 13,45 0,32 14,55 0,70 13,90 0,51 14,75 1,68 13,401 0,42 13,65 0,28 13,80 0,38 14,30 О',43 14,80 1,45 13,95 0,40 14,05 0,33 14,20 0,47 13,75 0,37 14,25- 0,53 14,00- 0,50 14,10 0,44 14,70 0,90 14,15 0,52 14,85 1,80 14,40 0,55 14,50 0,92 13,85 0,40 114
3. Оценить тесноту и характер связи между содержаниями главного элемента X и элемента примеси Y в рудах одного из месторождений по данным анализа 18 проб: X Y X Y X Y X Y X Y X Y 14,5 1,5 14,3 1,6 9,1 0,5 14,5 2,0 16,8 1,9 10,0 0,5 7,3 0,1 14,9 1,5 15,0 1,4 14,4 0,6 Н,1 1,0 10,9 0,8 10,7 0,8 11,1 1,1 14,9 1,3 10,6 0,7 16,0 1,9 11,0 0,7 4. Установить зависимость между содержанием элемента А и мощностью жилы tn в пределах месторождения по имеющимся данным: А, % 1,4 0,2 1,3 0..6 0,5 1,9 0,7 0,3 1,3 т, м 10,9 18,1 7,9 14,2 7,3' 7,9 13,3 14,5 10,8; А, % 0,2 1,1 0,7 0,8 1,6 0;5 1,5 1,3 0,9 т, м 16,0' 11,3 15,9 13,1 9,3 14,2 14,5 10,6 11,2. 5. Изучение двух типов пород по содержаниям элементов А и Б не позволило установить существенного различия ни по средним, ни по дис- персиям. В то же время обращено внимание на то, что в одних породах с увеличением в пробе содержаний элемента А увеличивается и со- держание элемента Б, тогда как в других такой зависимости не наблю- дается. Просчет коэффициентов корреляции мсжд5' содержаниями эле- ментов А и Б для первых пород (количество проб 93) показал значение 0,75, а для вторых (количество проб 100) •— 0,35. Определить, различа- ются ли изучаемые породы по тесноте связи между содержаниями эле- ментов? 6. Изучение содержаний серы X, железа Y, кобальта Z по одному из месторождений позволило получить следующие статистики: х= 16,1; у=31,4; z=ll,7; s(x) = l,40; s(y)=.ll,2; s(z)=9,6; rxy=0,420; rxz=0,684; ryz= =0,479. Определить частные коэффициенты корреляции кобальта с же- лезом и серой, а также множественный коэффициент корреляции содер- жаний кобальта с содержаниями серы и железа в изучаемых рудах. 7. В результате обработки данных анализа двух массивов пород (А и Б) установлены следующие значения коэффициентов корреляции между элементами X и Y: гхуА =0,70; гхуБ=0,50; пА=53; пБ=28. Определить с по- мощью z-преобразования, существенно ли различаются сравниваемые по- роды по тесноте связи между изучаемыми элементами? 8. Результаты анализа 35 проб медной руды одного из месторождений на мышьяк X и теллур Y приведены в сгруппированном виде (содержа- ния для удобства счета увеличены в 1000 раз): 115
X Y В отдельных пробах по классам группировки 0—10 0- 0 0 0 — — —, — — 10—20 6 4 0 0 01 3 2 14 0 20—30 7 0 4 6 3 — — — — 30,-40 5 8 8 5 6 — — — 40—50 10 7 6 5 4 — — — — 50—60 5 4 4 5 — — — — — 60—70 9 4 — — — — — — — 70—80 6 — — — >— — — — — Определить корреляционное отношение между элементами. 9. Имеются данные об интенсивности скарнирования образцов карбо- натных пород, отобранных вблизи контакта с интрузией, и интенсивно- сти шеелитового оруденения: Интенсивность Интенсивность скарнирования оруденения скарнирования оруденения Сильное Более 1% Нет Нет Слабое Менее 1% Сильное Более 1% Сильное 1% Слабое Менее 1% Сильное Более 1% Сильное 1% Слабое 1% Нет Менее 1% Оценить тесноту связи между интенсивностью скарнирования и ору- денения на основе рангового коэффициента корреляции. 10. Оценить тесноту связи между содержаниями элементов X и Y на основе использования рангового коэффициента корреляции: X 0,1 0,6 0,4 0,5 0,2 0,3 0,4 0,5 0,2 0,7 0>,4 0,3 0,5 0,3 0,6 Y 1,0 4,4 2i,3 3,9 1,5 2,2 2,6 4,2 1,9 5,5 2,9 2,4 4,2 2,6 4,8 11. Высказано предположение о наличии связи между ориентировкой магнитной аномалии и величиной скопления магнитных масс в пределах изучаемой территории (приуроченность крупных месторождений к систе- ме тектонических нарушений определенной ориентировки). С Целью про- верки такой гипотезы все месторождения территории разбиты на три 116
класса: мелкие, средние, крупные, с разнесением объектов каждой из групп по четырем классам ориентировки аномалий, получено: Ориентировка аномалий Крупность месторождения мелкое сред- нее крупное Меридиональная — 3 2 Северо-восточная 12 7 1 Широтная 13 2 — Северо-западная 10 — — Определить значение коэффициента взаимной сопряженности и выска- зать заключение о том, можно ли говорить о наличии предполагающейся связи на основе имеющихся данных. Контроль знаний по главе 6 По какой формуле определяются: коэффициент корреляции; корреля- ционное отношение; ошибка коэффициента корреляции; ошибка корре- ляционного отношения; значимость коэффициента корреляции; значи- мость корреляционного отношения; ранговый коэффициент корреляции; значение коэффициента сопряженности; множественный коэффициент корреляции признака Z с признаками X и Y; частный коэффициент кор- реляции между признаками X н Y при закрепленном Z? На плакате или листах с вопросами, выдаваемых студентам, долж- ны быть правые части формул (6.1)—('6.12), а также выражения ... = г:6г, ...=rj:S . Глава 7 РЕГРЕССИОННЫЙ АНАЛИЗ 7.1. ПОНЯТИЕ И ЗАДАЧИ Коэффициент корреляции и корреляционное отношение по- зволяют установить характер и тесноту связи между случай- ными переменными. Не менее важно для исследователя мате- матическое описание выявленной зависимости, дающее воз- можность численно оценивать одни параметры через другие, например, содержание дорого определяемых платиноидов по содержаниям меди, никеля, кобальта, серы (регрессионный анализ). Проведение регрессионного анализа можно разде- лить на три этапа: выбор формы зависимости (типа уравне- 117
ния); вычисление коэффициентов выбранного уравнения; оценка достоверности полученного уравнения. Рассмотрим прежде всего регрессию двух переменных X и Y. Уравнением регрессии Y и X называется уравнение вида у—f(x), устанавливающее зависимость между значениями независимой переменной X и условными средними зависимой переменной Y. По виду различают линейные и нелинейные уравнения связи. Решению вопроса о форме связи и выборе типа уравнения должен предшествовать тщательный анализ показателей тесноты и характера связи, графика эмпириче- ских зависимостей и физической сущности изучаемого яв- ления. 7.2. ЛИНЕЙНАЯ РЕГРЕССИЯ Если коэффициент корреляции значим и близок к корреляци- онному отношению, а график эмпирической зависимости — к прямой линии, то зависимость между X и Y линейная и выра- жается уравнением у=ах-(-Ь. (7.1) Из аналитической геометрии известно, что коэффициент при независимой переменной X есть тангенс угла наклона прямой к положительному направлению оси X, то есть а = =tgcp. Коэффициент этот характеризует скорость изменения зависимой переменной Y при изменении переменной X. Поло- жение прямой при различных значениях <р показано на рис. 37. Коэффициент b — начальная ордината, определяет Рис. 37. График линейной зависимости при различных <р значение Y при Х=0. Графически это отрезок, отсекаемый прямой по оси oY. Одним из простых способов вычисления коэффициентов уравнения регрессии (не только линейной) является метод- 118
наименьших квадратов. Сущность его состоит в том, что наи- лучшим считается то положение линии регрессии, при кото- ром сумма квадратов отклонений эмпирических точек по ор- динатам от теоретических (расчетных) минимальна. Значения а и b определяются из системы нормальных уравнений | а 2 Х1П1+Ь S щ=2 у1П1 I а 2 Х12П1+Ь 2 XiHi=2 умхь где суммирование ведется по всем значениям х;. Вычисление коэффициентов системы удобно проводить в форме таблицы. Пример. Рассчитать параметры для составления си- стемы нормальных уравнений по данным первой и вто- рой колонок табл. 38. Таблица 38 Х1 П1 Х1П1 Х12П1 У1 У1П1 У1П|Х1 0,1 1 0,1 0,01 1,1 1,1 0,11 0,2 2 0,4 0,08 1,7 3,4 0,68 0,3 3 0,9 0,27 .2,4 7,2 2,16 0,4 3 1,2 0,48 2,6 7,8 3,12 0,5 3 1,5 0,75 4,1 1'2,3> 6,15 0,6 2 1,2 0,72 4Ц& 9,2 5,52 0,7 1 0,7 0,49 5,5 5,5 3,85 15 6,0 2,80 46,5 21,59 Согласно полученным данным имеем 6а+15Ь=46,50 2,80а+ 6Ь=21,59. Разделим каждое из уравнений на коэффициент при а. „ ( а+2,50b =7,75 Получим эквивалентную систему ( I а + 2,14Ь=7,70. Вычитая из первого уравнения второе, получим 0,36Ь=0,05, откуда Ь=0,14. Подставляя значение b в первое уравнение, получим а=7,75+0,14=7,40. Уравнение регрессии Y по X имеет вид у=7,4х+0,14. По Этому уравнению можно для каждого значения Xi определить расчетное (вероятное) зна- чение у;: X] 0,1 0,2 0,3 0,4 0,5 0,6 0,7 У1 1.1 1,7 2,4 2(,6 4,1 4,6 5,5 У1 . 0,9 1,6 2,4 3,1 3',8 4,6 5,3 119
Как видно, теоретические значения yj близки эмпирическим. Аналогично решаются системы линейных уравнений с лю- бым числом неизвестных, но объем вычислительной работы при этом возрастает. Если систему (7.2) решить в общем виде и найденные зна- чения подставить в уравнение прямой (7.1), то оно приведет- ся к виду у—у=а(х—х), где a—r(s(y)) :s(x), откуда сле- дует, что коэффициент корреляции не только служит мерой тесноты линейной связи, но и может являться основой для составления уравнения линейной регрессии: у - »-r *>• (7-3) Для данных предыдущего примера: х=0,4; у=3,1; s(x) = =0,17; s(y) = 1,31; г=0,96. Уравнением линейной регрессии Y по X будет у—3,1=0,96Х (1,31 : 0,17) X (х—0,4) или у= =7,4х+0,14, то есть полученное уравнение совпадает с вы- численным ранее. 7.3. НЕЛИНЕЙНАЯ РЕГРЕССИЯ Если гит] существенно различаются, то корреляцию следует считать нелинейной, а линию регрессии отличной от прямой. Подбор уравнения связи определяется видом эмпирической Рис. 38. Графики нелинейных зависимостей линии регрессии и анализом изучаемого явления. Выбор уравнений нелинейной регрессии весьма обширен (некоторые из них показаны на рис. 38). 120
Рассмотрим два типа нелинейных зависимостей—полиномы второй, третьей и более высоких степеней: у—ax2+bx + c, y=ax3 + bx2+cx+d и т. д. (7.4) и гиперболические кривые: у=а:х+Ь, у=1 : (а + Ьх). (7.5) Вычисление коэффициентов уравнений регрессии проводят методом наименьших квадратов. Количество нормальных уравнений равно количеству определяемых параметров. Со- ставляют их аналогично нормальным уравнениям для пря- мой. Для параболы 2-го порядка система нормальных урав- нений имеет вид aSxi2nj + bSxjHi+cSni=Syini a2xi3ni + bSxi2ni+c2xini—SyiHiXi (7.6) aSxj4ni + bSxAij + cSxi2nj=SyiUjXi2. Уравнения гиперболического вида y=a:x+b (x=£0) лег- ко привести к линейному y=axi + b, где х,==1 : х, а система нормальных уравнений имеет вид а2ш + Ь2хиП1=2у1П1 а2хцП1 + Ь2хп2П1=2у1П1Х1. И в других случаях уравнение нелинейной регрессии удает- ся привести к линейному виду (линеаризировать). Так, если уравнение y=abx прологарифмировать и обозначить lgy=Y, Iga —аь lgb=bi, то оно приводится к виду Y=ai+biX, то есть линейному. 7.4. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ Уравнение, устанавливающее зависимость между одним из признаков X] (функцией) и несколькими другими Х2, Хз, ..., Хщ (аргументами), называется уравнением множественной регрессии. В общем случае его можно записать в виде Х,= =f(X2, Х3, ..., Xm). Различают линейную и нелинейную множественную регрессию. В случае линейной зависимости уравнение регрессии имеет вид X,=а|Х| + а2х2+... + атхт+b. (7-8) Этому уравнению соответствует так называемая гиперплос- кость, то есть плоскость m-мерного пространства. 121
Для уравнения вида z=aiX+a2y+b (z есть функция двух независимых переменных) получаем обычную плоскость в трехмерном пространстве, коэффициенты которой аь а2, b мо- гут быть вычислены тем же методом наименьших квадратов. Уравнение линейной регрессии для двух независимых пе- ременных X, Y можно записать в виде Z—Z=A(x—х) + +В(у-у), (7.9) где . rxz ~ rxy ryz ^(z) ryz — rxy'rxz . s(z) (7 1f)\ A------f ......... s(x)’ B =.— rx;~ S(y). Пример. В результате обработки данных анализа 100 проб получены следующие статистики для трех эле- ментов: х=2,0; s(x)=2,0; rxy=0,50; у=30,0; s(y) = = 10,0; rXz=0,65; z = 10,0; s(z) = 10,0; ryz=0,60. Соста- вить уравнение регрессии z по х и у. Коэффициенты уравнения регрессии: Л 0,65 - 0,50-0,60 10 по_ 1— 0,502 ‘ 2 “ 2,Лэ; R __ 0,60 - 0,65 • 0,50 10 1 - 0,502 ‘ 10 ~ ,6 Подставляя эти значения в уравнение (7.9), получим Z—10=2,35Х(х—2,0)+0,37Х(у—30), или Z=2,35x+ + 0,37у—5,80. Уравнение регрессии позволяет вычислять теоретические (вероятные) значения зависимой переменной по заданным значениям независимых переменных в области их изменения. Как правило, оно пригодно только внутри этой области. В от- дельных случаях, после тщательного анализа сущности изу- чаемого явления, допускается некоторая экстраполяция. 7.5. ОЦЕНКА ПОЛУЧЕННОЙ ЗАВИСИМОСТИ Для оценки качества полученного уравнения можно восполь- зоваться критерием разностного ряда (см. раздел 4.3). При- мер расчета этого критерия для полученного ранее уравне- ния у=7,4х+0,14 приведен в табл. 39. 122
Таблица 39 У1 У1 Д1 Ai2 У> У1 Ai А.2 1,10' 0,88 0,22 0,0484 4,10 3,84 0,26 0,0674 1,70 1,62 0,0'8 0,0064 4,601 4,58 0,02 0,010'04 2,40 2,3© 0,04 0'0016 5,50 5,32 0,18 0,0324 2,60 3,10 - -0,50 0,2500 Итого — 0,30 0,40i66 A ==0/30 : 7=0,043; s^A) =У0,4066 : 7—0,0432=0,237; t = =A}'n : s(A) =0,043X^7 : 0,237=0,45. Имеет t3Mn<to,o5(f = =6) =2,45, то есть различие сравниваемых рядов несущест- венно. 7.6. МАТЕРИАЛ ДЛЯ ПРАКТИЧЕСКИХ ЗАНЯТИЙ Решение типовых задач Задача 1. Определить коэффициенты уравнения регрессии иа основе ста- тистических параметров данных типовой задачи 1 практических занятий главы 6. Оценить полученное уравнение. Решение. Имеем средние значения признаков А и Б равными 3 и 4; средние квадратические отклонения 1,41 и 2,02; коэффициент корреляции 0,77. Воспользовавшись формулой (7.3), получим: Б—4=0,77(2,04 : 1,41) (А—3) или Б= 1,12А+0,64; А—3=0,77 (1,41 : 2,04) (Б—4) или А=0,53Б+0,88. Проверку «работоспособности» полученных уравнений осуществим для зависимости значений признака Б по значениям признака А. Теоретиче- Т а б л и ца 40 ские значения Б4 получены последо- вательной подстановкой значений — признака А, в уравнение регрессии. Bi Б1 Ai Ai2 Оценка этого уравнения осуществле- на на основе критерия разностного ряда (табл. 40). 1,5 1,76 0,26 0,068 Имеем: А = 0,57 : 6 = 0,09; 2,75 2,84 0,09 0,008 sA=}’(0,528 : 6)—0,092 = 0,28; 4,5 5,0 4,00 5,12 —О',50 0,12 0,250 0,014 Б-0,09X1'6 : 0,28=0,8, 60 6,24 0,24 0’058 что меньше допустимого при уровне 7,0 7,36 0,36' 0,57 0,130 0,528 значимости 0,05 и имеющемся числе степеней свободы. Допустимое значе- ние (прил. 2, табл. 5) 2,57. Говорить о возможном существенном рас- хождении эмпирических, теоретических значений признака (значений, полу- ченных по уровню регрессии) нет оснований. Уравнение может быть исполь- зовано для определения значений признака Б по значениям признака А в изучаемых рудах. 123
Задача 2. Для тех же данных описать нелинейную математическую зави- симость изменений признака Б по изменениям признака А в изучаемых рудах. Решение. По графику изменения условных средних признака Б в зависи- мости от изменений значения А можно судить, что нелинейная парабо- лическая зависимость должна лучше описывать изучаемое явление по сравнению с линейной, принятой при решении типовой задачи Ь главы 6. Для определения коэффициентов уравнения параболической зависимости воспользуемся методом наименьших квадратов. Расчет необходимых сумм осуществлен в табл. 41. Таблица 41 А, Б, П; 1 2 3‘ 4 5 6 7 1 1,5 2 3 2 2 2 2 3 3 2 2,75 4 11 8 1>© 32 64 22 44 3 4,5 4 18 12 26 108 324 54 162 4 5,0! 3 15 12 48 192 768 60> 240 5 6,01 1 6 5 25 125 625 30' 150 © 7,0 1 7 5 36 216 1296 42 252 15 60 45 1.63 675 3079 211 851 Примечание. 1 — произведение условных средних признака Б на количество проб по классам группировки; 2 — произведение значе- ний признака А на количество проб по классам группировки; -3 — то же квадратов этих значений; 4 — то же кубов; & — то же четвертых степе- ней; '6 — произведение значений признаков А, Б и количества проб по классам группировки; 7 —- то же квадратов признака А на средние зна- чения Б по классам группировки и число проб. Получаем систему нормальных уравнений 163 а+45Ь+ 15с=60 675а+163Ь+4бс=211 3079а+675b +163с=851. Делим каждое на коэффициент при а: система (1) а+0,267b+0,092с=0,367 а+0,242b+0,067с=0,314 а + О','219Ь+0,053с=0,276. Вычитаем первое из второго и второе из третьего: система (2) —0,034b—0,025с=—0,053 —0,023b—0,014с=—0,038. Делим вновь на коэффициент, но теперь при неизвестном Ь: I Ь+0,735с =1,558 I Ь+О,6О0с= 1,652; 124
Вычитаем первое из второго: —0,1260= 0,094, откуда находим неизве- стное с=0,094: (—0,126) =—0,746. Подставляя это значение в первое уравнение системы (2), получаем значение неизвестного Ь: —0,034b—0,025х (—0,746) =—0,053 или —0,034b=—0,072, откуда Ь=2,118. Подставляя значения с и b в первое уравнение системы (1), найдем значение первого неизвестного а+0,276 x2,118 + 0,092Х(—0,746)=0,367 пли окончательно: а=—0,149. Параболическое уравнение регрессии, описывающее зависимость из- менения значений признака Б от изменения значений А в рудах, имеет вид Б=—0,149х2+2,118х—0,746. В табл. 42 приведены эмпирические значения Б1 различных значений Ai и теоретические значения Бь полученные по уравнениям линейной (1) и нелинейной (2) зависимостей. Таблица 42 А, Б, Б?(1) Bi (2) 1 1,5 1,76 1,22 2 2,75 2,8'4 2,89 3 4,5 4,00i 4,27 4 5,0 6,12 5,34 5 6,0 6,24 6,12 6 7,0 7,3161 6,60 Суммарная разность между эмпирическими и теоретическими (пара- бола) значениями признака Б составляет 0,41, тогда как по линейному уравнению — 0,57. Нелинейным уравнением точнее описывается изучае- мое явление. Задачи для самостоятельного решения 1. На основе метода наименьших квадратов получить математическое описание изменений зольности по удельному весу углей, используя данные задачи 1 предыдущей главы. При получении уравнения зольность углей можно будет определять по их удельному весу, а это позволит сократить расходы на дорогостоящие лабораторные исследования. 2. Получить линейное уравнение регрессии изменения содержаний ко- бальта К в зависимости от изменения содержаний серы С н железа Ж в рудах одного из месторождений. По данным статистической обработки материалов опробования руд этого месторождения, получено: Элемент Средние значения Средние квадра- тические значения Коэффици- енты кор- реляции К 11,7 9,6 КС=0,68 С 1,61 1,4 СЖ=0,42 ж 31,4 11,8 КЖ= 0,48 125
3. Установить аналитические выражения зависимостей между значени- ями годовых температур в двух районах страны с учетом того, что х=—12; у=—13,8; s(x)=4,59; s(y)=4,46; гху=0,9, то есть получить уравнения регрессии y=f(x) и x=f(y). 4. Получить выборочные уравнения регрессии Al2Os=f(CaO) и СаО= =f(Al2Os) с учетом того, что среднее содержание А12О3=15,6, среднее содержание СаО=ГЗ,8, средние квадратические отклонения, соответствен- но, 2,20 и 1,87', а коэффициент корреляции между ними 0,997. 5. Установить аналитические выражения связи между содержаниями элементов X и Y в изучаемых рудах, если в результате статистической об- работки данных анализа 100 проб установлено, что гху=0,6б (то есть значим); х=0,115; у=0,039; s(x) =0,0610; s(y) =0,0124. 6. Установить аналитическое выражение связи между основным эле- ментом X, элементом— примесью Y в рудах одного из месторождений (гху = 0,906; х=1.2,333; у=1,044; s(x)=2,33l6; s (у) =0,4971). 7. Установить аналитическое выражение изменения содержаний эле- мента А(Х) в зависимости от изменения мощностей рудной жилы (Y) (£=12,333- у=0,911; гху = —0,756; s(x)=2,920; s(y)=0,491). 8. Получить описание параболической зависимости изменений теллура от изменений мышьяка по данным анализа медных руд одного из ме- сторождений (см. задачу 8 предыдущей главы). 9. Определить аналитическую зависимость у=а0+а|Х—а2х2 на осно- ве обработки приведенных данных методом наименьших квадратов: f Xi О' 1 2 3 4 5 6 7 89 | У! 1 4 13 28 49 76 109 148 193 244 Контроль знаний по главе 7 Какая из формул характеризует: линейную зависимость между приз- наками Y и X; то же — гиперболическую; то же — параболическую (па- рабола второго порядка)? Какая из систем уравнений пригодна для получения коэффициентов уравнения регрессии (метод наименьших квадратов) при описании ли- нейной зависимости; то же — параболической, то же — гиперболической? По какой формуле определяется: коэффициент А линейной зависимо- сти одного признака от двух других на основе статистических парамет- ров; линейная зависимость между признаком Y и X с помощью статисти- ческих параметров; то же — Z (функция), а X и Y — аргументы; крите- рий разностного ряда? На плакате или листах с вопросами, выдаваемых студентам, должны быть правые части формул (7.1)—(7.10); (4.6) и (4.8).
Глава 8 ПРОСТРАНСТВЕННО-СТАТИСТИЧЕСКИЙ АНАЛИЗ 8.1. ПОНЯТИЕ И ЗАДАЧИ Допустим, что в результате маршрутного пересечения двух пластов пород одинаковой мощности получены следующие (упорядоченные в пространстве) содержания элемента: 1, 2, 3, 4, 5 и 2, 5, 1, 4, 3. Применив к изучению распределений элемента аппарат математической статистики, получим, что породы не различаются ни по одному из рассмотренных ста- тистических показателей. Очевидно, однако, что в породах первого пласта содержание элемента закономерно возрастает от одного контакта к другому, тогда как в породах второго пласта представляет случайную величину. Учет пространственного положения точек наблюдения да- ет совершенно новую, отличную от вероятностно-статистиче- ской, информацию о наблюдаемом явлении. Обработка дан- ных с учетом их пространственного положения и составляет основу пространственно-статистического анализа (примени- тельно к обработке геологических данных — основу геостати- стики) . Пространственно-статистический анализ применим при по- исках и разведке, картировании, увязке пород в соседних раз- резах, металлогенических, геофизических, геохимических, ли- тологических, морфоструктурных и других исследованиях. С помощью его методов решаются такие задачи, как установле- ние направлений сноса обломочного материала терригенных отложений по концентрациям в нем тех или иных минералов; выявление тонких черт зональности интрузивных массивов или рудных тел по концентрациям элементов и минералов, по значениям физических свойств; выделение рудоконтролирую- щих структур и перспективных участков по совокупности гео- лого-геофизических и минералого-геохимических признаков и многие другие. По сравнению с математической статистикой, геостатисти- ка привлекает простотой взглядов на математическую сущ- ность объектов и средств разведки. Согласно последней лю- бой геологический признак (содержание, линейный запас, мощность, отметка контакта) лишен какой-либо случайности 127
и имеет вполне определенное положение в пространстве. Для обработки данных геостатистика имеет специальный матема- тический аппарат, например, вариаграммы, крайгинг и дру- гие с использованием таких характеристик, как «область оп- ределения», «непрерывность», «анизотропия» и т. п., однако и обычный аппарат математической статистики, используемый с учетом пространственной привязки результатов наблюдений, может оказать исследователю неоценимую помощь. 8.2. ОБРАБОТКА ДАННЫХ С ПОМОЩЬЮ СКОЛЬЗЯЩЕГО ОКНА В результате проведения поисково-разведочных работ в рас- поряжении геолога оказывается значительное число наблюде- ний, имеющих пространственную привязку (абсолютную или относительную) по одному из направлений (профилю, марш- руту, выработке). Изменчивость наблюдаемых признаков обу- словлена, как правило, не только природной флуктуацией оцениваемых явлений, но и шумовыми сигналами (ошибки анализа и замеров, переписи и т. п.). Необходимо путем ка- ких-то преобразований исходных данных ослабить шумовую составляющую и усилить (оттенить) полезную — искомый сигнал. Одним из способов такого преобразования может яв- ляться усреднение данных с помощью скользящего окна. Су- щество метода заключается в последовательном определении средних значений для соседних m точек (размер окна), со сдвигом на к точек (величина сдвига). Полученные средние относят к срединной точке усредняющего окна. При неравно- мерных наблюдениях оценку среднего ведут для точек, попа- дающих в окно размера 1, сдвиг его осуществляют на вели- чину А1. Количество точек в выборках осреднения при этом, как правило, различно. Размер окна и величину его сдвига определяют исходя из имеющихся данных и характера ре- шаемых задач. Аналогично просчету среднего методом скользящего окна могут определяться дисперсии, парные, частные, множествен- ные коэффициенты корреляции и другие статистические па- раметры. Точки, попадающие в размер окна, рассматриваются при этом как выборочная совокупность. Пример. В табл. 43 приведены результаты опробова- ния по одному из профилей с расстоянием между точка- ми наблюдения в 20 м (содержания элемента увеличе- 128
ны в 1000 раз). Исходя из предпосылок, что перспектив- ным на обнаружение оруденения является участок про- филя с высокими содержаниями элемента, характеризу- Таблица 43 Hi Х1 Hi Xi П1 х> п> Хг П1 Xi П1 Х1 1 2 6 2 11 3 16 2 21 б 26 8 2 1 7 3 12 3 17 1 22 10 27 10 3 3 8 6 13 2 18 2 23 8 28 8 4 2 9 10 14 2 19 6 24 10 29 10 5 3 ' 10 6 15 3 20 10 25 8 30 8 ющийся повышенными значениями дисперсий, оценить результаты опробования профиля с помощью скользяще- го окна размером в 5 наблюдений, со сдвигом его на од- ну точку (для иллюстрации счстч осуществлен по со- держаниям, а не их логарифмам). В табл. 44 приведены значения средних и дисперсий, по- лученные на основе применения скользящего окна заданных параметров. Для точки 3, например, х= (2+1+ 3 + 2+3) : : 5=2,2 и s2=(2—2,2)2+(1—2,2)2+(3—2,2)2+(2—2,-2)2 + + (3—2,2)2 : 4=0,5. .Таблица 44 П] Xi S12 П1 Xi Si2 П1 Xi Si2 Hi Xj Si2 3 2,2 0,5 10 5,3 10,3 16 2,0 0,5 23 8,8 2,8 4 2,2 0,5 11 4,8 10,7 17 2,8 3,7 24 8,8 1,2 5 2,6 0,3 12 3,2 3,7 18 4,2 14,2 - 25 8,8 1,2 6 3,2 2,7 13 2,6 0i,7 19 5,0 13,2 26 8,8 1,2 7 4,8 8,6 14 2,4 0,5 20 6,8 11,2 27 8,8 1,2 8 9 5,4 5,6 9,8 9,1 15 2,0 0,5 21 22 8,0 8,4 4,0 3,2 28 8,8 1,2 Результаты данных обработки показаны также на рис. 39, где видно, что одно из повышений содержания (левое) сопро- вождается повышением дисперсий и может оказаться орео- 5—418 129
лом рассеяния, тогда как другое, видимо, представляет собой повышенные фоновые значения элемента, а повышенные зна- чения дисперсий, приуроченные к перепаду (ступени) со- Рис. 39. Кривые исходных данных (а), средних (б), диспер- сий (в) содержания элемента по профилю. держаний, фиксируют контакт между породами с различны- ми фоновыми содержаниями. Вместо принципа «ищи, где больше», рождается «ищи, где больше при большем раз- бросе». 8.3. АВТОКОРРЕЛЯЦИЯ Под этим термином понимается класс задач, решаемых на основе корреляционного анализа с учетом местоположения точек наблюдений. При Обработке геологической информации автокорреляция обычно применяется в двух модификациях: собственно автокорреляция — определение тесноты связи ме- жду значениями одного и того же признака, упорядоченными по линии, со сдвигом на одну, две и т. д. точки; поиск сигна- ла на трассе — скольжение п точек значений признака со сдвигом на определенное число точек и с определением тес- ноты связи между заданными п значениями и последователь- но меняющимся таким же числом замеров признака на про- филе. С помощью первой модификации оценивают расстояние, начиная с которого между значениями признака на профиле связь исчезает (значения признака становятся независимы- ми). Вторая модификация позволяет выделять участки про- филей, в пределах которых значения признака более всего коррелируют со значениями заданного сигнала. Примеры решения задач с помощью этого метода приве- дены в материалах для практических занятий. 130
8.4. ПРОВЕРКА ОДНОРОДНОСТИ НАБЛЮДЕНИЙ, ч РАСПОЛОЖЕННЫХ НА ЛИНИИ* При решении разнообразных геологических задач (членение немых толщ, построение классификации пород и ископаемых организмов, выделение аномалий и т. п.) бывает невозможно определить границу между сравниваемыми объектами. Ин- туитивно ясно, что граница должна проводиться там, где рас- сматриваемый признак испытывает наибольшее изменение, а не там, где он ведет себя стабильно. Очевидно также, что определение границ по одному признаку нередко будет приво- дить к противоречивым результатам, если для разграничения использовать разные признаки независимо один от другого. Решение задачи следует искать на пути совместного примене- ния всего комплекса имеющихся признаков. Имеем п наблюдений с определением в них ш признаков, то есть матрицу вида Х11 Х]2 ... Xjj ... Хцп Xtl Xt2 ••• Xtj ... Xtm Xnl Xn2 Xnj ... Xnm, менять заданное расположение объектов (точек наблюдения) в которой не разрешается. Проверка однородности рассматриваемой совокупности мо- жет быть осуществлена с помощью формулы [18] Vk п — 1 nk(n — к) (к (п - к) £xtj - t=i п \2 2 хи t = к+1 / п \2 (8.1) где к — порядковый номер очередной граничной точки (1 с <k^n—1). Из всех Vk выбирают максимальное и сравни- вают с х2 при принятом уровне значимости и имеющемся чис- ле степеней свободы f=m. Если (Vk)max^X2a(ni), то сово- купность считается однородной, иначе проверяют неоднород- ность каждой из получившихся совокупностей. Процесс дроб- ления продолжают до тех пор, пока все выделенные участки не окажутся однородными. * Имеются в виду не только данные маршрутов, горных выработок, геофизических и геохимических профилей, но и данные какой-либо кол- лекции, упорядоченные по значениям одного из признаков. 5* 131
В табл. 45 приведены данные о содержаниях трех форм фораменифер и окончательные результаты членения' пород автором метода. Таблица 45 № проб Значения признаков Vk Ke проб Значения признаков VK X Y Z X Y Z 1 0 li 0 15 3 20 2 2 0 2 0 16 4 17 2 3 0 4 0 17 4 16 3 4 0 4 0 14,44 18 6 26 3 с о " 7 А " 19 5 37 3 6 4 9 1 20 5 31 4 7 2 5 0 21 6 27 1 8 4 10 1 22 3 18 5 9 3 6 0- 17,68 23 4 13 2 ! 24 4 20 9 20,03 10 » 13 0 11 6 15 о. ОС Л О 7 19 К, 17 9 36 ° 10 7 z ° 1' z 27 1 6 0l 13 7 13 2 11,27 “ ‘ ” : 28 2 1 2 14 3 17 1 При просчете по всем пробам значение Утах—30,44 пришлось на интервал между точками 24 и 25; для верхней части таб- лицы было получено значение Vmax=32,ll, а для нижней 3,23, что меньше допустимого х2о,об (3) =7,82; для интервала проб 1—9 Утах= 14,44 (между точками 4 и 5), а 10—24 — 11,27 (между точками 13—14). В интервалах проб 1—4, 5—9, 10— 13, 14—24 максимальные значения критерия составили 2,69; 2,75; 4,59 и 7,04, что меньше допустимого и свидетельствует об однородности пород. 8.5. ВАРИАГРАММА И КРАЙГИНГ Вариаграмма и крайгинг (методы оценирания геологоразведоч- ных параметров) пока не нашли широкого применения в практике работы отечественных геологов. Причина этого не только в том, что для их использования требуются определенная информация и большие затраты машинного времени. 132
Вариаграмма является функцией векторного аргумента, показы- вает, как в среднем различаются содержания от расстояний в за- данной области объема, и определяется выражением 2y(h> =' Л J (z(x) — z (х + h))2, (8.2) V Vs —* где 2y(h)—обозначение варнаграммы; V — объем месторождения VB; z(x)—z(x-t-h)—различие содержаний в точках х и x+h-„ h — расстояние от точки х в заданном направлении. На практике имеется N(h) пар проб, находящихся на расстоя- ниях h, и выражение (8.2) преобразуется к виду - 1 N(hj 2y(h) =------(t(xt) — z(xi + h))2- (8.3) N(h)‘=> При расположении проб на линии (одномерная модель) с шагом h имеем всего п—1 пару для нахождения 2y(h); п—2 пары для на- хождения 2у(2Ь) и т. д. Например, для ряда значений 1, 2, 2, 3, 4, 3, 4 получим 6 пар: (1—2)2+ (2—2)2+ (2—3)2 + (3-4)2-+ + (4—3)2+(3—4)2 и 2у(1) =5 : 6=0,8; пять пар: (1—2)2+(2—3)2+ + (2—4)2+ (3—3)2+(4—4)2 и 2у(2) ='6 : 5= 1,2; аналогично, 2у(3) = = 10: 4= 21,15 и т. д. В свойствах варнаграммы отражаются непре- рывность руд, зона влияния проб, анизотропия оруденения, наличие разноструктурных (появление уступов) элементов, дисперсия содер- жаний в блоках, погрешность оценивания месторождений. На рис. 40 показаны возможные типы вариаграмм [16]. Для непрерывной бо- лее или менее регулярной пространственной переменной соответст- вует тип, показанный на рис. 40, а, переменной, не обладающей непре- рывностью, весьма нерегулярной с «эффектом самородков» (разрыв при h = 0),— тип рис. 40,6, для пространственной переменной с неза- висимыми приращениями и явным проявлением эффекта самородков— рис. 40, в. Для случаев без эффекта самородков, в зависимости от того, на какой шкале — исходной или логарифмической эксперименталь- ные соотношения близки к прямой линии, используются модели 133
(линейная y(h) =ah+b и де Вийса y(h) =a In h+t>. Для функции с эффектом самородков — сферическая модель, которая определя- ется параметрами С, Со и а так, что y(h)=C(l,5(h : а)—0,5(h3 : а3)) +С0, если h<a; y(h)=C + Co, если h>a; Т(Ь) =0, где h — интервал влияния; Со—эффект самородков; С+Со — порог (рис. 41). Рис. 41. Сферическая модель ва- риаграммы Считается, что исследование возможностей вариаграммы «не достигло еще такой степени стандартизации, чтобы стать экономи- чески эффективными в каждодневном планировании рудничных ра- бот ... сложные модели вариаграмм, учитывающие энтропию и зо- нальность, могут быть заменены очень простой изотропной моде- лью, дополненной линейным или квадратичным трендом, описыва- ющим изменчивость...» [9]. Под термином «крайгинг» подразумевается метод нахождения лучшего взвешенного скользящего среднего, назван он в честь Д. Криге, первого, кто использовал пространственную • корреляцию содержаний и наилучшие линейные несмещенные оценки при под- счете запасов руд. При крайгинге используются содержания во всех пробах как внутри, так и вне оцениваемого блока. Смысл край- гинга состоит в том, что содержанию каждой пробы приписывается такой вес, при котором получаемая оценка среднего содержания обладает минимальной дисперсией [16]. Установлено, что при оценке среднего только по пробам, отобранным внутри блока, со- держание для богатых руд получается завышенным, а для бед- ных — заниженным, ибо внутри богатых блоков встречаются участ- ки бедных и наоборот. Математическая постановка задачи. Обозначим через Z истинное среднее в оцениваемом блоке V. Имеем множество проб с содер- жаниями Z(xi), 1=1, .... п. Необходимо найти Z*, являющуюся наилучшей оценкой Z. Оценку предлагают получать с помощью ма- тематического выражения Z*=2aiZ(x), (8.4) 1=1 где ai — множество весовых коэффициентов. Система записывается в виде 2А=Д, где 2, А и Д есть матрицы 1S4
6i2 • • * б|П 1 <=21 ^22 • • • б2П 1 <=п1 ^п2* ' • ёпп 1 1 1 • • • 10 Су Xi Сзухг буХп 1 2 — симметричная, определяемая по имеющимся данным, Д — оп- ределяемая неизвестными свойствами блоков и проб. Решение сис- темы имеет вид А=2-1Д, причем Д определяется на основе вариа- грамм. Для пояснения существа метода далее приводится пример рас- чета точечного крайгинга, заимствованный из работы ['9]. Требуется оценить содержание не в блоке, а в частной точечной пробе, окруженной другими пробами. Матрица 2 остается без из- менения. Вектор Д упрощается, так как вместо ковариаций содер- жания в пробе и блоке ovx рассматриваются ковариации проб о, х0 Xi, где Хо — оцениваемая точка. Пример. Осадочное месторождение описывается сферической вариаграммой с параметрами С=20, Со=2, а=200 футов. Необходи- мо оценить содержание в точке Хо, зная содержания в точках X,, Рис. 42. Схема расположения проб к примеру оценки среднего методом крайгинга Хг, Хз, Х4 (рис. 42). Какие веса следует приписать этим известным значениям? Решение имеет вид Qi еп <=12 <=13 <=14 Г -1 foot а2 б21 <=22 <=23 <=24 1 <=02 <=31 <032 <=33 <=34 1 ёоз а4 <=41 Й42 <=43 <=44 1 <004 <* [м J . 1 1 1 1 0. 1 Необходимо оценить все коэффициенты оц, причем диагональные Он, о22, Озз,’ о44 равны, так как представляют дисперсию содержа- ний в точках на месторождении в целом, которая (по свойствам вариаграммы) равна С+Со=20+2=22. Элементы согласно об- щей формуле, выражаемой шестикратными интегралами, должны быть равны С + Со—у(Ьц), где Ьц — расстояния между точками Xi 135
и Xj. В рассматриваемом случае_ GI2=02i = Go4=C+C0—у (501'2) = = 22— (20(1,5x501*2 : 200-0,5Х (бОУ2)г : 2003) +2) =9,84; о[3=<г31 = = С+С0—у(У1501 2 + 502) = 1,23; О14=о41 = с>,!2=С+С(!—у(1Ю02+50)2= =4,98; о23=о32=С+С0—у(У100₽+1002)=2,33; о34=о43=С+С0— —у(|'2002 + 502)=0; О24=о42=С+С0—у(т'1502+ЮО2) =0,29; ом = С + + С0—у(00) = 12,66; Ооз=С+С0—т(150) = 1,72, на основе чего полу- чается следующее решение: ai=0,518; а2=0,022; а3=0,0189’; а4=0,371. Допустив, что Х,='2, Х2=1, Х3=3, Х4=4, будем иметь оценку содержания в точке Х0=О,518X2+0,022Х1 +0,089 x 3 +0,371 Х4=2,8 (среднее арифметическое равно 2,5). Проба Х3 расположена даль- ше от оцениваемой, чем- Х2, но оказывает большее влияние (8,9% против 2,2%) — следствие того, что Хо находится под непосред- ственным влиянием Х3, тогда как Х2 пребывает «в тени» X]. Для оценки содержаний в точке Уо по тем же данным потребуется оп- ределение новых значений Oyoxi (матрица S остается неизменной). В целом, когда эффект самородков отсутствует, пробы, выходя- щие за границы первого ближайшего окружения, имеют малый вес. По мере возрастания его весовые коэффициенты приближаются к 1/'п. Когда пробы независимы, вер ковариации имеют нулевые зна- чения, и решение системы дает ai=... = an=+l :п — лучшей оценкой содержания является среднее арифметическое (такую ситуацию на- зывают случаем с чистым эффектом самородков). Сдерживающим применением вариаграмм и крайгинга является требуемое предположение об однородности изучаемой части прост- ранства, на что сразу вспоминается пострудная тектоника и т. п. явления. Более детально с вопросами использования этих методов можно познакомиться по работе [16], публикации В. В. Ершова1, обзору А. М. Марголина 2. 8.6. ТРЕНД — АНАЛИЗ Под трендом понимается любая закономерность в упорядо- ченной последовательности величин или графических эле- ментов. С помощью тренд-анализа изучают поля значений признака, охарактеризованные двумя, тремя и четырьмя ко- ординатами, то есть устанавливают зависимость изменения случайной величины (признака) от х, у; х, у, z (z — высотная отметка); х, у, z, t (t— координата времени). Остановимся лишь на двухмерном тренде и ограничимся рассмотрением одномерных случайных величин, причем будем подразуме-' вать, что изучаемая величина характеризуется определенной воспроизводимостью (повторные измерения значений откло- 1 Математические методы и ЭВМ в прикладной геологии/'/Изв. вузов. Геология и разведка. '1'9:85. № 1)1. С. 120—127. 2 Методы геометризации разведуемых запасов полезных ископаемых, усовершенствованная .процедура крайгинга. М.: ВНИИ экономики, минер, сырья и геол.-развед. работ, 1983. 82 с. 136
няются от первоначальных с погрешностью, допустимой в дан- ном исследовании) и изменчивостью (среди обрабатываемых значений есть такие, которые отклоняются друг от друга на величину, превышающую погрешность измерения). При выполнении двухмерного- тренд-анализа предполага- ют, что изучаемая величина и задана по плоскости с коорди- натами х, у, причем u=f(x, у) 4-е. (8.5) Необходимо дать оценку функции f (х, у) или описать слу- чайную часть при некотором предположении о f(x, у). Ком- понента f(x, у) представляет собой неслучайную составляю- щую поля, характерную для отдельных частей изучаемой тер- ритории (области повышенных концентраций, значений геофи- зических параметров, рельефа, мощностей тела и т. п., сопо- ставляемые с областями пониженных значений тех же пара- метров) . Пространственный учет компоненты е во многих слу- чаях позволяет выявить локальные отклонения от общих за- кономерностей изменения поля. Другими словами, учитывая значения f(x, у), можно устанавливать характер изменения фоновых' значений поля, а учет значений е — выявлять ано- малии. Неслучайная составляющая поля f(x, у) может быть опи- сана с помощью полинома k-го порядка f(х, У) — аоо4-а1оу4-аО1х4-а11ху+а2оу24- ао2х2-|-а22Х2у2-|- 4-...4-akkykxk, (8.6) параметры которого (коэффициенты при различных степенях координат х и у) определяются из условия наилучшего совпа- дения сглаженных данных с исходными, возможным критери- ем оценки близости которых может явиться способ наимень- ших квадратов (для «лучшего» полинома сумма квадратов отклонений исходных данных от сглаженных должна быть наименьшей). Существо метода тренд-анализа рассмотрим на примере обработки данных содержания элемента А в пределах неболь- шого участка площади (рис. 43, а; пространственные законо- мерности изменения содержаний в пределах участка подобра- ны так, что видны на глаз, вообще же тренд-анализ применя- ют для обработки данных, пространственные закономерности которых на глаз не обнаруживаются). В табл. 46 приведены содержания элемента в точках на- блюдения (колонки 3) и координаты этих точек (колонки 1, 2). В колонках 4 приведены теоретические значения содержа- 137
Л ? .4 .5 *3 *6 *5 ? 4 *5 4 1 Рис. 43. Результаты обработки исходных данных (а) с помо- щью полиномов первой (б) и второй (г) степеней. На рисун- ках (в) и (д) показаны значения е — отклонений от соответ- ствующих поверхностей тренда: сплошная линия — плюсо- вые, пунктир — минусовые Таблица 46 1 2 3 4 б 1 2 3 4 5 7,5 7,5 4 4,2 4,1 7,5 22,5 2 3,1 2,2 15,0 7,5 5 4,0 4,9 15,0 22,5 3 2,9 4,0 22,5 7,5 4 3,9 4,0 22,5 22,5 4 2,8 4,2 30,0 7,5 1 3,7 1,4 30,0 22,5 3 2,6 2,5 7,5 15,0 3 3,6 3,5 7,5 30,0 1 2,5 1,5 15,0 15,0 6 3,5 4,9 15,0 30,0 2 2,4 2,5 22,5 15,0 5 3,3 4,5 22,5 301,0 3 2,2 3,1 30,0 15,0’ 2 3,2 2,3 30,0 30,0 2 2,1 2,0 ний элемента, полученные на основе сглаживания эмпириче- ских данных полиномом первой степени (обработка данных осуществлена на ЭВМ), а в колонках 5 — второй. Диспер- сии отклонений теоретических содержаний от наблюдаемых равны 19 и 4,5-10-3. Лучшая аппроксимация изменений со- держания элемента полиномом второй степени видна и из самой таблицы (для полинома нулевой степени u=3,l, s2= =2,1). Полином первой степени (рис. 43, б) отражает грубую за- кономерность уменьшения содержаний элемента А в СВ на- правлении, а на карте остаточных аномалий (рис. 43, в) чет- 138
ко отразились поля повышенных и пониженных значений. Полиномом второй степени (рис. 43, г) описана имеющаяся закономерность изменений содержания элемента А в преде- лах изучаемого участка, а на карте остаточных аномалий (рис. 43, д) видны лишь случайные отклонения значений от этой закономерности. Аппроксимация изменений признака в пространстве три- гонометрическими полиномами позволяет описывать законо- мерные периодические колебания свойств геологических объ- ектов. С примерами решения таких задач при обработке гео- логоразведочных данных можно познакомиться по ра- боте [13]. При малом числе данных наличие тренда в изучаемом направ- лении можно проверить с помощью критерия «скачков вверх и вниз» или рангового коэффициента корреляции (6.11). «Скачком...» назы- вают последовательность плюсов или минусов, состоящую из одно- го и более одинаковых элементов. Знаком ( + ) обозначаются зна- чения большие, а (—) меньшие медианного (среднего). Допустим, имеется ряд значений: 1 2 3 4 5 6 7, медиана равна 4 (из подсчета исключается). Получим — — — + + + , то есть шесть значений, три меньше ее и три больше, два скач- ка. Эти же данные в последовательности: 1 2 6 4 7 3 5 об- разуют ряд с четырьмя скачками :---Ь 4-----1-. Вероятность наступления Р(и) в последовательности из П] и п2 элементов плюсов и минусов при четном значении и равна Р(и) = 2 X х________________(Щ — 1)! (п2 - 1)1 nt! п2!____________ 1Нп,-_27 (8.7) а нечетном (щ — 1)! (п2 - 1)1 nd п2! (8.8) 139
где N=n!+n2. Если полученное P(u) меньше а, гипотеза о слу- чайном расположении значений отвергается. Применение критерия продемонстрируем на примере содержаний щелочей в интрузивных породах по данным отбора проб в задан- ном направлении [17]. Имеем: Na2O 2,45 3,46 21,48 2,07 3,35 К2О 0,20 0,14 0,28 0,21 0,33 2,95 2,15 2,65 2,43 3,63 6,01 , 0,35 0,47 0,34 0;49 0;68 0,78 Медианное значение 2,95 и 0,34. С учетом этого получим: — 4- — + + + — — — + + и — — — — — + + + + +, то есть 01=02=6, но щ=6, а н2=2. Определим Р(п) для содержа- ний к2о р, Л________________2(5-1) [(5-1)1 5151_____________ - <2:2- 1) 1 (2:2— 1) 1 (5—2:2) 1 (5—2:2) 110 _ 24-24-120-120 1-1-24-24-3628800 ’ Аналогично для Na2O получим Р(п) =0,286. В первом слу- чае вероятность появления скачков значительно меньше 0,05 при- нятого в геологии для Объективности проверяемой нулевой гипоте- зы, событие не случайно, свидетельствует о наличии тренда. Во втором случае вероятность появления наблюдаемого числа скачков не отвечает редкому событию, могло возникнуть за счет случайных причин. При N больше 10 распределение функции Р(п) приближается к нормальному, рекомендуют [17] определить возможное среднее число скачков: — ЗпрПа X (и) = „ + 1 и Дисперсию, ' ' Ill 'Т’ п2 __ 2гц-п2 (2гц-п2) - ti! - п2) W (щ + п^щ + п,-!) ’ на основе которых получить значение t= (п—х(п)): }'о2(п). Если 18мп больше допустимого при принятом уровне значимости и име- ющемся числе степеней свободы, то изменение значений не случай- но (тренд существует). Для К2О имеем 2(5x5) : (5+5)+ 1=6 и о2(н)= 2x5x5(2X5X5— —5—5) : (5+5)2(5+5 + 1) = 1,82;1эмп=|2—6| : у.1,82 = 4:1,35= 2,9, что больше to,os(9) =2,26. Для Na2O имеем t8Mn= |6—6| : VI,82=0,0. Ранговый коэффициент вычисляется между рангом изучаемой последовательности и возрастающим рядом чисел. Для рассматри- ваемых окислов имеем: 140'
Ряд чисел Ка2О 1 2 3 4 5 7 8 6 6 7 8 9 10 11 11 3 9 4 1 5 2 10 Разность К2О —2—7 —1 2. 1 4 -3 —3 3 5 0 7 6 3 8 6 7 0 9 10 0, сумма = 0; 11 Разность —1 1 —1 £d2(Na2O) p(Na2O) = 1 — Р(К2О)=1- 1 0—1—12 = 166, 2d2(K2 6-166 0 0 О) = 325 0, сумма=0; ю, - = 0,25; )5, (121 - 6-10 1320 О’ 11 1260 1320 1320 = 0,! то есть между содержаниями первого окисла связь незначима, а второго — близка к функциональной (свидетельствует о наличии закономерных изменений, о наличии тренда). Ряд задач связан с проверкой случайности расположения на пло- щади «точечных объектов». Под «точечными» понимаются место- рождения, участки минерализации, околорудно измененных пород, аномалии, места обнаружения окаменелостей и т. п. объекты, раз- меры которых по сравнению с размерами Исследуемой территории ничтожны. Выделяют задачи по проверке случайности их располо- жения и выделению областей относительного сгущения. При решении первых задач территория разбивается на квадраты одинакового размера. Часть их (р) содержит изучаемые объекты, остальные (1—р) не содержит. Исходные квадраты группируют по 4, 9, 16 и т. п., определяют доли пустых ячеек р'к и сравнивают с теоретически вероятными рк. При случайном расположении то- чечных объектов вероятность того, что новый квадрат окажется пустым, будет равна Pn=(1—-p)N. Если различие существенно — распределение объектов неслучайное. Аналогично проверяется ги- потеза о случайном расположении объектов относительно линей- ных элементов (тектонические нарушения, контакты пород и т. п.). Вместо, квадратов — полосы определенной ширины. Для решения задач по выделению участков сгущения пользу- ются специальными палетками (концентрические окружности или квадрат в квадрате), центр которых последовательно перемещается по изучаемой площади. При каждом положении палетки подсчиты- вается число объектов н пределах меньшей m и большей п фигур. Избыточная плотность оценивается по формуле v=(m:p), где р— отношение площади меньшей фигуры к большей. Вероятность слу- чайного попадания не менее чем m объектов из их общего числа п в область с относительными размерами р описывается биномиаль- ным законом при суммировании от m до п, а случайного попада- ния не более чем гл при тех же условиях — от нуля до ш. Отно- шения полученных величин используют для выделения областей сгу- щения (разрежения). Подробно с методами решения задач о слу- чайности расположения объектов на площади можно познакомить- ся по работам [4, 15, 17]. 141
8.7. МАТЕРИАЛ ДЛЯ ПРАКТИЧЕСКИХ ЗАНЯТИЙ Решение типовых задач Задача 1. Имеются содержания изучаемого элемента, пробы отобраны на расстояниях друг от друга в 20 м. Определить с помощью автокорреля- ции расстояние, на котором не сказывается влияние соседних проб на из- менение содержаний элемента. Исходные данные: 1^34554321^ Решение. Просчитав коэффициент корреляции между значениями содер- жаний без смещения данных по профилю: ( 1 2 3 4 5 5 4 3 2 1 (1 2 3455432 1, получим 1=1,00. При смещении содержаний относительно друг друга на одну пробу: • Г 1 23455432 (23455432 1, получим г=0,76, при смещении их иа две пробы: ( 1 2 3 4 5 5 4 3 [345543 2 1, получим г=0,27, то есть связь стала незначимой. Отбирая пробы через 40 м в поле содержаний, заданном примером, получим значения, ие зави- сящие от значений в предыдущих пробах. Задача 2. Полезный сигнал (ореол повышенных содержаний элемента над глубокозалегающим рудным телом) имеет форму постепенно возрастающих значений до некоторой величины и затем спад их. Допустим, что для кон- кретного полезного ископаемого этот сигнал фиксируется в пяти последо- вательных точках значениями 7; 8,5; 10; 8,5; 7. Найти с пом’ощью авто- корреляции участок профиля, наиболее соответствующий искомому полез- ному сигналу. Исходные данные: [ № точек 1 2 3 4 5 6 7 8 9 10 11 12 < Содер- х- ( жанпя 10 3 1 2 1 3 6 10 6 8 1 2 Решение. Просчитывая последовательно коэффициенты корреляции меж- ду значениями полезного сигнала и значениями содержаний по профилй (точки 1—5; 2—6; 3—7 и т. д.), найдем участок, имеющий наибольшее значение этого статистического параметра. Этот участок и будет наиболее «похож» на заданный полезный сигнал. Имеем: ( № точек 1—5 2—6 3—7 4—8 5—9 6—10 7—11 8—12 | ri —0,52 —0,601 —0,40 —0,38 —0,37 0,99 0,37 —0,38, 142
наиболее соответствующим надрудному участку следует считать участок профиля между точками отбора проб с номерами 6—10. Задача для самостоятельного решения Г. Отстроить карту значений коэффициента корреляции между содер- жаниями свинца и цинка путем просчета их методом скользящего пло- щадного окна размером 3X3 со сдвигом его по осям Ох и Оу на 1 точ- ку. Исходные данные по участку опробования приведены ниже (числи- тель—содержание свинца, знаменатель — цинка). 1/3 3/1 2/1 3/1 6/3 10/3 6/1 2/3 2/2 1/2 4/2 6/3 4/3 6/3 3/1 2/1 3/4 6/3 6/4 4/3 3/6 2/3 3/2 з/з 6/4 4/3 3/4 3/1 • 1/3 2/3 3/2 4/1 2/3 2/1 3/2 3/6 2/3 3/2 1/2 4/1 2/4 3/1 1/10 3/6 2/1 1/2 2/1 . 2/3 3/2 Указание: в каждое окно осреднения должно попадать по 9 проб, оха- рактеризованных содержаниями свинца и цинка. Важно не выявление по- вышенных содержаний каждого из элементов в отдельности, а выделение участка территории с высокими значениями коэффициентов корреляции между элементами. План работы 1. Определение коэффициента корреляции каждым студентом по од- ной выборке (по одному окну осреднения данных). 2. Нанесение данных, полученных всеми студентами, на условный план поверхности и отстройка значений полей коэффициента корреляции в изо- линиях. 3. Нанесение данных о содержаниях самих элементов и отстройка зна- чений полей свинца- и цинка в изолиниях. 4. Анализ планов содержаний элементов и значений коэффициентов корреляции, выбор мест заложения проверочных горных выработок (рель- еф понимается с СВ на ЮЗ). Контроль знаний по главе 8 С помощью какой формулы определяются: однородность наблюдений на линии; теоретические значения вариаграммы; то же — практические значения; оценка среднего на основе крайгинг-метода; изучаемая величина при площадном тренд-анализе; неслучайная составляющая при описании поля полиномом k-го порядка; вероятность наступления четного числа скачков в последовательности из N наблюдений; то же — нечетного чи- сла; среднее число скачков в последовательности значений больше деся- ти; то же дисперсии их? На плакате или листах с вопросами, выдаваемых студентам, должны быть первые части формул (8.1)—(8.8); (7.8)—(7.10); правые части вы- ражений х(н) и о2(н). 143
Глава 9 РАСПОЗНАВАНИЕ ОБРАЗОВ 9.1. ПОНЯТИЕ И ЗАДАЧИ При решении вопросов сопоставимости геологических обра- зований, их классификации зачастую используют метод ана- логий. Применение метода предусматривает поиск и изучение природного аналога, выявление степени подобия (схожести) объекта изучения аналогу, перенесение характеристик анало- га на объект изучения. Наиболее трудным при этом является установление признаков подобия объекта аналогу, так как из- за сложности геологических процессов строгого подобия ме- жду объектами добиться невозможно, а методы оценки до- пускаемых отклонений не разработаны. Для приближенной оценки подобия сложных геологиче- ских объектов широко используют метод распознавания об- разов. Под термином «образ» понимают совокупность (мно- жество) объектов определенного класса, характеризующихся рядом общих признаков. Задача распознавания образов со- стоит в выборе решающих правил разделения изучаемых объ- ектов на родственные совокупности и в отнесении объектов неизвестной природы к определенному образу. При этом по- лагают, что всякому реальному объекту можно поставить в соответствие его изображение в виде точки в N-мерном про- странстве (размерность пространства определяется числом признаков, характеризующих объект). То есть информация об объекте составляет изображение в виде вектора V=(Vi, V2, .... Vn), координаты которого количественно характеризу- ют свойства образа. В таком представлении совокупности изображений, относящихся к одному и тому же образу, соот- ветствует набор точек, рассеянных внутри некоторой области, пространства изображений. Ожидается, что совокупность изображений, принадлежащих конкретному образу, будет ком- пактна («расстояние» между членами одного образа будет в среднем невелико), а сгустки их, представляющих изобра- жения различных образов, будут отделены друг от друга. Ил- люстрация этой идеи для двумерной задачи приведена на рис. 44. Для распознавания необходимо предварительно изучить признаки на совокупностях объектов, характеризующих каж- дый из распознаваемых образов, причем для правильного от- 144
несения объектов к одному из заданных образов важно не ко- личество набираемых признаков, а их характерность, взаимо- связь, информативность. Рис. 44. Представление объектов двух классов (образов) в двумерном пространстве. В геологии, как правило, разделению подлежат объекты, различие которых является лишь статистическим. Например, породы надрудных и подрудных участков зоны оруденения содержат элемент А в одних и тех же градациях, но одни со- держания чаще встречаются в первом образе (совокупности проб из надрудных участков) , а другие — во втором (сово- купности проб из подрудных участков). Теоретически каждый образ можно представить бесконеч- ным числом объектов и, обучив на них машину, распознавать конкретные объекты неизвестной природы. На практике гео- лог располагает ограниченным числом объектов по каждому образу. Можно лишь предполагать, что имеющиеся объекты достаточно объективно представляют все остальные — явля- ются представительными. При распознавании образов в ма- териале экзамена среди объектов, подлежащих распознава- нию, не должно быть таких, на которых обучение не осущест- влялось. Нельзя, например, потребовать разделения пород на изверженные и осадочные, если в числе распознаваемых объ- ектов есть образцы метаморфических пород, так как послед- ние будут неправильно относиться то к изверженным, то к осадочным. Количество образов обучения может быть различным. При одном образе для исследуемых объектов осуществляется оценка «похожести» на объекты заданного класса, то есть ранжирование. Жесткого количественного критерия похоже- сти не существует. При двух и более образах обучения ис- следуемые объекты относятся к тому, или иному из заданных классов, хотя возможна и неопределенность решения. Представим себе такую задачу. Изучаемая территория перспективна на слепое магнетитовое оруденение. Выявлено несколько десятков аномалий, природа которых может быть 6—418 145
как рудной, так и породной. Необходимо разбраковать име- ющиеся аномалии и определить первоочередные для постанов- ки разведочных работ. Если обучение осуществлено на основе объектов одного образа (месторождений), то для исследуемых аномалий бу- дет получена относительная Характеристика рудности. Раз- буривание следует вести от наиболее «похожих» на место- рождения к менее «похожим» до получения отказов. Обуче- ние можно выполнить на основе представления рудных и по- родных объектов, и тогда вся совокупность исследуемых ано- малий сразу разделится на две группы: рудные, породные. Для рудных, как и в первом случае, будет получена ранжиро- ванная оценка «похожести» на месторождения. Можно пред- ставить для обучения объекты трех классов: месторождения, рудопроявления, породные аномалии. Число первоочередных объектов для постановки разведочных работ при этом еще уменьшится. Задачи распознавания [11] делятся на три типа: задайы образы, указаны признаки, необходимо найти решающее пра- вило, согласно которому объекты неизвестной природы мож- но было бы относить к одному из заданных образов; заданы образы, решающее правило, необходимо найти систему при- знаков, которая обеспечивала бы разделение объектов с ми- нимальными затратами на их получение; заданы объекты, охарактеризованные m-прнзнаками, необходимо на основе каких-то правил делить их на классы. В настоящей главе рассматриваются вопросы распознавания применительно к решению задач первого типа. 9.2. ИНФОРМАТИВНОСТЬ ПРИЗНАКОВ При использовании метода распознавания совместно может применяться качественная и количественная информация. Ин- формацию по качественным признакам для подготовки к ма- шинному счету кодируют по принципу «да-нет». Признак имеется — «да», кодируют единицей; отсутствует — «нет», ко- дируют нулем. Принцип «да-нет» применим и для кодирова- ния количественной (числовой) информации. Значения по каждому Признаку разбивают на две части. Величины, мень- шие разделяющего значения, кодируют нулями, а равные и большие — единицами. В качестве разделяющего создателя- ми программ рекомендуется принимать среднее (модальное, 146
медианное) по признаку для распознаваемых классов. Как показалопыт применения их автором *, в качестве разделяю- щего лучше принимать то, при котором суммарная ошибка не- верного отнесения объектов одного образа к другому была бы минимальной. Поясним сказанное на примере выбора раз- деляющего значения С для величины отношения марганца к титану в породах рудных Р и нерудных Н аномалий (табл. 47). При выборе 0,6<С<1,0, все 75 нерудных объекта Таблица 47 Таблица 48 Значение Число объектов Разделя- ющее зна- Число не- верных признака отнесений Сум- н р чение н р <0,2 42 4 0,4 0,0 32 1 8 9 0,6<С<1,0 — 21 21 >1,0 — 54 0,4<С<0,6 1 12 13 75 75 0,2 <С <0,4 33 4 37 распознаются верно, так как имеют зналение признака менее 0,6, но 21 рудный объект будет отнесен к нерудным, табл. 48; при 0,2<С<0,4 неверно распознаются 33 нерудных и 4 руд- ных (суммарная ошибка распознавания составит 37 объек- тов); при 0,4<С<0,6 неверно распознается один нерудный и 12 рудных, всего 13 объектов из 150. Разделяющее 0,4<С<: <0,6, следовательно, и является наилучшим. Использование при распознавании не отдельных призна- ков, а их сочетаний повышает .информативность имеющегося материала. В табл. 49 приведены значения трех неинформа- тивных признаков (одинаково часто встречаются у 'Объектов обоих образцов). Сочетания же признаков информативны: для первого образа характерны наличие или отсутствие всех трех признаков; для второго образа характерно: при наличии двух первых — отсутствие третьего и наоборот. Эффект возрастающей мерности изучаемого пространст- ва в разделении объектов на классы покажем на следующем примере. Имеются значения признаков А, В, С на объектах образов Р и Н (табл. 50). Все признаки изменяются в четы- ’ Геолого-геохимическая оценка слабых магнитных аномалий: Автореф. дис. ... канд. геолого-мйнерал-. наук. Иркутск, 1969. 6* 147
рех градациях, и каждая градация встречается у объектов сравниваемых образов. На основе значений каждого из при- знаков в отдельности можно судить лишь о различии в ве- роятностном смысле, объект с содержанием признаков А=1, Таблица 49 № объ- ек- тов Первый образ Второй образ признак признак 1 2 3 1 2 3 1 1 1 1 1 1 0 2 0 01 0 О 0 1 з • 1 1 1 0 0 1 4 1 1 1. 1 1 0 5 01 0 О' О' 0 1 6 0 0 0 1 1 0 Таблица 50 № объ- ектов Р Н А В С А В С 1 1 4 1 1 4 3 2 2 3 1 2, 3 4 3 1 2 2 2 4 1 4 3 1 4 3 2 3 5 3 2 2 3 3 2 6 2 2 3 3 4 1 7 4 1 1 4 1 4 8 1 1 3 4 2 2 9 1 3 4 4 3 2 10 2 1 2 4 4 1 например, в четыре раза вероятнее для образа Р, чем для Н. При использовании сочетания признаков АВ (рис. 45) четко различаются 12 из 20 рассматриваемых объектов (восемь имеют одинаковые значения: 1 и 4, 2 и 3, 3 и 2, 4 и 1). В трех- мерном пространстве сравниваемые объекты, различаются четко все. А 41 + + + 4- з- • + + + 2' • • > + 1 Г * * Т 4 12 3 4 Рис. 45. Положение сравниваемых объектов в плоскости признаков АВ Информативность признаков может быть определена через обратную характеристику — неопределенность: Ni р Njj Njj и] р Nij Njj n-|%'nT + TT Ж К (9.1) где p — число образов; N — общее число объектов; Nj — об- щее число объектов, у которых значений i-ro признака равно единице; Ni — общее число объектов, у крторых значение i-ro 148
признака равно нулю, Ыц — число объектов j-ro^ образа, у которых значение i-ro признака равно единице, Кц — число объектов j-ro образа, у которых значение i-ro признака рав- но нулю; Н — неопределенность (для неинформативных при- знаков Н=1), а также с помощью формулы k'=a2(n-m), (9.2) где к' — вес признака; а — количество сочетаний признак-ру- да; п — число появлений признака на оцениваемой террито- рии; m — число рудных объектов (рекомендуется при разбие- нии территории на клетки определенного размера при снятии информации с карт). Во всех случаях, имея в виду, что ин- формативность — это способность признака сообщать что-то важное об изучаемом, вопрос информативности — неинфор- мативности следует решать с учетом цели исследования. 9.3. АЛГОРИТМЫ Количество алгоритмов, применяющихся в настоящее время при распознавании, насчитывает несколько с$тен. Ниже при- ведены наиболее простые из них, применяющиеся при руч- ном счете. Метод эвклидова расстояния. Этот метод исходит из срав- нения эвклидова расстояния. между объектом неизвестной природы и обобщенных характеристиками эталонных объек- тов заданных образов. Расстояние между неизвестным объек- том Р и обобщенной характеристикой образа Е определяют по формуле d(P, Е) = (Pi - xiE)2 (9.3) где xie—средние значения i-ro признака для объектов об- раза Е; i = l, 2, ..., m. Расстояние между Р и эталоном ^со- ответственно: Zm 1 (Pi - Х.и)’ ' i=i Если d(P, E)<d(P, Н), то Р принадлежит образу Е, в про- тивном случае —• образу Н.(при равенстве обеих частей —; неопределенность решения). . Значение расстояний d можно использовать в качестве са- мостоятельного параметра — меры подобия объекта неизве- 149
стной природы объектам заданного образца. Чем меньше это значение для оцениваемого объекта, тем меньше он отлича- ется (отстоит) от обобщенной характеристики объектов за- данного образа. Пример. Определить принадлежность объекта Р к од- ному из заданных образцов, каждый из которых предс- тавлен тремя объектами, охарактеризованными тремя признаками (табл. 51). Таблица 51 Признак Объекты класса Е Объекты класса Н Объект Р 1 2 3 1 2 3 1 1,101 1,25 1,55 0,9 1,1 1,0 1,2 2 0,4 0,3 0,8 0,7 0,6 0,5 0,5 3 4,2 3,7 4,1 4,0 5,5 4,0 4,0 Определяем средние значения признаков: х]Е= (1,10+1,25+1,55) : 3=1,3; х1Н= (0,9+1,1 + 4-1,0),: 3=1,0; х2Е (0,44-0,34-0,8) : 3=0,5; х2н= (0,7+0,6+0,5) : 3=0,6; хЗЕ= (4,2+3,7+4,1) : 3= =4,0; хзн= (4,0 + 5,5+4,0) : 3=4,5 и на их основе оцениваем d(P, Е) =У( 1,2—1,3)2+ (0,5—0,5)2+ (4,0—4,б)2=0,1 и d(Р, Н) =У(1,2—1,0)2+ (0,5—0,6)2+ (4,0—4,5)2»0,55. Видно, что объект Р более «похож» на объекты обра- за Е, чем на объекты образа-Н. Пример. Допустим, что у исследователя есть данные лишь по объектам одного образа (образа предыдущего примера) и данные по двум объектам неизвестной при- роды: Pi(l,2; 0,5; 4,0) и Р2(1,4; 0,4; 4,1). Необходимо определить, какой из этих объектов более «похож» на объекты имеющегося образа и, следовательно, должен подвергнуться детальному изучению в первую очередь? Воспользовавшись формулой (8.3), определим d (Р2, Е) = /1,4—1,22 + 0,4—0,52 + 4,1 —4,р2» 0,17. Ранее имели d(Pb Е)=0,1. Видно, что объект Pi ме- нее отличается от объектов образа Е и должен изучать- ся в первую очередь. 150
Корреляционный метод. При этом методе процедура опо- знания заключается в определении корреляции между зна- чениями признаков объекта неизвестной природы и значени- ями их на объектах заданных образов. Мерой связи являет- ся коэффициент корреляции, равный косинусу угла между вектором Р и обобщенными характеристиками эталонных объ- ектов заданных образов. При задании образов Е и Н будем иметь ______ ________Р] Х]Е + Р2Х2Е + ... +PnXne_______ COSa~У Р^+^-Ь ... +Р№• Г(х1е)23-(х2Е)2+ -•• + (xne)2 ' о SPjXiH COS Р — --^—±^+—7 ... , KwVBSiH)2 где Xie, xjH, х2е и т. д. — координаты векторов Е и Н, тО есть показатели, каждый из которых характеризует, одно из свойств; Р], Р2 и т. д. — соответственные показатели (коор- динаты) оцениваемого объекта. Решающее правило: Р относится к образу Е, если cosa больше cosp и наоборот. Пример. Используя данные предыдущих примеров, оценить принадлежность объекта Р к одному из задан- ных образов Е и Н. На основе формулы (9.4) определя- ем значения 1,2-1,3+0,5-0,5+4,0-4,00 cosa= /----1.. Г-’........... - :г--=7 рА1.22+0,52+- 4,02 • j/l,32+0,52 + 4,02 = == о 9997 . 17,8145 ’ о 1,2-1,0+0,5-0,6+4,0-4,5 COS 6 = ' =—-=====_ = у 1,22+0,52 + 0д2 • р/1,02 + 0,62 + 4,52 -- 19>50 _ q ggyg 19,552 ~ ’ • На основе полученных данных имеем, что cosa>cosp, то есть объект Р, более «похож» на объекты образа Е, что не противоречит результатам распознавания на ос- нове использования эвклидова расстояния. Вероятностный метод. Основан на применении для распо- знавания формулы Бейеса. Алгоритм применим при числе образов (проверяемых гипотез) не менее двух. Число объектов 151
задаваемых образов должно быть достаточным для получе- ния объективных значений частости появления различных градаций признаков. Существуют некоторые затруднения с определением вероятностей оцениваемых гипотез, то есть ве- личин Р (Hj). Принимая их равновероятными, преобразуем основную формулу Бейеса к виду П PH1(Aj) P(Hi) = -------- 0.5) ’ 2 ПРн|(Л|) где P(Hi)—вероятность i-й гипотезы (вероятность принад- лежности объекта i-му образу); Phi(Aj)—частости (прини- маемые за вероятности встречи j-ro признака на объектах i-й гипотезы (i-ro образа); i = l, 2, ..., п — число гипотез (об- разов); j = 1, 2, щ — число признаков, на основе которых осуществляется распознавание. Пример. Допустим, что на основе изучения водяных и нефтяных структур определенного региона установле- ны частости появле- Таблица 52 ния различных Гра- Признак Гра- дации приз- нака Частости ления грг призн; на объ- ектах нефтя- ных струк- тур н дации трех призна- прояв- ков /табЛ- 52). в ре- шении 1ка зультате проведения геофизических работ на объ- в пределах региона ектах выявлены 3 допол- струк-1Х нительные структу- тур В ры, имеющие значе- нин признаков, соот- Первый 1 2 0,1 0,2 0,4 0,3 ветственно, (1; 5; 3 ), 3 0,3 0,2 (4; 5; 4) и (2; 3; 1). 4 0,4 0,1 Определить возмож- Второй 1 2 3 0,1 0,1 0,1 0,2 0,4 0,2 ность их принадлеж- ности к нефтяным и, 4 5 0,3 0,4 0,1 0,1 если такие окажут- 1 0 1 04 ся, наметить перво- Третий 2 0,1 0,3 очередной объект к 3 4 0,2 0,4 0,1 0,1 постановке разве- 5 0,2 0,1 дочных работ. 152
Определяем вероятности принадлежности выявленных структур к нефтяным месторождениям: О,1ХО,4ХО,2 = 0.008 _ 11 ' 0,1X0,4X0,2+0,4X0,1X0,1 0.О12 ~ ’ р— ___________0,4X0,4X0,4_________ _ 0,064— . 0,4X0,4X0,44-0,1X0,1X0,1 0,065 ’ ’ Р = 0,2X0,1X0,1 = 0,002_ 31 ' 0,2X0,1X0,14-0,4X0,2X0,4 0,026 На основе полученных данных делаем вывод, что структура 3 вообще не принадлежит к нефтяным (Р3(В) = 1—0,08=0,92), а первоочередной к разбурива- нию является структура 2. Дискриминантная функция. Различают линейную функцию (ЛДФ) — разделение объектов двух образов и квадратичную — два и более. ЛДФ представляет собой уравнение гиперплоскости в m-мерном пространстве признаков. Основой дискриминантного анализа является нахождение преобразования, которое дает мини- мум отношения разности многомерных средних значений для объ- Рис. 46. Графическая интерпретация принципа различия объектов при ис- пользовании дискриминантного ана- лиза. ектов двух образов к многомерной дисперсии по данным обоих. Графически смысл анализа показан на рис. 46. На основе исход- ных значений признаков X, и Х2 удовлетворительное разделение объектов показанных образов А и В невозможно. Существует, однач ко, направление Д(х), вдоль которого разделение их очевидно. Ко- ординаты точек такого направления и дает уравнение ЛДФ гп Д (х) = 2 ajXj , (9.6) j=i Подставляя в это уравнение среднее арифметическое из средних по каждому признаку для объектов двух образов, получают зна- чение дискриминантного индекса До, который соответствует точке разделения объектов образов А и В. По конкретным значениям 153
признаков оцениваемого объекта получается оценка Д(х). Если ее значение больше илй равно значению индекса, то объект относится к первому образу, иначе — ко второму. С дискриминантной функцией связана величина Д2, которая мо- жет служить мерой надежности принимаемых решений по отнесе- нию объекта к объектам заданных образов: Д’ = ад - ”” где |R| —матрица, образованная коэффициентами корреляции; Rij— алгебраическое дополнение элемента, стоящего на пересечении i-й строки и j-ro столбца. Статистика Д2 называется «обобщенным рас- стоянием», или критерием Махаланобиса. Чем она больше, тем бо- лее уверенное разделение можно провести между объектами обра- зов. Величина Д2 может использоваться для оценки информативно- сти признаков и минимизации их числа (путем решения задачи с последовательно увеличиивающейся размерностью признакового про- странства). С примерами решения задач на основе применения ЛДФ можно познакомиться по работам.[5, 14, 15, 17, 18]. При большом объеме вычислений требуется применение ЭВМ. При использовании. ЭВМ приведенные ранее алгоритмы услож- няются. При определении эвклидова расстояния, например, исполь- зуется формула: S (Р, Е) = 1- (d2 (Pj, f,) + d2 (P2, f2)+ . • • + d2 (Pm, fm)) , где d2(Pi, fi) —квадрат расстояния от вектора Р до вектора fi об- раза Е, вычисляемый по выражению m d2 (Pi, fi) = £ ®i2 (Pi “ fi)2, 1 = 1, 2, .. ., m ; i=i здесь ел — весовой коэффициент (значимость i-ro признака среди остальных), выраженный в долях единицы; Si2 — дисперсия значе- ний i-ro признака. Алгоритм определяет среднее расстояние иссле- дуемого объекта от объектов образа, а не от усредненной характери- стики и учитывает значимость (вес) признаков. Матрицы исходных данных до вычисления эвклидова расстояния могут подвергаться стандартизации, что исключает повышенное влияние переменных с наибольшими значениями. Формула Бейеса усложняется за счет ввода априорной вероятности. Главное же — ЭВМ позволяет учи- тывать большое число градаций каждого из признаков, их сочета- ний. Например, при 6 качественных признаках число сочетаний по три составит 6!: (3!Х (6—3!) =20, при 8 — уже 56, а 10—120. Ес- тественно, что обработка такой информации вручную в реальном времени невыполнима. Более детально с вопросами распознавания образов можно по- знакомиться по работам [8, 11]. 154
9.4. МАТЕРИАЛ ДЛЯ ПРАКТИЧЕСКИХ ЗАНЯТИЙ Решение типовых задач Задача 1.- Объяснить, что в результате проведенных исследований уста- новлены вероятности появления трех признаков у нефтяных и водяных структур (см. табл. 52). В прилегающем районе выявлена структура, ха- рактеризующаяся значениями этих признаков (дать трем—пяти, студентам по карточке, содержащей значения признаков и указание принадлежности к определенному образу). Студенты сообщают своим соседям лишь зна- чения признаков, просят’определить принадлежность к нефтяным или во- дяным на оенове вероятностного метода. На карточках, характеризующих нефтяные структуры, должны быть значения признаков: 1,5,3; 2,5,3; 2,5,2; 3,4,4; 3,5,1; 3,4,4; 4,4,2; 4,2,5; 4,3,4; 4,1,4; а водяные структуры — 1,2,3; 2,2,2; 4,2,1; 3,4,1; 2,3,1; 1,1,4; 3,3,1; 1,1,5; 1,5,2; 21,2,1. Задача 2. Для изучаемой площади свойственно проявление глубоко за- легающего магнетитового оруденения. Рудные тела залегают на различ- ных глубинах и фиксируются в магнитных полях аномалиями, мало от- личающимися от аномалий, обусловленных породами с повышенной маг- нитностью или участками вкрапленности магнетита в приповерхностных частях разреза. С целью разделения рудных и нерудных аномалий изуче- но три месторождения и три участка с нерудной природой возмущающе- го объекта. Фиксировались: 1 — содержание в породах аномальной пло- щади сопутствующего оруденению элемента А; 2 — доля карбонатных пород на площади аномалии; 3,— отношение физических параметров В и С; 4 — содержание в породах минерала X; 5 — интенсивность магнит- ного поля (уменьшена в 10000 раз). Результаты изучения сведены в табл. 53. Таблица 53 Приз- нак Рудные объекты Нерудные объекты 1 2 3 1 2) 3 1 -0,77 0,77 0,55 0,20 0,60 0,40 2 0,39 0,49 0,49 0,58 0.501 0,62 3 0,48 0,47 0,44 0,45 0,55 0,65 4 0,50 0,30 0,00 0,31 0,60 0,89 5 1,11 1,04 1,27 1,00 1,40 1,20 В результате проведения детальных поисковых работ выявлено три участка, в пределах которых определены пять упомянутых признаков. Участок А — значения признаков: 0,51; 0,44; 0,45; 0,0,; 1,02, Участок В— значения признаков: 0,80; 0,06; 0,37; 0,30; 1,05. Участок С — значения признаков: 0,50; 0,49; 0,55; 0,70; 1,21. 155
Определить, нет ли среди выявленных аномалий, соответствующих ме- сторождениям? Если их несколько, то выбрать первоочередной объект для постановки поисково-оценочных работ. Решение. Воспользуемся алгоритмом оценки эвклидова расстояния и оп- ределим «похожесть» объектов неизвестной природы на объекты рудных и нерудных аномалий. Средние значения признаков для месторождений и нерудных аномалий, соответственно, равны 0,7; 0,46; 0,46; 0,27; 1,14 и 0,4; 0,5; 0,55; 0,6; 1,2. Соответствие объектов неизвестной природы месторождениям: А = У(0,7—0,51)2+ (0,46—0,4422+ (0,46—0,45)2+ (0,27—0)2+ (1,14—1,02)2 == =0,35; В=У(0,7—0,8)2+ (0,46—0,06)2 + (0,46-0,37)2+ (0,1217—0,3) 2+ (1,14— —1,05) 2= 0,43; С=У (0,7—О,5)2+ (0,46—0,49)2+ (0,46—0,55)2+ (0,27—0,7)2+ -Е (1,14—1,21)2=0,45. Соответствие их нерудным аномалиям: А=У (0,4—0,51)2 + (0,5—0,44)2 + (0,55—0,45)2 + (О',6—0)2+ + (1,2—1,02)2) =0,65; В=У (0,4—0,8)2+ (0,5—0,06)2 + (0,55—0',37)2+ (0,6—0i,3)2+ ' +(1,2—1,05)2=0,70; С=У (0,4—0,5)2 + (0,5—0,49)2 + (0,55—0,55)2 + (0,6—0,7) = + + (1,2—1,21)2=О;14. На основе полученных значений замечаем, что объекты А и В при- надлежат к классу месторождений (меньше отличаются от таковых по комплексу признаков), а объект С — к классу нерудных аномалий. Из аномалий А и В первоочередной для постановки поисково-оценочных ра-. бот является первая, меньше другой отличающаяся от объектов класса «месторождения» по комплексу признаков. Задачи для самостоятельного решения 1. Значения признаков, полученные в пределах рудных и нерудных аномалий и признаков, свойственных двум слабым аномалиям, природа возмущающего объекта которых не изучена, приведены ниже. Необходимо определить принадлежность оцениваемых объектов к объектам заданных образов (табл. 54). 2. На основе применения формулы Бейеса решить вопрос о принадлеж- ности исследуемой окаменелости моллюска к одному из заданных классов по комплексу параметров, полученных путем замера определенных эле- ментов раковины. Вероятности появления различных значений признаков на объектах заданных классов приведены в табл. 55. Исследуемая рако- вина имеет значение первого признака, равное 13; второго — 0,5; треть- его — 9; четвертого •— 0,1. 3. Решить предыдущую задачу на основе использования метода эв- клидова расстояния с учетом того, что средние значения признаков для заданных классов приведены в табл. 56. 156-
Таблица 54 Признак Средние значения при- знаков Значения признаков на объектах неясной при- роды Рудные аномалии Нерудные аномалии Объект А Объект В 1 " 1,0 1,1 0,9 1,0 2 0,3 0,2 0,3 0,1 3 0,8 0,6 0,7 0,7 4 1,1 1,5 1,2 1,4 5 1,5 1,2 1,4 1,3 6 2,0 1,7 1,9 1,8 7 2,5 2,0 2,3 2,2 8 0,2 0,5 0,3 0,4 9 0,0 0,2 0,1 0,1 10 0,6 0,3 0,5 0,4 Таблица 55 Признак Значение Значения Признак Значение Значения А В А В 10—12 0,4 0,3 5—10 0,1 0,7 Первый 12—14 0,2 0,4 Третий 10—15 0,3 0,2 14—16 0,4 0,3 15—20 0,6 0,1 0,6 0,1 0,5 0,1 0,3 0,5 Второй 0,6—1,0 0,4 0,4 Четвертый 0,2 0,4 0,3 1,0' 0,5. 0,1 0,3 0,3 0,2 Таблица 56 Класс Признак 1 2 3 4 А 13,0 0,96 15,0 0,20 В 13,0' 0,64 10,5 0,17 4. В табл. 57 приведены частости появления четырех признаков в мас- сивах гранитов различных возрастов определенного региона. Необходимо определить, к какому из имеющихся массивов можно отнести встреченный в этом же регионе выход гранитов, если для него характерны следующие значения признаков: 16; 7; 1; 0,05.
Таблица 57 Признак Значение Частость Признак Значение Частость А В С А В С <10 0,4 0,4 0,2 1 0,1 0,2 0,4 Первый 10—15 0,4 0,2 0,4 Третий 2 0,8 0,3 0,2 >15 0,2 0,4 0,4 3 0,1 0,5 0,4 <5 0,1 0,5 0,4 <0,1' 0,3 0,1 0,6 Второй 5—10 0,3 0,3 0,2 Четвер- то 0,6 0,2 0,4 тый 0,1'—0,3 0,4 0,3 0,3 >0,3 0,3 0,6 0,1 Контроль знаний по главе 9 По какой из формул определяются- неопределенность признака; сте- пень «похожести» оцениваемого объекта на объекты одного из заданных классов с помощью эвклидова расстояния; то же — на основе корреля- ционного метода; то же — на основе формулы Бейеса? Какой из при- веденных алгоритмов распознавания требует материал обучения не менее чем по двум образам? В каком случае оцениваемый объект может быть отнесен к образу рудных на основе значений эвклидова расстояния; то же — корреляционного метода; то же — значений формулы Бейеса? На плакате или листах с вопросами, выдаваемых студентам, должны быть правые части фор'мул (8.1)—(-8.6), (6.7) — (6.10), а также выраже- ния: 10. d(P, рудн)<<1(Р, н/рудн); 11. d(P, рудн)>й(Р, н/рудн); 12. cosa (рудн)>cosp(и/рудн); 13. cosa(руди)<созР(н/рудн); 14. Рн(рудн)< <РН (н/рудн); 15. Рн(рудн)>Р„ (н/рудн). Глава 10 МОДЕЛИРОВАНИЕ ГЕОЛОГИЧЕСКИХ ОБЪЕКТОВ, ПРОЦЕССОВ ИХ ФОРМИРОВАНИЯ И ПОИСКА 10.1. ГОРНО-ГЕОМЕТРИЧЕСКИЕ МОДЕЛИ При обработке геологоразведочной информации моделирует- ся не строение тел полезных ископаемых, а наблюдаемая из- менчивость их параметров (содержаний, мощностей, объем- ного веса и т. и.). Наиболее широко применяется статистическая модель. Имеются сведения [21], что впервые она применена в конце прошлого века при разведке золоторудных месторождений 158
П. Псаревым. Процесс разведки представляется как много- кратный замер изучаемого параметра в различных местах тела. Параметр — самостоятельная случайная величина, группа замеров его — статистическая совокупность, единич- ный замер — варианта. Варианты статистической совокупно- сти — отдельные независимые флуктуации величины пара- метра относительно среднего значения. Модель учитывает лишь случайную изменчивость признака. Характеристики этой модели (3.1) — (3.5), особенно коэффициент вариации (3.3), являются основой определения необходимого количе- ства замеров, расстояний между пробами, густоты разведоч- ной сети и т. п. геологоразведочных показателей. Геолого- методическим условием применения статистической модели является ограничение ее в рамках блока однородных руд (пород). В 1932 г. П. К. Соболевский для изучения наблюдаемой изменчивости тел полезных ископаемых предложил «геомет- рическую модель». Допускается, что недра Земли — сложный комплекс геохимических полей и форм залегания. Характер- ные свойства его в любой точке можно выразить числом и, причем u = f(x, у, z, t), где х, у, z—координаты пространст- ва, a t — время. Указанная функция удовлетворяет следую- щим условиям: и не равно бесконечности; для каждой точ- ки с конкретными координатами и для конкретного времени имеется единственное значение и; незначительные изменения •координат точки и времени-ведут к незначительным измене- ниям и; поверхности одинаковых значений и не имеют острых углов и пересечений. Моделирование числовых значений лю- бого свойства полезного ископаемого осуществляется графи- чески с помощью изолиний. На планах и разрезах изолинии образуют топографические поверхности и могут рассматри- ваться как графическое выражение изменчивости параметра от координат пространства. «Геометрическая модель» в ее чистом виде применима для моделирования наблюдаемой из- менчивости, когда случайная составляющая настолько несу- щественна, что ею можно пренебречь. Наиболее положитель- ные результаты по геометризации недр на основе этой модели достигнуты на детальных этапах разведки пластовых место- •рождений (мощности пластов, гипсометрия кровли их и по- дошвы, реже содержаний). Имеются положительные резуль- таты применения модели на полиметаллических (П. А. Ры- жов), золоторудных (П. Л. Каллистов) месторождениях, до- казавших, что и на таких объектах закономерная изменчи- 159
вость имеет место, но во всех этих случаях пришлось пред- варительно сгладить исходные данные по опробованию, что- бы таким образом нейтрализовать случайную изменчи- вость '[21]. В 1956 г. П. Л. Каллистовым предложено изучать две составляющие наблюдаемой изменчивости — случайную и закономерную. Случайные изменения признака в различных, в том числе и смежных, пунктах не зависят друг от друга и расстояний между последними. Положительные и отрицатель- ные знаки приращений величины признака в любых направ- лениях редко сохраняются в трех—пяти пунктах наблюдения. Для неслучайной закономерной изменчивости признака ха- рактерна функциональная связь. Признаком неслучайной из- менчивости является наличие плавных колебаний значений признака и постоянство знака его приращения на протяжении полупериода каждого колебания. Неслучайная изменчивость обычно настолько сложна, что выразить ее аналитически как функцию координат пространства не удается. По достаточно большому числу измеренных значений она выражается гео- метрически в виде профилей и изолиний. В качестве обобща- ющих характеристик неслучайной изменчивости П. Л. Кал- листов предложил использовать длины полупериодов колеба- ний, амплитуды колебаний и градиенты изменения значений признака. Он указывал, что характеристика случайной измен- чивости должна оцениваться коэффициентом вариации откло- нений частных значений от уровня неслучайной (от скользя- щей средней). Характер скользящей средней зависит от размера осред- няющего окна, количества сглаживаний, то есть значения ко- эффициентов вариации случайной составляющей, вычисленные от скользящих средних, зависят не только от свойств иссле- дуемой совокупности значений признака, но и от способа об- работки данных. При сглаживании, указывается'в работе '[21], имеем оценки параметров по данным, попавшим в раз- мер окна. Изменчивость, наблюдаемая в его рамках, характе- ризуется математическим ожиданием М, дисперсией D и опре- деляется законом распределения, то есть функцией координат пространства являются не исходные значения, а указанные статистики. В теории вероятностей подобная система назы- вается «случайным полем». В такой модели значения пара- метра, наблюдаемые в единичном замере, представляют кон- кретную реализацию случайной величины, ряд значений на линии — линейную реализацию случайного поля, значения в 160
пределах сечения — площадную, а объема — объемную реа- лизацию случайного поля. Допустив, что математические со- держания участков сглаживания являются функциями коор- динат, удовлетворяющими условиям П. К. Соболевского, как указывает Л. И. Четвериков, можно перейти, к изучению ска- лярного поля, понимая под таковым «область пространства каждой точки О, которой отнесено значение некоторой вели- чины М (и)». Согласно теории случайного поля изменение за- кономерной составляющей можно характеризовать отношени- ем разности математических ожиданий в соседних точках к расстоянию между ними, а скорость такого изменения — от- ношением квадратов таких разностей к расстоянию между .точками. В практических целях (допуская, что между сгла- женными значениями в соседних точках изменение может быть принято линейным) можно воспользоваться первыми и вторыми разностями сглаженных значений признаков: 1 n I 1 п 1=1 n t i==i где I — расстояние между осредненными значениями, |Д(| и | А2 ] — абсолютные значения первых и вторых разностей сгла- женных значений признака (|Д1|1=й1—iii+i, а |Д2|1= (ui—й1+1) —(й1+1—ui+2)). Для описания закономерной составляющей изменчивости в настоящее время используют тренд-анализ (см. раздел 8.6) и математический аппарат случайных функций. В последнем случае имеем F(x) =S(x)+«(х), где S(x) — неслучайная полигармоническая функция с конечным .числом гармоник; е(х) — случайная величина. Количественное описание измен- чивости заключается в разделении ее на две составляющие и в определении амплитуд и гармоник неслучайной составляю- щей (задача выявления скрытых периодичностей на фоне слу- чайных колебаний). Существует несколько методов решения такой задачи. В геологии чаще всего используют корреляци- онное преобразование имеющейся реализации (исходных дан- ных) полигармонической случайной функции, по которой рас- считывают спектр амплитуд. Разложение осуществляется с помощью преобразования Фурье. С уменьшением расстояния между наблюдениями выявляются все более высокочастотные периодические компоненты закономерной составляющей из- менчивости, а доля случайной уменьшается. При отсутствии гармонических составляющих модель полигармонической 161
функции переходит в модель стационарной (математические ожидания и дисперсии в сечениях на всем протяжении изу- чаемого расстояния постоянны), а при отсутствии автокорре- ляции между значениями признаков в смежных пунктах — в модель случайной величины. 10.2. МОДЕЛИРОВАНИЕ ПРИ ИЗУЧЕНИИ ИЗМЕНЧИВОСТИ ОРУДЕНЕНИЯ «Первый вопрос, который возникает при математической об- работке результатов опробования, — это вопрос о том, отра- жает ли наблюдаемая изменчивость содержания полезного ис- копаемого закономерности в пространственном размещении оруденения? Другими словами, это вопрос о наличии тренда в наблюдаемой изменчивости» ;[26, с. 101]. Искажающее влияние на оценку изменчивости оказывает не только наличие тренда, но и объем отбираемого на анализ материала и ориентировка проб в изучаемом пространстве: Рассмотрим модель установления зависимости изменения дисперсии содержаний от объема опробуемого материала, предложенную Л. И. Четвериковым. Вводится понятие малого элементарного участка опробу- емого пространства (объем d) и допускается, что такой уча- сток может быть целиком сложен рудным (положительным) или нерудным минералом. При разведке отбирается m проб объемом Q, причем можно считать, что осуществлено гл вы- борок по n=Q : d элементарных участков каждая. В пробе определяются объем qi, занимаемый рудным минералом, и pi — доля его во всей массе, которую можно представить так же, как долю положительных элементарных, участкбв (Xi) : pi=qi: Q=Xj : n. Если интерпретировать данные опробования как характе- ристику количества положительных элементарных участков в пробах, то окажется возможным применить к ним, в качестве модели оценки зависимости дисперсии содержаний от объема проб, биномиальный закон распределения (2.8), представив его в виде 162
где Pn(x) — вероятность того, что в пробе объема элементар- ных участков интересующее нас событие (конкретное число положительных элементарных участков) появится х раз. Дисперсия о2(р) доли рудного минерала в объеме пробы (дисперсия содержания полезного компонента) при биноми- альном законе определяется по формуле o2(p)=pq:n, где q = l—р, а р и п — параметры такого закона в предлагаемой Л. И. Четвериковым интерпретации. Заменив в последней формуле п на Q : d, получим „2 _ pg _ pgd Q:d Q ’ откуда следует, что увеличивая объем пробы Q в к раз, по- лучим значение дисперсии для того же материала в к раз меньшее , то есть дисперсия, среднее квадратическое, коэф- фициент вариации оказываются зависимыми от размера про- бы, от методики проведения опробования. Подходя с различ- ной меркой к изучаемой изменчивости, получаем различные оценки не реальной, а наблюдаемой изменчивости признака. Коэффициент же вариации, определяющий число наблюде- ний, вес проб и другие геологоразведочные характеристики, оказывается сам функционально зависимым от объема (веса) материала, отбираемого для определения содержаний рудно- го компонента в изучаемых телах. На рис. 47 (по Ж. Матерону, с изменениями) показано раз- личное расположение в рудном теле проб 1—3 одинакового размера (естественно, что положение пробы 3 не характерно Рис. 47. Пример влияния Ориентиров- ки пробы на оцениваемые значения признака для геологоразведочных работ и дано для усиления эффекта по рассматриваемому вопросу). Буквами отражена неодно- родность оруденения в пределах тела (а—содержание 1—2%, б — 3—4%, в — 5—6%), а круг определяет контур об- ласти возможной ориентировки проб, подобных пробам 1—3. Размах содержаний в элементарных участках тела для проб 163
типа 1 составляет 5%, типа 2—3%, а проб типа 3—1%. Представительной является лишь проба 1, пересекающая те- ло под углом 90°. При расположении пробы под иным углом, для сохранения представительности получаемых данных, ее длина должна быть увеличена. На рис. 47 это проба 4, что и предусмотрено инструкциями по опробованию для случая тел с малой мощностью (рис. 48). Длина горизонтальной бороздо- вой пробы (более удобной для отбора) больше длины пробы 1 на величину 1 : со&а. При расположении проб по стенке квершлага (выработке, пересекающей рудное тело, в отличие Рис. 48. Возможное рас- положение проб в руд- ном штреке Рис. 49. Расположение проб по стен- ке квершлага: а — практикуемое при стандартной длине, б — необходи- мое с учетом угла падения тела. от опробования его в забое штрека, идущего по простиранию тела) необходимость увеличения длин проб в зависимости от элементов залегания тел не предусматривается, а надо бы иметь и отбирать пробы не так, как показано на рис. 49, а, а-с увеличением их длин —рис. 49, б. Приведенные примеры использования математики при рассмотрении некоторых вопросов опробования свидетельст- вуют, что, характеризуя изучаемое месторождение, геолог имеет дело с очень разнородной (кроме различно ориентиро- ванных проб в горных выработках, используются данные оп- робования скважин с меняющимися по мере углубки азиму- тальными и зенитными углами бурения) информацией. Более детально с моделями изучения изменчивости геологоразве- дочных признаков в процессе опробования можно ознакомить- ся по работам (13, 21]. 10.3. МОДЕЛИРОВАНИЕ ПРОЦЕССА ОРЕОЛООБРАЗОВАНИЯ Построение математической модели геологического процесса рассмотрим на примере описания формирования остаточного 164
ореола рассеяния над рудным телом небольшой мощности (выполнено много лет назад А. П. Солововым). Простейший случай: поверхность горизонтальная, тело имеет вертикальное падение, выведено на поверхность, вме- V'J 1 C2J 2 ES33 [»75|4 Рис. 50. Разрушение тела, выведен- ного на поверхность: 1 — вмещающие породы; 0 — элювий; 3 — руда; 4— продукты ее разрушения щающие породы изотропны (рис. 50, а). На тело и вмещаю- щие породы действуют агенты выветривания, которые через некоторое время приведут к появлению рыхлых образований (рис. 50, б). Отправные (априорные) сведения: при прочих равных условиях ореолы одного и того же металла над генетически однотипными объектами различной крупности различны (боль- шим скоплениям руд соответствуют большие содержания); ореолы различных элементов над одинаковыми по крупности объектами различны (одни элементы в процессе ореолообра- зования выносятся, другие накапливаются). Приведенные данные свидетельствуют, что при характери- стике ореола необходимо учитывать массу разрушающейся руды и подвижность рудного элемента (два параметра), при- чем содержание элемента в рыхлых отложениях зависит от многих факторов физической и химической природы. Из рассмотренных в главе 2 распределений случайных ве- личин необходимому отвечает нормальный закон (2.10). Обо- значив через х расстояние в метрах от центра ореола, учиты- вая количество разрушающегося металла М и фоновое содер- жание элемента в породах Сф, можно записать: М ~~ c* = 0We +СФ- При х и Сф=0 (последнее для простоты рассуждений) име- ем СГОах=М:оУ2л (е в степени нуль равно 1), или прибли- женно Стах=М/2,5о. Полученное не противоречит априор- ным представлениям: чем больше металла, тем больше со- держание в ореоле (металл в числителе); чем больше под- вижность элемента, тем меньше содержание в ореоле (рассе- яние — в знаменателе). 165
Допустив отсутствие привноса-выноса _ рудного элемента при выветривании, имеем Mz=PPr=:mPXCP=const, где Mz— количество металла в ореоле на глубине z от дневной поверх- ности (Oczch, a h — мощность рыхлых отложений). Для первого параметра получаем, что количество металла при вы- ветривании не увеличивается и не уменьшается, а только пе- рераспределяется вдоль оси ОХ, переходя из состояния пер- вичной концентрации в состояние рассеяния. Второй параметр (о) в числе других причин обусловлен и временем, имеет значение от 0 для z=h до максимального при z=0 (на по- верхности) . Закономерное убывание о с глубиной при постоян- ном М определяет веерообразное расширение остаточного ореола к дневной поверхности (рис. 51). В реальных условиях зависимость М=Мрт нарушается, справедлива лишь пропор- циональность М=кМрт, где к — коэффициент, зависящий от местных ландшафтных условий и геохимических свойств эле- ментов. При выщелачивании металла из ореола он меньше единицы, а при аккумуляции •— больше. Рис. 52. Смещение остаточного оре- Рис. 51. Вертикальный ола рассеяния: а — за иевертикаль- разрез и график идеаль- ность падения тела; б — негоризои- ного ореола рассеяния тальность поверхности Освобождаясь от ограничений вертикальности падения тела и горизонтальности поверхности, получим описание сме- щения ореола в пространстве относительно выхода тела под рыхлые отложения (рис. 52). Если выветривание протекает без изменения объема исходной породы, то Sp=hctgp, где Р— угол падения тела. И в общем случае добавляется коэффи- циент В меньше единицы, если выветривание пород протека- ет с увеличением объема и больше единицы — уменьшением. Смещение Sa)=Ah2sina, где a — угол склона, А — параметр, зависящий от местных условий. Общее смещение ореола S,= = Sa+ Sp. 166
Результаты моделирования свидетельствуют, что к уста- новлению мест локализации оруденения в коренном залега- нии необходимо подходить с учетом угла склона местности, мощности рыхлых отложений, возможного угла падения руд- ного тела, что существует возможность определения: коэффи- циента рассеяния о (рис. 53), коэффициента остаточной про- сх,7« 1.0-1 Стах 05- о 0 20 40 60 80 100 0.607 Стах 0.32S Стах 135 Стах Л Рис. 53. Графическая интерпретация содержаний в ореоле к расчету ко- эффициента рассеяния о «трех уров- ней» - дуктивности к=М:Мрт, где М=Лх (SC,—пСф), Мрт—тС, Дх — расстояние между пробами; С, — содержания выше фо- нового; m — мощность рудного тела; С — среднее содержа- ние в нем рудного элемента; М — линейная продуктивность. 1 Р Количество металла в коренном оруденении Q= ^-Н, где Н — глубина оцениваемого оруденения; Р — площадная N продуктивность ореола; Р—AxAZ(SCi—МСф); AZ—расстоя- i=l ние между профилями; N — количество проб с содержаниями выше фонового. Выполненное А. П. Солововым моделирование ореолооб- разования свидетельствует также, что вопрос установления местоположения оруденения в коренном залегании эффектив- но может решаться лишь при оперативном определении со- держаний по стенкам шурфов и в керне скважин, то есть гео- лог-геохимик должен иметь полевую химлабораторию для установления смещения ореола по мощности рыхлых образо- ваний. Детерминированные модели в геологии используются пока значительно реже стохастических (гидрогеология, инженер- ная геология, геохимия). Представление о их возможностях можно получить по работе И. К. Карпова, А. И. Киселева, Ф. А. Летникова \ указывающих, что физико-химическое мо- 1 Моделирование природного минералообразования на ЭВМ. М.: Нед- ра, 1976. 256 с. 167
делирование на ЭВМ обратимых и необратимых процессов природного минералообразования и непосредственный экспе- римент — два независимых направления современной геохи- мии. Объективными предпосылками перехода от качествен- ных термодинамических построений и экспериментальных рас- четов к численному эксперименту над моделями природных систем на ЭВМ являются: быстро увеличивающаяся масса термодинамических констант различных веществ, в том чи- сле минералов; повышение надежности их определения; поя- вившаяся возможность получать неизвестные термодинамиче- ские свойства путем обработки многочисленных реакций ми- нералообразования, полученных экспериментально; невозмож- ность эффективного обобщения возрастающих объемов фак- тического материала традиционными методами; разработка надежных алгоритмов стандартных вычислительных проце- дур; понимание геохимиками, что ЭВМ — незаменимый инст- румент научных исследований, что эмпирическим эксперимен- том практически невозможно охватить все многообразие за- висимостей между Т, Робщ, Рн2о> Рсо2 и исходным составом многокомпонентных петрологических и геохимических систем, включающих до семидесяти—ста минеральных фаз. В работе приведены примеры расчета минерального и химического со- става почвы планеты Венера, процесса формирования зональ- ной коры выветривания на кислых породах. 10.4. МОДЕЛИРОВАНИЕ ПРОЦЕССА ГЕОХИМИЧЕСКИХ ПОИСКОВ Современный уровень развития математической геологии и вычислительной техники позволяет моделировать произ- водственные процессы. Студенты получили возможность изу- чать за пультом ЭВМ последовательность действий геолога в полевых и камеральных условиях, приобретать навыки выяв- ления и оценки месторождений, а для производственников — повышать квалификацию. Обучающая система «Поиск—КИЦМ», например [23], по- зволяет имитировать ведение: поисков по потокам рассеяния (отбор и анализ проб ал- лювия рек и притоков, оценка качества работ, определение фоновых и аномальных содержаний анализируемых элемен- тов, выделение участков водотоков с повышенными содержа- ниями, сгущение в их пределах сети наблюдений, отмывка 16®
шлихов, осмотр склонов — мест возможного поступления рудного материала в русла с отбором проб пород из вывалов под корнями деревьев, задание двух—трех профилей опробо- вания элювио-делювия Склонов, выделение потоков, опреде- ление их продуктивности, выбор площадей для литохимиче- ской съемки с оценкой их прогнозных ресурсов по катего- рии Р3); литохимической съемки (отбор и анализ проб элювио-де- лювия по профилям любого направления, с любым расстоя- нием между точками наблюдения, оценка качества аналити- ческих данных, определение фоновых и аномальных содержа- ний, выделение аномальных площадей, геологический осмотр их с отбором проб пород на химический анализ, отмывкой шлихов, составление схем геологического строения аномаль- ных участков, определение генетического типа ожидаемого оруденения, выбор первоочередных для дальнейшего изуче- ния, оценка прогнозных ресурсов их по категории Р2); поисков по ореолам рассеяния (отбор проб в пределах аномальных площадей и на прилегающих участках, оценка качества полевых работ, уточнение фоновых и аномальных содержаний, а при необходимости — сглаживание данных, получение комплексных показателей и выявление слабых ано- малий, осмотр площадей с отбором проб из свалов и обнаже- ний, задание горных выработок и скважин для установления оруденения в коренном залегании, определения.уровня среза выявляемых рудных зон). На всех стадиях имитируемых работ предусмотрен ма- шинный контроль действий обучающегося. Проверяются пра- вильность выделения потоков и ореолов рассеяния, полнота выявления заложенных в модели объектов, верность оценки их крупности, внимательность и т. п. Действия по установлению оруденения в коренном залегании оцениваются стоимостью пройденных шурфов, канав, скважин. Основой системы является комплекс геолого-математиче- ских моделей, перспективных на обнаружение полиметалли- ческих, медно-молибденовЫх, золоторудных месторождений, программное обеспечение имитации различных видов работ и решение прикладных задач геохимии. При создании алго- ритмов и составлении программ их реализации на ЭВМ ав- тор стремился во всех случаях принимать-наиболее простой математический аппарат достижения конечной цели. При имитации поисков по потокам — это аппарат аналитической геометрии на линии, по ореолам — на плоскости, бурении 169
скважин — в пространстве. В качестве примера рассмотрим алгоритм имитации отбора и анализа проб из отложений во- дотоков высоких порядков (первая задача оценки перспектив заданной территории). В памяти ЭВМ, согласно модели оцениваемой территории, хранится информация о числе водотоков, их длинах, об ин- тервалах, приходящихся на различные породы, содержаниях элементов в аллювии водотоков над разными породами, а также характере изменений содержания их в интервалах по- ступления и переноса рудного материала. Обучающийся получает геологическую и топографическую карты оцениваемой территории, ознакомившись с которыми задает номер водотока, местоположение первой пробы (рас- стояние от устья), шаг пробоотбора, длину изучаемого интер- вала. Получив задание, ЭВМ проверяет, имеется ли в пределах оцениваемой территории водоток с указанным номером. Если нет — выдает сообщение об этом, засчитывает ошибку «Вни- мательность», прекращает работу, иначе, проверяет, не пре- вышает ли заданная длина длину водотока с указанным но- мером. Если да — выдает предупреждение, засчитывает ошиб- ку «Масштаб», прекращает работу или определяет принад- лежность точки конкретному интервалу пород, принимает со- ответствующие им содержания анализируемых элементов, об- ращается к подпрограмме наложения ошибок на результаты спектрального анализа, обращается к подпрограмме печати результатов, обеспечивающей выдачу содержаний в значе- ниях принятой шкалы 1,2; 1,5; 2; 2,5; 3; 4; 5; 6; 8 — в каждом порядке содержаний), печатает шапку таблицы (но- мер водотока, местоположение точки, наименования элемен- тов) и первую строку результатов, определяет местоположение второй пробы (добавлением к предыдущему шагу отбора проб), проверяет, соответствует ли оно длине водотока. Если нет — прекращает действия, иначе — определяет соответст- вие конкретному интервалу пород и т. д. Наложение ошибок спектрального анализа моделируется с помощью датчика псевдослучайных чисел. Вероятности по- явления завышений — занижений модельных содержаний за- даются обучающим. Возможно задание ошибок, превышаю- щих допустимые инструкцией по герхимическим методам по- исков. Обучающийся в этом случае должен забраковать ана- литические данные, потребовать от лаборатории повторения анализа отобранного им материала. Оценка качества анали- 170
тических данных осуществляется по результата^ парных оп- ределений содержания в основных и контрольных пробах. Для этого требуется по ряду рек получение результатов анализа дважды. Моделирование на ЭВМ заданных распределений пред- ставляет широко распространенную задачу, следует остано- виться на этом вопросе более подробно. Датчик обеспечивает получение значений в интервале 0—1 с равномерным распре- делением. Задав интервалы 0—0,099; 0,1—0,199; 0,2—0,299 и т. д., поставив им в соответствие цифры 0, 1, 2 и т. д. и про- ведя сотню обращений к нему, получим примерно по десять каждой. При имитации ошибок задаются вероятности безоши- бочного определения, ошибки в сторону завышения и зани- жения на один интервал расшифровки, два, три, четыре. До- стигается это разбиением интервала значений псевдослучай- ной величины на неравные части. Например, разделив его на части: 0—0,004; 0,0041—0,025; 0,0251—0,1; 0,101—0,3; 0,301— 0,7; 0,701—0,9; 0,901—0,975; 0,9751—0,996; 0,9961—1,0 и по- ставив им в соответствие числа: 0,45; 0,55; 0,70; 0,85; 1,00; 1,40; 1,80; 2,30; 2,90, представляющие поправочный коэффи- циент на модельное содержание элемента, получим возмож- ность моделировать получение безошибочного результата в 40% случаев (0,7—0,3), завышение или занижение на один интервал расшифровки в 20%; два — в 7,5 % и три —» 4% (0—0,004 и 0,996—1,0). Допустим, модельное содержание эле- мента равно трем и датчик выдал число 0,51. Для выдачи на печать получим 3X1=3 — число модельное, безошибочное. Если будет получено число 0,24, то вычислится 3X0,85=2,55 и отпечатается ближайшее из возможных, то есть 2,5 (зани- жение модельного на один интервал расшифровки). Для чи- сла, например, 0,998 вычислится 3x2,9=8,7 и отпечатается 8 (завышение модельного содержания на четыре интервала рас- шифровки). Использование разработки [23] обеспечивает возможность в течение месяца работы за пультом ЭВМ «открыть, оценить, передать в разведку» несколько месторождений, то есть «про- жить» в условиях, максимально приближенных к производ- ственным, временной отрезок, соизмеримый с отпускаемым на активную деятельность геологу всей жизнью. Внедрение ими- тационных методов в практику подготовки специалистов тре- бует замены существующей составляющей «Теоретическое обучение-практика» на составляющую «Теоретическое обуче- ние — имитация работы — практика». 171
10.5. МАТЕРИАЛ ДЛЯ ПРАКТИЧЕСКИХ ЗАНЯТИЙ Желательна демонстрация материалов обработки геологоразведочной, геофизической пли геохимической информации конкретных территорий (мо- жно полупить копии на вычислительном центре, в экспедициях, из отче- тов территориального фонда), на которых были бы отражены закономер- ная и случайная составляющие изучаемого признака. Задачи для самостоятельного решения Задача 1. Проверить наличие тренда в изменении значений признаков; X, 16,82 18,02 15,08 16,55 13,96 11,70 17,88 8,58 9,37 15,87 18,32 Х2 0,79 2,64 2,59 2,61 2,55 2,43 2,48 2,20 1,67 1,14 0,94 Х3 0,09 0,12 01,15 0,14 0,17 0,21 0,48 0,26 0,32 0,30 0,09 (определить число скачков и, вероятность его появления Р(и) и значение рангового коэффициента корреляции, характеризующего закономерность изменения значений в изучаемом направлении). Задача 2. Оценить влияние размера пробы на получаемую оценку измен-' чивости содержаний рудного компонента, приняв, что заданные значения содержаний: 3531747651860872 3 5, — установлены в метровых пробах. Вычислить значения дисперсий для проб длиной 1, 2, 3 м. % Контроль знаний по главе 10 Какая из моделей (1 — статистическая, 2 — Соболевского, 3 — Калли- стова) учитывает'только случайную; только закономерную; случайную и закономерную составляющие? Что Моделируется (4 — строение рудных тел, 5 — изменчивость их параметров) при геометризации недр? Увеличе- ние объема пробы ведет к (6—увеличению, 7—уменьшению) дисперсии содержаний. Дисперсия отражает (8—истинную, 9 — наблюденную) из- менчивость изучаемого параметра? Влияет ли (1Ю •— да, 11 — нет) ори- ентировка пробы в пространстве иа наблюдаемое значение изменчивости признака? По какой формуле (12'—...=Дх(ХС1—nC<j>), 13—...=ДхД1(2С1— —NC$) определяется площадная продуктивность ореола рассеяния? Ка- кая из моделей (14—физическая, 15—геометрическая, 16—понятийная, 17—математическая) представляет собой мыслимый образ природных объ- ектов и явлений? Какая из названных моделей распространена в совре- менной геологии наиболее широко?
Глава 11 ПРИМЕНЕНИЕ ЭВМ В ГЕОЛОГИИ 11.1. ПРЕДСТАВЛЕНИЕ ОБ «АСУ-ГЕОЛОГИЯ» Автоматизированная система управления геологией «АСУ- Геология» включает комплекс подсистем: «управление и эко- номика», «геология:», «геофизика», «гидрогеология», «на- учно-техническая информация». Каждый комплекс состоит из подсистем, например «управление и экономика» — оператив- ное управление, кадры, бухгалтерия, материально-техниче- ское снабжение и т. п. Подсистемы включают задачи, напри- мер, оперативное управление — контроль выполнения при- казов и распоряжений, управление буровыми, горными, стро- ительными работами и т. п. Рассмотрим кратко существо первой из названных задач, различия в ее решении традиционным путем и с помощью ЭВМ. Приказы и распоряжения, внутренние и вышестоящих ор- ганизаций, содержат один или несколько пунктов, требующих конкретных действий в определенные сроки. В зависимости от организации дел в подразделении, ответственности со- трудников, объективных причин и т. п. часть требуемых дей- ствий выполняется несвоевременно или не выполняется во- обще. Состояние дел по исполнению приказов и распоряжений, при традиционной форме работ, контролируется создаваемы- ми время от времени комиссиями от администрации и обще- ственности. Периодичность работы комиссий не позволяет оказывать оперативного воздействия на ускорение и полноту требуемых действий. При прохождении задачи в системе АСУ в память 'ЭВМ регулярно заносятся данные о существе подлежащего выпол- нению, сроках выполнения, об ответственных. С определенной периодичностью (единицы дней), за оговоренное число суток до истечения срока действия, ответственному начинают посту- пать распечатки-напоминания типа: «До выполнения ... при- каза (распоряжения), по ... вопросу, осталось ... дней». Еще через некоторое время — начальнику подразделения: «До вы- полнения ... приказа (распоряжения), по вопросу ответст- венный ..., осталось ... дней». После истечения срока — вы- 173
шестоящему руководителю: «Выполнений ... приказа (распо- ряжения), по вопросу .... ответственный ..., подразделение ..., просрочено на ... дней». Последняя форма распечатки, с на- растающим сроком невыполнения действий, повторяется до тех пор, пока ЭВМ не получит сигнала о выполнении или о снятии приказа (распоряжения) с контроля. Естественно, что при такой организации дел комиссий не требуется, можно сво- евременно вмешаться в процесс исполнения приказа, напри- мер, заменить заболевшего (находящегося в командировке, от- пуске) исполнителя, подключить помощников и т. п. С пере- водом задачи в систему АСУ появляются, кроме того, широ- кие возможности в получении от ЭВМ статистических данных, характеризующих оперативность и качество работы отделов, служб, исполнителей (число, сроки выполнения различных приказов и распоряжений, выполнение действий по внутрен- ним и вышестоящим указаниям и т. п. за определенные отрез- ки времени). Принципиальным отличием прохождения геологических за- дач в системе является одноразовый ввод информации (соз- дание банка данных), тогда как в первые годы использования ЭВМ она подготавливалась и вводилась в машину для каж- дого решения. Документация геологоразведочных данных по разведуемому объекту (координаты Задания выработок, углы искривления скважин, характеристика встречаемых по- род, результаты их анализа и т. и.) должна поступать на вы- числительный центр по мере получения, служить основой для выполнения оперативных подсчетов запасов, утверждения вре- менных кондиций, подсчета запасов предварительной развед- ки, подготовки материалов для утверждения постоянных кон- диций, подсчета запасов детальной разведки с распечаткой в требуемом количестве экземпляров всех форм подсчетных таблиц. Остановимся более подробно лишь на задаче под- готовки материалов для утверждения кондиций — условий выделения рудных тел в пределах разведываемого месторож- дения (бортового содержания, минимально промышленной мощности обособленного рудного тела, максимальной мощно- сти пород с содержаниями ниже бортового, которые могут быть включены в контур рудного тела и не повлекут прн этом понижение содержания более чем на разрешаемую величину). Выбор наивыгоднейшего бортового содержания осуществ- ляется на основе использования прямых экономических рас- четов или применения метода вариантов. Метод вариантов, наряду с экономическими показателями, позволяет учитывать 174
геологическое строение месторождения и способы его отра- ботки, но требует значительных затрат времени на выпoлнeJ ние. При традиционном методе решения задачи просчитыва- лось три варианта, и ожидать' получения оптимальных усло- вий выделения рудных тел было трудно. Прохождение задачи в системе АСУ при учете, допустим, десяти значений борто- вого содержания, пяти значений мощностей рудных тел и пя- ти — мощностей пропластков «пустых» пород обеспечивает получение 250 вариантов и позволяет выбрать кондиции, при- ближающиеся к оптимальным. Для представления о содержании и объеме вычислитель- ных операций рассмотрим алгоритм решения задачи выбора оптимального бортового содержания. Введем обозначения: Xi — процентное содержание разведываемого компонента в i-й пробе; И, — длина пробы; hi' -— длина пробы с содержанием большим или равным рассчитываемому j-му варианту борто- вого . (xi>aj); hi" — длина пробы с содержанием (Xi<aj); а0 — начальное значение бортового содержания; Эк — конеч- ное значение бортового содержания; I — шаг изменения бор- тового содержания; d — минимальная промышленная мощ- ность обособленного рудного тела; с — значение мощности пропластка «пустых» пород; b — минимальное промышлен- ное содержание разведуемого компонента в блоке; х — сред- нее взвешенное содержание разведуемого компонента в блоке. По каждой выработке в разряд рудных относятся интер- валы опробования мощностью Shj'>d. Наличие разрыва ме- жду рудными интервалами признается при Shi">c. При че- редовании проб с содержаниями, большими и меньшими рас- считываемого варианта бортового, и мощности сопряженных проб Sh/'cc осуществляется такая компоновка опробован- ных участков в рудные интервалы, при которой величина Shi'xi обеспечивается наибольшей. После определения рудных интервалов по выработкам при начальном значении бортового содержания определяется среднее взвешенное по блоку и сравнивается с заданной величиной минимального промыш- ленного. Если х>Ь, то начальное значение бортового заме- няется величиной aj=y=ao+/, и цикл расчетов повторяется. Для всех рассчитанных вариантов с, а;-, d по блокам, сортам руд, категориям запасов и месторождению в целом, после опреде- ления суммарной длины рудных подсечений, среднего взве- шенного содержания разведываемого компонента и произве- дения длины рудных подсечений на среднее содержание (ме- тропроцента) оценивается прирост длин рудных подсечений 175
и метропроцента по отношению к одному из заданнных ва- риантов бортового содержания. Выдача результатов осущест- вляется в форме таблиц и графиков. Обработка данных по Татарскому месторождению магне- титовых руд, например, позволила понизить бортовое содер- жание с 20% на 16%, что привело к увеличению запасов ру- ды на 131 млн. т (металла на 23,6) *. Для Ирбинского железо- рудного месторождения вместо существовавших кондиций: 25% бортовое содержание, 2 м мощность тел и включаемых в них пропластков пород —на основе обработки данных раз- ведки охарактеризованным методом утверждены новые: со- держание 18%, мощность обособленного рудного тела 5 м, пропластка включаемых пород 6 м. Запасы руды увеличились более чем на 10%, что позволило ускорить ввод рудника в число действующих. Немаловажное значение в «АСУ-Геология» имеет подси- стема научно-технической информации, главными задачами которой являются: предельно полный сбор, системная пере- работка документальных материалов с целью быстрого опо- вещения исследователей о всех новых достижениях науки и техники; долговременное хранение документальных данных в информационно-поисковых системах, позволяющих осуще- ствлять быстрый исчерпывающий многоаспектный поиск не- обходимых сведений, например, выдать номера отчетов, в ко- торых имеются сведения о поисковых работах на золото в пределах ... региона, в период с ... по ... год, хранящиеся в территориальном (Всесоюзном) фонде. В работе А. И. Михайлова, А. И. Черного, Р. С. Гиляров- ского 1 2 приводятся данные о том, что за последние годы в ар- хивных учреждениях только нашей страны было обнаружено более 40 000 документов о месторождениях шо лозных иско- паемых, которые были потом забыты. Американские фирмы предпочитают повторить исследование, если его стоимость ме- нее 10 млн. дол., чем выяснять, было ли оно выполнено ра- нее и опубликованы ли его результаты. В докладе президен- ту США Кеннеди «Наука, правительство и информация», представленном Консультативным комитетом по научным вопросам, подчеркивалось, что информационный процесс яв- 1 Шестаков Ю. Г., Капинос А. В., Володина Э. Н. Вариантный метод определения оптимального бортового содержания разведываемого компо- нентау/Экспресс-информация. Сер. «Экономика минерального сырья и гео- логоразведочных работ». ВИЭМС, 1971. № 6. 9 с. 2 Основы информатики. М.: Наука, 1968. 756 с. 176
ляется интегральной частью научно-исследовательских и опытно-конструкторских работ, в будущем научно-информа- ционная деятельность может занять в науке примерно такое же место, какое занимает сегодня в физике теоретическая физика. Наша страна располагает развитой сетью институтов и центров научно-технической информации. ВИНИТИ, ВНТИ- Центр, НПО «Поиск», ГПНТБС СССР и другие органы ин- формации владеют огромными фондами научно-технической литературы и документации. Для ускорения обработки и пе- редачи данных на тысячи километров приведены в действие мощная вычислительная техника, современные средства при- ема и передачи по каналам связи. И тем не менее, как ука- зывается в статье О. Кедров'ского, еще тысячи специалистов продолжают существовать на «голодном» информационном пайке. «Результаты государственной экспертизы изобретений свидетельствуют, что ежегодно более половины заявок от- клоняется из-за отсутствия в них элементов новизны. На их оформление бесполезно тратятся миллионы рублей. Однако это малая доля того ущерба, который наносит народному хо- зяйству воспроизводство отсталых, решений» Г В системе «АСУ-Геология» подсистема НТИ будет распо- лагать отраслевым информационным центром, восемью спе- циализированными (по тематическим разделам геологии), десятью региональными (по крупным геолого-промышленным районам) и девятнадцатью информационными центрами. 11.2. ВОЗМОЖНОСТИ ВЫЧИСЛИТЕЛЬНЫХ ЦЕНТРОВ ПРОИЗВОДСТВЕННЫХ ГЕОЛОГИЧЕСКИХ ОБЪЕДИНЕНИЙ ПО РЕШЕНИЮ ГЕОЛОГИЧЕСКИХ ЗАДАЧ Возможности современных информационно-вычислительных центров производственных геологических объединений стра- ны можно представить, ознакомившись с математическим обеспечением ИВЦ ПГО «Красноярскгеология», одним из многих центров системы «АСУ-Геология». Центр имеет две ЭВМ единой серии 1022 и 1035, обеспе- чивает прохождение задач подсистемы «Экономика и управ- 1 Уроки информации. Правда. 1986. 10 сент. 7—418 177
ление», «Геология», «Геофизика». На рис. 54 показано его математическое обеспечение обработки геологической инфор- мации. Рис. 54. Математическое обеспечение обработки геологической информа- ции ИВЦ ПГО «Красноярскгеология» АСОИ-Геология (автоматизированная система обработки геологической информации) создана сотрудниками ИВЦ ПГО «Севзапгеология», внедрена во многих организациях М.Г РСФСР, обеспечивает решение задач: районирования территории по комплексу геолого-геофи- зических и геохимических признаков; . построения специализированных структурных, геофизиче- ских, геохимических карт; анализа материалов по первичным и вторичным ореолам для разбраковки аномалий и выбора перспективных площа- дей постановки дальнейших работ; сопоставления геологических объектов, их классификации, корректировки (увязки в пространстве) 'геологических разре- зов; обработки петрохимических данных с целью установления характера дифференциации магматических комплексов, клас- сификации пород, выделения петрохимических критериев ру- доносности; построения объемных моделей рудных полей и месторож- дений; выявления геолого-геохимической зональности оруденения и т. п. Графическое отображение результатов решения осу- ществляется с помощью графопостроителя и печатающих ус- тройств. Система постоянно пополняется программами, сос- тавляемыми разработчиками и сотрудниками ИВЦ ПГО «Красноярскгеология». АСОИ МП (автоматизированная система обработки гео- химической информации методом многомерных полей) созда- 178
на сотрудниками Иркутского госуниверситета и института Геохимии СО АН СССР, обеспечивает обработку данных с построением карт зональности. Ежегодно с ее помощью обра- батывается порядка 120000 результатов анализа проб, от- бираемых геологами с целью поисков месторождений по по- токам и ореолам рассеяния в пределах Красноярского края. СКИД (система комплексной интерпретации геолого-гео- физических данных) создана сотрудниками ВостСибНИИГ- ГИМСа и существенно доработана сотрудниками ИВЦ ПГО «Красноярскгеология». С ее помощью решаются следующие задачи: вычисление-параметров физических полей; анализ, зависимостей между свойствами геологических объектов; сопоставление объектов по комплексу признаков; автоматическая классификация объектов и распознавание, образов; количественная оценка перспективности площадей; выделение границ геологических объектов; геохимическая характеристика пород и ландшафтных зон; оценка погрешностей аналитических данных; обработка площадных геохймических данных, данных оп- робования по разрезам (скважинам) и т. п. Программно с нею связан комплекс «Тренд-Фурье»; построение объемных и площадных моделей количествен- ных геологоразведочных параметров, созданный сотрудника- ми кицм. АИПС-Регион будет охарактеризован в следующем раз- деле. ' АСОД-Разведка (автоматизированная система обработ- ки разведочных данных) создана сотрудниками ИВЦ ПГО «Красноярскгеология», Комплексной опытно-методической экспедиции и ВИМС МГ Казахской ССР, предназначена: для оценки изменчивости параметров оруденения; моделирования разведочной сети; построения объемных моделей месторождений; подготовки материалов для утверждения кондиций; для подсчета запасов и т. п. АСО-Формат (автоматизированная система обработки фотоснимков, фотостереопар, карт изолиний) создается сов- местно сотрудниками ИВЦ и Геологосъемочной экспедиции 7» 179
ПГО «Красноярскгеология». Обеспечивает преобразование и контрастирование фотоснимков, обработку схем линеаментов, анализ профилей рек, построение карт рельефа по данным стереофотосъемки, автоматизированный ввод данных с гео- логических карт и т. п. АСКГЭИ (автоматизированная система комплексных геолого-экономических исследований) создана сотрудниками ВИЭМСа, находится на стадии внедрения, обеспечивает пе- реоценку техникотэкономических обоснований для железоруд- ных месторождений края. Сотрудниками ИВЦ перечисленные системы связаны про- граммными интерфейсами в единую систему математической обработки геологических данных. 11.3. КРАТКАЯ ХАРАКТЕРИСТИКА СИСТЕМЫ «РЕГИОН» Человеко-машинная система количественного геологического прогнозирования «Регион» разработана сотрудниками Всесо- юзного научно-исследовательского института геологии зару- бежных стран и Международного научно-исследовательского института проблем и управления ’. Состоит из взаимосвязанных блоков: кодирования и вво- да картографической, числовой и текстовой информации; дан- ных по модельным объектам и изучаемой территории; мате- матического и эвристического анализа информации в много- параметрическом пространстве признаков на основе различ- ных методических подходов; обеспечения диалога пользова- теля с системой в процессе решения геологического прогнози- рования; визуализации графической информации. Предназначена для создания территориальных банков геологической информации и неформализуемых знаний гео- логов о ней; выработки прогнозных решений и составления прогнозных карт на различные виды полезных ископаемых, накопления решающих моделей прогноза формализованных геологических знаний, обучение специалистов человеко-ма- шинной технологии геологического прогнозирования. 1 Чумаченко Б. А., Власов Е. П., Марченко В. В. Системный анализ прн геологической оценке перспектив рудоносности территорий. М.: Нед- ра, 1980. 246 с. Марченко В. В., Кемеровский Э. А., Сейфу ль-Мулюков Р. Р. Прикладная геокибернетика. Итоги науки и техники. Сер. «Физика Зем- ли». М., 1986. Т. 9. 140 с. 180
Предусмотрено пять режимов работы: «Знакомство с си- стемой», «Обучение работе с системой», «Демонстрация воз- можностей системы», «Использование системы», «Развитие си- стемы». В первом случае пользователю предлагается ввод- ная лекция — сообщение принципов построения, возможно- стей, во втором — он имеет возможность на тестовом мате- риале освоить любую из реализованных в системе функций, в третьем — демонстрируются возможности системы на при- мере обработки реальных геологических материалов, в чет- вертом (основном) — в диалоговом режиме система позво- ляет создавать и модифицировать базу территориальных и объектных данных, строить различные числовые модели изу- чаемых территорий, визуализировать результаты расчетов на дисплее, создавать копии карт и т. п. графических мате- риалов на графическом принтере, то есть реализовать в пол- ном объеме человеко-машинную технологию анализа и комп- лексной интерпретации данных различных геологических ме- тодов; пятый режим предназначен для администратора сис- темы и программистов, обеспечивает отладку, тестирование, подключение новых программ. Система не подменяет геолога как лицо, ответственное за постановку задачи, ее осмысливание, принимаемые решения, а выступает в качестве весьма эффективного помощника — освобождает его от рутиннной работы, расширяет возможно- сти одновременного учета большого числа факторов, позво- ляет продуктивно реализовать свои творческие возможности и накопленный опыт, сокращает дроки проведения исследова- ний по оцениваемой территории. При занесении информации в систему территорию разби- вают на условные листы, составляют список учитываемых факторов, фиксируют границы геологических образований, регулярную геофизическую и геохимическую информацию по профилям, нерегулярную по руслам, обнажениям, скважи- нам и т. п. Схема человеко-машинного взаимодействия при формиро- вании банка данных и решения геологических задач показа- на на рис. 55. Примеры некоторых задач решаемых системой: выделение площадей, перспективных для поисков рудных месторождений; оценка перспектив рудоносности территорий на основе конкурирующих геолого-генетических концепций; 181
руководитель Специалист ЭВМ Рис. 55. Схема человеко-машинного взаимодействия при формировании банка данных и решении геологических задач в системе «Регион»
классификация месторождений, рудопроявлений, площа- дей; ретроспективный анализ полноты использования инфор- мации при ведении геологических поисков. ЗАКЛЮЧЕНИЕ & Следуя традиции, в этом разделе необходимо было бы в сжатой форме повторить основные доводы в пользу примене- ния математики в геологии. Автор попытается сделать то же, но другим методом, примером доработки понятийно-геомет- рическо-математической модели сравнения двух объектов по комплексу признаков в математическую. Необходимо найти геохимический показатель у, характе- ризующий различие верхнего А и нижнего Б сечений рудной зоны одного из месторождений по значениям линейных про- дуктивностей элементов {20, с. 153—155]: Сечение Си РЬ Zn Со As Ag Cd Sri Bi А 5,27 0,65 29,1 0,085 0,83 0,034 0,136 0,002 0,004 Б 48,2 0,83 111,8 1,48 2,5 0i,05 0,354 0,035 0,27 Ход решения, рекомендуемый авторами: «Для сечения А ранжируем линейные продуктивности элементов, располагая их в убывающем порядке, и изображаем графически на мил- лиметровой бумаге в полулогарифмическом масштабе. Мо- дуль логарифмов по оси ординат принимаем 5 см, элементы по оси абсцисс расположим через 2 см. Полученный график имеет монотоннно убывающий вид и характеризует геохими- ческий спектр верхнего горизонта оруденения. В том же мас- штабе и при том же порядке расположения химических эле- ментов строим геохимический спектр сечения Б. Скопируем геохимический спектр сечения А на кальку и наложим ее на геохимический спектр сечения Б, совмещая их по основному рудному элементу — меди (рис. 56). При таком совмещении часть точек графика Б (цинк, мышьяк, свинец, кадмий, сереб- ро) располагается ниже эталонной кривой, что указывает на дефицит в сечении Б этих элементов по сравнению с сечени- ем А относительно меди. Точки графика Б, оказавшиеся вы- 183
ше эталонной кривой (кобальт, висмут, олово), отвечают эле- ментам, находящимся в избытке по сравнению с содержани- ем меди. Совокупность геохимических различий между сече- ниями А и Б выражаем с помощью геохимического коэффи- Ag-As-Pb циента v - ». Co-Bi-Sn Рис. 56. Геохимические спектры верхнего (А) и нижнего (Б) гори- зонтов оруденения (Соловьев, Мат- веев, 1985) Зная, что вычитание логарифмов значений не что иное, как деление значений, можно предложить следующий алго- ритм решения этой задачи: получить отношения содержаний элементов каждого из сечений к содержанию основного; ' , вычесть (до знака) попарно полученные значения; элементы со знаком плюс брать в числитель, а минус — в знаменатель показателя. Применительно к рассмотренному примеру (разделив пер- вую строку на 5,27, вторую на 48,2 и сравнив полученное) имеем: РЬ Zn Со As Ag Cd Sn Bi 0,12 5,52 0,016 0,16 0,006 0,026 0,0004 0,0008 0,02 2,121 0,031 0,06 0,001 0,007 0,0007 0,0056 + + — + + + — — 184
То есть те же группы элементов (для числителя свинец, цинк, мышьяк, серебро, кадмий; для знаменателя кобальт, олово, висмут) при меньшем объеме пояснений, без необходимости графических построений! Следует добавить, что при таком методе решения задачи сходства — различия в памяти ЭВМ можно хранить (и по- полнять) эталоны, относительно которых требуется сравне- ние изучаемых объектов. ЭВМ в считанные секунды, позволяла бы осуществлять пе- ресчет имеющихся данных на любой элемент, принимаемый исследователем за основной, сравнивать срез изучаемого (оце- ниваемого) участка оруденения не с одной парой данных по н ад рудно-под рудным частям рудной зоны эталонного место- рождения, не с усредненными значениями геохимических по- казателей по ряду разрезов его, а с наблюдаемыми в каждом, на основе чего и получались бы наиболее представительные оценки похожести. Автор уверен, что с необходимостью создания в памяти ЭВМ эталонов пород, руд различных генетических и промыш- ленных типов, геохимической зональности рудоотложения по падению зон оруденения различных полезных ископаемых для месторождений всех типов происхождения скоро согласится большинство геологов, хотя работы такого плана требуют не- малых затрат средств и времени. Модели создадут основу, опираясь на которую можно будет существенно повысить эф- фективность геологических работ в целом. В подтверждение сказанному рассмотрим две широко рас- пространенных ситуации: оценку перспектив территории на обнаружение конкретного полезного ископаемого на основе материалов его проявления в геолого-геохимико-геофизических полях на площадях прилегающих'регионов; оценку возможных ресурсов полезного ископаемого по данным литохимической съемки, характеризующей содержания рудного и сопутствую- щих ему элементов—примесей в ореолах рассеяния. Известно, что сотрудники научно-исследовательских инсти- тутов и тематических экспедиций производственных геологи- ческих объединений проводят многочисленные работы по уста- новлению закономерностей размещения того или иного полез- ного ископаемого в пределах тех или иных районов. При вы- полнении таких работ каждая группа специалистов интере- суется ограниченным числом элементов, например, черные ме- таллы, медь, золото. Сотрудники всех-групп перерабатывают информацию,, содержащуюся в тысячах отчетов, которые хра- 185
нятся в территориальных и Всесоюзном геологических фондах (хранилищах), выбирая все то, что представляет или может представлять интерес относительно изучаемого металла. Мно- гие признаки являются сквозными, то есть имеют связь с раз- личными полезными ископаемыми, и фиксируются работника- ми всех групп, а после завершения исследований по теме те- ряются (в лучшем случае, в виде таблиц, графиков, целевых карт пополняют набор отчетов хранилища). В итоге колос- сальные финансовые затраты, потеря времени на дублирова- ние собираемого для решения‘каждой из конкретных задач. Представим себе, что геологи упомянутых коллективов д^лят изучаемую территорию, фиксируют и вводят в память ЭВМ информацию, например, минеральный и химический со- став пород, замеры абсолютного возраста, площади выхода пород на поверхность; геофизики — физические характеристи- ки тех же пород, магнитные, гравиметровые поля над порода- ми, рудами, результаты трансформации таких полей при пе- ресчете в верхнее-нижнее полупространства; геохимики — содержания в породах всех элементов, фоновые и аномаль- ные- значения геохимических полей над различными объекта- ми. В результате на магнитных носителях ЭВМ (в банках дан- ных автоматизированных обрабатывающих систем) оказыва- ется зафиксированной информация, полученная предшествен- никами за многие десятилетия работ, пригодная для установ- ления закономерностей проявления в изучаемых признаковых пространствах не только черных металлов, меди, золота, но и редких, радиоактивных и т. п. элементов. Естественно, что проведение одноразового сбора разнородной информации раз- личными исполнителями требует предварительного согласова- ния стратегии и тактики проводимых работ, но такое согласо- вание займет немного'времени, не является невыполненным (сомневающимся рекомендуется еще раз прочесть содержание раздела 11.3). При такой организации работ устранятся субъ- ективности в оценке одних и тех же фактов различными испол- нителями, закономерности локализации оруденения будут получаться на основе «числа и меры», в виде карт интенсивно- сти проявления не только самых благоприятных признаков, но и их всевозможных сочетаний( комплексов). От современных исполнителей съемочных, поисковых, разведочных работ при организации банков требуется представление получаемых дан- ных в виде, удобном для ввода в память ЭВМ. Конечным результатом при геохимических поисках по оре- олам рассеяния являются аномалии. При благоприятных ус- 186
ловиях в пределах аномальных площадей устанавливается оруденение в коренном залегании, позволяющее переводить аномалию в разряд ореола, предполагать возможный геолого- промышленный тип выявленного оруденения, оценивать прог- нозные ресурсы обнаруженного рудного объекта. Часть ано* малий соответствует не рудному процессу, объектам непро- мышленного оруденения, а также первоначально крупным, но уничтоженным последующими процессами денудации место- рождениям. Оценка перспектив выявленного ореола —слож- ная- задача. Имея в памяти ЭВМ модели аномалий, свойст- венные рудному процессу различных полезных ископаемых, залегающих в разнообразных геолого-структурных, ланд- шафтно-климатических условиях, модели промышленного- непромышленного оруденения их, модели геохимической зо- нальности оруденений по падению зон оруденения, можно было бы быстро и качественно браковать выявляемые в преде- лах оцениваемых территорий объекты, не представляющие ин- тереса, оценить сотни тысяч геохимических аномалий, выде- ленных к настоящему времени на территориях деятельности производственных объединений страны, поставить поисково- оценочные работы на наиболее перспективных участках. Приходится констатировать, к сожалению, что многие гео- логи еще смотрят на ЭВМ как на большой арифмометр, при- званный освобождать их от рутинного счета и не более. Если настоящее пособие поможет хотя бы некоторым из них изме- нить существующее представление, увидеть, что математиче- ские методы и вычислительная техника-инструмент объектив- ного решения геологических задач, инструмент оптимизации затрат на достижение конечных целей геологии — обеспечение страны необходимыми минеральными ресурсами, то автор бу- дет считать поставленйую перед ним А4инистерством высшего и среднего специального образования задачу выполненной. Замечания по содержанию пособия прошу высылать в ад- рес Красноярского института цветных металлов.
ЛИТЕРАТУРА 1. Белонин М. Д„ Голубева В. А., Скублов Г. Т. Факторный анализ в геологии. М.: Недра, ‘1'982. 269 с. 2, Бондаренко В. Н. Статистические решения некоторых задач гео- логии. М.: Недра, 1970. 248 с. 3. Бондаренко В. Н. Сравнительный анализ геологических объектов с закономерной изменчивостью свойств. М.: Недра, 1978. 130 с. 4. Б о р о в к о Н. Н. Статистический анализ пространственных геологи- ческих закономерностей. Л.: Недра, 1971. 174 с. 5. Б у г а е ц А. Н. Статистические методы при поисках и оценке- пегма- титов по геохимическим данным. М.: Недра, 1970. 128 с. 6. Вахромеев Г. С. Основы методологии комплекснрования геофизи- ческих исследований при поисках рудных месторождений. М.^ Недра, 1978. 152 с. 7. Вистелиус А. С. Основы математической геологии. Л.: Наука, 1980. 389 с. 8. Воронин Ю. А. и др. Геология и математика. Новосибирск: Наука, 1970. 223 с. 9. Давид М. Геостатистические методы при оценке запасов руд. Д.: Недра, 1980. 360 с. 10. Девид Дж. Статистика и анализ геологических данных. М.: Мир, 1077. 372 с. 11. Загоруйко Н. Г. Методы распознавания и их применение: Сов. радио, 1972. 208 с. 10. йереског К. Г., Клован Д. И., Реймент Р. А. Геологиче- ский факторный анализ. Л.: Недра, 1980. 223 с. 13. Каждая А. Б. Методологические основы разведки полезных ископа- емых. М.’ Недра, 1974. 272 с. 14. Каждан А. Б., Гуськов О. И., Шиманский А. А. Математиче- ское моделирование в геологии и разведке полезных ископаемых. М.: Недра, 1979. 168 с. 15. Крамбейн У., Гр ей би л л Ф. Статистические методы в геоло- гии. М.: Мир, 1969. 398 с. 1©. Матерой Ж. Основы прикладной геостатистики. М.: Мир, 1968. 408 с. 17, Миллер Р., Кан Дж. Статистический анализ в геологических на- уках. М.: Мир, 1965. 482 с. 18. Родионов Д. А. Статистические решения в геологии. М.: Недра, 1981. 231 с. 19. Рыжов П. А., Гудков В. М. Применение математической стати- стики при разведке недр. М.: Недра, 1966. 206 с. 20. Соловов А. П., Матвеев А А. Геохимические методы поисков рудных месторождений. М.: Нзд-во МГУ, 1985. 232 с. 01. Четвериков Л. И. Теоретические основы моделирования тел твердых полезных ископаемых. Воронеж: Изд-во Воронеж, ун-та, 1968. 162 с. 22. Ш а р а п о в И. П. Применение математической статистики в геоло- гии. М.: Недра, 1965, 260 с. 23. Шестаков Ю. Г. Имитация геохимических поисков. Красноярск: Изд-во Краснояр. ун-та, 1986. 140 с. 24. Ш у р ы г и н А. М. Статистика при подсчете запасов месторождений. М.: Изд-во МГУ, 1978. 225 с.
Приложение 1 ОТВЕТЫ НА ЗАДАЧИ ДЛЯ САМОСТОЯТЕЛЬНОГО РЕШЕНИЯ Глава 2 1. Событие А означает, что все изготовленные шлифы не содержат интересующий нас минерал, В — интересующий нас минерал содержит- ся в одном шлифе или отсутствует во всех четырех. 2. Необходимо добавить событие С, означающее то, что по каким-то причинам скважина не достигает необходимой глубины. Полная группа событий: рудное тело есть, тела нет, есть ли оно •— осталось непрове- ренным. 3. Прибор сможет работать, если в течение полевого сезона будут ис- правны хотя бы один блок первого и (при этом) не менее двух второго. Такое событие можно выразить формулой С= (А1+А2) (BiBgH-BiBs+BgBs). 4. а) АхВхС; б) АхВхС; в) АхВхС; г) А+В+С; д) АВ+АС+ВС; е) АхВхС. 5. а) р=0,35; в) р=0,65. 4 6. гп0=3; Рз,8=0,28. 7. а) Р3;4=0,25; Р5;в=0,22, то ёсть вероятнее три из четырех, чем пять из восьми; б) вероятность не менее трех из четырех составит 0,31, а не менее пяти из восьми — 0,36, то есть вероятнее второе событие. 8. Вероятность появления события в каждом испытании: 0,1 0 05 0,1 0,2 0,3 0,4 0,5 Вероятность появления хотя бы одного события: 0,10 0,40 0,65 0,89 0,97 0,99 1,0 9. Р=0,5к (при к=3, например, Р=0,125). Глава 3 1. Проверка путем сопоставления результатов обработки многих вы- борок. 2. _а) х=0,35; s=0,043; б) х=О,35; s=0,044. 3. х=0,34; s=0,04; А=—1,27; Е=—1,55. Глава 4 1. Проверка путем сопоставления результатов обработки многих вы- борок. 2. 3 0,016 0,017 9 0,123 0,106 15 0,164 0,166 21 0,041 0,047 5 0,0'33 0,030 11 0,139 0,148 17 0,156 0,132 23 0,016 0,021 '7 0,056 0,062 13 0,156 0,173 19 0,087 0,087 25 0,016 0,007 189
3'. taMn=2,8>to,os(98) = l,98. Разницу в средних следует признать су- щественной (влияние среды обитания). 4. ti=4,2>to.os(486) = l,96, то есть гипотеза об однородности средних по блокам отвергается. *5. Fyип —1,3'7 об (25,25) = 1,96-, то есть данные опыта не противоре- чат гипотезе о равенстве дисперсии. 6. Х]=О,6в; Х2=0,б9: 6^= 0,010; 6x2=0,007; 1эмп=3,31>1о,об(1'8) =2,10 и, следовательно, в отсчетах приборов существу- ет значительное систематическое расхождение; А=0,04; s (А) =0,028; t=4,4>to,os(9) = 2,26 (второй прибор против перво- го дает заниженные значения). 7. Хэмп=0,89<2-о,05= 1,36, нулевая гипотеза не отвергается. 8. ш=Х=0,9в; х2амп=1,2<х2о,о6(5) = Н,2, то есть согласие хорошее. 9. Ламп=|О,9<7.о.о5= 1,36, то есть оснований отвергать нулевую гипоте- зу нет, материал обеих выборок может принадлежать одной генеральной совокупности. 10» Теоретические частоты: 12456542 1, распределение не противоречит нормальному (х2эмп=О,9<х2о,об(4) =9.5). Глава 5 1. РЭМп = 6,13>Рода(4,15)=3,О6, то есть нулевая гипотеза о том, что разновидность пород не влияет на степень концентрации элемента, отвер- гается. 2. FaMn=2,4<Fo.o5(3,12)=3,4l9, то есть отвергнуть нулевую гипотезу нет оснований. 3. FyMn=O,63<Fo,05(6,42) =2,34, то есть нулевую гипотезу об отсутст- вии влияния состава пород на объемный вес руды следует принять. 4. FA=2,65<F0>0B(3,24)=»,OI; Fb=O,25<F0,05 (2,24) =3,40; FAB=0,453< <Fo,os (6,24) =2,51, то есть предположение об отсутствии влияния фак- торов глубины и мощности жилы на содержание разведываемого ком- понента не противоречит эмпирическим данным. 5. Fa = 5,83<F0,06 (4,45) =2,58; FB = 7,06>F0106(2,45) =3,21; Fab = 0,80< <F0,os (8,45) =2,15, то есть влияние факторов А и В значимо. Доля вли- яния первого фактора составляет 26, второго 10%, то есть на содержание разведываемого компонента влияет еще множество неучтенных факторов. Глава 6 1. Средние значения удельного веса и зольности — 1,48 и 18,8; сред- ние квадратические отклонения — 0,И6 и 10,3; г =101,93 (связь значимая, близкая к линейной). 2. г—0,7©. 3. г—0,91, связь близка к линейной. ' 4. г—0,76. 5. С помощью z-преобразования Фишера для сравниваемых коэффи- циентов корреляции получим значение 2,07 при допустимом 1,96, т. е. раз- личие пород по тесноте связи между содержаниями элементов А и В зна- чимо. 6. rxz:y = 0,61; ryz.x=0,29; то есть связь между железом и кобальтом обусловлена их связью с серой; Rz=0,7i2. 7. Значению г=О,7 соответствует г1=0,867в; г=0,5—Z2=0,5493; ошибка разности z-значений равна 0,2449; 1Эмп=1,3<1о,об(75) = 1,98, т. е. считать различие пород существенным нет оснований. 190
8. Средние значения мышьяка и теллура — 31,9 и 4,2. Средние квадрати- ческие отклонения, соответственно, 19,54 и 3,33. Среднее квадратическое отклонение условных средних значений теллура — 2,03. Корреляционное отношение — 0,61. 9. р=0,88, связь близка к линейной. 10. р=0,96. 11 • у^эмп—26’,2>x2o,os(0) —12,6, то есть связь значима; 1\—0,33. Глава 7 1. х = 0,0144у+1,24; у=60х—70. 2. к=4,007с+0,20Юж—1,3. 3. у=—3,3+0i,875x; х=0,8 +0,972у. 4. А12Оз=—0,7+1,18 СаО; Са0=0,6+0,847А1203. 5. х=2,683у+0,010; у= 1,15х+0,02:1. 6. х=4,25у+7,90; у=0,193к—1,34. 7. х=4,49у+16,43; у= —0,127х+2,48. 8. у=—0,753 + 0,276х—О,002i7x2. 9. у=1+3х2. Глава 9 1. d(A, рудная аномалия) =0,35; d(A, нерудная аномалия) =0,63; d(B, рудная аномалия) =0,68; d(B, нерудная аномалия) =0,36, то есть объект А более похож на объекты рудного, а В — нерудного образа. 2. Вероятность принадлежности изучаемой аномалин классу А рав- на 0,009, а классу В •— 0,991, 3. Расстояние от объекта до объектов класса А — 6,2, а В — 2,5, то есть оцениваемый объект более похож на объекты класса В. 4. Р(В) =0,1; Р(А)=0,08; Р(С)=О,82. Глава 11 1. X!—u=7, Р(и)=0,19, р=—0,16; Х2—u=3, Р(и)=0,03, р=— 0,48; Х3—u=3, Р(и)=0,03, р=0,48, то есть в первом случае тренд не прояв- ляется, тогда как во втором и третьем — существенен. 2. При длине пробы 1 м дисперсия составляет 5,94; 2м — 2,28; 3 м— 0,76. Среднее во всех случаях 4,5. Приложение 2 СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ Таблица 1 Значение функции <р Ц) = —е (нормальное распределение) X ,00 ,01 ,02 ,03 ,04 ,05 ,06 , ,07 ,08 ,09 0,0 0,399 0,399 0,399 0,399 0,399 0,398 0,398 0,398 0,398 0,397 0,2 391 390 389 388 388 38© 386 385 384 ’ 383 0,4 368 367 365 364 362 360 358 357 356 354 191
Продолжение табл. 1. X ,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09 O'G 333 331 328 327 325 323 321 319 317 314 0,8 290 287 285 283 280 278 276 273 271 268 1,0 242 240 237 235 232 229 228 225 223 220 1,2 194 192 189 187 185 183 180 • 178 176 174 1,4 150 148 146 144 142 139 137 135 134 132 1,6 111 109 107 106 .104 102 1'01 099 097 095 1,8 079 078 07(6 075 073 072 070 069 068 067 2,0 054 053 052 051 049 049 048 047 046 045 2,2 036 035 034 033 0,33 032 031 030 030 029 2,4 022 022 021 020 020 019 019 019 018 018 2,6 014 013 013 013 012 012 012 Oil on ОН. 2,8 008 008 008 007 007 007 007 006 0016 006 3,0 004 004 004 00'4 004 004 004 004 004 008 Таблица 2 Хше-Л. Значение функции Нщ = —— (распределение Пуассона) m 0,1 0,3 0,5 0,7 0,9 2 4 6 8 0 0,905 0,741 0,607 0,497 0,407 0,135 0,019 0,003 0,000 1 91 222 303 348 366 271 73 15 3 2 4 33 76 122 165 271 141 45 11 3 3 13 28 49 180 195 89 29 4 2 5 И 90. 195 134 57 5 1 2 36 156 161 91 6 12 104 161 122 7 4 59 138 140 8 1 30 103 140 9 13 69 124 10 5 41 99 Ц 2 22 72 12 1 Н 48 13 5 30 14 2 17 15 1 9 10 5 1.7 2 18 1 162
Таблица 3 Значение функции ф(х (интегральная функция но| ъ 1 е 2 dt распределения) шального X 0 1 2 3 4 6 6 7 8 9 0,0 0,000 0,004 0,008 0,012 0,016 0,019 0,024 0,028 0,032 0,036 0,2 079 083 087 091 095 098 103 106 НО 114 0,4 155 159 168 166 170 173 177 181 185 188 0,6 226 229 232 236 239 242 245 249 252 255 0,8 288 292 294 297 299 302 305 3.08 311 313 1,0 341 344 3416 349 351 353 356 358 360 362 1,2 385 387 389 391 392 394 396 398 400 401 1,4 419 421 422 424 425 427 428 429 431 432 1,6 445 446 447 449 450 451 452 453 454 455 1,8 464 465 466 466 467 468 469 469 470 470 2,0 477 478 478 479 479 479 480' 481 481 482 2,2 486 487 487 487 4 488 488 488 488 489 489 2,4 492 492 492 493 493 493 493 493 493 494 2,6 495 4916 496 496 496 496 496 496 496 496 2,8 497 498 498 498 498 498 498 498 498 498 3,0 499 499 499 499 499 499 499 499 499 499 Таблица 4 Таблица случайных чисел (фрагмент) Номера столбцов 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 1 5 3 4 7 1 0 6 2 8 3678735574 7 612889 9 34 4 02 2 5510330 2 604 7 8 5668 6 449 3 43 9 297 6 08 0 65 2 015 7 0573551448 9 991582744 5 255 6 995752 9 2- 8 8 2 715 8 4 3 4134631178 5 9 2 13 1 2 234 3 3 897 16 06691 6 840198363 8 9 936831 2 53 1 9 9 7 4 2 3 6 2 2 1 0 3 4 3 2 6 3 8 2 5 9 193
Таблица 5 Распределение Стьюдеита f а=0,05 а=0,01 f а=0,05 а=0,01 f а=0,05 а=0,01 1 12,71 63,66 12 2,18 3,06 23 2,07 2,81 2 4,30 9,93 13 2,16 3,01 24 2,06 2,80 3 3,18 5,84 14 2,15 2,98 25 2,06 2,79 4 2,78 4,60 15 2,13 2,95 216 2,06 2,78 5 2,57 4,03 16 2,12 2,92 27 2,05 2,77 6 2,45 3,71 17 2,11 2,90 28 2,05 2,76 7 2,37 3,50 18 2,10 2,88 29 2,05 2,76 8 2,31 3,36 19 2,09 2,86 30 2,04 2,75 9 2,26 3,25 20 2,09 2,85 40 2,02 2,70 10 2,23 3,17 21 2,08 2,83 60i 2,00 2,66 И 2,20 3,11 22 2,07 2,82 120 1,98 2,62 1,96 2.,58 х Таблица 6 Критерий для отбрасывания крайних значений т Xmax ~ х т _ х xmin S ’ S п Значение т п Значение т п Значение т а =0,05 а=0i,01 а=0,05 а=0<,01 а=О',05 а=0,01 5 1,92 1,96 22 2,82 3,13 80 3,33 3,70 6 2,07 2,16 24 2,86 3,18 90 3,37 3,74 7 2,18 2,31 26 2,00 3,22 100 3,40 3,77 8 2,27 2,43 28 2,93 3,26 200 3,61 3,98 9 2,35 2,53 30 2,96 3,29 300 3,73 4,09 10 2,41 2,62 35 3,02 3,36 400 3,801 4,17 12 2,52 2,75 40 3,08 3,42 500 3,87 4,24 14 2,60 2,86 45 3,12 3,48 600 3,92 4,28 16 2,67 2,94 50' 3,16 3,52 700 3,96 4,32 18 2,73 3,02 60 3,22 3,58 800 3,99 4,35 20 2,78 3,08 70 3,28 3,64 1000 4,0'5 4,41 194
Таблица 7 Критические значения хг ХП ХП~1 х2 Х1 Xn Х2 ХЦ—1 Х1 п Значения т', х" п Значения х', х" п Значения х', х" а=0,05 а=0,01 а=0,05 а=0,01 а=0,05 а=0,01 4 0,96 О',99 13 0,41 0,52- 22 0,32 0,41 5 0,80 0,92 14 0,39 0,50 23 0,31 0,41 6 0,68 0,80 15 0,38 0,48 24 0,31 0,40 7 0,61 0,74 16 0,36 0,47 25 0,30 0,39 8 0,55 0,68 17 0,36 0,46 26 0,30 0,39 9 0,51 0,63 18 х 0,35 0,45 27 0,30- 0,38 10 0,47 0,59 19 0,34 ’ 0,44 28 0,29 0,38 11 0,45 0,57 20 0,33 0,43 29 0,29 0,37 12 0,43 0,54 21 0,32 0,42 30 0,28 0,37 Таблица 8 Значения критерия х2 1 а=0,05- а=0,01 1 а=0,05 а=0,0-1 1 3,841 6,635 11 19,675 24,725 2 5,991 9,210 12 21,026 26,217 3 7,815 11,341 13 22,362 27,688 4 9,488 13,277 14 23,685 29,141 5 11,070 15,086 15- 24,996 30,578 6 12,592 16,812 16 26,29-6- 32,000 7 14,067 18,475 17 27,587 33,409 8 15,507 20,090 18 28,869 34,805 9 16,919 21,666 19 30,144 36,191 10 18,307 23,209 20 31,410 37,566 195
Таблица 9 Критерии Фишера (F) f2 f, 1 3 5 8 12 16 - 24 50 оо 1 2 3 4 5 d 7 8 9 10 Уровень значимости а=0,05 2 18,51 19,16 19,30 19,37 19,41 19,43 19,45 19,47 19,50 3 10,13 9,28 9,01 8,84 8,74 8,69 8,64 8,58 8,53 4 7,71 6,59 6,26 6,04 5,91 5,84 5,77 5,70 5,63 5 0,61 5,41 5,05 4,82 4,'68 4,60 4,53 4,44 4,36 6 5,99 4,76 4,39 4,15 4,00 3,92 3,84 3,75 3,67 7 5,5© 4,35 3,97 3,73 3,57 3,49 3,41 3,32 3,23 8 5,32 4,07 3,69 3,44 3,28 3,20 302 3,03 2,93 9 5,12 3,86 3,48 3,23 3,07 2,98 2,90 2,80 2,71 10 4,96 3,71 3,33 3,07 2,91 2'82 2,74 2,64 2,54 12 4,7В 3,49 3,11 2,85 2,69 2,60 2i,50 2,40 2,3-0 14 4,60 3,34 2,96 2,70 2,53 2,44 2,35 2,24 2,13 16 4,49 3,24 2,85 2,59 2,42 2,33 2,24 203 2,01 18 4,41 3,16 2',77 2,51 2,34 2,25 2,15 2,04 1,92 20 4,35 3,10 21,71 2,45 2,28 2,18 2,08 1,96 1,84 22 4,30 3,05 2,66 2,40 2,23 2,13 2,03 1,91 1,78 24 4,26 3,01 2,6'2 2,36 2,18 2,09 1,98 1,86 1,73 26 4,22 2,98 2,59 2,32 2,15 2,00 1,95 1,82 1,69 28 4,20 2,95 2,56 2,29 2,12 2,02 1,91 1,78 1,65 30 4,17 2,92 2,53 2,27 2,09 1,99 1,89 1,76 1,62 50 4,03 2,79 2,40 2,13 1,95 1,85 1,74 1,60 1,44 70 3,98 2,74 2,35 2,07 1,89 1,79 1,67 1,53 1,35 100 3,94 2,70 2,30 2,03 1,85 1,75 1,63 1,48 1,28 300 3,87 2,64 2,25 1,97 1,79 1,68 1,55 1,39 1,15 со 3,84 2ДО 2,21 1,94 1,75 1,6'4 1,52 1,35 1,00 Уровень значимости а=0,01 4 21,20 16,69 15,52 14,80' 14,37 14,15 13,93 13,69 13,46 5 16,26 12,06 10,97 10,29 9,89 9,68 9,47 9,24 9,02 6 13,74 9,78 8,75 8,10 7,72 7,52 7,31 7,09 6,88 7 12,25 8,45 7,46 6,84 6,47 6,27 6,07 5,85' 5,65 8 11,26 7,59 6,63 6,03 5,67 5,48 5,28 5,06 4,86 9 10,56 6,99 6,06 5,47 5,22 4,92 4,73 4,51 4,31 10 10,04 6,55 5,64 5,06 4,71 4,52 4,33 4,12 3,91 12 9,33 5,95 5,06 4,50 4,16 3,98 3,78 3,56 3,36 196
Продолжение табл. 9 1 2 3 4 5 6 7 8 9 10 14 8,86 5,56 4,69 4,14 3,80 3,60 3,43 3,21 3,00 16 8,53 5,29 4,44 3,89 3,55 3,37 3,18 2,96 2,75 18 8,28 5,09 4,25 3,71 3,37 3,20 3,00 2,79 2,57 20 8,10 4,94 4,10 3,56 3,23 3,05 2,86 2,63 2,42 22 7,94 4,82 3,99 3,45 3,12 2,94 2,75 2,53 2,31 24 7,82 4,72 3i,90 3,36 3,08 2,85 2,66 2,44 2,21 26 7,72 4,64 3,82 3,29 2,96 2,78 2,58 2,36 2,13 28 7,64 4,67 3,75 3,23 2,90! 2,71 2,52 2,30 2,06 30 7,56 4,51 3,70 3,17 2,84 2,66 2,47 2,24 2,01 50 7,17 4,20 3,41 2,89 2,56 2,38 2,18 1,94 1,68 70 7,01 4,07 3,29 2,78 2,45 2,28 2,07 1,82 1,53 100 6,90 3,98 3,21 2,69 2,37 ' 2,19 1,98 1,73 1,43 300 6,72 3,85 3,08 2,57 2,24 2,06 1,85 1,59 1,22 оо 6,64 3,78 3,02 2,51 2,18 1,99 1,79 1,52 1,00 , Таблица 10 Критические значения критерия Вилкоксона, Та К ш 4 5 6 7 8 9 10 0,05 0,01 0,05 0,01 0,05 0,01 0,05 0,01 0,05 0,01 0,05 0,01 0,05 0,01 4 1-0 а , । 11 —4| 13 10 14 10 14 11 15 11 15 11 5 11 2 17 15 18 16 20 17 21 17 22 18 23 19 6 12 10 18 16 26 23 27 24 29 25 31 26 32 27 7 13 10 20 17 27 24 36 32 38 34 40 35 42 37 8 14 11 21 17 29 25 38 34 49 43 51 45 53 47 9 15 11 22 19 31 26 40 35 51 45 63 56 65 58 10 15 12 23 19 32 27 42 37 53 47 65 58 78 71 197
Таблица 11 Критические значения критерия Вилкоксона, сопряженные данные п а п а п а п а п а 0,05 0,01 0,05 0,01 0,05 0,01 0,05 0,01 0,05 0,01 6 1 — 10 9 6 14 22 14 18 41 29 22 67 50 7 3 — 11 12 6 15 26 17 19 47 33 23 74 56 8 5 3 12 15 8 16 31 21 20 53 39 24 82 62 9 7 4 13 18 11 17 36 24 21 60 44 25 90 69 Таблица 12 Критические значения коэффициента корреляции f а 1 а f а 0,05 0,011. 0,05 0,01 0,05 0,01 4 0,81 0,92 13 ' 0,51 0,64 30 01,35 0,45 5 0,75 0,87 14 0'50 0,62 35 0,32 0,42 6 0,71 0,83 15 0,48 0,61 40 0,30 0,39 7 0,67 0,80 16 0,47 О1,59 50 0,27 0,35 8 0,63 0,76 17 0,46 0,58 60 0,25 0,32 9 0,60 0,73 18 0,44 0,56 70 0,23 0,30 10 0,5В1 0,71 19 0,43 0,55 80 0,22 0,28 11 0,55 0,68 20' 0,42 0,54 90 0,21 0,27 12 0,53 0.66 25 0,38 0,49 100 0,19 0,25 Таблица 13 . 14-г Значение величины z=0,51n ,— I—г Г ,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09 0,0' 0,000' 0,010 0'0'20 0,030 0,040 0,050 0,060' 0,070 0,080 0,090 0,1 0,100' 0,111 О',121 0,131 0,141 0,151 0,161 0,17'2 0,182 0,192 0,2 0,203 0,213 0,224 0,234 0,245 0,255 0,266 0,277 0,288 0,299 0,3 0,309 0,321 0,332 0,343 0,354 0,365 0,377 0,388 0,400 0,412 0,4 0,424 0,436 О',448 0,459 0,472 0,485 0,497 0,510 0,523 0,536 0,5 0,549 0,563 0,576 0,590 0,604 0,618 0,633 0,648 0,663 0,678 0,6 0,693 0,709 0,725 0,741 0,758 0,775 0,793 0,811 0,829 0,848 0,7 0,867 0,887 0,908 0,929 0,950 0,973 0,996 1,020' 1,045 1,071 0,8 1,099 1,127 1,152 1,188 1,221 1,256 1,293 1,333 1,376 1,422 0,9 1,472 1,528 1,589 1,658 1,738 1,832 1,946 2,092 2,298 2,647 198
Таблица 14 Значения G(f, к) критерия проверки однородности дисперсий К f 3 4 5 6 7 8 9 10 16 36 Уровень значимости а=0,05 2 0,94 0,91 0,88 0,85 0,83 0,82 0,80 0,79 0,73 0,66 3 0,80 0,75 0,71 0,68 0,65 0,63 0,62 О',60 0,55 0,47 4 0,68 0,63 0,59 0,56 0,54 0,52 0,50 0,49 0,44 0,37 5 0>,60 01,54. 0,51 0,48 0,46 0,44 0,42 0,41 0,36 0,31 6 0,53 0,48 0,44 0,42 0,40 0,38 0,37 0,36 0,31 0,26 7 0,48 0,42 0,40' 0,37 0,35 0,34 0,33 0,32 0,28 0,23 8 0,44 0,39 0,36 0,34 0,32 0.30 0,29 0,28 0,25 0,20 9 0,40 0,36 0,33 0,31 0,29 0,28 0,27 0,26 0,22 0,18 1'0 0,37 0,33 0,30 0,28 0,27 0,25 0,24 0,24 0,20 0,17 Уровень значимости а=0,01 2 0,98 0,96 0,94 0,92 0,90 0,88 0,87 0,85 0,79 0,71 3 0,88 0,83 0,79 0,76 0,73 0,71 0,6© 0,67 0,61 0,52 4 0,78 0,72 0,68 0,64 0,61 0,59 0,57 0,55 0,49 0,41 5 0,70 0,63 0,59 0,55 0,53 0,50 0,49 0,47 0,41 0,34 6 0,63 0,56 0,52 0,49 0,46 0,44 0,42 0,41 0,35 0,29 7 0,57 0,51' 0,47 0,43 0,41 0,39 0,38 0,36 0,31 0,25 8 0,52 0,46 0,42 0.39 0,37 0,35 0,34 0,32 0,28 0,22 9 0,48 0,43 0,39 0,36 0,34 0,32 0,31 .0,30 0,25 0,20 10 0,45 0,39 0,36 0,33 0,31 0,29 0,28 0,27 0,23 0,18 Приложение 3 ОБРАЗЕЦ ЛИСТА, ВЫДАВАЕМОГО СТУДЕНТАМ ДЛЯ ПРОВЕРКИ КАЧЕСТВА УСВОЕНИЯ ПРОЙДЕННОГО МАТЕРИАЛА Контроль знаний по главе 3 к к 2 Х1П| 2... 2(xi~ x)2-ni t=i . « i=i. n n к 2 (Xj - х)3-щ к 2(xi — х)4-П1 3... з ; nsd 4... — т 3; ns4 199
5.. . 0,5 (хп/2 + Х(п+1)/2) 6... 1 [ (ta’V.’T)2, 1. (to s:d)2; 7 0,5n - Nm . я 11' ,>П1г,П-| Лш 1 , пт+1 т! (п — т)! *' 4 9.. хт.е-’' 1 (х—а)2 * ТП 1 ’ 10... 1 . р 2о2 Ill! а 11.. . 4-100; X 12... J [ Х1, х2,..., хк . [ пп П2,. .., пк ’ 13.. ( ХЪ Х2" • • • ХК . 1 , Шк ’ 14... | ' xlt х2,..., хк . •m 15... хт+С------------------mv- .-П.т--2---------- (пт пт —1) Ч- (пт Пт+!) За счет перестановки номеров формул достигается необходимое число вариантов листов раздаточного опросного материала.
ПРЕДМЕТНЫЙ Автокорреляция 130, 142 Асимметрия 25—26, 45—46, 50 АСУ—Геология понятие, задачи 173—176 Биномиальное распреде- ление 26—28, 34—35 Вариограмма 132—134 Вероятность, определение 18 Возможности вычислитель- ных центров производ- ственных объединений 176—180 Выборка требования к ней 37—38 способы отбора данных 38—40 определение объ- ема 46—47 Выборочное распре- деление 40 группирование дан- ных 40—41, 49 Генеральное распре- деление 52—53 Геологические данные 10, 16 задачи, решаемые математическими методами 11—12 Гипотеза нулевая, по- нятие 57—58 принадлежности значений к выборке 58—59, 71 равенства сред- них 59—60, 72 равенства диспер- сий 63—64, 72 равенства частот и частостей 64—69 Гистограмма рас- пределения 42, 56 Главных компонент метод 108—112 Графическая интерпретация аномальности точки 58 асимметрии 26 вероятности 19 влияния факторов 89 дискретности распре- деления 24 дискриминантного анализа 153 дисперсии 44 критериев -f, т" 58 УКАЗАТЕЛЬ корреляции 95—96, 100 линейной зависи- мости 118 Графическая интерпретация метода главных компонент 110 непрерывности рас- пределения 24 нелинейной зависи- мости 120 многомерных сред- них 63 различия средних 60 различия совокуп- ностей с попарно свя- занными замерами. 61 . распознавания об- разов 170 ряда распределения 42 скользящих средних, дисперсий 130 тренд-анализа 138 эксцесса 26, 45 Группирование данных 40—42 Дендрограмма 107—108 Дискриминантная функция 153-*-154 Дисперсионный анализ, понятие, задачи 79—81 многофакторный 84—90 непараметрический 90 офнофактор- ный 81—84, 90—91 преобразование данных 81 Дисперсия 25—26, 44, 49—50 Доверительный интервал 53, 70, 98—99, 112— 113 Закон больших чисел 30, 31 Распределения биномиаль- ный 26—28, 34— 35, 162—163 логнормаль- ный 71—72 нормаль- ный 29—30, 54—56 Пуассона 28—29, 56, 73 201
Колмогорова-Смирнова критерий 64—65, 68—69, УЗ- 74 Корреляционное отноше- ние 95—99, 113—114 Корреляционный анализ, понятие, задачи 93—95 Корреляция множествен- ная 100—102 парная 95—100 рангов 102—105, 140—141 частная 101—102 Кохрена критерий 81, 197 Коэффициент асимметрии 45—46 вариации 45—46, 50 взаимной сопря- женности 105 корреляции 96—97, 112 пропорционального сходства 111 эксцесса 45—46, 50 Крайгинг-метод 130, 134 Критерий аномальности 58—59 равенства диспер- сий 63—64, 72 равенства сред- них 59—60, 72 скачков 139—140 Линейная регрес- сия 118—120, 123 Логнормальное распре- деление 71 Математическое ожидание 24—25 Махалонобиса рассто- яние 154 Медиана 48 Мера линейности зависимости 96—97 Метод главных компонент 108— 112 наименьших квад- ратов 119—120 Множественная рег- рессия 121—122 Мода 48 Моделирование, понятие возможности 12—16, 158—162 минералообра- зования 167—168 ореолообразова- ния 164—-167 оруденения 162—164 процесса по- исков 168—171 Модель геологическая 16—17 геометрическая 14 горно-геометри- ческая Каллистова 160 случайного поля 160—161 Соболевского 159 математиче- ская 15—16, детерминирован- ' ная 15—16, 167— 168, 185 статистиче- ская 15, 39—40 определение 13 понятийная 14 физическая 13—14 Нелинейная регрес- сия 120—121, 124—125 Непараметрические критерии оценки дисперсии 49 связи 102—106 среднего 67—68 сравнения сопряжен- ных данных 6.8 средних 67—68 частостей 69 Нормализованное отклонение 28 Нормальное распреде- ление 29—30 построение кри- вой 55—56 Объекты исследо- ваний 10—11 Объем выборки 46 Однородность упоря- доченных данных 131—132 Основные ошибки асимметрии, дисперсии, коэффициента вариации, среднего, среднего квад- ратического, эксцесса 53 коэффициента корреля- ции и корреляционно- го отношения 98 z-преобразо- вания 99—100 202
Пирсона крите- рий 65—67, 193 Пуассона распреде- ление 28—29, 56, 73, 190 Полигон распреде- ления 42 Проверка статисти- ческих гипотез 57—68 Пространственно- статистический ана- лиз, понятие, зада- чи 127—128 автокорреляция 130 вариограмма 132—134 Крайгинг 135—136 однородность / упорялочных на- блюдений 131—132 сглаживание 128—130 тренд-анализ 136—139 Ранговый коэффи- циент корреля- ций 103—105, 140—141 Распознавание об- разов, понятие, за- дачи 144—146 алгоритм вероят- ностный 152—153 корреляцион- ный 151 дискриминантной функции 153—154 эвклидова рассто- яния 149—150 информативность признака 146— 149 Регрессионный ана- лиз, понйтие, зада- чи 117—118 оценка полученной зависимости 122—123 Ряды распределения 42—43 Сглаживание скользя- щим окном 128—130 Случайное положение точек 141 Случайные величины 23 события 17, 31 Способы отбора дан- ных 38—40 Сравнение выборочного распределения с тео- ретическим 64—65 выборочных распре- делений 66 дисперсий 63—64 многомерных средних 61—63 Среднее значение ариф- метическое 47 взвешенное, гармони- ческое, геометриче- ское, квадратичное, кубическое, лога- рифмическое 47 совокупности с каче- ственными данными 49 Среднее квадратиче- ское отклонение 44, 46 Стандартное отклоне- ние — см среднее квадратическое Статистические гипотезы критерии их проверки 52—69 Степень свободы, понятие 59 Стьюдента критерий 59, 72, 192 Таблица значений г-преобразования 196 нормального распре- деления 190—191 Пуассона распре- деления 190 Стьюдента распре- деления 192 критерия отбрасы- вания крайч х значений 192 Пирсона 193 Фишера 194—195 критических значе- ний /, т" 193 коэффициента корреляции 196 критерия Вилкок- ' сона 195—196 проверки однородно- сти дисперсий 197 Теория вероятностей, понятия, теоремы 17—23, 31— 33 Тренд-анализ, понятие 136—139 Теоретическое распре- деление, расчет частот 54—56 Уравнение регрессии линейной 118— 120 203
множествен- ной 121—122 нелинейной 120—121 Уровень значимости, . понятие 53 Факторный анализ, понятие 108— 112 Фишера критерий 63, 72, 80, 194—195 Фурье ряды, поня- тие 161—162 Формула полной вероятности 22 Функциональная зави- симость 93 Частный коэффициент корреляции 101—102 Число степеней свободы при дисперсионном анализе 85, 87, 89 оценке связи 98, 102, 104—105, 112—113 сравнении диспер- сий 63 средних 59—61 распределе- ний 64—69 Эвклидово рассто- яние 149—150 Эксцесс 25, 45—46, 49—50
ОГЛАВЛЕНИЕ ПРЕДИСЛОВИЕ ...................................................... 3 МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ . . . 5 Глава 1 ВВЕДЕНИЕ В ДИСЦИПЛИНУ ............................................ 6 1.1. Цель преподавания и задачи изучения.....................6 1.2. К вопросу применения математических методов в геоло- гии ....................................... . . . 7 1.3. Геологические данные; объекты изучения, решаемые задачи 10 1.4. Геолого-математические модели — основа успешного применения математических методов в геологии . . .12 Глава 2 НЕКОТОРЫЕ ПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ 2.1. Первичные понятия и теоремы............................17 2.2. Случайные величины и их числовые характеристики . 23 2.3. Функции распределения вероятностей случайных величин 26 2.4. Материал для практических занятий......................31 Глава 3 ОСНОВЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ВЫБОРОЧНЫХ ДАННЫХ 3.1. Выборка, требования к ней...................37 3.2. Способы отбора данных.......................38 3.3. Выборочное распределение и его основные характеристики 40 3.4. Материал для практических занятий . . ... 49 Глава 4 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ 4.1. Оценка параметров генеральной совокупности ... 52 4.2. Теоретическое распределение и расчет его частот . 54 4.3. Статистические гипотезы й критерии их проверки . 57 4.4. Материал для практйческих занятий ..... 70 Глава 5 ‘ ДИСПЕРСИОННЫЙ АНАЛИЗ 5.1. Понятие и задачи ... .79 5.2. Однофакторный анализ................................. .81 5:3. Двухфакторный анализ .... 84 5,4. Материал для практических занятий......................90 Глава 6 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ 6.Ц Понятие и задачи.................... . .93 6.2. Парная корреляция..................... . 95 6.3. Множественная корреляция..............................100 6.4. Статистики связи для порядковых и качественных приз- !__________ каков . . ...... ....... 102 6.5. Материал для практических занятий.....................112 205
Глава 7 РЕГРЕССИОННЫЙ АНАЛИЗ 7.1. Понятие и задачи...............................117 7.2. Линейная регрессия . . .......................118 7.3. Нелинейная регрессия...................... ... 120 7.4. Множественная регрессия ... .... 121 7.5. Оценка полученной зависимости..................122 7.6. Материал для практических занятий .............123 Глава 8 ПРОСТРАНСТВЕННО-СТАТИСТИЧЕСКИЙ АНАЛИЗ 8.1. Понятие и задачи...............................127 8.2. Обработка данных с помощью скользящего окна . . 128 8.3. Автокорреляция . 130 8.4. Проверка однородности наблюдений, расположенных на линии............................................. 131 8.5. Вариограмма и крайгинг.........................132 8.6. Тренд-анализ...................................136 8.7. Материал для практических занятий..............142 Глава 9 РАСПОЗНАВАНИЕ ОБРАЗОВ 9.1. Понятие и задачи...............................144 9.2. Информативность признаков......................146 9.3. Алгоритмы......................................149 9.4. Материал для практических занятий..............155 Глава 10 МОДЕЛИРОВАНИЕ ГЕОЛОГИЧЕСКИХ ОБЪЕКТОВ, ПРОЦЕССОВ ИХ ФОРМИРОВАНИЯ И ПОИСКА 10.1. Горио-геометрические модели...................158 10.2. Моделирование при изучении изменчивости оруденения 162 10.3. Моделирование процесса ореолообразования . . . 164 10.4. Моделирование» процесса геохимических поисков . . 168 10.5. Материал для практических занятий.............172 Глава 11 ПРИМЕНЕНИЕ ЭВМ В ГЕОЛОГИИ 11.1. Представление об «АСУ-Геология» ..............173 11.2. Возможности вычислительных центров производственных геологических объединений по решению геологических задач 177 11.3. Краткая характеристика системы «Регион» .... 180 ЗАКЛЮЧЕНИЕ .................................... . ... 183 ЛИТЕРАТУРА................................................186 Приложение 1. Ответы на задачи для самостоятельного решения . . 187 Приложение 2. Статистические таблицы-.....................189 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ . 201
Юрий Георгиевич Шестаков МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ГЕОЛОГИИ Учебное пособие ИБ № 450 Редактор А. А. Назимова Художественный редактор Л. М. Живило Технический редактор Л. X. Бочкарева Корректоры И. А. Паламарчук, С. П. Шурыгин
\ Сдано в набор 04.11.87 г. Подписано к печати 17.05.88. Формат 60X84716. Бумага тип. № 3. Гарнитура литературная. Печать высокая. Усл. печ. л. 12,09. Уч.-изд. л. 11,85. Тираж 5000 экз. Заказ 418. Цена 65 к. Издательство Красноярского университета, 660049, Красноярск, пр. Мира, 53. Типография «Красноярский рабочий», 660017, Красноярск, пр. Мира, 91.