Text
                    Лабораторная работа № 2 «СТАТИСТИЧЕСКИЙ И КОРРЕЛЯЦИОННО-
РЕГРЕССИОННЫЙ АНАЛИЗ ГЕОЛОГИЧЕСКИХ ДАННЫХ»
Крутопадающая кварц-галенитовая жила разведана рудным штреком,
пройденным по ее простиранию, и опробована на полную мощность бороздо-
выми пробами через каждые 10м. Для каждой пробы определены следующие
признаки, пpиведенные в табл.: расстояние от начала трекам L (в м), мощность
жилы M(в м), содержания Cu, Zn, S(в%). Выполнено также контрольное
определение содержаний меди(Cu_к).
СОДЕРЖАНИЕ РАБОТЫ
1. Для каждого признака необходимо
1.1. Определить оценки параметров статистического распределения по результатам
наблюдений:
Минимальное значение
xmin = min {xi}
Максимальное значение
xmax = max {xi}
Размах
Rx=xmax--xmin
Математическое ожидание
∑=
n
i
i
x
x
n
M
1
1
=
Дисперсия для генеральной совокупности
2
x
n
i
2
i
n
i
x
i
2
x
M
x
M
x
n
n
−
=
−
σ
∑
∑
=
=
1
1
21
1
)
(
=
Выборочная (исправленная) дисперсия
1)
(
1)
(1
1)
(
2
1i
1
1
2
)
(
)
(
−
−
−
∑
−
∑
=
−
σ
=
=
=∑
n
n
x
x
n
n
n
n
n
i
n
i
2
i
n
i
x
i
2
x
2
x
M
x
S
=
=
Асимметрия для генеральной совокупности
∑=
−
σ
n
i
x
i
3x
x
M
x
An
1
3)
(
1
=
Эксцесс для генеральной совокупности


3 ) ( 1 4 1 − − ∑= σ n i x i 4x x M x n = Э Медиана при нечетном числе наблюдений n = 2k+1: Mex= xk+1; при четном числе наблюдений n = 2k: Mex= (xk+xk+1)/2. Интегральная функция распределения (построить ее график) F(xi) = i/n 1.2. Определить оценки параметров статистического распределения по группированным данным: Интервал группирования (округлять до 1 значачащей цифры) n x xln 2 1 min max x+ − Δ≈ Число интервалов группирования m ≈Rx/Δx Частость (относительная частота, плотность) попадания в k-й интервал f(xk)=pk = nk/n Накопленная частость (интегральная функция) ∑ ∑= = k jj k j j k p x f x F 1 1) ( ) ( = = Математическое ожидание ∑= m k k k x x p M1 = Дисперсия ∑= − σ m k x k k 2 x M x p 1 2) ( = Асимметрия ∑= − σ m k x k k 3x x M x A p 1 3) ( 1 =
Эксцесс 3 ) ( 1 4 1 − − ∑= σ n ki x k k 4x x M x p = Э Мода 1 M 1 - M M 1 - M M x M x p p pp p x + − − − Δ +2 = Mo где xM , pM -- начало и частость модального (содержащего максимальную частость) интервала; pM-1 , pM+1 -- частости предшествующего и следующего за модальным интервалов Медиана M x M x pp x Σ − Δ + 0,5 = Me где xM , pM -- начало и частость медианного интервала, которому соответствует первая из накопленных частостей, превышающая величину 0,5; pΣ - частость, накопленная к началу медианного интервала. Все расчеты с применением группированных данных отобразить в таблицах Таблица 1 Пример подсчета частот, относительных частот и накопленных частостей k Xmin Xmax Xk Пометки nk pk F(xk) 13,54,54| 1 0,0196 0,0196 24,55,55 0 0,0000 0,0196 3 5,5 6,5 6 ||||||||| 11 0,2157 0,2353 4 6,5 7,5 7 |||| |||| |||| 14 0,2745 0,5098 5 7,5 8,5 8 |||||||||| 12 0,2353 0,7451 68,59,59|||| 4 0,0784 0,8235 79,510,510|| 2 0,0392 0,8627 8 10,5 11,5 11 |||| 5 0,0980 0,9608 9 11,5 12,5 12 || 2 0,0392 1,0000 51 1 Таблица 2 Пример оценки параметров распределения по группированным данным k Xk pk pkXk Xk-Mx (Xk-Mx)2 pk(Xk-Mx)2 pk(Xk-Mx)3 pk(Xk-Mx)4 1 4 0,0196 0,078 --3,824 14,6194 0,2867 --1,0960 4,1907 2 5 0 0,000 --2,824 7,9723 0,0000 0,0000 0,0000
k Xk pk pkXk Xk-Mx (Xk-Mx)2 pk(Xk-Mx)2 pk(Xk-Mx)3 pk(Xk-Mx)4 3 6 0,2157 1,294 --1,824 3,3253 0,7172 --1,3079 2,3849 4 7 0,2745 1,922 --0,824 0,6782 0,1862 --0,1533 0,1263 5 8 0,2353 1,882 0,176 0,0311 0,0073 0,0013 0,0002 6 9 0,0784 0,706 1,176 1,3841 0,1086 0,1277 0,1502 7 10 0,0392 0,392 2,176 4,7370 0,1858 0,4043 0,8800 8 11 0,098 1,078 3,176 10,0900 0,9892 3,1422 9,9811 9 12 0,0392 0,471 4,176 17,4429 0,6840 2,8569 11,9316 1 7,824 3,1649 3,9752 29,6450 Построить графики гисторграмм, полигонов и кумулятивных кривых; нанести на графики оценки центров распределения (математические ожидания, моды, медианы). 1.3. Сравнить результаты оценок параметров статистического распределения по пп. 1.1-1.2; отклонения параметров выразить в относительных процентах более точного метода; построить совмещенный график кумулятивной кривой и оценки интегральной функции распределения по результатам наблюдений 1.4. Подобрать нормализующее преобразование (логнормальное y=ln x, трехпараметрическое логнормальное y=ln (x+ ) или др.), обосновав его упрощенным методом и при помощи критерия согласия Пирсона () , N i i p n' n' n n' − = = ∑ ∑− m i i m i i i набл N 2 2 2 1 где m - число интервалов, на которые разбивается область определения исследуемой случайной величины; n'i - эмпирическая частота; ni , pi - теоретические частота и вероятность попадания случайной величины в i -й интервал. 1.5. Построить интервальные оценки математического ожидания Mx'--Δ <Mx< Mx'-- Δ с надежностью 67, 95 и 99% n x k , TS =± Δ , где S x -- исправленное стандартное отклонение; Tα, k - критическая точка распределения Стьюдента, соответствующая уровню значимости α = 1-- и числу степеней свободы k = n--1. 1.6. Определить число наблюдений n, обеспечивающих заданную величиной доверительного полуинтервала Δ погрешность оценки среднего содержания Mx при соответствующей доверительной вероятности
ε x k , x k , V T S T n = =Δ , для относительной погрешности оценки среднего содержания ε = 100 Δ /Mx : а)10%, б)20%, в)30%. 2. Сравнить средние содержания меди (X) и цинка (Y) при помощи статистического критерия , = y y x x y x набл. N S N S M M Z 2 2 + − где ,2 2y xS S - несмещенные оценки дисперсий. 3. Сравнить дисперсии содержаний меди (X) и цинка (Y) при помощи статистического критерия Фишера , =2 2 2 1 S S Fнабл. где 2 2 2 1S S > - несмещенные оценки дисперсий. 4. Сравнить средние содержания меди (X) и цинка (Y) при помощи статистического критерия Стьюдента ()()() = , N N N N N N S N S N M M y x y x y x 2 y y 2 x x y x T + − + × − + − − 2 1 1 набл. 5. Сравнить распределения содержаний меди в основных (X) и контрольных (Y) пробах при помощи статистического критерия , = d dS N M Tнабл. где ∑ = N ii d MN 1 d - среднее значение отклонений di = xi -- yi случайных величин XиY; () ∑− = − N i 2 1 1 d iM d SN d 2 - несмещенная оценка дисперсии этих отклонений.
6. Проверить гипотезу об однородности средних содержаний меди в 4-х группах проб с номерами 1-10, 11-20, 21-30, 31-40 при помощи статистического критерия () , ∑− = m 0 i i набл i i S M M N V 2 2 гдеNi,Mi, 2 i S - число наблюдений в группах, групповые средние и дисперсии; M0 = (N1M1 +N2M2 + ... +NmMm )/N - общее среднее, вычисленное с учетом наблюдений в группах; N =N1 +N2+ ... +Nm - общее число наблюдений. 7. Сравнить статистические распределения содержаний меди и цинка при помощи критерия согласия Пирсона () , N Ni n" n' p" p' ∑+ − = m i i i i 2 1 набл 2 2 где m - число сопоставляемых интервалов; N1 , N2 - число наблюдений в группах; n'i , n"i - число наблюдений, попавших в i -й интервал в 1-й и во 2-й группах; p'i =n'i /N1 , p"i =n"i /N2 - статистические вероятности попадания наблюдений в i -й интервал. 8. При помощи критерия Вилкоксона проверить гипотезу об однородности средних мощности и содержаний меди, цинка и серы в 2-х группах проб с номерами 1- 20, 21-40 9. При помощи критерия Сиджела-Тьюки сравнить дисперсии мощности и содержаний меди, цинка и серы в 2-х группах проб с номерами 1-20, 21-40 10. Выполнить корреляционный анализ признаков 10.1. Построить корреляционные диаграммы для всех пар признаков, определить форму и оценить силу корреляционных взаимосвязей 10.2. Вычислить коэффициенты корреляции Пирсона для всех возможных пар признаков X-Y ] ) ( [ ] ) ( [ 2 2 1) ( ) )( ( ∑ ∑ ∑ ∑ ∑ ∑ ∑ − × − − − = − − =∑ i 2 i i 2 i i i i i y x y i x i xy y y N x x N y x y x N S S N M y M x R 10.3. Оценить значимость корреляционных взаимосвязей для всех возможных пар признаков X-Y при помощи преобразования Фишера
xy xy 1 1 ln 21R R набл. − + = Z . и преобразования Стьюдента 2 xy xy R N R t − − =1 2 набл. . 10.4. Сформировать матрицу корреляций Пирсона, построить корреляционную дендрограмму признаков. 10.5. Рассчитать коэфициенты частной корреляции 2-х признаков X и Y, исключающие влияние признака Z, для всех возможных пар признаков в системе «медь-цинк-сера» () () 2 yz 2 xz yz xz xy xy/z R R R R R r − − − = 1 1 . 10.6. Рассчитать коэфициенты множественной корреляции 2-х признаков, характеризующие множественную (совокупную) связь влияние признака Z с 2- мя признаками X и Y, для всех возможных пар признаков в системе «медь- цинк-сера» 2 xy xy zy zx 2 zy 2 zx R R R R R R R − − + = 1 2 z/xy . 10.7. Вычислить коэффициенты корреляции Спирмэна для всех возможных пар признаков X-Y N N d 3 xy − ∑ − = 2 i 6 1 ρ , где N - число парных наблюдений; di = rxi--ryi - разность между рангами (порядковыми номерами) наблюдений в рядах xi и yi. 10.8. Оценить значимость коэффициентов корреляции Спирмэна для всех возможных пар признаков X-Y при помощи преобразования Стьюдента
11. Выполнить регрессионный анализ признаков 11.1. На корреляционном поле для пар признаков «медь-сера» и «цинк-медь» построить полигоны прямой и обратной эмпирической регрессии, определить корреляционные отношение yx и xy, оценить статистическую значимость, определить предельную статистически значимую величину корреляционного отношения для прямой и обратной эмпирической регрессии. 11.2. Рассчитать уравнения линейной регрессии для пар признаков «медь-сера» и «цинк-сера» y =a+bx; показать их графически на корреляционных диаграммах; оценить значимость линейной регрессии при помощи критерия Фишера () 2 сл 2 зак N F σ − σ = 2 набл . где 2 ∑− = σ ) ( 1 y i 2 зак M f N - дисперсия закономерной изменчивости, учитываемой линейной регрессией f i= a +bxi ; ∑Δ = σ 2 ι N 2 сл1 - дисперсия остаточной (случайной) изменчивости Δi = yi -- f i 11.3. На корреляционном поле для пар признаков «медь-сера» и «цинк-медь» определить коэффициенты линейных уравнений прямой, сопряженной обратной и ортогональной регрессии; нанести все виды регрессионных линий на корреляционные поля признаков; построить 95-%-е эллипсы рассеивания корреляционных полей точек. 11.4. Для пар признаков «медь-сера» и «цинк-медь» определить коэффициенты нелинейных моделей (25-28) - гиперболы, степенной, экспоненциальной, логарифмической; на корреляционном поле построить их совмещенные графики; оценить статистическую значимость. 11.5. Рассчитать уравнения квадратичной параболы 2-го порядка для пар признаков «медь-сера» и «цинк-сера» y =a+bx+cx2; показать их графически на корреляционных диаграммах; оценить значимость линейной регрессии при помощи критерия Фишера. 11.6. Для пар признаков «медь-сера» и «цинк-медь» определить нелинейную корреляцию рассмотренных регрессионных моделей (линейная, квадратичная парабола, гипербола, степенная, экспоненциальная, логарифмическая), оценить
ее статистическую значимость. 11.7. Рассчитать уравнение множественной линейной регрессии цинка (Z), связанного с 2-мя признаками медь (X) и сера (Y) z=a+bx+cy. где a, b, c - коэффициенты регрессии, определяемые в соответствии с выражением y x z 2 xy xy zx zy y z 2 xy xy zy zx x z cM bM M a ; c ; b R R R R R R R R − − = = = − − σ σ − − σ σ 1 1 . 12. Классификация данных 12.1. Определить показатели информативности мощности жилы M и содержаний Cu, Zn, S при разделении результатов опробования кварц-галенитовая жилы на 2 группы: A (пробы №№ 1-20) и B (пробы №№ 21-до конца) 2 0 i i i b a Jσ − = 2) ( где ai, bi - средние значения признака в группах; σ20 -- общая дисперсия. 12.2. Определить уравнение линейной дискриминантной функции (ЛДФ) для разделения этих групп x x x D m 1 k x ∑= = + + + = ik k im m i2 2 i1 1 i λ λ λ λ ... где xik - значение k-го признака для i-го объекта;λ1, λ 2 ,...λm - коэффициенты ЛДФ; Di - дискриминатор (дистанционный коэффициент). Пороговое значение дискриминатора определяется при подстановке в уравнение ЛДФ средних арифметических значений из центров групп соответствующих признаков: m 1 k b a D∑= + = 2 ) (k k k 0 / λ Определить ошибку клаасификации результатов опробования на основе ЛДФ. 13. Анализ последовательностей данных (мощности кварц-галенитовой жилы и содержаний меди и цинка в ней) 13.1. Выделить закономерную изменчивость (тренд): а) в виде регресионного квадратичного тренда; б) в виде регресионного кубического тренда;
в) способом скользящего среднего по 3 пробам; г) способом двукратного сглаживания по 3 пробам (взвешенного скользящего среднего по 5 пробам); для каждой модели оценить долю закономерной изменчивости, отобразить ее графически вместе с исходными данными, рассчитать и построить гистограммы случайной изменчивости (остатков). 13.2. Рассчитать автокорреляционные функции, вариограммы и дрейф, отобразить их графически вместе с исходными данными. 13.3. Рассчитать модели Фурье для неравномерно расположенных данны: а) c 1 (основной) гармоникой; б) c 2 гармониками; отобразить их графически вместе с исходными данными.