/
Text
Лабораторная работа № 2 «СТАТИСТИЧЕСКИЙ И КОРРЕЛЯЦИОННО-
РЕГРЕССИОННЫЙ АНАЛИЗ ГЕОЛОГИЧЕСКИХ ДАННЫХ»
Крутопадающая кварц-галенитовая жила разведана рудным штреком,
пройденным по ее простиранию, и опробована на полную мощность бороздо-
выми пробами через каждые 10м. Для каждой пробы определены следующие
признаки, пpиведенные в табл.: расстояние от начала трекам L (в м), мощность
жилы M(в м), содержания Cu, Zn, S(в%). Выполнено также контрольное
определение содержаний меди(Cu_к).
СОДЕРЖАНИЕ РАБОТЫ
1. Для каждого признака необходимо
1.1. Определить оценки параметров статистического распределения по результатам
наблюдений:
Минимальное значение
xmin = min {xi}
Максимальное значение
xmax = max {xi}
Размах
Rx=xmax--xmin
Математическое ожидание
∑=
n
i
i
x
x
n
M
1
1
=
Дисперсия для генеральной совокупности
2
x
n
i
2
i
n
i
x
i
2
x
M
x
M
x
n
n
−
=
−
σ
∑
∑
=
=
1
1
21
1
)
(
=
Выборочная (исправленная) дисперсия
1)
(
1)
(1
1)
(
2
1i
1
1
2
)
(
)
(
−
−
−
∑
−
∑
=
−
σ
=
=
=∑
n
n
x
x
n
n
n
n
n
i
n
i
2
i
n
i
x
i
2
x
2
x
M
x
S
=
=
Асимметрия для генеральной совокупности
∑=
−
σ
n
i
x
i
3x
x
M
x
An
1
3)
(
1
=
Эксцесс для генеральной совокупности
3
)
(
1
4
1
−
−
∑=
σ
n
i
x
i
4x
x
M
x
n
=
Э
Медиана
при нечетном числе наблюдений n = 2k+1: Mex= xk+1;
при четном числе наблюдений n = 2k: Mex= (xk+xk+1)/2.
Интегральная функция распределения (построить ее график)
F(xi) = i/n
1.2. Определить оценки параметров статистического распределения по
группированным данным:
Интервал группирования (округлять до 1 значачащей цифры)
n
x
xln
2
1 min
max
x+
−
Δ≈
Число интервалов группирования
m ≈Rx/Δx
Частость (относительная частота, плотность) попадания в k-й интервал
f(xk)=pk = nk/n
Накопленная частость (интегральная функция)
∑
∑=
=
k
jj
k
j
j
k
p
x
f
x
F
1
1)
(
)
(
=
=
Математическое ожидание
∑=
m
k
k
k
x
x
p
M1
=
Дисперсия
∑=
−
σ
m
k
x
k
k
2
x
M
x
p
1
2)
(
=
Асимметрия
∑=
−
σ
m
k
x
k
k
3x
x
M
x
A
p
1
3)
(
1
=
Эксцесс
3
)
(
1
4
1
−
−
∑=
σ
n
ki
x
k
k
4x
x
M
x
p
=
Э
Мода
1
M
1
-
M
M
1
-
M
M
x
M
x
p
p
pp
p
x
+
−
−
−
Δ
+2
=
Mo
где xM , pM -- начало и частость модального (содержащего максимальную частость)
интервала; pM-1 , pM+1 -- частости предшествующего и следующего за модальным
интервалов
Медиана
M
x
M
x
pp
x
Σ
−
Δ
+ 0,5
=
Me
где xM , pM -- начало и частость медианного интервала, которому соответствует
первая из накопленных частостей, превышающая величину 0,5; pΣ - частость,
накопленная к началу медианного интервала.
Все расчеты с применением группированных данных отобразить в таблицах
Таблица 1
Пример подсчета частот, относительных частот и накопленных частостей
k Xmin Xmax Xk
Пометки
nk
pk F(xk)
13,54,54|
1 0,0196 0,0196
24,55,55
0 0,0000 0,0196
3 5,5 6,5 6 |||||||||
11 0,2157 0,2353
4 6,5 7,5 7 |||| |||| |||| 14 0,2745 0,5098
5 7,5 8,5 8 ||||||||||
12 0,2353 0,7451
68,59,59||||
4 0,0784 0,8235
79,510,510||
2 0,0392 0,8627
8 10,5 11,5 11 ||||
5 0,0980 0,9608
9 11,5 12,5 12 ||
2 0,0392 1,0000
51
1
Таблица 2
Пример оценки параметров распределения по группированным данным
k Xk pk pkXk Xk-Mx (Xk-Mx)2 pk(Xk-Mx)2 pk(Xk-Mx)3 pk(Xk-Mx)4
1 4 0,0196 0,078 --3,824 14,6194 0,2867 --1,0960 4,1907
2 5 0 0,000 --2,824 7,9723 0,0000 0,0000 0,0000
k Xk pk pkXk Xk-Mx (Xk-Mx)2 pk(Xk-Mx)2 pk(Xk-Mx)3 pk(Xk-Mx)4
3 6 0,2157 1,294 --1,824 3,3253 0,7172 --1,3079 2,3849
4 7 0,2745 1,922 --0,824 0,6782 0,1862 --0,1533 0,1263
5 8 0,2353 1,882 0,176 0,0311 0,0073 0,0013 0,0002
6 9 0,0784 0,706 1,176 1,3841 0,1086 0,1277 0,1502
7 10 0,0392 0,392 2,176 4,7370 0,1858 0,4043 0,8800
8 11 0,098 1,078 3,176 10,0900 0,9892 3,1422 9,9811
9 12 0,0392 0,471 4,176 17,4429 0,6840 2,8569 11,9316
1 7,824
3,1649 3,9752 29,6450
Построить графики гисторграмм, полигонов и кумулятивных кривых; нанести на
графики оценки центров распределения (математические ожидания, моды,
медианы).
1.3. Сравнить результаты оценок параметров статистического распределения по пп.
1.1-1.2; отклонения параметров выразить в относительных процентах более
точного метода; построить совмещенный график кумулятивной кривой и
оценки интегральной функции распределения по результатам наблюдений
1.4. Подобрать нормализующее преобразование (логнормальное y=ln x,
трехпараметрическое логнормальное y=ln (x+ ) или др.), обосновав его
упрощенным методом и при помощи критерия согласия Пирсона
()
,
N
i
i
p
n'
n'
n
n'
−
=
=
∑
∑−
m
i
i
m
i
i
i
набл
N
2
2
2
1
где m - число интервалов, на которые разбивается область определения
исследуемой случайной величины; n'i - эмпирическая частота; ni , pi -
теоретические частота и вероятность попадания случайной величины в i -й
интервал.
1.5. Построить интервальные оценки математического ожидания Mx'--Δ <Mx< Mx'--
Δ с надежностью 67, 95 и 99%
n
x
k
,
TS
=±
Δ
,
где S x -- исправленное стандартное отклонение; Tα, k - критическая точка
распределения Стьюдента, соответствующая уровню значимости α = 1-- и
числу степеней свободы k = n--1.
1.6. Определить число наблюдений n, обеспечивающих заданную величиной
доверительного полуинтервала Δ погрешность оценки среднего содержания
Mx при соответствующей доверительной вероятности
ε
x
k
,
x
k
,
V
T
S
T
n
=
=Δ
,
для относительной погрешности оценки среднего содержания ε = 100 Δ /Mx :
а)10%, б)20%, в)30%.
2. Сравнить средние содержания меди (X) и цинка (Y) при помощи статистического
критерия
,
=
y
y
x
x
y
x
набл.
N
S
N
S
M
M
Z
2
2
+
−
где
,2
2y
xS
S - несмещенные оценки дисперсий.
3. Сравнить дисперсии содержаний меди (X) и цинка (Y) при помощи
статистического критерия Фишера
,
=2
2
2
1
S
S
Fнабл.
где
2
2
2
1S
S > - несмещенные оценки дисперсий.
4. Сравнить средние содержания меди (X) и цинка (Y) при помощи статистического
критерия Стьюдента
()()()
=
,
N
N
N
N
N
N
S
N
S
N
M
M
y
x
y
x
y
x
2
y
y
2
x
x
y
x
T
+
−
+
×
−
+
−
−
2
1
1
набл.
5. Сравнить распределения содержаний меди в основных (X) и контрольных (Y)
пробах при помощи статистического критерия
,
=
d
dS
N
M
Tнабл.
где ∑
=
N
ii
d
MN
1
d
- среднее значение отклонений di = xi -- yi случайных величин
XиY;
()
∑−
=
−
N
i
2
1
1
d
iM
d
SN
d
2
- несмещенная оценка дисперсии этих
отклонений.
6. Проверить гипотезу об однородности средних содержаний меди в 4-х группах
проб с номерами 1-10, 11-20, 21-30, 31-40 при помощи статистического критерия
()
,
∑−
=
m
0
i
i
набл
i
i
S
M
M
N
V
2
2
гдеNi,Mi,
2
i
S - число наблюдений в группах, групповые средние и
дисперсии; M0 = (N1M1 +N2M2 + ... +NmMm )/N - общее среднее, вычисленное с
учетом наблюдений в группах; N =N1 +N2+ ... +Nm - общее число наблюдений.
7. Сравнить статистические распределения содержаний меди и цинка при помощи
критерия согласия Пирсона
()
,
N
Ni
n"
n'
p"
p'
∑+
−
=
m
i
i
i
i
2
1
набл
2
2
где m - число сопоставляемых интервалов; N1 , N2 - число наблюдений в
группах; n'i , n"i - число наблюдений, попавших в i -й интервал в 1-й и во 2-й
группах; p'i =n'i /N1 , p"i =n"i /N2 - статистические вероятности попадания
наблюдений в i -й интервал.
8. При помощи критерия Вилкоксона проверить гипотезу об однородности средних
мощности и содержаний меди, цинка и серы в 2-х группах проб с номерами 1-
20, 21-40
9. При помощи критерия Сиджела-Тьюки сравнить дисперсии мощности и
содержаний меди, цинка и серы в 2-х группах проб с номерами 1-20, 21-40
10. Выполнить корреляционный анализ признаков
10.1. Построить корреляционные диаграммы для всех пар признаков, определить
форму и оценить силу корреляционных взаимосвязей
10.2. Вычислить коэффициенты корреляции Пирсона для всех возможных пар
признаков X-Y
]
)
(
[
]
)
(
[
2
2
1)
(
)
)(
(
∑
∑
∑
∑
∑
∑
∑
−
×
−
−
−
=
−
−
=∑
i
2
i
i
2
i
i
i
i
i
y
x
y
i
x
i
xy
y
y
N
x
x
N
y
x
y
x
N
S
S
N
M
y
M
x
R
10.3. Оценить значимость корреляционных взаимосвязей для всех возможных пар
признаков X-Y при помощи преобразования Фишера
xy
xy
1
1
ln
21R
R
набл.
−
+
=
Z
.
и преобразования Стьюдента
2
xy
xy
R
N
R
t
−
−
=1
2
набл.
.
10.4. Сформировать матрицу корреляций Пирсона, построить корреляционную
дендрограмму признаков.
10.5. Рассчитать коэфициенты частной корреляции 2-х признаков X и Y,
исключающие влияние признака Z, для всех возможных пар признаков в
системе «медь-цинк-сера»
()
()
2
yz
2
xz
yz
xz
xy
xy/z
R
R
R
R
R
r
−
−
−
=
1
1
.
10.6. Рассчитать коэфициенты множественной корреляции 2-х признаков,
характеризующие множественную (совокупную) связь влияние признака Z с 2-
мя признаками X и Y, для всех возможных пар признаков в системе «медь-
цинк-сера»
2
xy
xy
zy
zx
2
zy
2
zx
R
R
R
R
R
R
R
−
−
+
=
1
2
z/xy
.
10.7. Вычислить коэффициенты корреляции Спирмэна для всех возможных пар
признаков X-Y
N
N
d
3
xy
−
∑
−
=
2
i
6
1
ρ
,
где N - число парных наблюдений; di = rxi--ryi - разность между рангами
(порядковыми номерами) наблюдений в рядах xi и yi.
10.8. Оценить значимость коэффициентов корреляции Спирмэна для всех
возможных пар признаков X-Y при помощи преобразования Стьюдента
11. Выполнить регрессионный анализ признаков
11.1. На корреляционном поле для пар признаков «медь-сера» и «цинк-медь»
построить полигоны прямой и обратной эмпирической регрессии, определить
корреляционные отношение yx и xy, оценить статистическую значимость,
определить предельную статистически значимую величину корреляционного
отношения для прямой и обратной эмпирической регрессии.
11.2. Рассчитать уравнения линейной регрессии для пар признаков «медь-сера» и
«цинк-сера»
y =a+bx;
показать их графически на корреляционных диаграммах;
оценить значимость линейной регрессии при помощи критерия Фишера
()
2
сл
2
зак N
F
σ
−
σ
=
2
набл
.
где
2
∑−
=
σ
)
(
1
y
i
2
зак
M
f
N
- дисперсия закономерной изменчивости,
учитываемой линейной регрессией f i= a +bxi ;
∑Δ
=
σ
2
ι
N
2
сл1
- дисперсия остаточной (случайной) изменчивости Δi = yi -- f i
11.3. На корреляционном поле для пар признаков «медь-сера» и «цинк-медь»
определить коэффициенты линейных уравнений прямой, сопряженной
обратной и ортогональной регрессии; нанести все виды регрессионных линий
на корреляционные поля признаков; построить 95-%-е эллипсы рассеивания
корреляционных полей точек.
11.4. Для пар признаков «медь-сера» и «цинк-медь» определить коэффициенты
нелинейных моделей (25-28) - гиперболы, степенной, экспоненциальной,
логарифмической; на корреляционном поле построить их совмещенные
графики; оценить статистическую значимость.
11.5. Рассчитать уравнения квадратичной параболы 2-го порядка для пар признаков
«медь-сера» и «цинк-сера»
y =a+bx+cx2;
показать их графически на корреляционных диаграммах;
оценить значимость линейной регрессии при помощи критерия Фишера.
11.6. Для пар признаков «медь-сера» и «цинк-медь» определить нелинейную
корреляцию рассмотренных регрессионных моделей (линейная, квадратичная
парабола, гипербола, степенная, экспоненциальная, логарифмическая), оценить
ее статистическую значимость.
11.7. Рассчитать уравнение множественной линейной регрессии цинка (Z),
связанного с 2-мя признаками медь (X) и сера (Y)
z=a+bx+cy.
где a, b, c - коэффициенты регрессии, определяемые в соответствии с
выражением
y
x
z
2
xy
xy
zx
zy
y
z
2
xy
xy
zy
zx
x
z
cM
bM
M
a
;
c
;
b
R
R
R
R
R
R
R
R
−
−
=
=
=
−
−
σ
σ
−
−
σ
σ
1
1
.
12. Классификация данных
12.1. Определить показатели информативности мощности жилы M и содержаний
Cu, Zn, S при разделении результатов опробования кварц-галенитовая жилы
на 2 группы: A (пробы №№ 1-20) и B (пробы №№ 21-до конца)
2
0
i
i
i
b
a
Jσ
−
=
2)
(
где ai, bi - средние значения признака в группах; σ20 -- общая дисперсия.
12.2. Определить уравнение линейной дискриминантной функции (ЛДФ) для
разделения этих групп
x
x
x
D
m
1
k
x
∑=
=
+
+
+
=
ik
k
im
m
i2
2
i1
1
i
λ
λ
λ
λ
...
где xik - значение k-го признака для i-го объекта;λ1, λ 2
,...λm -
коэффициенты ЛДФ; Di - дискриминатор (дистанционный коэффициент).
Пороговое значение дискриминатора определяется при подстановке в
уравнение ЛДФ средних арифметических значений из центров групп
соответствующих признаков:
m
1
k
b
a
D∑=
+
=
2
)
(k
k
k
0
/
λ
Определить ошибку клаасификации результатов опробования на основе ЛДФ.
13. Анализ последовательностей данных (мощности кварц-галенитовой жилы и
содержаний меди и цинка в ней)
13.1. Выделить закономерную изменчивость (тренд):
а) в виде регресионного квадратичного тренда;
б) в виде регресионного кубического тренда;
в) способом скользящего среднего по 3 пробам;
г) способом двукратного сглаживания по 3 пробам (взвешенного скользящего
среднего по 5 пробам);
для каждой модели оценить долю закономерной изменчивости, отобразить ее
графически вместе с исходными данными, рассчитать и построить
гистограммы случайной изменчивости (остатков).
13.2. Рассчитать автокорреляционные функции, вариограммы и дрейф, отобразить
их графически вместе с исходными данными.
13.3. Рассчитать модели Фурье для неравномерно расположенных данны:
а) c 1 (основной) гармоникой;
б) c 2 гармониками;
отобразить их графически вместе с исходными данными.