Tratamiento estadistico

PG8: TRATAMIENTO ESTADISTICO DE DATOS GEOQUÍMICOS Preparado: Miguel Calcina B. Fuente: Levinson, Keith Kenyon, Landin, H

Views 155 Downloads 21 File size 3MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

PG8: TRATAMIENTO ESTADISTICO DE DATOS GEOQUÍMICOS Preparado: Miguel Calcina B. Fuente: Levinson, Keith Kenyon, Landin, Howart.

Introducción El proceso de interpretación final casi siempre involucra la puesta en práctica de algunos procedimientos estadísticos y/o gráficos siempre en cuando los estudios de orientación han sido incapaces definir todos los criterios interpretativos con una precisión suficiente. Su selección y secuencia de aplicación en un estudio geoquímica serán influenciadas por la naturaleza del estudio tanto como la filosofía de la interpretación aceptada.

Este proceso es enormemente facilitado si el conjunto de datos son primeramente desagregados en sus grupos de componente naturales. Las computadoras personales actualmente son económicas y los paquetes de software son disponibles (por ejemplo., Estadística, Surfer, ARC GIS, Map Info) permiten que a esto sea llevado rápidamente y eficientemente (Lloyd, 1998).

SOFTWARE ESTADISTICA – Excel, Minitab, SPSS – Distribución de datos bien organizado – Base de datos de gran capacidad SAS – PROGRAMABLE y MUY POTENTE MAPEO ARC VIEW, ARC MAP, ARC GIS MAP INFO GEOSOFT, OASIS, MONTAGE – Con aplicaciones de estadistica

ANALISIS ESTADISTICO La aplicación efectiva de procedimiento estadístico a los datos geoquímicos es dependiente sobre el programa correcto, y propone la aplicación apropiada del muestreo y las fases analíticas. El tratamiento estadístico avanzado de un conjunto de datos podría ser un ejercicio insulso cuando la representatividad y calidad es inadecuado. Sin embargo, con tal de que sus limitaciones se aprecien totalmente, las técnicas estadísticas constituyen herramientas útiles y a menudo poderosas para el análisis de datos geoquímicos

Desafortunadamente, los procedimientos estadísticos son aplicados de una manera indistinta sin entender los principios subyacentes o de la conducta de los elementos de interés dentro del ambiente geológico y geoquímico. Como lo nombrado por Sinclair, (1987) “intentar llevar a cabo una evaluación ciega de datos sometiéndolo a cualquier número creciente de paquetes de software y esperar que una computadora haga nuestro pensamiento para nosotros está patentemente equivocado.... ". Los modelos estadísticos siempre deben reflejar realidades geológicas y geoquímicas.

Análisis Estadístico Univariante Gran parte de la estadística aplicada tiene que ver con la organización, presentación y resumen de los datos. La primera fase de la interpretación geoquímica consiste en condensar grandes cantidades de datos numéricos y extraer de ellos la información esencial.

Por lo tanto, desagregar la población de datos es a menudo esencial antes e incluso de los procedimientos estadísticos simples sean aplicados. Métodos de conseguir esta inclusión: – Identificación y separación del componente poblacional relacionado para diferentes tipos de roca, ambientes geoquímicos, etc; – Retirar outliers (valores extremadamente altos o bajos distintos de las poblaciones principales). Esto puede ser conseguido usando uno de los métodos gráficos simples descritos en la siguiente sección.

Parámetros Estadísticos Algunos parámetros usados comúnmente que describen la tendencia central, y ayudan a definir poblaciones geoquímicas incluyen: Media aritmética (X) = X1, X2, X3…. Xn

Media Geométrica Y= x1, x2, x3… xn

Mediana = valor central n valores que divide en dos grupos de = n Si med y prom. Arit/Geom = entonces la distribución es Normal/Log-normal. Moda conj X1,X2,X3…xn , es el que ocurre con mayor frecuencia Vmax, Vmin . “La Media geométrica es un estadígrafo que no se deja influenciar mucho por los altos o bajos erráticos, por lo tanto es mucho más representativo de la población examinada”

¿Porqué usar “n-1” y no “ n”? Bien la respuesta es algo complicada, pero en general si su grupo de datos es una muestra del universo, entonces Ud. Están tomando un sub grupo del mundo real, entonces debe utilizar “n-1” – – – – – –

Medidas de dispersion: Rango, x1,x2,x3…xn = Vmax –Vmin Varianza (S2) x1,x2,x3…xn = Desviación Estandar squard S2 Percentiles (P10/P90, P50) Cuartiles (Q25,Q75) =Q75-Q25, sirve relieve geoquímico Coef. Variación= Construir relaciones bivariantes (Correlaciones). Histogramas

s cv 100% x

C.V = “Es más homogénea o presenta menos discrepancia aquella distribución que tiene el menor coeficiente de variación”

MEDIANA Es el valor de la variable que divide el total de las “n” observaciones debidamente ordenadas en dos parte de igual tamaño. Esto significa que a uno o al otro lado de este valor mediano se encuentra no más del 50% del total de las observaciones. 2 CASOS: • IMPARES.- La mediana es igual al valor del término central. 4, 1, 4, 8, 5, 6, 9

n=7

1, 4, 4, 5, 6, 8, 9

n + 1 /2 = 4

• PARES.- La mediana es igual al promedio de los dos valores del centro 323, 425, 428, 432, 440, 445, 500, 510 n + 1 /2 = 4.5 432 + 440 /2 = 436.

MODA Es simplemente el valor más frecuente de una variable. • 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 13 -------- 9 • 3, 5, 8, 10, 12, 16, 18 ----- no hay • 2, 3, 4, 4 , 4, 5, 5, 7, 7, 7, 9 ------- 4 y 7 Datos agrupados: # personas por familia

# de familias

Y1 = 2

N1 = 16

Y2 = 3

N2 = 24

Y3 = 4

N3 = 52

Y4 = 5

N4 = 76

Y5 = 6

N5 = 40

Y6 = 7

N6 = 12

LA VARIANZA (es una alternativa para medir la dispersión) Con la perspectiva de construir un indicador que dimensione la desviación o distancia promedio de los Xi respecto a su media, se propuso elevar al cuadrado su desviación, a fin de que no sea siempre negativa. 2 Varianza

x x

n 1

Si los valores están muy concentrados las desviaciones respecto a la media serán muy pequeños y en consecuencia también sus cuadrados, se evita que las desviaciones positivas se compensen con las negativas “PERO DESDE ESTE PUNTO DE VISTA, LA VARIANZA TIENDE A EXAGERAR LOS VERDADEROS VALORES RESPECTO A LA MEDIA” “BAJO ESTA ALTERNATIVA PARA MEDIR LA DISPERSIÓN Y QUE AMORTIGUE DICHO EFECTO ES LA DESVIACIÓN ESTÁNDAR”

DESVIACIÓN ESTÁNDAR La desviación estándar o típica se define como la raíz cuadrada de la varianza. Desviación Estándar

NOTA: ¿Porqué usar “n-1” y no “ n”? Bien la respuesta es algo complicada, pero en general si su grupo de datos es una muestra del universo, entonces Ud. Están tomando un sub grupo del mundo real, entonces debe utilizar “n-1”

EJEMPLO DE DISPERSIÓN Grupo 1: X

X–X

(X – X)2

0

-10

100

8

-2

4

12

2

4

20

10

100 208 / n – 1 = (69.33)1/2 = 8.3 (DESV. ESTÁNDAR)

Grupo 2: X

X–X

(X – X)2

8

-2

4

9

-1

1

11

1

1

12

2

4 10/ n – 1 = (3.33)1/2 = 1.8257 (DESV. ESTÁNDAR)

COEFICIENTE DE VARIACIÓN C.V. = DESV. ESTÁNDAR/ MEDIA ARITMÉTICA Se expresa en términos porcentuales. “Es más homogénea o presenta menos discrepancia aquella distribución que tiene el menor coeficiente de variación” “Una distribución puede considerarse como Gaussiana si el coeficiente de variación es menos a 0.5, en caso contrario indicaría un carácter log – normal.”

CUARTILES.Los cuartiles son estadígrafos de posición que dividen al total de las observaciones, debidamente ordenadas en cuatro partes de igual tamaño. Valor mínimo. • Q1 = n/4 ----- el 25% de las observaciones tienen valores inferiores o iguales a Q1 y el 75% es > a Q1. • Q2 = n/2 = mediana • Q3 = 3n/4 = es un valor que supera a más del 75% y que es superado por no más del 25%. Valor máximo.

PERCENTILES.Los percentiles son estadígrafos de posición que dividen al totalidad de las observaciones en 100 partes iguales, es un estádígrafo que dá una idea porcentual de las distribución de los datos. Es uno de los estadígrafos más utilizados RANGO INTERCUARTÍLICO.(Q3 – Q1) ----- 50% De la misma forma, que como alternativa a la media, la mediana es una mediad de la tendencia central basada en percentiles. El RI puede considerarse como una alternativa de la desviación típica para calcular la dispersión de los elementos.

CORRELACIÓN.Trata de encontrar variables que estén relacionadas o asociadas entre sí, existen muchas variables, es especial cuantitativas que dependen en algún grado de otras; entonces es posible que una variable pueda estar correlacionada matemáticamente en función de la otra. • Correlación Positiva.- Cuando el incremento en una variable , significa el incremento en la otra. • Correlación Negativa.- Cuando el incremento en una variable, significa la disminución en la otra. Hay dos formas de representar la correlación: • Numérica .- (Coeficiente de Pearson) • Gráfica .- (Nube de puntos)

COEFICIENTES DE LA FORMA DE LA DISTRIBUCIÓN CURTOSIS.Es una medida de la concentración de la distribución entorno a la media, si la variable es normal el valor del coeficiente es cero. Valores mayores que cero indicarán que la distribución tiende a concentrarse entorno a la media más que una distribución normal, mientras que valores menores que cero indicarán que tienden a desplazarse. SESGO.Es una medida de la simetría de la distribución de los valores respecto a la media. Valores mayores que cero indicarán que las desviaciones respecto a la media son mayores para los valores superiores (sesgo positivo), mientras que valores menores que cero indicarán que las desviaciones respecto a la media son mayores para los valores inferiores. (sesgo negativo)

Histograma con sesgo Positivo debido a valores altos.

Histograma con sesgo negativo debido a valore bajos

Presentación de Gráficos Una vez iniciada la discriminación se logro en base a las características geológicas y geomorfológicas, los gráficos presentados como: histogramas de distribución de frecuencia, los box-plots y gráfico de probabilidad pueden adelantar el proceso de reconocimiento de población y delineación de outlier.

Proporciona una distribución de la variable.

BOX – PLOT (Caja de Bigotes)

• Los límites superior e inferior de la caja corresponden a los cuartiles tercero y primero (percentil 75 y 25)respectivamente, en consecuencia la altura de la caja coincide con el rango intercuartílico (RI). • La línea horizontal dentro de la caja corresponde al segundo cuartil Q2 (mediana).

• Los bigotes inferior y superior al mínimo y máximo valor , tal que su distancias a los límites superior e inferior respectivamente de la caja es inferior a una vez el RI. • En el caso de que un valor diste de los límites inferior y superior de la caja más de 1.5 veces el RI, el valor se le denomina fuera de rango y se le representa por el símbolo “O” y por “X” si los valores son superiores a tres veces la longitud de la caja o RI, llamados valores extremos.

Valores extremos Valores observados

RECTA DE HENRY

Si los puntos obtenidos están alineados podemos decir que la distribución estudiada se aproxima a una distribución normal

Además de indicarnos la normalidad del comportamiento de las muestras nos indican al igual que los gráficos anteriores los valores extremos que podrían ser observados en el tratamiento estadístico

Valor extremo

Distribución de frecuencias por histogramas Los histogramas de frecuencia pueden ser fácilmente construidos con software auxiliado por computadora o manualmente. Estos muestran la frecuencia de valores en clases sucesivas (i.e. especificar rangos de concentración aritméticos o logarítmicos). Los intervalos generalmente se seleccionan de 10 a 20 clases que cubren todo el conjunto de datos.

HISTOGRAMAS.Tratan de dividir el conjunto de datos en una serie de intervalos y representarlos bajo la forma de un histograma de frecuencias, la similitud con una curva Gaussiana, puede inducir que esta tiene un comportamiento normal.

Curva Gaussiana

Como construir histogramas de frec. Ordenar los datos en forma ascendente o descendente Calcular el rango o amplitud de frecuencias, contando para ello con valores máximos y mínimos. R=A= (Lim Sup – Lim Inf.) Calcular el número de intérvalos de clase (K), no existe una regla general en cuanto al número óptimo de clases (K), sin embargo existen técnicas que permiten determinar para n observaciones Ej. Ley de Sturges, K= 1+3,32 log (n). La de Dixon & Kronwell, K= 10 log (n). Calcular el ancho o amplitud de cada clase, C= R/K. Definir los límites de cada clase, para esto se suma el intervalo de clase al menor valor observado. Contar la cantidad de observaciones que caen dentro de cada intervalo y tabular los resultados. A partir de los histogramas, son construidos las curvas o polígonos de frecuencia, existen una diversidad de curvas

Distribución Normal Típica (Estándar). La Distribución Normal o Gausiana es caracterizada por una perfecta simetría y una disposición en forma de seno, está definida por la siguiente formula: Donde: y= es la altura de la curva, = promedio aritmético, x= es cualquiera dato medido, y 2 es la varianza de la población.

y

1 e 2

1/ 2 x x

2

/

2

Gráfico de Probabilidad Acumuladas Particularmente la información útil sobre la distribución estadística de datos con una distribución normal o lognormal se muestra por gráfico de probabilidad acumulativa. En estos gráficos la ordenada es aritmética o logarítmica y en la abcisa la escala de probabilidad el cual es colocado para una distribución normal o lognormal acumulativo, en el cual se graficará como una línea recta. Éstos gráficos pueden crearse manualmente (Sinclair, 1987) o con un programa de computador conveniente (ej, PROBPLOT como lo descrito por Sinclair, 1987).

Cuando es creado manualmente se traza con datos agrupados para los propósitos de construcción del histograma (de valores altos para bajos o viceversa) y se traza directamente en el papel de probabilidad. Los gráficos de probabilidad pueden indicar una delineación efectiva de las poblaciones múltiples. Por ejemplo, una mezcla de dos poblaciones normales distintas aparece como dos segmentos casi rectos separados por segmentos encorvados que contienen un punto de la inflexión

Diagramas Bivariates Los diagramas bivariantes simples también pueden ayudar a veces definir la importancia de los outlier. Esta aproximación ha proporcionado en ocasiones a la exploración una guía de igual o mayor valor que los complejos parámetros estadísticos multivariados. Por ejemplo, en los casos dónde el umbral anómalo (o nivel de la inspección) puede ser una función de otra variable (debido a la adsorción por Fe y/o Mn) un procedimiento de la regresión puede ayuda en el reconocimiento de muestras verdaderamente anómalas (Garrett, 1991).

Correlación La muestra del coeficiente de correlación r, mide el grado de la asociación linear entre dos variables (el grado en la cual una variable cambia con otra). Una correlación positiva indica que ambas variables tienden a incrementarse juntas. Una correlación negativa indica que una variable se incrementa, y la otra decrece.

Correlación de Pearson Se calcula la correlación de Pearson en cada población a escala logarítmica, con el fin de determinar la relación que existe entre par de elementos, considerando en la interpretación los que muestran rasgos fuertes a muy fuertes El coeficiente de la correlación de la muestra (r) es calculado por la fórmula:

EL COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON El Coeficiente de Correlación Lineal de Pearson es un índice estadístico que permite medir la fuerza de la relación lineal entre dos variables. Su resultado es un valor que fluctúa entre –1 (correlación perfecta de sentido negativo) y +1 (correlación perfecta de sentido positivo). Cuanto más cercanos al 0 sean los valores, indican una mayor debilidad de la relación o incluso ausencia de correlación entre las dos variables.

Su cálculo se basa en la expresión:

ANÁLISIS ESTADISTICO DE DATOS MULTIELEMENTALES

SECUENCIA DE INTERPRETACION 1. 2. 3. 4. 5. 6. 7. 8.

ANÁLISIS UNIVARIATE RELACIONES BIVARIATE Y CORRELACIONES GRAFICOS SCATTER PLOTS, BOX PLOTS, HISTOGRAMAS ANALISIS COMPONENTES PRINCIPALES (PCA) ANALISIS DISCRIMINANTE Y PETROLOGIA ANALISIS DISCRIMINANTE CANONICAL ANALISIS CLUSTER PROBABILIDAD

EJEMPLOS DE PRESENTACION DE DATOS 1.

1. 2.

Un esboso de análisis UNIVARIANTE Medidas de tendencia central: Promedio (arit-geom), Mediana, Vmax, Vmin. Medidas de dispersion: Rango, Varianza, Sd, percentiles (P10/P90, P50), cuartiles (Q25,Q75) Construir relaciones BIVARIANTES (Correlaciones). Histogramas

PRESENTACION DE DATOS LITOGEOQUIMICOS ESTADISTICA UNIVARIANTE - ESTUDIO ORIENTACION ELEMENT

Valid N Mean Median Minimum Maximum Lower Upper Percentile Percentile Range Std.Dev. Skewness COEFF. Quartile Quartile 90 98 VAR. As_ms61 1388 100.0 31.4 1.2 1470.0 11.0 93.4 249.0 782.0 1468.8 185.2 3.5 185.3 Ba_ms81 1389 2429.9 1430.0 0.3 20000.0 1120.0 2010.0 3910.0 20000.0 19999.8 3771.9 3.9 155.2 BaO_MS81% 1389 0.4 0.2 0.0 19.5 0.2 0.3 0.5 2.3 19.5 1.0 11.1 272.4 Bi_ms61 1388 1.0 0.6 0.0 54.4 0.3 0.9 1.9 5.6 54.4 2.0 15.4 208.0 CaO_ms81% 1389 1.0 0.4 0.0 33.6 0.1 1.2 2.4 5.5 33.6 1.8 7.3 186.4 Co_ms61 1388 7.8 7.2 0.2 66.9 2.6 10.1 14.6 26.2 66.7 7.0 2.6 90.1 Co_ms81 1389 7.8 6.5 0.3 568.0 2.5 10.0 14.0 28.0 567.8 16.6 28.1 212.0 Cr2O3_ms81% 1389 0.0 0.0 0.0 0.1 0.0 0.0 0.0 0.0 0.1 0.0 9.5 83.3 Cu_ms61 1388 34.8 25.0 0.1 927.0 16.4 34.6 58.2 142.5 926.9 53.2 9.1 152.8 Fe2O3_ms81% 1389 4.2 4.2 0.6 16.5 3.1 4.9 5.9 8.3 15.9 1.6 1.6 36.9 Hg_ppb 1389 398.7 40.0 0.5 96900.0 10.0 180.0 530.0 3320.0 96899.5 2959.6 26.5 742.2 K2O_ms81% 1389 10.4 10.9 0.2 16.1 7.8 13.1 13.9 14.8 15.9 3.0 -0.4 28.7 Nb_ms61 1388 88.6 84.1 1.1 228.0 64.7 110.0 141.0 188.5 226.9 38.8 0.5 43.8 Nb_ms81 1389 93.0 90.0 0.5 285.0 78.0 103.0 119.0 167.0 284.5 27.3 1.4 29.3 Pb_ms61 1388 132.0 46.0 6.5 3140.0 30.5 117.0 345.0 870.0 3133.5 233.8 4.7 177.1 Pb_ms81 1389 109.9 40.0 2.5 2130.0 25.0 100.0 280.0 750.0 2127.5 187.4 4.1 170.5 Sn_ms61 1388 1.0 1.0 0.1 7.2 0.8 1.2 1.4 2.0 7.1 0.4 4.3 39.0 Sn_ms81 1389 3.6 1.0 0.5 2420.0 1.0 2.0 4.0 7.0 2419.5 65.0 37.1 1793.8 TiO2_ms81% 1389 0.7 0.7 0.0 1.6 0.5 0.8 1.0 1.2 1.6 0.2 0.1 34.3 Zn_ms61 1388 215.4 118.0 12.0 7200.0 78.0 184.0 426.0 1245.0 7188.0 381.2 7.9 176.9 Zr_ms81 1389 427.9 390.0 18.5 2230.0 340.0 440.0 672.0 916.0 2211.5 172.0 2.7 40.2

4 Acid digest vs. Li Metaborate Fusion

THE OXIDATION STATE OF IRON REPORTED AS •Fe2O3 •FeO •Fe

Fe2+, Fe3+ Mg2+, Co2+ ,Ni2+

SULPHIDE MINERALS) BIOTITE CHLORITE MAGNETITE ANKERITE Fe2+

Normal P-Plot: vanadium (ppm) 6 V_PPM: N = 1111, Mean = 42.55, StdDv = 38.61, Max = 275, Min = 0.5

5

3 2

Rock Chip Geochemistry Histogram (All Rocks Outcrop Rockchips) )

1 0 No of obs

Expected Normal Value

4

-1 Mean = 42.55

-2 -3

500

45%

450

41%

400

36%

350

32%

300

27%

250

23%

200

18%

150

14%

100

9%

50

5%

0 0.50

55.40 27.95

110.30 82.85

165.20 137.75

0% 275.00

220.10 192.65

247.55

V_PPM

-4 0

20

40

60

80

100

120 140 160 Value

180 200

220 240 260

280 300

MATRIS ESCATER PLOTS CRIPPLE CREEK GEOCHEMISTRY 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

Area: Cresson Pipe

0.4

0.6

0.8

1.0

0.0

0.2

Area: Ironclad

0.4

0.6

0.8

1.0

0.0

0.2

Area: Ajax-Capt'n Stopes

0.4

0.6

0.8

1.0

0.8

1.0

Area: Blue Bird

1.8 1.6 1.4

TiO2 (%)

1.2 1.0 0.8 0.6 0.4 0.2 0.0 0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

Area: Cresson Pit

0.4

0.6

0.8

1.0

0.0

0.2

Area: Last Dollar-OM

0.4

0.6

0.8

1.0

Area: Captain Stopes

1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.2

0.4

0.6

Area: Grassy Valley

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

0.0

Area: Mineral Hill

0.2

0.4

0.6

Area: Vindicator

P2O5 (%)

0.2

0.4

0.6

Area: Globe Hill

1.8

0.0 0.0

0.0

0.8

1.0

Fuente: Kenyon

EJEMPLOS DE ESTADISTICA MULTIVARIATE 1. 2. 3. 4.

ANALISIS DISCRIMINANTE ANALISIS COMPONETES PRINCIPALES ANALISIS DISCRIMINANTE CANONICAL ANALISIS CLUSTER

ANALISIS ESTADISTICO DE DATOS MULTIELEMENTALES

SECUENCIA DE INTERPRETACION

1. 2. 3. 4. 5. 6. 7. 8. 9.

ANALISIS UNIVARIATE RELACIONES Y CORRELACIONES BIVARIATES GRAFDICOS DE SCATTER, BOX Y BIGOTES PLOTS, HISTOGRAMAS. ANALISIS COMPONETES PRINCIPALES (PCA) SELECCION DE ELEMENTOS STEPWISE ANALISIS DISCRIMINATE Y PETROLOGIA ANALISIS DISCRIMINANTE POR CANONICA ANALISIS CLUSTER (WARD). ITERACION DE ANALISIS CLUSTER CHEQUEO POR ANALISIS DISCRIMINANTE (POST POSTERIOR PROBABILIDAD)

ANALISIS DE COMPONENTES PRINCIPALES UN RESUMEN DE LA VARIANZA TOTAL DE LA MUESTRA

ANALISIS MULTIVARIANTE Análisis Discriminante Canonical Análisis discriminante Canonical es una técnica usado para reducir el tamaño. Da una variable de clasificación y varios intervalos de variables, análisis discriminant canonical deriva de variables canonical que resume la variación entre clases. Los variables tienen un aproximado DISTRIBUCION NORMAL multivariate

ANALISIS CLUSTER Permite explorar semilaridades entre individuos (muestras) Modo-Q, o entre variables (modo-R) definiéndolo en grupos. Análisis por agrupamiento jerarquizado; se obtiene de “n” lineas = muestras y “p” columnas = varaiables. Usando un coeficiente de similaridad cualquiera entre líneas se obtiene una matriz [nxn] utilizada en el Modo – Q. Si la comparación es entre columnas se obtendrá una matriz inicial de [pxp]. En la matriz inicial de coeficientes de similaridad estes presentan el grado o semejanza entre pares de objetos y los mismos deverán ser ordenados de acuerdo con lo grados de similaridad (0 - 1), de modo que quedan agrupados según una disposición jerarquizada.

Granito Itaoca

Similarity

56.38

70.92

85.46

100.00

SiO2

TiO2

MgO

CaO

P2O5 FeO Fe2O3 K2O Variables

MnO Na2O Al2O3

Stream sediment Dendrograma Stream Sediment Single Linkage, Euclidean Distance

Similarity

29.80

53.20

76.60

100.00

1 11 2 19 8

6

7 14 17 20 21 4

5 18 9 12 10 3 24 25 13 16 15 22 23

Observaciones - casos

- Casos

Coeficientes de similaridad 1. Coeficiente de distancia: expresa el grado de semilaridad con la distancia en un espacio multidimensional, si las variables tiene el mismo peso, la función distancia será limitada a valores entre 0 (mayor similaridad) y 1 (menor similaridad). 2. Coeficiente de Correlación: mide el grado de asociación entre valores por la representación de puntos en un sistema de coordenadas y sus respectivas posiciones en relación a una línea recta. Se considera el ceoficiente de correlación paramétrica (Pearson) y no paramétrica (Sperman). Coeficiente coseno-teta: medida de proporcionalidad que expresa el grado de similaridad en terminos de separación angular (p, q) valores comparados.

CORRELACIONES PEARSON (PRODUCTO-MOMENTO) SPEARMAN (RANK-ORDER)

Análisis de Componentes Principales (CPA) Es una transformación linear de “m” variables originales en “m” nuevas valores, es el calculo de los autovalores y sus correspondientes autovectores de una matriz de varianzacovarianza. El CPA es un método factorial que intenta identificar variables subyacentes o factores, que expliquen la configuración de correlación dentro de un conjunto de variables observadas, de carácter numérico para todos ellos..

ACP Loading Plot of Zn, ..., Pb Pb

0.9

Mn Fe(%x100)

0.8

Second Factor

0.7 0.6 0.5 0.4 C dppm

0.3 0.2

Zn

0.1 0.0

Cu

0.0

0.2

0.4 0.6 First Factor

0.8

1.0

Score Plot of Zn, ..., Pb 4

Second Factor

3

2

1

0

-1 0

1

2 First Factor

3

4

ANOMALIAS GEOQUIMICAS La distribución geoquímica de los elementos en los diferentes materiales geológicos depende de las condiciones y eventos que ocurren en rocas, suelos, agua. Mientras no ocurran eventos mineralizantes, estos materiales van a mantener los niveles de abundancia normales (fondo, background) y en el otro caso, la distribución de los elementos será diferente a la abundancia normal, esto es mayor o menor y estaremos ante la presencia de anomalías geoquímicas.

VALOR DE FONDO –BACKGROUNDSu determinación se realiza por evaluaciones estadísticas y comparándolo con los valores referenciales calculados para diferentes tipos de materiales naturales en la Tierra. Además el ploteo de los valores de los elementos con sus coordenadas nos permite realizar un análisis de los elementos en los denominados patrones de dispersión.

Valor de fondo –BackgroundTodo conjunto de datos puede contener dos componentes: 1.- Valores promedio de abundancia normal o background 2.- Valores anómalos. Además, para cada elemento analizado, el promedio o valor background y su fluctuación alrededor de este valor (desviación estándar) deben ser calculados para determinar cuales valores son normales y cuales anómalos, que pueden estar relacionados a mineralización. Frecuentemente los valores de los elementos trazas son distribuidos lognormalmente; esto es, el logaritmo del contenido de los elementos trazas forma una distribución gaussiana ”forma de campana” en un histograma.

AJUSTE A UNA DISTRIBUCIÓN LOGNORMAL En prospección geoquímica, estudiamos el contenido de elementos trazas en varios materiales naturales, y decir que los valores son distribuidos en forma lognormal significa que los logaritmos de estos valores son distribuidos siguiendo una ley normal (o ley de Gauss) bien conocida como la curva con forma de campana.

Histogramas y curvas de frecuencia acumulada

UMBRAL GEOQUIMICO -THRESHOLD Estadísticamente es el límite superior de las fluctuaciones del background. Los valores iguales o mayores al threshold son considerados anómalos. Ajuste al comportamiento lognormal es generalmente el caso de muestras de suelos, fragmentos de rocas, sedimentos de drenajes, etc.

Cálculo del umbral o Threshold Ha sido observado que en caso de una distribución simétrica (normal o lognormal), 95% de los valores individuales están entre Media+2DS, es decir que solamente el 2.5% de la población excede el límite superior Media+2DS. Este límite superior es tomado convencionalmente como el threshold (Th), encima del cual los valores son considerados como anómalos.

CLASES – FREC.

Distribuciòn Log Au

1

1.20-1.30

16

60

1.30-1.40

33

50

1.40-1.50

50

1.50-1.60

50

1.60-1.70

36

1.70-1.80

9

1.80-1.90

6

1.90-2.00

5

2.00-2.10

4

2.10-2.20

10

2.20-2.30

8

2.30-2.40

5

2.40-2.50

4

2.50-2.60

2

2.60-2.70

0

2.70-2.80

1

40 30 20 10

2.70-2.80

2.50-2.60

2.30-2.40

2.10-2.20

1.90-2.00

1.70-1.80

1.50-1.60

1.30-1.40

0 1.1 -1.20

Frecuencias

1.1 -1.20

Intervalos de clases

Background

Anomalías

Anomalia Geoquímica Anomalias geoquimica Anomalía.- Teóricamente son valores alejados al background debido al aumento de la concentración en uno o más elementos; por lo tanto Anomalía geoquímica es una desviación de los valores geoquímicos que son normales para una región., por lo tanto una yacimiento es una anomalía Anomalía significativa, son usados como guías en la prospección debido a su relación con la mineralización, se determina con métodos estadisticos. Anomalía no significativa no tiene relación con la mineralización natural, puede ser por la actividad industrial o contaminación antropógena.

Rangos de Anomalia. T — 2T: Débilmente anómalos 2T – 3T: Moderadament e anómalos >3T: Fuertemente anómalos Fig: Anomalía, threshold regional y local, dispersión primaria. Fuente: Levinson (1980).