Las técnicas de regresión lineal múltiple parten de k+1 variables cuantitativas: La variable respuesta (y) Las variables
Views 329 Downloads 4 File size 709KB
Las técnicas de regresión lineal múltiple parten de k+1 variables cuantitativas: La variable respuesta (y) Las variables explicativas (x1 ,…, xk) Y tratan de explicar la y mediante una función lineal de las x1 ,…, xk representada por:
y = β0 + β1x1 +…+ βkxk Debemos extender a k variables las ideas y técnicas de la regresión lineal simple
2007
Estadística; 3º CC. AA.
Modelo
2
Y = β0 + β1X1 +…+ βkXk + U
Muestra Aleatoria
X = matriz del diseño 2007
Estadística; 3º CC. AA.
3
1
Cuatro hipótesis comunes con la regresión lineal simple •Normalidad •Homocedasticidad •Linealidad •Independencia de las observaciones Es decir, {(X1i,X2i,…,Xki,Yi): i=1,2,…,n} son vectores aleatorios independientes
2007
Estadística; 3º CC. AA.
4
Y dos requisitos adicionales • n > k+1 El modelo depende de k+2 parámetros. Para que la regresión tenga sentido debemos tener un número suficiente de datos (evidentemente, en la regresión lineal simple, también necesitamos más de 2 datos para que tenga sentido ajustar una recta) • #inguna de las X es combinación lineal de las otras (no hay colinealidad) Si alguna de las Xi es combinación lineal exacta de algunas de las otras Xj, el modelo puede simplificarse con menos variables explicativas. También hay que tener cuidado si alguna de las X está fuertemente correlacionada con otras. 2007
Estadística; 3º CC. AA.
5
2
Datos y estimación de los parámetros Geométricamente, la nube de puntos ahora está en un espacio de dimensión k+1 ¡Difícil de visualizar para k>2!
X es la matriz del diseño, ahora con los datos; X´ es su traspuesta. Estimaciones:
donde: son los residuos 2007
Estadística; 3º CC. AA.
6
Ejemplo 1 Estimación del tamaño de Trilobites En la mayoría de las condiciones de preservación, es difícil encontrar ejemplares completos de Trilobites. La cabeza (cephalon) suelta es mucho más común. Por ello, es útil poder estimar el tamaño del cuerpo en función de medidas sobre la cabeza, estableciendo cuáles de ellas constituyen la mejor determinación del tamaño total. El siguiente ejemplo está tomado de: Norman MacLeod Keeper of Palaeontology, The Natural History Museum, London 2007
Estadística; 3º CC. AA.
7
3
Dibujos de Sam Gon III
2007
Estadística; 3º CC. AA.
8
2007
Estadística; 3º CC. AA.
9
4
y = β0 + β1x1 + β2x2
2007
Estadística; 3º CC. AA.
10
Intervalos de confianza
Error típico de la estimación de (desviación típica estimada de )
2007
Estadística; 3º CC. AA.
11
5
Contrastes de hipótesis
Rechazaremos H0 , al nivel α, si el cero no cae en el intervalo de confianza 1- α para βi. Lo que es equivalente al contraste de la t de Student para cada parámetro β i.
2007
Estadística; 3º CC. AA.
12
Estimación de la respuesta media de Y para los valores x10 ,…, xk0 de las variables explicativas
2007
Estadística; 3º CC. AA.
13
6
Predicción de un nuevo valor de Y dados los valores x10 ,…, xk0 de las variables explicativas
2007
Estadística; 3º CC. AA.
14
Ejemplo 1 Estimación del tamaño de Trilobites
Intercepción Gabella length Glabella width
2007
Coeficientes Error típico Estadístico t 3,9396 4,4531 0,8847 2,5664 0,8771 2,9259 0,9387 1,0730 0,8749
p-valor Inferior 95% Superior 95% 0,3887 -5,4558 13,3349 0,0094 0,7159 4,4170 0,3938 -1,3250 3,2025
Estadística; 3º CC. AA.
15
7
Análisis de la Varianza
Coeficiente de determinación 2007
Estadística; 3º CC. AA.
16
Tabla Anova
Rechazaremos H0 , al nivel α, si :
Relación entre F y R2
2007
Estadística; 3º CC. AA.
17
8
Ejemplo 1 Estimación del tamaño de Trilobites Regresión Residuos Total
Gr. de libertad Suma de cuadrados 2 5586'22 17 1177'70 19 6763'92
cuadrados medios 2793'11 69'28
Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R2 R2 ajustado Error típico Observaciones
F 40'32
Valor crítico de F 0'0000004
0'909 0'826 0'805 8'323 20
R2=0,83 2007
Estadística; 3º CC. AA.
18
Resumen de los contrastes
2007
Estadística; 3º CC. AA.
19
9
Ejemplo 2 Respiración de líquenes Se estudia la tasa de respiración (nmoles oxígeno g-1min-1) del liquen Parmelia saxatilis en crecimiento bajo puntos de goteo con un recubrimiento galvanizado. El agua que cae sobre el liquen contiene Zinc y Potasio que utilizaremos como variables explicativas. Los datos corresponden a: Wainwright (1993), J. Biol. Educ., 27(3), 201--204.
2007
Estadística; 3º CC. AA.
20
Respiration Rate
Potassium ppm
71
388
2414
53 55 48
258 292 205
10693 11682 12560
69
449
2464
84 21
331 114
2607 16205
Datos
Zinc ppm
68 580 2005 68 622 1825 Variable # MEA# MEDIA# TRMEA# STDEV SEMEA# RespRate 9 59.67
68.00
59.67
18.8
6.06
K ppm
9 359.9
331.0
359.9
168.1
56.0
Zn ppm
9 6939
2607
6939
5742
1914
2007
Estadística; 3º CC. AA.
21
10
Plano de regresión Tasa de respiración = β0 + β1Potasio + β2Zinc
* *
*
*
* * * * Datos *
2007
*
* * *
*
*
Estadística; 3º CC. AA.
22
Regresión de la tasa de respiración (RespRate) sobre el Potasio (K) y el Zinc (Zn). La ecuación de regresión estimada es: RespRate = 101 - 0.0403 K - 0.00388 Zn Predictor
Coef
Stdev
t-ratio
p
101.09
18.87
5.36
0.002
K ppm
-0.04034
0.03424
-1.18
0.283
Zn ppm
-0.00387
0.001002
-3.87
0.008
Constant
2007
Estadística; 3º CC. AA.
23
11
Análisis de la varianza (tabla A#OVA) Source
df
SS
MS
F
p
Regression
2
2243.3
1121.6
16.80
0.003
Error
6
400.7
66.8
Total
8
2644.0
2007
Estadística; 3º CC. AA.
24
ANÁLISIS DE VARIANZA (sólo Zn) gr. Libertad Suma de cuadrados cuadrados medios Regresión 1 2150,58 2150,58 Residuos 7 493,42 70,49 Total 8 2644 Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones
F
0,90 0,81 0,79 8,40 9
ANÁLISIS DE VARIANZA (sólo K) gr. Libertad Suma de cuadrados cuadrados medios Regresión 1 1244,51 1244,51 Residuos 7 1399,49 199,93 Total 8 2644 Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones
2007
Estadística; 3º CC. AA.
p-valor 30,51 0,00088423
F 6,22
p-valor 0,04
0,69 0,47 0,40 14,14 9
25
12
Extensiones: 1- interacciones Del análisis anterior concluiríamos que el Potasio (K) no es un importante predictor para la tasa de respiración del liquen (A pesar de que se sabe que es significativo en ausencia de Zinc) Sin embargo, el Análisis de la Varianza permite también estudiar interacciones entre las variables predictoras. Por ejemplo, podemos definir la interacción creando una nueva variable resultante de multiplicar K por Zn (la nueva variable es K*Zn). Los resultados de una regresión multilineal con predictores K, Zn, K*Zn son
Intercepción K Zn K*Zn
Coeficientes Error típico Estadístico t Probabilidad 106,07 10,32 10,28 0,00015 -0,0678 0,020 -3,41 0,01898 -0,005999 0,00077 -7,81 0,00055 0,00001118 2,85E-06 3,92 0,01120
2007
Estadística; 3º CC. AA.
26
Tabla ANOVA ANÁLISIS DE VARIANZA Grados de libertad Regresión Residuos Total
2007
Promedio de Suma de los cuadrados cuadrados 3 2545,6 848,52 5 98,4 19,69 8 2644,0
Estadística; 3º CC. AA.
F
Valor crítico de F 43,10 0,00054
27
13
Al poner el producto de las dos variables como tercer predictor no tenemos un plano sino una superficie curva. Tasa de respiración = β0 + β1Potasio + β2Zinc +β β3 Potasio x Zinc
Ejercicio: comentar y criticar este ejemplo
2007
Estadística; 3º CC. AA.
28
Extensiones: 2-regresión no lineal El océano, que cubre el 70% de la superficie terrestre y tiene una permanente interacción con la atmósfera, juega un papel fundamental en el equilibrio global. Para identificar y comprender los vínculos (pasados, presentes y futuros) del océano con el clima es importante entender el comportamiento de los ciclos nutrientes y el carbono marino. La transferencia de carbono desde la superficie del océano a las aguas profundas puede tener una influencia importante en los niveles atmosféricos de CO2 a largo plazo. La siguiente diapositiva muestra un ejemplo de regresión no lineal del flujo de carbono hacia las profundidades marinas con la correspondiente profundidad del agua y la producción primaria de carbono en la superficie. Los datos provienen de: AWI Foundation for polar and marine research Schlüter M., Sauter E. J., Schäfer A., and Ritzrau W. (2000) Spatial budget of organic carbon flux to the seafloor of the northern #orth Atlantic (60°# - 80°#). Global Biogeochemical Cycles 14(1), 329-340. 2007
Estadística; 3º CC. AA.
29
14
¿podemos convertirlo en una relación lineal? 2007
Estadística; 3º CC. AA.
30
Ejemplo 3 Predicción de estados tormentosos en Florida Experimental forecasting of dry season storminess over Florida and the southeast United States from the ENSO (niño-southern oscillation) signal using multiple linear regression techniques. Bartlett C. Hagemeyer, National Weather Service, Melbourne, Florida Rebecca A. Almeida, Florida Institute of Technology, Melbourne, Florida
13th Symposium on Global Change and Climate Variations and 16th Conference on Probability and Statistics in the Atmospheric Sciences. American Meteorological Society.
El objetivo del estudio es predecir, con la mayor anticipación posible, la aparición de temporales en Florida durante la estación seca. Para ello se propone utilizar los valores del índice #iño 3.4 proporcionados por el Centro de Predicción del Clima.
2007
Estadística; 3º CC. AA.
31
15
Las regiones del #IÑO
El índice #iño 3.4 representa la temperatura anómala de la superficie marina (en grados centígrados) sobre la región limitada por 120°O-170°O y 5°S- 5°#.
2007
Estadística; 3º CC. AA.
32
Se encontró que el índice #iño 3.4 podía ser un indicador significativo de anomalías en el nivel de la presión media marina y estados tormentosos en la estación seca en Florida. Entre otros resultados, el mejor pronóstico de temporales basado en dos índices #iño 3-4 resulta de los índices de septiembre y enero. Septiembre es el indicador principal de tormentas en noviembre y diciembre y enero confirma la tendencia durante la estación seca (Más detalles en www.srh.noaa.gov/mlb/enso/mlb-16thstats.htm)
Storminess (#ov-Apr) = β0 + βSep(#ino3.4Sep)+ βJan(#ino3.4Jan) R= 0.74 F significativo al nivel 0,01 y los contrastes de la t al nivel 0,005
2007
Estadística; 3º CC. AA.
33
16