Regresion Multiple

Las técnicas de regresión lineal múltiple parten de k+1 variables cuantitativas: La variable respuesta (y) Las variables

Views 329 Downloads 4 File size 709KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Las técnicas de regresión lineal múltiple parten de k+1 variables cuantitativas: La variable respuesta (y) Las variables explicativas (x1 ,…, xk) Y tratan de explicar la y mediante una función lineal de las x1 ,…, xk representada por:

y = β0 + β1x1 +…+ βkxk Debemos extender a k variables las ideas y técnicas de la regresión lineal simple

2007

Estadística; 3º CC. AA.

Modelo

2

Y = β0 + β1X1 +…+ βkXk + U

Muestra Aleatoria

X = matriz del diseño 2007

Estadística; 3º CC. AA.

3

1

Cuatro hipótesis comunes con la regresión lineal simple •Normalidad •Homocedasticidad •Linealidad •Independencia de las observaciones Es decir, {(X1i,X2i,…,Xki,Yi): i=1,2,…,n} son vectores aleatorios independientes

2007

Estadística; 3º CC. AA.

4

Y dos requisitos adicionales • n > k+1 El modelo depende de k+2 parámetros. Para que la regresión tenga sentido debemos tener un número suficiente de datos (evidentemente, en la regresión lineal simple, también necesitamos más de 2 datos para que tenga sentido ajustar una recta) • #inguna de las X es combinación lineal de las otras (no hay colinealidad) Si alguna de las Xi es combinación lineal exacta de algunas de las otras Xj, el modelo puede simplificarse con menos variables explicativas. También hay que tener cuidado si alguna de las X está fuertemente correlacionada con otras. 2007

Estadística; 3º CC. AA.

5

2

Datos y estimación de los parámetros Geométricamente, la nube de puntos ahora está en un espacio de dimensión k+1 ¡Difícil de visualizar para k>2!

X es la matriz del diseño, ahora con los datos; X´ es su traspuesta. Estimaciones:

donde: son los residuos 2007

Estadística; 3º CC. AA.

6

Ejemplo 1 Estimación del tamaño de Trilobites En la mayoría de las condiciones de preservación, es difícil encontrar ejemplares completos de Trilobites. La cabeza (cephalon) suelta es mucho más común. Por ello, es útil poder estimar el tamaño del cuerpo en función de medidas sobre la cabeza, estableciendo cuáles de ellas constituyen la mejor determinación del tamaño total. El siguiente ejemplo está tomado de: Norman MacLeod Keeper of Palaeontology, The Natural History Museum, London 2007

Estadística; 3º CC. AA.

7

3

Dibujos de Sam Gon III

2007

Estadística; 3º CC. AA.

8

2007

Estadística; 3º CC. AA.

9

4

y = β0 + β1x1 + β2x2

2007

Estadística; 3º CC. AA.

10

Intervalos de confianza

Error típico de la estimación de (desviación típica estimada de )

2007

Estadística; 3º CC. AA.

11

5

Contrastes de hipótesis

Rechazaremos H0 , al nivel α, si el cero no cae en el intervalo de confianza 1- α para βi. Lo que es equivalente al contraste de la t de Student para cada parámetro β i.

2007

Estadística; 3º CC. AA.

12

Estimación de la respuesta media de Y para los valores x10 ,…, xk0 de las variables explicativas

2007

Estadística; 3º CC. AA.

13

6

Predicción de un nuevo valor de Y dados los valores x10 ,…, xk0 de las variables explicativas

2007

Estadística; 3º CC. AA.

14

Ejemplo 1 Estimación del tamaño de Trilobites

Intercepción Gabella length Glabella width

2007

Coeficientes Error típico Estadístico t 3,9396 4,4531 0,8847 2,5664 0,8771 2,9259 0,9387 1,0730 0,8749

p-valor Inferior 95% Superior 95% 0,3887 -5,4558 13,3349 0,0094 0,7159 4,4170 0,3938 -1,3250 3,2025

Estadística; 3º CC. AA.

15

7

Análisis de la Varianza

Coeficiente de determinación 2007

Estadística; 3º CC. AA.

16

Tabla Anova

Rechazaremos H0 , al nivel α, si :

Relación entre F y R2

2007

Estadística; 3º CC. AA.

17

8

Ejemplo 1 Estimación del tamaño de Trilobites Regresión Residuos Total

Gr. de libertad Suma de cuadrados 2 5586'22 17 1177'70 19 6763'92

cuadrados medios 2793'11 69'28

Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R2 R2 ajustado Error típico Observaciones

F 40'32

Valor crítico de F 0'0000004

0'909 0'826 0'805 8'323 20

R2=0,83 2007

Estadística; 3º CC. AA.

18

Resumen de los contrastes

2007

Estadística; 3º CC. AA.

19

9

Ejemplo 2 Respiración de líquenes Se estudia la tasa de respiración (nmoles oxígeno g-1min-1) del liquen Parmelia saxatilis en crecimiento bajo puntos de goteo con un recubrimiento galvanizado. El agua que cae sobre el liquen contiene Zinc y Potasio que utilizaremos como variables explicativas. Los datos corresponden a: Wainwright (1993), J. Biol. Educ., 27(3), 201--204.

2007

Estadística; 3º CC. AA.

20

Respiration Rate

Potassium ppm

71

388

2414

53 55 48

258 292 205

10693 11682 12560

69

449

2464

84 21

331 114

2607 16205

Datos

Zinc ppm

68 580 2005 68 622 1825 Variable # MEA# MEDIA# TRMEA# STDEV SEMEA# RespRate 9 59.67

68.00

59.67

18.8

6.06

K ppm

9 359.9

331.0

359.9

168.1

56.0

Zn ppm

9 6939

2607

6939

5742

1914

2007

Estadística; 3º CC. AA.

21

10

Plano de regresión Tasa de respiración = β0 + β1Potasio + β2Zinc

* *

*

*

* * * * Datos *

2007

*

* * *

*

*

Estadística; 3º CC. AA.

22

Regresión de la tasa de respiración (RespRate) sobre el Potasio (K) y el Zinc (Zn). La ecuación de regresión estimada es: RespRate = 101 - 0.0403 K - 0.00388 Zn Predictor

Coef

Stdev

t-ratio

p

101.09

18.87

5.36

0.002

K ppm

-0.04034

0.03424

-1.18

0.283

Zn ppm

-0.00387

0.001002

-3.87

0.008

Constant

2007

Estadística; 3º CC. AA.

23

11

Análisis de la varianza (tabla A#OVA) Source

df

SS

MS

F

p

Regression

2

2243.3

1121.6

16.80

0.003

Error

6

400.7

66.8

Total

8

2644.0

2007

Estadística; 3º CC. AA.

24

ANÁLISIS DE VARIANZA (sólo Zn) gr. Libertad Suma de cuadrados cuadrados medios Regresión 1 2150,58 2150,58 Residuos 7 493,42 70,49 Total 8 2644 Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones

F

0,90 0,81 0,79 8,40 9

ANÁLISIS DE VARIANZA (sólo K) gr. Libertad Suma de cuadrados cuadrados medios Regresión 1 1244,51 1244,51 Residuos 7 1399,49 199,93 Total 8 2644 Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones

2007

Estadística; 3º CC. AA.

p-valor 30,51 0,00088423

F 6,22

p-valor 0,04

0,69 0,47 0,40 14,14 9

25

12

Extensiones: 1- interacciones Del análisis anterior concluiríamos que el Potasio (K) no es un importante predictor para la tasa de respiración del liquen (A pesar de que se sabe que es significativo en ausencia de Zinc) Sin embargo, el Análisis de la Varianza permite también estudiar interacciones entre las variables predictoras. Por ejemplo, podemos definir la interacción creando una nueva variable resultante de multiplicar K por Zn (la nueva variable es K*Zn). Los resultados de una regresión multilineal con predictores K, Zn, K*Zn son

Intercepción K Zn K*Zn

Coeficientes Error típico Estadístico t Probabilidad 106,07 10,32 10,28 0,00015 -0,0678 0,020 -3,41 0,01898 -0,005999 0,00077 -7,81 0,00055 0,00001118 2,85E-06 3,92 0,01120

2007

Estadística; 3º CC. AA.

26

Tabla ANOVA ANÁLISIS DE VARIANZA Grados de libertad Regresión Residuos Total

2007

Promedio de Suma de los cuadrados cuadrados 3 2545,6 848,52 5 98,4 19,69 8 2644,0

Estadística; 3º CC. AA.

F

Valor crítico de F 43,10 0,00054

27

13

Al poner el producto de las dos variables como tercer predictor no tenemos un plano sino una superficie curva. Tasa de respiración = β0 + β1Potasio + β2Zinc +β β3 Potasio x Zinc

Ejercicio: comentar y criticar este ejemplo

2007

Estadística; 3º CC. AA.

28

Extensiones: 2-regresión no lineal El océano, que cubre el 70% de la superficie terrestre y tiene una permanente interacción con la atmósfera, juega un papel fundamental en el equilibrio global. Para identificar y comprender los vínculos (pasados, presentes y futuros) del océano con el clima es importante entender el comportamiento de los ciclos nutrientes y el carbono marino. La transferencia de carbono desde la superficie del océano a las aguas profundas puede tener una influencia importante en los niveles atmosféricos de CO2 a largo plazo. La siguiente diapositiva muestra un ejemplo de regresión no lineal del flujo de carbono hacia las profundidades marinas con la correspondiente profundidad del agua y la producción primaria de carbono en la superficie. Los datos provienen de: AWI Foundation for polar and marine research Schlüter M., Sauter E. J., Schäfer A., and Ritzrau W. (2000) Spatial budget of organic carbon flux to the seafloor of the northern #orth Atlantic (60°# - 80°#). Global Biogeochemical Cycles 14(1), 329-340. 2007

Estadística; 3º CC. AA.

29

14

¿podemos convertirlo en una relación lineal? 2007

Estadística; 3º CC. AA.

30

Ejemplo 3 Predicción de estados tormentosos en Florida Experimental forecasting of dry season storminess over Florida and the southeast United States from the ENSO (niño-southern oscillation) signal using multiple linear regression techniques. Bartlett C. Hagemeyer, National Weather Service, Melbourne, Florida Rebecca A. Almeida, Florida Institute of Technology, Melbourne, Florida

13th Symposium on Global Change and Climate Variations and 16th Conference on Probability and Statistics in the Atmospheric Sciences. American Meteorological Society.

El objetivo del estudio es predecir, con la mayor anticipación posible, la aparición de temporales en Florida durante la estación seca. Para ello se propone utilizar los valores del índice #iño 3.4 proporcionados por el Centro de Predicción del Clima.

2007

Estadística; 3º CC. AA.

31

15

Las regiones del #IÑO

El índice #iño 3.4 representa la temperatura anómala de la superficie marina (en grados centígrados) sobre la región limitada por 120°O-170°O y 5°S- 5°#.

2007

Estadística; 3º CC. AA.

32

Se encontró que el índice #iño 3.4 podía ser un indicador significativo de anomalías en el nivel de la presión media marina y estados tormentosos en la estación seca en Florida. Entre otros resultados, el mejor pronóstico de temporales basado en dos índices #iño 3-4 resulta de los índices de septiembre y enero. Septiembre es el indicador principal de tormentas en noviembre y diciembre y enero confirma la tendencia durante la estación seca (Más detalles en www.srh.noaa.gov/mlb/enso/mlb-16thstats.htm)

Storminess (#ov-Apr) = β0 + βSep(#ino3.4Sep)+ βJan(#ino3.4Jan) R= 0.74 F significativo al nivel 0,01 y los contrastes de la t al nivel 0,005

2007

Estadística; 3º CC. AA.

33

16