3-Modelos Lineales Generalizados

Modelos lineales generalizados (GLM) Luis Cayuela Octubre de 2015 ´ Area de Biodiversidad y Conservaci´on, Universidad

Views 67 Downloads 3 File size 314KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Modelos lineales generalizados (GLM) Luis Cayuela Octubre de 2015

´ Area de Biodiversidad y Conservaci´on, Universidad Rey Juan Carlos, Departamental 1 – DI. 231, c/ Tulip´an s/n. E-28933 M´ostoles (Madrid), Espa˜ na. E-mail: [email protected].

1

Modelos lineales generalizados (GLM) (versi´ on 1.2) Publicado por: Luis Cayuela

Se autoriza a cualquier persona a utilizar, copiar, distribuir y modificar esta obra con las siguientes condiciones: (1) que se reconozca la autor´ıa de la misma; (2) que no se utilice con fines comerciales; y (3) que si se altera la obra original, el trabajo resultante sea distribuido bajo una licencia similar a ´esta.

Para cualquier comentario o sugerencia por favor remitirse al autor de la obra. 2

´Indice 1. ¿Qu´ e son los GLM?

4

1.1. La estructura de los errores . . . . . . . . . . . . . . . . . . .

6

1.2. La funci´on de v´ınculo . . . . . . . . . . . . . . . . . . . . . . .

8

2. Construcci´ on y evaluaci´ on de un GLM

13

3. Criterios de evaluaci´ on de modelos

16

4. La funci´ on glm()

16

5. Modelos binomiales

17

5.1. Respuestas binarias (regresi´on log´ıstica)

. . . . . . . . . . . . 17

5.1.1. Un ejemplo: Prediciendo la distribuci´on de especies . . 18 5.2. Proporciones

. . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5.2.1. An´alisis de proporciones para factores con uno y dos niveles . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 5.2.2. Un ejemplo: ¿Son eficientes los pesticidas en el control de plagas? . . . . . . . . . . . . . . . . . . . . . . . . . 24 6. Modelos Poisson

29

7. M´ as ejemplos

30

8. Referencias

30

3

Luis Cayuela

1.

Modelos lineales generalizados

¿Qu´ e son los GLM?

Los modelos lineales (regresi´on, ANOVA, ANCOVA), se basan en los siguientes supuestos: 1. Los errores se distribuyen normalmente. 2. La varianza es constante. 3. La variable respuesta se relaciona linealmente con la(s) variable(s) independiente(s). En muchas ocasiones, sin embargo, nos encontramos con que uno o varios de estos supuestos no se cumplen. Por ejemplo, es muy com´ un en ecolog´ıa que a medida que aumenta la media de la muestra, aumente tambi´en su varianza. Estos problemas se pueden llegar a solucionar mediante la transformaci´on de la variable respuesta (por ejemplo tomando logaritmos). Sin embargo estas transformaciones no siempre consiguen corregir la falta de normalidad, la heterocedasticidad (varianza no constante) o la no linealidad de nuestros datos. Adem´as resulta muchas veces dif´ıcil interpretar los resultados obtenidos. Si decimos que la abundancia de pino silvestre es funci´on de la elevaci´on tenemos una idea m´as o menos clara de lo que esto puede significar. Si la relaci´on es positiva, un aumento de la elevaci´on aumentar´ıa la abundancia de esta especie. Pero ¿qu´e quiere decir que el logaritmo de la abundancia de pino silvestre es funci´on de la elevaci´on? Esto ya no es tan intuitivo. La cosa se complica a´ un m´as cuando utilizamos otro tipo de transformaciones, como las exponenciales, las potencias, etc. Una alternativa a la transformaci´on de la variable respuesta y a la falta de normalidad es el uso de los modelos lineales generalizados. Los modelos lineales generalizados (GLM de las siglas en ingl´es de Generalized Linear Models) son una extensi´on de los modelos lineales que permiten utilizar distribuciones no normales de los errores (binomiales, Poisson, gamma, etc) y varianzas no constantes. Ciertos tipos de variables respuesta sufren invariablemente la violaci´on de estos dos supuestos de los modelos normales y los GLM ofrecen una buena alternativa para tratarlos. Espec´ıficamente, podemos considerar utilizar GLM cuando la variable respuesta es: ∗ un conteo de casos (p.e. abundancia de una especie); ∗ un conteo de casos expresados como proporciones (p.e. porcentaje de pl´antulas muertas en un experimento de vivero); 4

Luis Cayuela

Modelos lineales generalizados

∗ una respuesta binaria (p.e. vivo o muerto, infectado o no infectado); El supuesto central que se ha hecho hasta el momento con los modelos lineales es que la varianza es constante (Figura 1a). En el caso de los conteos, sin embargo, donde la variable respuesta est´a expresada en n´ umeros enteros y en d´onde hay a menudo muchos ceros en los datos, la varianza podr´ıa incrementar linealmente con la media (Figura 1b). Con proporciones, donde hay un conteo del n´ umero de fallos de un evento, as´ı como del n´ umero de ´exitos, la varianza tendr´a una forma de U invertida en relaci´on a la media (Figura 1c). Cuando la variable respuesta siga una distribuci´on Gamma, entonces la varianza incrementa de una manera no lineal con la media (Figura 1d). b)

6 0

0

2

4

Varianza

2 1

Varianza

3

8

4

10

a)

0

2

4

6

8

10

0

2

Media

4

6

8

10

8

10

Media

d)

0

20 40 60 80

Varianza

0 −5 −15

Varianza

5

10

c)

0

2

4

6

8

10

0

Media

2

4

6

Media

Figura 1: Relaci´on entre la media y la varianza de los datos bajo distintos supuestos; (a) la varianza es constante; (b) la varianza incrementa con la media; (c) la varianza tiene forma de U invertida en relaci´on a la media; (d) la varianza incremente de manera no lineal con la media.

5

Luis Cayuela

Modelos lineales generalizados

Muchos de los m´etodos estad´ısticos m´as comunes, como la t de Student o la regresi´on, asumen que la varianza es constante, pero en muchas aplicaciones este supuesto no es aplicable. Y es precisamente en estos casos cuando los GLM pueden ser de gran utilidad. Los GLM tienen dos propiedades importantes: 1. La estructura de los errores. 2. La funci´on de v´ınculo.

1.1.

La estructura de los errores

Muchos datos tienen una estructura no normal. En el pasado, las u ´nicas herramientas disponibles para tratar la ausencia de normalidad eran la transformaci´on de la variable respuesta o la adopci´on de m´etodos no param´etricos. Hoy en d´ıa, existe otra alternativa, que son los modelos lineales generalizados o GLM. Los GLM permiten especificar distintos tipos de distribuci´on de errores: Poisson, muy u ´tiles para conteos (p.e. n´ umero de muertos por accidentes de tr´afico; n´ umero de d´ıas con heladas en el mes de enero; n´ umero de colonias de bacterias en una placa de agar; n´ umero de especies de plantas le˜ nosas en un cuadrado de muestreo de 10 m2 ). Binomiales, de gran utilidad para proporciones y datos de presencia/ausencia (p.e. tasas de mortalidad; tasas de infecci´on; porcentaje de parasitismo; porcentaje de ´exito reproductivo; presencia o ausencia de una determinada especie). Gamma, muy u ´tiles con datos que muestran un coeficiente de variaci´on constante, esto es, en donde la varianza aumenta seg´ un aumenta la media de la muestra de manera constante (p.e. n´ umero de presas comidas por un predador en funci´on del n´ umero de presas disponibles). Exponenciales, muy u ´tiles para los an´alisis de supervivencia, aunque no se ver´an de manera espec´ıfica en este curso. Adem´as, los modelos lineales, con los que estamos m´as familiarizados, asumen que tanto la variable respuesta como los errores del modelo siguen una distribuci´on normal. Una distribuci´on normal es, por definici´on, 6

Luis Cayuela

Modelos lineales generalizados

15 10 0

5

Número de familias

20

25

continua. En ocasiones, sin embargo, la variable dependiente sigue una distribuci´on que no es continua y, por tanto, los valores estimados por el modelo han de seguir el mismo tipo de distribuci´on que los datos de partida. Cualquier otro tipo de valor estimado por el modelo no deber´ıa ser v´alido desde un punto de vista l´ogico, aunque en la pr´actica no se presta mucha atenci´on a esto. Por ejemplo, un investigador est´a interesado en predecir cu´antos ni˜ nos tendr´a una familia en funci´on del ingreso neto anual y otros indicadores socio-econ´omicos. La variable respuesta –n´ umero de ni˜ nos- es discreta (es decir, una familia podr´a tener 1, 2, 3 hijos y as´ı sucesivamente, pero no 2.4 hijos) y adem´as est´a muy sesgada (la mayor´ıa de las familias tendr´an 1, 2 o 3 hijos, algunas menos tendr´an 4 o 5, y muy pocas familias tendr´an 6 o` 7 hijos) (Figura 2). En este caso, es razonable asumir que la variable dependiente seguir´a una distribuci´on de tipo Poisson y no una normal.

2

4

6

8

Número de hijos

Figura 2: Gr´afica de distribuci´on del n´ umero de familias con un determinado n´ umero de hijos.

7

Luis Cayuela

Modelos lineales generalizados

Para detectar si nuestros datos son o no normales es conveniente: (1) conocer el tipo de variable respuesta y su naturaleza; y (2) el an´alisis de los residuos del modelo una vez ajustado el modelo (ya sea un modelo lineal o un GLM con una distribuci´on de errores no normal). Esto nos va a permitir observar alejamientos de la normalidad y saber cu´ando es conveniente utilizar uno u otro tipo de distribuciones de errores.

1.2.

La funci´ on de v´ınculo

Otra raz´on por la que un modelo lineal puede no ser adecuado para describir un fen´omeno determinado es que la relaci´on entre la variable respuesta y la(s) variable(s) independiente(s) no es siempre lineal. Un ejemplo lo tenemos en la relaci´on entre la edad de una persona y su estado de salud (Figura 3). La salud de la gente de 30 a˜ nos no es muy distinta de la de la gente de 40. Sin embargo, las diferencias s´ı son m´as marcadas entre la gente de 60 y 70 a˜ nos. Por tanto, la relaci´on entre edad y salud no es lineal. Tal vez una funci´on de tipo exponencial ser´ıa m´as adecuada para describir la relaci´on entre la edad de una persona y su salud. Este tipo de funciones indicar´ıa que un incremento en a˜ nos en edades m´as avanzadas tendr´ıa un mayor impacto sobre la salud de las personas que un incremento en a˜ nos en edades m´as tempranas. Con otras palabras, el v´ınculo entre la edad y la salud se describe mejor con una funci´on de tipo exponencial que con una relaci´on lineal. La funci´on de v´ınculo, por tanto, se encarga de linealizar la relaci´on entre la variable respuesta y la(s) variable(s) independiente(s) mediante la transformaci´on de la variable respuesta. Tomemos por ejemplo la relaci´on entre el n´ umero de ovejas muertas y el n´ umero de par´asitos (Figura 4). Est´a relaci´on como podemos ver no es del todo lineal (izquierda). Pero podemos linealizarla tomando logaritmos en la variable respuesta (derecha). En este ejemplo, el modelo quedar´ıa formulado de la siguiente forma: Log(yi ) = β0 + β1 · xi En d´onde: y = n´ umero de ovejas muertas, x = n´ umero de par´asitos, β0 y β1 = coeficientes del modelo. 8

Luis Cayuela

Modelos lineales generalizados

● ●

●●

9

● ● ●

● ●



● ● ●



8

●●

● ●

●●





7



● ●



6

● ●

● ● ●●

5

Índice de salud





●● ●

4



3





30

40

50

60

70

Edad

Figura 3: Relaci´on entre el estado de salud, medido por medio de un ´ındice, y la edad de las personas. Ahora bien, los valores estimados por este modelo no son los valores de y, sino los del Log(y). Para obtener los valores estimados de y, lo que se debe de hacer es aplicar la funci´on inversa a la funci´on de v´ınculo utilizada, en este caso, la funci´on exponencial. Por tanto: exp(Log(yi )) = exp(β0 + β1 · xi ) yi = exp(β0 + β1 · xi ) En realidad, aunque parezca muy complicado, lo que estamos haciendo es b´asicamente transformar la variable respuesta de modo similar a c´omo har´ıamos en una regresi´on cuando tenemos problemas de linealidad, pero teniendo en cuenta los valores estimados por el modelo mediante la transformaci´on inversa de la funci´on de v´ınculo. 9



●● ● ● ● ● ● ●

●●●

300

● ● ● ● ●● ● ● ● ● ●

350

400

450

Número de parásitos

4 3

● ● ● ●

● ● ●● ● ● ● ●

● ●● ●

2

● ●

1

100

● ●

log(Número de ovejas muertas)

Modelos lineales generalizados

60 0 20

Número de ovejas muertas

Luis Cayuela

● ●● ● ● ●

● ● ● ● ●● ● ● ● ● ●

● ●

300

350

400

450

Número de parásitos

Figura 4: Relaci´on entre el n´ umero de par´asitos y: (izqda) el n´ umero de ovejas muertas; (dcha) el logaritmo del n´ umero de ovejas muertas. Otra de las utilidades de la funci´on de v´ınculo, es la de conseguir que las predicciones de nuestro modelo queden acotadas. Por ejemplo, si tenemos datos de conteo, no tiene sentido que nuestras predicciones arrojen resultados negativos, como en el caso del n´ umero de ovejas muertas o la abundancia de una determinada especie. En este caso, una funci´on de v´ınculo de tipo logar´ıtmica resolver´a el problema (Figura 5). Otro ejemplo, si la variable respuesta es una proporci´on, entonces los valores estimados tienen que estar entre 0 y 1 o 0 y 100 (valores por debajo de 0 o por encima de 1 o 100 no tienen ning´ un sentido). En este otro caso, una funci´on de v´ınculo de tipo ‘logit’ ser´a m´as apropiada. En la Tabla 1 se resumen las funciones de v´ınculo m´as utilizadas.

10

Luis Cayuela

Modelos lineales generalizados

100

● ●





60

● ●

40



● ●● ●

● ●

20

Abundancia de pino silvestre

80





● ●

● ● ●

●● ●



● ●

● ●

● ●

0



300

350

400

450

Fertilidad del suelo

Figura 5: Relaci´on entre la abundancia de una especie (p.e. n´ umero de pies de pino silvestre en una parcela forestal) y la fertilidad del suelo. Los valores quedan acotados por encima de 0 cuando utilizamos una funci´on de v´ınculo de tipo logar´ıtmica. Funci´ on de v´ınculo F´ ormula Uso Identidad µ Datos continuos con errores normales (regresi´on y ANOVA) Logar´ıtmica Log(µ) Conteos con errores de tipo Poisson µ ) Proporciones (datos entre 0 y 1) Logit Log( n−µ con errores binomiales 1 Rec´ıproca Datos continuos con errores µ gamma √ Ra´ız cuadrada µ Conteos Exponencial µn Funciones de potencia Cuadro 1: Las funciones de v´ınculo m´as comunes utilizadas por los GLM 11

Luis Cayuela

Modelos lineales generalizados

Se denominan funciones de v´ınculo can´onicas a las funciones que se aplican por defecto a cada una de las distribuciones de errores. Esto no significa que siempre se deba usar una u ´nica funci´on de v´ınculo para una determinada distribuci´on. De hecho, puede ser recomendable comparar diferentes funciones de v´ınculo para un mismo modelo y ver con cu´al se obtiene un mejor ajuste del modelo a los datos. En la Tabla 2 se pueden ver las funciones de v´ınculo can´onicas para cada una de las distribuciones de errores, as´ı como otras posibles funciones de v´ınculo que pueden ser usadas. Distribuci´ on de errores Normal Poisson Binomial Gamma

Funci´ on de v´ınculo can´ onica Identidad Logar´ıtmica Logit Rec´ıproca

Otras funciones de v´ınculo posibles Logar´ıtmica Identidad, Ra´ız cuadrada Logar´ıtmica Identidad, Logar´ıtmica

Cuadro 2: Las funciones de v´ınculo can´onicas y otras funciones de v´ınculo posibles usadas para distintas distribuciones de errores en GLM. En la Tabla 4 se muestran algunas de las combinaciones m´as comunes de variables respuestas y variables explicativas con distintos tipos de funciones de v´ınculo y distribuciones de errores.

12

Luis Cayuela

Tipo de an´ alisis Regresi´on ANOVA Regresi´on Regresi´on Tabla de contingencia Proporciones Regresi´on log´ıstica An´alisis de supervivencia

Modelos lineales generalizados

Variable respuesta Continua Continua Continua Conteo Conteo

Variable explicativa Continua Factor Continua Continua Factor

Funci´ on de v´ınculo Identidad Identidad Rec´ıproca Logar´ıtmica Logar´ıtmica

Distribuci´ on de errores Normal Normal Gamma Poisson Poisson

Proporci´on Binaria

Continua Continua

Logit Logar´ıtmica

Binomial Binomial

Tiempo

Continua

Rec´ıproca

Exponencial

Cuadro 4: Algunas de las combinaciones m´as comunes de variables respuestas y variables explicativas con distintos tipos de funciones de v´ınculo y distribuciones de errores.

2.

Construcci´ on y evaluaci´ on de un GLM

En la construcci´on de modelos lineales generalizados es importante tener en ´ cuenta una cosa: no existe un u ´nico modelo que sea v´alido. Este es uno de los errores m´as comunes impl´ıcitos en el uso de regresi´on o ANOVA, en donde el mismo modelo se usa una y otra vez, muchas veces sin una perspectiva cr´ıtica. En la mayor´ıa de los casos, habr´a un n´ umero variable de modelos plausibles que puedan ajustarse a un conjunto determinado de datos. Parte del trabajo de construcci´on y evaluaci´on del modelo es determinar cu´al de todos estos modelos son adecuados, y entre todos los modelos adecuados, cu´al es el que explica la mayor proporci´on de la varianza sujeto a la restricci´on de que todos los par´ametros del modelo deber´ıan ser estad´ısticamente significativos. Esto es lo que se conoce como el modelo adecuado m´ınimo. En algunos casos habr´a m´as de un modelo que describan los datos igual de bien. En estos casos queda a nuestro criterio elegir uno u otro, aunque puede ser recomendable utilizarlos todos y discutir las limitaciones que esto presenta desde el punto de vista inferencial. Los pasos que hay que seguir en la construcci´on y evaluaci´on de un GLM son muy similares a los de cualquier modelo estad´ıstico. No obstante los detallamos a continuaci´on: Exploraci´ on de los datos. Conviene conocer nuestros datos. Puede 13

Luis Cayuela

Modelos lineales generalizados

resultar interesante obtener gr´aficos que nos muestren la relaci´on entre la variable respuesta y cada una de las variables explicativas, gr´aficos de caja (box-plot) para variables categ´oricas, o matrices de correlaci´on entre las variables explicativas. El objetivo de este ejercicio es: a) Buscar posibles relaciones de la variable respuesta con la(s) variable(s) explicativa(s); b) Considerar la necesidad de aplicar transformaciones de las variables; c) Eliminar variables explicativas que est´en altamente correlacionadas. Elecci´ on de la estructura de errores y funci´ on de v´ınculo. A veces resultar´a f´acil elegir estas propiedades del modelo. Otras resultar´a tremendamente dif´ıcil. No hay que preocuparse por esto, sin embargo, ya que con posterioridad analizaremos los residuos del modelo para ver la idoneidad de la distribuci´on de errores elegida. Por otro lado, puede ser una pr´actica recomendable el comparar modelos con distintas funciones de v´ınculo para ver cu´al se ajusta mejor a nuestros datos. Ajuste del modelo a los datos. Debemos prestar particular atenci´on a: a) Los tests de significaci´on para los estimadores del modelo; b) La cantidad de varianza explicada por el modelo. Esto en GLM se conoce como devianza D2 . La devianza nos da una idea de la variabilidad de los datos. Por ello, para obtener una medida de la variabilidad explicada por el modelo, hemos de comparar la devianza del modelo nulo (Null deviance) con la devianza residual (Residual deviance), esto es, una medida de cu´anto de la variabilidad de la variable respuesta no es explicado por el modelo, o lo que es lo mismo: D2 =

Devianza.modelo.nulo−Devianza.residual Devianza.modelo,nulo

· 100

An´ alisis de los residuos. Los residuos son las diferencias entre los valores estimados por el modelo y los valores observados. Sin embargo, muchas veces se utilizan los residuos estandarizados, que tienen que seguir una distribuci´on normal. Conviene analizar los siguientes gr´aficos: 1. Histograma de los residuos. 2. Gr´afico de residuos frente a valores estimados. Estos gr´aficos pueden indicar falta de linealidad, heterocedasticidad (varianza no constante) y valores at´ıpicos. 14

Luis Cayuela

Modelos lineales generalizados

3. El gr´afico probabil´ıstico de normalidad (q-q plot), que permite contrastar la normalidad (simetr´ıa) de la distribuci´on de los residuos. Y, opcionalmente, pueden ser tambi´en de gran utilidad los siguientes gr´aficos: 1. Gr´aficos de residuos frente a variables explicativas. Pueden ayudar a identificar si la falta de linealidad o la heterocedasticidad es debida a alguna variable explicativa. 2. Gr´afico de los residuos frente al tiempo (u orden de medida). Permiten detectar cambios sistem´aticos en el muestreo (como cuando el experimentador adquiere mayor experiencia en el proceso de medici´on de un determinado fen´omeno, o por el contrario, se vuelve menos cuidadoso a medida que aumenta el esfuerzo muestral). 3. Gr´afico de valores at´ıpicos. Existen tests que permiten detectar valores at´ıpicos. Los ´ındices m´as comunes son el ´ındice de Cook y el apalancamiento o leverage. Todos estos gr´aficos (y opcionalmente algunos tests estad´ısticos complementarios) nos pueden ayudar en la evaluaci´on del modelo utilizado. En caso necesario, ser´a preciso volver a plantear el modelo (paso 2), tal vez utilizando una estructura de errores m´as adecuada, otra funci´on de v´ınculo o incluso eliminando ciertos datos que pueden estar ‘sobre-influenciando’ nuestro an´alisis. Simplificaci´ on del modelo. El principio de parsimonia requiere que el modelo sea tan simple como sea posible. Esto significa que no debe contener par´ametros o niveles de un factor que sean redundantes. La simplificaci´on del modelo implica por tanto: 1. La eliminaci´on de las variables explicativas que no sean significativas. 2. La agrupaci´on de los niveles de factores (variables categ´oricas) que no difieran entre s´ı. Esto significa que cada vez que simplificamos el modelo debemos repetir los pasos 3 y 4. La simplificaci´on del modelo tiene que tener, adem´as, una cierta l´ogica para el analista y no debe incrementar de manera significativa la devianza residual. Por ello y para llegar a entender bien los datos y las relaciones existentes entre las variables conviene evitar, en la medida de lo posible, los procedimientos automatizados (p.e. backward/forward stepwise regression procedures). 15

Luis Cayuela

3.

Modelos lineales generalizados

Criterios de evaluaci´ on de modelos

Podemos utilizar la reducci´on de la devianza como una medida del ajuste del modelo a los datos. Los tests de significaci´on para los par´ametros del modelo son tambi´en u ´tiles para ayudarnos a simplificar el modelo. Sin embargo, un criterio comunmente utilizado es el llamado Criterio de Informaci´ on de Akaike (AIC del ingl´es Akaike Information Criterion). Aunque no vamos a explicar aqu´ı los fundamentos matem´aticos de este ´ındice, s´ı diremos que es un ´ındice que eval´ ua tanto el ajuste del modelo a los datos como la complejidad del modelo. Cuanto m´as peque˜ no es el AIC mejor es el ajuste. El AIC es muy u ´til para comparar modelos similares con distintos grados de complejidad o modelos iguales (mismas variables) pero con funciones de v´ınculo distintas. Las funciones stepAIC(), addterm() y dropterm() del paquete MASS permiten comparar modelos con distintos grados de complejidad en funci´on del AIC. Todo esto se aplica igualmente a los modelos lineales que se vieron en la sesi´on anterior.

4.

La funci´ on glm()

La funci´on glm() viene especificada por los siguientes argumentos > args(glm) function (formula, family = gaussian, data, weights, subset, na.action, start = NULL, etastart, mustart, offset, control = list(...), model = TRUE, method = "glm.fit", x = FALSE, y = TRUE, contrasts = NULL, ...) NULL d´onde formula es una f´ormula que especifica el modelo siguiendo la l´ogica de los modelos lineales especificados por la funci´on lm() y family es la familia de errores de distribuci´on, especificada de la siguiente forma: ∗ binomial(link = ”logit”) ∗ gaussian(link = ”identity”) ∗ Gamma(link = ”inverse”) ∗ inverse.gaussian(link = ”1/muˆ2”) 16

Luis Cayuela

Modelos lineales generalizados

∗ poisson(link = ”log”) ∗ quasi(link = ”identity”, variance = ”constant”) ∗ quasibinomial(link = ”logit”) ∗ quasipoisson(link = ”log”) Si la funci´on de v´ınculo (link) no se especifica, la primera opci´on de la lista es tomada como opci´on predeterminada en cada caso. Como en el caso de las funciones lm(), podemos acceder f´acilmente al resultado de un modelo glm() con las funciones summary() y anova().

5.

Modelos binomiales

5.1.

Respuestas binarias (regresi´ on log´ıstica)

Muchas variables respuesta son del tipo: ∗ vivo o muerto, ∗ hombre o mujer, ∗ infectado o saludable, ∗ ocupado o vac´ıo. En estos casos podemos investigar qu´e variables est´an relacionados con la asignaci´on de un individuo a una clase u otra mediante modelos GLM con una distribuci´on de errores de tipo binaria, siempre y cuando exista al menos una variable explicativa que sea continua. La variable respuesta debe de contener s´olo 0s `o 1s, en d´onde un 0 representar´ıa por ejemplo a un individuo muerto y un 1 a un individuo vivo. La manera en la que R trata datos binarios es asumiendo que los 0s y los 1s provienen de una distribuci´on binomial de tama˜ no 1. Si la probabilidad de que un individuo est´e muerto es p, entonces la probabilidad de obtener y (donde y es vivo o muerto, 0 o` 1) vendr´ıa dado por la forma abreviada de la distribuci´on binomial con n = 1, conocida como la distribuci´on de Bernoulli: P (y) = py · (1 − p)(1−y) El objetivo en este caso ser´ıa determinar c´omo las variables explicativas influencian el valor de p. Para ajustar un modelo binomial en R hay que usar la funci´on glm() especificando el argumento family = binomial. 17

Luis Cayuela

5.1.1.

Modelos lineales generalizados

Un ejemplo: Prediciendo la distribuci´ on de especies

Los modelos de distribuci´on de especies son una de las herramientas m´as ampliamente usadas en ecolog´ıa y biolog´ıa de la conservaci´on. Estos modelos asocian la presencia o presencia y ausencia de una especie a una serie de variables ambientales. Dichos modelos pueden extrapolarse posteriormente a la totalidad del territorio para predecir el rango de distribuci´on “potencial” de dicha especie. La Junta de Andaluc´ıa ha impulsado recientemente un proyecto para predecir la distribuci´on de todos los peces nativos y ex´oticos en los r´ıos andaluces. En este ejemplo vamos a predecir si la presencia o ausencia de peces (variable ’Presencia’) en r´ıos vadeables a lo largo de la cuenca del Guadalquivir depende del orden del tramo fluvial (variable ’Orden’) y de la precipitaci´on (variable ’Precipitacion’) utilizando regresi´on log´ıstica1 . La base de datos (GLM peces.txt)2 est´a accesible en la siguiente direcci´on http://www.escet.urjc.es/biodiversos/R/peces.txt. Puedes descargarte los datos directamente a tu ordenador y leerlos usando la funci´on read.table() o leerlos directamente de la direcci´on web con la funci´on url(). > peces str(peces) > edit(peces) Para llevar a cabo el an´alisis, vamos a seguir los pasos descritos en la secci´on 2. Exploraci´ on de los datos. No parece haber una diferencia muy clara en los valores de precipitaci´on entre tramos con y sin peces. Sin embargo, la presencia de peces parece estar asociada, a primera vista, a tramos de r´ıo de orden superior. 1

Hay muchos otros modelos que pueden utilizarse con este fin, como los GAM, modelos de sobre clim´ aticos, ´ındices de disponibilidad de h´abitat, algoritmos gen´eticos, ´arboles de clasificaci´ on y regresi´ on (CART), etc. 2 Datos cedidos por Luc´ıa G´ alvez, Centro de Investigaciones de Recursos Cineg´eticos (IREC). Estos datos no pueden ser usados para otros fines que no sean docentes sin permiso de la autora.

18

Luis Cayuela

par(mfcol=c(1,2)) x