Capitulo 14 y 15.docx

14 Modelos de resultados binarios 14.1 Introducción El análisis de regresión de una variable binaria o dicotómica cualit

Views 93 Downloads 7 File size 11MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

14 Modelos de resultados binarios 14.1 Introducción El análisis de regresión de una variable binaria o dicotómica cualitativa es un problema común en las estadísticas aplicadas. Los modelos para resultados binarios mutuamente excluyentes se p enfocan en los determinantes de la probabilidad de la ocurrencia de un resultado en lugar de un resultado alternativo que ocurre con una probabilidad de 1− p . Un ejemplo donde la variable binaria es de interés directo está modelando si un individuo tiene seguro. En el análisis de regresión, queremos p varía entre los individuos en medir cómo la probabilidad función de los regresores. Un tipo diferente de ejemplo es predecir p , la probabilidad condicional de el puntaje de propensión participación (en lugar de no participación) de un individuo en un programa de tratamiento. En la literatura de efectos de tratamiento, esta predicción dadas las variables observables es un paso intermedio importante, a pesar de que el interés final radica en los resultados de ese tratamiento. Los dos modelos estándar de resultados binarios son el modelo logit y el modelo probit. Estos especifican diferentes formas p como una función de regresores, y los funcionales para modelos se ajustan por máxima verosimilitud (ML) . Un modelo de probabilidad lineal (LPM), ajustado por mínimos cuadrados ordinarios (OLS), también se usa a veces. Este capítulo trata de la estimación e interpretación de los modelos de resultados binarios de sección transversal utilizando un conjunto de comandos estándar que son similares a los de la regresión lineal. Varias extensiones también se consideran.

14.2 Algunos modelos paramétricos Diferentes modelos de resultados binarios tienen una estructura común. La variable dependiente, Y i toma solo dos valores, por lo que su distribución es inequívocamente Bernoulli, o binomial con una cola, con una probabilidad de pi . Los modelos logit y probit corresponden a diferentes modelos de regresión para pi .

1 4.2.1 Modelo básico

Modelo aditivo de utilidad aleatoria 446 Supongamos que la variable de resultado, valores: Y=

Y , toma uno de dos

1 con probabilidad p {0 con probabilidad 1− p

Dado nuestro interés en modelar p en función de los regresores x , no hay pérdida de generalidad al establecer los valores de resultado en 1 y 0. La función de masa de probabilidad para el Y , es E ( Y )= p pY ( 1− p )1−Y , con resultado observado, y Var (Y )= p ( 1− p ) . Se forma un modelo de regresión parametrizando p para que dependa de una función de índice x ' β , donde x es un K ×1 β vector regresor y es un vector de parámetros desconocidos. En los modelos de resultados binarios estándar, la probabilidad condicional tiene la forma pi ≡ Pr ( Y i=1| x ¿=F ( x 'i β )(14.1) donde F(·) es una función paramétrica especificada de x ' β , generalmente una función de distribución acumulativa (c.d.f.) en 0 ≤ p ≤ 1 están (−∞ ,∞) porque esto asegura que los límites satisfechos.

14.2.2 Logit, probit, probabilidad lineal y modelos de registro de registros Los modelos difieren en la elección de la función, F(·) .Cuatro formas funcionales comúnmente usadas para F( x ' β) , que se 14.1 , son las formas logit, probit, muestran en la tabla probabilidad lineal y log-log complementario (clog -log). Tabla14.1 . Cuatromodelos de resultados binarios comúnmente utilizados

F ( . )= Λ(.) , El c.d.f. de la El modelo logit específica que distribución logística. El modelo probit específica que F(·)=Φ (·) , el estándar normal c.d.f. Las funciones logit y probit son simétricas en torno a cero y se utilizan ampliamente en microeconometría. El

447 binarios

Capítulo 14 Modelos de resultados

LPM corresponde a la regresión lineal y no impone la restricción de que 0 ≤ p ≤ 1 . El modelo log-log complementario es asimétrico en torno a cero. Su uso a veces se recomienda cuando la distribución de Y está sesgada de tal manera que hay una alta proporción de ceros o unos en el conjunto de datos. La última columna en la tabla da expresiones para los efectos marginales 14.7 , donde ϕ (·) correspondientes, usados en la sección denota la densidad normal estándar.

14.3 Estimación Para modelos paramétricos con covariables exógenas, el estimador de máxima verosimilitud (MLE) es el estimador natural, porque la densidad es inequívocamente el Bernoulli. Stata proporciona procedimientos ML para los modelos logit, probit y clog-log, y para varias variantes de estos modelos. Para los modelos con covariables endógenas, los métodos de variables instrumentales (Γ ⋁) pueden utilizarse; ver la sección 14.8 .

14.3.1 Interpretación latentes

e

identificación

de

variables

Los modelos de resultados binarios pueden tener una interpretación de variables latentes. Esto proporciona un enlace con el modelo de registro lineal, explica más profundamente la diferencia entre los modelos logit y probit, y proporciona la base para la extensión de algunos modelos multinomiales presentados en el capítulo 15. Distinguimos entre el resultado binario observado, Y , y una variable subyacente no observable (o latente) subyacente, Y ¿ , que satisface el modelo de índice único Y ¿ =x' β+u (14.2) Aunque Y=

Y

{

1 si Y ¿ >0 ¿ 0 siY ≤ 0

¿

no se observa, sí observamos (14.3)

donde el umbral cero es una normalización que no tiene importancia si x incluye una intersección. Dados los modelos de variables latentes tenemos Pr ( Y =1 )=Pr (x ' β+ u>0) '

¿ Pr ⁡(−u< x β)

(14.2)

y

(14.3) ,

Modelo aditivo de utilidad aleatoria 448 ¿ F( x ' β) donde F(·) es el c.d.f. de −u . Esto produce el modelo probit si u tiene el estándar normalmente distribuido y el modelo logit si u está distribuido logísticamente. La identificación del modelo de variable latente requiere que fijemos su escala al colocar una restricción en la varianza de u , porque el modelo de índice único solo puede identificar β hasta la escala. Una explicación para esto es que observamos solo si +¿>0 ¿ ¿ ' +¿+u , Y =x β+u >0 . Pero esto no se distingue del resultado x' β ¿ +¿=aβ +¿=au donde y para cualquier a> 0 . Ve solo puede β¿ u¿ identificar β / σ , donde σ es la desviación estándar (parámetro de escala) de u . Para definir de forma única la escala de β , la convención es establecer σ =1 en el modelo probit y π / √3 en el modelo logit. Como consecuencia, β tiene una escala diferente en los dos modelos; ver la sección 14.4 .3 .

14.3.2 Estimación de ML Para los modelos binarios distintos del LPM , la estimación es por ML . Esta estimación de ML es directa. La densidad para una sola observación se puede escribir de forma compacta como Y 1−Y N , donde pi=F ( x'i β ) . Para una muestra de pi (1−p i) ^ observaciones independientes, el MLE , β , maximiza la función log-probabilidad asociada i

i

F ( x 'i β ) +(¿ 1−Y i) ln {1−F (x 'i β) } Y i ln¿ ¿ ¿ N

Q ( β ) =∑ ¿ i=1

El MLE se obtiene por métodos iterativos y se distribuye de manera asintótica normalmente. F(·) Se obtienen estimaciones consistentes si está correctamente especificado. Cuando, en cambio, la forma funcional F(·) está mal especificada, se aplica la teoría de la pseudo verisimilitud.

14.3.3 Los comandos logit y probit

449 binarios

Capítulo 14 Modelos de resultados

La sintaxis para el comando logit es Logit

depvar

[

indepvars ] [ if ] [ ¿ ] [ weight ] [ , options ]

La sintaxis para los comandos probit y cloglog es similar. Al igual que el comando de regresión, las opciones disponibles incluyen vce (cluster dustvaT ) y vce (robusto) para la estimación de la varianza. La constante está incluida por defecto, pero se puede suprimir utilizando la opción no constante. La opción de logit presenta coeficientes exponenciales. El razonamiento es que para el modelo logit, el logaritmo del odds x y β . Se ratio ln { p/(1− p)} puede mostrarse lineal en ' deduce que la razón de posibilidades p/(1−p)=exp(x β ) , de modo que e β , mide el efecto multiplicativo de un cambio de unidad en xj el regresor en el odds ratio. Por este motivo, muchos investigadores prefieren que los coeficientes logit se informen después de la exponenciación, es decir, como e β en lugar de β . Alternativamente, el comando logístico estima los parámetros del modelo logit e informa directamente los coeficientes exponenciales.

14.3.4 Estimación robusta del VCE Los modelos de resultado binarios son inusuales ya que no hay ninguna ventaja en el uso de la forma de sándwich robusta para la matriz de varianza-covarianza del estimador (VCE) del MLE si ' i los datos son independientes sobre y está F( x β) correctamente especificado. La razón es que los errores estándar ML por defecto de se obtienen al imponer la restricción ' ' Var (Y ∨x )=F ( x β){1−F ( x β )} , y esto necesariamente debe mantenerse porque la varianza de un binario la variable siempre es p(1− p) ; ver Cameron y Trivedi (2005) para una explicación más detallada. Si F( x ' β) está especificado correctamente, la opción vce (robusta) no es necesaria. Por lo tanto, podemos inferir una forma funcional mal especificada F( x ' β) si el uso de la vce (robusto) opción produce variaciones sustancialmente diferentes de las predeterminadas. Al mismo tiempo, la dependencia entre observaciones puede surgir debido al muestreo por conglomerados. En ese caso, la opción apropiada es usar vce (cluster clustvaT ) .

14.3.5 Estimación MCO de LPM Si se supone que F(·) es lineal, es decir, p=x ' β , entonces la función media condicional lineal define el LPM . El LPM puede

Modelo aditivo de utilidad aleatoria 450 estimarse consistentemente mediante la regresión MCO de Y sobre x utilizando regresión. Una gran limitación del método, sin embargo, es que los valores fijados x ' ^β no necesariamente [0,1] . estarán en el intervalo Y, debido a que ' ' LPM , la regresión es para el Var (Y ∨x )=( x β)(1−x β) intrínsecamente heteroscedástica, por lo que se debe usar una estimación robusta del VCE .

14.4 Ejemplo Analizamos datos sobre la cobertura de seguro de salud complementario. El análisis inicial estima los parámetros de los modelos de la sección 14.2.

14.4.1 Descripción de los datos Los datos provienen de la ola 5 (2002) del Estudio de Salud y Retiro (HRS), una encuesta de panel patrocinada por el Instituto Nacional de Envejecimiento. La muestra está restringida a los beneficiarios de Medicare. El HRS contiene información sobre una variedad de usos de servicios médicos. Los ancianos pueden obtener cobertura de seguro complementaria ya sea comprándola ellos mismos o uniéndose a planes patrocinados por el empleador. Usamos los datos para analizar la compra de seguros privados (ins) de cualquier fuente, incluidos los mercados privados o asociaciones. La cobertura de seguro mide, en general, tanto el seguro suplementario privado comprado individualmente como el auspiciado por el empleador, e incluye planes Medigap y otras políticas. Las variables explicativas incluyen el estado de salud, las características socioeconómicas y la información relacionada con el cónyuge. La información autoevaluada del estado de salud se usa para generar una variable ficticia (hstatusg) que mide si el estado de salud es bueno, muy bueno o excelente. Otras medidas up de estado de salud son el número de limitaciones en las (¿ five) actividades de la vida diaria (adl) y el número total de condiciones crónicas (chronic ) . Las variables socioeconómicas utilizadas son edad, sexo, raza, etnia, estado civil, años de respectively , age , female, educación y estado de jubilación ; (¿, hisp , married , educyear , retire) ingreso familiar (hhincome) ; y registrar el ingreso familiar si es positivo (linc) . El estado de jubilación del cónyuge (sretire ) es una variable indicativa igual a 1 si un cónyuge jubilado está presente.

451 binarios

Capítulo 14 Modelos de resultados

Para mayor concisión, utilizamos macros globales para crear listas de variables, presentando las variables utilizadas en las secciones 14.4-14.7 seguidas de las variables adicionales utilizadas en la sección 14.8. Tenemos        (9  

* Load data use mus14data.dta * Interaction variables drop age2 agefem agecbr agewhi * Summary statistics of variables global xlist age hstatusg bhincome educyear married hisp generate linc = ln(bhinc) missing values generated) global extralist linc female white chronic adl sretire summarize ins retire $xlist $extralist

(Continúa en la siguiente página)

14.4.2 Regresión logit Comenzamos con la estimación de

ML

del modelo logit.

Modelo aditivo de utilidad aleatoria 452  *Logit regression  Logit ins retire $xlist Iteration 0: log likelihood Iteration 1: log likelihood Iteration 2: log likelihood Iteration 3: log likelihood Iteration 4: log likelihood Logistic regression Log likelihood = -1994.8784

= = = = =

-2139.7712 -1998.8563 -1994.9129 -1994.8784 -1994.8784 Number of obs LR chi2(7) Prob > chi2 Pseudo R2

= = = =

3206 289.79 0.0000 0.0677

Todos los regresores que no sean la edad son estadísticamente significativamente diferentes de cero en el nivel de 0.05. Para el modelo logit, el signo del coeficiente es también el signo del efecto marginal. Discusión adicional de estos resultados se difieren a la próxima sección, donde comparamos las estimaciones de los parámetros logit con los de otros modelos. El registro de iteraciones muestra una convergencia rápida en cuatro iteraciones. La salida posterior suprime el registro de iteraciones para ahorrar espacio. En el trabajo empírico real, es mejor mantener el registro. Por ejemplo, una gran cantidad de iteraciones puede indicar un alto grado de multicolinealidad.

14.4.3 Comparación de modelos binarios y estimaciones de parámetros Es bien sabido que los modelos logit y probit tienen formas similares para los valores centrales de F(.) pero difieren en las colas cuando F(·) se aproxima a 0 o 1. Al mismo tiempo, las estimaciones de los coeficientes correspondientes de los dos modelos se escalan bastante diferente. Es un error elemental suponer que los diferentes modelos tienen implicaciones diferentes simplemente porque los coeficientes estimados entre los modelos son diferentes. Sin embargo, esta diferencia es principalmente una consecuencia de diferentes formas funcionales para las probabilidades. Los efectos marginales y las

453 binarios

Capítulo 14 Modelos de resultados

probabilidades predichas, presentadas en las secciones 14.6 y 14. 7, son mucho más similares en todos los modelos. Los coeficientes se pueden comparar entre los modelos, utilizando los siguientes factores de conversión aproximada (Amemiya 1981, 1,488): ^β Logit ≃ 4 β^ OLS ^β Logit ≃2.5 β^ OLS ^β Logit ≃ 1.6 ^β Probit La motivación es que es mejor comparar el efecto marginal, ∂ p / ∂ x j , entre los modelos, y se puede demostrar que para logit, para probit y ∂ p / ∂ x j ≤ 0.25 ^β j ∂ p /∂ x j ≤ 0.4 β^ j ^ para OLS. Las mayores desviaciones entre los ∂ p/∂ x j≤ β j modelos ocurren en las colas. Estimamos los parámetros de los modelos logit y probit por ML y el LPM por OLS, calculando los errores estándar y las estadísticas z basadas en estimaciones tanto predeterminadas como sólidas del VCE. El siguiente código guarda resultados para cada modelo con el comando de estimación de almacenamiento.           

*Estimation of several models quietly logit ins retire $xlist estimates store blogit quietly probit ins retire $xlist estimates store bprobit quietly regress ins retire $xlist estimates store bols quietly logit ins retire $xlist, .vce(robust) estimates store blogitr quietly probit ins retire $xlist, vce(robust) estimates store bolsr

Esto lleva a la siguiente tabla de salida de estimaciones de parámetros en todos los modelos:  * Table for comparing models  estimates table blogit blogitr bprobit bprobitr bolsr,t stats (N11)  b(%7.3f) stfmt(%8.2f)

Modelo aditivo de utilidad aleatoria 454

Los coeficientes a través de los modelos cuentan una historia cualitativamente similar sobre el impacto del regresor en Pr (ins=1) . Las reglas aproximadas para la conversión de parámetros también se sostienen razonablemente bien, porque las estimaciones logit son aproximadamente cinco veces las estimaciones OLS, y las estimaciones probit son aproximadamente tres veces los coeficientes OLS. Los errores estándar se vuelven a escalar de forma similar, de modo que las estadísticas z informadas para los coeficientes son similares en los tres modelos. Para los coeficientes logit y probit, las estadísticas z robusta y predeterminada son bastante similares, aparte de las de la variable hhincome . Para OLS, hay una gran diferencia. En la sección 14.6, veremos que las probabilidades probables ajustadas son similares para las especificaciones logit y probit. Sin embargo, la forma funcional lineal no restringe los valores ajustados al intervalo [0,1] , y encontramos diferencias en los valores de la cola ajustada entre los modelos LPM y logit y probit.

14.5 Pruebas de hipótesis y especificación A continuación, consideramos varias pruebas de la especificación mantenida frente a otras alternativas. Algunas de estas pruebas se repiten y demuestran muchos de los métodos presentados en más detalle en el capítulo 12, utilizando comandos para el modelo

455 binarios

Capítulo 14 Modelos de resultados

logit no lineal que son similares a los presentados en el capítulo 3 para el modelo de regresión lineal.

14.5.1 Pruebas de Wald Las pruebas sobre los coeficientes de las variables se realizan más fácilmente mediante el uso del comando de prueba, que implementa una prueba de Wald. Por ejemplo, podemos evaluar la presencia de efectos de interacción con la edad. Se crean cuatro variables de interacción (age 2, agefem , agechr y agewhi) , por ejemplo, agefem es igual a la age por female , y luego se incluyen en la regresión de logit. La hipótesis nula es que los coeficientes de estos cuatro regresores son todos cero, porque entonces no hay efectos de interacción. Obtenemos        

* Wald test for zero interactions generate age2 = age*age generate agefem = age*female generate agech = age*chronic generate agewhi = age*White global intlist age2 agefem agechr agewhi quietly logit ins retire $xlist $intlist

test $intlist (1)age2 = 0 (2)agefem = 0 (3)agechr = 0 (4)agewhi = 0 chi2(4) = 7.45 Prob > chi2 = 0.1141

El valor p es 0.114, por lo que la hipótesis nula no se rechaza en el nivel 0.05 o incluso en el nivel 0.10.

14.5.2 Pruebas de razón de verosimilitud Una prueba de razón de verosimilitud (LR) (ver sección 12.4) proporciona un método alternativo para probar hipótesis. Es asintóticamente equivalente a la prueba de Wald si el modelo está especificado correctamente. Para implementar la prueba LR de la hipótesis anterior, estimamos los parámetros de los modelos lrtest . general y restringido y luego usamos el comando Obtenemosrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr    

* Likelihood-ratio test quietly logit ins retire $xlist $intlist estimates store B quietly logit ins retire $xlist

Modelo aditivo de utilidad aleatoria 456 

Lrtest B Likelihood-ratio test (Assumptios: . nested in B)

Esta prueba tiene un valor prueba de Wald.

LR chi2(4) = 7.57 Prob > chi2 = 0.1088

p

de 0.109, bastante similar al de la

En algunas situaciones, el foco principal está en la probabilidad pronosticada del modelo y el signo y el tamaño de los coeficientes no son el foco de la investigación. Un ejemplo es la estimación de los puntajes de propensión, en cuyo caso, a menudo, se hace una recomendación para saturar el modelo y luego elegir el mejor modelo utilizando el criterio de información Bayesian ( BIC) . El criterio de información Akaike ( AIC) o el BIC también son útiles para comparar modelos que no están cursados y tienen diferentes números de parámetros; ver la sección 10.7.2.

14.5.3 Pruebas adicionales de especificación del modelo Para modelos específicos, a menudo hay pruebas específicas de la especificación específica. Aquí consideramos dos variantes de los modelos logit y probit.

Prueba multiplicadora de LaGrange de logit generalizado Stukel (1988) consideró, como alternativa al modelo logit, el modelo de logit familiar h generalizado '

eh (x β ) Λα ( x β )= (14.4) 1+e h (x β) '

α

'

α

Donde hα ( x ' β ) es una función no lineal estrictamente creciente de x ' β indexados por los parámetros de forma α 1 y α 2 que gobiernan, respectivamente, la pesadez de las colas y la simetría de la función Λ (.). Stukel propuso probar si (14.4) es un mejor modelo al usar un multiplicador de LaGrange (LM ) , o puntaje, prueba; ver la sección 12.5. Esta prueba tiene la ventaja de que solo requiere la estimación del modelo logit de hipótesis nula en lugar del modelo más complicado (14.4). Además, la prueba de LM puede implementarse complementando los regresores del modelo logit con regresores generados que son funciones de x ' β y probando el significado de estos regresores aumentados.

457 binarios

Capítulo 14 Modelos de resultados

Por ejemplo, para probar la salida del logit en la dirección de una familia h asimétrica, agregamos el regresor generado ( x 'i ^β )2 a la lista de regresores, volvemos a estimar el modelo logit y probamos si la variable añadida es significativa mejora el ajuste del modelo. Tenemos    

* Stukel score or LM test for asymetric h-family logit quietly logit ins retire $xlist

predict xbhat, xb generate xbhatsq = xbhat-2  quietly logit ins retire $xlist xbhatsq  test xbhatsq (1)xbhatsq = 0 chi2(1) = 37.91 Prob > chi2 = 0.0000

La hipótesis nula de la especificación correcta del modelo se ve fuertemente afectada porque la prueba de Wald de coeficiente cero para el regresor agregado (x 'i ^β )2 arroja una estadística χ 2 (1) de 38 con p=0,000 . Esta prueba es fácil de aplicar y también lo son otras pruebas de puntaje sugeridas por Stukel que usan el enfoque de aumento variable. Al mismo tiempo, recuerde de la sección 3. 5.5 que las pruebas tienen poder en más de un rechazo. Por lo tanto, el rechazo en el ejemplo anterior puede deberse a razones distintas a la necesidad de un modelo de logit h familiar asimétrico. Por ejemplo, tal vez sea suficiente utilizar un modelo logit con inclusión adicional de polinomios en los regresores continuos o la inclusión de variables adicionales como regresores. Regresión Probit Heteroscástico Los modelos estándar bit bit y logit suponen homoscedasticidad de los errores, u , en el modelo de variable latente (14.2). Esta restricción puede ser probada. Una estrategia es tener como modelo de hipótesis nula Pr ( Y i =1| x ) =ϕ (x 'i β /σ ) con la normalización

2 σ =1 , y como la hipótesis alternativa

Pr ( Y i =1| x ) =ϕ( x 'i β / σ i )(14.5) donde ahora de σ 2i =exp ( z 'i δ ) (14.6)

ui

en (14.2) es heteroscedástico con una varianza

Modelo aditivo de utilidad aleatoria 458 (z 1 , ... , z m ) donde las variables exógenas no contienen una constante, porque la restricción δ=0 produce σ 2i =1 como en el modelo nulo. Incluir una constante en z haría que el modelo no sea identificado. La estimación de ML puede basarse en (14.5) y (14.6). Los parámetros del modelo probit con heterocedasticidad se pueden estimar con ML utilizando el comando hetprob de Stata. La sintaxis para hetprob es Hetprob depvar [indepvars] [if] [in] [weight], het (varlist) [options] Los dos modelos se pueden comparar utilizando una prueba LR de δ=0 que se implementa automáticamente cuando se utiliza el comando. Alternativamente, se podría usar una prueba de Wald. Como ilustración, reconsideramos el modelo probit utilizado en el análisis anterior. Al especificar las variables en z , parece deseable excluir las variables ya incluidas en x , porque en un modelo binomial, una variable que afecta a Pr (Y =1) Y necesariamente debe afectar la varianza de . Para ingresar una variable en la especificación de ambos, la media y la varianza causan problemas de interpretación. En nuestra aplicación, z , donde elegimos la única variable crónica como nuestra crónica denota el número de condiciones crónicas que experimenta un individuo. Obtenemos

(Continúa en la siguiente página)  * Heteroskedastic probit model  Hetprob ins retire $xlist, het(chronic) nolog//Heteroskedastic Probit Heteroskedastic probit mode

Log likelihood = -1992.904

Number of obs = 3206 Zero outcomes = 1965 Nonzero outcomes = 1241 Wald chi2(7) = 90.34 Prob > chi2 = 0.0000

459 binarios

Capítulo 14 Modelos de resultados

Likelihood-ratio test of lnsigma2=0:chi2(1)=1.44

Prob > chi2 = 0.2303

La prueba LR indica que en el nivel de 0.05, no hay una mejora estadísticamente significativa en el modelo resultante de la generalización del modelo homoscedástico, porque p=0.23 . Sin embargo, como una cuestión de estrategia de modelado, es z mejor probar primero si las variables son variables explicativas omitidas del modelo de media condicional porque dicha especificación inversa también es consistente con la varianza que depende de z . Es decir, el hallazgo de que z ingrese a la función de varianza también es consistente con que se haya omitido incorrectamente de la función media condicional. En consecuencia, también se aplicó una prueba de adición variable al agregar crónica los regresores en el modelo probit, y se encontró que el valor p de la prueba era 0.23. Por lo tanto, la evidencia está en contra de la inclusión de crónica en el modelo probit.

14.5.4 Comparación de modelos A menudo surge una pregunta: ¿qué modelo es mejor, logit o probit? Como se verá en la siguiente sección, en muchos casos la probabilidad ajustada es muy similar en una gran parte del rango de x ' β . Las diferencias más grandes pueden ser evidentes en las colas de la distribución, pero se requiere una muestra grande para diferenciar confiablemente entre modelos sobre la base del comportamiento de la cola. Debido a que los modelos logit y probit no están cursados, un criterio de verosimilitud penalizado como AIC o BIC (ver sección 10.7.2) es atractivo para la selección del modelo. Sin embargo, estos dos modelos tienen el mismo número de

Modelo aditivo de utilidad aleatoria 460 parámetros, por lo que se reduce a elegir el modelo con mayor probabilidad de registro. El modelo de bit pro tiene una probabilidad logarítmica de -1,993.62 (vea la tabla en la página 452), que es 1.26 más alta que la -1,994.88 para logit. Esto favorece el modelo probit, pero la diferencia no es grande. Por ejemplo, una prueba LR de una única restricción rechaza al nivel 0.05 si la estadística LR excede 3.84 o equivalentemente si el cambio en la probabilidad logarítmica es 3.84 /2=1.92 .

14.6 Bondad de ajuste y predicción El resultado de Stata para las regresiones logit y probit tiene un formato similar. Se da la probabilidad de registro y la prueba de LR de la significación conjunta de los regresores y su valor p . Sin embargo, algunas medidas de bondad de ajuste general son deseables, incluidas las que son específicas para el modelo de resultado binario. Tres enfoques para evaluar el ajuste del modelo son las 2 medidas de pseudo R , las comparaciones de las probabilidades pronosticadas promedio por grupo con las frecuencias de muestra y las comparaciones basadas en la clasificación ( Y^ es igual a cero o uno). Ninguno de estos es la medida más preferida a priori. A continuación discutimos las comparaciones del ajuste del modelo usando las probabilidades pronosticadas.

14.6.1 Medida Pseudo- R2 En la regresión lineal, la suma total de las desviaciones cuadradas de la media puede descomponerse en sumas de cuadrados explicadas y residuales, y R2 mide la relación de la suma de cuadrados explicada a la suma total de cuadrados, con 0 y 1 como límites inferior y superior, respectivamente. Estas propiedades no se transfieren a la regresión no lineal. Sin embargo, hay algunas medidas de ajuste que intentan imitar la medida R2 de regresión lineal. Hay varias medidas R2 , una de las cuales se incluye en la salida de Stata. El R2 de McFadden se calcula como 1−L N ( ^β )/L N (Y´ ) , donde denota el valor de verosimilitud log maximizado o LN ( ^β) ajustado, y LN ( Y´ ) indica el valor de la probabilidad logarítmica en el intercepto only modeL Cuando se aplica a modelos con resultados binarios y multinomiales, los límites inferior y superior de la medida pseudo R2 son 0 y 1 (ver sección 10.7 .1), aunque 2 el ~ de McFadden no es una medida de la proporción de R

461 binarios

Capítulo 14 Modelos de resultados

varianza del dependiente variable explicada por el modelo. Para el modelo logit ajustado ~ R 2=0.068 .

14.6.2 Comparación de probabilidades predichas con frecuencias de muestra La comparación en la muestra de las probabilidades −1 pronosticadas promedio, N ∑ ^pi , con la frecuencia de la muestra, Y´ , no es útil para evaluar el ajuste de los modelos de resultados binarios. En particular, los dos son necesariamente iguales para los modelos logit que incluyen una intersección, porque las condiciones logit MLE de primer orden se pueden mostrar para imponer esta condición. Sin embargo, esta comparación puede ser útil para los subgrupos de observaciones. La prueba de especificación de Hosmer-Lemeshow evalúa la bondad del ajuste al comparar la frecuencia de muestreo de la variable dependiente con la probabilidad ajustada dentro de subgrupos de observaciones, con el número de subgrupos especificado por el investigador. La hipótesis nula es que los dos son iguales. La prueba es similar a la prueba de bondad de ajuste de chi cuadrado de Pearson. ^pg Deje y Y^ g denotan, respectivamente, la probabilidad pronosticada promedio y la frecuencia de muestreo en el grupo ^p g ¿ −Y^ g g . La estadística de prueba es g es el ¿ , donde ¿ G

∑¿ g=1

subíndice del grupo. Los grupos se basan en q uantiles de las probabilidades pronosticadas ordenadas. Por ejemplo, si G=10 , cada grupo corresponde a un decil del ordenado ^pi . Hosmer y Lemeshow estableció la distribución nula por simulación. Bajo el nulo de la especificación correcta, la estadística se distribuye como X 2 (G−2) . Sin embargo, se deben tener en cuenta dos advertencias: Primero, el resultado de la prueba es sensible al número de grupos utilizados en la especificación. En segundo lugar, mucho de lo que se sabe sobre las propiedades de la prueba se basa en la evidencia de Monte Carlo sobre el rendimiento de la prueba. Ver Hosmer y Lemeshow (1980, 2000). La evidencia de simulación sugiere que un tamaño de muestra fijo que especifique un gran número de grupos en la prueba provoca una divergencia entre los valores empíricos c.d.f. y el c.d.f. de la distribución X 2 (G−2) .

Modelo aditivo de utilidad aleatoria 462 La prueba de bondad de ajuste se realiza mediante el comando post estimación estat gof , que tiene la sintaxis estat gof [if] [in] [weight] [, options] donde la opción de grupo (#) especifica la cantidad de cuantíeles que se usarán para agrupar los datos, siendo 10 el valor predeterminado. Después de estimar los parámetros del modelo logit, realizamos esta prueba, estableciendo el número de grupos en cuatro. Obtenemos   

* Hosmer-Lemeshow gof test with groups

quietly logit ins retire $xlist wstat gof, group(4) // Hosmer-Lemeshow gof test Logistic model for ins, goodness-of-fit test (Table collapsed on quantiles of estimated probabilities) number of observations = 3206 number of groups = 4 Hosmer-Lemeshow chi2(2) = 14.04 Prob > chi2 = 0.0009

El resultado indica una especificación incorrecta, porque el valor p es 0.001. Para verificar si se produce el mismo resultado si usamos una mayor cantidad de grupos para realizar la prueba, repetimos la prueba para diez grupos.   

* quietly logit ins retire $xlist Hosmer-Lemeshow gof test with 10 groups

estat gof, group(10) // Hosmer-Lemeshow gof test Logistic model for ins, goodness-of-fit test (Table collapsed on quantiles of estimated probabilities) number of observations = 3206 number of groups = 10 Hosmer-Lemeshow chi2(8) = 31.48 Prob > chi2 = 0.0001

De nuevo, la prueba rechaza la especificación mantenida, esta vez con un valor de p aún menor.

14.6.3 Comparación de los resultados previstos con los resultados reales La medida anterior se basa en la probabilidad ajustada de tener seguro privado. En su lugar, podemos querer predecir el resultado en sí, es decir, si un individuo tiene seguro privado ( Y^ =1) o no tiene seguro ( Y^ =0) . Estrictamente hablando, esto

463 binarios

Capítulo 14 Modelos de resultados

depende de una función de pérdida. Si asumimos una función de pérdida simétrica, entonces es natural establecer si Y^ =1 ' ' ^ F( x β)>0.5 y Y =0 si F( x β) ≤0.5 . Una medida de bondad es el porcentaje de observaciones correctamente clasificadas. Las medidas de bondad de ajuste basadas en la clasificación se pueden obtener utilizando el comando de clasificación de postestimation estat. Para el modelo logit ajustado, obtenemos  

*Comparing fitted probability and dichotomous outcome quietly logit ins retire $xlist  estat classification Logistic model por ins

La tabla compara valores ajustados y reales. El porcentaje de valores correctamente especificados en este caso es 62.45. En este ejemplo, 308 observaciones se clasifican erróneamente como 1 cuando la clasificación correcta es 0, y 896 valores se clasifican erróneamente como 0 cuando el valor correcto es 1. Las restantes 345 + 16,57 observaciones se especifican correctamente. El comando de clasificación de estat también produce resultados detallados sobre los errores de clasificación, utilizando terminología que se usa comúnmente en bioestadística y se [R ] detalla en postestimation logístico. La relación 345/1241, llamada medida de sensibilidad, da la fracción de

Modelo aditivo de utilidad aleatoria 464 observaciones con Y =1 que están especificadas correctamente. La relación 1657/1965, llamada medida de especificidad, da la fracción de observaciones con Y =0 que están especificadas correctamente. Las proporciones 308/1965 y 896/1241 se conocen como índices de error de clasificación falsa positiva y falsos negativos.

14.6.4 El comando de predicción para probabilidades ajustadas Las probabilidades ajustadas se pueden calcular utilizando el comando de predicción posterior a la detección, definido en la sección 10.5.1. La diferencia entre los modelos logit y probit puede ser pequeña, especialmente en la parte media de la distribución. Por otro lado, las probabilidades ajustadas del LPM estimado por OLS pueden ser sustancialmente diferentes. Primero resumimos la probabilidad ajustada de los tres modelos que incluyen solo la variable hhincome como regresor.        

*Calculate and summarize fitted probabilities quietly logit ins hhincome predict plogit, pr quietly probit ins hhincome predict pprobit, pr quietly regress ins hhincome predict pols, xb summarize ins plogit pprobit pols

La media y la desviación estándar son esencialmente las mismas en los tres casos, pero el rango de los valores ajustados del LPM incluye seis valores inadmisibles fuera del intervalo [0,1] . Este hecho debe tenerse en cuenta al evaluar el gráfico que se muestra a continuación que compara la probabilidad ajustada de los tres modelos. Las observaciones desviadas de OLS se destacan en los extremos del rango de distribución, pero los resultados para logit y probit se combinan bien. Para las regresiones con un único regresor, trazar las probabilidades pronosticadas contra esa variable puede ser informativo, especialmente si esa variable toma un rango de valores. Tal gráfico ilustra las diferencias en los valores ajustados

465 binarios

Capítulo 14 Modelos de resultados

generados por diferentes estimadores. El ejemplo que se presenta a continuación traza los valores ajustados de logit, probit y LPM frente a los ingresos del hogar (hhincome). Para la legibilidad del gráfico, la opción jitter () se usa para oscilar los valores cero y uno observados, lo que lleva a una banda de valores de resultado que están alrededor de 0 y 1 en lugar de exactamente 0 o 1. Se destaca la divergencia entre las estimaciones de los dos primeros y los LPM (MCO) con altos valores de ingresos, aunque esto no es necesariamente grave porque el número de observaciones en el rango superior de ingresos es bastante pequeño. Los valores ajustados están cerca para la mayoría de la muestra.

  

*Following gives Figure mus14fig1.eps Sort hhincome

Graph twoway(scatter ins hhincome, msize(vsmall) jitter(3)) /* > */ (line plogit hhincome, clstyle(p1))/* > */ (line pprobit hhincome, cltyle(p2))/* > */ (line pols hhicome, clstyle(p3)),/* > */ scale (1.2) plotregion(style(none))/* > */ title(“Predicted Probabilities Across Models”)/* > */ xtitle(“HHINCOME (hhincome)”, size(medlarge)) xscale(titlegap(*5))/* > */ ytitle(“Predicted probability”, size(medlarge)) yscale(titlegap(*5))/* > */ legend(pos(1) ring(0) col(1)) egend(size(small))/* > */ legend(label(1 “Actual Dara (jittered)”) label(2 “Logit”)/* > */ label(3 “Probit”) label(4 “OLS”))

Figura 14.1. Predicted probabilities versus hhincome

Modelo aditivo de utilidad aleatoria 466

14.6.5 El comando prvalue para probabilidades ajustadas El comando de predicción proporciona probabilidades ajustadas para cada individuo, evaluando en x=x i . . En ocasiones, es útil obtener probabilidades pronosticadas en un valor representativo, x=x ¿ . Esto se puede hacer utilizando el comando nlcom, presentado en la sección 10.5.5. En su lugar, es más simple usar el comando prvalue pos estimación escrito por el usuario (Long y Freese 2006).

(Continúa en la siguiente página) La sintaxis de prvalue es prvalue [if] [in] [, x(conditions) rest(mean) ] x donde enumeramos dos opciones clave. La opción (condiciones) especifica los valores de acondicionamiento de los regresores, y la opción de rest( mean) predeterminada especifica que las variables no condicionadas deben establecerse en sus promedios de muestra. Omitir x (condiciones) significa que las predicciones se evalúan en x=´x . El comando genera un valor predicho (ajustado) para cada observación, aquí para una persona casada, jubilada, no hispana, de 65 años de edad con buen estado de salud, 17 años de educación y un ingreso igual a $ 50,000 (por lo que la variable de ingreso es igual 50).  

*Fitted probabilities for selected baseline

quietly logit ins retire $xlist prvalue, x(age=65 retire=0 hstatusg=1 hhincome=50 eduyear=17 married=1 hisp=0) logit: Predictions for ins Confidence instervals by delta method 

La probabilidad de tener un seguro privado es de 0,57 con el intervalo de confianza del 95% [0,52,0,62] . Este intervalo de

467 binarios

Capítulo 14 Modelos de resultados

confianza razonablemente ajustado es para la probabilidad de que Y =1 dado x=x ¿ . Hay mucha más incertidumbre en el resultado que Y =1 dado x=x ¿ . Por ejemplo, esta dificultad en ~ la predicción de valores reales conduce al R2 bajo para el modelo logit. Esta distinción es similar a la predicción de E ( Y | x ¿ y Y ∨x discutida en las secciones 3.6.1 y 10.5.2.

14.7 Efectos marginales Tres variantes de los efectos marginales, discutidos previamente en la sección 10.6, son el efecto marginal promedio (AME), los efectos marginales en un valor representativo (MER) y los efectos marginales en la media (MEM). En un modelo no lineal, los efectos marginales son más informativos que los coeficientes. Las fórmulas analíticas para los efectos marginales para los modelos binarios de resultados estándar se dieron en la tabla 14.1. Por ejemplo, para el modelo logit, el efecto marginal con respecto a un cambio en un regresor continuo, x j , evaluado en x=´x :, se estima por Λ( x´ ' β^ ) {1− Λ( ´x' ^β) } ^β j . Un intervalo de confianza asociado se puede calcular utilizando el método delta.

14.7.1 Efecto marginal a un valor representativo (MER) El comando postestimation mfx proporciona una estimación del efecto marginal en un valor particular de x=x ¿ , con el valor x=´x ; ver la sección 10.6. El valor predeterminado predeterminado no es necesariamente la mejor opción. Por ejemplo, si el modelo tiene varios regresores binarios, luego estos se igualan a sus promedios de muestra, lo cual no es particularmente significativo. Puede ser mejor para el usuario crear un valor de referencia y un caso índice para el cual se calculan los efectos marginales. Usamos como punto de referencia a un hispano de 75 años, jubilado, casado y con un buen estado de salud, 12 años de educación y un ingreso igual a 35. Luego  

*Marginal effects (MER) after logit

quietly logit ins retire $xlist  fx, at(1 75 1 35 12 1 1) // (MER) Marginal effects after logit y = pr(ins) (predict) = .25332793

Modelo aditivo de utilidad aleatoria 468

(*)dy/dx is for discrete change of dummy variable from 0 to 1

El orden de los valores en la opción at (numlist ) es el mismo que el de las variables en el comando de estimación anterior. Los valores de acondicionamiento de x aparecen en la última columna. Se puede hacer un cálculo similar en la mediana de x .

14.7.2 Efecto marginal en la media (MEM) A modo de comparación, reproducimos el cálculo predeterminado del comando mfx en el medio. Obtenemos  

*Marginal effects (MEM) after logit quietly logit ins retire $xlist  mfx // (MEM) Marginal effects after logit y = Pr(ins) (predict) = .37283542

(*)dy/dx is for discrete change of dummy variable from 0 to 1

En este caso particular, la MEM es un 20-30% mayor que la MER, a pesar de que la probabilidad predicha en x=´x del 0,373 en comparación con 0,253 en el concreto precedente valor de x. 14.7.3 Efecto marginal Promedio (AME)ffffffffffffffffffffffffffffffffffffffffffffffffffffffff

469 binarios

Capítulo 14 Modelos de resultados

El efecto marginal promedio (AME) se puede obtener utilizando la postestimación escrita por el usuario comando margeff (Bartus 2005) que está disponible para un número de serie modelos, incluyendo modelos Logit y Probit. Los errores estándar asociados y el intervalo de confianza para el AME se obtienen utilizando el método delta. Para una variable ficticia, AME se calcula como un cambio discreto en la variable dependiente a medida que la variable ficticia cambia de 0 a 1). Los AME también se pueden calcular en cualquier otro punto especificando la opción at (atlist). Para el modelo logit ajustado, obtenemos   

*Marginal effects (AME)after logit quietly logit ins retire $xlist

margeff // (AME) Average marginal effects on Prob(ins=1) after logit

En este ejemplo AME es 5-10% menos que el MEM. La diferencia puede ser mayor en otras muestras. 14.7.4 El comando prchange El cambio marginal en la probabilidad debido a un cambio de unidad en un regresor especificado, condicional a valores especificados de otros regresores, se pueden calcular utilizando el escrito por el usuario comando prchangmi (Long and Freese 2006). La sintaxis es similar a la de prvalue, discutida en la sección 14.6.5: , x ( conditions ) rest (mean) ] prc h ange varname [ if ] [ ¿ ] ¿ Donde Varname es la variable que cambia. El predeterminado para las variables de acondicionamiento.

valor

A continuación se presenta el efecto marginal de un cambio en el ingreso (bhincome) evaluado a la media de los regresores evaluados en x=´x . 

*Computing change in probability after logit

Modelo aditivo de utilidad aleatoria 470  

quietly logit ins retire $xlist

prchange hhincome logit: Changes in Probablities for ins

El resultado complementa el cálculo del efecto marginal al informar también los cambios en la probabilidad inducidos por varios tipos de cambio en el ingreso. La salida min-> máx. da el cambio · en la probabilidad debido a que el ingreso cambia del valor mínimo al máximo observado. La salida 0-> 1 da el cambio debido a resultados cambiando de 0 a 1. La salida - + 1/2 da el impacto del cambio de una unidad de medio a continuación a una media unidad por encima del valor base de ingresos. Y el resultado - + sd / 2 da el impacto del cambio de ingresos de la mitad de una desviación estándar por debajo de la mitad de una desviación estándar por encima del valor base. Agregar la opción de ayuda a este comando genera notas explicativas para la salida de la computadora.

14.8 Regresores Endógenos El probit y logit ML estimadores son incompatibles si cualquier regresor es endógeno. Se utilizan dos enfoques amplios para corregir la endogeneidad. El enfoque estructural específica un modelo completo que explícitamente modelos tanto no linealidad y endógeno. El modelo estructural específico utilizado difiere según si el regresor endógeno es discreto o continuo. La estimación de ML es más eficiente, pero a menudo se usan estimadores de dos pasos más simples (aunque menos eficientes). El modelo parcial alternativo o enfoque semiparamétrico define un residuo para la ecuación de interés y utiliza el estimador IV basado en la ortogonalidad de los instrumentos y este residual. Como en el caso lineal, un requisito clave es la existencia de uno o más instrumentos válidos que no explican directamente la variable dependiente binaria, sino que están correlacionados con el regresor endógeno. A diferencia del caso lineal, los diferentes enfoques para controlar la endogeneidad pueden llevar a

471 binarios

Capítulo 14 Modelos de resultados

estimadores diferentes incluso en el límite, ya que se están estimando los parámetros de diferentes modelos.

14.8.1 Ejemplo Nuevamente modelamos los resultados binarios, aunque utilizamos un conjunto diferente de regTessors. Los regresores incluye la línea continua variable (el logaritmo del ingreso familiar) que es potencialmente endógena, ya que la compra de seguro de salud complementario y el ingreso familiar pueden estar sujetos a choques no observados correlacionados, incluso después de controlar una variedad de variables exógenas. Es decir, para la muestra de HRS que se está considerando, la elección del seguro complementario (ins), así como del ingreso del hogar (línea), se puede considerar como determinada conjuntamente. Regresión probit regular que no controla para este rendimiento potencial de endogeneidad.  

*Endogenous probit using inconsistent probit MLE Generate linc = log(hhincome) (9 missing values generated)  global xlist2 female age age2 educyear married hisp chronic ad1 hstatusg  probit ins linc $xlist2, vce(robust) nolog Probit regression Number of obs = Wald chi2(11) Prob > chi2 Log pseudolikelihood = -1933.4275 Pseudo R2

White 3197 366.94 0.0000 0.0946

= = =

La línea regresora tiene un coeficiente de 0,35 y se estima con bastante precisión con un error estándar de 0,04. El efecto marginal asociado en x=´x , calculado usando el comando mfx, es 0.13. Esto implica que un aumento del 10% en el ingreso del

Modelo aditivo de utilidad aleatoria 472 hogar (un cambio de 0.1 en la línea) se asocia con un aumento de 0.013 en la probabilidad de tener un seguro de salud suplementario.

14.8.2 Supuestos del modelo Restringimos la atención sobre el caso de un único regresor endógeno continuo en un modelo de resultado binario. Para un regresor endógeno discreta se deben utilizar otros métodos. Consideramos el siguiente modelo latente variable lineal, en el ¿ que y 1 es la variable dependiente en la ecuación estructural y y 2 es un regresor endógeno en esta ecuación. Estos dos variables endógeno se modelan como lineal en las variables exógenas x1 y x2. Es decir: y ¿1 i=β y + x '1 i γ +ui (14.7)

¿

'

'

y 2 i=x 1i π 1+ x 2 i π 2 + vi (14.8)

2i

x 1 es un K 1 x 1 vector de regresores Dónde i=1, … N ; exógenos; y x 2 es un K 2 x 1 vector de IV adicional que afecta a y2 pero se puede excluir de (14.7) ya que no afectan directamente a y 1 . La identificación requiere que K 2 ≥ 1 . ¿

y 1 es latente y por lo tanto no se observa La variable directamente. En cambio, el resultado binario y 1 esobservado, ¿ ¿ con y 1=1 Si y 1> 0 , y y 1=0 o Si y 1 ≤ 0 . La ecuación (14.7) podría ser referido como “estructural”. Esta ecuación estructural es de interés principal y la segunda ecuación, llamada primera etapa de ecuación o de forma reducida ecuación, solo sirve como fuente de identificación de instrumentos. Proporciona un control sobre la fuerza de los instrumentos y sobre la bondad del ajuste de la forma reducida. La ecuación de forma reducida (14.8) explica la variación en la variable endógena en términos de variables estrictamente exógenas, incluidas las IV x 2 que se excluyen de la ecuación estructural. Estos instrumentos excluidos, previamente discutidos en el capítulo 6 dentro del contexto de modelos lineales, son esenciales para identificar los parámetros de la ecuación estructural. Dada la especificación de las ecuaciones estructurales y de forma reducida, la estimación puede ser simultánea (es decir, conjunta) o secuencial.

14.8.3

Enfoque Modelo-Estructural

473 binarios

Capítulo 14 Modelos de resultados

El enfoque del modelo estructural específico completamente las ¿ distribuciones de y 1 e y 2 en (14.7) y (14.8). Se supone que (ui , v i) están distribuidos normalmente de forma conjunta, es ui , v i decir, ) N (O ,∑), donde: ∑=(σ ij ) · En el modelo de probit ¿ binario, los coeficientes se identifican solo hasta un factor de escala, por lo tanto, mediante la normalización de escala, σ 11 =1 . Los supuestos implican que ui∨v i=ρ v i + ε i donde E( ε i∨vi )=0 y 2 es Una prueba de la hipótesis nula de exogeneidad de H : ρ=0 equivalente a la prueba de , porque entonces ui , y 0 v i son independientes. Este enfoque depende en gran medida de los supuestos de distribución. La estimación constante requiere tanto la normalidad como la homoscedasticidad de los errores ui , v i . El comando ivprobit La sintaxis de ivprobit es similar a la de ivregress, discutida en el capítulo 6: Ivprobit depvar [weight]

[varlist1]

(varlist2=varlist_iv) [if] [in] [, mle_options]

y2 y Donde varlist 2 se refiere a la variable endógena x varlis_iv se refiere a los instrumentos que están excluidos de 2 ¿ y la ecuación para 1 . La version predeterminada de ivprobit proporciona estimaciones de ML, y la opción de dos pasos genera estimaciones en dos pasos.

Máxima verosimilitud estimada Para este ejemplo, usamos como instrumentos dos variables excluidas, retire y sretire. Estos se refieren, respectivamente, al estado de jubilación individual y al estado de jubilación del cónyuge. Es probable que se correlacionen con la línea, porque la jubilación reducirá los ingresos del hogar. La suposición clave para la validez del instrumento es que el estado de jubilación no afecta directamente la elección del seguro complementario. Esta suposición es discutible, y este ejemplo se ve mejor como meramente ilustrativo.

Modelo aditivo de utilidad aleatoria 474 Aplicamos ivprobit, obteniendo estimaciones de ML:

  

*Endogenous probit usinf ivprobit ML estimator

global ivlist2 retire sretire ivprobit ins $xlist2 (linc 0 $ivlist2), vce(robust) nolog Probit model with endogenous regressors Number of obs = 3197 Wald chi2(11) = 382.34 Log pseudolikelihood = -5407.7151 Prob > chi2 = 0.0000

Wald test of exogeneity (/athrho = 0):chi2(1)=3.51 Prob > chi2=0.0610

La salida incluye una prueba de la hipótesis nula de exogeneidad, i.e., H 0 : ρ=0 . El valor p es 0,061, por lo H0 no es rechazada en el nivel de 0,05, aunque es rechazado en el nivel 0.10. El hecho de que el coeficiente estimado sea positivo indica una correlación positiva entre u y v . Esos factores no medidos que hacen más probable que un individuo tenga un ingreso familiar más alto también hacen que sea más probable que el individuo tenga un seguro de salud complementario, condicionado a otros regresores incluido en la ecuación.

475 binarios

Capítulo 14 Modelos de resultados

Dado el gran valor estimado para ρ( ρ^ =0.59) , deberíamos esperar que los coeficientes de los modelos probit e ivprobit estimados difieran. Este es realmente el caso, tanto para la línea regresora endógena como para los otros regresores. El coeficiente de línea realmente cambia los signos (de 0.35 a -0.53), por lo que se estima que un aumento en el ingreso del hogar reduce la probabilidad de tener un seguro complementario. Una posible explicación es que las personas más ricas están dispuestas a auto asegurarse para servicios médicos no cubiertos por Medicare. Al mismo tiempo, la estimación IV ha conducido a una imprecisión mucho mayor, con un error estándar que aumenta de 0.04 a 0.39, por lo que el coeficiente negativo no es estadísticamente significativamente diferente de cero en el nivel 0.05. Sin embargo, tomado en su valor nominal, el resultado sugiere que el comando probitivo que descuida la endogeneidad conduce a una sobreestimación del efecto del ingreso del hogar. Los coeficientes restantes muestran el mismo patrón de sigrr que en el modelo probit ordinario, y las diferencias en las estimaciones puntuales están dentro del rango de los errores estándar estimados. Estimaciones secuenciales de dos pasos

Un procedimiento de estimación alternativo para (14.7) y (14.8) con errores normales (Newey 1987) usa un estimador de chicuadrado mínimo. Este estimador también asume la normalidad multivariada y la homoscedasticidad y, por lo tanto, es similar al estimador de ML. Sin embargo, los detalles del algoritmo son diferentes. La ventaja del estimador secuencial de dos pasos sobre el estimador de ML es principalmente computacional porque ambos métodos hacen los mismos supuestos de distribución. El estimador se implementa utilizando ivprobit con la opción de dos pasos. Lo hacemos para nuestros datos, usando la primera opción, que también proporciona las estimaciones de mínimos cuadrados (LPM) de la primera etapa.

Modelo aditivo de utilidad aleatoria 476

(Continua en la página siguiente)

 

*Endogenous probit using ivprobit 2-step estimator

ivprobit ins $xlist2 (linc = $ivlist2), twostep first Checking reduced-form model… First-stage regression

Two-step probit with endogenous regressors

Number of obs = 3197 Wald chi2(11) = 222.51 Prob > chi2 = 0.0000

477 binarios

Capítulo 14 Modelos de resultados

Wald test of exogeneity chi2(1) =

3.57

Prob > chi2

=

0.0588

Los resultados del estimador de dos pasos son similares a los de la estimación ivprobit ML. Las estimaciones de los coeficientes están dentro del 20% de cada uno. Los errores estándar se incrementan aproximadamente en un 50%, lo que indica una pérdida de precisión en la estimación en dos pasos en comparación con la estimación de ML. El estadístico de prueba para la exogeneidad de la línea tiene un valor de p de 0.059 comparado con 0.061 usando ML. Los resultados para la primera etapa indican que uno de los dos excluidos IV tiene un fuerte valor predictivo para la línea. Debido a que esta es una ecuación de forma reducida, no intentamos una interpretación de los resultados. 14.8.4 Enfoque IVS Un enfoque alternativo menos estructural es usar los métodos de estimación IV para el modelo de regresión lineal, presentado en el capítulo 6. Esto requiere menos supuestos de distribución, aunque si se usa IV lineal, entonces la naturaleza binaria de la variable dependiente y 1 (ins) es ser ignorado. Tenemos la formulación lineal estándar para las variables observadas ( y 1 , y 2 ) '

y 1 i=β y 2 i + x 1 i γ + ui

'

'

y 2 i=x 1 i π 1 + x 2i π 2+ v i

Donde y 2 es endógeno y las covariables x 2 son los regresores exógenos excluidos (instrumentos). Este es el modelo (14.7) y ¿ (14.8) excepto que la variable latente y 1 es reemplazada por la variable binaria y 1 . Una diferencia importante es que mientras

Modelo aditivo de utilidad aleatoria 478 que (u , v ) son de media cero y dependen conjuntamente, no necesitan ser multivariados normales y homoscedásticos. La estimación es por mínimos cuadrados de dos etapas (2SLS), usando el comando ivregress. Como y 1 es binario, el error u es heteroscástico. El estimador 2SLS sigue siendo consistente ( β , γ ) , pero los errores estándar robustos de para heterocedasticidad deben usarse para la inferencia. En el capítulo 6, consideramos varios problemas, especialmente el de los instrumentos débiles, al aplicar el estimador IV. Estos problemas siguen siendo relevantes aquí también, y el lector vuelve al Capítulo 6 para un tratamiento más detallado del tema. El comando ivregress con la opción vce (robust) produce:  

* Endogenous probit using ivregress to get 2SLS estimator ivregress 2sls ins $xlist2 (linc=$ivlist2), vce(robust) noheader

Instrumented: linc Instruments: female age age2 educyear married hisp White chronic ad1 hstatusg retire sretire  estat overid Test of overigentifying restrictions: Score chi2(1) = .521843

(p = 0.4701)

Este método arroja una estimación del coeficiente de -0.17 de la línea que es estadísticamente insignificante en el nivel 0.05, en cuanto a ivprobit. Para comparar las estimaciones de ivregress con las estimaciones de IVprobit, debemos volver a escalar los parámetros como en la sección 14.4.3. Entonces la estimación del parámetro 2SLS re escalado es -0.17 x 2.5 = -0.42, comparable a las estimaciones de -0.53 y -0.61 del comando ivprobit. Las ventajas del estimador 2SLS son su implícita computación y la capacidad de utilizar pruebas de validez de instrumentos de

479 binarios

Capítulo 14 Modelos de resultados

sobre identificación y diagnósticos para instrumentos débiles que se presentaron en el capítulo 6. Al mismo tiempo, las pruebas e inferencias formales que requieren errores homoscedástico normales pueden ser inapropiadas. Debido a la heterocedasticidad intrínseca cuando la variable dependiente es binaria. Aquí la restricción de sobre identificación única no es rechazada por la prueba Hansen J, que arroja un valor de χ 2 (1) de 0,522. Si los resultados son sensibles a la elección de los instrumentos se puede seguir adelante mediante la estimación de especificaciones adicionales, un enfoque aconsejable si algunos instrumentos son débiles. El estimador lineal 2SLS en el ejemplo actual se basa únicamente E(u∨x 1 , x 2)=0 , en la condición de momento donde ' u= y1 −(β y + x 1 γ ) ; ver la sección 6.2.2. Para un resultado binario y1 modelado usando el modelo probit, es mejor usar el estimador 2SLS no lineal basado en la condición de momento E(u∨x 1 , x 2)=0 , donde el término de error, la diferencia entre y1 y su función media condicional, se define como u= y1 −(β y + x '1 γ ) . Esta condición de momento no está implícita en (14.7) y (1 4.8), por lo que las estimaciones diferirán de las siguientes: n el comando ivprobit. No hay ningún comando Stata para implementar el estimador 2SLS no lineal, pero el ejemplo 2SLS no lineal en la sección ll.8 puede adaptarse adecuadamente. 2

2

14.9 Datos agrupados En algunas aplicaciones, solo pueden estar disponibles los datos agrupados o agregados, pero se considera que el comportamiento individual se modela mejor mediante un modelo de elección binaria. Por ejemplo, podemos tener un promedio de frecuencia tomado a través de una población muestreada como la variable dependiente y promedios de variables explicativas para los regresores, que asumiremos que son exógenos. Nos referimos a estos como datos agrupados. Tal agrupación no plantea problemas cuando la agrupación se basa en valores únicos de los regresores y hay muchas observaciones por valor único de los regresores. Por ejemplo, en el conjunto de datos de este capítulo, la edad podría ser la variable de agrupación. Esto generaría 33 grupos, uno para cada edad entre 52 y 86; no hay observaciones para las edades 84 u 85. El número de casos en los 33 grupos es el siguiente

Modelo aditivo de utilidad aleatoria 480 Las observaciones sin variación dentro del grupo se eliminarán, y es probable que esto ocurra cuando el tamaño del grupo es pequeño. En la muestra actual, hay dos grupos con dos observaciones cada uno y dos con una sola observación. Estos grupos pequeños se descartan, lo que reduce el tamaño de la muestra a 29. Si el tamaño del grupo es relativamente grande y la variable de agrupamiento es distinta, el estimador de chi-cuadrado mínimo de Berkson es un método para estimar los parámetros del modelo. Como ejemplo, supongamos que el vector regresor x i , i=1,. .. , N , toma solo T valores distintos, donde T es mucho más pequeño que N. Entonces, para cada valor de los regresores, y . Este tipo de tenemos múltiples observaciones en agrupamiento implica muchas observaciones por celda. El estimador de Berkson (ver Cameron y Trivedi [2005, 480]) se puede calcular fácilmente por mínimos cuadrados ponderados (WLS). Este método no es adecuado para nuestros datos porque el vector regresor x i toma una gran cantidad de valores dados muchos regresores, algunos de los cuales son continuos. Sin embargo, agrupamos por edad para ilustrar los métodos de datos agrupados.

14.9.1 Estimación con datos agregados Dejemos que ´p g denote la frecuencia promedio en el grupo g( g=1,... , G, G> K ) , y que ´x g denote el promedio de x en N g , donde este último es el número de observaciones en el grupo g . Un posible modelo es la regresión MCO de ´p g en ´x g. Debido a 0 < ´p g at(%6.Of)

En promedio, las personas tienden a elegir el modo de pesca que es la alternativa más barata o la segunda más barata disponible para ellos. Por ejemplo, para aquellos que escogen lo privado, en promedio, el precio del alquiler de botes privados es de 42, en comparación con 71 para la pesca en bote y 138 para la pesca en la playa o en el muelle.

Del mismo modo, para la tasa de captura, tenemos  

*Table of fishing catch rate by fishing mde Table mode, contents (mean qbeach mean qpier mean qprivate mean qcharter) form > at(%6.2f)

El modo de pesca elegido no es, en promedio, el que tiene la tasa de captura más alta. En particular, la tasa de captura es siempre más alta en promedio para la pesca chárter, independientemente del modo elegido. El análisis de regresión puede medir el efecto de la tasa de captura después de controlar el precio del modo de pesca.

487 multinomiales

Capítulo 15 Modelos

15.4 Modelo logit multinomial Muchos estudios multinomiales se basan en conjuntos de datos que tienen solo variables específicas de cada caso, porque las variables explicativas se observan típicamente solo para la alternativa elegida y no para las otras alternativas. El modelo más simple es el modelo logit multinomial porque el cálculo es simple y las estimaciones de parámetros son más fáciles de interpretar que en otros modelos multinomiales.

15.4.1 El comando mlogit El modelo logit multinomial (MNL) se puede usar cuando todos los regresores son específicos de cada caso. El modelo MNL específica que pij =

exp ⁡( x 'i β j ) m

, j=1, … , m(15.5)

∑ exp ⁡( x i β j) '

i=1

Donde x i son regresores específicos de cada caso, aquí un intercepto e ingreso. Claramente, este modelo asegura que m

0< pij chi2 Log likelihood = -1477.1506 Pseudo R2

= = = =

1182 41.14 0.0000 0.0137

(mode==beach is the base outcome)

El ajuste del modelo es pobre con pseudo- R2 , definido en la sección 10.7 .1, igual a 0.014. No obstante, los regresores son estadísticamente significativos en conjunto en el nivel 0.05, LRchi 2 (3 )=41.14 . Se dan tres conjuntos de porque estimaciones de regresión, que corresponden a ^β 2 , ^β 3 y ^β 4 porque usamos la normalización β 1=0 . Dos de las tres estimaciones de coeficientes de ingresos son estadísticamente significativas en el nivel de 0.0.5, pero los resultados de dichas pruebas individuales variarán con la categoría de omisión. En cambio, debemos realizar una prueba conjunta. Usando una prueba de Wald, obtenemos  

*Wald test of the joint significance of income Test income (1) [pier] income = 0 (2) [private] income = 0 (3) [charter] income = 0 chi2(3) = 37.70 Prob > chi2 = 0.0000

489 multinomiales

Capítulo 15 Modelos

El ingreso es claramente altamente estadísticamente significativo. Un procedimiento de prueba alternativo lrtest asintóticamente equivalente es usar el comando (consulte la sección 12.4.2), que requiere ajustar adicionalmente el modelo de hipótesis nula que excluye el ingreso como regresor. En este caso, con solo un regresor, esto coincide con la prueba global LRchi 2(3)=41.14 informado en el encabezado de salida.

15.4.3 Interpretación del coeficiente Los coeficientes en un modelo multinomial se pueden interpretar de la misma manera que se interpretan los parámetros del modelo logit binario, siendo la comparación la categoría base. Esto es el resultado de que el modelo logit multinomial es equivalente a una serie de modelos logit por pares. Para simplificar, establecemos que la categoría base sea la primera categoría. Entonces el modelo MNL definido en (15.5) implica que '

Pr ( Y i = j|Y i= j o 1 )=

Pr ⁡( Y i= j) exp ⁡( x i β j) = Pr ( Y i= j ) + Pr ⁡( Y i =1) 1+ exp ⁡( x'i β j ) m

usando,

β 1=0 y cancelación de

∑ exp ⁡( x 'i β i )

en el numerador

i=1

y el denominador. Así, ^β j se puede ver como parámetros de un modelo logit binario entre la alternativa j y la alternativa 1. Por lo tanto, un coeficiente positivo de mlogit significa que a medida que aumenta el regresor, es más probable que elijamos la alternativa j que la alternativa 1. Esta interpretación varía con la categoría base y es claramente más útil cuando hay una categoría de base natural. Algunos investigadores consideran que es útil transformarse en odds ratios o proporciones de riesgo relativo, como en el caso del logit binario. La razón de posibilidades o la relación de riesgo relativo de elegir la alternativa j en lugar de la alternativa 1 está dada por Pr ⁡( Y i= j) =exp ( x 'i β j ) (15.6) Pr ⁡( Y i=1)

Modelo aditivo de utilidad aleatoria 490 así que e β da el cambio proporcional en el riesgo relativo de elegir la alternativa j en lugar de la alternativa 1 cuando x ir cambia en una unidad. jr

La opción rrr de mlogit proporciona estimaciones de coeficientes transformadas a razones de riesgo relativo. Tenemos

 

*Relative-risk option reports exp(b) rather than b

mlogit mode income, rr baseoutcome(1) nolog Multinomial logistic regression Number of obs LR chi2(3) Prob > chi2 Log likelihood = -1477.1506 Pseudo R2

= = = =

1182 41.14 0.0000 0.0137

(mode==beach is the base outcome)

Por lo tanto, un aumento de una unidad en el ingreso, que corresponde a un aumento mensual de $ 1,000, conduce a probabilidades relativas de elegir pescar desde un muelle en lugar de la playa que son 0.866 veces más de lo que eran antes del cambio; por lo que las probabilidades relativas han disminuido. El coeficiente de ingreso original para la alternativa pier fue -0. 1434 y e−0.1434 =0.8664 .

15.4.4 Probabilidades pronosticadas

491 multinomiales

Capítulo 15 Modelos

Después de la mayoría de los comandos de estimación, el comando de predicción crea una variable. Después de mlogit, sin embargo, se crean m variables, donde m es el número de alternativas. Las probabilidades pronosticadas para cada alternativa se obtienen usando la opción pr de predicción. Aquí obtenemos cuatro probabilidades predichas porque hay cuatro alternativas. Tenemos 

*Predict probabilities of choice of each mode and compare to actual freqs

 

predict pmlogit1 pmlogit2 pmlogit3 pmlogit4, pr cummarize pmlogit*dbeach dpier dprivate dcharter, separator(4)

Tenga en cuenta que las probabilidades promedio pronosticadas de la muestra son iguales a las frecuencias de muestra observadas. Este es siempre el caso para los modelos MNL que incluyen una intercepción, generalizando el resultado similar para los modelos logit binario. El modelo multinomial ideal predecirá perfectamente. Por ejemplo, pi idealmente tomaría un valor de 1 para las 134 observaciones con Y =1 y tomaría un valor de 0 para las p1 varía solo de 0.0947 a observaciones restantes. Aquí 0.1154, por lo que el modelo con ingresos como la única variable explicativa pronostica muy mal la pesca en la playa. Existe una variación considerablemente mayor en las probabilidades predichas para las otras tres alternativas.

15.4.5 MEs Para un modelo multinomial no ordenado, no existe un único medio condicional de la variable dependiente, Y . En cambio, hay m alternativa y modelamos las probabilidades de estas alternativas. El interés radica en cómo estas probabilidades cambian a medida que cambian los regresores. Para el modelo MNL, las ME pueden mostrarse como ∂ pij = pij ( β j− β´ i ) ∂ xi

Modelo aditivo de utilidad aleatoria 492 donde β´ i=∑ pij β j es un promedio ponderado de probabilidad β j . Los efectos marginales va1y con el punto de del evaluación, x i , porque pij j varía con x i . Los signos de los coeficientes de regresión hacen no da los signos de las ME. Para una variable x , la ME es positiva si β j > β´ i . El comando mfx calcula el ME en la media (MEM) y el ME en valores representativos (MER), con un cálculo separado para cada alternativa. Por ejemplo, para obtener el ME en Pr (Y =3) de un cambio en el ingreso evaluado a la media muestral de regresores, usamos  

*Marginal effect at mean of income change for outcome 3 mfx, predict(pr outcome (3)) Marginal effects after mlogit y = Pr(mode==3) (predict, pr outcome(3)) = .35220366

Un cambio en el ingreso de una unidad, equivalente a un aumento de $ 1 000 en el ingreso mensual, aumenta en 0,033 la probabilidad de pescar desde un bote privado en lugar de desde una playa, un muelle o un barco alquilado. El comando marge ff escrito por el usuario se puede usar después de mlogit para calcular el AME. El comando margef f trata el resultado ( j) como el resultado j-ésimo después de la categoría base, a diferencia de mfx, que trata el resultado ( j) j -ésimo. Aquí obtenemos el AME en como el resultado Pr (Y =3) . Debido a que esta es la segunda alternativa después de la categoría base Y =1 , usamos la opción de resultado (2). Tenemos  

*Average marginal effect of income change for outcome 3 margeff, outcome(2) //Use 2 as outcome: 3 is 2nd after baseoutcome(1) Average marginal effects on Prob(mode) after mlogit

El AME y el MEM son similares a quita en este ejemplo. Por lo general, mlogit conduce a diferencias mucho mayores.

15.5 Modelo de logit condicional

493 multinomiales

Capítulo 15 Modelos

Algunos estudios multinomiales utilizan conjuntos de datos más ricos que incluyen variables alternativas específicas, como precios y medidas de calidad para todas las alternativas, no solo la alternativa elegida. Luego se usa el modelo logit condicional.

15.5.1 Creación de datos largos a partir de datos de formato ancho Los parámetros de los modelos logit condicional se estiman con comandos que requiere que los datos estén en forma larga, con una observación que proporciona los datos para una sola alternativa para un individuo. Algunos conjuntos de datos ya estarán en formato largo, pero ese no es el caso aquí. En cambio, el mus 15 data. dta conjunto de datos está en forma amplia, con una observación que contiene datos para las cuatro alternativas para un individuo. Por ejemplo,  

*Data are in wide form List mode price pbeach ppier pprivate pcharter in 1, clean Mode price pbeach ppier pprivate pcharter 1. Charter 182.93 157.93 157.93 157.93 182.93

La primera observación tiene datos del precio de las cuatro alternativas. El modo elegido era charter, por lo que price se estableció en igual pcharter. Para convertir datos de forma amplia a larga, usamos el comando de remodelación, presentado en la sección 8. 1 1. Aquí, la forma larga tendrá cuatro observaciones para cada individuo según si el sufijo es beach, pier, private o charter. Estos sufijos son cadenas, en lugar de los números predeterminados del comando de remodelación, por lo que usamos la forma con la opción de cadena. Para completar, en realidad proveemos los cuatro sufijos. Tenemos

(Continúa en la siguiente página)   

*Convert data from wide form to long form generate id = _n reshape long d p q, i(id) j(fishmode beach charter) string Data wide -> long

pier

private

Modelo aditivo de utilidad aleatoria 494

, sabe mus15datalong.dta, replace file mus15datalong.dta saved

Ahora hay cuatro observaciones para el primer individuo o caso. Si no hubiéramos proporcionado los cuatro sufijos, el comando de remodelación habría creado erróneamente una quinta alternativa, arroz, del precio que, como pbeach, ppier, pprivate y pcharter, también comienza con la letra p. Para ver los resultados largos, forma de datos para el primer caso individual, enumeramos las primeras cuatro observaciones. 



*List data for the first case after reshape List in 1/4, clean noobs

El pedido ya no es muelle, playa, barco privado y luego barco de alquiler. En cambio, ahora es playa, barco fletado, muelle y luego barco privado, porque las observaciones se ordenan en el orden alfabético de fishmode. Para esta primera observación, la variable de resultado, d , es igual a 1 para la pesca en bote, como se esperaba. Las cuatro observaciones separadas sobre p q , son los las variables alternativas específicas, y diferentes valores de precio y calidad para las cuatro alternativas. Todas las variables específicas de cada caso aparecen como una sola variable que toma el mismo valor para los cuatro resultados. Para obtener ingresos, esto no es problema. Pero el modo, el precio y la época son engañosos aquí. La variable de modo indica que, para el caso 1, el modo fishing era mode = 4, porque en formato ancho original esto correspondía a la pesca en bote. Pero d=1 para la segunda observación del primer caso porque esto corresponde a la pesca en barco fletado en la forma larga reordenada. Lo mejor sería simplemente descartar

495 multinomiales

Capítulo 15 Modelos

las variables engañosas escribiendo la era del precio del modo drop , porque estas variables no son necesarias.

15.5.2 El comando asclogit Cuando algunos o todos los regresores son alternativos específicos, se utiliza el modelo de logit condicional (CL). El modelo CL específica que pij =

exp ⁡( x 'ij β + z'i γ j ) m

∑ exp ⁡( x

' ij

, j=1, … , m(15.7)

' i

β +z γ j)

i=1

donde x ij son regresores específicos de la alternativa y z i son regresores específicos de cada caso. Para garantizar la identificación del modelo, uno de los γ j se establece en cero, como para el modelo MNL. Algunos autores llaman al modelo por encima de un modelo logit mixto, con logit condicional utilizado para referirse a un modelo más restrictivo que tiene solo regresores específicos de la alternativa. El comando asclogit, un acrónimo alternativo-específico, tiene la sintaxis.

de

logit

condicional

asclogit depvar [indepvars] [if] [in] [weight] , case (varname) alternatives (varname) [options] donde indepvars son los reguladores alternativos-específicos, case ( varname) proporciona el identificador para cada caso o individuo, y alternativas ( varname ) proporciona las alternativas posibles. casevars( varlist) La opción se usa para proporcionar los nombres de los regresores específicos de cada caso. La opción de alternativa () base especifica la alternativa que se utilizará como categoría de base, que afecta solo a los coeficientes de los regresores específicos de cada caso. La opción altwise elimina solo los datos de una alternativa, en lugar de la observación completa, si faltan datos. La opción no constante anula el valor predeterminado de Stata, que incluye intercepciones específicas de cada caso. A continuación, los atributos de cada alternativa se explican únicamente por regresores alternativos específicos si no se utiliza constantes. Las interceptaciones específicas de cada caso proporcionadas por el estimador predeterminado se interpretan como que reflejan la conveniencia de cada alternativa debido a los atributos no medidos de la alternativa.

Modelo aditivo de utilidad aleatoria 496 El comando asclogit permite que el conjunto de opciones varíe entre individuos y se seleccione más de una alternativa. 15.5.3 El comando clogit El modelo logit condicional también se puede ajustar utilizando el comando clogit, produciendo los mismos resultados. El comando clogit se designa para los datos agrupados utilizados en los estudios de grupos de casos y controles coincidentes y es similar al comando xtlogit utilizado para los datos del panel agrupados en el tiempo para un individuo. El comando clogit no tiene una opción para variables específicas de un caso. En cambio, una variable específica de un caso se interactúa con variables ficticias para alternativas m−1 , y las variables m−1 se ingresan como regresores. Esto se ilustra en la sección 15.8.3, donde se necesitan las mismas transformaciones de datos para el comando mixlogit escrito por el usuario. Para aplicaciones como la estudiada en este capítulo, un asclogit es más fácil de usar que el clogit. 15.5.4 Aplicación del comando asclogit Estimamos los parámetros del modelo CL para explicar la elección del modo de pesca dados los regresores específicos de la alternativa sobre el precio y la calidad; el regresor específico del caso, el ingreso; y interceptaciones de casos específicos. En cuanto al modelo MNL, la pesca en la playa se establecerá como la categoría base. Tenemos:  

*Conditionall logit with alternative-specific and case-specific regressors

asclogit d p q, case(id) alternatives(fishmode) casevars(income) > basealternative(beach) nolog Alternative-specific conditional logit Number of obs = 4728 Case variable: id Number of cases = 1182 Alternative variable: fishmode Alts per case: min = 4 avg = 4.0 max = 4 Wald chi2(5) = 252.98 Log likelihood = -1215.1376 Prob > chi2 = 0.0000

497 multinomiales

Capítulo 15 Modelos

El primer conjunto de estimaciones son los coeficientes ^β para el precio y la calidad de los regresores específicos alternativos. Los siguientes tres conjuntos de estimaciones son para interceptos y regresores específicos de cada caso. Los ^y c h arter ^y pier > y coeficientes son, respectivamente > ^y private , porque usamos la normalización γ beach=0 . El encabezado de salida no da el pseudo R2 , pero esto se puede calcular usando la fórmula dada en la sección 10.7.1. Aquí ln Lfit = - 1215.1, y la estimación de un modelo de solo intercepciones arroja ln L0 = - 1497.7, entonces R2 = 1-(1215.1) / (-1497.7) =0.189, mucho más alto que el 0.014 para el modelo MNL en la sección 15.4.2. Los regresores p, q, y los ingresos son altamente estadísticamente significativos en Waldchi2 (5)=253 . El comando de prueba se conjunto con puede usar para pruebas individuales de Wald, o el comando lrtest se puede usar para pruebas de razón de verosimilitud (LR). El modelo CL en esta sección se reduce al modelo MNL en la sección 15.4.2 si β p=0 y β q=0 . Usando una prueba de Wald o una prueba de LR, esta hipótesis es rechazada con fuerza, y el modelo CL es el preferido modelo.

15.5.5 Relación con el modelo logit multinomial Los modelos MNL y CL son esencialmente equivalentes. El comando mlogit está diseñado para regresores específicos de casos y datos en forma amplia. El comando asclogit está

Modelo aditivo de utilidad aleatoria 498 diseñado para regresores específicos de alternativa y datos en forma larga. Los parámetros del modelo MNL pueden estimarse utilizando asclogía como el caso especial sin regresores específicos de la alternativa. Así:   >

*XNL is CL with no alternative-specific regressors asclogit d, case(id) alternatives(fishmode) casevars(income) basealternative(beach) (output omitted)

Produce las mismas estimaciones que el comando anterior de mlogit. Cuando todos los regresores son específicos de cada caso, es más fácil usar mlogit con datos en forma amplia. Yendo para otro lado, es posible estimar los parámetros de un modelo CL usando mlogit. Esto es más difícil porque requiere transformar los regresores específicos alternativos a las desviaciones de la categoría base y luego imponer restricciones de igualdad de parámetros. Para los modelos CL, asclogi es mucho más fácil de usar que mlogit.

15.5.6 Interpretación del coeficiente Los coeficientes de los regresores específicos de la alternativa se interpretan fácilmente. El regresor específico de la alternativa se puede denotar por x r con el coeficiente β r . El efecto de un cambio en x rik , que es el valor de x r para el individuo i y la alternativa k , es: δ pij = p ij ( 1− pij ) β r j=k δ x rik − pij pik β r j ≠ k

{

(15.8)

β r >0 , entonces el propio efecto es positivo porque Si pij (1− pij ) β r >0 , y el efecto cruzado es negativo porque pij pik β r