STATA ENAHO

1. Modelo de elecci´ on Cualitativa Los modelos de elecci´ on cualitativa son muy u ´tiles porque pueden ser usadas a p

Views 272 Downloads 3 File size 367KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

1.

Modelo de elecci´ on Cualitativa Los modelos de elecci´ on cualitativa son muy u ´tiles porque pueden ser usadas a partir de

simples respuestas como un si o un no. Podemos mencionar por ejemplo la decisi´on de una empresa de si va a distribuir sus utilidades a sus accionistas o no, o votar por un candidato pol´ıtico o no, o si un individuo viene a trabajar o no. Estos son distintos de los modelos tradicionales. El objetivo de los modelos de elecci´on cualitativa es encontrar la probabilidad de que algo ocurra.Por ello los modelos de elecci´on cualitativa son conocidos tambi´en como modelos de probabilidad.

2.

Modelo Logit Logit se ajusta a un modelo logit para una respuesta binaria por m´axima verosimilitud ;

modela la probabilidad de un resultado positivo dado un conjunto de regresores.La variable dependiente puede salir uno o cero,generalmente sale 1 si es el resultado es positivo y 0 si es resultado es negativo. Cuando ejecutamos el comando Logistico nos estima la raz´on de oportunidad.Muchos usuarios prefieren el comando logistic que el logit.Los resultados son los mismos independientemente de quien se utilice, ambos dan la maxima probabilidad de estimaci´ on.

Modelo logit de y con x1 x2 logit

2.1.

y

x1

x2

Uso B´ asico

Logit arregla la m´ axima probabilidad con un modelo de variable dependiente dicotomica entre 0 y 1. Para los datos agrupados o datos en forma binomial.

2.1.1.

Ejemplo

Vamos a realizar un ejemplo pr´actico. Tenemos datos sobre la composici´on(make) , el peso(weight) y el kilometraje(mpg), clasificados en 22 extranjeros y 52 autom´oviles nacionales. 1

Asi se ve una muestra de la data:

He aqu´ı un resumen de nuestros datos:

Vamos a estimar la probabilidad de que los coches sean extranjeros sobre la base de su peso, y el kilometraje, para eso partimos del modelo logit: La variable foreign toma dos valores u ´nicos , 0 y 1. El valor 0 significa coche es nacional , y 1 denota un coche extranjero . El modelo que se desea es encajar P rob(f oreign = 1) = F (B0 + B1 weight + B2 mpg) 2

donde: F (z) =

ez 1 + ez

es la distribucion acumulativa logistica

Para arreglar el modelo,escribimos:

Nos encontramos con que los coches m´as pesados son menos propensos a ser extranjeros y que los coches que producen mejor rendimiento de combustible son tambi´en menos probable que sea extranjera , al menos manteniendo el peso del carro constante.

Ajuste del Modelo: En total fueron realizadas cinco iteraciones para estimar el modelo. La funci´ on LR chi2, el valor indica que los coeficiente son significativos para explicar

3

la probabilidad de que los choches pueden ser extranjeros. El valor del estad´ıstico P rob > chi2 indica que podemos rechazar en 0 por ciento que todos los coeficientes sean iguales a cero. La interpretaci´ on del seudo R2, se acerca a la explicaci´on del R2 tradicional, indica indica que aproximadamente 39.66 por ciento de la variaci´on de la variable dependiente puede ser explicada por la variaci´on de las variables independientes del modelo. Existen otras medidas para analizar la calidad del ajustamiento del modelo, por ejemplo:

Digitando estat class prestamos atenci´on a los datos de “valores correctamente clasificados, podemos afirmar que en general el modelo provee 79.73 por ciento de las observaciones correctamente.

4

Analisis de variables:

Individualmente en el test Z la variable peso no es un factor que explica la probabilidad de que el coche sea extranjero. En el caso de logit los coeficiente miden la variaci´on en el Logit estimado, para una variaci´ on unitaria de la variable explicativa dada. En el caso de la variable kilometraje es −0,168 unidades, lo que sugiere una relaci´on negativa entre el kilometraje y que el coche sea extranjero.

2.1.2.

Nota t´ ecnica

Stata interpreta un valor de 0 como un resultado negativo (fallo) y trata a todos los dem´ as valores (excepto desaparecidos ) como resultados positivos (´exitos ). As´ı, si la variable dependiente toma los valores 0 y 1 , a continuaci´on, 0 se interpreta como el fracaso y el 1 como el ´exito . Si la variable dependiente toma los valores 0 , 1 , 2 y , a continuaci´on, 0 se sigue interpretarse como falta , pero ambos 1 y 2 son tratados como ´exitos . Si se prefiere una formulaci´ on matem´ atica m´ as formal , cuando se tipea logit y x , Stata ajusta el modelo:

P rob(yj 6=| xj ) =

3.

eXj B 1 + eXj B

COEFICIENTE DE GINI

3.1.

Definiciones previas

CURVA DE LORENZ

Curva que relaciona el porcentaje acumulado de la poblaci´on, con el porcentaje acumulado del ingreso que posee esa poblaci´on. Esta curva permite representar gr´aficamente la concentraci´ on del ingreso de una regi´on en un per´ıodo determinado.

5

Se calcula ordenando la informaci´on de los individuos en cuanto a ingreso de forma ascendente, posteriormente se establece el porcentaje del ingreso que le corresponde al X porcentaje con ingreso m´ as bajo de la poblaci´on. El porcentaje acumulado de la poblaci´on se gr´ afica en el eje horizontal y el porcentaje de ingreso acumulado para esa poblaci´on se gr´ afica en el eje vertical.

Si dos curvas de Lorenz (cada una para una poblaci´on diferente o para un periodo diferente) se cruzan, no es posible determinar cu´al de las dos poblaciones tiene una distribuci´on menos o m´ as concentrada del ingreso.

Con base en ´esta curva, es posible calcular el coeficiente de Gini para medir la concentraci´ on del ingreso.

3.2.

COEFICIENTE DE GINI

El coeficiente de Gini es un indicador de la desigualdad de ingreso entre los individuos de una regi´ on, en un determinado periodo. Normalmente se utiliza para medir la desigualdad de los ingresos, dentro de un pa´ıs. El coeficiente de Gini es un n´ umero entre 0 y 1, en donde 0 corresponde con la perfecta igualdad (todos tienen los mismos ingresos) y donde el valor 1 se corresponde con la perfecta desigualdad (una persona tiene todos los ingresos y los dem´as ninguno).

6

Debemos tomar en cuenta que el coeficiente de Gini no mide el bienestar de una sociedad. Tampoco permite, solo por s´ı solo, determinar determinar la forma como est´a concentrado el ingreso; ni indica la diferencia en mejores condiciones de vida en un pa´ıs u otro. El ´ındice de Gini es el coeficiente de Gini expresado en referencia a 100 como m´aximo, en vez de como 1, y es igual al coeficiente de Gini multiplicado por 100. Una variaci´on de dos cent´esimas del coeficiente de Gini (o dos unidades del ´ındice) equivale a una distribuci´on de un 7 por ciento de riqueza del sector m´as pobre de la poblaci´on (por debajo de la mediana) al m´ as rico (por encima de la mediana).

Aunque el coeficiente de Gini se utiliza sobre todo para medir la desigualdad en los ingresos, tambi´en puede utilizarse para medir la desigualdad en la riqueza. Este uso requiere que nadie disponga de una riqueza neta negativa.

3.3.

M´ etodo de c´ alculo

El coeficiente de Gini, se calcula como el cociente entre el ´area comprendida entre la diagonal y la curva de Lorenz (´ area A en el gr´afico) sobre el ´area bajo la diagonal (´area A+B). Si existiera perfecta igualdad, la curva de Lorenz coincidir´ıa con la diagonal, el ´area A desaparecer´ıa y el coeficiente de Gini ser´a cero, indicando ausencia de desigualdad. En el otro caso extremo, si existiera desigualdad total (es decir, una situaci´on donde todo el ingreso sea propiedad de una sola persona) la curva de Lorenz coincidir´ıa con los ejes, el area B desaparecer´ıa y el Gini se har´ıa 1, indicando desigualdad total. ´

7

En la pr´ actica una f´ ormula usual para calcular el coeficiente de Gini (G) es la siguiente:

Donde: i: indexa a las personas o grupos de personas. n: es el n´ umero de personas o estratos de ingreso u: indica el ingreso medio Yi: el ingreso de la persona o estrato i.

3.4.

Importancia

Dado que el Coeficiente de Gini es de f´acil interpretaci´on, es el indicador de desigualdad m´ as utilizado. Permite conocer las condiciones de desigualdad de un pa´ıs y compararlo con otros pa´ıses. El coeficiente de Gini tambi´en puede ser utilizado para realizar comparaciones entre pa´ıses.

3.5.

Consideraciones

El coeficiente es insensible ante cambios en la distribuci´on de ingreso que no generen cambios en el ´ area A. Es m´ as sensible a aumentos en el ingreso de los individuos m´as pobres. Adicionalmente, no tiene sentido sumar o promediar varios coeficientes de Gini. Com´ unmente, se calcula a partir de la encuestas de Hogares. As´ı mismo, es posible encontrar medidas como: Coeficiente de Gini de los pobres: Corresponde al coeficiente Gini calculado solamente para ´este grupo de poblaci´ on. Coeficiente de Gini per c´apita del hogar: Es el Gini calculado con el ingreso per c´ apita de cada miembro del hogar. Coeficiente de Gini del ingreso total del perceptor: Es el Gini calculado con el ingreso laboral y no laboral del perceptor. Coeficiente de Gini del ingreso laboral del perceptor: Es el Gini calculado solamente con el ingreso laboral del p

8

4.

R2 DE MCFADENN Los modelos de regresi´ on log´ıstica se ajustaron utilizando el m´etodo de m´axima vero-

similitud, es decir, las estimaciones de los par´ametros son los valores que maximizan la probabilidad de que los datos que se han observado. R al cuadrado de McFadden se define como:

faden 1.png

Donde Lc denota el valor de probabilidad (maximizado) desde el modelo ajustado actual, y Lnull indica el valor correspondiente pero para el modelo nulo - el modelo con solamente una intersecci´ on y no hay covariables -(variables explicativas). Para tratar de comprender si esta definici´on tiene sentido, supongamos en primer lugar que las covariables en nuestro modelo actual, de hecho, no dan ninguna informaci´on predictiva sobre el resultado. Para los datos binarios individuales, la contribuci´on probabilidad de cada observaci´ on es entre 0 y 1 (una probabilidad), y as´ı la contribuci´on de probabilidad log es negativo. Si el modelo no tiene ninguna capacidad de predicci´on, aunque el valor de probabilidad para el modelo actual ser´a (es siempre) es mayor que la probabilidad de que el modelo nulo, no ser´ a mucho mayor. Por tanto, la relaci´on de las dos verosimilitudes log ser´ a cercano a 1, y R2 McFadden ser´a cercano a cero, como esperar´ıamos. A continuaci´ on, supongamos que nuestro actual modelo explica la casi totalidad de la variaci´ on en el resultado, que vamos a denotamos Y. ¿C´omo podr´ıa suceder esto? Recordando que el prop´ osito del modelo de regresi´on log´ıstica es dar una predicci´on para P (Y = 1) para cada sujeto, necesitar´ıamos P (Y = 1) ?1 para aquellos sujetos que tienen Y = 1, y P (Y = 1 ) ?0 para aquellos sujetos que ten´ıan Y = 0. Si este es el caso, la probabilidad de ver Y = 1 cuando P (Y = 1) ?1 es casi 1, y de manera similar la probabilidad de ver y = 0 cuando P (Y = 1) ?0 es casi 1. Esto significa que el valor de probabilidad para cada observaci´on es cercano a 1. El log de 1 es 0, por lo que la probabilidad logar´ıtmica (Lc) ser´a cercano a 0. R2 McFadden ser´ a cercano a 1. Por supuesto, en la investigaci´ on emp´ırica m´as t´ıpicamente uno no pod´ıa esperar para encontrar predictores que son lo suficientemente fuertes como para dar probabilidades predichas tan cerca de 0 o 1, y as´ı uno no debe sorprenderse si se obtiene un valor de R2 McFadden, que no es muy grande.

9

5.

PRUEBA DE KOLGOMOROV SMIRLOV En general, la prueba de Kolmogorov - Smirnov no es muy potente contra las diferencias

en las colas de las distribuciones. En cambio de esto, es bastante potente para hip´otesis alternativas que implican bultos o agrupaci´on en los datos. Las hip´otesis direccionales se eval´ uan con las estad´ısticas

1.png D´ onde F(x) y G(x) son las funciones de distribuci´on emp´ıricas para la muestra que se est´an comparando. El estad´ıstico combinado es:

El valor de p para este estad´ıstico se puede obtener mediante la evaluaci´on de la distribuci´on l´ımite asint´ otico. Sea m el tama˜ no de la muestra para la primera muestra, y sea n el tama˜ no de la muestra para la segunda muestra. Smirnov (1933) muestra que:

Los primeros cinco t´erminos forman la aproximaci´on Pa utilizado por Stata. El valor exacto de p se calcula mediante un algoritmo de conteo.

5.1.

Prueba de Kolgomorov Smirlov en Stata

Sintaxis:

? Prueba de una sola muestra de Kolmogorov- Smirnov: ksmirnov varname = exp [if] [in] ? Prueba de dos muestras de Kolmogorov - Smirnov ksmirnov varname = exp [if] [in] , by(groupvar) En la primera sintaxis, varname es la variable cuya distribuci´on est´a siendo probado, y exp debe evaluar en el correspondiente (te´orico) acumulada. En la segunda sintaxis, groupvar

10

debe asumir dos valores distintos. La distribuci´on de varname para el primer valor de groupvar se compara con la de la segunda valor.

Ejemplos: Ejemplo 1: Prueba de dos muestras Decimos que tenemos datos de x que result´o de dos experimentos diferentes, etiquetados como grupo = 1 y el grupo = 2. Nuestros datos contienen

Deseamos utilizar el test de dos muestras de Kolmogorov - Smirnov para determinar si hay diferencias en la distribuci´ on de x para estos dos grupos: ksmirnov X, by(group) Two-sample Kolgomorov Smirnov test for equality of distribution functions

La primera l´ınea pone a prueba la hip´otesis de que x para el grupo 1 contiene valores menores que para el grupo 2. La mayor diferencia entre las funciones de distribuci´on es de 0,5. El p - valor asint´ otico aproximado de esto es 0,424, lo cual no es significativo. La segunda l´ınea a prueba la hip´otesis de que x para el grupo 1 contiene valores mayores que en el grupo 2. La mayor diferencia entre las funciones de distribuci´on en esta direcci´on es 0,1667. El p - valor asint´ otico aproximado para esta peque˜ na diferencia es 0.909. Por u ´ltimo, el valor de p asint´ otica aproximado para la prueba combinada es de 0.785. El p- valores aproximados ksmirnov calcula se basan en la aproximaci´on de cinco plazo de las distribuciones asint´ oticas derivados por Smirnov (1933). Estas aproximaciones no son buenas para muestras peque˜ nas (n ¡50). Son demasiado conservador.

11