Stefany Gomez

“UNIVERCIDAD NACIONAL SANTIAGO ANTUNEZ DE MAYOLO” TEMA: MODELO DE REGRECION CON VARIABLE DICOTOMA :ANOVA Y ANCOVA DOCE

Views 124 Downloads 124 File size 666KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

“UNIVERCIDAD NACIONAL SANTIAGO ANTUNEZ DE MAYOLO”

TEMA: MODELO DE REGRECION CON VARIABLE DICOTOMA :ANOVA Y ANCOVA

DOCENTE: Fernando López Carlos Enrique

CURSO: Econometría II

ALUMNA: Gomez Rodríguez Stefany

SICLO: VI- nivelación

TEMA: Trabajo monográfico

HURAZ-2020 STEFANY GOMEZ

1

INDICE INTRODUCCION OBJETIVOS…………………………………………………………………………………...….4 I.

DESARROLLO DEL TEMA 1.1. NATURALEZA DE LAS VARIABLES DICOTOMAS…………………………….…...5 1.2. DEFINICION …………………………………………………………………………….5 1.3. MODELOS DE ANALISIS DE VARIANZA (ANOVA)……………………….………6 1.3.1. MODELOS CON UNA VARIABLE CUALITATIVA……………………..…….….6 1.3.2. MODELOS CON DOS VARIABLES CUALITATIVAS……………………...……..7 1.4. MODELOS DE ANALISIS DE COVARIANZA (ANCOVA)………………………….8 1.5. LA VARIABLE DICÓTOMA ALTERNATIVA A LA PRUEBA DE CHOW…………9 1.6.EFECTOS DE INTERACCIÓN AL UTILIZAR VARIABLES DICÓTOMAS…………9 1.7.USO DE LAS VARIABLES DICÓTOMAS EN EL ANÁLISIS ESTACIONAL…...…..10 1.8. ¿QUÉ SUCEDE SI LA VARIABLE DEPENDIENTE ES DICÓTOMA?.......................10

1.9. EJERCICIOS RESUELTOS……………………………………………………...……..11 1.9.1 EJERCICIOS DE (ANOVA)…………………………………………………………..12 1.9.2. EJERCICIOS DE (ANCOVA)……………………………………………….………..12 CONCLUCIONES REFERENCIAS BIBLIOGRAFICAS ANEXOS

STEFANY GOMEZ

2

INTRODUCCION

En el siguiente trabajo se analiza brevemente los modelos de regresión con variables dicótomas que sabemos pueden combinarse para caracterizar variables definidas por su pertenencia o no a un grupo. Si incluyo una variable cualitativa que me define la pertenencia o no de un país a un grupo, por ejemplo, renta alta, media y baja, introduciré tres variables cualitativas en el modelo asociadas a la pertenencia o no a cada grupo; la primera caracterizaría a los individuos con renta alta, la segunda a los individuos con renta media, y la tercera a los individuos con renta baja. El cual Los modelos que utilizan variables cualitativas como regresores se diferencian en dos grupos, los modelos de Análisis de la Varianza o modelos ANOVA, que únicamente incluyen variables cualitativas como regresores; y los modelos de Análisis de la Covarianza o modelos ANCOVA que incluyen tanto variables cualitativas como cuantitativas. Los modelos ANOVA son muy utilizados en Sociología, Psicología, Educación, etc.; en Economía son más comunes los modelos ANCOVA. Para entender de mejor manera también se desarrollarán unos pequeños ejercicios.

STEFANY GOMEZ

3

OBJETIVOS



Que el trabajo desarrollado sirva como un pequeño resumen del tema en mención para que ayude a como un aporte al conocimiento de los estudiantes.



También que sea aportativo de aclararnos el tema.



Que el trabajo muestre lo más importante, pero sin dejar de lado aspectos pequeños que nos ayuden a comprender mejor.



Como es parte del tema de econometría también sirviera para aclarar algunas dudas de la clasificación de los modelos ANCOVA Y ANOVA.

STEFANY GOMEZ

4

I. DESARROLLO DEL TEMA 1.1.NATURALEZA DE LAS VARIABLES DICOTOMAS En el análisis de regresión, la variable dependiente o regresada a menudo acusa influencia no sólo de variables en escala de razón (por ejemplo: ingreso, producción, precios, costos y estatura), sino también de variables cualitativas por naturaleza, o de escala nominal (como sexo, raza, color, religión, nacionalidad, región geográfica, cambios políticos y afiliación partidista). Por ejemplo, con los demás factores constantes, se ha visto que las trabajadoras ganan menos que sus pares masculinos, y que las personas de color ganan menos que las blancas. Este patrón puede resultar de la discriminación sexual o racial, pero cualquiera que sea la razón, las variables cualitativas, como sexo y raza, sí influyen en la variable dependiente y es claro que deben incluirse en las explicativas, o regresoras. Como tales variables suelen indicar la presencia o ausencia de una “cualidad” o atributo, como femenino o masculino, negro o blanco, católico o no católico, demócrata o republicano, son variables en escala nominal esencialmente. Una manera de “cuantificar” tales atributos son mediante variables artificiales que toman los valores 0 o 1, donde 1 indica la presencia (o posesión) de ese atributo y 0 su ausencia. Por ejemplo, 1 puede indicar que una persona es de sexo femenino y 0 que es de sexo masculino; o 1 puede indicar que una persona se graduó en la universidad y 0 que no lo ha hecho, y así en cada caso. Las variables que adquieren tales valores 0 y 1 se llaman variables dicótomas. 1.2. DEFINICION La regresión con variables ficticias (variables dummy) surge por la necesidad que tiene el investigador de involucrar variables cualitativas (o de atributos, o de categorías) en un análisis de regresión sea este simple o múltiple. Como las variables cuantitativas. De hecho, un modelo de regresión puede contener variables explicativas exclusivamente dicótomas o cualitativas, por naturaleza. Tales modelos se denominan modelos de análisis de varianza (ANOVA). En el siguiente cuadro nos muestra un pequeño resumen y su clasificación de lo que tratara el tema.

STEFANY GOMEZ

5

CUADRO N0 1

FUENTE: Damodar N. Gujarati ELABORACION: Propia 1.3. MODELOS DE ANALISIS DE VARIANZA (ANOVA) 1.3.1. MODELOS CON UNA VARIABLE CUALITATIVA Son aquellos modelos de regresión que contienen exclusivamente variables dicótomas, o cualitativas por naturaleza. Entonces: Para diferenciar las tres regiones utilizamos sólo dos variables dicótomas, D2 y D3. ¿Por qué no empleamos tres variables dicótomas para distinguir las tres regiones? Suponga que hacemos precisamente eso y escribimos el modelo como: Yi =α + β1D1i + β2D2i + β3D3i + ui……………(I) Donde D1i toma el valor de 1 para los estados del Oeste y 0 para los de otras regiones. Por tanto, ahora tenemos una variable dicótoma para cada una de las tres regiones geográficas. Imagine que ahora añadimos la columna D1, que toma el valor de 1 siempre que un estado sea del Oeste y 0 en cualquier otro caso. Ahora bien, si sumamos las tres columnas D horizontalmente, obtendremos una columna con 51 números 1. Pero, como el valor del intercepto α es (implícitamente) 1 para cada observación, habrá una columna también con 51 números 1. En otras palabras, la suma de las tres columnas D sólo reproducirá la columna del intercepto, lo cual provoca colinealidad perfecta. En este caso es imposible la estimación del modelo (I). El mensaje es: si una variable cualitativa tiene m categorías, sólo hay que agregar (m − 1) variables dicótomas. En el ejemplo anterior, como la variable cualitativa “región” tiene tres categorías, se introducen sólo dos variables dicótomas. Si no se respeta esta regla se provocará lo que se conoce como trampa de la variable dicótoma; es decir, se tendrá una STEFANY GOMEZ

6

situación de perfecta colinealidad o perfecta multicolinealidad, si hay más de una relación exacta entre las variables. Esta regla también vale si se tiene más de una variable cualitativa en el modelo, sobre lo cual veremos un ejemplo más adelante. Así, se tiene que enunciar de nuevo la regla anterior como: para cada regresora cualitativa, el número de variables dicótomas introducidas debe ser una menos que las categorías de esa variable. 1.3.2. MODELOS CON DOS VARIABLES CUALITATIVAS En la sección anterior estudiamos un modelo ANOVA con una variable cualitativa. En esta sección analizaremos otro modelo ANOVA, pero con dos variables cualitativas, además de destacar otros aspectos sobre este tipo de variables. En este caso se representará con un ejemplo para que sea más representativo. De una muestra de 528 personas tomada en mayo de 1985 se obtuvieron los siguientes resultados de regresión. Yi = 8.8148 + 1.0997D2i − 1.6729D3i e = (0.4015) (0.4642) (0.4854) t = (21.9528) (2.3688) (−3.4462) (0.0000) * (0.0182) * (0.0006) * R2 =0.0322 donde Y = salario por hora ($) D2 = estado civil; 1 si es casado, 0 en otro caso D3 = región de residencia; 1 si es del Sur, 0 en otro caso y * denota los valores p. En este ejemplo tenemos dos regresoras cualitativas, cada una con dos categorías. Por tanto, asignamos una variable dicótoma para cada categoría. ¿Cuál es la categoría de comparación en este caso? Obvio, son los no casados y con residencia fuera del Sur. En otras palabras, las personas no casadas y que no viven en el Sur forman la categoría omitida. Por consiguiente, todas las comparaciones se establecen respecto de este grupo. El salario medio por hora en esta categoría base es de casi $8.81. Respecto de ésta, el salario promedio por hora de los que están casados es mayor por casi $1.10, lo cual da un salario promedio real de $9.91 (=8.81 + 1.10). En contraste, para los que viven en el Sur, su salario promedio por hora es menor por cerca de $1.67, lo cual da un salario promedio por hora de $7.14. ¿Los salarios promedio por hora anteriores son estadísticamente distintos en comparación con la categoría base? Sí lo son, pues todos los interceptos diferenciales son estadísticamente significativos: sus valores p son muy bajos. NOTA: El punto que debe notarse en este ejemplo es el siguiente: una vez que se va más allá de una variable cualitativa, se tiene que poner mucha atención a la categoría considerada como base, STEFANY GOMEZ

7

porque todas las comparaciones se llevan a cabo respecto de dicha categoría. Esto es especialmente importante cuando se tienen varias regresoras cualitativas y cada una de ellas presenta diversas categorías. A estas alturas, el mecanismo de introducción de diversas variables cualitativas debe ser claro para el lector. 1.4. MODELOS DE ANALISIS DE COVARIANZA (ANCOVA) Los modelos ANOVA del tipo que vimos en las dos secciones anteriores, aunque son comunes en áreas como sociología, psicología, educación e investigación de mercados, no son tan frecuentes en la economía. Por lo general, en la mayor parte de la investigación económica, un modelo de regresión contiene diversas variables explicativas cuantitativas y otras cualitativas. Los modelos de regresión que muestran una mezcla de variables cuantitativas y cualitativas se llaman modelos de análisis de covarianza (ANCOVA). Tales modelos representan una generalización de los modelos ANOVA en el sentido de que proporcionan un método para controlar estadísticamente los efectos de las regresoras cuantitativas (llamadas covariantes o variables de control) en un modelo con regresoras cuantitativas y cualitativas (o dicótomas). A continuación, se ilustran los modelos ANCOVA. Ilustramos el siguiente modelo:

STEFANY GOMEZ

8

1.5. LA VARIABLE DICÓTOMA ALTERNATIVA A LA PRUEBA DE CHOW 1. El intercepto y los coeficientes de las pendientes son iguales en ambas regresiones. Esta situación, el caso de regresiones coincidentes, se muestra en el cuadro 2. 2. Sólo los interceptos en ambas regresiones son diferentes, pero las pendientes son las mismas. Este caso, de regresiones paralelas, se presenta en el cuadro 2. 3. Los interceptos en las dos regresiones son las mismas, pero las pendientes son distintas. Esta situación se conoce como regresiones concurrentes y se muestra en el cuadro 2. 4. Ambos interceptos y pendientes en las dos regresiones son distintos. Este caso es el de regresiones disímbolas, lo cual se muestra en el cuadro 2. CUADRO N0 2

FUENTE: Damodar N. Gujarati 1.6.EFECTOS DE INTERACCIÓN AL UTILIZAR VARIABLES DICÓTOMAS Las variables dicótomas son una herramienta flexible para varios problemas interesantes. Observemos lo anterior con el siguiente modelo: Yi =α1 + α2D2i + α3D3i + βXi + ui donde Y = salario por hora en dólares X = educación (años de escolaridad) D2 = 1 si es mujer; 0 en otro caso STEFANY GOMEZ

9

D3 = 1 si no es blanco y no hispano; 0 en otro caso En este modelo, el sexo y la raza son regresoras cualitativas y la escolaridad es cuantitativa. Está implícito en este modelo el supuesto de que el efecto diferencial de la variable dicótoma sexo, D2, es constante en las dos categorías de raza, y el efecto diferencial de la variable dicótoma raza, D3, también es constante en ambos sexos. Es decir, si el salario medio es mayor para los hombres que para las mujeres, esto ocurre independientemente de que sean no blancos/no hispanos o no. De igual forma, si por ejemplo los no blancos/no hispanos tienen salarios medios menores, esto ocurre independientemente de que sean hombres o mujeres. En muchas aplicaciones dicho supuesto puede ser insostenible. Una mujer no blanca ni hispana tal vez gane menor salario que un hombre de esa misma categoría. En otras palabras, quizá haya interacción entre las dos variables cualitativas D2 y D3. Por tanto, su efecto sobre la media Y quizá no sea simplemente aditivo, como en (I), sino también multiplicativo, como en el siguiente modelo: Yi = α1 + α2D2i + α3D3i + α4(D2i D3i ) + βXi + ui……..(III) donde las variables están definidas como en el modelo de (III) obtenemos. E (Yi | D2i = 1, D3i = 1, Xi ) = (α1 + α2 + α3 + α4) + βXi…….(IV) que es la función salario medio por hora para las trabajadoras no blancas ni hispanas. Observe que α2 = efecto diferencial de ser mujer α3 = efecto diferencial de ser no blanco ni hispano α4 = efecto diferencial de ser mujer no blanca ni hispana lo cual muestra que el salario medio por hora de las mujeres no blancas ni hispanas es diferente (en una cantidad igual a α4) del salario medio por hora de las mujeres blancas o hispanas. Si por ejemplo los tres coeficientes de las variables dicótomas son negativos, se implica que las trabajadoras no blancas ni hispanas ganan un salario medio por hora mucho más bajo que las trabajadoras blancas o hispanas, en comparación con la categoría base, la cual en el ejemplo presente es la de hombres blancos o hispanos. Ahora se puede observar la forma en que la variable dicótoma de interacción (es decir, el producto de dos variables cualitativas o dicótomas) modifica el efecto de los dos atributos considerados de manera individual (es decir, en forma aditiva). 1.7. USO DE LAS VARIABLES DICÓTOMAS EN EL ANÁLISIS ESTACIONAL Muchas series de tiempo económicas que se basan en datos mensuales o trimestrales presentan pautas estacionales (movimiento oscilatorio regular); por ejemplo, las ventas de las tiendas de departamentos en la época de Navidad y otras festividades importantes, la demanda de dinero (saldos de efectivo) por parte de las familias en épocas de vacaciones, la demanda de helado y bebidas gaseosas durante el verano y los precios de los cultivos justo después de la época de cosecha, la demanda de viajes en avión, etc. A menudo es útil eliminar el factor o componente estacional de las series de tiempo con el fi n de concentrarse en los demás componentes, como la Tendencia. El proceso de eliminar el componente estacional de una serie de tiempo se conoce como desestacionalización o ajuste estacional, y la serie de tiempo así obtenida se denomina serie de tiempo STEFANY GOMEZ

10

desestacionalizada o ajustada por estacionalidad. Las series de tiempo económicas importantes, como el índice de precios al consumidor (IPC), el índice de precios del productor (IPP) y el índice de producción industrial, suelen publicarse ajustadas por estacionalidad. 1.8. ¿QUÉ SUCEDE SI LA VARIABLE DEPENDIENTE ES DICÓTOMA? Hasta ahora hemos considerado modelos en que la regresada es cuantitativa y las regresoras son cuantitativas o cualitativas o de ambos tipos. Pero existen situaciones en que la regresada también puede ser una variable cualitativa o dicótoma. Considere por ejemplo la decisión de un trabajador de participar en la fuerza laboral. La decisión de participar es del tipo sí o no. Será sí, si la persona decide participar, y no, en cualquier otro caso. Por tanto, la variable participación en la fuerza laboral es una variable dicótoma. Desde luego, la decisión de participar en la fuerza laboral depende de diversos factores, como la tasa de salario inicial, la escolaridad y las condiciones del mercado laboral (como las mide la tasa de desempleo). ¿Todavía podemos utilizar los MCO para estimar los modelos de regresión en los que la regresada es dicótoma? Sí, mecánicamente es posible. Pero tales modelos presentan varios problemas estadísticos. Y como hay opciones para la estimación por MCO que no provocan tales inconvenientes, veremos este tema en un capítulo posterior (véase el capítulo 15 sobre los modelos logit y probit). En ese capítulo también estudiaremos los modelos en los cuales la regresada tiene más de dos categorías; por ejemplo, la decisión de ir al trabajo en automóvil, autobús o metro; o la decisión de trabajar tiempo parcial, completo o no trabajar en absoluto. Tales modelos se conocen como modelos con variable dependiente policótomas, en contraste con los modelos con variables dependientes dicótomas, en los que la variable dependiente tiene sólo dos categorías. 1.9. EJERCICIOS RESUELTOS 1.9.1 EJERCICIOS DE (ANOVA)

En este caso concreto el modelo que formulamos ser´ıa de la siguiente forma: Y = β0 + β1X1 + β2X2

o dicha forma más específica: Distancia = β0 + β1Velocida.media + β2Velocidad.alta STEFANY GOMEZ

11

Dónde velocidad media y velocidad alta tomarían valores 0 o 1 respectivamente. Por tanto, un coche que tenga una velocidad de 25 millas por hora (¡¡¡alta en los años 20!!!) tomaría un valor X1 = 0 y un valor X2 = 1, mientras que un coche con una velocidad de 8 millas por hora (velocidad baja) tomaría un valor de X1 = 0 y X2 = 0, por lo que quedaría representado en el modelo por el β0 o Intercepto. En nuestro ejemplo, la significación alta (Pr(>|t|) < 0.05) del punto de corte y de los dos coeficientes del modelo indican que los tres niveles del factor son importantes para determinar la velocidad de frenado de un coche. Los valores estimados según el modelo serían de 18,200 pies de distancia de frenado para aquellos coches que van una velocidad baja, 44,700 pies (18,200 + 26,500*X1) para aquellos coches que van una velocidad media, y 65,466 pies para aquellos coches que van a una velocidad alta (18,200 + 47,267*X2). Podemos ver estos valores con la función fitted.values().

El coeficiente de determinación del modelo (R2) es, en este caso, menor que en el caso anterior y, el modelo en su conjunto explicaría un 49,75 % de la variabilidad de la variable respuesta (distancia de frenado). Otra manera de representar los resultados es considerando la significación del factor en su conjunto. Un factor es significativo si la variable respuesta en al menos uno de sus niveles es significativamente distinta del resto de los niveles. La manera de representar estos datos es a través de la tabla ANOVA, en dónde se muestra el factor como una variable ´única en vez de considerar los niveles del factor como variables dummy. 1.9.2. EJERCICIOS DE (ANCOVA) Para motivar el análisis regresemos se considera el ejemplo del libro de gujarati1 afirmando que el salario promedio de los maestros de escuelas públicas no variará en las tres regiones si se toma en cuenta cualquier variable que no pueda estandarizarse en las tres regiones. Por ejemplo, piense en la variable gasto en escuelas públicas erogado por las autoridades locales, en vista de que la educación primaria es una cuestión sobre todo de carácter local y estatal. Para ver si éste es el caso, desarrollamos el siguiente modelo: Yi = β1 + β2D2i + β3D3i + β4Xi + ui…………(I) donde Yi = salario promedio anual de los maestros de escuelas públicas en el estado ($) Xi = gasto en escuelas públicas por alumno ($) D2i = 1 si el estado es del Noreste o Norte-centro; 0 en otro caso STEFANY GOMEZ

12

D3i = 1 si el estado es del Sur; 0 en otro caso Los datos para X se proporcionan. Tenga presente que se considera al Oeste como la categoría de comparación. Asimismo, note que, además de las dos regresoras cualitativas, se tiene una variable cuantitativa, X, que en el contexto de los modelos ANCOVA se conoce como covariante, como dijimos antes. ˆ Yi = 28 694.918 − 2 954.127D2i − 3 112.194D3i + 2.3404Xi ee = (3 262.521) (1 862.576) (1 819.873) (0.3592) t = (8.795) * (−1.586) ** (−1.710) ** (6.515) * R2 = 0.4977

donde * indica valores p menores que 5% y ** indica valores p mayores que 5%. Como los resultados indican, ceteris paribus: conforme el gasto público aumenta un dólar, en promedio, el salario de los maestros de escuela pública se incrementa más o menos $2.34. Si controlamos el gasto en educación, ahora se observa que el coeficiente de intercepto diferencial no es significativo para la región Noreste y Norte-centro ni para el Sur.

IMAGEN (1). Salario de los maestros de escuelas públicas (Y) en relación con el gasto en educación por alumno (X).

STEFANY GOMEZ

13

CONCLUCIONES •

Las variables dicótomas con valores de 1 y 0 (o sus transformaciones lineales) son un medio de introducir regresoras cualitativas en el análisis de regresión.



Las variables dicótomas son un mecanismo de clasificación de datos, pues permiten dividir una muestra en diversos subgrupos con base en cualidades o atributos (sexo, estado civil, raza, religión, etc.) e implícitamente permiten efectuar regresiones individuales para cada subgrupo. Si hay diferencias en la respuesta de la variable regresada a la variación en las variables cuantitativas en los diversos subgrupos, éstas se reflejarán en las diferencias en los interceptos o en los coeficientes de las pendientes, o en ambos, de las regresiones de los diversos subgrupos.



Aunque es una herramienta versátil, la técnica de variable dicótoma debe manejarse con cuidado. Primero, si la regresión contiene un término constante, el número de variables dicótomas debe ser menor que el número de clasificaciones de cada variable cualitativa. Segundo, el coeficiente que acompaña las variables dicótomas siempre debe interpretarse en relación con el grupo base o de referencia, es decir, con el grupo que adquiere el valor de cero. La base elegida depende del propósito de la investigación en curso. Finalmente, si un modelo tiene diversas variables cualitativas con diversas categorías, la introducción de las variables dicótomas puede consumir un gran número de grados de libertad. Por consiguiente, siempre se debe ponderar el número de variables dicótomas que se van a introducir respecto del número total de observaciones disponible para el análisis.



También recomendamos mucho tener precaución al utilizar las variables dicótomas en situaciones de heteroscedasticidad y autocorrelación. Pero, como estudiaremos estos temas con mucho detalle en capítulos subsecuentes, abordaremos esto a su debido tiempo.

STEFANY GOMEZ

14

REFERENCIAS BIBLIOGRAFICAS



ANOVA Y ANCOVA. Extraído de. https://portal.uah.es/portal/page/portal/epd2_asignaturas/asig202218/informacion_aca demica/2-Modelos%20lineales.pdf



Quinn, G.P. & Keough, M.J. (2002). Experimental design and data analysis for biologists. Cambridge University Press, Cambridge. Crawley, M.J. (2007). The R Book. Wiley.

• •

MODELOS DE REGRECION CON VARIABLES DICOTOMAS. Extraído de. https://es.slideshare.net/videoconferenciasutpl/modelos-de-regresin-con-variables-d



MODELOS DE REGRECION CON VARIABLES DICOTOMAS. Extraído de. http://sgpwe.izt.uam.mx/files/users/uami/gma/Cap_9_Dicotomas_leccion1.pdf



Engle, Robert F. (1974), Band Spectrum Regression, International Economic Review 15,1-11.

STEFANY GOMEZ

15

ANEXOS

Esquema conceptual de los pasos que deben seguirse a la hora de ajustar un modelo lineal univariante

STEFANY GOMEZ

16