eco investi

NATURALEZA MULTICOLINEALIDAD APROXIMADA El problema de multicolinealidad consiste en la existencia de relaciones lineale

Views 159 Downloads 2 File size 136KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

  • Author / Uploaded
  • Izhar
Citation preview

NATURALEZA MULTICOLINEALIDAD APROXIMADA El problema de multicolinealidad consiste en la existencia de relaciones lineales entre dos o más variables independientes del modelo lineal una ecuación al múltiple. Dependiendo de cómo sea dicha relación lineal hablaremos de multicolinealidad perfecta o aproximada. Las principales causas que producen multicolinealidad en un modelo son: 1. relación causal entre variables explicativas del modelo. 2. escasa variabilidad en las observaciones de las variables independientes. 3. reducido tamaño de la muestra. En definitiva, la multicolinealidad suele ser un problema muestral que se presenta normalmente en datos con el perfil de series temporales. Así, por ejemplo, la edad y la experiencia suelen presentar una alta relación ya que ambas evolucionan conjuntamente: a mayor edad se presupone mayor experiencia. Por tal motivo será difícil separar el efecto de cada una sobre la variable dependiente Y que se produzca multicolinealidad debido a la relación causal existente entre dichas variables (series temporales). Supongamos ahora que nos pasan una encuesta donde hay que valorar las siguientes afirmaciones en una escala de 1 a 5 donde 1 significa que estamos totalmente en desacuerdo y 5 totalmente de acuerdo: 1. Seguro que saco un 10 en Econometría. 2. No me gusta la Econometría. Para la primera afirmación, variable que llamaremos ´ X, tendremos valores concentrados alrededor del 1, mientras que para la segunda, que llamaremos y obtendremos valores alrededor del 5. Por tanto, tendríamos dependencia lineal ya que Y ∼= 5*X. Estas variables se podrían usar en un modelo donde la variable dependiente es la calificación obtenida en la asignatura de Econometría: X podría ser un indicio de la calificación esperada en Y del grado de afinidad a la materia. Como se puede observar, la multicolinealidad de este ejemplo se debe a problemas con las observaciones disponibles (escasa variabilidad o reducido tamaño de la muestra). Por tanto, si se es capaz de mejorar

estos problemas muestrales se evitaría la presencia de multicolinealidad entre dichas variables. EFECTOS La multicolinealidad aproximada hace referencia a la existencia de una relación lineal aproximada entre dos o más variables independientes. En este caso, no se incumplirá la hipotesis básica de que la matriz X sea completa por columnas (rg (X) = k), por lo que se podrá invertir XtX y obtener los estimadores por mínimos cuadrados ordinarios. Sin embargo, el determinante de XtX será muy próximo a cero, por lo que ´ (XtX)−1 tendera a tener valores altos. En consecuencia, cuando existe un problema de multicolinealidad no perfecta se presentan los siguientes problemas: 1. las varianzas de los estimadores son muy grandes. 2. al efectuar contrastes de significación individual no se rechazar a la hipotesis nula, mientras que al realizar contrastes conjuntos sí. 3. los coeficientes estimados serán muy sensibles ante peque nos cambios en los datos. 4. un coeficiente de determinación elevado MULTICOLINEALIDAD EXACTA La multicolinealidad exacta o perfecta hace referencia a la existencia de una relación lineal exacta entre dos o más variables independientes. Dicho tipo de multicolinealidad se traduce en el incumplimiento de una del hipotesis básicas del modelo uniecuacional múltiple: la matriz X no es de rango completo por columnas, esto es: rg(X) < k El incumplimiento de dicha hipotesis no permite invertir la matriz Xt X, por lo que el sistema normal: XtX · β=Xty

Es compatible indeterminado, es decir, es imposible obtener una solución única para βb (hay infinitas). ¿Qué hacer ante esta situación? Evidentemente no se podrán estimar los coeficientes de las variables independientes, sin embargo, si se podrá estimar una combinación lineal de los mismos. Y en tal caso no tenemos garantizado que se puedan recuperar a partir de estas las estimaciones de los parámetros originales. Consideremos el modelo: Yt = β1 + β2Xt2 + β3Xt3 + ut, donde Xt2 − Xt3 = 1. Entonces, sin más que sustituir Xt2 = 1 + Xt3 en el modelo original: Yt = β1 + β2 · (1 + Xt3) + β3Xt3 + ut = (β1 + β2) + (β2 + β3) · Xt3 + ut, obtenemos que las combinaciones lineales estimables de los parámetros originales son: β1 + β2, β2 + β3. DETECCION A LA MULTICOLINEALIDAD Basarse en los síntomas enumerados anteriormente para la detección de la multicolinealidad no es un procedimiento fiable ya que es subjetivo. Por tal motivo, para la detección de la multicolinealidad usaremos los métodos: 1. Numero de condición. 2. Factor de agrandamiento de la varianza. El número de condición; k(X), se define como la raíz cuadrada del cociente entre el autovalor más grande de XtX, λmax, y el más pequeño, λmin. Esto es: k(X) = raíz (λmax/ λmin) . Si dicho número de condición toma un valor entre 20 y 30 estamos ante un problema de multicolinealidad probable y se considera seguro si supera 30.

El factor de agrandamiento de la varianza, F AV , se define para cada uno de los coeficientes como: FAV (βbi) = 1 1 − R2i , i = 2, . . . , k, donde R2i es el coeficiente de determinación obtenido al efectuar la regresión de Xi sobre el resto de las variables independientes del modelo. El FAV se interpreta como la razón entre la varianza observada y la que habría sido en caso de que Xi estuviera incorrelacionada con el resto de variables independientes del modelo, es decir, muestra en qué medida se agranda la varianza del estimador como consecuencia de la relación de los regresores. Valores del FAV superiores a 10 hacen pensar en la posible existencia de multicolinealidad en el modelo. SOLUCION A LA MULTICOLINEALIDAD Algunas de las posibles soluciones al problema de multicolinealidad son las siguientes: 1. Mejora del diseño muestral extrayendo la información máxima de las variables observadas. 2. Eliminación de las variables que se sospechan son causantes de la multicolinealidad. 3. En caso de disponer de pocas observaciones, aumentar el tamaño de la muestra. 4. Utilizar la relación extra muestral que permita realizar relaciones entre 5. Los parámetros (información a priori) que permita estimar el modelo por mínimos cuadrados restringidos. Por otro lado, algunos autores sugieren tratar el problema de la multicolinealidad de forma mecánica y puramente numérica proponiendo una técnica conocida como regresión alomada. Sin embargo, esta técnica tiene dos problemas importantes: es arbitraria y los estimadores obtenidos no son interpretables.

HETEROCEDASTICIDAD CONCEPTO Un modelo heterocedástico es aquel en que las varianzas de las perturbaciones no son constantes, por lo tanto, la variabilidad es diferente para cada observación. A. La matriz de varianzas-covarianzas es diagonal. B. Por consiguiente, se sigue verificando independencia entre las observaciones aunque éstas no provienen de la misma población. CAUSAS DE LA HETEROCEDASTICIDAD En el modelo de regresión lineal, (Y = Xβ+u), uno de los supuestos que se establece, para poder estimar el modelo por mínimos cuadrados ordinarios, y así obtener estimaciones eficientes de los parámetros, es que las perturbaciones del modelo tienen que ser homocedásticas, es decir, su varianza se mantiene constante para todas las observaciones de la muestra, E(u2) = σ2. Sin embargo, si este supuesto deja de cumplirse entonces el termino de error tiene heterocedasticidad, E(u2) = σ2i, i=1, ...,N. Entre los motivos que pueden hacer que la varianza de las perturbaciones no se mantenga constante podemos destacar los siguientes: a) Por ejemplo, si se plantea un modelo de gasto en función del nivel de renta, que pueden tener diferentes familias, empresas, países, etc. es muy posible que el nivel de gasto tenga una mayor dispersión en aquellos que tengan un nivel de renta mayor. b) Si para el modelo planteado, los datos con los que se trabaja son promedios de diferentes grupos, entonces, las varianzas son inversamente proporcionales al número de individuos de cada grupo. c) En los modelos de aprendizaje sobre errores, la heterocedasticidad puede surgir si a medida que transcurre el tiempo, y se aprende, la varianza de los errores cometidos es cada vez menor.

d) La existencia de outliers o valores atípicos (valores excesivamente grandes o pequeños respecto del resto de valores de la muestra) sobre todo, en muestras pequeñas, hace que la inclusión o no de estos valores altere sustancialmente los resultados de la estimación. e) La existencia de asimetría en las variables explicativas del modelo hace que se produzca heterocedasticidad si existe, por ejemplo, una mayor concentración de recursos en unos entes que en otros. f) La mala especificación de un modelo, debida, por ejemplo, a la omisión de una variable relevante en el modelo, puede hacer que la varianza del término de error no se mantenga constante. g) Si los datos con los que se trabaja en el modelo no están correctamente transformados, por ejemplo no se toman las diferencias adecuadas o se trabaja con variables que no están en logaritmos cuando tienen que tener esta transformación, entonces también puede dar lugar a la existencia de heterocedasticidad. La existencia de heterocedasticidad suele ser más común cuando se trabaja con datos de corte transversal que cuando se trabaja con datos de series temporales. CONSECUENCIAS DE LA HETEROCEDASTICIDAD Si las perturbaciones de un modelo de regresión lineal tienen heterocedasticidad, entonces el estimador de mínimos cuadrados ordinarios (MCO) sigue siendo lineal e insesgado, pero deja de ser eficiente, ya que no es el estimador de mínima varianza. Por lo tanto, para estimar el modelo de forma correcta en presencia de heterocedasticidad no se puede utilizar el estimador MCO. El estimador correcto es el que obtiene utilizando mínimos cuadrados generalizados (MCG). El estimador MCG es lineal, insesgado y eficiente. FORMAS DE DETECTAR LA HETEROCEDASTICIDAD Para detectar la heterocedasticidad, básicamente, se pueden utilizar dos métodos: uno informal, basado en la representación gráfica de los residuos frente alguna de las variables del modelo, y otro formal, que consiste en la realización de diferentes tipos de contrastes.

FACTOR DE INFLACION DE LA VARIANZA El modelo de regresión lineal es una técnica estadística ampliamente utilizada para estudiar la relación entre una variable denominada dependiente o explicada, Y, y un conjunto de variables independientes o explicativas, X1, . . . ,Xp, p ≥ 1. Dicha relación se define para “n” observaciones y p variables independientes como sigue a continuación: yt = β1 + β2X2t + · · · + βpXpt + ut, t = 1, . . . , n. (1) donde u representa la perturbación aleatoria (que se presupone esférica) y se supone que X1 es un vector de unos. En este contexto, el FIV se define como sigue a continuación: FIV(i) = (var(βˆi)/var(βˆ0i))=((1)/(1 − R2i)), por lo tanto… i = 2, . . . , p, (2)siendo βˆ el estimador por MCO del modelo (1), βˆ0 el estimador por MCO del modelo (1) suponiendo que las variables explicativas son ortogonales, y R2i el coeficiente de determinación de la regresión auxiliar que tiene como variable dependiente a Xi y como independientes al resto de regresores, para i = 2, . . . , p. Tradicionalmente, valores del FIV superiores a 10 indicarían que el modelo de regresión lineal presenta un grado de multicolinealidad preocupante. ANÁLISIS DE REGRESIÓN MÚLTIPLE CON INFORMACIÓN CUALITATIVA (VARIABLES DUMMY) En los modelos de regresión podemos estar interesados en ver si el efecto de alguna de las X sobre Y varía según alguna característica de la población (sexo, raza, tamaño de la empresa, etc.). Utilizando variables ficticias (binarias o “dummy”) podemos ser capaces de medir el efecto del factor cualitativo, así como contrastar si el efecto del factor cualitativo es relevante. Las variables ficticias toman valor 1 en una categoría y valor 0 en el resto. Ejemplo:

Consideramos un modelo de regresión múltiple en el cual queremos determinar el efecto del sexo y de la educación sobre los salarios:

salario = β0 + β1educ + δ0mujer + u donde δ0 es el parámetro asociado a la variable ficticia. δ0 refleja la diferencia existente en el salario/hora entre una mujer y un hombre, para un nivel dado de educación. Suponiendo que E(u|mujer, educ) = 0,

δ0 < 0 describe un cambio en el término constante entre hombre y mujeres (aunque ambos tienen la misma pendiente, β1).

Trampa de las ficticias: aparece cuando se incluyen dos variables ficticias para describir el mismo grupo (multicolinealidad perfecta). mujer + hombre = 1. Interpretación: salario= 7, 10 − 2, 51 mujer El termino constante (7,10) es el salario medio para los hombres (grupo de referencia). El coeficiente 2, 51 es la diferencia entre salarios medios de hombres y mujeres de la muestra. Es decir, las mujeres ganan, en media, 2, 51$ menos por hora.