Magno Econometria

Universidad de Chile Facultad de Economía & Negocios ECONOMETRIA 1 Recopilación de Pruebas Anteriores (Desde Primavera

Views 26 Downloads 0 File size 11MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Universidad de Chile Facultad de Economía & Negocios

ECONOMETRIA 1

Recopilación de Pruebas Anteriores (Desde Primavera 2004, Hasta Otoño 2008) -Jmaggior-

CONTROLES 1

Econometría I Profesores: J.M. Benavente, A. Otero y J. Vásquez. Primavera 2004 Control 1

Nombre:

..........................................................................................

Rut:

.......................................

Ud. Dispone de 30 minutos para resolver este control, no puede hacer consultas a los ayudantes, no puedo tener nada más que lápiz en su escritorio, si contesta con lápiz mina no tiene derecho a reclamo. Contestar sólo en el espacio disponible

Pregunta 1: (30 puntos) En un modelo de regresión lineal la pendiente que se obtiene a partir de la muestra disponible es siempre igual a la pendiente verdadera (poblacional) que relaciona las variables.

.................................................................................................................... .................................................................................................................... .................................................................................................................... .................................................................................................................... .................................................................................................................... .................................................................................................................... .................................................................................................................... .................................................................................................................... Pregunta 2: Ud. dispone de los siguientes datos, donde Y es la variable dependiente y X la variable explicativa. Complete la siguiente tabla con la información requerida:

Y X 2 1 -2 0 1 4 3 1 βˆ1 ....... βˆ2 .......

Yˆ ....... ....... ....... .......

1

uˆ ....... ....... ....... .......

Econometría I Profesora: Javiera Vásquez. Verano 2005 Pauta Control 1 Pregunta 1: (30 puntos) Mientras mayor es el tamaño de la muestra que disponemos, más se aproxima un estimador a su valor poblacional. Comente. Si bien cuando el tamaño de muestra aumenta, esta cada vez se parece más a la población, un estimador para que en el límite sea igual al valor poblacional tiene que cumplir con la propiedad de consistencia. Recordar que un estimador es simplemente una fórmula o método que nos dice como aproximar un parámetro poblacional a través de una muestra, existen estimadores consistentes y otros que no lo son, a pesar que la muestra sea infinito un estimador puede ser distinto a su valor verdadero, en este caso es inconsistente. Pregunta 2: Suponga que la variable aleatoria yi esta compuesta por la suma de un componente fijo y uno aleatorio: yi = βxi + ui |{z} |{z} f ijo

para

i = 1, ..., N

aleatorio

donde xi es una variable determinística (fija), β es un parámetro que mide la influencia de x sobre y y ui es una variable aleatoria que se distribuye Normal N (0, σ 2 ). Determine las propiedades del siguiente estimador de β: y βˆ = x

donde y =

N 1 X yi N i=1

,

x=

N 1 X xi N i=1

R: y βˆ = = x

1 N 1 N

PN

i=1 yi PN i=1 xi

PN i=1 = PN i=1

yi xi

Reemplazando yi = βxi + ui (expresión poblacional) en (1): PN PN PN i=1 xi i=1 ui i=1 (βxi + ui ) = β + βˆ = PN PN PN x x i=1 i i=1 i i=1 xi PN ui = β + Pi=1 N i=1 xi PN i=1 ui ⇒ βˆ − β = PN i=1 xi Ahora para ver si el estimador es insesgado, tomemos valor esperado a (3): PN i=1 E[ui ] ˆ E[β] = β + P N i=1 xi = β 1

(1)

(2) (3) (4)

Utilizando la propiedad de operador lineal de la Esperanza, y el supuesto que ui tiene esperanza igual a cero, el estimador propuesto es insesgado. (20 PUNTOS) Ahora calculemos su varianza: ˆ = V (β)

ˆ ]2 E[βˆ − E[β] |{z} β

= = = = ˆ = V (β)

E[βˆ − β]2 "P N i=1 PN i=1

E

( (

PN

xi

1

i=1

PN

ui

xi )2

1

2 i=1 xi )

utilizando #2

(4) 1

"

#2

N X

·E = PN ui ( i=1 xi )2 i=1 "N # X 2 ·E ui + N (N − 1)ui · uj i=1

·

N X i=1

E[u2i ] +N (N − 1) E[ui · uj ] | {z } | {z } 0

σ2

2

n·σ PN ( i=1 xi )2

(30 PUNTOS) El Error cuadrático medio (ECM) se este estimador es igual a la varianza, ya que es un estimador insesgado: ˆ = ECM (β)

ˆ + [sesgo]2 V (β) | {z }

ˆ = ECM (β)

n · σ2 PN ( i=1 xi )2

0

(10 PUNTOS) Por último, el estimador es consistente ya que es insesgado es muestras pequeñas (10 PUNTOS). Además se puede demostrar que: 2 ˆ = Pn · σ l´ım V (β) N n→∞ ( i=1 xi )2

=

1 n2 · σ 2 σ2 = l´ım · ³ PN P ´2 N 2 n→∞ n( n→∞ n x ) i=1 xi i=1 i l´ım

n

2

⇒ ⇒

σ 1 · n (x)2 1 σ2 l´ım =0 2 n→∞ (x) | {z n} l´ım

n→∞

0

⇒ ⇒

m.s βˆ → β p βˆ → β o

y por lo tanto, es consistente. 2

ˆ =β plim(β)

Econometría I Profesores: Andrés Otero Javiera Vásquez. Otoño 2005 Control 1 Pregunta 1: (30 puntos) El único problema de no incluir un término constante en el Modelo de Regresión Lineal, es que no se garantiza que la recta de regresión pase por las medias o equivalentemente que la suma de los errores estimados sea igual a cero. Comente. Falso, si bien el no incluir un término constante en el modelo de regresión lineal tiene el problema de no garantizar que la recta de regresión pase por las medias ni que la suma de los errores estimados sea igual a cero, este no es el único problema. El no incluir el término constante genera sesgo en la estimación de la pendiente al obligar a que la recta pase por el origen, tal como se muestra en el siguiente gráfico:

. .sin.constante con constante . .. . . . . . . .. . . . .. . . . . . . . . Sesgo en la estimación de la pendiente, provocado por la estimación de un modelo de regresión lineal sin constante

1

Pregunta 2: (70 puntos) Ud. dispone de los siguientes datos, donde Y es la variable dependiente y X la variable explicativa. Complete la siguiente tabla con la información requerida:

Suma Promedio βˆ1 βˆ2

Y 12 2 5 1

X 2 1 3 0

5 1.7 2.2

1.5

Y −Y 7 -3 0 4

βˆ2 =

X −X 0.5 -0.5 1.5 -1.5

(Y − Y )(X − X) 3.5 1.5 0 6 11

(X − X)2 0.25 0.25 2.25 2.25 5

Yˆ 6.1 3.9 8.3 1.7 5

Pn

i=1 (Y − Y )(X − Pn 2 i=1 (X − X)

X)

=

11 = 2,2 5

βˆ1 = Y − βˆ2 X = 5 − 2,2 · 1,5 = 1,7

2

u ˆ 5.9 -1.9 -3.3 -0.7 0

Econometría I Profesores:

Emerson Melo Rodrigo Montero Javiera Vásquez

Primavera 2005 Pauta Control 1 Rut:

.......................................

Ud. Dispone de 40 minutos para resolver este control, no puede hacer consultas a los ayudantes, no puedo tener nada más que lápiz en su escritorio, si contesta con lápiz mina no tiene derecho a reclamo. Contestar sólo en el espacio disponible Pregunta 1: Usted es gerente de costos de una prestigiosa empresa multinacional, y el gerente general, al cual todos llaman muy cariñosamente “Pato”, lo llama a su oficina, y le plantea el siguiente problema: “...existe la necesidad de justificar frente al directorio el esquema de remuneraciones que se aplica en la empresa. Como usted es alguien preparado, que ha estudiado en la Universidad de Chile, necesito que me muestre cual es el premio que la empresa entrega a sus trabajadores por cada año de estudio que tienen (años de escolaridad)”. La siguiente tabla presenta la información de que usted dispone:

Años de escolaridad (S) 0 3 5 7 10 12 17 17 17

Salario (W ) 150000 170000 185000 190000 215000 250000 550000 650000 800000

Número de trabajadores 10 5 4 8 9 10 5 4 5

Usted decide hacer un informe al respecto, y para ello debe dar respuesta a las siguientes interrogantes. NOTA: trabaje todos los cálculos con DOS decimales. 1. Plantee el modelo a estimar, definiendo claramente cada una de las variables involucradas. (3 puntos) Respuesta: Se debe estimar el siguiente modelo: Wi = α + βSi + µi donde Wi corresponde al salario del trabajador i, Si corresponde a los años de escolaridad del trabajador i, y µi representa el términos de error, bien comportado. Los parámetros a estimar vienen dados por α y β. Por lo tanto, el modelo plantea a priori una relación lineal y directa entre los años de escolaridad y el salario de la persona. 1

2. Escriba y grafique la función objetivo. Ayuda: para graficar la función objetivo asuma que sólo existe un parámetro que debe ser estimado. (4 puntos) Respuesta: La función objetivo a minimizar es: m´ın

N X

α, ˆ βˆ i=1

µ ˆ2i = m´ın

N X

α, ˆ βˆ i=1

ˆ i )2 (Wi − α ˆ − βS

Graficamente: Función objetivo

Solución

3. ¿Cuáles son las estimaciones MCO de los parámetros poblacionales α y β? (6 puntos) Respuesta:

PN si wi 59941583, 33 ˆ β = Pi=1 = = 28804, 45 N 2 2080, 98 i=1 si ¯ − βˆS¯ = 306583, 33 − (28804, 45 · 8, 98) = 47823, 34 α ˆ=W

donde si y wi representan los años de escolaridad y el salario en desvíos respecto de la media. 4. Demuestre matemáticamente y numéricamente que la suma de los errores estimados es igual a cero. (4 puntos) Respuesta: La función objetivo a minimizar es: m´ın

N X

α, ˆ βˆ i=1

µ ˆ2i = m´ın

N X

α, ˆ βˆ i=1

ˆ i )2 (Wi − α ˆ − βS

Derivando con respecto a α: ˆ PN N ˆ i )2 X ∂ i=1 (Wi − α ˆ − βS ˆ i) = 0 = −2 (Wi − α ˆ − βS ∂α ˆ i=1 Por lo tanto:

N X

ˆ i) = 0 ⇒ (Wi − α ˆ − βS

i=1

N X i=1

2

µ ˆi = 0

Numericamente: 60 X

µ ˆi = (10 · 102176, 66) + (5 · 35763, 30)

i=1

+(4 · −6845, 60) + (8 · −59454, 50) + (9 · −120867, 86) +(10 · −143476, 76) + (5 · 12500, 98) + (4 · 112500, 98) +(5 · 262500, 98) = 0 5. Considere la siguiente transformación de los salarios: W ∗ = ln(W ) donde ln() corresponde al logaritmo natual. Estime nuevamente el modelo, pero utilizando como variable dependiente W ∗ en lugar de W . ¿Qué representa el coeficiente estimado para la pendiente? Demuestre. (Ayuda: recuerde el concepto de semi-elasticidad) (9 puntos) Respuesta: El modelo a estimar sería el siguiente: Wi∗ = γ + δSi + µi Los estimadores MCO son: PN ∗ 174, 07 i=1 si wi δˆ = P = = 0, 08 N 2 2080, 98 s i=1 i γˆ = W¯ ∗ − δˆS¯ = 12, 46 − (0, 08 · 8, 98) = 11, 71 donde si y wi∗ representan los años de escolaridad y el logaritmo del salario en desvíos ˆ representa el porcentaje de incremento respecto de la media. El coeficiente estimado (δ) en el salario por un año adicional de escolaridad. Matemáticamente: ∂ln(Wi ) 1 = dWi = δˆ ∂Si Wi 6. Recuerde que Pato quiere conocer el premio salarial que la empresa entrega a sus trabajadores por cada año de escolaridad. ¿Cuál sería? Ayuda: utilice el resultado encontrado en (5). (4 puntos). Respuesta: Por cada año adicional de escolaridad el trabajador recibe un premio de 8 % en su salario.

3

Econometría I

Verano 2005-2006

Profesor : Jaime Ruiz-Tagle V. Ayudante : Roberto Jaramillo M. Control 1 - Pauta de Corrección

Instrucciones

Ud. Dispone de 30 minutos para resolver este control. No puede hacer consultas a los ayudantes, no puedo tener nada más que lápiz en su escritorio. Si contesta con lápiz mina no tiene derecho a reclamo. Debe contestar sólo en el espacio disponible. Pregunta 1 (30 puntos)

Considere la especicación estocástica de la Función de Regresión Poblacional Yi = E[Yi |Xi ] + ui ,

donde la la Función de Regresión Poblacional considerando 2 variables y una relación lineal es: E[Yi |Xi ] = β0 + β1 Xi .

(a) Explique cuál es el supuesto detrás de la Función de Regresión Poblacional.

El supuesto esencial detrás de la Función de Regresión Poblacional es que se asume que se puede representar correctamente, en valor esperado (en promedio), a la variable dependiente a través de una función lineal de las variables explicativas. Se llama función poblacional porque se asume que se dispone del total de los datos de la economía. (b) Explique algebraicamente por qué la media condicional de ui es igual a cero (E[ui |Xi ] = 0).

Se tiene Yi ⇒ E[Yi |Xi ] ⇔ E[Yi |Xi ] ⇔ E[ui |Xi ]

E[Yi |Xi ] + ui E[E[Yi |Xi ]|Xi ] + ui E[Yi |Xi ] + E[ui |Xi ] 0.

= = = =

1

Dada la ley del valor esperado iterado (E[E[A|B]|B] = E[A|B]). Pregunta 2 (30 puntos)

(a) Explique la diferencia entre causalidad económica y correlación estadística.

La principal diferencia que existe entre causalidad económica y correlación estadística es que la primera es una relación de causa-efecto en un sentido económico. En cambio, la correlación estadística es simplemente una observación estadística que indica un grado de relación lineal. La correlación estadística no necesariamente implica que una variable correlacionada con otra se comporte de una forma cuando la variable con la que tiene la correlación cambie, no hay necesariamente una causalidad. En el ejemplo dado en clases, existe un grado de relación entre la calidad de un vino y el clima, pero no se puede decir que el clima está provocado por la calidad del vino.

(b) Explique la diferencia entre la representación estocástica de la Función de Regresión Muestral y representación estocástica de la Función de Regresión Poblacional.

La diferencia está en la cantidad de datos disponibles para la regresión. En la representación estocástica de la Función de Regresión Poblacional, tal como lo dice su nombre, se dispone de los datos que corresponden a la población, que representan el total de datos. En cambio, la Función de Regresión Muestralal ser Muestral está utilizando un subconjunto de la población, lo que nos puede llevar a conclusiones distintas por las ucuaciones entre las distintas muestras, tratando esta última de estimar a la Función de Regresión Poblacional con los datos disponibles en la muestra. El término de error en la función poblacional corresponde al error generado por tratar de explicar la variable dependiente a través de una especicación funcional en particular, mientras que en la función muestral el término de error recoge además el error de estimación de los parámetros.

2

Econometría I Profesoras: Claudia Sanhueza Javiera Vásquez. Otoño 2006 Pauta Control 1 Pregunta 1: (30 puntos) Si un estimador βˆ converge, entonces este estimador es consistente. Comente. Esto no es necesariamente cierto, ya que el estimador puede converger a un valor distinto del valor poblacional del parámetro. Sólo si el estimador converge al verdadero valor del parámetro (poblacional) este estimador es consistente. Pregunta 2: (70 puntos) Suponga que la variable aleatoria yi esta compuesta por la suma de un componente fijo y uno aleatorio: yi = βxi + ui |{z} |{z} f ijo

para i = 1, ..., N

aleatorio

donde xi es una variable determinística (fija), β es un parámetro que mide la influencia de x sobre y y ui es una variable aleatoria independiente e idénticamente distribuida Normal N (0, σ 2 ). Determine si el siguiente estimador de β es insesgado, calcule su varianza y determine si es consistente: y βˆ = x

donde y =

N 1 X yi N i=1

,

x=

N 1 X xi N i=1

R: y βˆ = = x

1 N 1 N

PN

i=1 yi PN i=1 xi

PN i=1 = PN i=1

yi xi

Reemplazando yi = βxi + ui (expresión poblacional) en (1): PN PN PN i=1 xi i=1 ui i=1 (βxi + ui ) βˆ = = β + PN PN PN x x i=1 i i=1 i i=1 xi PN ui = β + Pi=1 N i=1 xi PN i=1 ui ⇒ βˆ − β = PN i=1 xi Ahora para ver si el estimador es insesgado, tomemos valor esperado a (3): PN i=1 E[ui ] ˆ E[β] = β + P N i=1 xi = β 1

(1)

(2) (3) (4)

Utilizando la propiedad de operador lineal de la Esperanza, y el supuesto que ui tiene esperanza igual a cero, el estimador propuesto es insesgado. (20 PUNTOS) Ahora calculemos su varianza: ˆ = V (β)

ˆ ]2 E[βˆ − E[β] |{z} β

= = = = ˆ = V (β)

E[βˆ − β]2 "P N i=1 PN i=1

E

( (

PN

xi

1

i=1

PN

ui

xi )2

1

i=1

xi )2

utilizando #2

(4) 1

"

#2

N X

= PN ·E ui ( i=1 xi )2 i=1 "N # X 2 ·E ui + N (N − 1)ui · uj i=1

·

N X i=1

E[u2i ] +N (N − 1) E[ui · uj ] | {z } | {z } 0

σ2

2

n·σ PN ( i=1 xi )2

(30 PUNTOS) El Error cuadrático medio (ECM) se este estimador es igual a la varianza, ya que es un estimador insesgado: ˆ = ECM (β)

ˆ + [sesgo]2 V (β) | {z }

ˆ = ECM (β)

n · σ2 PN ( i=1 xi )2

0

Para demostrar que es consistente, en el límite el error cuadrático medio (o varianza) debe ser igual a cero, de esta forma el estimador converge en media cuadrática a su verdadero valor, y es estimador se dice consistente: 2 ˆ = Pn · σ l´ım V (β) N n→∞ ( i=1 xi )2

=

n2 · σ 2 σ2 1 = l´ım · ³ PN P ´2 N 2 n→∞ n( n→∞ n i=1 xi i=1 xi ) l´ım

n

2

⇒ ⇒

σ 1 · n (x)2 1 σ2 l´ ım =0 2 (x) n→∞ | {z n} l´ım

n→∞

0

⇒ ⇒

m.s βˆ → β p βˆ → β o

y por lo tanto, es consistente. (20 PUNTOS) 2

ˆ =β plim(β)

Econometría Facultad de Economía y Negocios Universidad de Chile Pauta Control 1

Semestre: Primavera 2006 Profesores: José Miguel Benavente, Rodrigo Montero Tiempo de duración: 20 minutos No hay preguntas de ningún tipo para los ayudantes. Comente (6 puntos) En el contexto del modelo de regresión lineal de dos variables (Yi = α + βXi + µi ) el signo de β estará determinado por el signo del coeficiente de correlación entre X e Y. Respuesta. El coeficiente de correlación entre X e Y se define como: ρ=

Cov(X, Y ) σX σY

donde σX y σY representan las desviaciones estándar de X e Y , respectivamente. Por lo tanto:

P ρ = pP

xy pP

y2 donde la letra en minúsculas indica que la variable se encuentra en desvíos respecto a la media. Por lo tanto:

x2

pP

2

y βˆ = ρ pP x2 Es decir, el signo del estimador de β va a depender del signo del coeficiente de correlación entre X e Y . Por lo tanto, el comente es verdadero. Problema (14 puntos) Considere el siguiente modelo: Yi = α + βXi + µi 1

donde µi es independiente e identicamente distribuido con media 0 y varianza σ 2 . La variable X tiene las siguientes realizaciones: X1 = 1, X2 = 2, X3 = 3, X4 = 4, X5 = 5 y X6 = 6. Un econometrista estima la pendiente de esta relación mediante la siguiente expresión: 1 βˆ = (Y6 + Y5 − Y2 − Y1 ) 8 1. Muestre que este estimador es insesgado. Respuesta. Reemplazando: 1 βˆ = (βX6 + βX5 − βX2 − βX1 + µ6 + µ5 − µ2 − µ1 ) 8 Reemplazando por los valores de X: 1 1 βˆ = (8β + µ6 + µ5 − µ2 − µ1 ) = β + (µ6 + µ5 − µ2 − µ1 ) 8 8 Aplicando esperanza se llega a: ˆ =β E(β) Por lo tanto, este estimador es insesgado. 2. Derive su varianza y determine la eficiencia relativa de este estimador respecto al estimador de mínimos cuadrados ordinarios. Respuesta. Se sabe que: 1 βˆ = β + (µ6 + µ5 − µ2 − µ1 ) 8 Aplicando varianza: 2 ˆ = 1 V ar(µ6 + µ5 − µ2 − µ1 ) = σ V ar(β) 64 16

2

Por otro lado: σ2 2 V ar(β M CO ) = P 2 = σ 2 x 35 Por lo tanto, la eficiencia relativa de este estimador viene dada por: ˆ V ar(β) 35 = >1 V ar(β M CO ) 32 ES decir, este estimador es menos eficiente que el estimador de mínimos cuadrados ordinarios.

3

Econometr´ıa I Semestre Primavera 2007 Control 1 Pauta Desarrollo Profesores: Jos´e Miguel Benavente, Rodrigo Montero P. Ayudantes: Rodrigo Bravo C., Felipe R´ıos B., Loreto Silva V. Puntaje Total: 100 pts. 1. (50 Pts.) Considere el modelo de regresi´on lineal Y = Xβ + µ con regresores determin´ısticos y errores id´entica e independientemente distribuidos pero con primero momento igual a a, (µi ∼ iid(a, σ 2 ), ∀i). Entonces si a es distinto de cero entonces V ar(βˆM CO ) 6= σ 2 (X 0 X)−1 y por ende el estimador deja de ser eficiente. Respuesta: Falso por los dos motivos siguientes: Si E(u) = a, entonces V ar(βˆM CO ) sigue siendo σ 2 (X 0 X)−1 ya que el supuesto en el enunciado no altera el hecho que var(u) = σu2 · I. Si E(u) = a, el estimador βˆM CO ya no es insesgado y por ende no podemos hablar de eficiencia. Ya que es una propiedad que se aplica s´olo a los estimadores insesgados. 2. (50 Pts.) Demuestre que en un modelo de regresi´on lineal m´ ultiple con k regresores, el estimador insesgado de la varianza del error es: Pn σ ˜=

uˆi 2 n−k i=1

Respuesta: Primero, el vector de residuos estimados puede escribirse en funci´on de los residuos poblacionales de la siguiente forma: u ˆ = Mu Donde M = In − X(X 0 X)−1 X 0 , matriz de dimensi´on nx n idempotente y que satisface M X = 0. Entonces: E(ˆ u0 u ˆ) = E(u0 M M u) = E(u0 M u), dada las caracter´ısticas de la matriz M. Como u0 M u es un escalar entonces E(u0 M u) = E[T r(u0 M u)]. Al cambiar el orden de las matrices queda: E(u0 M u) = E[T r(u0 M u) = E[tr(M u0 u)] = T r[E(M u0 u)] = T r[M E(u0 u)] = T r[M σu2 In ] = σu2 T r(M ) = σu2 [T r(In) − T r[X(X 0 X)−1 X 0 ]] = σu2 (n − k) Por lo tanto como E(u0 M u) = σu2 (n − k) para que la suma de los errores al cuadrado sea un estimador insesgado de σu2 debemos dividir por (n − k). Pn σ ˜=

Pn uˆi 2 E( i=1 uˆi 2 ) (n − k)σu2 ⇒ E(˜ σ) = = = σu2 n−k n−k n−k i=1

1

1)

Comentes a) Cuando hay variables omitidas en la regresión, que son determinantes de la variable dependiente, entonces el estimador MCO de la variable incluida siempre estará sesgado. b) El teorema de Gauss-Markov prueba que, con errores homocedásticos, el estimador OLS es insesgado. c) Una de las condiciones importantes de Gauss-Markov es var(ui|X1,…, Xn) = σ u2 , 0
t5 %,20 lo cual implica que se rechaza la hip´otesis nula que la media de Recoleta es mayor que la de Puente Alto a un 5 % de significancia. Por otro lado, t < t1 %,20 , con lo cual no se rechaza la hip´otesis nula a un 1 % de significancia. Luego, dado que la signicancia es la probabilidad de cometer error de tipo I, vemos que se rechaza facilmente para estandares convencionales (5 %) pero si somos un poco m´as exigentes (o aversos al riesgo de cometer dicho error) no rechazamos la hip´ otesis nula. Dado el tama˜ no muestral y las propiedades asint´ oticas de los estimadores, es sensato usar un nivel de significancia de 5 % y asumir que existe un 5 % de probabilidad de cometer error de tipo I e igualmente rechazar la hip´ otesis nula. Cuadro 1: Valores Cr´ıticos para una distribuci´ on t-Student n-k 1 2 3 4 5 . . 20 21 22 23

90 % 3.078 1.886 1.638 1.533 1.476

95 % 6.314 2.92 2.353 2.132 2.015

97.50 % 12.71 4.303 3.182 2.776 2.571

99 % 31.82 6.965 4.541 3.747 3.365

99.50 % 63.66 9.925 5.841 4.604 4.032

1.325 1.323 1.321 1.319

1.725 1.721 1.717 1.714

2.086 2.080 2.074 2.069

2.528 2.518 2.508 2.500

2.845 2.831 2.819 2.807

2

CONTROLES 2

..

.”

.

-

ï

. .

Profesores+

Econometria 1 - .“ J.M. U.enavenle, A. Otero y J. Vásquez. - PRIMAVkA 2 0 0 4 . .,

.I_

~

.,


k s´olo se requiere que (X ′ X)−1 exista y no que X tenga inversa (recuerde que s´olo las matrices cuadradas pueden tener inversa y Xn×k ), luego en general el comente es falso. Ahora, si k = n la matriz X es cuadrada y se requiere que (X ′ X)−1 = X −1 (X ′ )−1 y por lo tanto necesitamos que X tenga inversa. S´ olo en este caso particular el comente ser´ıa verdadero. 2) El modelo de regresi´on en desviaciones con respecto a la media no es muy u ´ til puesto que no podemos estimar el intercepto. (5 puntos) R. Falso, siempre se puede recuperar el intercepto. Por ejemplo, si la RRP es Yi = βˆ1 + βˆ2 Xi + uˆi , la RRP en desviaci´ on con respecto a la media es yi = βˆ2 xi + uˆ y podemos estimar βˆ2 . Pero el intercepto siempre se puede recuerar de la siguiente manera: βˆ1 = Y − βˆ2 X.

2.

Problema (20 puntos)

Sea el modelo de regresi´on de dos variables: yi = β1 + β2 xi + ui , donde yi es la variable dependiente, xi es la variable independiente, β1 , β2 son los par´ ametros a estimar y ui es el error poblacional con media cero y varianza desconocida σ 2 (suponga que se cumplen todos los supuestos vistos en clases). Suponga que Ud. tiene una muestra aleatoria simple de yi , xi de tama˜ no n. i) Usando c´ alculo, obtenga el estimador MCO de β2 . (10 puntos) R. Como vimos en la clase 5, si escribimos el modelo en desviaci´on con respecto a la media el problema es m´as sencillo: m´ın SE(βˆ2 ) = βˆ2

X

(yi − βˆ2 xi )2

y las condiciones de primer orden est´ an dadas por X ∂SE(βˆ2 ) =− 2(yi − βˆ2 xi )xi = 0 ∂ βˆ2 1

luego

P yi xi βˆ2 = P 2 xi

ii) Obtenga la varianza de β2 y, sin necesidad de demostrar matem´aticamente, explique qu´e ocurre si n = 2. (10 puntos) R. La varianza se puede obtener f´ acilmente de la expresi´on que encontramos en (i) (ver clase 5) E(βˆ2 − β2 )2 = E luego

2 P xi ui P 2 xi

σ2 var(βˆ2 ) = P 2 xi

2 Si n = 2 tenemos que P no2 se puede hacer inferencia en este caso puesto que no existe estimador de σ 2 (recuerde que σ ˆ = u ˆ /(n − 2)).

2

CONTROLES 3

Econometría I Profesora: Javiera Vásquez. Verano 2005 Control 3

Nombre:

..........................................................................................

Rut:

.......................................

Ud. Dispone de 30 minutos para resolver este control, no puedo tener nada más que lápiz en su escritorio, si contesta con lápiz mina no tiene derecho a reclamo. Contestar sólo en el espacio disponible Pregunta 1: (30 puntos) Es mejor predecir un valor puntual de y 0 que el valor esperado E(y 0 /x0 ), ya que uno hace lo primero con mayor precisión. Comente. Falso, al tratar de predecir un valor puntal de y (y 0 ), el error de predicción esta compuesto de dos términos, uno asociado a las diferencias entre el estimador de los parámetros y el valor ˆ + u. poblacional de ellos y otro correspondiente al error intrínseco de y, es decir: eˆ = x0 (β − β) Sin embargo, cuando se predice simplemente el valor promedio condicional de y, se elimina del error de predicción, el error asociado a la desviación de una observación particular de y de su ˆ La valor promedio condicional, es decir, el error de predicción en este caso es: ee = x0 (β − β). 2 0 −1 00 varianza del error de predicción en el primer caso es: σ [1 + x (X‘X) x ], y en el segundo 0 caso es simplemente: σ 2 x0 (X‘X)−1 x0 . Por lo tanto, la predicción en el primer caso es menos precisa que en el segundo. Pregunta 2: (70 puntos) Con la información disponible sobre producto bruto real(Y), dias laborales (L) y capital (K) para el sector agricola de Taiwan (1958-1972), se estima un modelo de regresión lineal con las variables en logaritmos, de la siguiente forma: ln(y) = β0 + β1 ln(L) + β2 ln(k) + u A continuación se presenta la estimación realizada en Eviews: Dependent Variable: LY Method: Least Squares Date: 12/31/04 Time: 13:57 Sample: 1958 1972 Included observations: 15 LY=C(1)+C(2)*LL+C(3)*LK

C(1) C(2) C(3) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood

Coefficient

Std. Error

t-Statistic

Prob.

-3.338455 1.498767 0.489858

2.449508 0.539803 0.102043

-1.362908 2.776509 4.800487

0.1979 0.0168 0.0004

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat

0.074810 0.067158 19.28156

1

10.09653 0.207914 -2.170875 -2.029265 0.891083

donde: - S.D dependent var (sy ) es la desviación estándar de la variable dependiente, la que se construye de la siguiente forma: s PN 2 i=1 (yi − y) sy = N −1 qP 2 u - S.E. of regression es el error estándar de la regresión (σ = N −ki ). - Sum squared resid corresponde a la suma de los errores al cuadrado. Además se estima el siguiente modelo restringido: ln(y) = β0 + ln(L) + ln(k) + u Dependent Variable: LY Method: Least Squares Date: 12/31/04 Time: 13:58 Sample: 1958 1972 Included observations: 15 LY=C(1)+LL+LK

C(1) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood

Coefficient

Std. Error

t-Statistic

-5.673589

0.036429

-155.7450

0.539520 0.539520 0.141088 0.278681 8.608959

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat

Prob. 0.0000 10.09653 0.207914 -1.014528 -0.967325 0.250752

a) Testee la hipótesis de que todas las pendientes son igual a cero. Recordemos que el Test-F de significancia global del modelo o que todas las pendientes son igual a cero, se puede escribir en función del R2 de la siguiente forma: F =

R2 /(k − 1) ∼ Fk−1,n−k (1 − R2 )/(n − k)

En el tabla de regresión no se presenta la información del R2 , por lo tanto se debe construir. Como el modelo incluye constante: R2 = 1 −

RSS T SS

La suma de los errores al cuadrado (RSS) se puede obtener directamente de la tabla (Sum squared resid), el valor es de 0.067158. 2

La suma total de cuadrados se puede obtener de la desviación estándar de la variable dependiente (S.D dependent var) reportada en la tabla: s PN 2 i=1 (yi − y) = 0,207914 sy = N −1 s PN 2 i=1 (yi − y) = 0,207914 15 − 1 N X

(yi − y)2

= (0,207914)2 · 14

(yi − y)2

= 0,60519524

i=1 N X i=1

De esta forma, el R2 es: R2 = 1 −

0,067158 = 0,889030 0,60519524

El estadístico F calculado para la hipótesis nula de que todas las pendientes son igual a cero es: F =

0,889030/2 = 48,06885 (1 − 0,889030)/12

Si lo comparamos con el valor F de tabla a un 95 % de confianza con 2 grados de libertad en el numerador y 12 grados de libertad en el denominador, que es igual a 3.89, la conclusión es que se rechaza la hipótesis nula de que las pendientes del modelo son iguales a cero. b) Testee la Hipótesis de que las pendientes suman uno. Se puede construir un test-t con la información de las desviación estándar de los parámetros y la información de covarianza entre los parámetros: =

q

tc

=

p

βˆ2 + βˆ3 − 1

tc

=

V ar(βˆ2 ) + V ar(βˆ3 ) + 2Cov(βˆ2 , βˆ3 )

∼ t12

1,498767 + 0,489858 − 1

(0,539803)2 + (0,102043)2 + 2 · (−0,038427) 0,988625 = 2,08445441 0,47428478

Si lo comparamos con el valor de tabla de la distribución t a un 95 % de confianza y con 12 grados de libertad, que es igual a 2.179, se concluye que no se puede rechazar la hipótesis nula de que las pendientes sumen uno. También se puede calcular el cuadrado del estadístico t, el que corresponde al estadístico F , y se debe comparar con un valor de tabla a un 95 % de confianza con un grado de libertad en el numerador y 12 grados de libertad en el denominador, el que es igual a 4.75. Como el cuadrado del estadístico t calculado es 4.34495017, se concluye exactamente o mismo, no se puede rechazar la nula de que las pendientes sumen uno. 3

c) Construya un intervalo de confianza para β1 y β2 . La forma general del intervalo de confianza es: · ¸ q q P βˆi − t1−α/2,n−k V ar(βˆi ) ≤ βi ≤ βˆi + t1−α/2,n−k V ar(βˆi ) = 1 − α a un 95 % de confianza, t0,975,12 = 2,179. De esta forma, el intervalo de confianza de β1 es: P [1,498767 − 2,179 · 0,539803 ≤ β1 ≤ 1,498767 + 2,179 · 0,539803] = 0,95 P [0,32253626 ≤ β1 ≤ 2,67499774] = 0,95 Por otra parte, el intervalo de confianza de β2 es: P [0,489858 − 2,179 · 0,102043 ≤ β2 ≤ 0,489858 + 2,179 · 0,102043] = 0,95 P [0,2675063 ≤ β2 ≤ 0,7122097] = 0,95

4

Econometría I Profesores: A. Otero y J. Vásquez. Otoño 2005 Pauta Control 3 Pregunta 1: (30 puntos) En una prueba de hipótesis cualquiera, la zona de rechazo nunca cambia al cambiar la hipótesis nula. Comente. Falso, cuando hacemos un test de hipótesis de la forma H0 : Rβˆ = r para ver si rechazamos o no la hipótesis nula debemos comparar el valor calculado del estadístico con el valor de tabla de una distribución F con q grados de libertad en el numerador y n − k grados de libertad en el denominador. Si bien el valor de tabla de la distribución F no cambia con r (los valores que testeamos bajo la hipótesis nula) si cambia con el número de hipótesis que estemos testeando (q). Pregunta 2: (70 puntos) Suponga el siguiente Modelo de Regresión Lineal Simple: Yi = β1 + β2 Xi + ui

para i = 1, ..., N

Además posee la siguiente información muestral de X e Y: Y X

4 0

10 20

12 36

14 40

a. Obtenga el estimador Mínimos Cuadrados Ordinarios de β1 y β2 . · ¸ · ¸−1 · ¸ · ¸ βˆ1 4 96 40 4,3871 ˆ β= = = 96 3296 1192 0,233870968 βˆ2 b. Testee la hipótesis nula conjunta de que βˆ1 = 4,5 y βˆ2 = 0,5. Para testear H0 : βˆ1 = 4,5, βˆ1 = 0,5, utilizamos el siguiente estadístico F: [(Rβˆ − r)0 [R(X 0 X)−1 R0 ]−1 (Rβˆ − r)]/q ∼ F(q,n−k) u ˆ0 u ˆ/(n − k) lo que se puede reescibir de la siguiente forma: ˆ 0 ]−1 (Rβˆ − r)]/q ∼ F(q,n−k) [(Rβˆ − r)0 [RVd ar(β)R donde:

ˆ =σ Vd ar(β) e2 (X 0 X)−1

· ¸ · ¸ 4,3871 − 4,5 −0,1129 Rβˆ − r = = y 0,233870968 − 0,5 −0,2661 · ¸ · ¸ 1,74 0,83 −0,024 0,724 −0,021 = = −0,024 0,001 −0,021 0,0009 2

De esta forma, el valor calculado del estadístico · £ ¤ 0,724 −0,1129 −0,2661 Fc = −0,021 · £ ¤ 4,59 −0,1129 −0,2661 = 110,22 1

F es: ¸−1 ·

¸ −0,1129 /2 −0,2661 ¸· ¸ 110,22 −0,1129 /2 = 137,32 3784,29 −0,2661 −0,021 0,0009

El valor de tabla de una distribución F con dos grados de libertad en el numerador y dos grados de libertad en el denominador es 19, con lo cual se rechaza la hipótesis nula. c. Determine βˆ2 , pero en un modelo sin constante. ¿Cómo cambia con respecto al obtenido en a.? El estimador MCO de β2 es un modelo sin constante (Y = β2 X + u) es1 : βˆ2 =

P4 i=1 P 4

Xi · Yi

i=1

Xi2

Como el modelo no incluye constante, este estimador NO queda expresado en desvíos con respecto a la media. Utilizando la información disponible: Y 4 10 12 14

X 0 20 36 40 12

Promedio Suma

Y ·X 0 200 432 560

X2 0 400 1296 1600

1192

3296

Por lo tanto, βˆ2∗ = 0,36165049 Como podemos apreciar el valor estimado para β2 , es mayor que el en caso donde se incluye la constante, esto porque al ser positiva la constante y omitirla se genera un sesgo hacia arriba del parámetro de pendiente. Esto se puede apreciar gráficamente en la siguiente figura, que dibuja las recta de regresión estimadas de un modelo con y sin constante: 1 Este

se obtiene de minimizar la suma de los errores al cuadrado con respecto a βˆ2 : m´ın

4 X (Yi − βˆ2 Xi )2

ˆ2 β i=1

4

CP O :

X ∂SE(βˆ2 ) = 2 · (Yi − βˆ2 Xi )(−Xi ) = 0 ˆ ∂ β2 i=1



4 X (−Xi Yi + βˆ2 Xi2 ) = 0 i=1

⇒ βˆ2 =

P4

i=1 P 4

X i · Yi

i=1

2

Xi2

Modelo con constante Modelo sin constante

Al ser la constante positiva (cuando la estimamos), si la obligamos a ser cero (estimación si constante), la pendiente de la recta de regresión aumenta para lograr minimizar la suma de los errores al cuadrado.

3

Econometría I Profesores:

Emerson Melo Rodrigo Montero Javiera Vásquez

Primavera 2005 Control 3 Rut:

.......................................

Ud. Dispone de 30 minutos para resolver este control, no puede hacer consultas a los ayudantes, no puedo tener nada más que lápiz en su escritorio, si contesta con lápiz mina no tiene derecho a reclamo. Contestar sólo en el espacio disponible Pregunta 1:(30 puntos) El método de mínimos cuadrados descansa fuertemente en el supuesto de Normalidad del término de error. Luego el estimador M.C.O, βˆ = (X 0 X)−1 X 0 Y se obtiene solo bajo errores normales. Falso. El supuesto de Normalidad lo necesitamos para conocer la distribución de los estimadores y de esta forma poder derivar los test t y F. Por otra parte la formula βˆ = (X 0 X)−1 X 0 Y resulta simplemente de plantear el problema de optimización de mínimos cuadrados, el cual no depende del supuesto de Normalidad de los errores. Pregunta 2: (70 puntos) Sea el siguiente modelo de regresión lineal múltiple: Yi = β0 + β1 X1i + β2 X2i + β3 X3i + ui Los errores tienen el siguiente comportamiento u ∼ N (0, σ 2 I). Usted dispone de la siguiente información sobre los parámetros estimados de este modelo.     0,02 2,5     ˆ = 0,45 0,35 ˆ β)  βˆ =  1,2  V(  0,5 0,21 0,01  0,85 0,2 0,25 0,09 0,5 0,02 Donde el tamaño muestral es de N=150 a) (30 puntos)Plantee matricialmente el estadístico asociado a la hipotesís1 : H0

: β0 = 1 β1 + β2 = 2 β3 = 1,5

Sabemos que dado que tenemos más de una restricción lineal, el estadístico que corresponde es una F con la forma: ˆ 0 ]−1 (Rβˆ − r) ∼ F(q,n−k) (Rβˆ − r)0 [RVd ar(β)R 1 Sólo

deje el estadistico expresado, no es necesario realizar el calculo.

1

Luego las matrices involucradas son:  1 0 R= 0 1 0 0

   0 1 0  y r= 2  1 1, 5

0 1 0

Luego a partir de los datos del enunciado se puede construir el test F, ya que planteamos las matrices que están involucradas en el conjunto de restricciones lineales. b) (30 puntos) Ahora testee la siguiente hipótesis.(Ind: Asuma un valor de tabla de 1.96 que corresponde a un 95 % de confianza. ) H0

:

β1 + β2 = 0,5

¿ Con los datos del problema puede rechazar la hipótesis nula? Como aquí solo tenemos una restricción lineal, es posible usar un test t.2 A partir de lo anterior tenemos: βˆ1 + βˆ2 − 0, 5 βˆ1 + βˆ2 − 0, 5 tc = q =q Vˆ (βˆ1 + βˆ2 ) Vˆ (βˆ1 ) + Vˆ (βˆ2 ) + 2Cov(βˆ1 , βˆ2 ) Reemplazando los datos del enunciado, se obtiene: tc = √

1, 2 + 0, 85 − 0, 5 = 1, 76 0, 35+, 01 + 2 × 0, 21

Usando la indicación del enunciado, no es posible rechazar la hipotesis nula. c) (10 puntos) Señale las diferencias que existen en los procedimientos de las partes a) y b). La diferencia es que con el test F podemos plantear mas de una hipótesis lineal ( en la parte a) planteamos 3 restricciones), mientras que con el test t podemos trabajar solamente con una restricción lineal. Ademas en ambos casos tenemos distribuciones estadísticas distintas.

2 Recordar

que en ese caso el test F corresponde a un test al cuadrado.

2

Econometría I

Verano 2005-2006

Profesor

:

Jaime Ruiz-Tagle V.

Ayudante

:

Roberto Jaramillo M.

Control 3 - Pauta de Corrección

Instrucciones Ud. Dispone de 30 minutos para resolver este control. No puede hacer consultas a los ayudantes, no puede tener nada más que lápiz en su escritorio. Si contesta con lápiz mina no tiene derecho a reclamo.

Pregunta 1 (30 puntos) (a) En un modelo de regresión con k variables, el estimador de Mínimos Cuadrados ˆ = (X 0 X)−1 X 0 y . Muestre que la varianza de βˆ es: Ordinarios (MCO) es β

βˆ = σu2 (X 0 X)−1 .

La varianza de

βˆ

está dada por:

ˆ = E[(βˆ − E[β]) ˆ · (βˆ − E[β]) ˆ 0] V ar(β) = E[(βˆ − β) · (βˆ − β)0 ]. Dado que

βˆ = (X 0 X)−1 X 0 y = (X 0 X)−1 X 0 (Xβ + u) = β + (X 0 X)−1 X 0 u, se obtiene

ˆ = V ar(β) = = = =

E[((X 0 X)−1 X 0 u) · ((X 0 X)−1 X 0 u)0 ] E[(X 0 X)−1 X 0 uu0 X(X 0 X)−1 ] (X 0 X)−1 X 0 E[uu0 ]X(X 0 X)−1 (X 0 X)−1 X 0 σ 2 In X(X 0 X)−1 σ 2 (X 0 X)−1 .

1

Notar que esto se cumple porque

X

no está correlacionado con los errores y porque

los errores no presentan autocorrelación y son homcedásticos.

(b) Explique por qué el estimador insesgado de la varianza de los errores es

σ ˜u2 =

u ˆ0 u ˆ . n−k

El estimador natural de las varianza de los errores es

σ ˆu2

uˆ0 uˆ = = n

Pn

ui i=1 (ˆ

− u¯)2

n

Sin embargo, para obtener los valores de



Pn =

i=1

n

uˆ2i

.

es necesario estimar

k

parámetros

ˆ1 , . . . , βˆk ), de modo que la precisión de la estimación es menor al ser los grados (β de libertad menores (n

− k)

en vez de

n.

De este modo, al corregir por lo grados

de libertad, se obtiene el estimador insesgado de la varianza.

Pregunta 2 (30 puntos) (a) Explique qué signica que un estimador sea MELI.

Un estimador es MELI si es que es el Mejor Estimador Lineal Insesgado.

(b) Explique por qué el estimador de MCO es MELI.

El estimador de MCO es MELI porque es un estimador Lineal (el modelo es

y = Xβ + u),

es insesgado porque

ˆ =β E[β]

(dado el supuesto de independencia

de las variables explicativas y de que el error se asume con media cero), y tiene varianza mínima (es eciente porque no hay otro estimador lineal insesgado con menor varianza).

(c) Explique el Teorema de Gauss-Markov.

El Teorema de Gauss-Markov postula que el estimador de MCO es MELI.

2

Econometría I Profesoras: Claudia Sanhueza Javiera Vásquez. Otoño 2006 Control 3

Nombre:

..........................................................................................

Rut:

.......................................

Ud. Dispone de 30 minutos para resolver este control, no puede hacer consultas a los ayudantes, no puedo tener nada más que lápiz en su escritorio, si contesta con lápiz mina no tiene derecho a reclamo. Contestar sólo en el espacio disponible Pregunta 1: (30 puntos) Es imposible que en el siguiente modelo Y = β0 + β1 X1 + β2 X2 + u, los parámetros βˆ1 y βˆ2 sean individualmente no significativos, pero que el test F de significancia global del modelo nos diga que este es significativo. Comente. Falso. Hay dos posible argumentos. Respuesta 1: Es posible que los test de significancia individual de βb1 y βb2 nos digan que estos no son significativos individualmente. Sin embargo, esto no quiere decir que en conjunto sean es-tadísticamente no significativos. Lo anterior podría darse por la covarianza existente entre los coeficientes estimados. En efecto, es posible que el área roja sea significativa, y la covarianza existente entre ambos coeficientes sea tal que en conjunto logren explicar la variabilidad de la variable dependiente. (Ver gráfico)

Y amarillo

azul

verde rojo

café

naranjo

X

Z

Respuesta 2: El test t asociado a la significancia de un parametro está en función de la varianze de cada parámetro.: 1

βbi

tcalculado = r

³ ´ \ V ar βbi

³ ´ En general rechazamos la hipotesis nula de no significancia (H0 :βi = 0 ), si la V ar βbi es muy alta. Esto hace que el test t calculado sea bajo y por lo tanto caigamos en la zona de no rechazo. En cambio el test F de la significancia conjunta de los parámetros (H0 :βi = 0, ∀i ) es una función la matriz de varianza y covarianza de todos los parámetros estimados: "

F calculado

´ ³ ´ ¸−1 ³ ³ ´0 · \ b Rβb − r = Rβ − r RV ar βb R0

#

³ ´ En este caso βb y V ar βb es el vector de parametros y la matriz de var y cov de dichos parametros estimados. Por lo tanto, el test F toma en cuenta las covarianzas entre los parametros. En particular, en un modelo con dos variables explicativas y constante el test F tendría la forma de:

F calculado

=

=

=

 ·  0 1  0 0

 0 · ¸ βb1 0  b  0  − β 1  2  0  b β3   ³ ´ ³ ´ ³ ´ b1 b1 , βb2 b1 , βb3 V β Cov β Cov β ¸ · ³ ´ ³ ´ ³ ´  0 1 0  V βb2 Cov βb2 , βb3   Cov βb2 , βb1  0 0 1  ³ ´ ³ ´ ³ ´ Cov βb3 , βb1 Cov βb3 , βb2 V βb3     · ¸ · ¸0 βb1 0   0 1 0  b   0 0 1  β2  − 0  βb3  ³ ´ ³ ´ −1 Ã Ã !0 ! V βb2 Cov βb2 , βb3 βb2 βb2  ³ ´ ³ ´  βb3 βb3 Cov βb3 , βb2 V βb3 ³ ´ ³ ´ ³ ´ βb22 V βb2 − 2βb2 βb3 Cov βb2 , βb3 + βb32 V βb3 ³ ´ ³ ´ ³ ´2 V βb2 V βb3 − Cov βb2 , βb3 ¸0



 ·  0   0

−1 1 0

0 1

¸0    

Por lo tanto, si la covarianza entre los parametros es tal que contrarresta el efecto de las varianzas altas de los parametros podemos tener un test F suficientemente alto para rechazar la H0 de no significancia conjunta (H0 :βi = 0, ∀i ), y por ende el modelo explica la varianza total 2

de la variable dependiente. A pesar de que no podamos rechazar las H0 de no significancia de cada uno de los parametros del modelo (H0 :βi = 0 ). Pregunta 2: (70 puntos) Una pequeña tienda de comestibles observa que el precio de las naranjas varía mucho durante el año. Fuera de temporada el precio llega a los $60 por unidad, y dentro de la temporada los precios varían entre $10, $20 y $30 por unidad. A continuación se presentan los datos para seis semanas con las cantidades de naranjas vendidas (y) y el precio (x): Naranjas Vendidas y (cientos) 6 4 5 4 3 2

Precio por naranja x (pesos) 10 20 30 40 50 60

Suponiendo que la demanda por naranjas viene dada por la siguiente ecuación: y = α + βx + u estime los parámetros de esta ecuación. Calcule un intervalo de confianza al 90 % para la cantidad de naranjas que se venden en la semana 7, si el precio es de $25 por unidad en esta semana. · ¸ P 2 0,87 −0,02 Nota: ui = 1,77 y (X 0 X)−1 −0,02 0,0006 Respuesta: El estimador MCO de β se obtiene de la siguiente forma: P (Xi − X)(Yi − Y ) ˆ β= P (Xi − X)2

Suma Promedio

Y 6 4 5 4 3 2 24 4

X 10 20 30 40 50 60 210 35

(Y − Y ) 2 0 1 0 -1 -2 -

βˆ = α ˆ

=

(X − X) -25 -15 -5 5 15 25 -

(Y − Y )(X − X) -50 0 -5 0 -15 -50 -120 -20

(X − X)2 625 225 25 25 225 625 1750 291.7

−120 = −0,068571429 1750 ˆ = 6,4 Y − βX

Ahora si se espera que en la semana 7 el precio de las naranjas sea $25 por unidad, la demanda esperada (predicción puntual) es: yˆ0 = 6,4 − 0,068571429 ∗ 25 = 4,685714286 3

El intervalo de confianza de la predicción es: p p P r[b y 0 − t0,95,4 V ar(b e0 ) ≤ y 0 ≤ yb0 + t0,95,4 V ar(b e0 )] = 90 % donde t0,95,4 = 2,132

Ahora debemos calcular la varianza del error de predicción: Vd ar(b e0 ) = σ ˆµ2 (1 + x0 (X 0 X)−1 x00 ) P 2 ui 1,77 σ ˆµ2 = = = 0,4425 n−k 4 · ¸· ¸ £ ¤ 0,87 −0,02 1 0 0 −1 00 1 25 x (X X) x = = 0,245 −0,02 0,0006 25 Vd ar(b e0 )

=

0,4425(1 + 0,245) = 0,5509125

Entonces el intervalo de confianza de la predicción es: p p P r[4,685714286 − 2,132 0,5509125 ≤ y 0 ≤ 4,685714286 + 2,132 0,5509125] = 90 % P r[3,10326969 ≤ y 0 ≤ 6,268158882] = 90 %

4

Econometría Facultad de Economía y Negocios Universidad de Chile Pauta Control 3

Semestre: Primavera 2006 Profesores: José Miguel Benavente, Rodrigo Montero Tiempo de duración: 20 minutos No hay preguntas de ningún tipo para los ayudantes

Comente (6 puntos) La significancia global del modelo depende de la significancia individual de las variables independientes incluidas. Respuesta. Falso. Es posible que, aun cuando los coeficientes estimados no sean individualmente significativos, sí lo sean en conjunto. Lo anterior podría darse en el caso que la covarianza de los regresores sea capaz de “explicar” la variabilidad de la variable dependiente. Como existe un alto grado de correlación entre las variables independientes del modelo (es decir, un alto grado de multicolinealidad), entonces, al menos una de estas variables tiene una influencia significativa sobre la variable dependiente, pero no se puede establecer cual. Por otro lado, al existir un alto grado de multicolinedlidad, es muy probable que los coeficientes, a nivel individual, no sean estadísticamente significativos. Recuerde que: ˆ =σ var(β) ˜ 2 (X 0 X)−1 Si existe un alto grado de colinealidad entre las variables independientes del modelo, el determinante de (X 0 X) tiende a cero, por lo que se obtienen varianzas “gigantes”.

1

Ejercicio (14 puntos) Con la información proporcionada por una muestra de 5 datos, se ha estimado el siguiente modelo (mínimos cuadrados ordinarios): Yi = 4 + 2, 5X1i − 1, 5X2i El R2 del modelo es de 0,95 y información:

P

yi2 = 28. Se cuenta además con la siguiente



(X 0 X)−1



26, 7 4, 5 −8     =  4, 5 1 −1, 5   −8 −1, 5 2, 5

Construya un intervalo de confianza para βˆ0 , βˆ1 y βˆ2 al 95 % (asuma un t∗ crítico igual a 1,96). ¿Son los coeficientes estadísticamente significativos? Respuesta. Se sabe que: ˆ =σ var(β) ˜ 2 (X 0 X)−1 Además (es importante corregir por la pérdida en grados de libertad, ya que la muestra es pequeña): 2

e2i n−k P

σ ˜ = Por otro lado, se sabe que:

P 2 e R = 1 − P i2 = 0, 95 yi 2

Es decir: X

e2i = 1, 4

Por lo tanto: σ ˜2 =

1, 4 = 0, 7 2

Finalmente: 







26, 7 4, 5 −8 18, 69 3, 15 −5, 6         ˆ var(β) = 0, 7  4, 5 1 −1, 5 =  3, 15 0, 7 −1, 05     −8 −1, 5 2, 5 −5, 6 −1, 05 1, 75 2

Los intervalos de confianza vienen dados por (4 puntos por cada uno): p p P (4 − 1, 96 18, 69 < β0 < 4 + 1, 96 18, 69) = 0, 95 P (−4, 47 < β0 < 12, 47) = 0, 95

p p P (2, 5 − 1, 96 0, 7 < β1 < 2, 5 + 1, 96 0, 7) = 0, 95 P (0, 86 < β1 < 4, 13) = 0, 95

p p P (−1, 5 − 1, 96 1, 75 < β2 < −1, 5 + 1, 96 1, 75) = 0, 95 P (−4, 09 < β2 < 1, 09) = 0, 95 Es decir, sólo βˆ1 es estadísticamente significativo (2 puntos).

3

Econometría Facultad de Economía y Negocios Universidad de Chile Pauta Control 3

Semestre: Primavera 2007 Profesores: José Miguel Benavente, Rodrigo Montero Ayudantes: Loreto Silva, Rodrigo Bravo, Felipe Ríos Tiempo de duración: 40 minutos No hay preguntas de ningún tipo para los ayudantes Está permitido utilizar calculadora

Una compañía telefónica está desarrollando un nuevo plan de contrato, para lo cual necesita ver cómo se relaciona la cantidad de minutos hablados durante un mes con la edad de la persona. En particular, ellos disponen de la siguiente información: i 1 2 3 4 5 6 7 8 9 Por lo tanto: X Ei2 = 5135

X

Edad (E) Minutos (M ) 14 65 16 54 18 55 22 70 26 77 27 90 27 110 29 120 30 150

Ei = 209

X

Mi = 791

X

Ei Mi = 19686

Luego, el modelo a estimar es el siguiente: Mi = α + βEi + ui Donde u cumple con los supuestos convencionales que se hacen sobre el término de error. (NOTA: en caso de ser necesario trabaje con tres decimales) IMPORTANTE: esta pauta de corrección ha sido confeccionada considerando TODOS los decimales en los cálculos respectivos. 1

1. Obtenga los estimadores MCO de α y β. (10 puntos) Respuesta. Se sabe que:     P −1  P α ˆ n E M i i 0 −1 0 P 2 P = (X X) X Y = P Ei Ei Ei Mi βˆ Por lo tanto: −1        α ˆ 791 −20, 75335 9 209 = = 209 5135 19686 4, 678374 βˆ 2. Estime la varianza de u (σ 2 ). (10 puntos) Respuesta. Se sabe que: P 2 eˆi 2412, 43054 2 2 s =σ ˜ = = = 344, 63293 n−k 7 3. ¿Influye la edad de las personas en la cantidad de minutos que hablan por celular? (Ayuda: Utilice 2,3 para el valor crítico de la distribución t). (10 puntos) Respuesta. Se debe analizar la significancia estadística del coeficiente esˆ Para ello se necesita estimar, en primer lugar, la varianza del timado (β). estimador MCO:  −1 9 209 2 0 −1 ˆ = s (X X) = 344, 63293 V ar(β) 209 5135 En este caso, solo interesa el elemento 2x2 de la matriz, por lo tanto: ˆ = 1, 2240317 V ar(β) Así: σ ˆβˆ = 1, 1063597 Luego, el test t se calcula como sigue: tβˆ =

4, 678374 βˆ = = 4, 2286193 σ ˆβˆ 1, 1063597

Este valor es mayor al t crítico sugerido (2,3), por lo tanto, se rechaza la hipótesis nula, y el coeficiente estimado es estadísticamente significativo.

2

4. Realice una predicción condicional de minutos a hablar para una persona que tiene 26 años de edad, y luego construya un intervalo de confianza al 95 % para dicha predicción (Ayuda: Utilice 2,3 para el valor crítico de la distribución t). (10 puntos) Respuesta. La predicción es: ˆ = −20, 75335 + 4, 678374(26) = 100, 88437 M Por otro lado, se sabe que: p p ˆ + t∗ V ar(eo )) = 1 − α ˆ − t∗ V ar(eo ) ≤ M P (M Además:

0

V ar(eo ) = s2 (1 + xo (X 0 X)−1 xo ) Luego: " o

 V ar(e ) = 344, 63293 (1 + 1 26



−1  # 9 209 1 = 215, 565586 209 5135 26

Luego: P (100, 88437 − 2, 3(14, 6821519) ≤ 100, 88437 + 2, 3(14, 6821519)) = 1 − α P (67, 115421 ≤ 134, 65332) = 1 − α

3

Control #3 Econometr´ıa I Profesores: Tom´as Rau y Javiera V´asquez Ayudantes: Roberto Gillmore, Eugenio Rojas y Jorge Sepulveda 23 de abril, 2008 Tiempo Total: 30 Minutos.

1.

Comentes (10 puntos, 5 c/u)

1) Un alto R2 es garant´ıa de que la estimaci´ on del modelo de regresi´on lineal es buena. R. Falso. Un R2 alto no necesariamente indica que la estimaci´ on es buena, esto puede deberse a un modelo saturado con muchas variables y que artificialemente aumentan la bondad de ajuste (esto puede ser chequado viendo el R2 ajsutado). Tambi´en existen modelos matem´aticamente equivalentes pero econometricamente distintos, unos con elevado R2 y otros con bajo R2 (ejemplo visto en clases). 2) El teorema de Gauss-Markov establece que dentro de la clase de estimadores insesgados el estimador MCO es el m´as eficiente. R. Falso/Depende. El teorema de Gauss-Markov establece que dentro de la clase de estimadores LINEALMENTE insesgados el estimador MCO es el m´as eficiente, bajo ciertos supuestos. Pueden existir estimadores no lineales e insesgados con menor varianza que el estimador de MCO.

2.

Problema (20 puntos) Sea el siguiente modelo de regresi´on lineal y = β0 + β1 x1 + β2 x2 + β3 x3 + ǫ

donde se cumplen los supuestos usuales vistos en clases. a) Describa c´ omo testear´ıa la siguiente hip´otesis H0 : 3β1 − 2β3 = −8

Ha : 3β1 − 2β3 6= −8 Escriba explicitamente el estad´ıstico a usar, su distribuci´ on bajo la hip´otesis nula, y cu´ando rechaza o no rechaza la hip´ otesis nula. R. Aqui hay dos alternativas: hacer un simple test-t o un test F mediante Rβ = r (caso 3). La primera es trivial, 3βˆ1 − 2βˆ3 + 8 t= q ∼ tn−k 9V ar(βˆ1 ) + 4V ar(βˆ3 ) − 12Cov(βˆ1 , βˆ3 ) 1

que sigue una distribuci´ on t-student con n − k grados de libertad. Como la hip´otesis es a dos colas y la distribuci´ on t es sim´etrica debemos comparar el estad´ıstico con el valor tabla tα/2,n−k , donde α es el nivel de significancia del test (probabilidad de cometer error tipo I). Se rechaza la hip´otesis nula si |t| > tα/2,n−k . La otra alternativa es,

[(Rβˆ − r)′ [R(X ′ X)−1 R′ ]−1 (Rβˆ − r)]/q ≡ [(Rβˆ − r)′ [ˆ σ 2 R(X ′ X)−1 R′ ]−1 (Rβˆ − r)]/q ∼ F(q,n−k) u ˆ′ u ˆ/(n − k)

(1)

donde R = [0, 3, 0, −2], r = −8 y q = 1. Luego el estad´ıstico sigue una distribuci´ on F con (1,n-k) grados α de libertad y se rechaza el test si el estad´ıstico es mayor al valor cr´ıtico F(1,n−k) . b) Suponga que βˆ0 = 1, βˆ1 = 2, βˆ2 = 2,5, βˆ3 = 1, n=1000  3  0 σ ˆ 2 (X ′ X)−1 =   0 0

y 0 4 0 3

0 0 9 0

 0 3   0  9

Realice el test descrito en a) con un nivel de significancia del 5 % y diga si rechaza o no la hip´otesis 5% nula. Recuerde que t2,5 %,996 = 1,96 y que F1,996 = 3,84 R. El test t es simplemente t= q

3βˆ1 − 2βˆ3 + 8

9V ar(βˆ1 ) + 4V ar(βˆ3 ) − 12Cov(βˆ1 , βˆ3 )

=√

12 =2 36 + 36 − 36

con lo cual tenemos que se rechaza la hip´otesis nula puesto que t2,5 %,996 = 1,96 La otra manera requiere un poco m´as de algebra. Dado que q = 1 podemos reemplazarlo y calculemos la expresi´on en corchetes a la menos 1, es decir la varianza de Rβˆ

σ ˆ 2 R(X ′ X)−1 R′

luego,



=



=



=

36

0 3

0 6

3  0 0 −2   0 0   0 −9  

0 4 0 3 

0 3   0  −2

0 0 9 0

 0 0  3 3   0  0 9 −2

   

[(Rβˆ − r)′ [ˆ σ 2 R(X ′ X)−1 R′ ]−1 (Rβˆ − r)]/q = (12)(36)−1 12/1 = (12)2 /36 = 4

5% Luego el estad´ıstico es mayor a F1,996 = 3,84 y se rechaza la hip´otesis nula.

2

CONTROLES 4

Econometría I Profesores: J.M. Benavente, A. Otero y J. Vásquez. Primavera 2004 Control 4

Nombre:

..........................................................................................

Rut:

.......................................

Ud. Dispone de 30 minutos para resolver este control, no puede hacer consultas a los ayudantes, no puedo tener nada más que lápiz en su escritorio, si contesta con lápiz mina no tiene derecho a reclamo. Contestar sólo en el espacio disponible Pregunta 1: (30 puntos) En un modelo de regresión lineal simple donde tanto la variable dependiente como explicativa están en logaritmos, el parámetro estimado representa una elasticidad. Comente. Verdadero, cuando tenemos un modelo de regresión simple: ln(yi ) = α + βln(xi ) + ui , donde ambas variables (dependiente y explicativa) estan el logaritmos, el parámetro β que representa el impacto marginal de ln(x) sobre ln(y) representa la elacticidad de y a x. ∂ln(y) Veamos esto con más detalle, β = ∂ln(x) , recordando que la dervivada de una variable en loga∂ln(y) rimo es ∂ln(x) = x1 ∆x, tenemos que β = ∂ln(x) = ∆y ∂x y · por definición corresponde la elasticidad de y a x.

x ∆x

, lo que es implica β =

%∆y %∆x ,

lo que

Pregunta 2: (70 puntos) Existe presunción que los egresados de Administración de la carrera de Ingeniería Comercial tienen un mayor salario que aquellos egresados de Economía. (a) Plantee un modelo que permita testear esta hipótesis. Explique explícitamente como lo testearía. R: Suponiendo que disponemos datos de los alumnos egresados de Ingeniería Comercial, podríamos estimar el siguiente modelo: Wi = β0 + β1 D1i + ui donde Wi es el logaritmo natural del salario y D1i es una variable dummy que toma el valor 1 si la persona i egreso de administración y 0 si egreso de economía (también se puede definir D2i que tome el valor 1 si la persona i egreso de economía y 0 si egreso de administración e incluir esta en el modelo, o incluir ambas dummies en el modelo y omitir la constante). De esta forma: E[Wi /Administracion]

=

E[Wi /Economia]

=

βˆ0 + βˆ1 βˆ0

Para comprobar esta hipótesis se requiere un parámetro βˆ1 positivo y estadísticamente signi-

1

ficativo. Explícitamente esto se testea mediante un test-t con H0 : βˆ1 = 0: βˆ1 t= q ∼ tn−k Vˆ (βˆ1 ) (b) Plantee un modelo que además permita testear que dicha diferencia entre menciones no es igual entre universidades (Considere sólo las dos universidades más importante del país: Universidad de Chile y Universidad Católica). Explique explícitamente como lo testearía. Para testear esto además se debe incorporar una variable dummy que llamaremos D3 , que tome el valor 1 si la persona i egreso de la Universidad de Chile y 0 si egreso de la Universidad Católica, de esta forma el modelo que nos permite testear esto es: Wi = β0 + β1 D1i + β2 D3i + β3 D1i · D3i + ui De esta forma: E[Wi /Administracion

en

E[Wi /Economia

U. de Chile] =

en U. de

Chile] =

E[Wi /Administracion

en

U. Catolica] =

E[Wi /Economia

en

U. Catolica] =

βˆ0 + βˆ1 + βˆ2 + βˆ3 βˆ0 + βˆ2 βˆ0 + βˆ1 βˆ0

Para testear se debe utilizar un test F para la hipótesis conjunta: H0 :

H0 :

βˆ1 βˆ2 βˆ3 Rβ

= 0 = 0 = 0 = r

o

donde R=[03×1 I3 ] y r=03×1 . El estadístico F es: [(Rβˆ − r)0 [R(X 0 X)−1 R0 ]−1 (Rβˆ − r)]/q ∼ F(q,n−k) u ˆ0 u ˆ/(n − k)

2

Econometría I Profesora: Javiera Vásquez. Verano 2005 Control 4

Nombre:

..........................................................................................

Rut:

.......................................

Ud. Dispone de 30 minutos para resolver este control, no puedo tener nada más que lápiz en su escritorio, si contesta con lápiz mina no tiene derecho a reclamo. Contestar sólo en el espacio disponible Pregunta 1: (30 puntos) Bajo el supuesto de normalidad del término de error, el estimador Máximo Verosímil (MV) y el de Mínimos Cuadrados Ordinarios (MCO) son exactamente iguales. Comente. Efectivamente bajo el supuesto de normalidad del término de error, el estimador Máximo Veˆ coincide con el estimador rosímil de los parámetros asociados a las variables explicativas (β) MCO. Pero el estimador de la varianza del error (σ 2 ) difiere, el estimador Máximo Verosímil de este parámetro es un estimador sesgado, igual a la suma de los errores estimados al cuadrado dividido por el tamaño de muestra. De esta forma, el comente es FALSO. Pregunta 2: (70 puntos) Suponga que Ud. quiere estimar la siguiente función de producción Cobb-Douglas: Y = ALα K γ eu para lo cual dispone datos de producto (Y), capital (K) y trabajo (L) de 10 países latinoamericanos. a) Plantee una ecuación de regresión estimable por MCO. R: Como la función de producción Cobb-Douglas es una función no lineal es variables, para que sea estimable por MCO se debe linealizar, lo que se hace aplicando logaritmo a esta función, quedando el siguiente modelo logarítmico: ln(Y ) = ln(A) + |{z} α ln(L) + γ ln(K) + u |{z} | {z } β0

β1

β2

ln(Y ) = β0 + β1 ln(L) + β2 ln(K) + u donde β1 =

∂ln(Y ) ∂ln(L)

%∆Y %∆L = εY,L corresponde a la elasticidad del producto ∂ln(Y ) %∆Y = %∆K = εY,K corresponde a la elasticidad β2 = ∂ln(K)

=

al factor trabajo, y con respecto al factor Capital.

1

(1) con respecto del producto

b) Especifique un modelo que le permita testear que para cualquier nivel de Capital(K) y Trabajo (L), países grandes tienen en promedio un producto mayor que países pequeños. Además plantee explícitamente un test de hipótesis para ver la significancia estadística de esta diferencia. R: Para testear esta hipótesis primero debemos definir la siguiente variable dummy: ( 1 País grande D1 = 0 País pequeño Un modelo que nos permita testear que para cualquier nivel de capital y trabajo los países grandes producen en promedio más que los pequeños, requiere introducir esta variable dummy (D1 ) en el modelo de la ecuación (1): ln(Y ) = β0 + β1 ln(L) + β2 ln(K) + β3 D1 + u

(2)

De esta forma: E(ln(Y)|país grande, K, L)=β0 + β3 + β1 ln(L) + β2 ln(K). E(ln(Y)|país pequeño, K, L)=β0 + β1 ln(L) + β2 ln(K). El parámetro β3 es quien mide esta diferencia en el promedio del producto par cualquier nivel fijo de K y L, por lo tanto, para testear si esta diferencia es estadísticamente significativa, se debe testear la hipótesis de que β3 es estadísticamente significativo, más específicamente se debe realizar el siguiente test de hipótesis: H0 : H1 :

β3 = 0 β3 6= 0

la que se realiza mediante un test-t: βˆ3

t= q

V (βˆ3 )

∼ tn−k

c) Especifique un modelo que le permite testear además de las diferencias en promedio de la parte b), que la elasticidad del producto con respecto al trabajo difiere entre países grandes y pequeños. Nuevamente plantee explícitamente un test de hipótesis para ver la significancia estadística de esta diferencia. R: Para testear diferencias en la elasticidad del producto con respecto al trabajo, deberíamos incorporar otra variable más al modelo antes descrito (ecuación (2)), correspondiente a una variable interactiva, la multiplicación de la dummy y el logaritmo del trabajo, de la siguiente forma: ln(Y ) = β0 + β1 ln(L) + β2 ln(K) + β3 D1 + β4 D1 · ln(L) + u 2

(3)

De forma tal que, E(ln(Y)|país grande, K, L)=β0 + β3 + β1 ln(L) + β4 ln(L) + β2 ln(K). E(ln(Y)|país pequeño, K, L)=β0 + β1 ln(L) + β2 ln(K). Y así, la elasticidad del producto con respecto al trabajo para cada grupo es: ∂ E(ln(Y)|país grande, K, L)/∂ ln(L) =β1 + β4 ∂ E(ln(Y)|país pequeño, K, L)/∂=β1 La diferencia en elasticidad del producto con respecto a trabajo entre los países grandes y pequeños estará determinada por el parámetro β4 , para ver si la diferencia es estadísticamente significativa se debe realizar el siguiente test: H0 : H1 :

β4 = 0 β4 6= 0

la que se realiza mediante un test-t: βˆ4

t= q

V (βˆ4 )

3

∼ tn−k

Econometría I Profesores: A. Otero y J. Vásquez. Otoño 2005 Pauta Control 4 Pregunta 1: (30 puntos) Uno de los supuestos utilizados para derivar el estimador MCO asumía que las variables independientes eran determinísticas. Si levantamos este supuesto el estimador MCO sigue siendo insesgado pero ya no es el mejor estimador lineal e insesgado. Comente. Falso, cuando tenemos regresores estocásticos tenemos que la media y varianza condicional ˆ ˆ del estimador MCO son: E[β|X] = β y V [β|X] = σ 2 (X 0 X)−1 , así en términos condicionales el estimador es MELI (insesgado y de mínima varianza). Los momentos incondicionales del estiˆ = β y V [β] ˆ = σ 2 E[(X 0 X)−1 ], si bien el estimador es insesgado la varianza sólo mador son: E[β] se puede obtener en términos de media de las variables explicativas. Sin embargo, como el estimador es MELI para cada valor de X (condicional) también lo será para los valores medios de X. Pregunta 2: (70 puntos) Considere la siguiente variable aleatoria yt distribuida exponencialmente con parámetro θ0 . Su función de densidad está dada por: f (yt ; θ0 ) =

1 − θyt e 0 θ0

yt > 0; θ0 > 0

Plantee la función de verosimulitud asociada a esta función de densidad exponencial (20 puntos). La función de densidad conjunta para las T observaciones se obtiene a través de la pitatoria de la densidad de cada observación: f (y; θ0 ) = =

T Y

T Y 1 − θyt f (yt ; θ0 ) = e 0 θ 0 t=1 t=1 µ ¶T −1 PT 1 · e θ0 t=1 yt θ0

Ahora la función de verosimilitud corresponde algebraicamente a la misma expresión anterior, sólo que teóricamente la incógnita es el parámetro y se asume como dada la muestra de tamaño T de la variable y: µ ¶T −1 PT 1 L(θ0 ; y) = · e θ0 t=1 yt θ0 Aplicando logaritmo natural a la expresión anterior, obtenemos la log-likelihood: l(θ0 ; y) =

−T ln(θ0 ) −

T 1 X yt θ0 t=1

Encuentre las condiciones de primer orden asociadas a la estimación por maxima verosimilitud de θ0 (20 puntos). 1

Para obtener la condición de primer orden derivamos la log-likelihood con respecto a θ0 e igualamos a cero: T 1 X ∂l T =− + yt = 0 ∂θ0 θˆ θˆ2 t=1

Encuentre el estimador máxima verosimilitud de θ0 ( 30 puntos). ˆ se obtiene al despejar θˆ de la condiEl estimador máximo verosímil de θ0 denominado θ, ción de primer orden: −

T T 1 X yt + θˆ θˆ2 t=1 T 1 X yt θˆ2

= 0 =

t=1

θˆ =

2

T θˆ PT t=1

T

yt

Econometría I

Verano 2005-2006

Profesor

:

Jaime Ruiz-Tagle V.

Ayudante

:

Roberto Jaramillo M.

Control 4 - Pauta de Correción

Instrucciones

Ud. Dispone de 30 minutos para resolver este control. No puede hacer consultas a los ayudantes, no puede tener nada más que lápiz en su escritorio. Si contesta con lápiz mina no tiene derecho a reclamo. Pregunta 1 (30 puntos) Una variable aleatoria

x sigue una distribución exponencial si es que tiene la siguiente

función de densidad (pdf):

( f (x) = donde

θ > 0

1 θ

−x θ

exp



para para

0

x>0 x≤0

Px

es el parámetro de la distribución. Usando el método de Máxima

Verosimilitud, muestre que el estimador máximo verosímil de

θ

es

θˆ =

n

i

, donde

es el tamaño muestral. Esto es, muestre que el estimador máximo verosímil de promedio muestral

θ

n

es el

x¯.

Dada la función de densidad, la función de verosimilitud será L(xi , θ) =

n Y 1 i=1

θ

 exp

−xi θ



 n   1 −1 X xi , = exp θ θ

y el logaritmo de la función de verosimilitud será ln L(xi , θ) = −n ln(θ) −

1X xi . θ

Tomando derviada con respecto a al parámetro θ para maximizar la función se obtiene P ∂ ln L(xi , θ) 1 xi = −n + 2 . ∂θ θ θ

Finalmente, igualando a cero obtenemos θ˜ =

P

xi = x¯. n

1

Pregunta 2 (30 puntos) Explique en qué consiste cada uno de los 3 test de hipótesis usados en inferencia bajo Máxima Verosimilitud. Haga una comparación crítica de los test, estableciendo sus ventajas y desventajas.

Los 3 tests usados en inferencia bajo Máxima Verosimilitud son: el test LR (Likelihood Ratio - Razón de Verosimilitud), el test de Wald y el test LM (Lagrange Multiplier Multiplicador de Lagrange). Los estadísticos de cada uno de los tests son los siguientes:

  ˆ σ ¯ σ LR = 2 · ln L(β, ˆ ) − ln L(β, ¯) (Rβˆ − r)0 [R(X 0 X)−1 R0 ](Rβˆ − r) σ ˆ2 a LM = n · R2 ∼ χ2q W =

a

∼ χ2q a

∼ χ2q

donde βˆ y σˆ corresponden a los estimadores del modelo no restringido, β¯ y σ¯ son los estimadores del modelo restringido, y el R2 corresponde a aquel de la regresión auxiliar de u¯ sobre X , donde u¯ son los residuos del modelo restringido y X es la matriz de todas las variables explicativas. Finalmente, q corresponde al número de restricciones involucradas. Asintóticamente los 3 tests son equivalentes en el sentido que el estadístico asociado a cada uno de ellos sigue una distribución Chi-cuadrado. Dada la naturaleza asintótica de los test, deben ser aplicados con mucho cuidado en muestras relativamente pequeñas, en las cuales se debiera prefererir tests como el F o el t. Una ventaja importante de estos tests es que permiten testear restricciones no lineales. En el test LR, si la restricción reduce signicativamente la función de verosimilitud, entonces el test rechaza la hipótesis nula de las restricciones. Por lo tanto, el LR test requiere la estimación del modelo no restringido y del modelo restringido. Sin embargo, la construcción del estadístico LR es extremadamente simple, requiriendo simple resta. Todos los paquetes económetricos entregan el valor la función de verosimilitud. El test de Wald involucra sólo la estimación del modelo no restringido, y analiza las implicancias de las restricciones. La construcción del estadístico W involucra manejo matricial, haciéndolo más demandante. El test LM analiza la pendiente de la función de verosimilitud y nalmente sólo requiere la estimación del modelo restringido. La construcción del estadístico requiere una regresión auxiliar. 2

Usualmente, el modelo original y el tipo de restricciones determinarán cuál test es más sencillo de aplicar. En algunos casos el modelo no restringido puede ser tan complejo que el test LM se hace más conveniente. En otros casos, las restricciones pueden generar un mayor costo de estimación del modelo restringido, haciendo que el test de Wald sea más conveniente.

3

Econometría I Profesoras: Javiera Vásquez. Otoño 2006 Control 4 Nombre:

..........................................................................................

Rut:

.......................................

Ud. Dispone de 30 minutos para resolver este control, no puede hacer consultas a los ayudantes, no puedo tener nada más que lápiz en su escritorio, si contesta con lápiz mina no tiene derecho a reclamo. Contestar sólo en el espacio disponible Pregunta 1: (30 puntos) En un modelo que busca explicar que en promedio los hombres ganan más que las mujeres, para cualquier nivel de escolaridad, da lo mismo incluir una dummy en la regresión que estimar dos modelos separados, uno para los hombres y otro para las mujeres. Comente. Efectivamente en términos de especificación, es lo mismo plantear un modelo que capture la diferencia por género mediante una variable dummy, que estimar separadamente un modelo de ecuación de mincer, uno para los hombres y otro para las mujeres. Sin embargo, en términos de eficiencia no es lo mismo. Al separar los modelos el tamaño muestral utilizado es más pequeño (en cada uno de ellos) que al estimar un solo modelo, por lo que la primera metodología es menos eficiente. Pregunta 2: (70 puntos) Plantee un modelo que le permita testear que la demanda por helados en verano es diferente a la demanda promedio en invierno, y que la reacción ante un cambio en el precio difiere en estas dos estaciones. Sea explícito en como testearía esto. Para esta pregunta vamos a dar dos alternativas de respuesta, una 100 % buena y una regular (pero aceptable): Respuesta 1: Definamos las siguientes Dummies: ( ( 1 verano 1 d1i = d2i = 0 0

invierno

Entonces el modelo que nos permite testear lo planteado en el enunciado es el siguiente: Qi = α + β1 Pi + β2 d1i + β3 d2i + β4 Pi d1i + β5 Pi d2i + ui Así, E[Qi |verano, Pi ] = α + β1 Pi + β2 + β4 Pi E[Qi |invierno, Pi ] = α + β1 Pi + β3 + β5 Pi Entonces debemos realizar los siguientes test de hipótesis: H0 :

β2 = β3

H0 :

β4 = β5

1

(1)

Si se cumplen las hipótesis nulas se comprueba que no existe diferencia estadística en la demanda por helados entre invierno y verano. Respuesta 2: Definamos la siguiente dummy: ( 1 verano d1i = 0 invierno

(2)

Se plantea el siguiente modelo: Qi = α + β1 Pi + β2 d1i + β3 Pi d1i + ui Así, E[Qi |verano, Pi ] E[Qi |invierno, Pi ]

= =

α + β1 Pi + β2 + β3 Pi α + β1 Pi

Entonces debemos realizar los siguientes test de hipótesis: H0 : H0 :

β2 = 0 β3 = 0

Si se cumplen las hipótesis nulas se comprueba que no existe diferencia estadística en la demanda por helados entre invierno y verano.

2

Econometría Facultad de Economía y Negocios Universidad de Chile Pauta Control 4

Semestre: Primavera 2006 Profesores: José Miguel Benavente, Rodrigo Montero Tiempo de duración: 20 minutos No hay preguntas de ningún tipo para los ayudantes

Comente (6 puntos) El supuesto de independencia (de las observaciones) es crucial para implementar el estimador de máxima verosimilitud (MV).

Respuesta. Falso. Es sólo un supuesto, el cual podría no cumplirse, al menos, por dos motivos: (i) el rezago de la variable dependiente (Yt−1 ) aparece como regresor, (ii) los erroes se encuentran autocorrelacionados. Si el supuesto de independencia no se cumpliera, aún es posible implementar el estimador de máxima verosimilitud, para lo cual existen dos alternativas: (1) utilizar una función de distribución multivariada, o (2) realizar una transformación del modelo.

Ejercicio (14 puntos) Considere el siguiente modelo (expresado en términos matriciales): Y = Xβ + u Asumiendo que ui ∼ N (0, σ 2 ) derive los estimadores de máxima verosimilitud para β y σ 2 . Recuerde que en este contexto: f (ui ) = √

1 2πσ 2 1



e



u2 i 2σ 2



Respuesta. Asumiendo que las realizaciones del término de error son independientes, la densidad conjunta se escribe de la siguiente manera: f (u1 , u2 , ..., un ; σ 2 ) = f (u1 ) · f (u2 ) · · · f (un ) = Πni=1 f (ui ) Dado el supuesto de normalidad, entonces: "  #   u2 0 i − 1 1 − u u2 2 2 n n 2σ 2σ f (u1 , u2 , ..., un ; σ ) = Πi=1 √ e = Πi=1 √ e 2πσ 2 2πσ 2 La densidad multivariada para Y condicional en X viene dada por la siguiente expresión: ∂u f (Y |X) = f (u) ∂Y donde |∂u/∂Y | es el valor absoluto del determinante formado por la matriz de derivadas parciales (nxn) de los elementos de u con respecto a los elementos de Y . En este caso, esta matriz es la matriz identidad. De esta forma, la función de verosimilitud para Y viene dada por:   (Y −Xβ)0 (Y −Xβ) − 2

1 e f (Y1 , Y2 , ..., Yn ; X, σ , β) = (2πσ 2 )n/2 2



Luego, para obtener los estimadores de máxima verosimilitud se aplica logaritmo a la expresión anterior y se deriva respecto a β y σ 2 :   n (Y − Xβ)0 (Y − Xβ) n 2 m´ax − ln(2π) − ln(σ ) − 2 2 2σ 2 Luego: 1 ∂ln(L) ˆ =0 = 2 X 0 (Y − X β) ∂β σ ˆ ∂ln(L) n 1 ˆ 0 (Y − X β) ˆ = − 2 + 4 (Y − X β) 2 ∂σ 2ˆ σ 2ˆ σ Resolviendo: βˆM V = (X 0 X)−1 X 0 Y y: 2 σ ˆM V

ˆ 0 (Y − X β) ˆ (Y − X β) = n 2

Econometría Facultad de Economía y Negocios Universidad de Chile Pauta Control 4

Semestre: Primavera 2007 Profesores: José Miguel Benavente, Rodrigo Montero Ayudantes: Loreto Silva, Rodrigo Bravo, Felipe Ríos Tiempo de duración: 40 minutos No hay preguntas de ningún tipo para los ayudantes Está permitido utilizar calculadora

Se ha utilizado un modelo lineal para explicar los gastos de construcción de un nuevo almacén (Gi ) en función del tamaño del mismo (Ai ). Para ello se disponía de los siguientes datos referentes a diez almacenes: X X X X Ai = 10 A2i = 76 Gi = 80 Ai Gi = 154 Si se sabe que la calidad promedio de los materiales utilizados (Ci ) es una variable relevante para explicar los gastos de construcción, ¿qué consecuencias tendrá la omisión de dicha variable en el modelo? Considere la siguiente información adicional: X X X X Ci = 15 Ci2 = 102 Ai Ci = 84 Ci Gi = 200 Ayuda: Recuerde que la inversa de una matriz A viene dada por la siguiente expresión (todos estos pasos llevan puntaje): A−1 =

1 adj(A) |A|

donde |A| corresponde al determinante de la matriz A, y adj(A) es la adjunta de A, que corresponde a la matriz traspuesta de cofactores de A. En el caso de una matriz de 3x3, la matriz de cofactores viene dada por:   C11 C12 C13 C21 C22 C23  C31 C32 C33 donde Cij = (−1)i+j Mij , y Mij es el determinante de la submatriz de 2x2 que se obtiene de eliminar la fila i y la columna j de la matriz A. 1

Respuesta. Se sabe que el omitir una variable relevante tiene dos efectos: (i) estimación sesgada de los verdaderos parámetros poblacionales, (ii) estimación sesgada de las varianzas de los estimadores de mínimos cuadrados ordinarios. Por lo tanto, al estimar el modelo omitiendo la calidad promedio de los materiales se obtendrán estimaciones sesgadas, y esto es lo que se muestra a continuación. Si se estima el modelo: Gi = β0 + β1 Ai + ui entonces: βˆM CO =

    P −1  P N Ai Gi βˆ0 P P P = Ai A2i Ai G i βˆ1

Por lo tanto: βˆM CO =

 −1      −1   1 76 −10 80 βˆ0 10 10 80 = = ˆ 154 10 76 154 660 −10 10 β1

Finalmente: ˆM CO

β

    βˆ0 6, 878 = ˆ = 1, 121 β1

Sin embargo, el verdadero modelo es el siguiente: Gi = γ0 + γ1 Ai + γ2 Ci + ui Así, el estimador de mínimos cuadrados ordinarios viene dado por: −1  P     P P G γˆ0 N A C i i i P P P P   Ai G i  A C γˆ M CO = γˆ1  = P Ai P A2i i i P P 2 γˆ2 Ci Ai Ci Ci Ci Gi Por lo tanto: γˆ M CO

   −1   80 γˆ0 10 10 15 = γˆ1  = 10 76 84  154 200 γˆ2 15 84 102

Se sabe que la inversa de una matriz viene dada por: A−1 =

1 adj(A) |A|

El determinante de la matriz de 3x3 que se debe invertir es 4860. Luego, falta determinar la matriz de cofactores. Así: 84 1+1 76 C11 = (−1) = 696 84 102 2

10 C12 = (−1) 15 10 C13 = (−1)1+3 15 10 C21 = (−1)2+1 84 10 C22 = (−1)2+2 15 10 C23 = (−1)2+3 15 10 C31 = (−1)3+1 76 10 C32 = (−1)3+2 10 3+3 10 C33 = (−1) 10 1+2

La matriz adjunta (traspuesta de la manera:  696  240 −300

84 = 240 102 76 = −300 84 15 = 240 102 15 = 795 102 10 = −690 84 15 = −300 84 15 = −690 84 10 = 660 76

matriz de cofactores) queda de la siguiente  240 −300 795 −690 −690 660

Por lo tanto: γˆ M CO

       696 240 −300 80 6, 716 γˆ0 1  240 795 −690 154 = 0, 746 = γˆ1  = 4860 −300 −690 660 200 0, 358 γˆ2

El sesgo de los estimadores de MCO viene dado por: sesgo(βˆ0 ) = E(βˆ0 ) − γˆ0 = 6, 878 − 6, 716 = 0, 162 sesgo(βˆ1 ) = E(βˆ1 ) − γˆ1 = 1, 211 − 0, 746 = 0, 465 De esta manera, al omitir la calidad promedio de los materiales se estarían sobrestimando los verdaderos parámetros poblacionales.

3

Pauta Control N°4 Econometría I Profesores: Tomás Rau y Javiera Vásquez Ayudantes: Roberto Gillmore, Eugenio Rojas, y Jorge Sepúlveda 23 de Mayo de 2008 1. Si Ud. posee la siguiente función de producción Cobb-Douglas:

Yi = ALαi K iβ e ui donde: Yi: producción de la empresa i Li: cantidad de trabajadores en la empresa i Ki: capital fijo de la empresa i. a) ¿Por qué razón el modelo anterior no es estimable por MCO? (5 ptos) La función Cobb-Douglas no es estimable tal cual se plantea, ya que la variable dependiente (Y) depende en forma no lineal de los parámetros del modelo. b) Menciones dos alternativas para que este modelo pueda ser estimado (10 ptos) 1- Se puede estimar por Máxima Verosimilud 2- Se puede linealizar el modelo aplicando logaritmo natural y estimar por MCO: ln Yi = ln( A) + α ln Li + β ln K i + u i 123 γ

c) En el modelo estimable por MCO, ¿Qué variable agregaría para testear que el producto promedio en las empresas del sector servicios es mayor que en los otros sectores económicos?. Explique como testearía esta hipótesis. (15 ptos) Se debe definir una variable Dummy que tome valor 1 si la empresa pertenece al sector económico servicios, y 0 si es que la empresa 1 empresa i pertenece a servicios Di =   0 en otro caso Luego incluyendo esta Dummy en el modelo: ln Yi = γ + α ln Li + β ln K i + δDi + u i Se estima que producto promedio (en logaritmo) condicional en trabajo y capital es:

E[ln Y | ln L, ln K , D ] = γ + α ln L + β ln K + δD De esta forma el producto promedio (en logaritmo) de las empresas del sector servicios es:

E[ln Y | ln L, ln K , D] = γ + α ln L + β ln K + δ Y de los otros sectores económicos:

E[ln Y | ln L, ln K , D] = γ + α ln L + β ln K Luego para testear si existe una diferencia significativa, se debe realizar un test t sobre la hipótesis nula de que δ es igual a cero. Si se rechaza la hipótesis nula la diferencia en el producto promedio de este sector con respecto a los restantes es estadísticamente significativa. d) A partir del modelo anterior, ¿Qué variable agregaría para testear que la productividad marginal del trabajo es mayor en el sector servicios que en otros sectores económicos? (15 ptos) Para testear esta hipótesis se debería agregar al modelo anterior, una variable interactiva del lnL con la Dummy antes definida: ln Yi = γ + α ln Li + β ln K i + δDi + φ ln Li ⋅ Di + u i Así el valor esperado condicional del producto (en logaritmos) en este caso es:

E[ln Y | ln L, ln K , D] = γ + α ln L + β ln K + δD + φ ln L ⋅ D Entonces la elasticidad del producto con respecto al trabajo: ∂E[ln Y | ln L, ln K , D] = α + φD ∂ ln L

Así, la elasticidad del sector servicios: ∂E[ln Y | ln L, ln K , D ] = α +φ ∂ ln L

Y la de los otros sectores: ∂E[ln Y | ln L, ln K , D ] =α ∂ ln L

2. Con respecto al siguiente modelo:

ln wi = α + β1 Ei + β 2 D2i ⋅ Ei + β 3 D3i ⋅ Ei + ui Donde: Wi: salario de la persona i. Ei: años de escolaridad de la persona i. D2i: variable dummy que toma valor 1 si la persona i tiene entre 8 y 11 años de escolaridad (incluido los entremos). D3i: variable dummy que toma valor 1 si la persona i 12 años de escolaridad o más. a) ¿Qué representan los coeficientes β 1, β2 y β3? (15 ptos) Derivando el valor esperado del logaritmo del salario con respecto a los años de escolaridad, se obtiene el retorno a la educación:

∂E[ln wi | E , D2 , D3 ] = β1 + β 2 D2 i + β 3 D3i ∂E Para la gente que tiene menos de ocho años de escolaridad, el retorno a la educación es:

∂E[ln wi | E , D2 , D3 ] = β1 ∂E Para las personas que tienen 8 años y más de escolaridad pero menos de 12 años de escolaridad, el retorno a la educación es:

∂E[ln wi | E , D2 , D3 ] = β1 + β 2 ∂E Y finalmente, para las personas que tienen 12 años de escolaridad o más, el retorno a la ecuación que resulta del modelo es:

∂E[ln wi | E , D2 , D3 ] = β1 + β 3 ∂E De esta forma, β1 representa el retorno a la educación de las personas con menos de 8 años de educación (básica incompleta), el coeficiente β2 representa el aumento en retorno a la educación de las personas que tienen entre 8 y 11 años de educación (incluido los extremos) comparado con la gente con menos de 8 años de escolaridad, y el coeficiente β3 representa el aumento en retorno a la educación de las personas que

tienen 12 años o más de educación comparado con la gente con menos de 8 años de escolaridad. b) Si β 1=0.05, β2=0.09 y β3=0.13. Realice un gráfico de la relación estimada entre logaritmo del salario y los años de educación. ¿Qué representa este gráfico?. (15 ptos) Grafico Retorno a la educación

CONTROLES 5

Econometría I Profesores: J.M. Benavente, A. Otero y J. Vásquez. Primavera 2004 Pauta Control 5 Pregunta 1: (30 puntos) La omisión de una variable relevante siempre subestima el verdadero valor del β y su varianza. Comente. Falso, la omisión de una variable relevante siempre produce sesgo en los parámetros a menos que la correlación entre la variable omitida y las explicativas incluidas sea cero, sin embargo, la dirección del sesgo no es siempre negativa, el signo del sesgo depende de dos cosas: la correlación entre la variable omitida y las variables explicativas incluidas y el valor del parámetro que tendría asociado la variable omitida (valor poblacional). Para un modelo sencillo con una variable 1 ,x2 ) explicativa (x1 ) y una variable omitida (x2 ) se mostró en clases que el sesgo es: cov(x V (x1 ) β2 . Por otra parte, siempre al omitir una variable relevante, la varianza de los parámetros estimada a partir del modelo incorrecto es menor que la del modelo verdadero que incluye la variable omitida. Pregunta 2: (70 puntos) Suponga que un amigo de usted esta interesado en estimar el retorno a la educación. Para esto ha estimado los siguientes dos modelos. Modelo 1: Wi = β1 + β2 Dsexoi + β3 Esci + β4 Expei + β5 Expe2i + β6 Dzonai + β7 Dpatroni + ui Modelo 2: Wi = β1 + β2 Dsexoi + β3 Esci + β4 Expei + β5 Expe2i + β6 Dzonai + ui En donde Wi corresponde al logaritmo natural del salario del individuo i , Dsexoi es una variable dicotómica que toma el valor de 1 si el individuo i es hombre, Esci corresponde a laos años de educación del individuo i, Expei y Expe2i corresponden a los años de experiencia y experiencia al cuadrado del individuo i respectivamente, Dzonai es una variable dicotómica que toma el valor de 1 si el individuo vive en una zona urbana y 0 sino, y Dpatroni es una variable dicotómica que toma el valor de 1 si el individuo es trabajador por cuenta propia. En base a los resultados de los modelos calcule los criterios de información de Akaike y Schwarz y aconseje a su amigo sobre cual modelo debe considerar.

1

Modelo 1: Dependent Variable: LNW Method: Least Squares Date: 10/27/04 Time: 00:15 Included observations: 40191 LNW=C(1)+C(2)*DSEXO+C(3)*ESC+C(4)*EXPE+C(5)*EXPE2+C(6) *DZONA+C(7)*DPATRON Coefficient

Std. Error

t-Statistic

Prob.

9.931645 0.389195 0.117759 0.018930 -0.000160 0.188917 0.359617

0.022411 0.010563 0.001023 0.000957 1.38E-05 0.007530 0.007515

443.1514 36.84418 115.1189 19.79067 -11.59811 25.08913 47.85069

0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

C(1) C(2) C(3) C(4) C(5) C(6) C(7) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood

0.368769 0.368674 0.674479 18280.58 -41197.25

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat

11.91058 0.848871 ¿? ¿? 1.705727

Modelo 2: Dependent Variable: LNW Method: Least Squares Date: 10/27/04 Time: 00:24 Included observations: 40191 LNW=C(1)+C(2)*DSEXO+C(3)*ESC+C(4)*EXPE+C(5)*EXPE2+C(6) *DZONA

C(1) C(2) C(3) C(4) C(5) C(6) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood

Modelo I Modelo II

Coefficient

Std. Error

t-Statistic

Prob.

9.938190 0.389363 0.120470 0.021630 -0.000151 0.176372

0.023040 0.010860 0.001050 0.000982 1.42E-05 0.007737

431.3386 35.85326 114.7276 22.03435 -10.65890 22.79717

0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

0.332801 0.332718 0.693420 19322.21 -42310.86

AIC

=

BIC

=

n 40191 40191

k 7 6

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat

11.91058 0.848871 ¿? ¿? 1.739436

2lnL k + n n 2lnL ln(n) · k − + n n −

lnL -41197.25 -42310.86

AIC 2.05025 2.10564

BIC 2.0519 2.10707

De acuerdo a ambos criterios se recomienda escoger el primer modelo, ya que este minimiza ambos criterios de información. 2

Econometría I Profesora: Javiera Vásquez. Verano 2005 Pauta Control 5 Pregunta 1: (30 puntos) El estimador de White me permite solucionar el problema de ineficiencia en el estimador MCO cuando los errores son Heterocedásticos. Comente. Falso, el estimador de White sólo me permite estimar en forma consistente la matriz de varianzas y covarianzas de los parámetros en presencia de Heterocedasticidad estimador por MCO. El estimador MCO siempre será ineficiente, el estimador eficiente en este contexto es el de Mínimos Cuadrados Generalizados. Por lo tanto, White me permite estimar consistentemente la matriz de varianzas tçy covarianzas del estimador MCO (que es ineficiente) para realizar la inferencia en forma correcta, utilizando esta matriz. Pregunta 2: (70 puntos) Suponga el siguiente modelo de regresión lineal: Y = X β + u

n×1

n×1

n×kk×1

Este modelo puede ser particionado de la siguiente forma: Y = X1 β1 + X2 β2 + u

n×1

n×k1 k1 ×1

n×k2 k2 ×1

n×1

donde k1 + k2 = k

a) Obtenga el estimador MCO del subconjunto de parámetros β1 . R: El el modelo particionado de la siguiente forma: Y = X1 β1 + X2 β2 + u El sistema de ecuaciones normales (X 0 X)βˆ = X 0 Y , se puede escribir de la siguiente forma: ¸· ¸ · 0 ¸ · 0 βˆ1 X1 Y X1 X1 X10 X2 = X20 Y X20 X1 X20 X2 βˆ2 o alternativamente: (X10 X1 )βˆ1 + (X10 X2 )βˆ2 = X10 Y (X20 X1 )βˆ1 + (X20 X2 )βˆ2 = X20 Y

(1) (2)

De (2) obtengo: (X20 X2 )βˆ2 = X20 (Y − X1 βˆ1 ) ⇒ βˆ2 = (X20 X2 )−1 X20 (Y − X1 βˆ1 )

(3)

Reemplazando (3) en (1): X10 Y X10 Y

= (X10 X1 )βˆ1 + X10 X2 (X20 X2 )−1 X20 (Y − X1 βˆ1 ) = (X 0 X1 )βˆ1 + X 0 X2 (X 0 X2 )−1 X 0 Y − (X 0 X1 )βˆ1 + X 0 X2 (X 0 X2 )−1 X 0 X1 βˆ1 ) 1

1

2

2

1

1

1

2

2

Agrupando términos, se tiene: X10 [I − P2 ]Y = X10 [I − P2 ]X1 βˆ1 | {z } | {z } M2

(4)

M2

donde P2 = X2 (X20 X2 )−1 X20 es la matriz de proyección, y M2 = I − P2 es una matriz simétrica e idempotente. De (4) podemos despejar el estimador MCO del subconjunto de parámetros β1 : βˆ1 = (X10 M2 X1 )−1 X10 M2 Y

(5)

b) Obtenga la matriz de varianzas y covarianzas del subconjunto de parámetros β1 . R: Utilizando (5): βˆ1 βˆ1

= (X10 M2 X1 )−1 X10 M2 (X1 β1 + X2 β2 + u) = (X10 M2 X1 )−1 X10 M2 X1 β1 + (X10 M2 X1 )−1 X10 M2 X2 β2 + (X10 M2 X1 )−1 X10 M2 u | {z } 0

βˆ1 = ⇒ E(βˆ1 ) =

β1 +

(X10 M2 X1 )−1 X10 M2 u

β1

La varianza del subconjunto de parámetros β1 entonces es: V (βˆ1 )

= = = = =

E[(βˆ1 − β1 )(βˆ1 − β1 )0 ] E[(X10 M2 X1 )−1 X10 M2 uu0 M2 X1 (X10 M2 X1 )−1 ] (X10 M2 X1 )−1 X10 M2 E[uu0 ]M2 X1 (X10 M2 X1 )−1 (X10 M2 X1 )−1 X10 M2 σ 2 IM2 X1 (X10 M2 X1 )−1 σ 2 (X10 M2 X1 )−1 X10 M2 X1 (X10 M2 X1 )−1

V (βˆ1 )

= σ 2 (X10 M2 X1 )−1

2

Econometría I Profesores: A. Otero y J. Vásquez. Otoño 2005 Pauta Control 5 Pregunta 1: (30 puntos) La omisión de variables relevantes produce subestimación en los parámetros estimados por Mínimos Cuadrados Ordinarios. Comente. Falso, es correcto que el estimador MCO será sesgado en presencia de variables relevantes omitidas, tenemos que E[βˆ1 ] = β1 + (X10 X1 )−1 X10 X2 β2 lo que en un modelo sencillo de dos 1 ,X2 ) variables (una incluida y la otra omitida) se reduce a E[βˆ1 ] = β1 + Cov(X β2 . Pero el signo V (X1 ) del sesgo depende de dos cosas: del signo de β2 y de la covarianza entre X1 y X2 . Existen tres casos posibles: 1. β2 positivo y Cov(X1 , X2 ) positiva, lo cual genera un sesgo hacia arriba o sobreestimación. 2. β2 positivo y Cov(X1 , X2 ) negativa, lo cual genera un sesgo hacia abajo o subestimación. 3. β2 negativo y Cov(X1 , X2 ) positiva, lo cual genera un sesgo hacia abajo o subestimación. Pregunta 2: (70 puntos) Demuestre que los criterios de información de Akaike (AIC) y Schwarz (BIC): AIC

=

BIC

=

lnL k +2 n n lnL k −2 · + ln(n) n n −2 ·

Se puedes escribir aproximadamente de la siguiente forma, bajo el supuesto de normalidad en el término de error en el modelo de regresión lineal Y = Xβ + u: k n

AIC

=

ln(ˆ σ2 ) + 2

BIC

=

ln(ˆ σ 2 ) + ln(n)

k n

Si los errores en el modelo Y = Xβ + u se distribuyen normal con media cero y varianza σ 2 , tenemos que: Y ∼ N (Xβ, σ 2 ) Ahora debemos encontrar el logaritmo de la función de verosimilitud y reemplazarla en ambos criterios de información. La función de densidad (o verosimilitud) individual es: f (yi ; Xi , β, σ 2 ) = L(β, σ 2 ; yi , Xi )

1

=



=



1 2πσ 2 1 2πσ 2

e−

(yi −Xi β)2 2σ 2 u2 i

e− 2σ2

De esta forma, la verosimilitud conjunta es: µ ¶n P (yi −Xi β)2 n 1 √ L(β, σ 2 ; Y, X) = e− i=1 2σ2 2πσ 2 µ ¶n Pn 2 i=1 ui 1 √ = e− 2σ2 2πσ 2 Finalmente el logaritmo de la verosimilitud es: lnL(β, σ 2 ; Y, X)

= −

n n · ln(2π) − · ln(σ 2 ) − 2 2

Pn

2 i=1 ui 2σ 2

ˆ σ la que se puede evaluar en los estimadores (β, ˆ 2 ): n n lnL(β, σ ; Y, X) = − · ln(2π) − · ln(ˆ σ2 ) − 2 2

Pn

2

Recordemos que σ ˆ2 =

Pn i=1

n

u ˆ2i

ˆ2i i=1 u 2ˆ σ2

, reemplazando en la expresión anterior:

n n n·σ ˆ2 · ln(2π) − · ln(ˆ σ2 ) − 2 2 2ˆ σ2 n n n 2 lnL = − · ln(2π) − · ln(ˆ σ )− 2 2 2 ¤ n£ 2 lnL = − ln(2π) + ln(ˆ σ )+1 2

lnL = −

Por lo tanto, el logaritmo de la verosimilitud (lnL) es aproximadamente igual a: lnL = −

n · ln(ˆ σ2 ) 2

Reemplazando esta última expresión en las formulas originales de los criterios de información de Akaike y Schwarz, se demuestra lo planteado.

2

Econometría I Profesores: Emerson Melo Rodrigo Montero Jaime Ruiz-Tagle / Javiera Vásquez Primavera 2005 Control 5 - Pauta de Corrección

Rut:

.......................................

Instrucciones Ud. Dispone de 30 minutos para resolver este control. No puede hacer consultas a los ayudantes, no puedo tener nada más que lápiz en su escritorio. Si contesta con lápiz mina no tiene derecho a reclamo. Debe contestar sólo en el espacio disponible.

Pregunta 1 (50 puntos)

Considere el siguiente modelo: yi = β0 + β1 x1i + ui

donde yi es la variable a explicar, x1i es la única variable explicativa, ui es el término de error y i = 1, . . . , n. Asuma que se cumplen todos los supuestos del Modelo de regresión Lineal Clásico, y que los errores tienen un distribución normal ui ∼ N (µ, σ 2 ).

Utilizando las condiciones de primer orden de la maximización de verosimilitud ,

muestre que el estimador máximo verosímil pasa por los puntos medios de los datos sobre yi y xi . Esto es, muestre que se cumple y¯ = βˆ0M V + βˆ1M V x¯1 , donde βˆ0M V y βˆ1M V son los estimadores de máxima verosimilitud de β0 y β1 respectivamente.

1

Para ello, recuerde que la función normal para una variable centrada en su media (es decir, con media igual a cero) se escribe como:   1 x2 f (x) = √ · exp − 2 . 2σ σ 2π

Solución

normal es:

La función de verosimilitud conjunta para errores i.i.d. con distribución L=

n Y

  u2 1 √ · exp − i2 . 2σ σ 2π i=1

Luego, el logaritmo de la función de verosimilitud conjunta es: n X

  1 u2 √ · exp − i2 2σ σ 2π i=1  n  X n u2i = −n · ln(σ) − ln(2π) + − 2 . 2 2σ

ln(L) =



ln

i=1

Dado que ui = yi − β0 − β1 x1i , la función a maximizar es  n  X n (yi − β0 − β1 x1i )2 ln(L) = −n · ln(σ) − ln(2π) + − . 2 2σ 2 i=1

De la condición de primer orden de maximización al derivar con respecto al parámetro β0 , imponiendo que la solución corresponde a la los estimadores de máxima verosimilitud (βˆ0M V y βˆ1M V ) se obtiene: 2·

n X i=1

(yi − βˆ0M V − βˆ1M V x1i ) − 2σ 2 n X

! = 0

(yi − βˆ0M V − βˆ1M V x1i ) = 0

i=1 n X

yi = n · βˆ0M V + βˆ1M V

Pni=1 i=1 yi n

= βˆ0M V +

x1i i=1 Pn MV i=1 x1i ˆ β1

y¯ = βˆ0M V + βˆ1M V x¯1 .

2

n X

n

Pregunta 2 (50 puntos)

Explique en qué consiste cada uno de los 3 test de hipótesis usados en inferencia bajo Máxima Verosimilitud. Haga una comparación crítica de los test, estableciendo sus ventajas y desventajas.

Los 3 tests usados en inferencia bajo Máxima Verosimilitud son: el test LR (Likelihood Ratio - Razón de Verosimilitud), el test de Wald y el test LM (Lagrange Multiplier - Multiplicador de Lagrange). Solución

Los estadísticos de cada uno de los tests son los siguientes:

  ˆ σ ¯ σ LR = 2 · ln L(β, ˆ ) − ln L(β, ¯) W LM

(Rβˆ − r)0 [R(X 0 X)−1 R0 ](Rβˆ − r) σ ˆ2 a 2 2 = n·R ∼ χq

=

a

∼ χ2q a

∼ χ2q

donde βˆ y σˆ corresponden a los estimadores del modelo no restringido, β¯ y σ¯ son los estimadores del modelo restringido, y el R2 corresponde a aquel de la regresión auxiliar de u¯ sobre X , donde u¯ son los residuos del modelo restringido y X es la matriz de todas las variables explicativas. Finalmente, q corresponde al número de restricciones involucradas. Asintóticamente los 3 tests son equivalentes en el sentido que el estadístico asociado a cada uno de ellos sigue una distribución Chi-cuadrado. Dada la naturaleza asintótica de los test, deben ser aplicados con mucho cuidado en muestras relativamente pequeñas, en las cuales se debiera prefererir tests como el F o el t. Una ventaja importante de estos tests es que permiten testear restricciones no lineales. En el test LR, si la restricción reduce signicativamente la función de verosimilitud, entonces el test rechaza la hipótesis nula de las restricciones. Por lo tanto, el LR test requiere la estimación del modelo no restringido y del modelo restringido. Sin embargo, la construcción del estadístico LR es extremadamente simple, requiriendo simple resta. Todos los paquetes económetricos entregan el valor la función de verosimilitud. 3

El test de Wald involucra sólo la estimación del modelo no restringido, y analiza las implicancias de las restricciones. La construcción del estadístico W involucra manejo matricial, haciéndolo más demandante. El test LM analiza la pendiente de la función de verosimilitud y nalmente sólo requiere la estimación del modelo restringido. La construcción del estadístico requiere una regresión auxiliar. Usualmente, el modelo original y el tipo de restricciones determinarán cuál test es más sencillo de aplicar. En algunos casos el modelo no restringido puede ser tan complejo que el test LM se hace más conveniente. En otros casos, las restricciones pueden generar un mayor costo de estimación del modelo restringido, haciendo que el test de Wald sea más conveniente.

4

Econometría I

Verano 2005-2006

Profesor : Jaime Ruiz-Tagle V. Ayudante : Roberto Jaramillo M. Control 5 - Pauta de Correción

Instrucciones

Ud. Dispone de 30 minutos para resolver este control. No puede hacer consultas a los ayudantes, no puede tener nada más que lápiz en su escritorio. Si contesta con lápiz mina no tiene derecho a reclamo. Pregunta 1 (30 puntos)

Los criterios de información de Akaike (AIC) y Schwartz (BIC) se denen como: 2 ln(L) k + n n ln(n) 2 ln(L) +k , BIC = − n n AIC = −

donde L es la función de verosimilutud conjunta, k el número de regresores y n es el número de observaciones incluidas en el modelo. (a) (15 puntos) ¾Para qué sirven estos criterios de información? Explique las consideraciones que hay que tener al utilizarlos.

Los criterios de información de Akaike y Schwartz se utilizan para seleccionar el mejor modelo entre modelo anidados. Modelos anidados se reere a modelos que están contenidos como un caso especial de otro. Los criterios de información se basan en el valor maximizado del logaritmo de la función de verosimilitud para cada uno de los modelos. Las consideraciones que hay que tener son: que los modelos a comparar sean efectivamente anidados y que el número de observaciones en utilizado en la estimación de cada uno de los modelos sea el mismo.

(b) (15 puntos) Explique intuitivamente por qué se busca minimizar (según esta denición) los criterios de información.

Sabemos que el logaritmo de la función de verosimilitud es siempre negativo dado que la función de verosimilitud es una multpiplicación de probabilidades (el logaritmo de un argumento menor que 1 y mayor que cero es siempre negativo), y que al estimar los parámetros del modelo por Máxima Verosimilitud se buscó maximizar dicho valor. Por 1

lo tanto, dado que para calcular el valor del índice se usa el valor del logaritmo de la función de verosimilitud, sabemos que ambos índices, Akaike y Schwartz, son positivos. Un valor de ln L más cercano a cero indicará un mejor ajuste, de modo que el índice será minimizado para obtener el modelo óptimo. Pregunta 2 (30 puntos)

(a) (10 puntos) Si se omite una variable relevante en la estimación de un modelo se produce un sesgo. ¾Cuál la estimación que está sesgada? ¾De qué depende el signo del sesgo?

Al omitir una variable relevante del modelo se producirá un sesgo en la estimación de los parámetros de todas las variables del modelo. El signo del sesgo depende de la relación existente entre la variable omitida y el resto de las variables y del signo del parámetro de la variable omitida en el modelo verdadero. Además, se producirá un sesgo en la estimación la varianza de los estimadores de los parámetros. En particular, se subestimará la varianza de los estimadores. Finalmente se sobreestimará la varianza de los errores.

(b) (10 puntos) Explique en qué consiste la heterocedasticidad y por qué podría surgir en la estimación de un modelo econométrico. Además, explique las consecuencias en la estimación e interpretación de los resultados del modelo.

La heterocedasticidad corresponde a la existencia de errores cuyas varianzas no son iguales, rompiendo con el supuesto de que los errores son homocedásticos con varianza σi2 = σu2 ∀i. La heterocedasticidad podría surgir en un modelo econométrico porque podría ocurrir que sea más fácil predecir (el modelo es mejor) para cierto tipo de observaciones. Por ejemplo, en un contexto de una estimación de salarios, podría ser más fácil predecir para aquellos con baja educación y más difícil para aquellos con alta educación. Ello resulta en errores de estimación del modelo con varianzas más altas para aquellos con alta educación. La presencia de heterocedasticidad, al afectar solamente la varianza de los errores, no genera sesgo en la estimación de los parámetros del modelo. No obstante, sí se produce un sesgo en la estimación de las varianzas de los parámetros. En particular, se obtienen varianzas más grandes (el estimador de Mínimos Cuadrados Ordinarios deja de ser MELI). Por esto, y dado que los tests de inferencia se construyen basados en las varianzas de los estimadores, se obtendrá que los tests de hipótesis se invalidan, por lo que la interpretación de los resultados de la estimación del modelo se hace incierta.

(c) (10 puntos) Explique en qué consiste y para qué sirve el método de estimación de Mínimos Cuadrados Generalizados Factibles (MCGF). [Nota: No es necesaria una demostración matricial, pero el uso de expresiones algebraicas puede contribuir a una explicación más clara].

Cuando estamos en presencia de heterocedasticidad, se puede estimar correctamente las 2

varianzas si se conoce la estructura de la matriz de covarianzas y aplicando el método de Mínimos Cuadrados Generalizados (MCG). No obstante, cuando no se conoce la estructura de la matriz de covarianzas, no se puede aplicar MCG, pero sí se puede aplicar Mínimos Cuadrados Generalizados Factibles (MCGF). El método de MCGF (White, 1980) utiliza la se realiza en 2 etapas. En la primera etapa se estima el modelo por MCO. En la segunda etapa, con la información contenida en la matriz de covarianzas de los residuos, se corrige la matriz de covarianzas inicial para tener una estimación consistente. La matriz de covarianzas del estimador de MCO viene dada por: ˆ V ar(β|X) = (X 0 X)−1 (X 0 σu2 ΩX)(X 0 X)−1 1 = n(X 0 X)−1 ( σu2 X 0 ΩX)(X 0 X)−1 n

Se desconoce la matriz Ω. Luego el método de MCGF propone estimar n1 σu2 X 0 ΩX como n

X ˆ= 1 Σ u ˆ2i xi x0i . n i=1

Finalmente, la matriz de covarianzas corregida resulta ˆ ˆ 0 X)−1 . V ar(β|X) = n(X 0 X)−1 Σ(X

3

Universidad de Chile Facultad de Economia y Negocios CONTROL 5 Econometr´ıa I Oto˜ no 2006

Profesoras: Javiera Vasquez y Claudia Sanhueza. Nombre:........................................................................................................... Rut:........................................................................................................... 1. Dado el modelo de regresi´on: y i = α + ui Donde E(ui ) = 0 y V (ui ) = x2i . Encuentre el estimador MELI de α. Respuesta Dada la heterocedasticidad presente en el error, el metodo mas eficiente de estimaci´on es MCG, ya que se conoce la matriz de varianzas y covarianzas del error:    Ω=  

x21 0 · · · 0 0 x22 · · · 0 .. .. . 0 . 0 0 · · · 0 x2n





1 x21

··· 1 ··· x22 .. . 0 ··· 0 0

   0  −1  , Ω =  .   .   .

0

0  0   



0  

1 x2n

Como el modelo incluye solo una variable explicativa, la constante, la matriz X es un vector de unos y por lo tanto:   h i  0 −1 (X Ω X) = 1 · · · 1   

1

1 x21

0 .. . 0

··· 1 ··· x22 .. . 0 ··· 0 0

0   1 0   ..   . 0  1 

1 x2n

 T X  1 =  2 i=1 xi

0

−1

XΩ Y =

h



1 x21

 i 1 ··· 1    

0 .. . 0

··· ··· ...

0 1 x22

0 ···

0

0    y1 T 0  X  yi  .   .  .  = 2  0  y i=1 xi n 1 

x2n

Con lo cual es estimador MCG queda: yi i=1 x2 i PT 1 i=1 x2 i

PT

0

−1

−1

0

−1

α ˆ M CG = (X Ω X) X Ω Y =

2. La omisi´on de una variable relevante siempre sobrestima el verdadero valor del par´ametro y su varianza. Respuesta Falso, no siempre se sobrestima, la omisi´on de una variable relevante siempre produce sesgo en los par´ametros a menos que la correlaci´on entre la variable omitida y las explicativas incluidas sea cero, y el signo del sesgo depende de dos cosas: la correlaci´on entre la variable omitida y las variables explicativas incluidas y el valor del par´ametro asociado la variable omitida (valor poblacional). Para un modelo sencillo con una variable explicativa (x1) y una variable omitida (x2) el sesgo es: cov(x1 ,x2 ) β2 , donde se aprecia claramente lo anterior. Con respecto a la var(x1 ) varianza, el sesgo de ´esta no es claro, pues no podemos estimar σ 2 de manera correcta.

2

Econometría Facultad de Economía y Negocios Universidad de Chile Pauta Control 5

Semestre: Primavera 2006 Profesores: José Miguel Benavente, Rodrigo Montero Tiempo de duración: 20 minutos No hay preguntas de ningún tipo para los ayudantes Comente (6 puntos) Los modelos no lineales no pueden ser estimados por mínimos cuadrados ordinarios (MCO). Respuesta. Falso. Existen modelos no lineales que son linealizables, y por ende, son susceptibles de ser estimados a través del método de mínimos cuadrados ordinarios. Un ejemplo de estos modelos lo constituye la función Cobb-Douglas. En este caso particular, la linealización se efectúa a través de una transformación logarítmica. No obstante lo anterior, hay modelos que no son linealizables, y por lo tanto, no pueden ser estimador por MCO. En este escenario existen dos alternativas de estimación: (i) mínimos cuadrados no lineales, (ii) máxima verosimilitud. En ambos casos será necesario utilizar métodos numéricos para obtener la solución.

Ejercicio (14 puntos) Se tiene una muestra de 20 trabajadores, de los cuales sólo 6 utilizan un computador en su lugar de trabajo. El salario promedio de aquellos que no utilizan un computador es de $280.000, mientras que la remuneración (promedio) de aquellos que sí utilizan uno es de $300.000.

1

1. Especifique el modelo que puede ser estimado para cuantificar el retorno al uso del computador en el lugar de trabajo. Para ello considere la inclusión de dos variables dummies. (3 puntos) Respuesta. El modelo tiene la siguiente forma:

Yi = β1 D1i + β2 D2i + ui donde Yi es el salario del trabajador, D1i es una variable dummy que toma el valor uno si la persona no utiliza un computador en su lugar de trabajo, y cero si no, D2i es una variable dummy que toma el valor uno si la persona utiliza un computador en su lugar de trabajo, y cero si no, y finalmente, ui es un término de error bien comportado. 2. Encuentre los estimadores MCO del modelo anterior. (6 puntos) Respuesta. En términos matriciales, el modelo puede escribirse de la siguiente forma: Y = Xβ + u donde:



d11

d21



     d12 d22    X= . ..  = (D1 D2 ) .  . .    d1n d1n y: 



β1 β=  β2 Luego:  βˆ = (X 0 X)−1 X 0 Y = 

D10 D1

D10 D2

D20 D1

D20 D2

2

−1  



D10 Y



D20 Y



(1)

Finalmente:      −1  P    d1i Yi Y¯1 280,000 βˆ1 N1 0 = =   P  = ˆ ¯ d2i Yi Y2 300,000 β2 0 N2

(2)

3. Encuentre la matriz de varianzas y covarianzas. (3 puntos) Respuesta. La estimación para la matriz de varianzas y covarianzas viene dada por la siguiente expresión: ˆ =σ var(β) ˆ 2 (X 0 X)−1 Dado que no se conocen los salarios individuales, no es posible estimar σ 2 . Por lo tanto:  ˆ =σ var(β) ˆ2 

N1

0

0

N2

−1 

 =

σ ˆ2 14 

0

0 σ ˆ2 6

 

4. Especifique nuevamente el modelo pero ahora incluya sólo una variable dummy, y deje como categoría base a aquellos que no utilizan un computador en su lugar de trabajo. ¿Cómo se relacionan los coeficientes de este modelo con aquellos definidos en la parte (1)? (2 puntos) Respuesta. El modelo a estimar sería el siguiente: Yi = γ0 + γ1 D2i + ei Por lo tanto, se cumple lo siguiente: γ0 = β1 γ1 = β2 − β1

3

Econometría Facultad de Economía y Negocios Universidad de Chile Pauta Control 5

Semestre: Primavera 2007 Profesores: José Miguel Benavente, Rodrigo Montero Ayudantes: Loreto Silva, Rodrigo Bravo, Felipe Ríos Tiempo de duración: 40 minutos No hay preguntas de ningún tipo para los ayudantes Está permitido utilizar calculadora

Considere dos muestras de datos para estimar el siguiente modelo: Yi = β0 + β1 Xi + ui . La primera de ellas (muestra I) contiene la siguiente información:    50 300 0 XX= Y 0 X = 300 2000 Y 0 Y = 2100 300 2100 Por su parte, la segunda muestra (muestra II) presenta las siguientes características:    50 300 0 XX= Y 0 X = 300 2200 Y 0 Y = 2800 300 2100 Así, se dispone en total de 100 datos, pero que han sido agrupados en dos muestras. En base a esta información responda lo siguiente: 1. Calcule los estimadores de mínimos cuadrados ordinarios (MCO) de las dos muestras por separado. (30 puntos) Respuesta. Para la muestra I se tiene lo siguiente:    −1     ˆ0 β 50 300 300 2 M CO βˆ = ˆ = = 2/3 300 2100 2000 β1 Para la muestra II: βˆM CO =

   −1     βˆ0 50 300 300 −2 = = ˆ 300 2100 2200 4/3 β1

1

2. Estime la varianza de los residuos de MCO (˜ σ 2 ) para cada una de las mues0 0 0 tras. (Ayuda: recuerde que: uˆ uˆ = Y Y − βˆ X 0 Y ) (30 puntos) Respuesta. Para la muestra I:    300 500 0 0 0 0 ˆ uˆ uˆ = Y Y − β X Y = 2100 − 2 2/3 = 2000 3 Luego: σ˜I 2 =

500/3 = 3, 472 48

Para la muestra II: 0

0

ˆ0

0

 uˆ uˆ = Y Y − β X Y = 2800 − −2 4/3



 1400 300 = 2200 3

Luego: 1400/3 = 9, 722 48 3. Aplique el test de Goldfeld y Quandt para evaluar la presencia de heteroscedasticidad en los residuos de ambas muestras. Utilice un valor crítico para la distribución F igual a 1,61. (Ayuda: recuerde que el numerador de este test corresponde a la muestra que tiene asociada una mayor varianza en los residuos) (30 puntos) Respuesta. La hipótesis nula de este test es la presencia de errores homoscedásticos. El test es el siguiente: σ˜II 2 =

σ˜II 2 uˆII 0 uˆII /NII = uˆI 0 uˆI /NI σ˜I 2 que se distribuye F con NII y NI grados de libertad en el numerador y denominador, respectivamente, ya que el numerador del test corresponde a la varianza estimada de los residuos de la muestra que tiene asociada la mayor varianza. Por lo tanto: 9, 722 = 2, 8 GQ = 3, 472 valor que es mayor al F crítico de tabla (1,61), por lo que se rechaza la hipótesis nula de errores homoscedásticos. GQ =

4. ¿Cuáles serían las consecuencias para la estimación de MCO el rechazar la hipótesis nula planteada por el test de Goldfeld y Quandt? (10 puntos) Respuesta. Frente a la presencia de errores heteroscedásticos, el estimador MCO es insesgado y consistente, sin embargo, ya no es el más eficiente. En este contexto habría que aplicar el método de mínimos cuadrados generalizados (MCG) si es que se quisiera estimar utilizando las dos muestras en conjunto. 2

Departamento de Econom´ıa

Universidad de Chile

STA300

Econometr´ıa I Profesores: Tom´ as Rau y Javiera V´ asquez. Ayudantes: Roberto Gillmore, Eugenio Rojas y Jorge Sep´ ulveda. ˜ o 2008, Pauta Control 5 Oton

1. Suponga el siguiente modelo con una variables explicativa x1 m´as una constante:

y = α + x1 β + u De esta forma la matriz X es de la siguiente forma:

    X=  

1 1 1 .. .

x11 x12 x13 .. .

1

x1n

      

Muestre que el estimador de β obtenido a trav´es de la regresi´on particionada equivale al estimador del modelo original en desv´ıos con respecto a la media. Respuesta y = Xβ + u

Donde X = [i x1 ]

Donde i es un vector de dimensi´ on n de unos. El estimador particionado de β es −1 βˆ = (x01 M x1 ) (x01 M y)

Donde M = I − i(i0 i)−1 i0 Es f´acil ver que i0 i = n y que    ii0 =  

1 1 .. .

1 1 .. .

··· ··· .. .

1

1

···

 1 1    1  1 n×n

Lo anterior implica: 

1 n 1 n

1 n 1 n

.. .

··· ··· .. .

1 n

1 n

···

  i(i0 i)−1 i0 =  .  ..

1 n 1 n 1 n 1 n

     n×n

Por lo tanto la matriz M corresponde a la matriz de desviaciones con respecto a la media. 1

Departamento de Econom´ıa

Universidad de Chile

2. La omisi´ on de variables relevantes siempre sobreestima el verdadero valor del par´ametro y su varianza. Comente. Respuesta Falso, la omisi´ on de variables relevantes no genera problemas de eficiencia, al contrario, la varianza es menor, pero s´ı genera problemas de sesgo, el cual depende de dos cosas: i) La covarianza entre la variable omitida y la inclu´ıda. ii) Signo del par´ametro poblacional de la variable omitida. Vemos que se estar´ıa sobreestimando si ambos son positivos o negativos y subestimando si es que existe diferencia en el signo de estos elementos.

2

CONTROLES 6

Econometría I Profesores: J.M. Benavente, A. Otero y J. Vásquez. Primavera 2004 Control 6

Nombre:

..........................................................................................

Rut:

.......................................

Ud. Dispone de 30 minutos para resolver este control, no puede hacer consultas a los ayudantes, no puedo tener nada más que lápiz en su escritorio, si contesta con lápiz mina no tiene derecho a reclamo. Contestar sólo en el espacio disponible Pregunta 1: (30 puntos)Si existe Heterocedasticidad en los errores, el estimador Mínimos Cuadrados Ordinarios será sesgado, sin embargo, cuando existe autocorrelación en los errores no se produce sesgo en los parámetros estimados. (Comente). Falso, ambos problemas Heterocedasticidad y Autocorrelación no generan problemas en la propiedad de insesgamiento de los parámetros estimados por MCO, ya que el supuesto de que E(u) = 0 no se ha quebrado. Ambos problemas generan problemas de eficiencia en la estimación por MCO. Pregunta 2: (70 puntos) Dado el modelo de regresión yi = α + εi , donde E(εi ) = 0, V (εi ) = σε2 x2i . (a) Encuentre el estimador MELI de α. El estimador eficiente de α es el estimador MCG el patrón de Heterocedasticidad.  0 x21 · · · 0  0 x2 · · · 0 2  Ω =  .. . . .. ..  . . . . 0 · · · 0 x2n

1

(ya que conozco la matriz Ω o     

(1)

De esta forma Ω−1 es:  −1



  =  

1 x21

···

0 1 ··· x22 .. ... . ··· 0

0 .. . 0

0 0 .. . 1 x2n

     

(2)

Además como nuestro modelo incluye como variable explicativa sólo la constante, nuestra matriz X es:   1  1    X =  ..  (3)  .  1 De esta forma:  0

−1

XΩ X=

£

1 ···

 ¤ 1 1   

 0

−1

XΩ Y =

£

1 ···

1 x21

 ¤ 1 1   

···

0 1 ··· x22 .. ... . ··· 0

0 .. . 0

1 x21

0 .. . 0

···

0 1 ··· x22 .. ... . ··· 0

0 0 .. . 1 x2n

     



0 0 .. .

    

1 x2n

PT 0

−1

−1

0

−1

⇒α ˆ M CG = (X Ω X) (X Ω Y ) =

1

 T  X 1  =  t=1 x2t

y1 y2 .. . yT

yt t=1 x2t PT 1 t=1 x2t

(b) Encuentre el estimador de la varianza de α. El estimador de la varianza de α es: 2

σ ˆ Vˆ (ˆ αM CG ) = σ ˆε2 (X 0 Ω−1 X)−1 = PT ε

1 t=1 x2t

2

1 1 .. .

(4)

 T  X yt  =  t=1 x2t

(5)

Econometría I Profesores: A. Otero y J. Vásquez. Otoño 2005 Pauta Control 6 Pregunta 1: (30 puntos) El estimador consistente de Newey and West es el más eficiente dentro de los estimadores lineales cuando existe autocorrelación. Falso, cuando tenemos problemas de autocorrelación el estimador MCO deja de ser eficiente, su varianza es igual a σ 2 (X 0 X)−1 X 0 ΩX(X 0 X)−1 > σ 2 (X 0 X)−1 . El estimador de Newey and West nos permite estimar consistentemente esta varianza, la cual sigue siendo ineficiente. Pregunta 2: (70 puntos) Considere el Modelo: yt = βxt +ut , donde E(ut ) = 0, V (ut ) = k(βxt )2 y Cov(ut , us ) = 0 ∀t 6= s. Además dispone de 5 observaciones de la variable dependiente y de la variable explicativa: yt 2 3 10 1 3

xt 1 2 4 1 1

Encuentre el estimador eficiente de β y de su varianza. Este modelo no tiene problemas de autocorrelación, pero si de heterocedasticidad, ya que la varianza del error cambia para para observación t. De esta forma, el estimador eficiente es el de MCG que consiste en transformar el modelo original dividiendo cada observación de la variable dependiente y explicativas por la desviación estándar del error asociado a esta observación, una vez transformado el modelo se estima por MCO. La variables yt y xt transformadas son: yt∗

=

x∗t

=

yt yt yt √ =p = 2 2 σt βxt k kβ xt xt xt 1 =p = √ 2 2 σt β k kβ xt

(10 puntos) El método eficiente de MCG consiste en estimar por MCO el modelo: yt∗ = βx∗t + u∗t , doniid

de u∗t ∼ (0, σ 2 ):

1

PT

βˆM CG

t=1

=

PT

yt∗ x∗t

∗ 2 t=1 (xt ) PT yt√ t=1 βxt k

=

³

PT

t=1

PT

1 β2 k

=

1 √ β k

1 √ β k

´2

yt t=1 xt T β2 k

PT βˆM CG

·

yt t=1 xt

=

T

Reemplazando los valores de las 5 observaciones que se dispone: βˆM CG

= =

2 1

+

3 2

+

10 4

+

1 1

+

3 1

5 2 + 1,5 + 2,5 + 1 + 3 10 = =2 5 5

(40 puntos) La varianza del estimador MCG es: V (βˆM CG ) = σ 2 (X 0 Ω−1 X)−1

o

0 V (βˆM CG ) = (X ∗ X ∗ )−1

Por lo tanto: V (βˆM CG ) =

PT

=

PT

1

∗ 2 t=1 (xt )

t=1

1 ³

1 √

β k

1

=

T β2 k 2

β k β2k = T 10

V (βˆM CG ) = (20 puntos)

2

´2

Econometría Facultad de Ciencias Económicas y Administrativas Universidad de Chile Control 6

Semestre: Primavera 2005 Profesores: Emerson Melo, Rodrigo Montero y Jaime Ruiz-Tagle Rut:

.......................................

Tiempo de duración: 30 minutos No hay preguntas de ningún tipo para los ayudantes.

Un investigador quiere estimar la siguiente relación: Si = α + βSiP + µi

(1)

donde Si representa los años de escolaridad del individuo i, SiP representan los años de escolaridad (promedio) de los padres del individuo i, y µi es un término de error bien comportado. En otras palabras, se está modelando el impacto que tiene la escolaridad de los padres sobre los niveles de escolaridad de sus hijos. Sin embargo, este investigador ha olvidado incluir la habilidad de los hijos como un determinante clave de su escolaridad. En realidad, la verdadera relación existente entre la escolaridad de los hijos y la de sus padres debería ser estimada a través de la siguiente ecuación: Si = α + βSiP + γHi + µi

(2)

1. Demuestre que al estimar β a partir de la ecuación (1) se incurre en un sesgo. 1

Respuesta. El estimador de mínimos cuadrados ordinarios (MCO) de β viene dado por:

PN P s si ˆ β = PNi=1 iP 2 i=1 (si ) donde la variable en minúsculas denota que se encuentra en desviación respecto de su media. Por otro lado, la ecuación (2) en desvíos respecto de la media viene dada por: si = βsPi + γhi + µi Reemplazando si en la fórmula de la estimación de MCO, se tiene lo siguiente: βˆ = finalmente:

PN i=1

sPi (βsPi + γhi + µi ) PN P 2 i=1 (si )

PN

PN

P i=1 si µi + P N P 2 P 2 i=1 (si ) i=1 (si ) Aplicando esperanza a la expresión anterior: P i=1 si hi

βˆ = β + γ PN

ˆ =β+γ E(β)

Cov(SiP , Hi ) V ar(SiP )

Por lo tanto, al estimar β a través de (1) se incurre en un sesgo, el cual viene dado por: ˆ −β =γ E(β)

Cov(SiP , Hi ) V ar(SiP )

2. ¿De qué depende el sesgo de la estimación? Respuesta. Como puede apreciarse del resultado anterior, el sesgo depende de dos elementos: a) (γ) El efecto que tiene la variable omitida, habilidad, sobre la variable dependiente del modelo (escolaridad) b) (Cov(SiP , Hi ) La relación que existe entre la variable omitida, habilidad, y la variable explicativa incluida en la estimación del modelo (escolaridad de los padres) 2

3. ¿Es posible especular respecto de la dirección de este sesgo? Respuesta. Por supuesto que sí. En primer lugar, es muy posible que el efecto que tiene la habilidad sobre la escolaridad de las personas sea positivo (γ), ya que personas más hábiles debieran alcanzar, en promedio, mayores niveles educativos. Por otro lado, es también bastante probable que padres con mayor escolaridad tengan a su vez hijos con mayor habilidad (hay un mayor estímulo, y además, es probable que exista una correlación positiva entre habilidades intergeneracionales). Por lo tanto, es muy probable que el estimador MCO esté sesgado hacia arriba. 4. Suponga que dispone de los siguientes datos: Escolaridad (S)

Escolaridad de los padres (S P )

Habilidad (H)

0

1

2

2

1

2

4

5

3

7

3

5

9

12

4

11

12

7

16

14

9

17

9

10

21

20

10

Si usted omite la variable habilidad en su estimación, ¿cuál es el coeficiente estimado para β? Respuesta. El estimador MCO viene dado por: PN P s si Cov(Si , SiP ) 41, 95 ˆ = = 0, 9808 β = PNi=1 iP = P 2 42, 77 V ar(Si ) i=1 (si ) 5. Si ahora incluyera la variable habilidad en la estimación, ¿cómo esperaría usted que fuera el coeficiente estimado para β? Justifique (5 puntos) Respuesta. De acuerdo a lo señalado en (3) lo más probable es que el estimador esté sesgado hacia arriba, por lo que se esperaría que la nueva 3

estimación arrojara un coeficiente menor que el encontrado anteriormente. Para poder justificar esto con la información que se dispone habría que asumir que el efecto que tiene la habilidad sobre la escolaridad de las personas es positivo (γ > 0), supuesto que no es fuerte. Por otro lado, habría que pronunciarse respecto de la relación existente entre la habilidad (H) y la escolaridad de los padres (SiP ). Sin embargo, esto es posible de saber a partir de los datos. En efecto: Cov(SiP , Hi ) = 41, 95 Con estos dos elementos, se concluye que el sesgo de la estimación sería postivo.

4

Econometría I Profesoras: Claudia Sanhueza Javiera Vásquez. Otoño 2006 Control 6

Nombre:

..........................................................................................

Rut:

.......................................

Ud. Dispone de 30 minutos para resolver este control, no puede hacer consultas a los ayudantes, no puedo tener nada más que lápiz en su escritorio, si contesta con lápiz mina no tiene derecho a reclamo. Contestar sólo en el espacio disponible Pregunta 1: (30 puntos) La existencia de una tendencia creciente en la variable dependiente que no es considerada en modelo implica una sobrestimación del verdadero valor del parámetro. Comente. La mayoría de las variables económicas tienen una tendencia, generalmente creciente. Si el conjunto de variables explicativas no explican adecuadamente este comportamiento, entonces el término de error incorporará dicha tendencia, lo que conduce a la existencia de autocorrelación positiva. Con rachas de residuos por sobre la media y luego bajo la media.

X Modelo verdadero XX X Modelo X XX X estimado X X X X XX X X X X X X X X

Autocorrelación producida por una tendencia

Pregunta 2: (70 puntos) Suponga el siguiente modelo de regresión: yt = βxt + ut con t=1,2 y 3 (sólo 3 observaciones), además ut sigue un proceso autorregresivo de segundo orden AR(2): ut = 0,1ut−1 + 0,5ut−2 + εt Encuentre la matriz de varianzas y covarianzas del error. Disponemos de 3 observaciones, por lo tanto la matriz de varianzas y covarianzas del error sera de la siguiente forma:  2  σ σ12 σ13 E[uu0 ] = σ 2 Ω =  σ21 σ 2 σ23  σ31 σ32 σ 2 1

De esta forma, necesitamos computar la varianza homocedástica del error, y dos covarianzas: σ1 , que es la covarianza entre dos términos de error distanciados u periodo y σ2 que es la covarianza entre dos errores distanciados dos periodos. El término de error se acuerdo al enunciado sigue un proceso autoregresivo de orden 2: ut = ρ1 ut−1 + ρ2 ut−2 + εt

ρ1 = 0,1,

ρ2 = 0,5

2

Primero computamos la varianza del error (σ ): σ 2 = E[u2t ] = ⇒ σ2 = ⇒ σ2

=

⇒ σ2

=

E[ρ21 u2t−1 + 2ρ1 ρ2 ut−1 ut−2 + ρ22 ut−2 + 2ρ1 ut−1 εt + 2ρ2 ut−2 εt + ε2t ] ρ21 σ 2 + ρ22 σ 2 + 2ρ1 ρ2 σ1 + σε2 2ρ1 ρ2 σε2 2 · 0,1 · 0,5 σε2 · σ + = · σ + 1 1 1 − ρ21 − ρ22 1 − ρ21 − ρ22 1 − (0,1)2 − (0,5)2 1 − (0,1)2 − (0,5)2 2 0,1 σ · σ1 + ε (1) 0,64 0,64

Ahora calculemos la covarianza de primer orden (errores distanciados un periodo (σ1 ): σ1

= =

⇒ σ1

=

E[ut ut−1 ] = E[(ρ1 ut−1 + ρ2 ut−2 + εt )ut−1 ] ρ1 σ 2 + ρ2 σ 1 ρ1 0,1 2 · σ2 = σ = 0,2σ 2 1 − ρ2 0,5

(2)

Reemplazando (2) en (1):

µ 1−

σ2

=

σ2

=

⇒ σ2

=

0,02 0,64

0,1 σ2 · 0,2σ 2 + ε 0,64 0,64 σε2 0,64 σε2 0,62



(3)

Reemplazando (3) en (2): σ1 =

0,2 · σ2 0,62 ε

(4)

Por último, calculemos la covarianza de segundo orden: σ2

= =

σ2

=

⇒ σ2

=

E[ut ut−2 ] = E[(ρ1 ut−1 + ρ2 ut−2 + εt )ut−2 ] ρ1 σ1 + ρ2 σ 2 0,2 σ2 0,1 · · σε2 + 0,5 · ε 0,62 0,62 0,52 2 ·σ 0,62 ε

Utilizando (3), (4) y (5) podemos computar la matriz de varianzas y covarianzas del error:   σε2   0,2 0,52 2 2 · σ · σ ε ε 1 0,2 0,52 0,62 0,62 0,62 2   2 σ σ ε 0,2 0,2 2 2 = ε  0,2 1 0,2  E[uu0 ] =   0,62 · σε 0,62 0,62 · σε  0,62 2 σε 0,52 0,2 1 0,52 0,2 2 2 0,62 · σε 0,62 · σε 0,62

2

(5)

Econometría Facultad de Economía y Negocios Universidad de Chile Pauta Control 6

Semestre: Primavera 2006 Profesores: José Miguel Benavente, Rodrigo Montero Tiempo de duración: 20 minutos No hay preguntas de ningún tipo para los ayudantes Comente (6 puntos) En un proceso autoregresivo de primer orden, la estimación (MCO) de la pendiente será inconsistente. Respuesta. Falso. En un proceso AR(1), la pendiente se estima de la siguiente manera (suponga que la ecuación a estimar incluye un intercepto): PT PT yt−1 ut t=2 yt yt−1 ˆ = β + Pt=2 β = PT 2 T 2 t=2 yt−1 t=2 yt−1 Aplicando esperanza: ˆ =β+E E(β)

"P

T yt−1 ut Pt=2 T 2 t=2 yt−1

#

El insesgamiento se cumplirá en la medida que el segundo término del lado derecho sea cero. Es posible demostrar que el sesgo es igual a -(1 + 3β)/T . Por lo tanto, el sesgo desaparece a medida que crece T , es decir, el estimador de MCO es consistente.

Ejercicio (14 puntos) Considere el siguiente modelo: Yi = α + βXi + ui 1

Existen sospechas de que la varianza del término de error para las primeras 22 observaciones (σ12 ) no es la misma que para las restantes 32 observaciones (σ22 ). De hecho, para las primeras 22 observaciones (aquellas con los Xi más bajos), los datos producen los siguientes resultados (expresados en desviaciones respecto a P P 2 P 2 la media): xy = 100, x = 10 y y = 1040. Para el siguiente grupo de P P 2 P 2 observaciones (32), los resultados son: xy = 216, x = 16 y y = 3156. En base a esta información responda lo siguiente: 1. Realice un test de Goldfeld-Quandt al 5 % para determinar si las varianzas son las mismas para ambos grupos de observaciones. (Ayuda: (1) Para implementar el test no debe omitir observaciones. Trabaje directamente con ambos grupos de datos; (2) Asuma que el F crítico es de 2,04.) (8 puntos) Respuesta. El modelo, en desvíos respecto a la media es el siguiente: yi = βxi + ui Por lo tanto, la suma de cuadrados de la regresión (ESS) es igual a β 2 x2i . De esta manera, para el primer grupo de observaciones se tiene lo siguiente:  P 2 xy 2 2 ESS1 = β xi = P 2 x2i = 1000 x Por lo tanto, la suma de los errores al cuadrado (RSS1 ) es: RSS1 =

X

y 2 − ESS1 = 40

Para el segundo grupo de observaciones se tiene lo siguiente:  P 2 xy 2 2 ESS2 = β xi = P 2 x2i = 2916 x Por lo tanto, la suma de los errores al cuadrado (RSS2 ) es: RSS2 =

X

y 2 − ESS2 = 240

2

Luego, es estadístico de Goldfeld-Quandt es el siguiente: u02 u2 ∼ Fm,m u01 u1 con m = (22 + 32 − 0)/2 − 2 = 25. Por lo tanto, dado que: 240 = 6 > 2, 04 40 se rechaza la hipótesis nula de homoscedasticidad. 2. Asumiendo que la varianza del término de error difiere en ambos grupos (σ12 6= σ22 ), ¿cómo obtendría el estimador de mínimos cuadrados factibles (βˆM CF )? (6 puntos) Respuesta. De acuerdo a lo encontrado en el apartado anterior, las varianzas de ambos grupos efectivamente difieren. Para estimar por MCF se requiere contar con una estimación para la matriz de varianzas y covarianzas. Para el primer grupo se tiene lo siguiente: σ ˜12 =

40 u01 u1 = =2 n1 − k 20

σ ˜22 =

u02 u2 240 = =8 n2 − k 30

Y para el segundo grupo:

Por lo tanto: 1 2 ˜ σ ˜12 = σ 4 2 Una opción entonces es corregir los datos del primer modelo, de manera de hacer homogéneas las varianzas. Para ello, se debe premultiplicar por la matriz P . Se sabe que: P 0 P = Ω−1

3

Dado que Ω es una matriz diagonal con 1/4 en su diagonal, entonces, se cumple lo siguiente: 0   2 2 0 ··· 0       0 2 · · · 0  0     .. .. . . ..   .. . .  . . .    0 0 0 ··· 2

0 ···

0





4 0 ···

    2 · · · 0  0   .. . . ..  =  .. . .  . .   0 ··· 2 0

0



  4 ··· 0  .. . . ..  . . .  0 ··· 4

Luego: Y ∗ = α + βX ∗ + u∗ donde Y ∗ = 2Y , y así respectivamente para las otras variables. Por lo tanto, P para el primer grupo de observaciones, ahora se tiene que xy = 400 y P 2 x = 40. El estimador MCF de β será: 400 + 216 βˆ = = 11 40 + 16 3. ¿Cómo se estimaría la varianza del estimador de mínimos cuadrados ordinarios, V ar(βˆM CO ), si la varianza del término de error difiere entre los dos períodos? (6 puntos) ˆ M CO viene dada por la Respuesta. La estimación de la varianza de beta siguiente expresión: ˆ = (X 0 X)−1 X 0 W X(X 0 X)−1 var(beta) donde la matriz W es una diagonal con 22 dos (2’s), seguidos de 32 ochos (8’s). Por lo tanto: ˆ = var(beta)

1 1 (2 · 10 + 8 · 16) = 0, 22 (10 + 16) (10 + 16)

4

Econometría I Profesores: J.M. Benavente, A. Otero y J. Vásquez. Primavera 2004 Control 7

Nombre:

..........................................................................................

Rut:

.......................................

Ud. Dispone de 30 minutos para resolver este control, no puede hacer consultas a los ayudantes, no puede usar calculadora, no puedo tener nada más que lápiz en su escritorio, si contesta con lápiz mina no tiene derecho a reclamo. Contestar sólo en el espacio disponible Pregunta 1: (30 puntos) Si existe Heterocedasticidad en los errores, el estimador Mínimos Cuadrados Ordinarios será insesgado, sin embargo, cuando existe autocorrelación en los errores se produce sesgo en los parámetros estimados. (Comente). Falso, ambos problemas Heterocedasticidad y Autocorrelación no generan problemas en la propiedad de insesgamiento de los parámetros estimados por MCO, ya que el supuesto de que E(u) = 0 no se ha quebrado. Ambos problemas generan problemas de eficiencia en la estimación por MCO. Pregunta 2: (70 puntos) Suponga que en el siguiente modelo de regresión: yt = βxt + ut con t=1,2,3 (sólo 3 observaciones en la muestra), ut sigue un proceso autorregresivo de segundo orden AR(2): ut = 0,1ut−1 + 0,5ut−2 + εt Encuentre la matriz de varianzas y covarianzas del error (u). Disponemos de 3 observaciones, por lo tanto la matriz de varianzas y covarianzas del error sera de la siguiente forma:  2  σ σ12 σ13 E[uu0 ] = σ 2 Ω =  σ21 σ 2 σ23  σ31 σ32 σ 2 De esta forma, necesitamos computar la varianza homocedástica del error, y dos covarianzas: σ1 , que es la covarianza entre dos términos de error distanciados u periodo y σ2 que es la covarianza entre dos errores distanciados dos periodos. El término de error se acuerdo al enunciado sigue un proceso autoregresivo de orden 2: ut = ρ1 ut−1 + ρ2 ut−2 + εt

1

ρ1 = 0,1,

ρ2 = 0,5

Primero computamos la varianza del error (σ 2 ): σ 2 = E[u2t ] = ⇒ σ2 = ⇒ σ2

=

⇒ σ2

=

E[ρ21 u2t−1 + 2ρ1 ρ2 ut−1 ut−2 + ρ22 ut−2 + 2ρ1 ut−1 εt + 2ρ2 ut−2 εt + ε2t ] ρ21 σ 2 + ρ22 σ 2 + 2ρ1 ρ2 σ1 + σε2 2ρ1 ρ2 σε2 2 · 0,1 · 0,5 σε2 · σ + = · σ + 1 1 1 − ρ21 − ρ22 1 − ρ21 − ρ22 1 − (0,1)2 − (0,5)2 1 − (0,1)2 − (0,5)2 2 σ 0,1 · σ1 + ε (1) 0,64 0,64

Ahora calculemos la covarianza de primer orden (errores distanciados un periodo (σ1 ): σ1

= =

⇒ σ1

=

E[ut ut−1 ] = E[(ρ1 ut−1 + ρ2 ut−2 + εt )ut−1 ] ρ1 σ 2 + ρ2 σ 1 ρ1 0,1 2 σ = 0,2σ 2 · σ2 = 1 − ρ2 0,5

(2)

Reemplazando (2) en (1):

µ 1−

σ2

=

σ2

=

⇒ σ2

=

0,02 0,64

0,1 σ2 · 0,2σ 2 + ε 0,64 0,64 2 σε 0,64 σε2 0,62



(3)

Reemplazando (3) en (2): σ1 =

0,2 · σ2 0,62 ε

(4)

Por último, calculemos la covarianza de segundo orden: σ2

= =

σ2

=

⇒ σ2

=

E[ut ut−2 ] = E[(ρ1 ut−1 + ρ2 ut−2 + εt )ut−2 ] ρ1 σ1 + ρ2 σ 2 0,2 σ2 0,1 · · σε2 + 0,5 · ε 0,62 0,62 0,52 2 ·σ 0,62 ε

Utilizando (3), (4) y (5) podemos computar la matriz de varianzas y covarianzas del error:   σε2   0,2 · σε2 0,52 · σε2 1 0,2 0,52 0,62 0,62 0,62 2   2 σε  σε 0,2 0,2 2 2 = 0,2 1 0,2  E[uu0 ] =   0,62 · σε 0,62 0,62 · σε  0,62 2 σ 0,52 0,2 1 0,52 0,2 2 2 ε 0,62 · σε 0,62 · σε 0,62

2

(5)

Econometría I Profesora: Javiera Vásquez. Verano 2005 Pauta Control Recuperativo Pregunta 1: (30 puntos) Si la variable dependiente se encuentra medida con error, el estimador MCO subestima el valor poblacional de los parámetros. Sin embargo, si la(s) variable(s) explicativa(s) esta(n) medida(s) con error, el estimador MCO sobreestima el valor poblacional de los parámetros. Comente. Falso, si sólo la variable dependiente esta medida con error, los supuestos para que MCO sea insesgado no se ven afectados. Sin embargo, si la variable explicativa esta medida con error, se rompe el supuesto cov(ut , xt ) = 0, el estimador MCO es sesgado hacia el origen, siempre subestima el verdadero valor del parámetro. Pregunta 2: (70 puntos) Dado el siguiente modelo: yt = β0 + β1 xt + ut ut = ρut−1 + εt iid

donde εt ∼ N (0, σε2 ). Además dispone de las siguientes observaciones: t yt xt

1 22 4

2 26 6

3 32 10

4 34 12

5 40 14

6 46 16

7 46 20

8 50 22

Obtenga una estimación eficiente de los parámetros β0 y β1 , sabiendo que ρ = 0,5. R: Para estimar eficiente el modelo debemos utilizar el método de Mínimos Cuadrados Generalizados, que consiste en transformar el modelo original de forma tal que el error este libre de autocorrelación, como en este caso el error sigue un procedimiento AR(1) se debe transformar de la siguiente forma la variable dependiente y explicativa del modelo: yt∗ = yt − 0,5yt−1 x∗t = xt − 0,5xt−1 De esta forma, se tienen los siguientes datos transformados: t 1 2 3 4 5 6 7 8 Suma

yt 22 26 32 34 40 46 46 50

xt 4 6 10 12 14 16 20 22

yt∗

x∗t

x∗ y ∗

x∗2

15 19 18 23 26 23 27 151

4 7 7 8 9 12 12 59

60 133 126 184 234 276 324 1337

16 49 49 64 81 144 144 547

1

El estimador MCG consiste en estimar por MCO el modelo transformado: yt∗ = β0 (1 − ρ) +β1 x∗t + εt | {z } α

Así, el estimador MCG de los parámetros es: 0 0 βˆM CG = (X ∗ X ∗ )−1 X ∗ Y ∗

· ∗0



¸ · ¸ P8 ∗ 7 59 t=2 xt P = 8 ∗2 ∗ 59 547 t=2 xt t=2 xt · P8 ¸ · ¸ 0 y∗ 151 X ∗ Y ∗ = P8 t=2 ∗ t ∗ = 1337 t=2 yt xt

P8

X X =

n

· ⇒ βˆM CG

=

⇒ βˆM CG

=

·

α ˆ ˆ β1

¸

· =

7 59

10,67241379 1,293103448

¸

59 547

¸−1 ·

151 1337

¸

Debemos recuperar β0 de la siguiente forma: α ˆ

=

⇒ βˆ0

=

βˆ0

=

βˆ0 (1 − ρˆ) α ˆ (1 − ρˆ) 10,67241379 = 21,34482759 0,5

De esta forma, los estimadores eficientes de β0 y β1 son 1.29 y 21.35, respectivamente.

2

SOLEMNES

Solemne Econometría I Profesores: J.M. Benavente, A. Otero y J. Vásquez. Primavera 2004

Nombre:

...........................................................................................

Rut:

.......................................

Ud. Dispone de 120 minutos para resolver la Solemne, no puede hacer consultas a los ayudantes, sólo lápiz y calculadora sobre su escritorio, si contesta con lápiz mina no tiene derecho a reclamo. Contestar sólo en el espacio disponible.

I. Comentes: De los siguientes 7 comentes Ud. debe elegir solo 4 de ellos. Cada comente tiene 10 puntos asignados. Comente 1: En el modelo de regresión lineal siempre se cumple que la

Pn

ˆi i=1 u

= 0.

Repuesta: Falso, esto sólo se cumple cuando el modelo incluye constante.Recordemos la CPO de X 0 X βˆ = X 0 Y , donde de este vector de dimensión Kx1 es: P MCO: P el primer P elemento P ˆ ˆ ˆ ˆ ˆ ˆ (β1 + β2 x2 + ... + βk xk ) = y ⇒ (y − β1 − β2 x2 − ... − βk xk ) = 0 ⇒ u ˆ = 0. Si el término constante no se incluye, esta primera CPO no existe. Recuerde que la constante ¯ ˆ ¯ ajusta la regresión de manera tal que se cumpla P que Y = Y , si ésta no se incluye no se garantiza tal igualdad, como tampoco que u ˆ = 0.

Comente 2: Suponga que la variable dependiente, pero no la independiente, esta expresada en desvíos con respecto a la media. ¿Qué implicancias tiene esto sobre el posible sesgo de la estimación por MCO? Repuesta: No hay implicacias en el insesgamiento de βˆ en un modelo del tipo y = α + xβ + u. Pero al estar y en devios respecto a su media, el modelo puede ser expresado de la siguiente manera: y − θ = α − θ + xβ + u, donde la constante que estimemos no será la misma que en un modelo donde y no esté en desvios con respecto a su media, está nueva constante será tal que ajuste la nueva escala de y (en desvios con respecto a la media) de manera que y¯ˆ = y¯. Por lo tanto la constante será sesgada.

NO ESCRIBIR EN ESTA PÁGINA PORQUE NO SE VA A CORREGIR

Comente 3: Los Experimentos de Montecarlo no son un ejercicio muy útil, porque debemos conocer los verdaderos valores de los parámetros. Repuesta:

Falso, son un ejercicio muy útil. Por lo demás, no se requiere el conocimiento de los verdaderos parámetros, ya que en este tipo de ejercicios uno es el "Dios", por lo tanto, uno determina cómo se generan las y, yo sé exactamente cual es su estructura y yo genero la muestra de variables dependientes. Luego esto me permite ver el comportamiento de los parámetros estimados, cuando, por ejemplo, se invalida algún supuesto de MCO, ya que conozco (yo lo impuse) los verdaderos parámetros.

Comente 4: Si estimo un modelo de regresión donde las ingresos son la variable dependiente y la escolaridad la variable explicativa, debería obtener el mismo valor para el parámetro β si es que estimo un modelo de regresión donde la escolaridad es la variable dependiente y los ingresos la variable explicativa, ya que el análisis de regresión mide simplemente la relación estadística entre las variables. Repuesta: Falso, en un análisis de correlación da lo mismo la causalidad, en tal caso ambas variables son tratadas en forma simétrica. Sin embargo, en el análisis de regresión se estudia el valor de Y (dependiente) condicional al valor de X (explicativa). Para una estimación ˆ no hay razones para pensar que un año adicional de educación del tipo yˆ = α + xβ, tiene el mismo impacto sobre el ingreso promedio, que el que tiene un peso adicional de ingreso sobre el promedio de educación. βˆ mide el impacto de un aumento unitario de x sobre el promedio de y.

NO ESCRIBIR EN ESTA PÁGINA PORQUE NO SE VA A CORREGIR

Comente 5: Si el tamaño de la muestra aumenta, el R2 debe disminuir.

Repuesta: El comente es verdadero ya que el R2 no tiene corrección por los grados de libertad. Una regresión con N variables explicativas ajustan perfectamente a la muestra de N observaciones. A medida que el número de observaciones aumenta el ajuste se deteriora ya que el perfecto ajuste de las N primeras observaciones tienen una influencia cada vez menor en el ajuste de toda la muestra. Por ejemplo, dado el modelo: y = α + βx + u con dos observaciones el ajuste es perfecto (una recta que une los dos puntos), si aumento a tres el número de observaciones el ajuste (medido por el R2 ) va disminuyendo.

Comente 6: Si los errores del modelo de regresión lineal no tienen distribución normal, a pesar de que los estimadores MCO ya no son MELI, siguen siendo insesgados.

Repuesta: El comente es falso ya que el resultado de que los estimadores por MCO son MELI no requiere que los errores se distribuyan normal. En efecto tal propiedad requiere que los errores cumplan la siguiente condición: E(ui ) = 0 ∀i, V ar(ui ) = σ 2 I ∀i y Cov(ui uj ) = 0 ∀i 6= j, es decir, que los errores ui ∼ iid sean independientes e idénticamente distribuidos.

Comente 7: El coeficiente de determinación (R2 ) siempre es positivo y menor a uno. Comente

Repuesta: La no negatividad del R2 , tal como la expresión ST = SE + SR, son válidas cuando existe término constante en el modelo. Cuando no se incluye constante el R2 puede tomar cualquier valor, siempre menor o igual a uno, pero incluyendo todos los reales negativos.

II. Preguntas Teóricas: De las siguientes 3 preguntas Ud. debe elegir sólo 2 de ellas. Cada pregunta tiene 20 puntos asignados. Pregunta 1: Considere el siguiente modelo de regresión lineal: Yi = β1 + ui ,

E(ui ) = 0,

E(u2i ) = σu2

y

E(ui uj ) = 0 ∀i 6= j

ˆ Encuentre la esperanza, varianza y (i) Derive el estimador MCO de β1 y llámelo β. error cuadrático medio de este estimador. (ii) Considere el siguientes estimador alternativo de β1 : nY βe = n+1 donde n es el tamaño de la muestra y Y el promedio muestral de Y . Encuentre la esperanza, varianza y error cuadrático medio de este otro estimador. e elegiría Ud. y bajo que criterio?. (iii) ¿ Cúal de estos dos estimadores (βˆ ó β) Respuesta Pregunta 1:

(i) Yi = β1 + ui , tengo sólo una variable explicativa, la cual es igual a 1.   1  .     x = i donde i =   .   .  1   1  .  ¡ ¢   Pn  βˆ = (X 0 X)−1 X 0 Y ⇒ X 0 X = 1 . . . 1   .  = i=1 1 = n (escalar)  .  1   y1  .  P  Pn ¡ ¢ ˆ = yi = y¯ = . y (escalar), β X 0Y = 1 . . . 1  i i=1 n    .  yn ³P ´ P P P y 1 i ˆ =E E(yi ) = 1 E(β1 +ui ) = 1 β1 = nβ1 = β1 (insesgado) E(β) = n

n

ˆ = E(βˆ − E(β)) ˆ 2 V ar(β)

n

n

n

ˆ = ECM (β) ˆ como E(βˆ1 ) = β1 ⇒ V ar(β)

Continuación Respuesta Pregunta 1: ³P ´2 ³P ´2 yi (β1 +ui ) ˆ = E(βˆ − E(β)) ˆ 2=E V ar(β) − β = E − β 1 1 n n ³ ´2 ³ P ´2 ³ P 2´ P ui ui ( ui ) nβ1 = E n + n − β1 = E =E como ui son iid n n2 P 2 P 2 E( ui ) = E(ui ) ya que E(ui uj ) = 0 ˆ = ⇒ V ar(β) (8 puntos)

nE(u2i ) n2

=

2 σu n

ˆ = ECM (β)

³P ´ P yi yi ˜ =E = n+1 ⇒ E(β) n+1 = −β1 nβ1 ⇒ β˜ es sesgado β˜1 − β1 = n+1 − β1 = n+1 P

(ii) β˜ =

nY¯ n+1

=

y

n n n+1

˜ =E V ar(β)

³P

yi n+1

como ui son iid ⇒ ˜ = ⇒ V ar(β)



1 n+1

P

E(yi ) =

n n+1 β1

´2

n n+1 β1 P E( ui )2



h i2 ³ ´2 P 2 1 P 1 P 1 = E n+1 (yi − β1 ) = E n+1 ui = (n+1) ui ) 2 E( P 2 2 = E(ui ) = nσu (puesto que E(ui uj ) = 0 ∀i 6= j)

n σ2 (n+1)2 u

³ P ´2 ui −β1 = E n+1 = + n+1 ¶2 µ P β1 n 1 2 2 2β1 ui + β12 ) = (n+1) σ2 + 2 (nσu + β1 ) = (n + 1)2 u n+1 | {z } | {z } ˜ =E ECM (β)

³P

yi n+1

− β1

´2

³P

=E

yi −nβ1 −β1 n+1

´2

varianza

P 1 E( ui − (n+1)2

sesgo2

(8 puntos) (iii) Si interesa el insesgamiento como único criterio elegiría MCO. Sin embargo, si se n ˜ ya que V ar(β) ˜ = elige el estimador más eficiente debería elegir β, σ2 < (n+1)2 u 2 σu ˆ Si elegimos por error cuadrático medio, tengo que para n < 2 σu2 2 = V ar(β). n

ˆ < ECM (β). ˜ se cumple que ECM (β) (4 puntos)

β1 −2σu

Pregunta 2: Demuestre que el estimador insesgado de σu2 en un modelo de regresión lineal con k variables explicativas es: σ eu2 =

u ˆ0 u ˆ n−k

Respuesta Pregunta 2: Primero, el vector de residuos estimados puede escribirse en función de los residuos poblacionales de la siguiente forma: u ˆ = Mu Donde M = In − X(X 0 X)X 0 , matriz de dimensión nxn idempotente y que satisface MX = 0 ⇒ E(ˆ u0 u ˆ) = E(u0 M 0 M u) = E(u0 M u), por las características de la matriz M. Como u0 M u es un escalar ⇒ E(u0 M u) = E[T r(u0 M u)] Recordemos que la traza es un operador lineal y antes de introducir la esperanza podemos, por propiedades de la traza, cambiar el orden de las matrices. E(u0 M u) = E[T r(u0 M u) = E[tr(M uu0 )] = T r[E(M uu0 )] = T r[M E(uu0 )] = T r[M σu2 In ] = σu2 T r(M ) = σu2 [T r(In ) − T r[X(X 0 X)X 0 ])] = σu2 (n − k) Por lo tanto como E(ˆ u0 u ˆ) = σu2 (n − k) para que la suma de los errores al cuadrado sea un estimador insesgado de σu2 debemos dividir por (n − k). σ ˜u2 =

u ˆ0 u ˆ n−k

⇒ E(˜ σu2 ) =

(20 puntos)

E(ˆ u0 u ˆ) n−k

=

2 (n−k)σu n−k

= σu2

Continuación Respuesta Pregunta 2:

Pregunta 3: En un modelo de regresión Y = Xβ + u, encuentre la varianza del error de predicción cuando se predice el valor esperado de la variable dependiente. Respuesta Pregunta 3: Si se quiere predecir E(Y ) y no un valor puntual de Y, se define el error de predicción de la siguiente forma: \ ˆ ˆ ˆ e˜0 = E(Y0 ) − E(Y 0 ) = E(Y0 ) − X0 β = X0 β − X0 β = X0 (β − β) ˆ =β Si se cumplen todos los supuestos bajo los cuales βˆ es MELI ⇒ E(β) ⇒ E(˜ e0 ) = 0. V ar(˜ e0 ) = E[(˜ e0 − E(˜ e0 ))(˜ e0 − E(˜ e0 ))0 ] = E(˜ e0 e˜00 ) ˆ ˆ 0X 0 ) = E(X0 (β − β)(β − β) 0 ˆ ˆ = X0 E(β − β)(β − β)0 X00 ˆ 0) = X0 V ar(βX 0 ∴ V ar(˜ e0 ) = σu2 X0 (X 0 X)−1 X00 (20 puntos)

Continuación Respuesta Pregunta 3:

III. Ejercicio Práctico: La siguiente pregunta es obligatoria. Esta pregunta tiene 40 puntos asignados. Considere el siguiente modelo de regresión lineal con 3 variables: yi = β1 + β2 x2,i + β3 x3,i + ui se dispone de la siguiente información:     33 0 0 132 X 0 X =  0 40 20  X 0 Y =  24  0 20 60 92

n X

yi2 = 678

i=1

n X (yi − Y )2 = 150 i=1

(i) ¿Cual es el tamaño de la muestra?. (ii) Calcular la ecuación de regresión. (iii) Contraste la hipótesis de que las dos pendientes suman uno. (iv) Calcular la predicción para yf , dado x2,f = −4 y x3,f = 2. Obtener un intervalo de confianza al 95 % para dicha predicción, donde f denota predicho. Respuesta Ejercicio Práctico: 

 P P n x x 2 3 P P P (i) Como X 0 X =  P x2 P x22 3  Px2 x 2 x3 x2 x3 x3

y

 P  y P X 0 Y =  P yx2  yx3

∴ el tamaño de la muestar es 33. (4 puntos)

(ii) Podemos expresar el modelo en desvios con respecto a la media, para estos efectos calculamos las medias de las variables: P

P

P

¯ 2 = X2 = 0 X ¯ 3 = X3 = 0 Y¯ = y = 132 = 4 X n n 33 P n ¯ 2 ) = P X2 ; P(X3 − X ¯ 3 ) = P X3 ⇒ (X − X 2 P ¯ 2 )(Y − Y¯ ) = P(Y − Y¯ )X2 = P Y X2 − Y¯ P X2 = P Y X2 (X2 − X Análogamente

P ¯ 3 )(Y − Y¯ ) = P Y X3 (X3 − X

Por lo tanto, las submatrices de X 0 X y X 0 Y están en desviaciones con respecto a la media. De esta forma, el modelo en desvíos se expresa mediante las siguientes matrices: µ ¶ µ ¶ 40 20 24 0 0 XX= y XY = 20 60 92

Continuación Respuesta Ejercicio Práctico: µ ¶ µ ¶ 60 −20 0,03 −0,01 1 (X 0 X)−1 = 2400−400 = −20 40 −0,01 0,02 µ ∴ βˆ = (X 0 X)−1 X 0 Y =

0,03 −0,01 −0,01 0,02

¶µ

24 92



µ =

−0,2 1,6



el parámetro constante se recupera de la siguiente forma: ¯ 2 − βˆ3 X ¯ 3 = Y¯ = 4 βˆ1 = Y¯ − βˆ2 X ∴ βˆ1 = 4 βˆ2 = −0,2 βˆ3 = 1,6 La recta de regresión queda: Yˆ = 4 − 0,2X2 + 1,6X3 (12 puntos) (iii) H0 : β2 + β3 = 1 t= √

βˆ2 +βˆ3 −1

V ar(βˆ2 )+V ar(βˆ3 )+2Cov(βˆ2 ,βˆ3 ) P 2 ^b u ˆ V ar(β) =σ eu2 (X 0 X)−1 = n−k

∼ t33−3=30

ˆ 0 (Y − X β) ˆ = Y 0 Y − 2βˆ0 X 0 Y + βˆ0 X 0 X βˆ u ˆ = Y − X βˆ ⇒ (Y − X β)   132 ¡ ¢ P Como Y 0 Y = y 2 = 678 βˆ0 X 0 Y = 4 −0,2 1,6  24  = 670,4 92    33 0 0 4 ¡ ¢ y además βˆ0 X 0 X βˆ = 4 −0,2 1,6  0 40 20   −0,2  = 670,4 0 20 60 1,6 ⇒u ˆ0 u ˆ = 678 − 2 ∗ 670,4 + 670,4 = 7,6 ⇒ σ ˜u2 = 7,6 30 ≈ 0,25 µ ¶ µ ¶ 0,03 −0,01 0,0076 −0,0025 ˜ ˆ ∴ V ar( β) = 0,25 = −0,01 0,02 −0,0025 0,0051 t=

−0,2+1,6−1 √ 0,0076+0,0051−2∗0,0025

=

√ 0,4 0,0076

Al 5 % de significancia: t 0,05 ,30 = t1− 0,05 ,30 = t0,975,30 = 2,042 2

2

∴ como tc = 4,59 > 2,042 = ttabla ⇒ se rechazaH0 : β2 + β3 = 1 (12 puntos)

Continuación Respuesta Ejercicio Práctico: (iv) Yˆf = Xf βˆ = 4 − 0,2 ∗ (−4) + 1,6 + (2) = 8 Intervalo de confianza: q q ˜ 0 ) < Yf < Yˆf + t0,975,30 V ar(e ˜ 0 )) = 0,95 P r(Yˆf − t0,975,30 V ar(e  ¡ 2

˜ 0) = σ V ar(e ˜u2 + σ ˜u

1 −4 2

¢

1 33

 0 0

  0 0 1 0,03 −0,01   −4  −0,01 0,02 2

q ˜ 0 ) = 0,66 = 0,25 + 0,25 ∗ 0,75 = 0,44 ⇒ V ar(e P r(6,65 < Yf < 9,35) = 0,95 (12 puntos)

Econometría I Profesora: Javiera Vásquez. Verano 2005 Pauta Solemne Comente 1: (10 puntos) En un modelo de regresión lineal simple (Yi = β1 + β2 Xi + ui ), si la variable independiente no varía, el estimador MCO βˆ2 será igual al valor poblacional del parámetro (β2 ). El estimador de β2 es un modelo de regresión simple es: βˆ =

P

(Xi −X)(Yi −Y ) P , (Xi −X)2

si X (variable

independiente) no varía entonces cada observación Xi es igual a X, y por lo tanto, el estimador MCO no esta definido. Recuerde que el estimador MCO requiere que las X 0 s varíen (Supuesto 8). De esta forma, el comente es falso. Comente 2: (10 puntos) El estimador MCO es el Mejor Estimador Lineal Insesgado, bajo el supuesto de normalidad del término de error. El Teorema de Gauss-Markov demuestre que MCO es el Mejor Estimador Lineal Insesgado (MELI), bajo los supuestos de independencia e idéntica distribución del término de error, independiente de cual sea esa distribución. De esta forma, el comente es falso ya que para que MCO cumpla con la propiedad MELI se requiere solamente errores i.i.d. Comente 3: (10 puntos) El análisis de regresión estudia el grado de asociación lineal entre dos variable aleatorias. Falso, el análisis de regresión si bien hace un estudio de dependencia entre dos variables, este se hace entre una variable aleatoria (variable dependiente) y una variable fija (variable independiente) y además no se ve el grado de asociación lineal entre ellas, sino se trata de predecir el valor esperado de la variable dependiente condicional a la variable independiente. Lo que se menciona en el comente es el análisis de correlación, algo completamente diferente al análisis de regresión. Comente 4: (10 puntos) Si en el límite la varianza de un estimador tiende a cero a medida que el tamaño de la muestra crece, entonces dicho estimador es consistente. Si un estimador βˆ converge en media cuadrática a su valor poblacional β, este estimador es consistente. Para que converger en media cuadrática, se tiene que cumplir que en el limite el error cuadrático medio es cero, es decir, l´ımn→∞ E[βˆ − β]2 = 0. Sólo si el estimador es insesgado convergencia en media cuadrática es equivalente a decir que en el límite la varianza tienda a cero. Entonces el comente es Falso, esto se cumple SOLO si el estimador es insesgado.

1

Pregunta 1: (15 puntos) Encuentre la expresión para la suma total al cuadrado cuando el modelo de regresión no incluye un término constante. Respuesta Pregunta 1: Recordemos que la variable y puede ser expresada en función de su valor estimado y del error estimado: y = yˆ + u ˆ

(1)

Si premultiplicamos la expresión anterior por y 0 , tenemos (ojo, NO hemos expresado el modelo en desvíos): y 0 y = y 0 yˆ + y 0 u ˆ

(2)

Reemplazando (1) en (2), y utilizando la condición de ortogonalidad entre las X y u ˆ: y 0 y = (ˆ y+u ˆ)0 yˆ + (ˆ y+u ˆ)0 u ˆ 0 0 0 y y = yˆ yˆ + u ˆ yˆ + yˆ u ˆ +ˆ u0 u ˆ |{z} |{z}

(3) (4)

0

0 N X

Yi2 =

i=1

0

N X

Yˆi2 +

i=1

N X

u ˆ2i

(5)

i=1

La suma total de los cuadrados (ST), la suma total explicada (SE) y la suma total de los residuos (SR), se definen de la siguiente forma: ST

=

N X

2

(Yi − Y ) =

i=1

SE

=

N X

=

N X

Yi2

2

− NY ⇒

i=1

(Yˆi − Yˆ )2 =

i=1

SR

N X

N X

N X

Yi2 = ST + N Y

2

(6)

i=1 2

Yˆi − N Yˆ ⇒

i=1

N X

Yˆi2 = SE + N Yˆ

2

(7)

i=1

u ˆ2i

(8)

i=1

Utilizando (6), (7) y (8) en (5): 2

2 ST + N Y = SE + N Yˆ + SR ¶ µ 2 2 ⇒ ST = SE + SR + N Yˆ − Y

Esta expresión difiere de la vista en clases por el último término, pero si el modelo incluyese constante se garantiza que el promedio observado de la variable dependiente es igual al promedio estimado para esta variable, con lo cual el último término es igual a cero, y se tiene la expresión típica de descomposición de varianza.

2

2

Pregunta 2: (15 puntos) Demuestre que el R2 siempre es mayor o igual que el R . Respuesta Pregunta 2:

u ˆ0 u ˆ Y 0M Y

(9)

u ˆ0 u ˆ/(n − k) Y 0 M Y /(n − 1)

(10)

R2 = 1 −

¯2 = 1 − R

Lo que se puede expresar alternativamente como: u ˆ0 u ˆ Y 0M Y ˆ0 u ˆ/(n − k) ¯2) = u (1 − R 0 Y M Y /(n − 1) (1 − R2 ) =

(11) (12)

Si k=1, de la expresión (12) tenemos que: ¯2) = (1 − R ⇒ R2

=

Por otro lado, si k>1 tenemos que

u ˆ0 u ˆ/(n − 1) u ˆ0 u ˆ = = (1 − R2 ) 0 0 Y M Y /(n − 1) Y MY ¯2 R (n−1) (n−k)

¯2) = (1 − R

> 1:

(n − 1) u ˆ0 u ˆ/(n − k) u ˆ0 u ˆ · = 0 0 Y M Y /(n − 1) |Y {z M Y} (n − k) | {z } (1−R2 )

¯ 2 ) = (1 − R2 ) · (> 1) ⇒ (1 − R ¯ 2 ) > (1 − R2 ) ⇒ (1 − R ¯ 2 < R2 ⇒R

3

>1

Pregunta 3: (40 puntos) Considere el siguiente modelo de regresión lineal con 3 variables: yi = β1 + β2 x2,i + β3 x3,i + ui se dispone de la siguiente información:     33 0 0 132 0 0 X X =  0 40 20  X Y =  24  0 20 60 92

n X

yi2

= 678

i=1

n X

(yi − Y )2 = 150

i=1

(i) (5 puntos) ¿Cual es el tamaño de la muestra?. (ii) (15 puntos) Calcular la ecuación de regresión. (iii) (10 puntos) Vea si los parámetros son estadísticamente significativos. (iv) (10 puntos) Contraste la hipótesis de que las dos pendientes suman uno. Respuesta Pregunta 3: 

Pn (i) Como X 0 X =  P x2 x3

P P x22 P x2 x2 x3

 P P x3  3 Px2 x x23



y

 P y P X 0 Y =  P yx2  yx3

∴ el tamaño de la muestra es 33. (5 puntos)

(ii) Podemos expresar el modelo en desvios con respecto a la media, para estos efectos calculamos las medias de las variables: P P P X2 X3 y 132 X2 = = 0 X3 = =0 Y = = =4 n n n 33 X X X X ⇒ (X2 − X 2 ) = X2 ; (X3 − X 3 ) = X3 X X X X X (Y − Y )X2 = Y X2 − Y X2 = Y X2 (X2 − X 2 )(Y − Y ) =

Análogamente

P

¯ 3 )(Y − Y¯ ) = (X3 − X

P

Y X3

Por lo tanto, las submatrices de X 0 X y X 0 Y están en desviaciones con respecto a la media. De esta forma, el modelo en desvíos se expresa mediante las siguientes matrices: µ ¶ µ ¶ 40 20 24 X 0X = y X 0Y = 20 60 92

4

Continuación Respuesta Pregunta 3: µ ¶ µ ¶ 1 60 −20 0,03 −0,01 (X 0 X)−1 = = −20 40 −0,01 0,02 2400 − 400 µ ∴ βˆ = (X 0 X)−1 X 0 Y =

0,03 −0,01

¶µ

−0,01 0,02

24 92



µ =

−0,2 1,6



El parámetro constante se recupera de la siguiente forma: ¯ 2 − βˆ3 X ¯ 3 = Y¯ = 4 βˆ1 = Y¯ − βˆ2 X ∴ βˆ1 = 4

βˆ2 = −0,2

βˆ3 = 1,6

La recta de regresión queda: Yˆ = 4 − 0,2X2 + 1,6X3 (15 puntos) (iii) ^b V ar(β) =σ eu2 (X 0 X)−1 =

P

u ˆ2 n−k

ˆ 0 (Y − X β) ˆ = Y 0 Y − 2βˆ0 X 0 Y + βˆ0 X 0 X βˆ u ˆ = Y − X βˆ ⇒ (Y − X β) Como

 Y 0Y =

X

βˆ0 X 0 Y =

y 2 = 678

¡

4

−0,2 1,6

¢

 132  24  = 670,4 92

y además  βˆ0 X 0 X βˆ =

¡

4

−0,2

1,6

¢

33  0 0

0 40 20

  0 4 20   −0,2  = 670,4 60 1,6

⇒u ˆ0 u ˆ = 678 − 2 ∗ 670,4 + 670,4 = 7,6 ⇒ σ ˜u2 = 

33 0 ˆ = 0,25  0 40 ∴ V^ ar(β) 0 20

7,6 ≈ 0,25 30

−1  0 0,0076767677 0 20  =  0 0,0076 60 0 −0,00253333

Test de significancia de βˆ1 :

tc = √

4 = 45,653155 ∼ t30 0,0076767677 5

 0 −0,00253333  0,0050666667

si compramos el valor calculado para nuestro estadístico (tc ) con el tt de tabla a un 5 % de significancia y con 30 grados de libertad, que es 2.042. La conclusión es que se rechaza la H0 : βˆ1 = 0, y el parámetro de constante resulta ser estadísticamente significativo. Test de significancia de βˆ2 :

−0,2 = −2,2941573 ∼ t30 tc = √ 0,0076 Si lo comparamos con el valor de tabla de la distribución t (-2.042), el estadístico calculado es menor al de tabla (o mayor en valor absoluto), de esta forma se rechaza la hipótesis nula de que βˆ2 es igual a cero, y el parámetro resulta ser estadísticamente significativo. Test de significancia de βˆ3 :

tc = √

1,6 = 22,478059 ∼ t30 0,0050666667

Si lo comparamos con el valor de tabla de la distribución t (2.042), el estadístico calculado es mayor al de tabla, de esta forma, se rechaza la hipótesis nula de que βˆ3 es igual a cero, y el parámetro resulta ser estadísticamente significativo. (10 puntos).

(iv) H0 : β2 + β3 = 1 βˆ2 + βˆ3 − 1

t= q

V ar(βˆ2 ) + V ar(βˆ3 ) + 2Cov(βˆ2 , βˆ3 )

t= √

∼ t30

−0,2 + 1,6 − 1 0,4 =√ 0,0076 + 0,0051 − 2 ∗ 0,0025 0,0076

Al 5 % de significancia: t0,975,30 = 2,042



∴ tc = 4,59 > 2,042 = ttabla se rechaza H0 : β2 + β3 = 1

(10 puntos)

6

7

8

Econometría I Profesora: Andrés Otero Javiera Vásquez. Otoño 2005 Pauta Solemne

Parte I: Comentes (30 puntos) (Contestar sólo en las líneas disponible) Pregunta 1: (5 puntos) Si el coeficiente de correlación en valor absoluto esta entre 0 y 1, el parámetro de pendiente en un modelo de regresión lineal simple también lo estará. Comente. Respuesta: El coeficiente de correlación y el coeficiente de regresión son conceptualmente distintos, el primero mide la asociación lineal entre dos variables y el segundo la influencia de una variable independiente X sobre el valor promedio de Y. Además, se puede demostrar algebraicamente que: pP y2 b β = ρxy pP i2 |{z} xi [0,1]

Por lo tanto, aunque el coeficiente de correlación este entre 0 y 1, βb va a depender de la escala de las variables del modelo. Pregunta 2: (5 puntos) El teorema de Gauss Markov dice que el estimador Mínimos Cuadrados Ordinarios es el estimador con menor error cuadrático medio entre todos los estimadores lineales e insesgados. Comente. ˆ = V AR(β) ˆ + sesgo2 . Por lo tanto, aplicando la propiedad Respuesta: Verdadero, ECM (β) de insesgamiento de MCO tendremos que el ECM es igual a la varianza del estimador. De esta forma el teorema de Gauss Markov nos dice que el estimador MCO es el estimador más eficiente (menor varianza y por ende menor ECM) entre todos los estimadores lineales e INSESGADOS. Pregunta 3: (5 puntos) Si el p-value asociado a cierta hipótesis nula es 0, no puedo rechazar la hipótesis nula. Respuesta: Falso, el p-value mide el nivel de significancia asociado al t-calculado de cierta hipótesis nula. Si este toma el valor de 0, significa que rechazo la hipótesis nula a un 0 % de significancia (cometiendo 0 % de error de tipo I). Pregunta 4: (5 puntos) El estimador de Máxima Verosimilitud es equivalente al estimador de Mínimos cuadrados Ordinarios. Comente. Respuesta: Falso, sólo bajo el supuesto de normalidad en el término de error, el estimador MCO y MV de βb coincidirán. Sin embargo, el estimador de la varianza del error no coincide ya que el estimador de MV de σ 2 es sesgado. P 2 P 2 µ ˆ µ ˆ 2 2 6= σ ˆM V = σ ˆM CO = n−k n 1

Pregunta 5: (5 puntos) En un modelo de regresión lineal que busca explicar el salario promedio utilizando como variable explicativa la educación, se obtiene la siguiente estimación muestral: \ Salario=40000+15000*Educación. Interprete. Respuesta: Este modelo estima un impacto marginal de la educación sobre el salario de 15000, es decir, un año adicional de educación generá un icremento de 15000 en el salario promedio. Además, se estima que una persona sin educación obtiene un salario promedio de 40000. Pregunta 6: (5 puntos) En un modelo de regresión lineal: Yi = β0 + β1 X1 + β2 X2 + u, se determina el siguiente intervalo de confianza para β2 , P r[−1,3956 < β2 < 2,8974] = 95 %, que puede concluir sobre la significancia del parámetro βˆ2 y sobre la hipótesis nula de que β2 es igual a 3.5. Respuesta: La significancia de un parámetro o el testeo de una hipótesis en particular se puede realizar utilizando un intervalo de confianza. Testeando la hipótesis nula de significancia H0 : βˆ2 = 0, podemos ver que 0 cae en la zona de no rechazo, con lo cual se puede concluir que el parámetro es significativo. Para H0 : βˆ2 = 3,5, podemos ver que 3.5 cae fuera de la zona de confianza determinada por el intervalo de confianza, por lo tanto se rechaza que βˆ2 = 3,5.

2

Parte II: Ejercicios Cortos (30 puntos) (Contestar sólo en el espacio disponible)

De los siguientes dos ejercicios escoja solo UNO de ellos. (15 puntos) Ejercicio 1: Suponga que para estimar el modelo Yt = α + βXt + ut se dispone de las siguientes observaciones: t= Xt

1 1

2 2

3 3

4 4

5 5

6 6

y se propone utilizar el estimador βe = 18 (Y6 + Y5 − Y2 − Y1 ). Determine si el estimador es insesgado, calcule su varianza muestral y compárela con la del estimador MCO. Respuesta: Reemplazando Y6 , Y5 , Y2 e Y1 por su expresión poblacional tenemos que: 1 βe = [α + βX6 + u6 + α + βX5 + u5 − α − βX2 − u2 − α − βX1 − u1 ] 8 Luego reemplazando X6 , X5 , X2 y X1 por sus valores observados, tenemos lo siguiente: 1 [α + 6 · β + u6 + α + 5 · β + u5 − α − 2 · β − u2 − α − 1 · β − u1 ] 8 1 βe = [8 · β + u6 + u5 − u2 − u1 ] 8 [u6 + u5 − u2 − u1 ] βe = β + 8 βe =

(1) (2)

Si los errores cumplen con los supuestos tradicionales de tener media 0, varianza σ 2 y ser independientes entre ellos, se puede demostrar al tomar valor esperado a la expresión (2) que βe es insesgado. (5 puntos). Ahora la varianza de βe se obtiene de la siguiente forma: e = V [β]

e 2 = E[βe − β]2 E[βe − E(β)]

(3)

Reemplazando (2) en (3): ·

e = V [β] e = V [β] e = V [β] e = V [β] e = V [β]

¸2 [u6 + u5 − u2 − u1 ] 8 2 E[u6 ] + E[u5 ]2 + E[u2 ]2 + E[u1 ]2 64 σ2 + σ2 + σ2 + σ2 64 4σ 2 64 σ2 16

E

3

dado supuesto

de independencia

(5 puntos) ˆ de este modelo es conocida e igual a: Por otra parte, la varianza del estimador MCO (β) σ2

ˆ = σ 2 (X 0 X)−1 = P V [β] 6

− X)2

i=1 (Xi

P6 P6 P6 2 Tenemos que X = 21 = 3,5, además i=1 (Xi − X)2 = i=1 Xi2 − 6 · X , donde i=1 Xi2 = 91. P6 6 De esta forma, i=1 (Xi − X)2 =91 − 6 · 12,25 = 17,5 Por lo tanto: 2 ˆ = σ V [β] 17,5

e El estimador MCO tiene menor varianza que el estimado β. (5 puntos) Ejercicio 2: Demuestre que en un modelo de regresión simple: Y = β1 + β2 Xi + ui , la raíz √ cuadrada del R2 ( R2 ), es igual al coeficiente de correlación entre X e Y . Respuesta: El R2 se define como: R2 =

βˆ20 X20 M0 X2 βˆ2 Y 0 M0 Y

En un modelo de regresión simple como el que se plantea, donde solo hay una variable explicativa más el término constante, el R2 se puede reescribir de la siguiente forma: Pn (Xi − X)2 βˆ2 R2 = 2Pni=1 2 i=1 (Yi − Y ) Aplicando raíz cuadrada a la expresión anterior: qP n 2 √ i=1 (Xi − X) R2 = βˆ2 qP n 2 i=1 (Yi − Y )

(4)

El estimador MCO de β2 en este modelo de regresión simple se define como: Pn (Yi − Y )(Xi − X) βˆ2 = i=1 Pn 2 i=1 (Xi − X)

(5)

Reemplazando (5) en (6) y reduciendo términos: √

Pn R2



=

i=1 (Yi − Y )(Xi − Pn 2 i=1 (Xi − X)

X)

Pn

R2

n i=1 (Xi

− X)2

i=1 (Yi

− Y )2

· qP n

− Y )(Xi − X) qP = ρˆxy n 2· 2 (X − X) (Y − Y ) i i i=1 i=1

= qP n

i=1 (Yi

qP

(15 puntos) 4

(6)

De los siguientes dos ejercicios escoja solo UNO de ellos. (15 puntos) Ejercicio 3: Con la información disponible de Homecenter entre los años 1994 y 2004 sobre Número de Tiendas (N ) y tamaño de la tienda (T AM ), se quiere estimar el valor promedio del ingreso total en millones de dólares (IN GT ). Se estima el siguiente modelo de regresión lineal: IN GT = β0 + β1 N + β2 T AM + u A continuación se presenta la estimación realizada en Eviews: Dependent Variable: INGT Method: Least Squares Date: 04/15/05 Time: 15:59 Sample: 1994 2004 Included observations: 11 INGT=C(1)+C(2)*N+C(3)*TAM

C(1) C(2) C(3) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood

Coefficient

Std. Error

t-Statistic

Prob.

8085.608 51.42006 -125.7441

3035.113 3.656119 39.65131

2.664022

0.0286

-3.171246

0.0132

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat

276.5529 611852.2 -75.70325

4196.545 3933.725 14.30968 14.41820 0.812131

donde: - S.D dependent var (sy ) es la desviación estándar de la variable dependiente, la que se construye de la siguiente forma: s PN 2 i=1 (yi − y) sy = N −1 qP 2 u - S.E. of regression es el error estándar de la regresión (σ = N −ki ). - Sum squared resid corresponde a la suma de los errores al cuadrado. Con esta información se le pide a Ud. que interprete el modelo, testee la significancia individual de cada uno de los parámetros y testee la significancia global del modelo.

5

Respuesta:

ttn−k = tt8 (95 %) = 2,306 De la información de la tabla tenemos que c(1) y c(3) caen en la zona de rechazo si testeamos la hipótesis nula que los parámetros son iguales a cero. Por lo tanto, la constante y el tamaño de la empresa son variables significativas para explicar el ingreso total. Probabilidad

No se Rechaza

Se Rechaza (2,5%))

Se Rechaza (2,5%)

t)=2.306

t=-2.306

tc=-3.17

tc=2.66

Para ver la significancia del número de tiendas debemos calcular el test t asociado a esta hipótesis nula. βˆ1 − 0 51,42 tc = q = = 14,06 3,66 Vˆ (βˆ1 ) Con lo cual se rechaza H0 de que βˆ1 = 0, ya que tc > tt = 2,306. Por lo tanto, el parámetro es significativo. Para ver la significancia global del modelo se puede utilizar la siguiente definición del estadístico de Fischer: Fq,n−k =

R2 =

s Sy =

R2 k−1 (1−R2 ) n−k

∼ Fk−1,n−k

ESS RSS u b0 u b0 ⇒ R2 = 1 − =1− P T SS T SS (Yi − Y )2

P X (Yi − Y )2 = 3933,725 ⇒ (Yi − Y )2 = 154741923,76 n−1 s

Sy =

X uˆ0 uˆ0 = 276,5529 ⇒ u ˆ2 = 611852,052 n−k 6

R2 = 1 −

611852,05 = 0,996 154741923,76

Fc =

0,996 2 1−0,996 8

' 996

t F2,8 = 5,32

Por lo tanto, se rechaza la hipótesis de que todas las pendientes del modelo son iguales a cero. El modelo es globalmente significativo. Ejercicio 4: Sea la matriz X 0 X asociado al siguiente modelo de regresión lineal: Y = β0 + β1 X1 + β2 X2 + u 

5 X 0 X =  20 20

20 90 71

 20 71  96



 42 X 0 Y =  186  150

Se le pide que exprese ambas matrices en desvíos con respecto a la media y obtenga el estimador mínimos cuadrados ordinarios de β0 , β1 y β2 . Respuesta: X X 2 (Xi − X i )2 = (Xi )2 − nX X

(Xi − X i )(Xj − X j ) =

X 0 Xdes =

· P (X1 − X 1 )2

X

(Xi Xj ) − nX i X j

¸ P (XP 1 − X 1 )(X2 − X 2 ) (X2 − X 2 )2

Del enunciadoPse pueden extraer los siguientes datos: n = 5; X 1 = P P X12 = 90 y X22 = 96; X2 X3 = 71

20 5

= 4; X 2 =



X

x21 = 90 − 5(4)2 = 10;

X

x22 = 96 − 5(4)2 = 16;

X

x2 x3 = 71 − 5 ∗ 4 ∗ 4 = −9

Donde las variables en minúsculas representan desviaciones con respecto a la media. ⇒ 7

20 5

= 4;

·

10 −9 −9 16

0

X Xdes =

0

X Ydes

Además,

¸

· P ¸ (Y − Y X )(X − ) i i 1 1 = P (Yi − Y i )(X2 − X 2 )

P P (Yi − Y i )(Xi − X i ) = Yi Xi − nY i X i X

yx1 = 18;

X

·

18 −18

X 0 Ydes =

· βb =

1 βb = 79

·

10 −9

16 9 9 10

−9 16

yx2 = −18

¸

¸ · ¸ 18 ∗ −18

¸ · ¸ · ¸ 18 1,5949 ∗ = −18 −0,2278

De esta forma, βˆ1 = 1,5949, βˆ2 = −0,2278 y βˆ0 = Y − βˆ1 X 1 − βˆ2 X 2 = 8,4−1,5949·4+0,2278·4 = 2,93.

8

Parte III: Ejercicio Obligatorio (60 puntos) (Contestar sólo en el espacio disponible) Suponga que esta interesado en estimar el ingreso de una tienda, para lo cual dispone de 90 datos sobre: ingreso total en millones de pesos (ingt), el número de competidores en el mercado (nc), el gasto en publicidad en millones de pesos (gp) y el número de vendedores (nv). Ud. debe estimar el siguiente modelo de regresión lineal: ingt = β0 + β1 ∗ nc + β2 ∗ gp + β3 ∗ nv + u donde las matrices (X 0 X)−1 y X 0 Y vienen  5 −3  −3 6 0 −1 (X X) =   2 −2 0 −4 y además σ ˆu2 = 0,5 y

P90

i=1 (Yi

dadas por:  2 0 −2 −4   4 3  3 4



 3  2   X 0Y =   1  2

− Y )2 = 80

(i) (6 puntos) Interprete el modelo, ¿Que signos esperaría Ud. de para los parámetros de este modelo? Se espera que el nivel de ingresos de esta tienda, dependa negativamente del número de competidores, positivamente del gato en publicidad y positivamente del número de vendedores. De esta forma, podríamos esperar un signo negativo para β1 y positivo para β2 y β3 . (ii) (8 puntos) Encuentre el estimador MCO de los parámetros de este modelo. El estimador MCO del vector de parámetros βˆ = (X 0 X)−1 X 0 Y , utilizando la información disponible:

βˆ =

βˆ =

 ˆ   β0  βˆ1       βˆ2  =  βˆ3   11  −7     12  3

5 −3 2 0

−3 6 −2 −4

2 −2 4 3

  0 3  2 −4  · 3   1 4 2

   

(iii) (8 puntos) Testee la significancia estadística de βˆ0 , βˆ1 , βˆ2 y βˆ3 . Para ver la significancia individual de cada uno de los parámetros del modelo se utiliza el siguiente estadístico t: βˆi

tc = q

V ar(βˆi )

asociado a la hipotesis

9

nula H0 : βˆi = 0

Para realizar los test primero necesitamos computar la matriz de varianzas y de los parámetros:    5 −3 2 0 2,5 −1,5 1  −3 6 −2 −4   3 −1 2 0 −1 ˆ =σ = V ar[β] ˆ (X X) = 0,5 ∗   2 −2 4 3   2 0 −4 3 4

covarianzas  0 −2   1,5  2

Para todas las hipótesis nulas se utiliza el mismo valor de tabla de la distribución tstudent: tt = t86,95 % ≈ 1,99. Test de significancia de βˆ0 : 11 tc = √ = 6,96 2,5 ∴ Se rechaza la hipótesis nula de que βˆ0 sea igual a cero, con lo cual el parámetro resulta ser estadísticamente significativo. Test de significancia de βˆ1 : −7 tc = √ = −4,04 3 ∴ Se rechaza la hipótesis nula de que βˆ1 sea igual a cero, con lo cual el parámetro resulta ser estadísticamente significativo. Test de significancia de βˆ2 : 12 tc = √ = 8,46 2 ∴ Se rechaza la hipótesis nula de que βˆ2 sea igual a cero, con lo cual el parámetro resulta ser estadísticamente significativo. Test de significancia de βˆ3 : 3 tc = √ = 2,12 2 ∴ Se rechaza la hipótesis nula de que βˆ3 sea igual a cero, con lo cual el parámetro resulta ser estadísticamente significativo.

(iv) (8 puntos) ¿Qué factor es más importante en determinar el los ingresos?. Como consultor, ¿que recomendaría? El gasto en publicidad y el número de vendedores tienen un impacto positivo sobre el nivel de ingresos, por el orden de magnitud parece ser más importante el gasto en publicidad, un millón adicional en gasto en publicidad aumenta en 12 millones el ingreso, por otra parte un aumento en 4 vendedores lograría el mismo aumento en los ingresos totales, habría que ver que resulta más rentable aumentar en 1 millón el gasto en publicidad o o contratar 4 trabajadores más. 10

2

(v) (8 puntos) Determine la Bondad de Ajuste del modelo, a través del R2 y R .

R2

= =

u ˆ0 u ˆ 0 Y M0 Y Pn u ˆ2 1 − Pn i=1 i 2 i=1 (Yi − Y )

1−

Pn Pn u ˆ2i De la información que se entrega sabemos que σ ˆ 2 = i=1 = 0,5, por lo tanto i=1 u ˆ2i = 86 2 86 · 0,5 = 43. Además se nos entrega la información de que (Yi − Y ) = 80. Reemplazando:

R2 = 1 −

43 = 0,4625 80

2

Para obtener el R utilizamos la siguiente definición y luego reemplazando los valores correspondientes: Pn u ˆ2 /(n − k) 2 R = 1 − Pn i=1 i 2 i=1 (Yi − Y ) /(n − 1) 43/86 0,5 · 89 2 R = 1− =1− = 0,44375 80/89 80 (vi) (8 puntos) Testee la hipótesis de que todos los coeficientes a excepción de la constante son cero. Bajo esta hipótesis nula el estadístico F calculado se puede escribir de la siguiente forma: Fc =

R2 /(k − 1) (1 − R2 )/(n − k)

Reemplazando por lo valores correspondientes: Fc =

0,4625/3 0,154 = = 24.6 0,5375/86 0,00625

El valor de tabla del estadístico F a un 5 % de significancia y con 3 grados de libertad en el numerador y 86 en el denominador es aproximadamente 2.7, con lo cual se rechaza la hipótesis nula de que todos los parámetros del modelo a excepción del de la constante sean igual a cero, es decir, el modelo es globalmente significativo. (vii) (8 puntos) Construya un intervalo de confianza para β1 , β2 , β3 y σ 2 . Los intervalos de confianza para los parámetros β1 , β2 y β3 se construyen de la siguiente forma: ¸ · q q ˆ ˆ ˆ ˆ P r βi − t0,975,86 · V ar(βi ) < βi < βi + t0,975,86 · V ar(βi ) = 95 % Intervalo de Confianza de β1 : h √ √ i P r −7 − 1,99 · 3 < β1 < −7 + 1,99 · 3 = 95 % P r [−10,45 < β1 < −3,55] = 95 % 11

Intervalo de Confianza de β2 : h √ √ i P r 12 − 1,99 · 2 < β2 < 12 + 1,99 · 2 = 95 % P r [9,19 < β2 < 14,81] = 95 % Intervalo de Confianza de β3 : h √ √ i P r 3 − 1,99 · 2 < β3 < 3 + 1,99 · 2 = 95 % P r [0,19 < β3 < 5,81] = 95 % Por otra parte, el intervalo de confianza para σ 2 se obtiene de la siguiente forma: # " 2 (n − k)e σ (n − k)e σ2 < σ2 < = 95 % Pr χ20,95,86 χ20,05,86 El valor de tabla de χ20,95,86 ≈ 65 (para la corrección se utilizó 43.8) y el de χ20,05,86 ≈ 107 (para la corrección se utilizó 18.5). POr lo tanto, · ¸ 86 · 0,5 86 · 0,5 2 Pr 1, 96 ⇒ signif icativo 0, 074

tβˆ =

0, 187 = 37, 4 > 1, 96 ⇒ signif icativo 0, 005

tγˆ = tδˆ =

9, 9 = 7, 5 > 1, 96 ⇒ signif icativo 1, 32

−0, 002 = | − 0, 28| < 1, 96 ⇒ no es signif icativo 0, 007

ii) ¿Qué significa que el p-value del coeficiente asociado a la escolaridad de los padres sea de 0,691? (2 puntos) 1S i

p

=

Si +Sim , 2

donde p=padre y m=madre

4

Respuesta: El p-value representa la probabilidad de que el valor crítico sea mayor que el t calculado, es decir, describe el nivel de signficancia asociado a un estadístico t particular. Por lo tanto, un p-value de 0,05 representa significancia estadística del coeficiente estimado con un nivel de confianza del 95 %. Como en este caso el p-value es ostensiblemente mayor que dicho valor, entonces, se puede concluir que el coeficiente asociado a la escolaridad de los padres, no es estadísticamente significativo al 5 % (ni tampoco al 10 %). iii) ¿Qué significa que el p-value del test F sea de 0? (2 puntos) Respuesta: El test F permite determinar la signifcancia estadística conjunta del modelo (testea que todas los coeficientes asociados a las pendientes son igual a cero). Si el p-value de dicho test es cero (0), entonces, se rechaza la hipótesis nula con un 99 % de confianza, es decir, el modelo es signifcativo en su conjunto. iv) ¿Cuál es la nota esperada para un alumno que dedicaba 10 horas a la semana al estudio de la asignatura, cuyo ingreso familiar per cápita es de $43.000 y que la escolaridad promedio de los padres es de 17 años? (2 puntos) Respuesta: ˆi = 2, 48 + 0, 187 · (10) + 9, 9e(−7) · (43,000) − 0, 002 · (17) = 4, 3 N v) ¿Por qué podría preferir usted fijarse en el R2 ajustado más que en el R2 ? (2 puntos) Respuesta: El R2 presenta muchas deficiencias, dentro de las cuales cabe mencionar que es monotónonico en la incorporación de regresores adicionales. Por el contrario el R2 ajustado penaliza la incorporación de regresores por la pérdida de grados de libertad en que se incurre. Por lo tanto, eventualmente, mientras que el R2 siempre aumenta con la incorporación de una variable independiente adicional, el R2 ajustado podría disminuir. vi) ¿Qué críticas podría usted hacerle a este modelo (mencione dos)? (4 puntos) Respuesta: (1) Es posible que las respuestas de los alumnos estén sesgadas a la hora de responder acerca de cuántas horas dedicó en promedio a la semana a estudiar la asignatura. (2) Un determinante significativo de las notas de las personas viene dado por su habilidad, la cual no es observable en este caso, y por ende, no se incorpora en el modelo. (3) La estimación MCO no restringe a que la predicción de la nota se encuentre en el rango uno siete. Por lo tanto, podría darse el caso que para alguna persona en particular, el modelo arroje una nota estimada que no pertenezca al rango admisible. vii) Si el modelo fuera estimado nuevamente pero utilizando como variable dependiente el logaritmo de la nota final del curso (N ∗ = ln(N )), ¿qué representarían los coeficientes estimados? (2 puntos) Respuesta: En este caso, los coeficientes estimados representarían semielasticidades.

5

Ejercicio 3: (15 puntos) Para estimar el modelo yi = βxi +ui se propone el siguiente estimador: Pn xi yi βˆ = σ2 i=1 Pn 2 + i=1 xi β2 i) Pruebe que dicho estimador subestima el verdadero valor del parámetro. (8 puntos) ii) Pruebe que (7 puntos): E[βˆ − β]2 =

σ2 β2

+

σ2 Pn i=1

x2i

Respuesta: i) βˆ = = = ˆ = E[β]

Pn i=1 xi yi Pn σ2 2 i=1 xi β2 + Pn i=1 xi (βxi + ui ) Pn σ2 2 i=1 xi β2 + Pn Pn xi ui β i=1 x2i + σ2 i=1 Pn Pn σ2 2 2 i=1 xi i=1 xi β2 + β2 + Pn β i=1 x2i Pn 2 σ 2 i=1 xi β2 +

Por lo tanto, el sesgo es: ˆ −β E[β]

Pn β i=1 x2i −β Pn σ2 2 i=1 xi β2 +

=

2

ˆ −β E[β]

=

σ2 β2

− σβ Pn + i=1 x2i

ˆ − β > 0 ⇒ E[β] ˆ > β, subestima ya que en valor esperado βˆ es menos Si β0 ⇒ E[β] positivo que β. ii) Primero obtengamos βˆ − β: βˆ − β

=

Pn β i=1 x2i + Pn σ2 2 i=1 xi β2 +

=

− σβ + Pn + i=1 x2i

2

βˆ − β

σ2 β2

6

Pn

xi ui −β Pn 2 i=1 xi

i=1 σ2 β2

+ Pn

xi ui Pn 2 i=1 xi

i=1 σ2 β2

+

Ahora apliquemos elevamos al cuadrado la expresión anterior y aplicamos valor esperado: · ³ 2 ´2 ¸ Pn Pn 2 2 E ( i=1 xi ui ) − 2 · σβ · i=1 xi ui + σβ E[βˆ − β]2 = h i2 Pn σ2 2 i=1 xi β2 + Pn 4 σ 2 i=1 x2i + σβ 2 2 ˆ E[β − β] = h i2 Pn σ2 2 + x 2 i=1 i β ³P ´ 2 n 2 σ x2i + βσ2 i=1 E[βˆ − β]2 = h i2 Pn σ2 2 + x 2 i=1 i β E[βˆ − β]2

=

σ2 β2

+

σ2 Pn i=1

x2i

7

Parte III (30 puntos) (Contestar sólo en el espacio disponible) Suponga que esta interesado en estimar la inversión realizada por una empresa, para lo cual dispone de 90 observaciones mensuales sobre: inversión en millones de pesos (inv), tasa de interés (r), utilidades en millones de pesos (ut) y crecimiento del PIB proyectado para el próximo periodo (pib). Ud. debe estimar el siguiente modelo de regresión lineal: inv = β0 + β1 ∗ r + β2 ∗ ut + β3 ∗ pib + u donde las matrices (X 0 X)−1 y X 0 Y vienen  5 −3  −3 6 (X 0 X)−1 =   2 −2 0 −4 y además σ ˆu2 = 0,5 y

P90

i=1 (Yi

dadas por:  2 0 −2 −4   4 3  3 4

 3  2   X 0Y =   1  2 

− Y )2 = 80

(i) (5 puntos) Encuentre el estimador MCO de los parámetros de este modelo. El estimador MCO del vector de parámetros βˆ = (X 0 X)−1 X 0 Y , utilizando la información disponible:     ˆ   β0 5 −3 2 0 3  βˆ1   −3 6 −2 −4   2  ˆ       β =  ˆ = · 2 −2 4 3   1  β2 0 −4 3 4 2 βˆ3   11  −7   βˆ =   12  3 (ii) (6 puntos) Testee la significancia estadística de βˆ1 , βˆ2 y βˆ3 . Para ver la significancia individual de cada uno de los parámetros del modelo se utiliza el siguiente estadístico t: βˆi

tc = q

V ar(βˆi )

asociado a la hipotesis

nula H0 : βˆi = 0

Para realizar los test primero necesitamos computar la matriz de varianzas y de los parámetros:    5 −3 2 0 2,5 −1,5 1    −3 6 −2 −4 3 −1 ˆ =σ = V ar[β] ˆ 2 (X 0 X)−1 = 0,5 ∗   2 −2 4 3   2 0 −4 3 4

covarianzas  0 −2   1,5  2

Para todas las hipótesis nulas se utiliza el mismo valor de tabla de la distribución tstudent: tt = t86,95 % ≈ 1,99. 8

Test de significancia de βˆ1 : −7 tc = √ = −4,04 3 ∴ Se rechaza la hipótesis nula de que βˆ1 sea igual a cero, con lo cual el parámetro resulta ser estadísticamente significativo. Test de significancia de βˆ2 : 12 tc = √ = 8,46 2 ∴ Se rechaza la hipótesis nula de que βˆ2 sea igual a cero, con lo cual el parámetro resulta ser estadísticamente significativo. Test de significancia de βˆ3 : 3 tc = √ = 2,12 2 ∴ Se rechaza la hipótesis nula de que βˆ3 sea igual a cero, con lo cual el parámetro resulta ser estadísticamente significativo.

(iii) (3 puntos) ¿Qué factor es más importante en determinar el la inversión?. Como consultor, ¿que recomendaría? De la regresión se puede ver que la tasa de interés tiene un efecto negativo sobre la inversión, y que tanto las utilidades como el crecimiento esperado del PIB tienen un efecto positivo. De esta forma, se recomienda que en meses donde las utilidades han aumentado y se espera un mayor crecimiento del PIB, la inversión aumente. 2

(iv) (6 puntos) Determine la Bondad de Ajuste del modelo, a través del R2 y R .

R2

= =

u ˆ0 u ˆ 0 Y M0 Y Pn u ˆ2 1 − Pn i=1 i 2 i=1 (Yi − Y )

1−

Pn Pn u ˆ2i De la información que se entrega sabemos que σ ˆ 2 = i=1 = 0,5, por lo tanto i=1 u ˆ2i = 86 2 86 · 0,5 = 43. Además se nos entrega la información de que (Yi − Y ) = 80. Reemplazando:

R2 = 1 −

43 = 0,4625 80

2

Para obtener el R utilizamos la siguiente definición y luego reemplazando los valores correspondientes: Pn u ˆ2 /(n − k) 2 R = 1 − Pn i=1 i 2 i=1 (Yi − Y ) /(n − 1) 0,5 · 89 43/86 2 =1− = 0,44375 R = 1− 80/89 80 9

(v) (3puntos) Testee la hipótesis de que todos los coeficientes a excepción de la constante son cero. Bajo esta hipótesis nula el estadístico F calculado se puede escribir de la siguiente forma: Fc =

R2 /(k − 1) (1 − R2 )/(n − k)

Reemplazando por lo valores correspondientes: Fc =

0,154 0,4625/3 = = 24.6 0,5375/86 0,00625

El valor de tabla del estadístico F a un 5 % de significancia y con 3 grados de libertad en el numerador y 86 en el denominador es aproximadamente 2.7, con lo cual se rechaza la hipótesis nula de que todos los parámetros del modelo a excepción del de la constante sean igual a cero, es decir, el modelo es globalmente significativo. (vi) (3 puntos) Construya un intervalo de confianza para β2 y σ 2 . El intervalo de confianza para β2 se construyen de la siguiente forma: · ¸ q q ˆ ˆ ˆ ˆ P r βi − t0,975,86 · V ar(βi ) < βi < βi + t0,975,86 · V ar(βi ) = 95 % Intervalo de Confianza de β2 : h √ √ i P r 12 − 1,99 · 2 < β2 < 12 + 1,99 · 2 = 95 % P r [9,19 < β2 < 14,81] = 95 % Por otra parte, el intervalo de confianza para σ 2 se obtiene de la siguiente forma: # " (n − k)e σ2 (n − k)e σ2 2 = 123 se garantiza que el test se hubiera aceptado porque el estadígrafo calculado habría sido mayor al valor crítico de tabla.

Pregunta 3 (30 puntos)

(a) (10 puntos) Explique por qué en la predicción puntual existen dos fuentes de error. En la predicción puntual se pretende predecir un valor en particular de la variable dependiente con el modelo estimado. Entonces, el error de predicción puntual se puede escribir como e˜i = Yi − Yˆi = Xi β + ui − Xi βˆ ˆ + ui , = Xi (β − β) ˆ corresponde al error de estimación de los parámetros y ui cordonde (β − β) responde al error aleatorio. Al querer predecir un valor en particular tendremos 2 fuentes de error; una proveniente de la estimación de los parámetros (es una estimación que siempre contiene algún grado de error) y otra proveniente de la naturaleza estocástica del modelo, donde aunque el modelo sea perfecto siempre habrá un componente aleatorio que genere error.

(b) (10 puntos) Utilizando la matriz de desvíos M 0, derive la expresión matricial para el coeciente R2. Recuerde que para ello debe hacer una descomposición de la varianza total de la variable a explicar entre la parte explicada de la varianza y la parte residual. Primero expresamos el modelo general (asumiento que se usa una constante) en desvíos con respecto a la media, para lo cual premultiplicamos por la matriz M 0

6

y descomponemos la matriz X = [X X ] con X 1

M 0Y

2

1

=i

, es decir, la constante:

M 0 Xβ + M 0 u M 0 X βˆ + M 0 uˆ M 0 X1 β1 + M 0 X2 β2 + M 0 uˆ M 0 iβ1 + M 0 X2 β2 + M 0 uˆ |{z}

= = = =

=0 0

= M X2 β2 + M 0 uˆ = M 0 X2 β2 + uˆ.

M 0Y

Luego premultiplicamos por Y para obtener la expresión de la suma total de los cuadrados (TSS): 0

T SS = Y 0 M 0 Y = Y 0 (M 0 X2 βˆ2 + uˆ) T SS = (X βˆ + uˆ)0 (M 0 X2 βˆ2 + uˆ) uˆ0 uˆ X 0 uˆ + uˆ0 M 0 X2 βˆ2 + |{z} = βˆ0 X 0 M 0 X2 βˆ2 + βˆ0 |{z} | {z } {z } | =0

ESS

=0

RSS

T SS = ESS + RSS,

donde ESS es la parte explicada de la varianza total y RSS es la parte residual (los términos que sea hacen iguales a cero lo hacen porque las variables explicativas son ortogonales a los residuos por construcción del modelo de MCO). Finalmente, para construir el coeciente de R se determina qué parte de la varianza total es explicada por el modelo, es decir, 2

⇒ ⇔

ESS RSS + T SS T SS ESS RSS R2 = =1− . T SS T SS

1=

(c) (10 puntos) Derive una expresión para el

estimador de la varianza de los parámet-

ros estimados por MCO. Explicite los supuestos que utilice.

Sabemos que el estimador de MCO es insesgado (bajo los supuestos del modelo) y es igual a βˆ = (X 0 X)−1 X 0 Y = (X 0 X)−1 X 0 (Xβ + u) = β + (X 0 X)−1 X 0 u).

7

Por lo tanto, la varianza es

ˆ = E[(βˆ − E[β])( ˆ βˆ − E[β]) ˆ 0] = V ar(β) = = = ˆ = V ar(β)

E[((X 0 X)−1 X 0 u)((X 0 X)−1 X 0 u)0 ] E[(X 0 X)−1 X 0 uu0 X(X 0 X)−1 ] (X 0 X)−1 X 0 E[uu0 ]X(X 0 X)−1 (X 0 X)−1 X 0 σu2 IX(X 0 X)−1 σu2 (X 0 X)−1 .

Esto es porque se asume que los errores son homocedásticos y que no existe autocorrelación.

8

F Values for α = 0.10

F Value for α = 0.10

d2

1

2

3

4

d1 5

6

7

8

9

d2

10

12

15

20

d1 24

30

40

60

120

inf

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 inf

39.86 8.53 5.54 4.54 4.06 3.78 3.59 3.46 3.36 3.29 3.23 3.18 3.14 3.10 3.07 3.05 3.03 3.01 2.99 2.97 2.96 2.95 2.94 2.93 2.92 2.91 2.90 2.89 2.89 2.88 2.84 2.79 2.75 2.71

49.5 9.00 5.46 4.32 3.78 3.46 3.26 3.11 3.01 2.92 2.86 2.81 2.76 2.73 2.70 2.67 2.64 2.62 2.61 2.59 2.57 2.56 2.55 2.54 2.53 2.52 2.51 2.50 2.50 2.49 2.44 2.39 2.35 2.30

53.59 9.16 5.39 4.19 3.62 3.29 3.07 2.92 2.81 2.73 2.66 2.61 2.56 2.52 2.49 2.46 2.44 2.42 2.40 2.38 2.36 2.35 2.34 2.33 2.32 2.31 2.30 2.29 2.28 2.28 2.23 2.18 2.13 2.08

55.83 9.24 5.34 4.11 3.52 3.18 2.96 2.81 2.69 2.61 2.54 2.48 2.43 2.39 2.36 2.33 2.31 2.29 2.27 2.25 2.23 2.22 2.21 2.19 2.18 2.17 2.17 2.16 2.15 2.14 2.09 2.04 1.99 1.94

57.24 9.29 5.31 4.05 3.45 3.11 2.88 2.73 2.61 2.52 2.45 2.39 2.35 2.31 2.27 2.24 2.22 2.20 2.18 2.16 2.14 2.13 2.11 2.10 2.09 2.08 2.07 2.06 2.06 2.05 2.00 1.95 1.90 1.85

58.2 9.33 5.28 4.01 3.40 3.05 2.83 2.67 2.55 2.46 2.39 2.33 2.28 2.24 2.21 2.18 2.15 2.13 2.11 2.09 2.08 2.06 2.05 2.04 2.02 2.01 2.00 2.00 1.99 1.98 1.93 1.87 1.82 1.77

58.91 9.35 5.27 3.98 3.37 3.01 2.78 2.62 2.51 2.41 2.34 2.28 2.23 2.19 2.16 2.13 2.10 2.08 2.06 2.04 2.02 2.01 1.99 1.98 1.97 1.96 1.95 1.94 1.93 1.93 1.87 1.82 1.77 1.72

59.44 9.37 5.25 3.95 3.34 2.98 2.75 2.59 2.47 2.38 2.3 2.24 2.20 2.15 2.12 2.09 2.06 2.04 2.02 2.00 1.98 1.97 1.95 1.94 1.93 1.92 1.91 1.90 1.89 1.88 1.83 1.77 1.72 1.67

59.86 9.38 5.24 3.94 3.32 2.96 2.72 2.56 2.44 2.35 2.27 2.21 2.16 2.12 2.09 2.06 2.03 2.00 1.98 1.96 1.95 1.93 1.92 1.91 1.89 1.88 1.87 1.87 1.86 1.85 1.79 1.74 1.68 1.63

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 inf

60.19 9.39 5.23 3.92 3.30 2.94 2.70 2.54 2.42 2.32 2.25 2.19 2.40 2.10 2.06 2.03 2.00 1.98 1.96 1.94 1.92 1.90 1.89 1.88 1.87 1.86 1.85 1.84 1.83 1.82 1.76 1.71 1.65 1.60

60.71 9.41 5.22 3.90 3.27 2.90 2.67 2.50 2.38 2.28 2.21 2.15 2.10 2.05 2.02 1.99 1.96 1.93 1.91 1.89 1.87 1.86 1.84 1.83 1.82 1.81 1.80 1.79 1.78 1.77 1.71 1.66 1.60 1.55

61.22 9.42 5.20 3.87 3.24 2.87 2.63 2.46 2.34 2.24 2.17 2.10 2.05 2.01 1.97 1.94 1.91 1.89 1.86 1.84 1.83 1.81 1.80 1.78 1.77 1.76 1.75 1.74 1.73 1.72 1.66 1.60 1.55 1.49

61.74 9.44 5.18 3.84 3.21 2.84 2.59 2.42 2.30 2.20 2.12 2.06 2.01 1.96 1.92 1.89 1.86 1.84 1.81 1.79 1.78 1.76 1.74 1.73 1.72 1.71 1.70 1.69 1.68 1.67 1.61 1.54 1.48 1.42

62 9.45 5.18 3.83 3.19 2.82 2.58 2.40 2.28 2.18 2.10 2.04 1.98 1.94 1.90 1.87 1.84 1.81 1.79 1.77 1.75 1.73 1.72 1.70 1.69 1.80 1.67 1.66 1.65 1.64 1.57 1.51 1.45 1.38

62.26 9.46 5.17 3.82 3.17 2.80 2.56 2.38 2.25 2.16 2.08 2.01 1.96 1.91 1.87 1.84 1.81 1.78 1.76 1.74 1.72 1.70 1.69 1.67 1.66 1.65 1.64 1.63 1.62 1.61 1.54 1.48 1.41 1.34

62.53 9.47 5.16 3.80 3.16 2.78 2.54 2.36 2.23 2.13 2.05 1.99 1.93 1.89 1.85 1.81 1.78 1.75 1.73 1.71 1.69 1.67 1.66 1.64 1.63 1.61 1.60 1.59 1.58 1.57 1.51 1.44 1.37 1.30

62.79 9.47 5.15 3.79 3.14 2.76 2.51 2.34 2.21 2.11 2.03 1.96 1.90 1.86 1.82 1.78 1.75 1.72 1.70 1.68 1.66 1.64 1.62 1.61 1.59 1.58 1.57 1.56 1.55 1.54 1.47 1.40 1.32 1.24

63.06 9.48 5.14 3.78 3.12 2.74 2.49 2.32 2.18 2.08 2.00 1.93 1.88 1.83 1.79 1.75 1.72 1.69 1.67 1.64 1.62 1.60 1.59 1.57 1.56 1.54 1.53 1.52 1.51 1.50 1.42 1.35 1.26 1.17

63.33 9.49 5.13 3.76 3.10 2.72 2.47 2.29 2.16 2.06 1.97 1.90 1.85 1.80 1.76 1.72 1.69 1.66 1.63 1.61 1.59 1.57 1.55 1.53 1.52 1.50 1.49 1.48 1.47 1.46 1.38 1.29 1.19 1.00

919

920

F Values for α = 0.05

F Values for α = 0.05

d2

1

2

3

4

d1 5

6

7

8

9

d2

10

12

15

20

d1 24

30

40

60

120

inf

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 inf

161.4 18.51 10.13 7.71 6.61 5.99 5.59 5.32 5.12 4.96 4.84 4.75 4.67 4.60 4.54 4.49 4.45 4.41 4.38 4.35 4.32 4.30 4.28 4.26 4.24 4.23 4.21 4.20 4.18 4.17 4.08 4.00 3.92 3.84

199.5 19.00 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.10 3.98 3.89 3.81 3.74 3.68 3.63 3.59 3.55 3.52 3.49 3.47 3.44 3.42 3.40 3.39 3.37 3.35 3.34 3.33 3.32 3.23 3.15 3.07 3.00

215.7 19.16 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71 3.59 3.49 3.41 3.34 3.29 3.24 3.20 3.16 3.13 3.10 3.07 3.05 3.03 3.01 2.99 2.98 2.96 2.95 2.93 2.92 2.84 2.76 2.68 2.60

224.6 19.25 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48 3.36 3.26 3.18 3.11 3.06 3.01 2.96 2.93 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.73 2.71 2.70 2.69 2.61 2.53 2.45 2.37

230.2 19.3 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33 3.20 3.11 3.03 2.96 2.90 2.85 2.81 2.77 2.74 2.71 2.68 2.66 2.64 2.62 2.60 2.59 2.57 2.56 2.55 2.53 2.45 2.37 2.29 2.21

234.0 19.33 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22 3.09 3.00 2.92 2.85 2.79 2.74 2.70 2.66 2.63 2.60 2.57 2.55 2.53 2.51 2.49 2.47 2.46 2.45 2.43 2.42 2.34 2.25 2.17 2.10

236.8 19.35 8.89 6.09 4.88 4.21 3.79 3.50 3.29 3.14 3.01 2.91 2.83 2.76 2.71 2.66 2.61 2.58 2.54 2.51 2.49 2.46 2.44 2.42 2.40 2.39 2.37 2.36 2.35 2.33 2.25 2.17 2.09 2.01

238.9 19.37 8.85 6.04 4.82 4.15 3.73 3.44 3.23 3.07 2.95 2.85 2.77 2.70 2.64 2.59 2.55 2.51 2.48 2.45 2.42 2.40 2.37 2.36 2.34 2.32 2.31 2.29 2.28 2.27 2.18 2.10 2.02 1.94

240.5 19.38 8.81 6.00 4.77 4.10 3.68 3.39 3.18 3.02 2.90 2.80 2.71 2.65 2.59 2.54 2.49 2.46 2.42 2.39 2.37 2.34 2.32 2.30 2.28 2.27 2.25 2.24 2.22 2.21 2.12 2.04 1.96 1.88

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 inf

241.9 19.4 8.79 5.96 4.74 4.06 3.64 3.35 3.14 2.98 2.85 2.75 2.67 2.60 2.54 2.49 2.45 2.41 2.38 2.35 2.32 2.30 2.27 2.25 2.24 2.22 2.20 2.19 2.18 2.16 2.08 1.99 1.91 1.83

243.9 19.41 8.74 5.91 4.68 4.00 3.57 3.28 3.07 2.91 2.79 2.69 2.60 2.53 2.48 2.42 2.38 2.34 2.31 2.28 2.25 2.23 2.20 2.18 2.16 2.15 2.13 2.12 2.10 2.09 2.00 1.92 1.83 1.75

245.9 19.43 8.70 5.86 4.62 3.94 3.51 3.22 3.01 2.85 2.72 2.62 2.53 2.46 2.40 2.35 2.31 2.27 2.23 2.20 2.18 2.15 2.13 2.11 2.09 2.07 2.06 2.04 2.03 2.01 1.92 1.84 1.75 1.67

248.0 19.45 8.66 5.80 4.56 3.87 3.44 3.15 2.94 2.77 2.65 2.54 2.46 2.39 2.33 2.28 2.23 2.19 2.16 2.12 2.10 2.07 2.05 2.03 2.01 1.99 1.97 1.96 1.94 1.93 1.84 1.75 1.66 1.57

249.1 19.45 8.64 5.77 4.53 3.84 3.41 3.12 2.90 2.74 2.61 2.51 2.42 2.35 2.29 2.24 2.19 2.15 2.11 2.08 2.05 2.03 2.01 1.98 1.96 1.95 1.93 1.91 1.90 1.89 1.79 1.70 1.10 1.52

250.1 19.46 8.62 5.75 4.50 3.81 3.38 3.08 2.86 2.70 2.57 2.47 2.38 2.31 2.25 2.19 2.15 2.11 2.07 2.04 2.01 1.98 1.96 1.94 1.92 1.90 1.88 1.87 1.85 1.84 1.74 1.65 1.55 1.46

251.1 19.47 8.59 5.72 4.46 3.77 3.34 3.04 2.83 2.66 2.53 2.43 2.34 2.27 2.20 2.15 2.10 2.06 2.03 1.99 1.96 1.94 1.91 1.89 1.87 1.85 1.84 1.82 1.81 1.79 1.69 1.59 1.50 1.39

252.2 19.48 8.57 5.69 4.43 3.74 3.30 3.01 2.79 2.62 2.49 2.38 2.30 2.22 2.16 2.11 2.06 2.02 1.98 1.95 1.92 1.89 1.86 1.84 1.82 1.80 1.79 1.77 1.75 1.74 1.64 1.53 1.43 1.32

253.3 19.49 8.55 5.66 4.40 3.70 3.27 2.97 2.75 2.58 2.45 2.34 2.25 2.18 2.11 2.06 2.01 1.97 1.93 1.90 1.87 1.84 1.81 1.79 1.77 1.75 1.73 1.71 1.70 1.68 1.58 1.47 1.35 1.22

254.3 19.5 8.53 5.63 4.36 3.67 3.23 2.93 2.71 2.54 2.40 2.30 2.21 2.13 2.07 2.01 1.96 1.92 1.88 1.84 1.81 1.78 1.76 1.73 1.71 1.69 1.67 1.65 1.64 1.62 1.51 1.39 1.25 1.00

921

922

F Values for α = 0.01

F Values for α = 0.01

d2

1

2

3

4

d1 5

6

7

8

9

d2

10

12

15

20

d1 24

30

40

60

120

inf

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 inf

4052 98.50 34.12 21.20 16.26 13.75 12.25 11.26 10.56 10.04 9.65 9.33 9.07 8.86 8.68 8.53 8.40 8.29 8.18 8.10 8.02 7.95 7.88 7.82 7.77 7.72 7.68 7.64 7.60 7.56 7.31 7.08 6.85 6.63

4999.5 99.00 30.82 18.00 13.27 10.92 9.55 8.65 8.02 7.56 7.21 6.93 6.70 6.51 6.36 6.23 6.11 6.01 5.93 5.85 5.78 5.72 5.66 5.61 5.57 5.53 5.49 5.45 5.42 5.39 5.18 4.98 4.79 4.61

5403 99.17 29.46 16.69 12.06 9.78 8.45 7.59 6.99 6.55 6.22 5.95 5.74 5.56 5.42 5.29 5.18 5.09 5.01 4.94 4.87 4.82 4.76 4.72 4.68 4.64 4.60 4.57 4.54 4.51 4.31 4.13 3.95 3.78

5625 99.25 28.71 15.98 11.39 9.15 7.85 7.01 6.42 5.99 5.67 5.41 5.21 5.04 4.89 4.77 4.67 4.58 4.50 4.43 4.37 4.31 4.26 4.22 4.18 4.14 4.11 4.07 4.04 4.02 3.83 3.65 3.48 3.32

5764 99.30 28.24 15.52 10.97 8.75 7.46 6.63 6.06 5.64 5.32 5.06 4.86 4.69 4.56 4.44 4.34 4.25 4.17 4.10 4.04 3.99 3.94 3.90 3.85 3.82 3.78 3.75 3.73 3.70 3.51 3.34 3.17 3.02

5859 99.33 27.91 15.21 10.67 8.47 7.19 6.37 5.80 5.39 5.07 4.82 4.62 4.46 4.32 4.20 4.10 4.01 3.94 3.87 3.81 3.76 3.71 3.67 3.63 3.59 3.56 3.53 3.50 3.47 3.29 3.12 2.96 2.80

5928 99.36 27.67 14.98 10.46 8.26 6.99 6.18 5.61 5.2 4.89 4.64 4.44 4.28 4.14 4.03 3.93 3.84 3.77 3.70 3.64 3.59 3.54 3.50 3.46 3.42 3.39 3.36 3.33 3.30 3.12 2.95 2.79 2.64

5982 99.37 27.49 14.80 10.29 8.10 6.84 6.03 5.47 5.06 4.74 4.50 4.30 4.14 4.00 3.89 3.79 3.71 3.63 3.56 3.51 3.45 3.41 3.36 3.32 3.29 3.26 3.23 3.20 3.17 2.99 2.82 2.66 2.51

6022 99.39 27.35 14.66 10.16 7.98 6.72 5.91 5.35 4.94 4.63 4.39 4.14 4.03 3.89 3.78 3.68 3.60 3.52 3.46 3.40 3.35 3.30 3.26 3.22 3.18 3.15 3.12 3.09 3.07 2.89 2.72 2.56 2.41

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 inf

6056 99.40 27.23 14.55 10.05 7.87 6.62 5.81 5.26 4.85 4.54 4.30 4.10 3.94 3.80 3.69 3.59 3.51 3.43 3.37 3.31 3.26 3.21 3.17 3.13 3.09 3.06 3.03 3.00 2.98 2.80 2.63 2.47 2.32

6106 99.42 27.05 14.37 9.89 7.72 6.47 5.67 5.11 4.71 4.40 4.16 3.96 3.80 3.67 3.55 3.46 3.37 3.30 3.23 3.17 3.12 3.07 3.03 2.99 2.96 2.93 2.90 2.87 2.84 2.66 2.50 2.34 2.18

6157 99.43 26.87 14.20 9.72 7.56 6.31 5.52 4.96 4.56 4.25 4.01 3.82 3.66 3.52 3.41 3.31 3.23 3.15 3.09 3.03 2.98 2.93 2.89 2.85 2.81 2.78 2.75 2.73 2.70 2.52 2.35 2.19 2.04

6209 99.45 26.69 14.02 9.55 7.40 6.16 5.36 4.81 4.41 4.10 3.86 3.66 3.51 3.37 3.26 3.16 3.08 3.00 2.94 2.88 2.83 2.78 2.74 2.70 2.66 2.63 2.60 2.57 2.55 2.37 2.20 2.03 1.88

6235 99.46 26.60 13.93 9.47 7.31 6.07 5.28 4.73 4.33 4.02 3.78 3.59 3.43 3.29 3.18 3.08 3.00 2.92 2.86 2.80 2.75 2.70 2.66 2.62 2.58 2.55 2.52 2.49 2.47 2.29 2.12 1.95 1.79

6261 99.47 26.50 13.84 9.38 7.23 5.99 5.20 4.65 4.25 3.94 3.70 3.51 3.35 3.21 3.10 3.00 2.92 2.84 2.78 2.72 2.67 2.62 2.58 2.54 2.50 2.47 2.44 2.41 2.39 2.20 2.03 1.86 1.70

6287 99.47 26.41 13.75 9.29 7.14 5.91 5.12 4.57 4.17 3.86 3.62 3.43 3.27 3.13 3.02 2.92 2.84 2.76 2.69 2.64 2.58 2.54 2.49 2.45 2.42 2.38 2.35 2.33 2.30 2.11 1.94 1.76 1.59

6313 99.48 26.32 13.65 9.20 7.06 5.82 5.03 4.48 4.08 3.78 3.54 3.34 3.18 3.05 2.93 2.83 2.75 2.67 2.61 2.55 2.50 2.45 2.40 2.36 2.33 2.29 2.26 2.23 2.21 2.02 1.84 1.66 1.47

6339 99.49 26.22 13.56 9.11 6.97 5.74 4.95 4.40 4.00 3.69 3.45 3.25 3.09 2.96 2.84 2.75 2.66 2.58 2.52 2.46 2.40 2.35 2.31 2.27 2.23 2.20 2.17 2.14 2.11 1.92 1.73 1.53 1.32

6366 99.50 26.13 13.46 9.02 6.88 5.65 4.86 4.31 3.91 3.60 3.36 3.17 3.00 2.87 2.75 2.65 2.57 2.49 2.42 2.36 2.31 2.26 2.21 2.17 2.13 2.10 2.06 2.03 2.01 1.80 1.60 1.38 1.00

923

924

Econometría I Profesoras: Claudia Sanhueza Javiera Vásquez. Otoño 2006 Pauta Solemne Comentes: (30 puntos) 1. En un modelo de regresión lineal simple β0 = 3, 0 y β1 = 2, 0, a) la media de Y es 3,0 + 2,0 = 5,0. b) se espera que Y aumente en 2,0 si X aumenta en 1 unidad. c) los supuestos de mínimos cuadrados se cumplen. d ) el valor de β0 no importa. R: La media de Y se describe como β0 + β1 x, luego dependerá del valor de X cual sea la media de Y . Respecto a que se cumplan los supuestos de MCO, es necesario tener mas información, y la afirmación de que el valor de β0 carece de cualquier fundamento. Por ultimo la afirmación verdadera es el hecho de que dado que β1 = 2, 0, es la pendiente en este modelo, representa el cambio marginal de una unidad adicional de X, por lo tanto se espera que Y aumente en dos unidades por cada unidad adicional de X. 2. En el modelo de regresión lineal Y = Xβ + u, el estimador MCO alcanza la cota inferior de Cramer-Rao. R: Falso. Bajo el supuesto de normalidad del término de error, se tiene que el estimador MCO y MV de β son equivalentes, pero no así el estimador de la varianza del error σ 2 . Entonces bajo el supuesto de normalidad tenemos que el estimador MCO de β alcanza la cota inferior de Cramer-Rao, pero no así el estimador de σ 2 . 3. En un modelo de regresión simple Y = α + Xβ + u, si la correlación entre Y y X es positiva, el parámetro estimado de β también será positivo. R: Verdadero. En un modelo de regresión lineal simple es posible escribir el parámetro β de la siguiente forma: p V ar(Y ) Cov(Y, X) β= = ρx,y · p V ar(X) V ar(X) por tanto como el ratio entre las raíces de las varianzas de X e Y es siempre positivo, el signo del parámetro esta directamente determinado por el signo de la correlación. 4. Cuando hay un problema de variable omitida, a) el supuesto que E(ui |Xi ) = 0 es violado. b) el supuesto que (Xi , Yi ) son iid es violado. c) el supuesto que (Xi , ui ) tiene cuarto momento finito es violado. d ) hay perfecta multicolinealidad. 1

R: El problema de variable omitida (se dice solo variable omitida y no variable omitida relevante porque si dicha variable no fuera relevante no sería omitida) implica que el error µ de la regresión del modelo incorrecto esta capturando la información acerca de la variable omitida, por tanto si la variable omitida es correlacionada con alguna de las variables incluidas luego E(ui |Xi ) 6= 0. El resto de las afirmaciones no son implicancias derivadas del problema de variable omitida. 5. Si no hay suficientes variables explicativas en la regresión entonces los parámetros estimados estarán sesgados. R: El hecho de que el numero de regresores afecte el sesgo de un parámetro estimado es falso, sin embargo si se excluyen variables relevantes, y ocurre que ellas están correlacionadas con las incluidas, esto producirá un sesgo, pero una cantidad reducida de variables explicativas, a priori, no tiene implicaríais en el sesgo de un estimador. 6. Es equivalente realizar un Test F de significancia global del modelo y realizar varios test de significancia individual de todos los parámetros. R: Falso, aunque realicemos todos los test de significancia individual para las pendientes del modelo este resultado no va a ser equivalente al test de significancia global, ya que este último considera la correlación entre las variables explicativas. Puede existir un caso extremo que las variables tengan una correlación muy alta y esta varianza conjunta explique el comportamiento de la variable independiente, aunque cada una por separado no es capaz de explicar el comportamiento de Y .

2

Demostraciones (30 puntos) 1. (15 puntos) En un modelo de regresión lineal con dos regresores yi =β0 +β1 X1i +β2 X2i +ui . Demuestre que si los errores son homosedásticos y n es grande entonces la varianza del estimador de βb1 se puede escribir como: σβ2b = 1

1 σu2 1 · · 2 n 1 − ρ2X1 X2 σX 1

donde ρ2X1 X2 es el coeficiente de correlación poblacional entre los regresores X1 y X2 , y 2 σX es la varianza poblacional de X1 1 Respuesta: Primero expresamos el modelo en desviaciones con respecto a la media: ¯ 1 ) + βˆ2 (X2i − X ¯ 2 ) + (ˆ ˆ¯) Yi − Y¯ = βˆ1 (X1i − X ui − u ˆ¯ = 0 entonces queda: Como u e1i + βˆ2 X e2i + u Yei = βˆ1 X ˆi Donde e representa que la variable esta en desviaciones con respecto a su media. La e y la X e 0X e quedan: matriz X 

e11 X  e =  .. X . e X1n

 e21 " P X e2 ..  , X 0 e = P X1i eX .  e2i X e1i X e2n X

P e e # X X P 1ie 2 2i X2i

e y la multiplicamos por σu2 para obtener la matriz de varianzas y e 0X Ahora invertimos X ˆ covarianzas de β " P e e # P e2 σu2 X X2i − X 2 e 0 e −1 P e e P e1i2 2i σu (X X) = P P e e 2 P e2 2 e X X X − X1i X2i − ( X1i X2i ) 2i 1i 1i De la cual podemos obtener una expresión para la varianza de βˆ1 : P e2 σu2 X 2i V (βˆ1 ) = P P e2 e 2 − (P X e1i X e2i )2 X X 1i 2i Ahora, sabemos que la correlación entre 2 variables esta definida como: ρX1 ,X2

P e e Cov(X1i , X2i ) X1i X2i =p = qP V (X1i )V (X2i ) e2 P X e2 X 1i 2i

Ahora obtenemos ρ2X1 ,X2 y luego lo reemplazamos en la expresión para V (βˆ1 ) ρ2X1 ,X2

P e e 2 ( X 1i X2i ) =P P e2 2 e X1i X 2i 3

P e2 P e2 σu2 X σu2 X 2i 2i ˆ V (β1 ) = P P e2 P e2 = P e2 P e2 e 2 − ρ2 e2 P X X X X (1 − ρ2X1 ,X2 ) X X 1i 2i 1i 2i 1i 2i X1 ,X2 Luego simplificando la expresión, y reemplazando la varianza poblacional de X1 1 σ2 σu2 1 = · · 2u V (βˆ1 ) = P 2 e 2 (1 − ρ2 n 1 − ρX1 ,X2 σX1 X 1i X1 ,X2 )

4

2. (15 puntos) Demuestre que la varianza del error de una predicción individual, en un modelo de regresión lineal simple, se puede expresar de la siguiente forma: · ¸ 1 (X0 − X)2 P V AR(Y0 − Yˆ0 ) = σ 2 1 + + n xi R: Si se desea predecir el valor individual de Y correspondiente a X = X0 , es decir, se quiere obtener: Y0 = β1 + β2 X0 + u0 Se predice de la siguiente forma: Yˆ0 = βˆ1 + βˆ2 X0 El error de predicción Y0 − Yˆ0 es: Y0 − Yˆ0

β1 + β2 X0 + u0 − (βˆ1 + βˆ2 X0 ) = (β1 − βˆ1 ) + (β2 − βˆ2 )X0 + u0 =

(1) (2)

Por consiguiente, E[Y0 − Yˆ0 ] = =

E(β1 − βˆ1 ) + E(β2 − βˆ2 )X0 + E(u0 ) 0

porque βˆ1 y βˆ2 son insesgados, X0 es un número fijo y E(u0 ) es cero pos los supuestos típicos. Elevando (2) al cuadrado y tomando valor esperado se obtiene: V [Y0 − Yˆ0 ] =

V (βˆ1 ) + V (βˆ2 )X02 + 2X0 cov(βˆ1 , βˆ2 ) + V (u0 )

(3)

Además tenemos que: V (βˆ1 ) = V (βˆ2 ) = Cov(βˆ1 , βˆ2 ) =

P 2 X P i2 σ 2 n xi σ2 P 2 x µi 2 ¶ σ X P 2 xi

Reemplazando (4), (5) y (6) en (3): P 2 µ 2 ¶ X σ2 σ P i2 σ 2 + P 2 X02 + 2X0 X P 2 + σ 2 V [Y0 − Yˆ0 ] = n xi xi xi · ¸ 2 (X0 − X) 1 P 2 V [Y0 − Yˆ0 ] = σ 2 1 + + n xi

5

(4) (5) (6)

Ejercicio Matemático (20 puntos) Una muestra de 20 observaciones correspondientes al modelo: Yi = α + βXi + u i = 1, ..., n en el que los errores se distribuyen independiente e idénticamente normal con media cero y varianza constante, ofrece los siguientes datos: X X X Yi = 21,9 (Yi − Y )2 = 86,9 (Xi − X)(Yi − Y ) = 106,4 X X Xi = 186,2 (Xi − X)2 = 215,4 Estimar α y β y calcular los errores estándar, estimar el valor de la media condicional correspondiente a X = 10, y encontrar un intervalo de confianza del 95 % para esta media. Respuesta: Utilizando MCO en desvios, los estimadores de α y β son: P

βˆ = α ˆ

=

(Xi − X)(Yi − Y ) 106,4 = 0,494 = P 2 215,4 (Xi − X) ¯ = 21,9 − 0,494 186,2 = −3,504 Y¯ − βˆX 20 20

qP u ˆ2 Para calcular el error estándar, σu = n−k , necesitamos la suma de los errores al cuadrado. Esta se puede obtener de la siguiente ecuación: X

u ˆ2

X

=

X

=

X

= Para obtener

P

ˆ i )2 (Yi − α ˆ − βX ˆ i Y i + 2α ˆ i) (Yi2 + α ˆ 2 + βˆ2 Xi2 − 2ˆ αYi − 2βX ˆ βX X X X X Xi2 − 2ˆ α Yi − 2βˆ Xi Yi + 2ˆ αβˆ Xi Yi2 + nˆ α2 + βˆ2

u ˆ2 hay que obtener los valores que falta, que son

X

P

Xi Yi ,

X ¯ i − Y¯ ) = = ¯ Y¯ (Xi − X)(Y Xi Yi − nX X X ¯ i − Y¯ ) + nX ¯ Y¯ ⇒ Xi Yi = (Xi − X)(Y = 106,4 + 20 · 9,31 · 1,095 X Xi Yi = 310,289 X

¯ 2 (Xi − X) X ⇒ Xi2 X

Xi2

= =

X X

Xi2 y

P

Yi2 :

(8)

¯2 Xi2 − nX ¯ 2 + nX ¯2 (Xi − X)

=

215,4 + 20 · 9,312

=

1948,922 6

P

(7)

(9)

X

(Yi − Y¯ )2 X ⇒ Yi2

= = =

X X

Yi2 − nY¯ 2 (Yi − Y¯ )2 + nY¯ 2

86,9 + 20 · 1,0952

Reemplazando 8,9 y 10 en 7 queda: X

u ˆ2 = 34,343

qP

u ˆ2 n−k

Por lo tanto, el error estándar σu =

es: rP

σu

σu2 σu

u ˆ2 n−k r 34,343 = 20 − 2 = 1,908 = 1,381 =

El valor de la media condicional para X = 10 es:

Y0 Y0 Y −0

= = =

α ˆ + βˆ · X0 −3,504 + 0,494 · 10 1,436

La desviación estándar del error de predicción: σe2 = σu2 (1 + X0 (X 0 X)−1 X00 ) La que para un modelo con constante y pendiente se resume en:

σe2

σe2 σe

P µ ¶ (X − X0 )2 Pi σu2 1 + ¯ 2 n · (Xi − X) 2500,9 = 1,908(1 + ) 20 · 4308 = 3,017 = 1,737 =

7

(10)

El t de tabla para un test de dos colas con un 95 % de confianza es tt = 2,101, por lo que el intervalo de confianza queda:

Yˆ0 − tt,α/2 · σe ≤ Y 0 1,436 − 2,101 · 1,737 ≤ Y 0 −2,213 ≤ Y 0

8

≤ Yˆ0 + tt,1−α/2 · σe ≤ 1,436 + 2,101 · 1,737 ≤ 5,085

Ejercicio Empírico (40 puntos)

En la Table 5.2 se presentan los resultados de las regresiones de desempeño educacional en la razón profesor-alumno y otras variables de control de características de los estudiantes usando colegios del grado K-8 de los distritos del Estado de California en Estados Unidos. EL modelo general es: yi = c + β1 X1i + β2 X2i + β3 X3i + β4 X4i + ui Donde y es el puntaje promedio de los colegios en el distrito (desempeño educacional), X1i es la razón profesor alumno, X2i es el porcentaje de alumnos que no saben inglés, X3i es el porcentaje de alumnos que tienen derecho a almuerzo subsidiado, X4i es el porcentaje de los ingresos del colegio que proviene del Gobierno, y c es el intercepto. SER es la desviación estándar de 2 la regresión (b σ 2 ), R es el R cuadrado ajustado, y n es el número de observaciones de la regresión. Notar que las columnas indican las variables explicativas que se incluyen en la regresión. No todas ellas contienen todas las variables explicativas y controles.

9

Las desviaciones estándares de los parámetros estimados se encuentra entre paréntesis abajo de los estimadores. Un coeficiente individual es estadísticamente significativo al nivel 5 % (*), nivel 1 % (**) usando un test de dos colas. Usando los resultados de la Tabla 5.2 adjunta conteste las siguientes preguntas: 1. En la regresión de la columna (3), el valor estimado de β1 es -1,00. Qué significa un valor de -1,00 en esta regresión? R: Mientras mas alumnos sean por profesor, existe una incidencia negativa sobre el puntaje estimado, además este efecto es estadísticamente distinto de cero al 1 % de significancia. En otras palabras, si el ratio alumnos/profesores aumenta en una unidad, se espera que el promedio caiga en un punto, según nuestra especificación. 2. Usando los resultados de la columna (3), construya un intervalo de confianza para β1 del 99 %. R: Un intervalo de confianza de 1 − α de significancia, con varianza desconocida y T-k grados de libertad, se define como: P r[βˆ1 − t1− α2 ,T −k δˆ(βˆ1 ) < β1 < βˆ1 + t1− α2 ,T −k δˆ(βˆ1 ) ] = 1 − α

(1)

Remplazando valores1 −1 − 2, 575(0, 27) < β1 < −1 + 2, 575(0, 27)

(2)

−1, 69525 < β1 < −0, 30475

(3)

3. Construya el R2 de la regresión en la columna (3). R: Recordemos que:

Despejando para R2 :

· ¸ T −1 2 2 ¯ R = 1 − (1 − R ) T −k ¸ T − k ¯2 R =1+ (R − 1) T −1

(4)

·

2

Remplazando los datos:

· R2 = 1 +

¸ 420 − 4 (0, 773 − 1) 420 − 1

=⇒ R2 = 0, 7746

(5)

(6) (7)

2

4. El R en la regresión de la columna (3) es muchas mayor que la regresión de la columna (1). Esto significa que puede ser eliminado un potencial sesgo de variable omitida? Explique. 1 Como

el tamaño muestral es lo suficientemente grande, se puede usar una normal estandar para encontrar los valores tipificados (T > 100).

10

¯ 2 , a diferencia del R2 el cual aumenta al incluir más regreR: Es posible, ya que el R sores, corrige por los grados de libertad que se van perdiendo al incluir más regresores. ¯ 2 se define como: Recordemos que R µ 0 ¶ µ ¯µ ¯/(T − k) ¯2 = 1 + (1) R Y 0 M Y /(T − 1) Además posteriormente las variables que fueron omitidas en (1) e incluidas en (3) resultaron ser significativas al 1 %, por lo tanto, es probable que se este eliminado un potencial sesgo de variable relevante omitida. 5. Sea β4 el coeficiente de la variable “porcentaje de ingresos públicos". a) Es β4 estadísticamente significativo en la regresión de la columna (4)? Construya un intervalo de confianza para β4 del 95 % usando la regresión de la columna (4). R: Por enunciado sabemos que es significativo al 1 %. Recordemos la definición de un intervalo de confianza al 1 − α : P r[βˆ4 − t1− α2 ,T −k δˆ(βˆ4 ) < β4 < βˆ4 + t1− α2 ,T −k δˆ(βˆ4 ) ] = 1 − α

(1)

Remplazando valores: −0, 79 − 1, 96(0, 068) < β4 < −0, 79 + 1, 96(0, 068)

(2)

−0, 92328 < β4 < −0, 65672

(3)

b) Es β4 estadísticamente significativo en la columna (5)? Construya un intervalo de confianza para β4 del 95 % usando la regresión de la columna (5). R: Por enunciado sabemos que no es significativo al 5 % ni al o %. Usando la definición de un intervalo de confianza: 0, 048 − 1, 96(0, 059) < β4 < 0, 048 + 1, 96(0, 059)

(4)

−0, 06764 < β4 < 0, 16364

(5)

Notemos que el intervalo de confianza pasa por cero. c) Explica porque las respuestas de a y b son diferentes. R: Por que en (4) se omitió X3 , la cual esta correlacionada con X4 , es decir que β4 en (3) esta siendo sub estimada, ya que cov(X3 , X4 ) 6= 0, la intuición de este razonamiento es que mientras mayor sea la ayuda estatal, mayores serán los subsidios de almuerzos otorgados. Como ejemplo de esto, cuando en el modelo lineal simple, se omite una variable relevante, obtenemos: ¶ µ cov(X1 , X2 ) ˆ β2 (6) E(β1 ) = βi + V (X1 ) Siendo X2 la variable relevante omitida, el signo del sesgo del parámetro dependerá de la cov(X1 , X2 ) y del beta de la variable omitida. 11

6. Se lleva a cabo un test F para testear la hipótesis nula H0 : β2 = β4 = 0 para la especificación de la regresión de la columna (5). El valor calculado del test es 6.88. a) Es H0 rechazada al 1 % de significancia? Explique. R: El valor tipificado es: F = 6, 88, el cual debe ser comparado con el valor critico, que se obtiene de una F(2,415) , ya que se tienen 2 restricciones y 415 grados de libertad con 1 % de significancia. La hipótesis es rechazada, ya que F(2,415) ≈ 4, 6, por lo que nuestro valor tipificado es mucho mayor al valor critico, es decir cae en la zona de rechazo. b) Está el punto β2 = β4 = 0 contenido en el intervalo de confianza del conjunto al 99 % para β2 y β4 ? Explique. R: Usando un intervalo de confianza para β2 y β4 : P r[(βˆ2 +βˆ4 )−t1− α2 ,T −k δˆ(βˆ2 +βˆ4 ) < β2 +β4 < (βˆ2 +βˆ4 )+t1− α2 ,T −k δˆ(βˆ2 +βˆ4 ) ] = 1−α (1) Recordemos que δ(βˆ2 + βˆ4 ) = δ(βˆ2 ) + δ(βˆ4 ) + 2cov(βˆ2 , βˆ4 ), si suponemos que la covarianza es pequeña, entonces (1) es aproximadamente: −0, 082 − 2, 575(0, 036 + 0, 059) < β2 + β4 < −0, 082 + 2, 575(0, 036 + 0, 059) (2) −0, 326625 < β2 + β4 < 0, 162625

(3)

El intervalo de confianza pasa por 0, por lo cual el punto β2 = 0 y β4 = 0 esta contenido en el intervalo. 7. En la regresión representada en la columna (1), está la razón profesor alumno no correlacionada con el error de la regresión? Es esta correlación positiva o negativa? R: Existe una correlación, ya que hay variables relevantes omitidas. Por lo cual se viola el supuesto que E(µi , Xi ) = 0. En otras palabras, en las innovaciones o en el término de error, existen componentes sistemáticos, no ortogonales a las variables incluidas, que explican la variable dependiente. 8. Comparando las columnas (1) y (2), crees que la razón profesor alumno y el porcentaje de aprendices de inglés correlacionado positiva o negativamente? Explique. R: A modo de dar una intuición del problema, usamos el modelo lineal simple, para poder observar como afecta la no inclusión de una variable relevante, en cuyo caso nuestro estimador estará sesgado: ¶ µ cov(X1 , X2 ) ˆ β2 (1) E(β1 ) = βi + V (X1 ) Siendo X2 la variable relevante omitida, el signo del sesgo del parámetro dependerá de la cov(X1 , X2 ) y del beta de la variable omitida. En (1), β1 esta siendo sub estimado comparado con (2). La correlación es positiva ya que β2 < 0 en el modelo (2), por lo cual cov(X1 , X2 ) > 0. 9. Supongamos que el tamaño muestral aumenta al doble, entonces n = 840. Como esperas que cambien los errores estándares de los estimadores MCO? Explique. 12

R: Si T aumenta el doble, contamos con una mayor parte de la población, por lo cual estaremos mas cerca de estimar los verdaderos parámetros poblacionales, además nuestras estimaciones son más precisas, ya que aumenta la variabilidad de las variables independientes, con esto la varianza de los betas será menor. Como la estimación es ahora mas precisas, los errores de MCO son menores.

13

Econometría Facultad de Economía y Negocios Universidad de Chile Pauta Solemne

Semestre: Primavera 2006 Profesores: José Miguel Benavente, Rodrigo Montero Tiempo de duración: 110 minutos No hay preguntas de ningún tipo para los ayudantes

1.

Comente en no más de 10 líneas las siguientes afirmaciones (30 puntos)

1. El supuesto de normalidad es clave para que el estimador de mínimos cuadrados ordinarios sea MELI. Respuesta. Falso. El estimador de mínimos cuadrados ordinarios es el mejor estimador lineal e insesgado. Dentro de los supuestos necesarios para que eso se cumpla están: (i) el modelo es lineal (Y = Xβ + µ), (ii) la matriz X es de rango completo, (iii) los errores (disturbios) son esféricos, es decir, tienen media cero, y covarianza nula, y (iv) los regresores son no estocásticos. El supuesto de normalidad sólo es necesario para realizar inferencia estadística, puesto que de esa manera se obtiene una distribución conocida para el vector de parámetros estimados. 2. Mientras mayor sea la variabilidad de los datos más ineficientes serán las estimaciones de MCO. Respuesta. Considere la varianza del estimador β en el contexto del modelo de dos variables: 2 ˆ = Pσ var(β) x2 El denominador de la expresión representa la variablidad de los x’s, es decir, a la variabilidad de los datos. De esta manera, mientras mayor sea ésta, menor será la varianza del estimador MCO, y por lo tanto, más precisas (eficientes) serán las estimaciones. El comente es falso.

1

3. Si una variable es económicamente significativa, entonces, no debiera ocurrir que estadísticamente no lo fuera. Respuesta. Falso. En términos económicos, la signficancia de la variable viene determinada por el modelo teórico subyacente. Sin embargo, a nivel estadístico la significancia estará determinada en parte por la naturaleza y características de los datos. En particular, la variable podría ser estadísticamente no significativa debido a una alta colinealidad en los datos (covarianza). Esto ocurre pues mientras mayor sea ésta, mayor será también la varianza del estimador, y por lo tanto, más probabilidades hay que el cero esté contenido en el intervalo de confianza asociado. 4. El análisis econométrico permite descartar teorías, y de esa manera, progresar en el entendimiento de la economía. Respuesta. En parte esto es correcto. En la medida que el análisis econométrico sea el apropiado, y que los datos no estén muy contaminados, entonces, es posible validar teorías a partir de éste. Sin embargo, las conclusiones de todo análisis econométrico deben ponderarse adecuadamente en función de las limitaciones que éste ofrece. Ahora bien, si existe abundante evidencia empírica que apoya cierta afirmación teórica, entonces, habría fundamento para poder establecer que el modelo explica relativamente bien la realidad. 5. La singularidad de la matriz (X 0 X) no afecta la precisión de las estimaciones. Respuesta. La precisión de las estimaciones vienen dadas por su varianza, es decir: ˆ = σ 2 (X 0 X)−1 var(β) (1) En la medida que la matriz (X 0 X)−1 sea singular, esto es, no invertible, entonces, su inversa no existe, pues su determinante tiende a cero. Por lo tanto, se tendrán varianzas gigantes, y en el límite, es decir, cuando la matriz es singular, éstas no se podrán calcular. Por lo tanto, el comente es falso. 6. Siempre es mejor utilizar un sólo modelo para predecir, en lugar de escoger una combinación de distintos modelos. Respuesta. Falso. En la medida que se reconoce que ningún modelo es perfecto, y que por lo tanto, los defectos de uno pueden ser las virtudes de otro, entonces, al tomar más de un modelo para realizar proyecciones, y hacer una ponderación de éstas, será posible obtener mejores estimaciones. Esto ocurriría pues los errores de unos con otros tenderían a cancelarse, obteniéndose así una mejor predicción.

2

2.

Demostraciones (30 puntos)

1. Considere el siguiente modelo: Yi = α + βXi + µi . Demuestre que:  ¯2  X M CO 2 1 +P 2 var(ˆ α )=σ n xi Respuesta. Se sabe que: ¯ = α + βX ¯ +µ ¯ = α − (βˆ − β)X ¯ +µ α ˆ = Y¯ − βˆX ¯ − βˆX ¯ Por lo tanto: ¯ +µ α ˆ − α = −(βˆ − β)X ¯ Por lo tanto, la varianza de α ˆ puede escribirse como: ¯ +µ ¯ 2 E(βˆ − β)2 + E(ˆ ¯ E(ˆ α − α)2 = E[−(βˆ − β)X ¯ ]2 = X µ2 ) − 2XE[( βˆ − β)¯ µ] Por otro lado, se sabe que: σ2 E(βˆ − β)2 = P 2 x y: E(¯ µ2 ) = Además: E[(βˆ − β)¯ µ] = E E[(βˆ − β)¯ µ] =

n

1 P

x2

σ2 n

P  X  xµ 1 P 2 µ x n

E[(x1 µ1 + x2 µ2 + · · · + xn µn )(µ1 + µ2 + · · · + µn )] P σ2 x ˆ E[(β − β)¯ µ] = P 2 = 0 n x

Reemplazando estos términos en la expresión original, se llega a lo siguiente: 2 2 ¯ 2 Pσ + σ E(ˆ α − α)2 = X x2 n

Finalmente: 2

E(ˆ α − α) = σ

3

2



¯2  1 X +P 2 n x

P

µ ˆ2

2. Demuestre que σ ˜ 2 = n−ki es un estimador insesgado de σ 2 . Respuesta. Considere lo siguiente: µ ˆ = Y − X βˆ = Y − X(X 0 X)−1 X 0 Y = M Y con: M = I − X(X 0 X)−1 X 0 donde M es una matriz simétrica e idempotente. Note además lo siguiente: µ ˆ = M Y = M (Xβ + µ) = M µ. Un estimador natural de σ 2 sería la suma de los errores estimados al cuadrado, es decir: X ˆ= µ ˆ2 µ ˆ0 µ Aplicando esperanza: E(ˆ µ0 µ ˆ) = E(µ0 M 0 M µ) = E(µ0 M µ) Dado que la traza de un escalar es un escalar, se tiene: E(µ0 M µ) = E[tr(µ0 M µ)] = E[tr(µµ0 M )] = σ 2 tr(M ) Reemplazando M : E(µ0 M µ) = σ 2 tr(I) − σ 2 tr[X(X 0 X)−1 X 0 ] = σ 2 tr(I) − σ 2 tr[(X 0 X)−1 (X 0 X)] Por lo tanto: E(µ0 M µ) = σ 2 (n − k) Es decir, la suma de los cuadrados de los errores estimados es un estimador sesgado de σ 2 . Por lo tanto, y dado el resultado anterior: P 2 µ ˆi 2 σ ˜ = n−k corresponde a un estimador insesgado de σ 2 .

4

3.

Matemático (20 puntos)

Se quiere explicar la evolución de la demanda de pescado de una ciudad (Dt ), en función del ingreso medio disponible (Yt ). Para ello se dispone de datos de los cien últimos meses, (donde la demanda viene medida en toneladas métricas, TM, y el ingreso disponible en millones de pesos). Se dispone de la siguiente información: X X X Yt = 6 Dt = 3 Dt2 = 10 X X Yt2 = 36 Dt Yt = 15 con t = 1, 2, ..., 100. 1. Escriba un modelo de regresión adecuado para la estimación de la demanda de pescado en función del ingreso y calcule los coeficientes estimados por MCO. Respuesta. El modelo a estimar sería el siguiente: Dt = β0 + β1 Yt + t con t = 1, ..., 100, y t correspondería al término de error con media cero y varianza homoscedástica. La estimación viene dada por: βˆ = (X 0 X)−1 X 0 D

(2)

Se tiene lo siguiente: −1        100 6 3 0, 005051 βˆ0 = = 6 36 15 0, 415825 βˆ1 2. Se piensa que una forma mejor de estimar la demanda sería incluyendo además del ingreso medio disponible, los precios de pescado (Pt ) como nueva variable explicativa. Sabiendo que: X X X X Pt = 4 Yt Pt = 30 Pt2 = 100 Pt Dt = 5 calcule los nuevos coeficientes estimados. Respuesta. El nuevo a modelo a estimar viene dado por: Dt = β0 + β1 Yt + β2 Pt + t Aplicando MCO se tiene lo siguiente: ˆ   −1     β0 100 6 4 3 0, 004041  βˆ1  =  6 36 30  15 =  0, 499282  4 30 100 5 −0, 09995 βˆ2 5

¯ 2 de los modelos estimados. Comente qué modelo sería 3. Obtenga el R2 y R preferido en base a los resultados anteriores. Respuesta. Se sabe que: ˆ + ˆ = X βˆ + ˆ D=D Por lo tanto: ˆ 0 X βˆ + ˆ0 ˆ = βX ˆ 0 D + ˆ0 ˆ ˆ + ˆ)0 (D ˆ + ˆ) = D ˆ 0D ˆ + ˆ0 ˆ = βX D 0 D = (D

(3)

Por otro lado, la variabilidad de D viene dada por: X X ¯ 2= ¯ 2 = D 0 D − nD ¯2 (Dt − D) Dt2 − nD Por lo tanto, la descomposición de la varianza viene dada por: ˆ 0 D − nD ¯ 2 = (βX ¯ 2 ) + ˆ0 ˆ D 0 D − nD

(4)

es decir: T SS = ESS + RSS. De esta manera, el R2 del primer modelo viene dado por: ˆ 0 D − nD ¯2 βX R2 = (5) ¯ 2 = 0, 621 D 0 D − nD ¯ 2 por: y el R ¯ 2 = 1 − (1 − R2 ) R



n−1 n−k

 = 0, 617

(6)

Para el segundo modelo los resultados son: ˆ 0 D − nD ¯2 βX R = ¯ 2 = 0, 697 D 0 D − nD 2

(7)

¯ 2 por: y el R ¯ 2 = 1 − (1 − R2 ) R



n−1 n−k

 = 0, 691

(8)

¯ 2 , es decir, el segundo El modelo preferido será aquel que tenga el mayor R 2 modelo. No sería correcto fijarse en el R , pues éste es monotónico frente a la ¯ 2 toma en cuenta la incorporación de regresores adicionales, mientras que el R pérdida en grados de libertad en que se incurre.

6

4.

Analítico (20 puntos)

Considere la siguiente estimación que ha sido generada a partir de la información proporcionada por la Encuesta de Caracterización Nacional (CASEN) para el año 2003: Variable

Coeficiente

Desviación Estándar

Años de escolaridad Experiencia laboral Experiencia laboral al cuadrado Constante

0,1202 0,0212 -0,0000938 5,0379

0,0007037 0,0006365 0,0000127 0,0112151

El modelo estimado es el siguiente: Yi = β0 + β1 X1i + β2 X2i + β3 X3i + µi donde Yi corresponde al logaritmo del salario por hora, X1i son los años de escolaridad, X2i representa la experiencia laboral del individuo, y X3i es el cuadrado 2 de ésta (es decir, X2i ). 1. ¿Son económicamente significativos los coeficientes asociados a las pendientes? Respuesta. La teoría económica establece que los factores productivos deben ser retribuidos de acuerdo a la contribución marginal que hacen al proceso productivo, es decir, de acuerdo a su productividad. La productividad de los trabajadores no es observable, por lo que ésta suele aproximarse mediante las variables incluidas en este modelo, esto es, años de escolaridad y experiencia laboral. El cuadrado de esta última trata de capturar el perfil decreciente que tiene el premio a la experiencia en el mercado laboral (de hecho, el coeficiente asociado es negativo). 2. ¿Son estadísticamente significativos los coeficientes asociados a las pendientes? Respuesta. Para evaluar esto se requieren construir los test t de cada uno de los coeficientes estimados: tβˆ1 =

0, 1202 βˆ1 = = 170, 81 σ ˆ β1 0, 0007037

tβˆ2 =

βˆ2 0, 0212 = = 33, 3 σ ˆ β2 0, 0006365 7

tβˆ3 =

βˆ3 −0, 0000938 = = −7, 38 σ ˆ β3 0, 0000127

Por lo tanto, las pendientes del modelo son estadísticamente distintas de cero, pues el intervalo de confianza (al 95 %) no contendría el cero, ya que los t∗ son todos mayores que dos (2) en valor absoluto. 3. ¿Es la constante estadísticamente significativa? Si así fuera, ¿tendría sentido desde un punto de vista económico? Respuesta. A continuación se presenta el test t para la constante del modelo: 5, 0379 βˆ0 = = 449, 2 tβˆ0 = σ ˆ β0 0, 0112151 Dado que el t∗ es mayor que dos, entonces, la constante es significativa. Este resultado tiene sentido desde un punto de vista económico, pues reflejaría de alguna forma el salario mínimo que paga el mercado, es decir, independiente del capital humano de la persona ésta recibiría al menos dicha cantidad. 4. ¿Cuál es el salario (mensual) estimado para una persona con 14 años de escolaridad, y cuatro años de experiencia laboral? (Asuma que la jornada laboral es de 45 horas a la semana, y que el mes tiene 4,2 semanas) Respuesta. La predicción es la siguiente: Yˆi = βˆ0 + βˆ1 X1i + βˆ2 X2i + βˆ3 X3i Reemplazando: Yˆi = 5, 0379 + 0, 1202(14) + 0, 0212(4) − 0, 0000938(16) = 6, 8039992 Aplicando e(•) se llega a que el salario por hora estimado es de $901. Como la persona trabaja 45 horas a la semana, y el mes tiene 4,2 semanas, entonces, el salario mensual estimado para esta persona es de $170.289.

8

Econometría Facultad de Economía y Negocios Universidad de Chile Pauta Solemne

Semestre: Primavera 2007 Profesores: José Miguel Benavente, Rodrigo Montero Ayudantes: Rodrigo Bravo, Felipe Ríos, Loreto Silva Tiempo de duración: 120 minutos No hay preguntas de ningún tipo para los ayudantes

1.

(30 puntos) Comente en no más de 10 líneas las siguientes afirmaciones:

1. El estimador de mínimos cuadrados ordinarios (MCO) maximiza el valor del R2 . Respuesta. Verdadero. Dado que el estimador MCO minimiza la suma de los residuos al cuadrado, entonces, automáticamente lo que hace es maximizar la el valor del R2 , el cual se define de la siguiente manera: P 2 uˆ 2 R = 1 − P 2i yi donde yi = Yi − Y¯ . 2. Si un estimador es estadísticamente significativo, entonces, también es significativo desde un punto de vista económico. Respuesta. Falso. El hecho de que un coeficiente de una ecuación sea estadísticamente significativo, no quiere decir que sea significativo desde el punto de vista económico. La significancia económica del coeficiente viene dada por el modelo en cuestión, el cual sustenta la inclusión de una determinada variable. Sin embargo, podría darse el caso que, por un problema de los datos, el coeficiente no sea estadísticamente significativo, aún cuando el modelo establezca que dicha variable es relevante para explicar la variable dependiente (Y ). 1

3. Una de las principales ventajas del test t es que es insensible al tamaño de la muestra, y por lo tanto, sus resultados siempre son confiables. Respuesta. Falso. Se sabe que el test t se define de la siguiente manera: tβˆ =

βˆ σβˆ

A su vez, sin perder generalidad, se sabe que para el caso del modelo de dos variables (Yi = α + βXi + ui ), la varianza del estimador MCO viene dada por: ˜2 ˆ = Pσ var(β) x2i donde:

uˆ2i N −k donde k corresponde al número de parámetros a estimar. De esta manera, es posible apreciar cómo el tamaño muestral (N ) afecta el valor del test ˆ y por ende, mayor t. Mientras mayor sea N menor es la varianza de β, es el valor del test t. En consecuencia, es más probable que el coeficiente estimado resulte ser estadísticamente significativo. P

2

σ ˜ =

2.

Matemáticos

1. (30 puntos) Sea el siguiente modelo: Yi = α + βXi + ui donde ui se encuentra independiente e idénticamente distribuido con media cero y varianza σ 2 . Considere los siguientes dos estimadores alternativos para la pendiente del modelo (b): Yn − Y1 Xn − X1 P Yi b2 = P Xi

b1 =

a) Determine si b1 y b2 son estimadores insesgados de β. Respuesta.   Yn − Y1 1 E(b1 ) = E = β(Xn − X1 ) = β Xn − X1 Xn − X1 2

ya que E(Yi ) = α + βXi . Por lo tanto, b1 es un estimador insesgado de β. Por otro lado: P  X Yi 1 1 X E(b2 ) = E P = P E( Yi ) = P (α + βXi ) Xi Xi Xi Por lo tanto: X nα 1 Xi ) = P + β 6= β E(b2 ) = P (nα + β Xi Xi Es decir, b2 es un estimador sesgado de β. b) Encuentre las varianzas de b1 y b2 . Respuesta. En primer lugar se debe establecer lo siguiente: var(Yi ) = var(α + βXi + ui ) = σ 2 ya que α y β son parámetros fijos, y Xi es una variable exógena al modelo (los valores de Xi son fijos. Luego: var(b1 ) =

2σ 2 1 var(Y − Y ) = n 1 (Xn − X1 )2 (Xn − X1 )2

ya que cov(Yi , Yj ) = 0 para todo i 6= j, puesto que el término de error (ui ) tiene una distribución independiente. Por otro lado: X nσ 2 1 P var( Y ) = var(b2 ) = P i ( Xi )2 ( Xi )2 c) Muestre que var(b1 ) ≥ var(b), donde b corresponde al estimador de mínimos cuadrados ordinarios para la pendiente del modelo. Respuesta. Se sabe que: σ2 var(b) = P 2 xi ¯ Luego, se debe demostrar lo siguiente: donde xi = Xi − X. 2σ 2 σ2 P ≥ ¯ 2 (Xn − X1 )2 (Xi − X) o bien que: 2

X

¯ 2 ≥ (Xn − X1 )2 (Xi − X)

3

¯ y v = (Xn − X). ¯ Por Se definen las siguientes variables, u = (X1 − X) lo tanto: 2

X

¯ 2 = 2(u2 + (Xi − X)

n−1 X

¯ 2 + v 2 ) ≥ 2(u2 + v 2 ) (Xi − X)

i=2

Por otro lado: (Xn − X1 )2 = (v − u)2 Así, habría que probar que: 2(u2 + v 2 ) ≥ (v − u)2 = v 2 − 2vu + u2 Luego: u2 + v 2 ≥ −2vu ⇒ u2 + v 2 + 2vu ≥ 0 Por lo tanto, para que var(b1 ) ≥ var(b), bastaría con probar que: (u + v)2 ≥ 0 lo cual se cumple. d ) Muestre que existe un conjunto de datos Xi , con i = 1, 2, ..., n, para los cuales se cumple que var(b2 ) < var(b). ¿Contradice este resultado el Teorema de Gauss-Markov? Respuesta. Supongamos los siguientes datos: X1 = 1, X2 = 2 y X3 = 3. Luego: 3σ 2 nσ 2 = = 0, 083σ 2 var(b2 ) = P ( Xi )2 36 Por otro lado: σ2 σ2 σ2 var(b) = P 2 = = = 0, 5σ 2 2 2 2 xi (1 − 2) + (2 − 2) + (3 − 2) 2 Por lo tanto, var(b) ≥ var(b2 ), sin embargo, este resultado no contradice el teorema de Gauss-Markov ya que b2 no es un estimador insesgado de β. 2. (30 puntos) Considere la siguiente información sobre precios y cantidad demandada:

4

i 1 2 3 4 5 6 7 8 9 10 11 12

Precio (P ) Cantidad (Q) 1 89 1 86 1 74 1 79 1 68 1 84 0,95 139 0,95 122 0,95 102 0,95 186 0,95 179 0,95 187

En base a estos datos, se plantea el siguiente modelo: Qi = α + βPi + ei Donde ei representa el término de error que cumple con los supuestos convencionales. a) Encuentre los estimadores de mínimos cuadrados ordinarios (MCO) para α y β. Respuesta. La estimación para la pendiente del modelo viene dada por: P P ¯ p i qi (Pi − P¯ )(Qi − Q) ˆ P P = = −1450 β= p2i (Pi − P¯ )2 Por otro lado, el intercepto se estima como: ¯ − βˆP¯ = 1530 α ˆ=Q b) Calcule la suma de los cuadrados totales (TSS), la suma de los cuadrados de la regresión (ESS), la suma de los errores al cuadrado (RSS) y el coeficiente R2 . Respuesta. La suma de los cuadrados totales viene dada por: X X ¯ 2= ¯ 2 = 22760, 25 T SS = (Qi − Q) Q2i − nQ La suma de los cuadrados de la regresión viene dada por: X ¯ 2 = 15768, 75 ESS = βˆ2 (Qi − Q)

5

La suma de los errores al cuadrado viene dada por: RSS = T SS − ESS = 22760, 25 − 15768, 75 = 6991, 5 Y finalmente: R2 =

ESS 15768, 75 = = 0, 69 T SS 22760, 25

c) Estime la varianza (σ 2 ) del término de error (ei ). Respuesta. σ ˜2 =

RSS 6991, 5 eˆ2i = = = 699, 15 n−2 n−2 10

d ) Calcule el error estándar de b (el estimador MCO de β) y haga un test sobre su significancia estadística (H0 : β = 0), utilizando un nivel de significancia del 5 %. (Ayuda: el valor crítico de una distribución t de dos colas con diez grados de libertad es c =2,23) Respuesta. El error estándar de b viene dado por: r 699, 15 σ ˜ = = 305, 31 σb = pP 0, 0075 (Pi − P¯ )2 Por otro lado:

b −1450 = −4, 74 = σb 305, 31 por lo tanto, se rechaza la hipótesuis nula, y el coeficiente es estadísticamente significativo. tb =

e) Construya un intervalo de confianza de 95 % para β. Respuesta. El intervalo viene dado por: b − cσb < β < b + cσb Por lo tanto: −2130, 8 < β < −769, 15

3.

(15 puntos) Analítico

La movilidad social es un tema que preocupa a las autoridades de muchos países. Economías que presentan una elevada movilidad social son aquellas en donde existe una elevada probabilidad de “avanzar” a lo largo de la distribución de ingresos, mediante un acceso razonable a las oportunidades que ofrece el mercado. Una de las principales herramientas para lograr movilidad social es la educación, 6

puesto que permite a las personas aumentar su capacidad de generación de ingresos. Con el objetivo de poder evaluar el nivel de movilidad social de Samunda, un próspero país africano, un investigador propone la siguiente regresión: SiH = α + βSiP + ξi donde SiH representa los años de escolaridad del individuo i, SiP denota los años de escolaridad promedio de los padres del individuo i (promedio simple de la escolaridad del padre y de la madre), y ξi es un término de error que resume todos los otros aspectos que no han sido incluidos de manera explícita en la ecuación, pero que afectan la escolaridad de i. Se sabe que 0 < β < 1. En base a esta información, responda: 1. Explique el trasfondo económico de la ecuación anterior. Respuesta. Básicamente, el modelo establece que la escolaridad de los padres es un determinante fundamental de la escolaridad que puedan alcanzar los hijos. 2. Suponiendo que se cuenta con información confiable para estimar mediante mínimos cuadrados ordinarios (MCO) la relación planteada: ¿qué representaría βˆM CO en el contexto de la discusión sobre movilidad social? (Ayuda: piense en qué significaría que βˆ = 1, es decir, que el impacto que tiene el nivel de escolaridad de los padres sobre la de los hijos fuera total.) Respuesta. En la medida que βˆ = 1, entonces, no existiría movilidad puesto que la escolaridad de los padres deerminaría, en promedio, uno a uno la escolaridad de los hijos. Si βˆ = 0, entonces, no habría ninguna relación entre la escolaridad de los padres y la de los hijos. En otras palabras, si el padre tuviera solo educación básica incompleta, eso no sería razón para que el hijo no pudiera alcanzar la educación superior. 3. ¿Qué críticas podría hacerle al modelo propuesto? Mencione tres. Respuesta. a) Omite variables relvantes, como por ejemplo, la habilidad de los individuos b) La relación no tiene por qué ser lineal, pudiera haber una relación más sofisticada para este modelo c) Pudiera ser que la escolaridad del padre influya de mayor manera en la escolaridad de los hijos, por lo que el promedo simple de la escolaridad de los progenitores podría no ser la más apropiada.

7

Rut:____________________________

Facultad de Economía y Negocios Universidad de Chile PAUTA SOLEMNE Econometría 1 Primavera 2007

Profesora: Claudia Sanhueza Ayudante: José Manuel Eguiguren Felipe Rios Tiempo: Puntaje Total: p. 1)

Preguntas de Elección Múltiple. (p) i. In the multiple regression model, the adjusted R2, R 2 a. cannot be negative. b. will never be greater than the regression R2. c. equals the square of the correlation coefficient r. d. cannot decrease when an additional explanatory variable is added. Answer: b

ii. Consider the following multiple regression models (a) to (d) below. DFemme = 1 if the individual is a female, and is zero otherwise; DMale is a binary variable which takes on the value one if the individual is male, and is zero otherwise; DMarried is a binary variable which is unity for married individuals and is zero otherwise, and DSingle is (1-DMarried). Regressing weekly earnings (Earn) on a set of explanatory variables, you will experience perfect multicollinearity in the following cases unless:

· ¶ µ ¶ µ a. Earn i = β 0 + β1 DFemme + β 2 Dmale + β 3 X 3i . · ¶ µ ¶ µ b. Earn i = β 0 + β1 DMarried + β 2 DSingle + β 3 X 3i . · = β¶ + βµ DFemme + βµ X . c. Earn i

0

1

3

3i

· µ ¶ µ ¶ µ d. Earn i = β 1 DFemme + β 2 Dmale + β 3 DMarried + β 4 DSingle + β 5 X 3i . Answer: c

iii. When there are omitted variables in the regression, which are determinants of the dependent variable, then a. you cannot measure the effect of the omitted variable, but the estimator of your included variable(s) is (are) unaffected. b. this has no effect on the estimator of your included variable because the other variable is not included.

1

Rut:____________________________

c. this will always bias the OLS estimator of the included variable. d. the OLS estimator is biased if the omitted variable is correlated with the included variable. Answer: d

iv. The assumption that X has full column rank implies that a. b. c. d.

the number of observations equals the number of regressors. binary variables are absent from the list of regressors. there is no perfect multicollinearity. none of the regressors appear in natural logarithm form.

Answer: c v. One implication of the extended least squares assumptions in the multiple regression model is that a. b. c. d.

feasible GLS should be used for estimation. E(U|X) = In. X′X is singular. the conditional distribution of U given X is N(0n, σ u2 In).

Answer: d vi. The following linear hypothesis can be tested using the F-test with the exception of a. β 2 = 1 and β 3 = β 4 / β5 . e. β 2 = 0 . f. β1 + β 2 = 1 and β3 = −2 β 4 . g. β0 = β1 and β1 = 0. Answer: a

vii. One of the properties of the OLS estimator is a. X βˆ = 0k+1. b. that the coefficient vector βˆ has full rank. c. X′(Y – X βˆ ) = 0k+1. d. (X′X)-1= X′Y viii. The GLS estimator is defined as

a. (X′Ω -1X)-1(X′Ω -1Y). b. (X′X)-1X′Y.

2

Rut:____________________________

c. A′Y. d. (X′X)-1X′U. Answer: a ix. βˆ – β a. b. c. d.

cannot be calculated since the population parameter is unknown. = (X′X)-1X′U . = Y - Yµ . = β + (X′X)-1X′U

Answer: b x. In the case when the errors are homoskedastic and normally distributed, conditional on X, then a. βˆ is distributed N(β , Σ βˆ | X ),where Σ βˆ | X = σ u2 I(k+1). b. βˆ is distributed N(β, Σ βˆ ), where Σ βˆ = Σ

n ( βˆ − β )

/n = Q X−1Σ V QX−1 /n.

c. βˆ is distributed N(β , Σ βˆ | X ),where Σ βˆ | X = σ u2 (X'X)-1. d. Uˆ = PXY where PX = X(X′X)-1X′. Answer: c

2)

Ensayos y Preguntas Largas (p)

2.1. Give several economic examples of how to test various joint linear hypotheses using matrix notation. Include specifications of Rβ = r where you test for (i) all coefficients other than the constant being zero, (ii) a subset of coefficients being zero, and (iii) equality of coefficients. Talk about the possible distributions involved in finding critical values for your hypotheses. Answer: Answers will vary by student. Many restrictions involve the equality of coefficients across different types of entities in cross-sections (“stability”). Using earnings functions, students may suggest testing for the presence of regional effects, as in the textbook example at the end of Chapter 5 (exercises). The textbook tested jointly for the presence of interaction effects in the student achievement example at the end of Chapter 6. Students may want to test for the equality of returns to education and on-the-job training. The panel chapter allowed for the presence of fixed effects, the presence of which can be tested for. Testing for constant returns to scale in production functions is also frequently mentioned.

Consider the multiple regression model with k regressors plus the

3

Rut:____________________________

constant. Let R be of order q × (k + 1) , where q are the number of restrictions. Then to test (i) for all coefficients other than the constant to be zero, H 0 : β1 = 0, β 2 = 0,..., β k = 0 vs. H1 : β j ≠ 0 , at least one j, j=1,…,n, you have R = [0k×1 Ik ] and r = 0k×1. In large samples, the test will produce the overall regression F-statistic, which has a Fk , ∞ distribution. In case (ii), reorder the variables so that the regressors with non-zero coefficients appear first, followed by the regressors with coefficients that are hypothesized to be zero. This leads to the following formulation Yi = β0 + β1X1i + β2X2i + g g g + βk-qXk-q,i +βk-q+1Xk-q+1,i +βk-q+2Xk-q+2,i + . . . + βkXki + ui, i = 1,…, n. R = [0q× (k-q+1) Iq ] and r = 0q×1. In large samples, the test will produce an F-statistic, which has an Fq , ∞ distribution. In (iii), assume that the task at hand is to test the equality of two coefficients, say H 0 : β1 = β 2 vs. H1 : β1 ≠ β 2 , as in section 5.8 of the textbook. Then R = [0 1 -1 0 … 0], r = 0 and q = 1. This is a single restriction, and the F-statistic is the square of the corresponding t-statistic. Hence critical values can be found either from F1,∞ or from the standard normal table, after taking the square root.

2.2. Consider the multiple regression model from Chapter 5, where k = 2 and the assumptions of the multiple regression model hold. (a)

Show what the X matrix and the β vector would look like in this case. 1 X 11  1 X 12 Answer: X =  M M  1 X 1n

(b)

X 21   β0   X 22    , and β =  β1   M β    2 X 2 n 

Having collected data for 104 countries of the world from the Penn World Tables, you want to estimate the effect of the population growth rate (X1i) and the saving rate (X2i) (average investment share of GDP from 1980 to 1990) on GDP per worker (relative to the U.S.) in 1990. What are your expected signs for the regression coefficient? What is the order of the (X′X) here? Answer: You would expect the population growth rate to have a negative coefficient, and the saving rate to have a positive coefficient. The order of X′X is 3 × 3.

(c)

You are asked to find the OLS estimator for the intercept and slope in this model

4

Rut:____________________________

using the formula βˆ = (X′X)-1X′Y. Since you are more comfortable in inverting a 2×2 matrix (the inverse of a 2×2 matrix is, −1

a b  1  d −b    =  ) ad − bc  −c a  c d you decide to write the multiple regression model in deviations from mean form. Show what the X matrix, the (X′X) matrix, and the X′Y matrix would look like now. (Hint: use small letters to indicate deviations from mean, i.e., zi = Zi − Z and note that µ +β µ X +β µ X + u$ i Yi = β 0 1 1i 2 2i µ +β µ X +β µ X . Y =β 0

1

1

2

2

Subtracting the second equation from the first, you get

µ x +β µ x + u$ i .) yi = β 1 1i 2 2i  x11 x Answer: X =  12  M   x1n

(d)

x21  x22  , X′X = M   x2 n 

 n 2  ∑ x1i  i =1  n  ∑ x1i x2i  i =1

  n  x x ∑ 1i 2 i   ∑ yi x1i  i =1  , X′Y =  i =1 . n  n  2  x2 i  ∑  ∑ yi x2 i    i =1  i =1 n

Show that the slope for the population growth rate is given by n

βˆ1 =

n

i =1

i =1

n

n

i =1

n

∑x ∑x i =1

 n 2  ∑ x1i i =1 Answer:  n   ∑ x1i x2i  i =1

n

∑ yi x1i ∑ x22i − ∑ yi x2i ∑ x1i x2i

−1

2 1i

i =1

2 2i

i =1

n

− (∑ x1i x2 i ) 2 i =1

  n 2 x1i x2 i  ∑  ∑ x2 i 1 i =1  =  i =1 n n n n n 2 2 2  2  x x − ( x x ) x − ∑ ∑ 1i ∑ 1i 1i 2i ∑ 2i   ∑ x1i x2 i i =1 i =1 i =1 i =1   i =1 n

n  −∑ x1i x2 i  i =1 . n  x12i  ∑ i =1 

5

Rut:____________________________

 n   ∑ yi x1i  i =1  results in the two least squares estimators Post multiplying this expression with  n    ∑ yi x2 i   i =1  n n n n   2  ∑ yi x1i ∑ x2 i − ∑ yi x2 i ∑ x1i x2i  i =1 i =1  i =1 n i =1 n  n 2 2 2   x1i ∑ x2i − (∑ x1i x2i ) ∑ µ   β  i =1 µ .  1  =  n i =1 ni =1  , and hence gives the formula for β 1 n n β µ    2  2 y x x − y x x x ∑ i 2 i ∑ 1i i 1i ∑ 1i 2 i  ∑ i =1 i =1 i =1 i =1   n n n 2 2 2   ( ) x x − x x ∑ ∑ 1i ∑ 2i 1i 2i     i =1 i =1 i =1

6

Rut:____________________________

(e)

The various sums needed to calculate the OLS estimates are given below: n

n

n

i =1

i =1

i =1

∑ yi2 = 8.3103; ∑ x12i = .0122; ∑ x22i = 0.6422 n

∑yx

i 1i

i =1

n

n

i =1

i =1

= −0.2304; ∑ yi x2i = 1.5676; ∑ x1i x2i = −0.0520

Find the numerical values for the effect of population growth and the saving rate on per capita income and interpret these.

 −0.2304 × 0.6422 − (1.5676 × (−0.0520))   µ  β1   0.0122 × 0.6422 − (−0.0520) 2  = Answer:   = β µ   1.5676 × 0.0122 − ((−0.2304) × (−0.0520)   2   0.0122 × 0.6422 − (−0.0520) 2  

 −12.953   1.393  .  

A reduction of the population growth rate by one percent increases the per capita income relative to the United States by roughly 0.13. An increase in the saving rate by ten percent increases per capita income relative to the United States by roughly 0.14.

(f)

Indicate how you would find the intercept in the above case. Is this coefficient of interest in the interpretation of the determinants of per capita income? If not, then why estimate it? Answer: The first order condition for the OLS estimator in the case of k = 2 is n

∑ Y =n βµ i =1

i

n

n

i =1

i =1

µ µ 0 + β 1 ∑ X 1i + β 2 ∑ X 2i , which, after dividing by n, results in

µ X −β µ X . The intercept is only of interest if there are βµ 0 = Y − β 1 1 2 2 observations close to the origin, which is not the case here. If it is set to zero, then the regression is forced through the origin, instead being allowed to choose a level. 2.3. Define the GLS estimator and discuss its properties when Ω is known. Why is this estimator sometimes called infeasible GLS? What happens when Ω is unknown? What would the Ω matrix look like for the case of independent sampling with heteroskedastic errors, where var( ui | X i ) = ch( X i ) = σ 2 X 12i ? Since the inverse of the error variance-covariance matrix is needed to compute the GLS estimator, find Ω −1 . The textbook shows that the original model Y = Xβ + U will be transformed into Y% = X% β + U% , where Y% = FY, X% = FX, and U% = FU, and F′F = Ω -1. Find F in the above case, and describe what effect the transformation has on the original data.

7

Rut:____________________________

Answer: βˆ GLS = (X′Ω -1X)-1(X′Ω -1Y). The key point for the GLS estimator with Ω known is that Ω is used to create a transformed regression model such that the resulting error term satisfies the Gauss-Markov conditions. In that case, GLS is BLUE. However, since Ω is typically unknown, the estimator cannot be calculated, and is therefore sometimes referred to as infeasible GLS. If Ω is unknown, then a feasible GLS estimator can be calculated if Ω is a known function of a number of parameters which can be estimated. Once the parameters have been estimated, they can then be used to calculate Ωˆ , which is the estimator of Ω . The feasible GLS estimator is then

βˆ GLS = (X′ Ωˆ −1 X)-1(X′ Ωˆ −1 Y). In the above example of heteroskedasticity,  X 112 0  0 X 122 E(UU′|X) = Ω (X) = σ 2   M M  0  0  1 0 L  X2 11   1 L 1  0 −1 X 122 Ω (X) = 2  σ  M M O   0 0 L  

L L O L

0 0 M 1 X 12n

0   0  , M   X 12n       , F=     

 1 X  11   0   M   0  

0

L

1 X 12

L

M

O

0

L

 0    0  . M   1  X 1n 

The transformation in effect scales all variables by X 1 .

8

Prueba Solemne Econometr´ıa I Profesor: Tom´as Rau Binder Ayudante: Victor Nahuelpan 27 de diciembre Tiempo Total: 120 Minutos.

1.

Preguntas Cortas (5 puntos, m´ aximo 5 renglones)

1. Defina funci´ on de regresi´ on poblacional. R. La funci´ on de regresi´on poblacional es el lugar geom´etrico de las medias condicionales E(Yi |Xi ) = f (Xi ) que puede ser una funci´ on cualquiera. Un caso particular es la recta de regresi´on poblacional Y = Xβ + u. 2. Demuestre que E(u|X) = 0 ⇒ E(u) = 0. R. Por Ley de las Esperanzas Iteradas (Iterated Law of Expectations) sabemos que E(E(u|X)) = E(u). Luego, reemplazando E(u|X) = 0, tenemos que E(u) = 0. 3. Muestre que βˆ = (X ′ X)−1 X ′ Y es insesgado. R. Reemplazando la recta de regresi´on poblacional tenemos que βˆ = β + (X ′ X)−1 X ′ u. Tomando valor esperado y usando el supuesto 2 (X no estoc´ asticas) y supuesto 3 ˆ = β. (E(u|X) = 0) tenemos que E(β) 4. Muestre que el rango de Mn×n = In − X(X ′ X)−1 X ′ es igual a n − k donde X es de orden n × k. Recuerde que el rango de una matriz sim´etrica e idempotente es igual a su traza. R. Usando las propiedades: tr(AB)=tr(A)-tr(B) y tr(AB)=tr(BA). Tenemos que:

r(M ) = tr(M )

= =

tr(In ) − tr(X(X ′ X)−1 X ′ ) = n − tr((X ′ X)−1 X ′ X) n − tr(Ik ) = n − k

5. ¿Qu´e establece el Teorema de Gauss-Markov? R. Establece que bajo los supuestos vistos en clases, el estimador MCO es MELI (mejor estimador linealmente insesgado) o BLUE (best linear unbiased estimator ) 1

6. Comente la siguiente afirmaci´ on: dado que los estimadores MCO de β y σ 2 en el modelo de regresi´on lineal son id´enticos a los obtenidos por M´ axima Verosimilitud, da lo mismo usar cualquiera de los dos m´etodos de estimaci´ on. R. Falso, el estimador MV para β es el mismo que MCO si se asume normalidad en los errores. Adem´as, el estimador MV para σ 2 es sesgado. Por otra parte, los estimadores MV tienen propiedades deseables que MCO no tienen como invarianza ante transformaciones, permiten estimar modelos no lineales y testear hip´otesis no lineales, entre otras.

2.

Preguntas de Desarrollo

1. Suponga que el modelo de regresi´on lineal yi = β1 + β2 xi + ui donde f (ui ) = (1/λ)e−ui /λ y ui ≥ 0. Este modelo es bien particular puesto que los errores son asumidos positivos. Note que el valor esperado de ui es igual a λ. Muestre que el estimador MCO de β2 es insesgado pero que el estimador MCO de β1 es sesgado. ¿Es consistente el estimador MCO de β1 ? Por u ´ ltimo, ¿bajo qu´e condiciones es el estimador MCO de β1 consistente? (10 puntos) R. Escribiendo el model en desviacones a la media tenemos: y˜ = β2 x˜ + u˜ y sabemos que P x˜y˜ βˆ2 = P 2 x˜i

Luego un poquito de algebra despu´es de reemplazar la funci´ on de regresi´on poblacional en desviaciones respecto de la media tenemos, P x ˜i u ˜i βˆ2 = β2 + P 2 x˜ P i P x ˜ E(˜ u) x˜i E(ui − u) Pi 2 i = β2 + P 2 E(βˆ2 ) = β2 + x ˜i x ˜i P x ˜ (λ − λ) i P = β2 E(βˆ2 ) = β2 + x˜2i

Para β1 sabemos que:

βˆ1

= Y − βˆ2 X

= β1 + β2 X + u − βˆ2 X tomando valor esperado E(βˆ1 )

= β1 + β2 X + E(u) − E(βˆ2 )X = β1 + λ 2

Ahora, es claro que el estimador MCO para β1 no es consistente a no ser que λ → 0 cuando n es muy grande. 2. Sea la funci´ on de regresi´on poblacional y = β1 + β2 x + u y considere la siguiente muestra aleatoria simple:   1 2  1  1    Y =  1  X= 1 1 0 

 3 1   2  0

a) Calcule el estimador m´ınimo cuadr´atico de β y σ 2 . (10 puntos) R. Podemos ver que en desviaciones con respecto de la media, la muestra es     3/2 1  −1/2   0     y=  0  x =  1/2  −3/2 −1 P P 2 adem´as: xi yi = 3/2 + 3/2 = 3, xi = (3/2)2 + (1/2)2 + (1/2)2 + 2 (3/2) = 20/4 = 5. Luego βˆ2 = 3/5 = 0,6 βˆ1 = Y − βˆ2 X = 1 − (3/5) × (3/2) = 1 − 9/10 = 0,1 Para estimar σ 2 necesitamos los residuos  1 − (3/5) × (3/2) = 0,1  0 + (3/5) × (1/2) = 0,3 u ˆ=  0 − (3/5) × (1/2) = −0,3 −1 + (3/5) × (3/2) = −0,1 Luego,

P





 0,01  2  0,09   u    ˆ =  0,09  0,01

u ˆ2i = 0,2 y σ ˜ 2 = 0,2/2 = 0,1 dado que n − k = 2.

b) Testee la hip´ otesis nula H0 : β2 = 0 (a dos colas). ¿Es β2 significativo al 5 %?¿Y al 10 %? Ver Cuadro 1 para los valores cr´ıticos. (10 puntos) P R. Sabemos que la varianza de βˆ2 √= σ ˜ 2 / x2i = 0,1/5 = 0,02. Por lo tanto el error est´ andar de βˆ2 es 2/10 = 0,141. El test t es: t=

βˆ2 6/10 = 4,24 =√ ˆ 2/10 SE(β2 )

y el valor cr´ıtico de una t-student con 2 grados de libertad para α = 5 % es 4.303. Por lo tanto se rechaza H0 . Si α = 10 % el cr´ıtico es 2.92 luego no se rechaza H0 . 3

c) Calcule el R2 y R2 ajustado. (10 puntos) R. Sabemos que R2 = ESS/T SS, luego P ˆ2 2 P β x βˆ2 x2 0,62 × 5 R2 = P 2 2 i = 2P 2 i = = 0,90 2 yi yi El R2 ajustado se escribe:

RSS/(n − k) 0,2/2 =1− = 0,85 T SS/(n − 1) 2/3

Ra2 = 1 −

3. Suponga que la distribuci´ on condicional de y dado x es una exponencial con par´ ametro θx. 1 −y/θx f (y|x, θ) = e θx donde y > 0, x > 0 a) Obtenga el estimador m´aximo veros´ımil de θ. (10 puntos) R. Escribamos la funci´ on de verosimilitud (en log)  n  X yi −logθ − logxi − l= θxi i=1 tomando derivadas obtenemeos el score: s(θ) =

X ∂l = −n/θ + (1/θ2 ) yi /xi ∂θ

igualando el score a 0 obtenemos: 1X θˆ = yi /xi n b) Considere la siguiente muestra aleatoria simple 

  2 1  4   2   Y =  1  X = 1 3 3

   

obtenga una estimaci´ on de θ. (5 puntos) R. Note que si reemplazamos nos queda θˆ = (1/4) × (2 + 2 + 1 + 1) = 3/2. c) Pruebe la siguiente hip´otesis: H0 : θ = 3 y H1 : θ 6= 3 usando un Test de Wald. (15 puntos) Indicaci´on: recuerde que el valor esperado de una distribuci´ on exponencial con parametro θ es igual a θ y considere las x’s fijas. Use el 4

valor cr´ıtico de una χ2 con 1 grado de libertad con α=5 % visto en clases. R. El test de Wald es: W = (Rθ − r)′ I(θ)(Rθ − r) En este caso R = 1 y r = 3. Necesitamos la matriz de informaci´on que podemos calcularla como el negativo del valor esperado de la matriz de segundas derivadas (que en este caso es un escalar). Luego, I(θ) = −E



 X ∂2l = −n/θ2 + (2/θ3 ) E(yi /xi ) 2 ∂θ

usando que las x’s son fijas y que E(yi |xi ) = θxi , tenemos que I(θ) = −n/θ2 + (2/θ3 )

X θxi xi

= −n/θ2 + 2n/θ2 = n/θ2

ˆ = Luego, reemplazamos el valor de Rθ = 2, r = 3 y evaluando I(θ) 2 ¯ 4/(3/2) = 16/9 = 1.7, entonces W = (1,5 − 3)′ (1.¯7)(1,5 − 3) = (3/2)2 × (16/9) = 4 El cr´ıtico de una χ2 con 1 grado de libertad y α =5 % es 3.84. Luego se rechaza H0 .

Cuadro 1: Valores Cr´ıticos para una distribuci´ on t-Student n-k 1 2 3 4 5 6 7

90 % 3.078 1.886 1.638 1.533 1.476 1.44 1.415

95 % 6.314 2.92 2.353 2.132 2.015 1.943 1.895

97.50 % 12.71 4.303 3.182 2.776 2.571 2.447 2.365

5

99 % 31.82 6.965 4.541 3.747 3.365 3.143 2.998

99.50 % 63.66 9.925 5.841 4.604 4.032 3.707 3.499

Pauta Prueba Solemne Econometr´ıa I Profesores: Tom´as Rau y Javiera V´asquez Ayudantes: Roberto Gillmore, Eugenio Rojas y Jorge Sep´ ulveda 06 de mayo de 2008 Tiempo Total: 150 minutos. Puntaje Total: 130 puntos.

1.

Comentes (5 puntos, m´ aximo 5 renglones)

1. La funci´ on de regresi´on poblacional es el lugar geom´etrico de las esperanzas condicionales para distintos valores de X. R. Verdadero. La funci´ on de regresi´on poblacional es el lugar geom´etrico de la esperanza condicional de y en X, luego es una funci´ on de X. En particular E(Y |X = x), para distintos valores de X = x. Si bien no se explicita en el texto si la esperanza es sobre y, se puede asumir dado que hablamos de una funci´ on de regresi´on. 2. Si tenemos dos estimadores de un par´ ametro: uno sesgado y otro insesgado, elegiremos siempre el insesgado. R. Falso. Preferiremos aquel que tenga un menor error cuadr´atico medio. 3. Si tenemos dos columnas de la matriz X linealmente dependientes el estimador MCO de β es igual a cero. R. Falso. El estimador MCO de β no existe puesto que X ′ X no tiene inversa si dos columnas de X son linealmente dependientes. 4. Cuando tenemos hip´ otesis lineales del tipo Rβ = r, si q = 1 podemos usar un simple test t. R. Verdadero. Cuando q = 1, podemos escribir un test t teniendo cuidaˆ do en incorporar las covarianzas en el c´ alculo del error est´ andar de Rβ. Adem´as, para un est´ adistico que sigue una F con (1,n-k) grados de libertad, su ra´ız cuadrada sigue una t-student con n − k grados de libertad. 1

5. La varianza del error de predicci´ on en el modelo de regresi´on lineal aumenta a medida que aumenta el valor de x. R. Verdadero/depende. Como se pudo apreciar en la clase 11, la varianza del error de predicci´ on depende de una forma cuadr´atica de X y como se vio en el gr´ afico, el intervalo de confianza aumenta con x siempre y cuando estemos a la derecha de x. La varianza tambi´en aumenta si nos movemos a la izquierda de x. Es por ello que la menor varianza (luego el intervalo de confianza m´as angosto) se logra en la media. 6. El m´etodo de m´axima verosimilitud y de m´ınimos cuadrados ordinarios son equivalentes en el caso del modelo de regresi´on lineal puesto que arroja los mismos estimadores. R. Falso. En el caso en que los residuos sean independientes e id´enticamente distribuidos con funci´ on de densidad de probabilidad normal, el estimador MV de β y el estimador MCO de β son num´ericamente equivalentes (no as´ı el de σ 2 ) pero los m´etodos no son equivalentes. El m´etodo de MV permite testear hip´otesis no lineales y es invariante a transformaciones y no as´ı el m´etodo de MCO.

2.

Preguntas de Desarrollo

1. (50 puntos) Sea el modelo de regresi´on con k variables Y = Xβ + u, donde Y es un vector de n × 1, X una matriz de n × k, β un vector de k × 1 y u un vector de n × 1. Suponga que se cumplen los supuestos vistos en clases y en especialPE(u|X) = 0. Sea xi la i-´esima columna de la matriz n X y suponga que m=1 xim xjm = 0 para todo i 6= j, es decir que las columnas son ortogonales. a) Si la primera columna de X es un vector de unos, ¿qu´e implica el supuesto de ortogonalidad de las columnas de la matriz X? Ayuda: analice algunos elementos de X ′ X. (10 puntos) R. Si la primera columna es unP vector de unos, y usando el supuesto n de ortogonalidad tenemos que m=1 xjm = 0 para todo j = 2, .., k lo que implica que las medias son ceros para todas las variables.

b) Demuestre que el estimador MCO de β1 , ..., βk es equivalente a estimar por MCO el modelo de UNA variable, es decir y = βi xi + u para cada i = 1, .., k. (20 puntos) R El estimador MCO de β1 , ..., βk est´ a dado por la f´ormula usual: βˆ = (X ′ X)−1 X ′ Y

2

Pn Dado que m=1 xjm = 0, tenemos que todos los elementos fuera de la diagonal de X ′ X son ceros (recuerde que la multiplicaci´on es fila por columna). As´ı, 

y adem´as

  X ′X =  

n P 0 0 ··· 0 x22,i 0 · · · .. .. . . .. . . . . 0 0 0 ···

 P P yi  x2,i yi  X ′Y =  . .  . P xk,i yi

0 0 .. . P

x2k,i

    

    

Usando el hecho que la inversa de una matriz diagonal A con elemento aii es diagonal con elemento 1/aii tenemos que 

   βˆ =   

P yi P n x2,i yi P 2 x2,i

.. .

P x yi P k,i x2k,i

      

Ahora, si se estima separadamente el modelo de UNA variable, es decir y = βi xi + u para cada i = 1, .., k, es f´acil notar que, m´ın βi

X (yj − βi xi,j )2 j

obtenemos

P j xi,j yj ˆ βi = P 2 j xi,j P P 2 incluso para i = 1 puesto que j x1,j = j 12 = n, luego βˆi =

P

j

yi

n

c) Suponga que Ud. dispone de la informaci´on dada en el Cuadro 1 P 2 y adicionalmente Ud. sabe que uˆi = 2,5. Usando ´algebra matricial obtenga X ′ X y X ′ Y . Obtenga los estimadores de β1 , β2 , β3 . (10 puntos) R. Como sabemos, debemos multiplicar fila por columna, luego 3

Cuadro 1: Datos x1 x2 x3 y 1 1 -2 1 1 -1 1 -2 1 -1 -1 1 1 1 2 0 1 0 0 0



1 1 X ′ X =  1 −1 −2 1 y





 1 1 1  −1 1 0 ×   −1 2 0



 1 −2  −1 1  5   0 −1 −1  =  1 2  0 0 0

1 1 1 1 1



1 1 X ′ Y =  1 −1 −2 1



 1 1 1  −1 1 0  ×    −1 2 0

y finalmente

1 −2 1 0 0

 0 0 4 0  0 10



   0  = 2    −5



     1/5 0 0 0 0 0 1/4 0  ×  2  =  0,5  βˆ =  0 0 1/10 −5 −0,5

d) Usando los resultados obtenidos en c), testee la siguiente hip´otesis al 5% H0 :



β 1 + β3 β2



HA :



β1 + β3 β2



=



4 0



6=



4 0



Indicaci´on: escriba la hip´otesis de la manera Rβ = r y utilice el test F visto en clases cuya f´ormula est´ a dada por

(10 puntos)

(Rβ − r)′ [R(X ′ X)−1 R′ ]−1 (Rβ − r)/q u ˆ′ u ˆ/(n − k)

4

R. Escribamos la matriz R 

1 0



βˆ1 + βˆ3 − 4 βˆ2



1 0 0 1

y Rβˆ − r, Rβˆ − r =



=



−9/2 1/2



ahora, escribamos R(X ′ X)−1 R′ R(X ′ X)−1 R′

=

= =



1/5 0 ×  0 1/4 0 0    1 1/5 0 1/10 × 0 0 1/4 0 1   3/10 0 0 1/4 

1 0

0 1 1 0



   0 1 0 0 × 0 1  1/10 1 0  0 1  0

luego [R(X ′ X)−1 R′ ]−1 = y as´ı,

(Rβ − r)′ [R(X ′ X)−1 R′ ]−1 (Rβ − r)



= = =

10/3 0 0 4





10/3 0 0 4     −9/2 −90/6 2 1/2



−9/2 1/2



810/12 + 1 = 68,5

y finalmente, 68,5/2 (Rβ − r)′ [R(X ′ X)−1 R′ ]−1 (Rβ − r)/q = = 27,4 ′ uˆ uˆ/(n − k) 2,5/2 5% el valor cr´ıtico de una F(2,2) = 19, luego se rechaza la hip´otesis nula.

2. (50 puntos) Suponga el modelo de regresi´on lineal yi = β1 + β2 x2,i + ui donde ui is independiente e id´enticamente (i.i.d.) con funci´ on √ distribuido −u2i /2σ2 2 de densidad de probabilidad f (ui ) = (1/ 2πσ )e . Asuma que las x’s son no estoc´ asticas y note que x1,i = 1 para todo i. 5



−9/2 1/2



a) Escriba el logaritmo de la funci´ on del verosimiltud l(β1 , β2 , σ 2 ; y, x). (9 puntos) R. El log de la funci´ on de verosimilitud para una observaci´ on es 1 1 (yi − β1 − β2 xi )2 li (β1 , β2 , σ 2 ) = − ln(2π) − ln(σ 2 ) − 2 2 2σ 2 luego el logaritmo de la funci´ on de verosimilitud es la suma, l(β1 , β2 , σ 2 ) = −

n n ln(2π) − ln(σ 2 ) − 2 2

b) Encuentre el Score. (9 puntos)

P

(yi − β1 − β2 xi )2 2σ 2

R. El Score es el vector de derivadas con los siguientes componentes ∂l ∂β1 ∂l ∂β2 ∂l ∂σ 2

P

(yi − β1 − β2 xi ) σ2 P (yi − β1 − β2 xi )xi = σ2 n 1 X = − 2+ 4 (yi − β1 − β2 xi )2 2σ 2σ =

c) Encuentre el estimador MV de β1 , β2 y σ 2 . (9 puntos)

R. Igualando a cero el Score obtenemos los estimadores MV βˆ1

=

βˆ2

=

σ ˆ2

=

y − βˆ2 x P P yi xi − y xi P nx2 − x2i P (yi − βˆ1 − βˆ2 xi )2 n

d) Suponga que Ud. dispone de la informaci´on dada en el Cuadro 2. Obtenga el estimador MV de β1 y β2 . [Puede usar los resultados de ortogonalidad] (9 puntos) R. Usando el resultado del problema 1) parte b) y el hecho que el Cuadro 2 tiene exactamente los mismos valores para x1 , x2 e y, sabemos que βˆ1 βˆ2 6

= 0 = 0,5

e) Suponga que se quiere testear la siguiente hip´otesis: H0 : β1 = f (β2 ) y se estima el modelo obteniendo la siguiente suma de P restringido errores al cuadrado: ni=1 u ˆ2r,i = 10. Adem´as Ud. conoce la suma de Pn los errores al cuadrado del modelo sin restricciones i=1 u ˆ2nr,i = 5. Demuestre que # " n n X X 2 2 u ˆnr,i ) u ˆr,i ) − ln( LR = n ln( i=1

i=1

Realice el test de LR al 5 % usando el valor cr´ıtico de una χ2 con un grado de libertad (3.84). (14 puntos). R. Como vimos en clases LR = 2[l(βˆnr,1 , βˆnr,2 , σ ˆ 2 ) − l(βˆr,1 , βˆr,2 , σ ˆr2 )] Ahora, el logaritmo de la funci´ on de verosimilitud evaluada en el estimador no restringido y restringido est´ a dada por n n l(βˆnr,1 , βˆnr,2 , σ ˆ ) = − ln(2π) − ln 2 2

P

n n = − ln(2π) − ln 2 2

P

2

l(βˆr,1 , βˆr,2 , σ ˆr2 )

u ˆ2nr,i n

u ˆ2r,i n

!

!





n 2

n 2

donde en el tercer t´ermino del log de la funci´ on de verosimilitud viene de reemplazar el estimador de σ 2 para los dos casos. En el segundo t´ermino se reemplaza el estimador de σ 2 por la suma de los errores al cuadrado en ambos casos. As´ı, "

LR = n ln

n X i=1

uˆ2r,i

!

− ln

n X

u ˆ2nr,i

i=1

!#

Evaluando la expresi´on tenemos que, LR = 5[ln(10) − ln(5)] = 3,46

se aprecia que el estad´ıstico LR=3.46 es menor que χ25 % (1) = 3,84, luego no se rechaza la hip´otesis nula H0 : β1 = f (β2 ). Como vimos, MV permite testear hip´otesis no lineales de una manera relativamente sencilla.

7

Cuadro 2: Datos x1 x2 y 1 1 1 1 -1 -2 1 -1 1 1 1 0 1 0 0

Cuadro 3: Valores Cr´ıticos para la F al 5 % df num/df den 1 2 3 4 5 2 18.51 19 19.16 19.25 19.3 3 10.13 9.55 9.28 9.12 9.01 4 7.71 6.94 6.59 6.39 6.26 5 6.61 5.79 5.41 5.19 5.05

8

EXÁMENES

Econometría I Profesores: J.M. Benavente, A. Otero y J. Vásquez. Primavera 2004 Examen Final

Nombre:

...........................................................................................

Rut:

.......................................

Ud. Dispone de 120 minutos para resolver el examen, no puede hacer consultas a los ayudantes, no puede tener nada más que lápiz en su escritorio, si contesta con lápiz mina no tiene derecho a reclamo.

1.

Comentes ( 35 puntos)Debe responder 5 de los siguientes 8 comentes. Debe justificar sus respuestas

Comente 1: ( 7 puntos) La omisión de una variable relevante siempre siempre sesga la estimación MCO de β. Comente. Falso, el sesgo que se produce en el parámetro depende de la covarianza entre la variables explicativas y la omitida, y el valor poblacional de la variable omitida. ˆ = β1 + En un modelo de regresión simple: E(β)

cov(x1 ,x2 ) var(x1 ) βomitida

Si cov(x1 , x2 ) = 0 no existe sesgo, Si βomitida = 0 no existe sesgo. Comente 2: (7 puntos) La presencia de errores no esféricos implica que la estimación de la varianza MCO de V (β) estará sesgada. Comente. ˆ mco = σ El estimador de MCO de la varianza era var( ˆ β) ˆ 2 (x0 x)−1 , sin embargo, en presencia de errores no esféricos y estimando por MCO, la varianza de β que obtenemos es: σ 2 (x0 x)−1 (x0 Ωx)(x0 x)−1 , dado que Ω es una matriz definida positiva, siempre se cumple que: ˆ mco = σ var( ˆ β) ˆ 2 (x0 x)−1 > σ ˆ 2 (x0 x)−1 (x0 Ωx)(x0 x)−1 Donde (x0 Ωx)(x0 x)−1 corresponde al sesgo (> 1). Comente 3: ( 7 puntos) Un estadístico de Durbin-Watson de 4 significa inequivocamente una presencia de autocorrelación positiva. Comente. La hipótesis nula de este estadístico es: Ho : ρ = 0 (no hay autocorrelación), dado que 1

Dw '= 2(1 − ρˆ) podemos apreciar que cuando ρˆ = −1 significa que Dw '= 4. De esta forma si se rechaza Ho : ρ = 0, porque Dw = 4, es en favor de la hipótesis alternativa de autocorrelación negativa. ∴ Falso, inequivocamente hay autocorrelación negativa. Comente 4: ( 7 puntos) Un síntoma de la existencia de multicolinealidad es la presencia de un R2 ajustado alto . Comente. El síntoma corresponde no simplemente a la observación de un R2 alto, sino que además acompañado por estadísticos t que nos hacen concluir que los parámetros no son significativos (t bajos). Esto porque en presencia de multicolinealidades, las varianzas de los estimadores son altas, pues (x0 x) es cercano a cero. Lo que resulta en estadísticos t pequeños. Comente 5: ( 7 puntos) La estimación por Máxima Verosimilitud es MELI. Comente. Falso, el estimador MELI es el de MCO. El estimador MV es asintonticamente más eficiente ya que alcanza la cota de Cramer-Rao, aun cuando en muestras finitas puede ser sesgado. Bajo el supuesto de normalidad,el estimador MV y MCO de β coinciden. Sin embargo, difieren en la estimación de sus varianzas, ya que la varianza de MV es sesgada. De esta forma, MV es el mejor estimador pero en muestras grandes (Cramer-Rao). Comente 6: ( 7 puntos) Si los errores del modelo de regresión lineal no tienen distribución normal, a pesar de que los estimadores OLS ya no son MELI siguen siendo insesgados. Comente. La propiedad de Meli no requiere de un supuesto específico de la distribución de los errores, simplemente requiere que éstas sean iid. Bajo independencia e idéntica distribución (cualquiera sea), MCO será MELI. Comente 7: ( 7 puntos) La inclusión de variables independientes rezagadas no trae consecuencias de sesgo ni de eficiencia en las estimaciones MCO . Comente. Verdadero, cuando se incluyen rezagos de la variable dependiente MCO pierde la propiedad de insesgamiento, pero sigue siendo consistente. Sin embrago, si asumimos fijo los regresores (variables independientes), sus rezagos también los serán y por lo tanto, no se produce ningún problema con las propiedades de MCO. El único peligro es que se puede generar un problema de multicolinealidad. Comente 8: ( 7 puntos) La utilización de la matriz de White permite corregir el problema de heterocedasticidad sin saber a priori la especificación de esta. Comente. Falso, la estimación de White no ”corrige” la heterocedasticidad, sino que permite obtener un estimador consistente de la matriz de varianzas y covarianzas con heterocedasticidad, y de esta forma, poder realizar la inferencia. Efectivamente, esto se puede hacer sin conocer el patrón de heterocedasticidad. Pero no se corrige la heterocedasticidad.

2

2.

Demostraciones ( 40 puntos) Debe responder 2 de las siguientes 4 demostraciones.

Pregunta 1: ( 20 puntos) Demuestre que el R2 ajustado es menor que el R2 . Respuesta: u ˆ0 u ˆ 0 Y MY

(1)

u ˆ0 u ˆ/(n − k) 0 Y M Y /(n − 1)

(2)

R2 = 1 −

¯2 = 1 − R Reemplazando (1) en (2):

2 ¯ 2 = 1 − (1 − R2 ) (n − 1) = (n − k) − (1 − R )(n − 1) R (n − k) (n − k)

¯ 2 = (n − k) − (1 − R2 )(n − 1) = (1 − k) + R2 (n − 1) (n − k)R ¯ 2 = (1 − k) + R2 (n − 1) R (n − k) (n − k) ¯ 2 = 0 + R2 = R2 , por ende son iguales. Para K = 1, R ¯ 2 = (−) + R2 (< 1) ⇒ R ¯ 2 < R2 Para K > 1, R

3

Pregunta 2: ( 20 puntos) Considerando el siguiente modelo de regresión lineal con error de medición en la variable explicativa

Yi = Xi β + ui

ui ∼ N (0, σ 2 )

En donde Xi∗ = Xi + ei Demuestre que el estimador por variables instrumentales se puede escribir como βˆV I

=

ˆ ∗0 X ˆ ∗ )−1 X ˆ ∗0 y (X

=

[X ∗ Z(Z 0 Z)−1 Z 0 X ∗ ]−1 X ∗ Z(Z 0 Z)−1 Z 0 y

0

0

(3)

Respuesta: Modelo verdadero: Yi = Xi β + ui , se observa: Xi∗ = Xi + ei Como Xi∗ está medida con error, se puede utilizar el instrumento Z. Para obtener el estimador de variables instrumentales hago un estimador en dos etapas: Primera etapa: regresión entre Xi∗ y Zi , para obtener Xˆi∗ : Xi∗ = Zi ρ + vi ρˆ = (Z 0 Z)−1 Z 0 X ∗ Xˆ∗ = Z(Z 0 Z)−1 Z 0 X ∗

Segunda etapa: regresión entre Y y Xˆ∗ del modelo original. Yi = Xˆi∗ β + ui 0 0 βˆV I = (Xˆ∗ Xˆ∗ )−1 Xˆ∗ Y

Dado que Xˆ∗ = Z(Z 0 Z)−1 Z 0 X ∗ , podemos escribir βˆV I en función de Z. 0 0 βˆV I = (X ∗ Z(Z 0 Z)−1 Z 0 Z(Z 0 Z)−1 Z 0 X ∗ )−1 X ∗ Z(Z 0 Z)−1 Z 0 Y

0 0 βˆV I = (X ∗ Z(Z 0 Z)−1 Z 0 X ∗ )−1 X ∗ Z(Z 0 Z)−1 Z 0 Y

4

Pregunta 3: ( 20 puntos) Considerando el siguiente modelo de regresión lineal

Yi = Xi β + ui

ui ∼ N (0, σ 2 )

Demuestre que el estimador de MCO de β es igual al estimador Máxima Verosimilitud de β . Respuesta: Sea Y = Xβ + U , para calcular MCo tenemos que: ˆ 0 (Y − X β)] ˆ = m´ın m´ın[(Y − X β) βˆ

N X

βˆ

u ˆ2

i=1

ˆ 0 Y + βˆ0 X 0 X β] ˆ ⇒ m´ın[Y 0 Y − 2βX βˆ

∂ = 0 ⇒ −2X 0 Y + 2X 0 X βˆ = 0 ⇒ βˆM CO = (X 0 X)−1 X 0 Y ˆ ∂β

MV: bajo el supuesto de u ∼ N (0, σ 2 ), la verosimilitud es: L=

−(Y −Xβ)0 (Y −Xβ) 1 2σ 2 e n (2Πσ 2 ) 2

⇒ ln(L) = l = −ln(2Π) − ln(σ 2 ) − ln

³n´ 2



−(Y − Xβ)0 (Y − Xβ) 2σ 2

∂l 1 = − 2 2(Y − Xβ)(−X 0 ) = 0 ⇒ βˆM V = (X 0 X)−1 X 0 Y ∂β 2σ Maximizar l con respecto a β es lo mismo que minimizar (Y − Xβ)0 (Y − Xβ). Para ambos casos se resuelve igual problema, por lo que el estimador resultante es análogo en ambas estimaciones.

5

Pregunta 4: ( 20 puntos) Demuestre que la inclusión de variables irrelevantes disminuye la eficiencia de las estimaciones MCO. Respuestas: Modelo correcto: Y = X1 β1 + u Modelo incorrecto: Y = X1 β1 + X2 β2 + u Recordando la regresión particionada: el estimador de β1 del modelo incorrecto es: βˆ1 = (X10 M2 X1 )−1 X10 M2 Y Donde M2 = I − X2 (X20 X2 )−1 X20 ⇒ βˆ1 = (X10 M2 X1 )−1 X10 M2 (X1 β1 + u) = β1 + (X10 M2 X1 )−1 X10 M2 u ⇒ E(βˆ1 ) = β1 + (X10 M2 X1 )−1 X10 M2 E(u) Como E(u) = 0 ⇒ E(βˆ1 ) = β1 Respecto a la varianza: V (βˆ1 ) = E[(βˆ1 − E(βˆ1 ))(βˆ1 − E(βˆ1 ))0 ] = E[(X10 M2 X1 )−1 X10 M2 uu0 M2 X1 (X10 M2 X1 )−1 ] Como M2 es idempotente y simétrica. V (βˆ1 ) = σ 2 (X10 M2 X1 )−1 X10 M2 X1 (X10 M2 X1 )−1 = σ 2 (X10 M2 X1 )−1 La varianza verdadera (estimando el el modelo correcto) sería: V ∗ (βˆ1 ) = σ 2 (X 0 X)−1 1 1 [V ∗ (βˆ1 )]−1 − [V (βˆ1 )]−1 = 2 (X10 X1 ) − 2 (X10 M2 X1 ) σ σ 1 = 2 X10 [I − M2 ]X1 σ 1 = 2 X10 X2 (X20 X2 )−1 X20 X1 σ Donde esta última es una matriz semidefinida positiva ∴ [V ∗ (βˆ1 )]−1 > [V (βˆ1 )]−1 ⇒ [V ∗ (βˆ1 )] < [V (βˆ1 )] 6

3.

Pregunta Obligatoria ( 45 puntos)

Suponga que un amigo de usted esta interesado en estimar el retorno a la educación utilizando una encuesta de corte transversal, pero no esta muy seguro de los resultados obtenidos. El modelo que su amigo estimó es el siguiente.

Wi = β1 + β2 Dsexoi + β3 Esci + β4 Expei + ui En donde Wi corresponde al logaritmo natural del salario del individuo i , Dsexoi es una variable dicotómica que toma el valor de 1 si el individuo i es hombre, Esci corresponde a los años de educación del individuo i, Expei corresponden a los años de experiencia construida mediante la proxy Expei = Edad − Esci − 6. Los resultados obtenidos de su estimación son los siguientes.

Dependent Variable: W Method: Least Squares Included observations: 4021 after adjustments W=C(1)+C(2)*DSEXO+C(3)*ESC+ C(4)*EXPE

C(1) C(2) C(3) C(4) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood

Coefficient

Std. Error

t-Statistic

Prob.

10.16332 0.347502 0.123967 0.012138

0.061402 0.034635 0.003168 0.000964

165.5208 10.03325

0.0000 0.0000

12.58711

0.0000

0.302890 0.302369 0.701184 1974.992 -4276.154

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat

11.89096 0.839496 2.128900 2.135167

1. (5 puntos) Interprete el parámetro β3 . ¿Es significativo?. ¿Cuánto aumenta en promedio Wi ante un cambio porcentual de 1 % de los años de educación? (Esc) = 9). Respuesta: β3 representa el retorno a la educación, mide el impacto marginal de un año de educación sobre el ingreso. β3 =

∂lnWi ∂ %Wi = ∂ESCi ∂ESCi

Mide en cuanto cambia en términos porcentuales el ingreso, frente a un aumento en un 7

año de educación. Como t =

0,123967 0,003168

= 39,13, (n − k) = 4021 − 4 = 4017 y, además, t4017,95 % = 1,96

Esto implica que tc > tt ⇒ se rechaza Ho : β3 = 0 ⇒ β3 es estadísticamente significativo. A su vez, como: 4 %Wi = β3 4 %ESCESC = 0,123967 ∗ 0,01 ∗ 9 = 0,01115703 = 1,11 % 2. (7 puntos) Si su amigo quisiera testear la hipótesis de que los hombres poseen un mayor retorno a la educación superior. ¿Qué especificación le recomendaría y como testearía la significancia de esta hipótesis?. Respuesta:

Wi = β1 + β2 Dsexoi + β3 Esci + β4 Expei + β5 Dsexo ESCi + ui E[Wi /hombre] = β1 + β2 + β3 Esci + β4 Expei + β5 ESCi E[Wi /mujer] = β1 + β3 Esci + β4 Expei En el caso de los hombres el retorno a la educación es: ∂E[Wi /hombre] = β3 + β5 ∂ESC Para la mujeres: ∂E[Wi /mujer] = β3 ∂ESC Entonces para testear la hipótesis de que los hombres tienen mayor retorno a la educación, habría que ver la significancia de β5 en la especificación anterior (Ho : β5 = 0). 3. (7 puntos) Suponga que el investigador omite en la estimación la variable Expei . Cuáles son los efectos en la estimación del retorno a la educación.(Cov(Expei , Esci ) = −51,04) Respuesta: cov(Expe, ESC) βˆ3 = β3 + β4 V (ECS) 51,04 = β3 − 0,012138 V (ESC) 8

Dado que si incluyéramos la variable experiencia su coeficiente sería positivo y dada la correlación positiva entre EXP y ESC (por la forma en que la experiencia se construye); la omisión de la variable experiencia generaría un sesgo hacia abajo en el parámetro del retorno a la educación. 4. (7 puntos) Su amigo esta preocupado por la posibilidad de que el modelo estimado presente heterocedasticidad. Sin embargo, no tiene muy claro los efectos de este problema y no sabe como tratarla. ¿Cuáles serían teóricamente los efectos sobre las estimaciones realizadas si existiera heterocedasticidad?. Explique detalladamente algún método para testear su presencia. Ante el desconocimiento de la estructura de heterocedasticidad. ¿Cuál sería el consejo que le daría a su amigo?. Respuesta: La presencia de heterocedasticidad no genera problemas sobre la propiedad de insesgamiento del estimador de MCO, pero si sobre su eficiencia. Si se conoce el patrón de heterocedasticidad o se puede estimar, el estimador eficiente es el de MCG o MCF respectivamente. Posibles test: White, G. y Quant, Breusch y Pagan y Glesjer (en apunte está descrito). Si se desconoce el patrón de heterocedasticidad y es difícil de estimar, lo mejor es obtener una estimación consistente de la matriz de varianzas y covarianzas por el método de White, lo que me permite realizar la inferencia de forma correcta. 5. (7 puntos) Suponga que la varianza de los errores está dada por V (u) = σ 2 Expei . Como estimaría el modelo? Qué resultados esperaría en comparación a los resultados obtenidos en la estimación?. Respuesta: Si conozco el patrón de  Expe1 0 0  0 Expe 0 2   0 0 .   0 0 0   0 0 0 0 0 0

heterocedasticidad : σi2 = σ 2 Expei , puedo componer la matriz Ω:  . . 0  . . 0   0 . 0   . 0 .   0 . . . . Expen

Y estimar eficientemente β mediante el método de mínimos cuadrados generalizados: βˆM CG = (X 0 Ω−1 X)−1 X 0 Ω−1 Y Lo que es equivalente a aplicar MCO a un modelo transformado, cuya transformación consiste en dividir cada observación de variable dependientes y explicativas por Expei . 6. (7 puntos) Su amigo esta preocupado, además, por la posibilidad de que el modelo estimado presente autocorrelación. Sin embargo, no tiene muy claro, nuevamente, los efectos de este problema y no sabe como tratarla. ¿Cuáles serían teóricamente los efectos sobre las estimaciones realizadas si existiera autocorrelación?. Su amigo le proporciona además los resultados de una estimación de un proceso AR(1) para los residuos de la regresión original. Construya el estadístico Durwin-Watson y testee la presencia de autocorrelación. Explique intuitivamente por qué este modelo arroja estos resultados. 9

Dependent Variable: RESID01 Method: Least Squares Date: 12/01/04 Time: 12:27 Sample (adjusted): 6 6499 Included observations: 2480 after adjustments RESID01=C(1)*RESID01(-1)

C(1)

Coefficient

Std. Error

t-Statistic

0.0085142

0.020

0.4208

Prob. 0.673

Respuesta: La autocorrelación al igual que la heterocedasticidad, no tiene impactos sobre el insesgamiento, pero si sobre la eficiencia de estimador de MCO. Un posible test es el Durbin-Watson (hay otros, ver apuntes) Si se desconoce el patrón de autocorrelación y no es posible estimarlo eficientemente, se puede utilizar la estimación consistente de la matriz de varianzas y covarianzas utilizando el método de Newey and West, para realizar la inferencia. Si ocupamos DW tenemos que : DW = 2(1 − ρˆ) = 2(1 − 0,0085142) = 1,98 Con lo que se rechaza la hipótesis nula de autocorrelación. El modelo arroja estos resultados, pues es un modelo de corte transversal donde es muy extraño encontrar autocorrelación entre individuos, recordar que la autocorrelación es un problema común de series de tiempo. 7. (5 puntos) Como se mencionó en el enunciado la variable experiencia se construyó como Expei = Edad − Esci − 6. ¿Qué consecuencias puede acarrear esta especificación de la variable experiencia?. Explique detalladamente. Respuesta: Como la variable experiencia es construida a partir de otra variable explicativa (ESC), esto genera un gran grado de asociación entre dos variables explicativas del modelo o multicolinealidad.

10

Econometría I Profesora: Javiera Vásquez. Verano 2005 Examen Comente 1: (10 puntos) Ud. posee información de la estimación de los siguientes modelos: Modelo (1) yi = β0 + β1 x1,i + β2 x2,i + ui (2) yi = β0 + β1 x1,i + β3 x3,i + ui

R2 0.96 0.85

Akaike 2.15 2.10

Schwarz 3.19 2.98

De acuerdo a esta información me debería quedar con el modelo (2). Comente. Falso, de acuerdo a la información reportada me debería quedar con el modelo (1) que es el que tiene un mayor R2 . Si bien el modelo (2) tiene menores criterios de información que el (1), estos modelos no son comparables utilizando los criterios de información ya que no son modelos anidados. Comente 2: (10 puntos) El R2 mide la proporción de la varianza de la variable dependiente que es explicada por la varianza de las variables explicativas, de esta forma, siempre es un número que esta entre 0 y 1. Comente. Depende, cuando el modelo de regresión incluye un término constante, se cumple que: ST = SR + SE, lo que se conoce como la descomposición de varianza, lo que garantiza que el R2 sea siempre positivo. Sin embargo, si el modelo no incluye constante, no se cumple la ecuación anterior de descomposición de varianza y el R2 puede tomar valores negativos, pero sigue siendo siempre menor a 1. Comente 3: (10 puntos) La omisión de una variable relevante siempre sesga la estimación MCO de β. Comente. Falso, la omisión de una variable relevante siempre produce sesgo en los parámetros a menos que la correlación entre la variable omitida y las explicativas incluidas sea cero, el signo del sesgo depende de dos cosas: la correlación entre la variable omitida y las variables explicativas incluidas y el valor del parámetro que tendría asociado la variable omitida (valor poblacional). Para un modelo sencillo con una variable explicativa (x1 ) y una variable omitida (x2 ) se mostró 1 ,x2 ) en clases que el sesgo es: cov(x V (x1 ) β2 . Comente 4: (10 puntos) Si el estadístico Durbin-Watson (DW) tomo el valor de 2, estamos seguros que no existe autocorrelación en nuestro modelo. Comente. Si el estadístico Durbin-Watson toma valor de 2, el coeficiente de correlación asociado a este valor del estadístico es de 0. Recordar que DW ' 2(1 − ρˆ), de esta forma si DW es 2 implica que ρˆ = 0. Sin embargo, como la hipótesis nula es de no autocorrelación en los errores, a pesar de que con este valor del estadístico no puede rechazar la nula, no significa que pueda aceptar que no existe autocorrelación. Además este test sólo sirve para testear autocorrelación de primer orden, entonces a pesar de que no se puede rechazar la hipótesis nula de autocorrelación de este tipo, puede existir autocorrelación de un orden superior. El comente es Falso. 1

Pregunta 1: (15 puntos) Considere la siguiente función de densidad condicional f (y|x) =

λe−λy (λy)x x!

y ≥ 0,

λ≥0

Obtenga el estimador de máxima verosimilitud de λ. Respuesta Pregunta 1: Para cada observación i se tiene la siguiente densidad: f (yi |xi , λ) =

λe−λyi (λyi )xi xi !

La verosimilitud asociada a cada observación i es: µ −λyi ¶ λe (λyi )xi li (λ|yi , xi ) = ln xi ! = ln λ − λyi + xi (ln λ + ln yi ) − ln(xi !)

(1)

De esta forma, aplicando sumatoria a la ecuación (1) obtengo la verosimilitud conjunta: L(λ|y, x) = n ln λ − λ

n X

yi + ln λ

i=1

n X

xi +

i=1

n X

xi ln yi −

i=1

n X

ln(xi !)

i=1

Maximizando (2) con respecto a λ obtenemos el estimador Máximo Verosímil: n

∂L n X = − yi + ˆ ∂λ λ i=1 ˆ n−λ

n X i=1

Pn

yi +

i=1

xi

ˆ λ

n X

xi

= 0 = 0

i=1

2

ˆ λ

=

ˆ λ

=

Pn n + i=1 xi Pn i=1 yi 1+x y

(2)

Pregunta 2: (15 puntos) En el siguiente modelo de regresión lineal simple: yi = βxi + ui

i = 1, ..., n

donde xi esta medida con error, de forma tal que sólo accedemos a la variable x∗i = xi + ωi , iid

con ωi ∼ (0, σω2 ). Demuestre que el estimador de variables instrumentales, es un estimador consistente. Respuesta Pregunta 2: El estimador de variables instrumentales en este caso es: Pn zi yi βˆV I = Pni=1 ∗ z i=1 i xi Entonces, reemplazando yi por su versión poblacional yi = βxi + ui : Pn z (βxi + ui ) Pni βˆV I = i=1 ∗ i=1 zi xi Ahora sumando y restando βωi a la expresión entre paréntesis y operando: Pn i + ui + βωi − βωi ) i=1 zi (βx P βˆV I = n ∗ i=1 zi xi x∗

εi

i z }| { z }| { z (β( x + ωi ) + ui − βωi ) i i=1 i Pn ∗ i=1 zi xi

Pn

βˆV I

=

βˆV I

=

βˆV I

=

β

βˆV I

=

β

Pn

z (βx∗i + εi ) i=1 Pni zi x∗i Pi=1 n z i εi + Pni=1 ∗ z i xi Pi=1 n zi εi /n + Pni=1 ∗ z i=1 i xi /n

Aplicando plim a la expresión anterior: plimβˆV I

Pn plim i=1 zi εi /n Pn plim i=1 zi x∗i /n

=

plimβ +

=

z }| { E(zi εi ) β+ E(zi x∗i ) | {z }

=0

plimβˆV I

6=0

⇒ plimβˆV I

=

β

Para que z sea un instrumento válido debe cumplir con que E(zi εi ) = 0 y E(zi x∗i ) 6= 0, con lo cual se demuestra que el estimador de variable instrumentales es consistente.

3

Pregunta 3: (15 puntos) Considere el siguiente modelo: yt = C(1) + C(2)xt + C(3)yt−1 + ut Del cual se obtiene el siguiente output en Eviews: Dependent Variable: Y Method: Least Squares Date: 01/21/05 Time: 23:31 Sample (adjusted): 1976 2003 Included observations: 28 after adjustments Y=C(1)+C(2)*X+C(3)*Y(-1) Coefficient C(1) C(2) C(3) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood

1.021150 0.271875 0.712607 0.987964 0.987001 1.975875 97.60204 -57.21199

Std. Error

t-Statistic

Prob.

1.074276 0.138389 0.143427

0.950547 1.964572 4.968432

0.3509 0.0607 0.0000

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat

32.68142 17.33004 4.300857 4.443593 1.572226

Testee la existencia de autocorrelación en los errores. Respuesta Pregunta 3: Como el modelo incluye la variable dependiente rezagada como regresor, no se puede utilizar el test de Durbin-Watson. Se tiene que utilizar el siguiente test h-Durbin: µ ¶ r DW n h= 1− · ∼ N (0, 1) 2 1 − nˆ σα2ˆ Utilizando la información de la tabla anterior: DW 1.572226

n 28

σ ˆα2ˆ (0,143427)2

De esta forma, µ ¶ s 1,572226 28 h= 1− · = 1,738115749 2 1 − 28 · (0,143427)2 El valor de tabla de la distribución normal estándar a un 95 % de confianza es 1.960 y a un 90 % de confianza es 1.645, entonces a un 5 % de significancia no se puede rechazar la nula de no autocorrelación en los errores, sin embargo a un 10 % de significancia se rechaza la hipótesis nula. También podemos calcular el p-value: Φ(1,738115749) = 0,9582 p = 2[1 − Φ(1,738115749)] = 0,0836

4

Pregunta 4: (20 puntos) Suponga que Ud. tiene que estimar el siguiente modelo: yi = β1 x1,i + β2 x2,i + ui

con i = 1, ..., 102.

De la cual obtiene los siguientes resultados: · ¸ · ¸ · ¸ 0,5 10 8 0,7 −0,56 ˆ = βˆ = X 0X = Vˆ (β) 0,4 8 10 −0,56 0,7

V (y) = 25,2

a) Realice los test de significancia para cada uno de los parámetros. b) Determine el número de condición de la matriz X, para ver la presencia de colinealidad entre las variables explicativas. Respuesta Pregunta 4: (a) Test de significancia de β1 : 0,5 = 0,59 ∼ tt = t100 ≈ 1,98 tc = √ 0,7 ∴ No se puede rechazar la hipótesis nula de que β1 sea 0, el parámetro no es estadísticamente significativo. Test de significancia de β2 : 0,4 tc = √ = 0,47 ∼ tt = t100 ≈ 1,98 0,7 ∴ No se puede rechazar la hipótesis nula de que β2 sea 0, el parámetro no es estadísticamente significativo. (b) El número de condición de la matriz X, se obtiene con el siguiente coeficiente de Belsley: r λmax γ= λmin donde λmax y λmin son los valores propios de la matriz B=S(X’X)S. En esta caso la matriz (X’X) contiene los elementos necesiarios para construir la matriz S: · Pn ¸ · ¸ Pn x2 10 8 i=1 x1i x2i P X 0 X = Pn i=1 1i = n 2 8 10 i=1 x2i x1i i=1 x2i De esta forma, " 0

B = S(X X)S

= =

0 √1 10

0

· B

√1 10

1 8 10

8 10

¸

1

5



10 8 8 10

¸"

√1 10

0

0 √1 10

#

Continuación Respuesta Pregunta 4: Ahora debemos obtener los valores propios de la matriz B, para cual debemos resolver el siguiente sistema de ecuaciones: ¯· ¯ 1 ¯ 8 ¯

10

|B − λI| ¸¯ λ 0 ¯¯ − 0 λ ¯ 1 ¯ ¯ 8 ¯ 1−λ ¯ 10 ¯ ¯ ⇒¯ 8 ¯ 1 − λ 10 µ ¶2 8 (1 − λ)2 − 10 8 10

¸

·

=

0

= 0 = 0 = 0

(1 − λ) = ⇒ (1 − λ1 ) = ⇒ (1 − λ2 ) =

±

8 10

8 2 ⇒ λ1 = 10 10 8 18 − ⇒ λ2 = 10 10

De esta forma podemos construir el coeficiente de Belsley (recordar que un número mayor a 25 sugiere la presencia de multicolinealidad): s r 18 18 √ 10 γ= = 9=3 = 2 2 10 ∴ No existe evidencia de presencia de multicolinealidad entre las variables explicativas de este modelo.

6

Pregunta 5: (20 puntos) Dado el modelo de regresión: yi = α + εi

donde E(εi ) = 0

V (εi ) = σε2 x2i

y

(a) Encuentre el estimador MELI de α. (b) Encuentre el estimador de la varianza de α. Respuesta Pregunta 5: (a) El estimador eficiente de α es el estimador MCG (ya que conozco la matriz Ω o el patrón de Heterocedasticidad.   2 x1 · · · 0 0  0 x22 · · · 0    Ω= . (3) .. ..  ..  .. . .  . 0 De esta forma Ω−1 es:

 −1



···

1 x21

  =  

···

0 ··· .. . 0

1 x22

0 .. . 0

x2n

0

..

. ···

0 0 .. .

     

(4)

1 x2n

Además como nuestro modelo incluye como variable explicativa sólo la constante, nuestra matriz X es:   1  1    X= .  (5)  ..  1 De esta forma:



X 0 Ω−1 X =

£

1

···

1 1

 ¤    

X 0 Ω−1 Y =

£

1

···

1 1

 ¤   

1 x21

0 .. . 0

1 x21

···

0 ··· .. . 0

1 x22

..

. ··· ···

0 ··· .. . 0

1 x22

0 .. . 0

..

. ···



0 0 .. .

    

1

1 x2n

0 0 .. .

     

−1

⇒α ˆ M CG = (X Ω

−1

X)

0

−1

(X Ω

Y)=

yt t=1 x2t PT 1 t=1 x2t

(b) El estimador de la varianza de α es: 2

σ ˆ Vˆ (ˆ αM CG ) = σ ˆε2 (X 0 Ω−1 X)−1 = PT ε

1 t=1 x2t

7

y1 y2 .. . yT

1 x2n

PT

0

1 1 .. .

 T  X 1  =  t=1 x2t

(6)

 T  X yt  =  t=1 x2t

(7)

Econometría I Profesores: Andrés Otero Javiera Vásquez. Otoño 2005 Pauta Examen

Parte I: Comentes (30 puntos) (Contestar sólo en las líneas disponible) Pregunta 1: (5 puntos) Si en un modelo de regresión de la forma: Yt = βXt + ut el estadístico Durbin-Watson nos indica presencia de autocorrelación, bastará con incluir la variable dependiente rezagada un periodo (Yt−1 ) como regresor para solucionar definitivamente el problema. Comente. Falso, la autocorrelación puede ser provocada por dos cosas: si la variable dependiente tiene una tendencia y esta no esta siendo capturada por las variables explicativas y por un patrón dinámico omitido. En el primer caso incluir la variable Yt−1 como regresor no soluciona el problema, en el segundo caso puede que al incluir un rezago de la variable dependiente se solucione el problema de autocorrelación si es que esta es de orden 1, pero si la autocorrelación es de un orden superior habrá que incluir más rezagos de la variable dependiente como regresor. Pregunta 2: (5 puntos) El problema de error de medición no es preocupante, ya que sólo genera inconsistencia en el estimador MCO de la variable que esta medida con error. Comente. Falso, se puede demostrar que: plim

βˆM CO = β − [Σxx + Σωω ]−1 Σωω β

(No es necesario poner esta ecuación). Es decir, cuando existe error de medida, basta con que sólo una de las variables explicativas este medida con error para generar inconsistencia en todos los parámetros estimadosPpor MCO. Basta con la la matriz W tenga una de sus columnas distinta de cero, para que ωω sea distinta de cero y se genere la inconsistencia. Esto porque una variable explicativa con error contamina toda la matriz (X 0 X). Pregunta 3: (5 puntos) Una de las variables macroeconómicas más estudiadas empíricamente ha sido la tasa de interés real(r). Suponga que usted esta interesado en estimar cuales son las variables que explican el comportamiento de la tasa de interés real. Sin embargo, no dispone de esta serie. Frente a este problema un amigo de usted, gentilmente, le ha ofrecido ayuda. Su amigo le propone construir la tasa de interés real mediante la identidad de Fischer, la cual define a la tasa de interés real como la diferencia entre la tasa de interés nominal y las expectativas de inflación r = i − φe .Donde i corresponde a la tasa de interés nominal y φe a las expectativas de inflación. A partir de esto le ha aconsejado estimar el siguiente modelo

rt = β0 + β1 i + β2 φe + γXt + ²t Donde X es un conjunto de k − 3 variables explicativas tales como tipo de cambio nominal, oferta monetaria, tasa de interés externa y otros. Y ² es un error bien comportado. 1

¿Qué le diría a su amigo acerca de la especificación propuesta? ¿ Cómo esperaría que fuera el ajuste del modelo y la significancia de los parámetros.? Habría que decirle al amigo que esta cometiendo un importante error y que es mejor que revise los libros de econometría de nuevo. El esta proponiendo correr una regresión para una ecuación contable, por lo que por definición el modelo tendrá un buen ajuste y los parámetros serán significativos. La causalidad de la tasa de interés nominal y las expectativas de inflación sobre la tasa de interés real que se esta tratando de estudiar esta dada por definición dada la forma en que se construyó esta última. Pregunta 4: (5 puntos) Es sabido que la presencia de heterocedasticidad arroja problema de eficiencia en las estimaciones. En este contexto el estimador Mínimos Cuadrados Generalizados Factibles será el mejor estimado lineal insesgado. Por lo tanto, siempre es mejor implementar MCGF que la corrección consistente de White. La eficiencia del estimador MCGF depende de la calidad de la estimación del patrón de heterocedasticidad. Si esta estimación es muy mala, por que por ejemplo no estamos seguro del patrón heterocedástico, podemos estar agregando más problemas al modelo. Por lo tanto, en algunos escenarios es mejor utilizar el estimador consistente de White. Pregunta 5: (5 puntos) Un R2 alto siempre nos indica que nuestro modelo esta bien especificado. Comente. Falso, modelos con presencia de multicolinealidad pueden arrojar elevados R2 . Sin embargo, la estimación de los parámetros del modelo será ineficiente arojando conclusiones erróneas sobre la significancia de los parámetros involucrados. Pregunta 6: (5 puntos) El estimador Máximo Verosímil es el más eficiente de todos los estimadores. Comente. Efectivamente, el estimador Máximo Verosímil es el más eficiente de todos los estimadores al alcanzar la cota inferior de Cramer-Rao, que es la mínima varianza asintótica que puede alcanzar cualquier estimador. Sin embargo, esta eficiencia en sólo en forma asintótica, en muestras pequeñas el estimador más eficiente (Teorema de Gauss-Markov) es MCO (si se cumplen los supuestos). Por lo tanto, el comente es falso.

2

Parte II: Ejercicios (Contestar sólo en el espacio disponible) Debe resolver obligatoriamente los siguientes cuatro ejercicios Ejercicio 1: (15 puntos) Con datos de salario por hora y producción por hora para Estados Unidos (1959-1998), se obtienen los siguientes resultados en Eviews: 120 Dependent Variable: SALARIO Method: Least Squares Date: 07/05/05 Time: 19:46 Sample: 1959 1998 Included observations: 40 SALARIO=C(1)+C(2)*PROD

110 100 90 80

Coefficient

Std. Error

t-Statistic

Prob.

29.51925 0.713659

1.942347 0.024105

15.19773 29.60658

0.0000 0.0000

70 C(1) C(2)

60 50

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood

40 1960 1965 1970

1975 1980 1985 1990 1995

produccion por hora

0.958449 0.957356 2.675533 272.0220 -95.09761

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat

85.64500 12.95632 4.854881 4.939325 0.122904

salario por hora

Breusch-Godfrey Serial Correlation LM Test: F-statistic Obs*R-squared

75.13900 32.26962

4

Probability Probability

0.000000 0.000000

Dependent Variable: SALARIO Method: Least Squares Date: 07/05/05 Time: 19:51 Sample: 1959 1998 Included observations: 40 SALARIO=C(1)+C(2)*PROD+C(3)*@TREND

2

0

-2

C(1) C(2) C(3)

Coefficient

Std. Error

t-Statistic

Prob.

0.571953 1.305693 -0.903238

13.59850 0.276476 0.420341

0.042060 4.722620 -2.148822

0.9667 0.0000 0.0383

-4 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood

-6 1960 1965 1970 1975 1980 1985 1990 SALARIO Residuals

1995

C(4) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood

0.914245 0.873615 0.873615 0.910629 31.51134 -51.18093

Std. Error 0.056337

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat

85.64500 12.95632 4.787279 4.913945 0.204600

Dependent Variable: DSALARIO Method: Least Squares Date: 07/05/05 Time: 19:57 Sample (adjusted): 1960 1998 Included observations: 39 after adjustments DSALARIO=C(5)+C(6)*DPROD

Dependent Variable: ERRORES Method: Least Squares Date: 07/05/05 Time: 19:54 Sample (adjusted): 1960 1998 Included observations: 39 after adjustments ERRORES=C(4)*ERRORES(-1) Coefficient

0.963059 0.961063 2.556609 241.8413 -92.74559

t-Statistic 16.22811

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat

Coefficient

Std. Error

t-Statistic

Prob.

4.109836 0.528938

0.656965 0.077395

6.255797 6.834267

0.0000 0.0000

Prob. 0.0000 0.120615 2.561492 2.675945 2.718600 1.472987

3

C(5) C(6) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood

0.557983 0.546037 0.858069 27.24242 -48.34227

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat

8.500412 1.273537 2.581655 2.666966 1.620598

¿Qué puede concluir sobre el modelo estimado?. Sea bastante detallado y utilice las herramientas aprendidas en clases. Respuesta: 1. Se puede ver gráficamente que tanto el salario por hora como la producción por hora tienen un comportamiento tendencial, estos ya es un indicio de que podemos estar en presencia de autocorrelación. (1 punto) 2. La estimación del modelo: salario = β0 + β1 P rod tiene parámetros estadísticamente significativos, con un R2 alto, nos muestra que por cada unidad adicional de producción esto se refleja en un aumento de salario de 0.71 (1 punto), pero podemos ver que tenemos un problema de autocorrelación, ya que el estadístico Durbin-Watson toma un valor de 0.12 con lo cual cae en la zona de rechazo de la nula de autocorrelación en favor de la hipótesis alternativa de autocorrelación positiva (3 puntos). Esto se confirma con el resultado del test de Breusch-Godfrey, ya que tiene un p-value de 0 %, lo que nos indica rechazo de la hipótesis nula de no autocorrelación con 0 % de error tipo I (2 puntos); y con la inspección gráfica de los residuos del modelo, los que claramente tienen el comportamiento esperado bajo autocorrelación positiva (rachas de valores por sobre la media seguidas de rachas de valores por debajo de la media) (2 puntos). 3. Como se menciono en un comienzo la autocorrelación puede ser provocada por la tendencia de las variables, sin embargo, la estimación que incluye una tendencia como variable explicativa muestra que a pesar de que esta es estadísticamente significativa y que los criterios de información nos muestran que esta especificación es mejor a la anterior, el problema de autocorrelación sigue presente (DW=0.2) (2 puntos). 4. Si la tendencia no es sólo lo que causa la autocorrelación, debe ser porque además existe un comportamiento dinámico omitido, el cual debería estar en el error. La estimación de un proceso autorregresivo de primer orden para los errores muestra que efectivamente el error tiene un comportamiento dinámico, el coeficiente de correlación serial es de 0,9 y significativo (1 punto). 5. Al transformar las variables en diferencias: DSalariot = Salariot − 0,9 ∗ Salariot−1 y DP rodt = P rodt − 0,9 ∗ P rodt−1 , y estimar el modelo con estas variables transformadas (primer paso del método de Cochrane-Orcutt), vemos que el problema de autocorrelación ha desaparecido (DW=1.62) (2 puntos). Conclusión: el modelo estimado tiene un problema de autocorrelación provocado tanto por la existencia de una tendencia como de un comportamiento dinámico omitido (1 punto).

4

Ejercicio 2: (15 puntos) Suponga que se tiene el siguiente modelo yt = Xt β + ut

E(ut ) = 0

V ar(ut ) = σ 2 E(yt )2

Explique detalladamente cuales son las consecuencias sobre MCO cuando es aplicado a este modelo ¿Cómo estimaría este modelo? ¿Que estimador utilizaría? ¿ De que dependerá la eficiencia de su estimación?. Plantee una expresión para el estimador óptimo de β y de σu2 . Respuesta: Este modelo presenta heterocedasticidad por lo que las estimaciones por MCO son ineficientes. El patrón que sigue la heterocedasticidad depende del valor esperado de la variable dependiente yt , es decir, E(yt ) = Xt β. Dado que β es desconocido no podemos aplicar el estimador MCG. Sin embargo, podemos aplicar MCGF y el estimador Máximo Verosimilutud (MV). La aplicación del primero requiere una estimación en dos etapas, ya que es necesario obtener βˆ para aplicar el método. De esta forma se puede estimar el modelo por MCO ignorando la heterocedasticidad y luego usar esta estimación para normalizar las variables y aplicar MCGF. Este método será menos eficiente que MV debido a que este último estimará en conjunto todos los parámetros involucrados. (5 puntos) Para encontrar las expresiones de βˆ y σ ˆ 2 lo podían hacer por MV o MCG. Estimador Máximo Verosímil: La función de densidad (equivalente a la verosimilitud) para cada yt ∼ N (xt β, σ 2 (xt β)2 ) es: 1

f (yt ) = p

2πσ 2 (xt β)2

·e

(y −x β)2

− 2σt2 (x tβ)2 t

El logaritmo de la verosimilitud es: 1 1 (yt − xt β)2 l(yt ) = − ln(2π) − ln σ 2 − ln(β) − ln(xt ) − 2 2 2σ 2 (xt β)2 Así, el logaritmo de la verosimilitud conjunta es: l(y) = −

T T X X T T (yt − xt β)2 ln(2π) − ln σ 2 − T ln(β) − ln(xt ) − 2 2 2σ 2 (xt β)2 t=1 t=1

(1)

Maximizando (1) con respecto a β y σ 2 obtenemos las condiciones de primer orden, las cuales nos entregan el estimador MV de ambos parámetros: ∂l ∂β ∂l ∂σ 2

= −

T T ˆ2 ˆ t T 1 X (yt − xt β) 1 X (yt − xt β)x + + =0 x2t x2t ˆ 2 βˆ3 t=1 σ ˆ 2 βˆ2 t=1 βˆ σ

T ˆ2 T 1 X (yt − xt β) = − + =0 2 xt 2ˆ σ 4 βˆ2 t=1 2σˆ2

De (3) tengo: 1 2ˆ σ 4 βˆ2

T X ˆ2 (yt − xt β) t=1

x2t 5

=

T 2σˆ2

(2) (3)

De esta forma el estimador MV de σ 2 es: PT t=1

2

σ ˆ =

ˆ 2 (yt −xt β) ˆ 2 (xt β)

(4)

T

Reemplazando (4) en (2): −

T T ˆ2 ˆ t 1 X (yt − xt β) 1 X (yt − xt β)x T + + x2t βˆ σ ˆ 2 βˆ t=1 x2t βˆ2 σ ˆ 2 βˆ2 t=1 | {z } Tσ ˆ2



= 0

¶ T µ T T 1 X yt + + − βˆ = 0 βˆ βˆ σ ˆ 2 βˆ2 t=1 xt T βˆ =

T X yt x t=1 t

De esta forma, el estimador MV de β es: PT

yt t=1 xt

βˆ =

T

(10 puntos) Estimador MCF: La variables yt , xt y ut transformadas son (para lo cual previamente se debe estimar β): yt∗

=

x∗t

=

u∗t

=

yt yt yt =q = ˆ σt βxt βˆ2 x2t xt xt 1 =q = σt βˆ βˆ2 x2t ut ut ut =q = ˆ σt βx 2 t βˆ2 xt iid

El método de MCF consiste en estimar por MCO el modelo: yt∗ = βx∗t + u∗t , donde u∗t ∼ (0, σ 2 ): βˆM CF

PT =

t=1

PT

yt∗ x∗t

∗ 2 t=1 (xt ) yt 1 ˆ t · βˆ t=1 βx PT ³ 1 ´2 t=1 βˆ P T yt 1 t=1 xt βˆ2 T βˆ2

PT =

=

PT βˆM CF

yt t=1 xt

=

T 6

El estimador MCF de σ 2 corresponde al promedio muestral de la suma de los errores estimados al cuadrados (pero de los errores transformados): PT 2 σ ˆM CF

u∗t )2 t=1 (ˆ

=

PT 2 σ ˆM CF

T

t=1

=

ˆ 2 (yt −xt β) ˆ (xt β)2

T

(10 puntos)

7

Ejercicio 3: (15 puntos) El semestre pasado mostró empíricamente que a los alumnos con mejor rendimiento en los controles les iba mejor en el examen. En esta oportunidad se obtuvo la siguiente regresión estimada:

Modelo 1: Dependent Variable: EXAMEN Method: Least Squares Date: 07/06/05 Time: 16:46 Sample: 1 110 Included observations: 110 EXAMEN=C(1)+C(2)*CONTROLES

C(1) C(2) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood

Coefficient

Std. Error

t-Statistic

Prob.

1.180496 0.664234

0.625536 0.135391

1.887175 4.906056

0.0618 0.0000

0.182248 0.174676 1.023741 113.1888 -157.6550

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat

4.211818 1.126880 2.902818 2.951918 2.024406

a) ¿Qué problemas puede presentar esta estimación?. Explique. b) Especifique Ud. un modelo que le permita explicar la nota del examen incluyendo todas la variables relevantes, y que a su vez le permita testear diferencias por género. Explícitamente, ¿Cómo lo testearía?. c) Ahora plantee un modelo que le permita testear si existen diferencias en la productividad del estudio entre hombres y mujeres (midiendo productividad en horas de estudio). Explique y grafique. Respuesta: a) Presentará serios problemas de omisión de variables relevantes. Ya que es muy probable que el rendimiento del alumno no solo dependa de como le fue en los controles pasados si no de un conjunto de otros regresores. Como por ejemplo las horas de estudio dedicadas para el examen. Como es sabido el sesgo en la estimación dependerá del signo de los parámetros que acompañen a las variables omitidas y de la relación de estas con las variables que si se incluyeron en el modelo. b) Podría ser: N.Examen = β0 + β1 N.Controles + β2 DummyGenero + β3 Xi + ²

(5)

Donde Xi corresponde a un conjunto de variables significativas que explican el rendimiento del alumno en el examen. La manera de testear diferencias por género es a tráves de un test t al parámetro β2 .

8

c) Ahora plantee un modelo que le permita testear si existen diferencias en la productividad del estudio entre hombres y mujeres (midiendo productividad en horas de estudio). Explique y grafique. N.Examen = β0 +β1 N.Controles+β2 DummyGenero+β3 Xi +β4 DummyGeneroHE +² (6) Donde HE corresponde a las horas estudiadas para rendir el examen.

Nota

βΗΕ+βDGΗΕ β0+β2

βΗΕ

β0 Horas Estudiadas

Ejercicio 4: (5 puntos) Sobre la tarea realizada para el curso, responda las siguientes preguntas: a) Señale el modelo estimado y la procedencia de los datos utilizados. b) Principales problemas de su estimación y como los detecto. c) Principales conclusiones. Respuesta:Individual

9

De los siguientes dos ejercicios escoja solo UNO de ellos. (15 puntos) Ejercicio 5: Considere el siguiente modelo: yt = β1 +

xt + ut xt + β2

los resultados de la regresión son : · √ ¸ 6 5 ˆ β= 2

ut ∼ N (0, σ 2 )

con σ ˆ 2 = 16 y

σ ˆy2 = 18

Estos resultados se obtuvieron con la siguiente muestra de valores de X, xt = {−4, −3, −3, −4}. Compute los criterios de información del modelo original y uno que asume que β2 = 0. ¿Cuál prefiere?. [Ayuda: recuerde que cuando el error de un modelo se distribuye normal los criterios de información se pueden escribir en función de σ ˆ2] Respuesta: Cuando el error del modelo de regresión sigue una distribución normal, los criterios de información pueden ser aproximados de la siguiente forma: k n

AIC

=

ln(ˆ σ2 ) + 2

BIC

=

ln(ˆ σ 2 ) + ln(n)

k n

De esta forma, del modelo sin restringir se tiene los siguientes valores de los criterios de información: AIC BIC

2 = 3,773 4 2 = ln(16) + ln(4) = 3,466 4 = ln(16) + 2

El modelo restringido (asumiendo que β2 =0) queda de la siguiente forma: yt yt

= β1 + 1 + ut = β3 + ut

Como es un modelo que sólo incluye una constante el estimador MCO de β3 es: PT yt ˆ β3 = t=1 = Y T El estimador de la varianza del error de este modelo es entonces: PT ˆt t=1 u σ ˆ2 = T −k PT ˆ t=1 (yt − β3 xt ) = T −k PT t=1 (yt − Y · 1) = T −k 2 2 σ ˆ = σ ˆy 10

Por lo tanto, los criterios de información del modelo restingido son: AIC BIC

1 = 3,390 4 1 = ln(18) + ln(4) = 3,237 4 = ln(18) + 2

Finalmente, de acuerdo a los criterios de información es mejor el segundo modelo.

11

Ejercicio 6: Si x tiene una distribución uniforme, es decir: f (xt ) =

1 α

0|t| [95% Conf. Interval] -------------+---------------------------------------------------------------educ | .0998844 .0150975 .0702084 .1295604 exper | .0407097 .0133723 .0144249 .0669946 expersq | -.0007473 .0004018 -1.86 0.064 -.0015371 .0000424 nwifeinc | .0056942 .0033195 1.72 0.087 -.0008307 .0122192 age | -.0035204 .0054145 -0.65 0.516 -.0141633 .0071225 kidslt6 | -.0558725 .0886034 -0.63 0.529 -.2300339 .1182889 kidsge6 | -.0176484 .027891 -0.63 0.527 -.0724718 .0371749 _cons | -.3579972 .3182963 -1.12 0.261 -.9836494 .2676551 ------------------------------------------------------------------------------

8

ECONOMETRIA I /PROFESORA: JAVIERA VASQUEZ DEP ARTAME NTO DE EC ONOM ÍA – UNIVERSIDAD DE C HILE

Con respecto a esta estimación: (i)

Complete la información faltante (5 puntos)

El R2 del modelo representa la proporción de la varianza de la variable dependiente que es explicada por la varianza de las variables explicativas, de esta forma corresponde a la razón entre la suma al cuadrado (SS) del modelo y la suma al cuadrado total:

SSM 36.6476796 = = 0.16409842 SST 223.327441 SSR /(n − k ) 0.44447562/420 R 2 = 1− = 1− = 0.15016672 SST /(n − 1) 0.52301508/427 0.0998844 t educ = = 6.6159563 0.0150975 0.0407097 t expr = = 3.0443304 0.0133723 R2 =

(ii)

¿Qué puede decir sobre la bondad de ajuste del modelo? (5 puntos)

Con respecto a la bondad de ajuste del modelo, tanto el R-cuadrado como el Rcuadrado ajustado indican que las variables explicativas del modelo explican sólo un 15% del comportamiento de la variable dependiente, lo que es relativamente bajo pero no despreciable. (iii)

¿Qué puede decir sobre la significancia del retorno a la educación? (5 puntos)

Comparando el estadístico calculado (6.62) con el valor de tabla se rechaza la hipótesis nula de que el coeficiente sea igual a cero. Lo mismo se puede concluir al observar que el cero no esta incluido en el intervalo de confianza. De esta forma los años de escolaridad es una variable estadísticamente significativa para explicar el logaritmo del salario de las mujeres. (iv)

¿Qué problemas presenta la estimación anterior? (5 puntos)

La estimación anterior presenta sesgo de selección, ya que sólo se esta utilizando a las mujeres que trabajan en la estimación no tenemos antecedentes de ingresos de las mujeres que no participan en el mercado del trabajo, esto hace que la distribución de la variable dependiente este truncada.

9

ECONOMETRIA I /PROFESORA: JAVIERA VASQUEZ DEP ARTAME NTO DE EC ONOM ÍA – UNIVERSIDAD DE C HILE

La siguiente tabla muestra una estimación alternativa del mismo modelo. Heckman selection model (regression model with sample selection)

Log likelihood = -883.8828

Number of obs Censored obs Uncensored obs

= = =

753 325 428

Wald chi2(7) Prob > chi2

= =

75.37 0.0000

-----------------------------------------------------------------------------| Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------lwage | educ | .1066795 .0208209 5.12 0.000 .0658713 .1474876 exper | .0406657 .0132436 3.07 0.002 .0147088 .0666226 expersq | -.0007457 .0003979 -1.87 0.061 -.0015255 .0000341 nwifeinc | .0047293 .0038863 1.22 0.224 -.0028877 .0123463 age | -.0049886 .0062221 -0.80 0.423 -.0171837 .0072064 kidslt6 | -.0974594 .1250796 -0.78 0.436 -.3426109 .1476921 kidsge6 | -.0191121 .0278513 -0.69 0.493 -.0736996 .0354754 _cons | -.40472 .3311825 -1.22 0.222 -1.053826 .2443857 -------------+---------------------------------------------------------------select | educ | .1568112 .0240434 6.52 0.000 .109687 .2039355 nwifeinc | -.0209167 .0045791 -4.57 0.000 -.0298915 -.0119418 age | -.034533 .007576 -4.56 0.000 -.0493817 -.0196843 kidslt6 | -.8921331 .1144159 -7.80 0.000 -1.116384 -.6678821 kidsge6 | -.0385341 .0404704 -0.95 0.341 -.1178545 .0407864 _cons | .4155959 .4726033 0.88 0.379 -.5106895 1.341881 -------------+---------------------------------------------------------------/athrho | .121872 .2608112 0.47 0.640 -.3893085 .6330525 /lnsigma | -.4109284 .0383022 -10.73 0.000 -.4859993 -.3358574 -------------+---------------------------------------------------------------rho | .1212722 .2569754 -.3707639 .5601505 sigma | .6630344 .0253957 .6150822 .714725 lambda | .0804076 .1717962 -.2563066 .4171219 -----------------------------------------------------------------------------LR test of indep. eqns. (rho = 0): chi2(1) = 0.17 Prob > chi2 = 0.6777 ------------------------------------------------------------------------------

Al respecto se le pide que conteste las siguientes preguntas: (v)

¿De que manera esta estimación soluciona el problema mencionado en la parte (iv)?. Explique teóricamente. (15 puntos)

Lo que hace la estimación es estimar el modelo original pero corrigiendo por el problema de truncamiento de la variable dependiente, sabemos que cuando la variable esta truncada la media de la variable cambia agregándole el inverso de mill evaluado en el punto de truncamiento. En los modelos de sesgo de selección o truncamiento incidental el inverso de mill no se evalua en un punto fijo sino que en una set de variables explicativas por sus respectivos coeficientes que son los que determinan la probabilidad de estar o no truncado. La ecuación que se estima y que corrige el problema de sesgo de selección es la siguiente: 10

ECONOMETRIA I /PROFESORA: JAVIERA VASQUEZ DEP ARTAME NTO DE EC ONOM ÍA – UNIVERSIDAD DE C HILE

E[Yi | X i , Z i , S = 1] = X i β + ρλ ( Z i γ ) Donde S es la variable indicador de selección, cuya probabilidad de que sea igual a uno es estimada utilizando las variables Z, y γ son los coeficientes de esta estimación. La variable λ() es el IMR que corrige el problema de truncamiento pero no basado en un umbral fijo, sino con las variables que determinan la probabilidad de selección. El no incorporar la variable lambda o inverso de mill equivale a omitir una variable relevante por lo que los parámetros serán sesgados en la medida que exista una correlación importante entre la variable omitida y las variables incluidas en la estimación y en la medida que la variable omitida sea realmente relevante (o sea significativa). En la tabla anterior veíamos que la educación, ingreso familiar, edad y número de hijos menores de 6 años son importantes para explicar la probabilidad de que la mujer trabaje o no. (vi)

¿Por qué cambia la estimación del retorno a la educación?¿esta siendo sub o sobre estimado?¿porque? (10 puntos)

Vemos que el retorno a la educación cambia marginalmente entre una estimación y otra, en la primera estimación el coeficiente estaba siendo subestimado indicando que la correlación entre el inverso de mill y educación es negativa. Esto se debe a que a mayor años de escolaridad la probabilidad de trabajar aumenta (tal como lo muestra la estimación anterior), y con esto disminuye la probabilidad de estar truncado. (vii)

¿con cual de las dos estimaciones se quedaría Ud.? (5 puntos)

Ya habíamos mencionado que no se ven diferencias significativas en el retorno educación sin corregir por que la muestra esta truncada y corrigiendo. Además el test de hipótesis sobre el coeficiente rho, indica que no se puede rechazar que este sea igual a cero, es decir, el inverso de mill no es estadísticamente significativo, indicando que el problema de sesgo de selección no era tan grave. Por lo tanto, me debería quedar con la estimación MCO que es la más eficiente y la mejor considerando que el problema se sesgo de selección no es relevante.

11

ECONOMETRIA I /PROFESORA: JAVIERA VASQUEZ DEP ARTAME NTO DE EC ONOM ÍA – UNIVERSIDAD DE C HILE

Pauta Examen Final Econometr´ıa I Profesor: Tom´as Rau Binder Ayudante: Victor Nahuelpan 23 de enero Tiempo Total: 180 Minutos. Puntaje Total: 150 puntos.

1.

Comente las siguientes afirmaciones. Diga si ´ estas son verdaderas, falsas o inciertas y justifique su respuesta. (30 puntos en total, 5 puntos c/u, m´ aximo 5 renglones)

a) La presencia de error de medida produce que el estimador MCO sea sesgago e inconsistente. R. Incierto: si el error de medida es en la variable dependiente, este s´olo producir´a errores est´ andar m´as elevados, pero el estimador MCO seguir´a siendo insesgado y consistente. Por otra parte, si el error de medida es en las variables independientes, efectivamente, el estimador MCO ser´a sesgado e inconsistente. b) La multicolinealidad implica que necesariamente aumente la probabilidad de cometer error de tipo II. R. Verdadero. Si existe multicolinealidad (no exacta, si la multicolinealidad es exacta el estimador MCO no existe) los errores est´ andar ser´an muy elevados, con lo cual, los estad´ısticos ser´an peque˜ nos (por ejemplo el estad´ıstico t o F) y tenderemos a no rechazar la hip´otesis nula, aun cuando esta sea falsa. Por definici´on, el error tipo II es el que se comete cuando uno no rechaza la hip´otesis nula cuando ella es falsa, luego estaremos m´as expuestos a este tipo de error. c) Dado que el estimador de MCG es MELI, siempre deber´ıamos usar este m´etodo en lugar de MCO. R. Incierto. Si bien es cierto que el estimador MCG es MELI ante perturbaciones no esf´ericas, no es menos cierto que el estimador MCO tambi´en es MELI si se cumplen los supuestos del Teorema de Gauss-Markov. En el caso de perturbaciones no esf´ericas, la matriz Ω es generalmente desconocida, luego es posible estimar usando MCF en lugar de MCG. En consencuencia, el comente s´olo es verdedaro en el caso que Ω es conocida y es diferente a la matriz de identidad. En todos los dem´ as casos es falso. d) La estimaci´ on por el m´etodo de variables instrumentales es muy u ´ til para los casos en que el residuo est´ a correlacionado con las variables independientes. R. Vedadero. El m´etodo sirve para esos casos, puesto que se viola el supuesto de que las variables independientes y el residuo no est´en correlacionadas. Un ejemplo que vimos en clases es cuando hay error de medida en las variables dependientes. Esto bajo el supuesto de que tenemos buenos instrumentos, que est´en correlacionados con la variables independientes y no correlacionados con el residuo. 1

e) El m´etodo de Cochrane-Orcutt sirve para obtener un estimador eficiente cuando estamos en presencia de autocorrelaci´ on. R. Incierto. Es verdadero si la Autocorrelaci´ on es de primer orden, es decir, el proceso del error sigue un proceso AR(1). Es falso o incierto si la autocorrelaci´ on es de mayor orden. f) El criterio de informaci´ on bayesiano (BIC) es mayor al criterio de Akaike (AIC) cuando n > 3. R. Verdadero. De acuerdo a las f´ ormulas que vimos en clases, la u ´ nica diferencia entre el criterio BIC y AIC es la manera en que penalizan la saturaci´on del modelo (la p´erdida de grados de libertad). Mientras el criterio AIC suma k/n el criterio BIC suma ln(n) × k/n. Luego, si n > 3, tenemos que BIC − AIC = ln(n) − 1 > 0.

2.

Problema de Desarrollo (50 puntos)

Considere el siguiente modelo de regresi´on lineal: y = β0 + β1 x1 + β2 x2 + u donde u satisface todos los supuestos vistos en clases. a) Suponga que Ud. no dispone de informaci´on para la variable x2 y posee una muestra aleatoria simple para x1 e y. ¿De qu´e manera afecta al estimador MCO de β1 si Ud. omite la variable x2 del modelo de regresi´on lineal? (5 puntos) R. La omisi´ on de una variable relevante, implica que el estimador MCO ser´a sesgado. La direcci´ on del sesgo depender´a del signo del par´ ametro de la variable omitida (β2 ) y del signo de la covarianza de la variable omitida (x2 ) y con aquella que est´ a en el modelo (x1 ). Si β2 o cov(x1 , x2 ) = 0, la omisi´on de la variable x2 no sesga la estimaci´ on de β1 . b) Suponga ahora que Ud. consigue informaci´on para la variable x2 pero es advertido que esta fue medida con error. ¿De que manera afecta al estimador MCO de β2 si Ud. estima el modelo con la informaci´on disponible? (5 puntos) R. El error de medida siempre produce un sesgo de atenuaci´on (hacia abajo) en la variable que se midi´ o con error. Luego este caso no est´ a excento de dicho problema. c) Suponga que Ud. finalmente consigue una muestra aleatoria simple para las variables y, x1 y x2 donde se le garantiza que no sufren de problemas de medici´on, la cual est´ a dada en el cuadro 1. Cuadro 1: Datos y x1 x2 2 2 0 -2 -1 2 1 0 0 -1 -1 -2

Evalue la matriz X ′ X. ¿Qu´e puede decir acerca de la relaci´on entre x1 y x2 ? ¿Como cambia su respuesta en a)? (5 puntos)

2

R. La matriz X ′ X es diagonal y est´ a dada por: 

4 0 X ′X =  0 6 0 0

 0 0  8

Esto implica que las variables son ortogonales entre ellas, luego el producto punto entre x1 y x2 es cero y tambi´en lo es su covarianza. La respuesta en a) cambia puesto que omitir x2 no produce problemas en la estimaci´ on de β1 d) Obtenga el estimador MCO de β0 , β1 y β2 (10 puntos) R. La estimaci´ on MCO entrega los siguientes valores:     β0 0 βˆ =  β1  =  7/6  β2 −1/4 e) Calcule los errores est´ andar y el R2 , ¿Qu´e puede decir acerca de la calidad de los datos? (10 puntos) R. Los errores est´ andar son los siguientes:    SE(βˆ0 ) 0,577 ˆ =  SE(βˆ1 )  =  0,471  SE(β) 0,408 SE(βˆ2 ) 

y el R2 = 0,866. A la luz de los errores est´ andar, notamos que los test-t son en general bajos (de hecho ninguna variable es significativa al 5 % si vemos los valores cr´ıticos en el Cuadro 1) y el R2 es relativamente alto, esto sugiere un potencial problema de multicolinealidad, pero debemos hacer una inspecci´on m´as formal para determinarlo. f) Obtenga el n´ umero de condici´on (condition number ) y discuta si estamos en presencia de multicolinealidad. Ayuda: recuerde que los valores propios de una matriz A, corresponde a las ra´ıces de la siguiente ecuaci´ on |A − λI| = 0. (15 puntos) p R. La matriz que debemos calcular es S ′ (X ′ X)S donde el elemento si,j = 1/ x′i xj donde xi es el vector columna que contiene todas las observaciones para la variable xi . Luego, una simple inspecci´on nos muestra que S ′ (X ′ X)S = I, es decir la matriz de identidad. Los valores propios de una matriz p identidad son iguales a 1. Luego el n´ umero de condici´on es igual aγ = λmax /λmin = 1 < 25, y de acuerdo a este criterio no habr´ıa multicolinealidad.

3.

Problemas de An´ alisis

Problema I (40 puntos) Keynes postul´ o que la propensi´on marginal a consumir (P M C = ∆Ct /∆Yt ) est´ a acotada entre 0 y 1. El tambi´en postul´ o que la propensi´on media a consumir (P M EC = Ct /Yt ) disminuye a medida que el ingreso disponible aumenta.

3

a) Especifique la funci´ on lineal de consumo Keynesiana. Muestre que el supuesto de que la PMEC decrece con el ingreso implica que el itercepto es positivo. (5 puntos) R. La funci´ on de consumo Keynesiana se puede escribir como una relaci´on lineal entre el consumo y el ingreso disponible. Ct = β0 + β1 Yt Se puede ver que P M EC =

Ct β0 = + β1 Yt Yt

Luego para que P M EC sea decreciente a medida que aumenta Yt , β0 tiene que ser positivo. Si este es igual a 0, la PMEC es constante. Si este fuera negativo, la P M EC ser´ıa creciente. b) Usando datos per c´ apita anuales, la estimaci´ on de la funci´ on de consumo para Estados Unidos fue la siguiente para el per´ıodo 1929-1938:

C

=

981,35 + 0,735Y , R2 = 0,98 (158,65) (0,038)

¿Puede Ud. rechazar la hip´ otesis nula que la pendiente es mayor que cero? ¿ y menor que uno? Testee la hip´otesis que el intercepto es igual a cero. (10 puntos) R. Asumiendo que los supuestos vistos en clases se cumplen, el estad´ıstico t para PMC es -6.97, luego no se rechaza la hip´ otesis nula H0 : β1 ≤ 1 ante la alternativa H0 : β1 > 1 al 5 %. Note que es un test a una cola donde la zona de rechazo est´ a en la cola derecha con unvalor cr´ıtico aproximadod e 1.895 y entonces t = −6,97 < 1,895. Para la hip´ otesis nula H0 : β1 > 0 y H1 : β1 ≤ 0 tenemos que el estad´ıstico t=19.34 y el valor cr´ıtico es -1.895 (la zona de rechazo est´ a en la cola izquierda). Luego, t = 19,34 > −1,895 con lo cual no se rechaza la hip´ otesos nula. Finalmente, la hip´ otesis nula H0 : β0 = 0 con la alternativa Ha : β0 6= 0 se rechaza puesto que t=6.18 el cual es mayor que el valor cr´ıtico 2.365. c) Dada la identidad del producto para una econom´ıa cerrada Yt = Ct + It + Gt muestre por qu´e los economistas notaron una implicancia de pol´ıtica muy importante del hecho que la PMEC disminuya en el tiempo (debido a que el producto crece). (10 puntos) R. Si dividimos la identidad por Yt tenemos que, 1=

Ct It Gt + + Yt Yt Yt

luego, si la P M EC decrece para mantener la igualdad debe crecer el gasto p´ ublico o la inversi´ on respecto al producto. El candidato m´as probable era el gasto p´ ublico, lo cual es b´ asicamente una pol´ıtica fiscal expansiva. 4

d) Simon Kuznets, que gan´ o el premio Nobel de econom´ıa, junt´ o datos sobre gasto en consumo e ingreso desde 1869 y 1938 y encontr´ o que la PMEC era relativamente constante en el tiempo. Para reconciliar este hecho con los resultados de la regresi´on, Milton Friedman, tambi´en premio Nobel. formul´o su hip´otesis del ingreso permanente. En esencia Friedman postul´ o que tanto el consumo como el ingreso son medidos con error. Ct∗ = Ct + vt , Yt∗ = Yt + wt donde Ct y Yt son el consumo e ingreso “permanente” respectivamente y vt y wt son los errores de medida que fueron llamados consumo e ingreso transitorios respectivamente. Friedman pensaba que los componentes transitorios eran s´olo errores aleatorios, no correlacionados con las t´erminos permanentes. Considere que el consumo e ingreso permanente est´ an relacionados de la siguiente manera: Ct = k × Yt as´ı la PMC y PMEC son iguales y adem´as constantes en el tiempo. Por u ´ ltimo, asuma que el consumo e ingreso transitorio (vt y wt ) son errores independientes. Muestre que si estimamos la regresi´on con los datos observados (Ct∗ e Yt∗ ) la PMC estar´ a sesgada hacia abajo y el intercepto ser´a mayor que cero, incluso en muestras grandes. Para simplificar el an´alisis asuma que Ct e Yt son independientes. (15 puntos) R. Recuerde que en presencia de error de medida en la variable independiente tenemos que

plimβˆ1 donde SY2 = plim n1 tenemos que,

Pn

i=1

=

β1 1+

2 σω 2 SY

Yi2 . Luego, en este caso β1 = k y por lo tanto βˆ1 < k. Para el intercepto

βˆ0

plimβˆ0

= C ∗ − βˆ1 Y ∗ = C + v − βˆ1 Y − βˆ1 w = β0 + β1 Y − βˆ1 Y − βˆ1 w + v = β0 + (β1 − βˆ1 )Y − βˆ1 w + v = β0 + (β1 − plimβˆ1 )µY σ2 = β0 + β1 2 w 2 µY σw + SY

Luego, plimβˆ0 > β0 .

Problema II (30 puntos) Sir Francis Galton (1822-1911), un antrop´ologo y primo de Charles Darwin, cre´ o el t´ermino Regresi´ on a la mediocridad en estatura hereditaria, Galton compar´o la altura de los hijos con la de sus padres, usando una muestra de 930 hijos y 205 parejas. En esencia, el encontr´o que padres altos (bajos) tienen altos (bajos) hijos, pero que los ni˜ nos no ser´an tan altos (bajos) como sus padres, en promedio. Luego, habr´ıa lo que conocemos como regresi´on a la media, o como Galton se refiri´o, regresi´on a la mediocridad. Este resultado es una falacia si se intenta inferir este comportamiento a lo largo del tiempo. Si fuera verdad, la varianza de la altura en humanos hubiese disminuido de generaci´ on en generaci´ on y ese no es el caso. 5

a) Para investigar acerca este resultado Ud. junta datos de estudiantes universitarios y sus padres y estima la siguiente relaci´ on:

Ae

=

0,5 + 0,7 × Ap , R2 = 0,45, n = 1000 (0,7) (0,32)

donde Ae es la altura del estudiante medida en centim´etros y Ap es la altura del padre del estudiante. Los valores entre par´entesis son los errores est´ andar corregidos por heterocedasticidad. Haga un gr´afico con esta l´ınea de regresi´on junto con una l´ınea de 45 grados y explique por qu´e el resultado encontrado arriba sugiere regresi´ on a la media. (10 puntos) R. Graficando la recta tenemos que

El resultado sugiere regresi´on a la media puesto que los hijos de padres bajos ser´an m´as altos que sus padres y los hijos de padres altos ser´an m´as bajos que sus padres. Si esto sucede de generaci´ on en generaci´ on, tenemos que la altura de las personas converger´ a a un valor medio. b) Investigando la literatura m´edica Ud. encuentra que la altura depende, en una proporci´on important´ısima, de un gen llamado “phog” y de factores ambientales. Suponga la altura del hijo(a) est´ a determinada por el padre y que padre e hijo(a) tienen exactamente el mismo gen el cual no cambia en el tiempo y que la altura es medida con error de la siguiente manera: Xi,h = f (Xi ) + vi,h , y Xi,p = f (Xi ) + ui,p donde Xi,h es la medida de la altura del hijo h que tiene un gen Xi y los factores ambientales est´ an dades por vi,h para el hijo y ui,p para el padre. La estatura medida del padre est´ a dada por Xi,p . Considere que los factores ambientales son independientes el uno del otro y adem´as son independientes del gen. Combinando las dos ecuaciones, encuentre una funci´ on de regresi´on poblacional y discuta su relaci´on con la “falacia de Galton”. (10 puntos) 6

R. Restando las dos ecuaciones tenemos la siguiente funci´ on de regresi´on poblacional: Xi,h = Xi,p + (vi,h − vi,p ) claramente esta funci´ on no se condice con la “falacia de Galton” puesto que el intercepto es igual a 0 y la pendiente es igual a 1, por lo tanto seg´ un esta especificaci´ on no habr´ıa regresi´on a la media. c) ¿C´omo testear´ıa las dos restricciones implicitas en la funci´ on de regresi´on poblacional encontrada en b)? ¿A la luz de lo que encontr´ o en sus estimaciones en a?, ¿c´omo testear´ıa si estas restricciones se cumplen o no? (10 puntos) R. las restricciones son que e intercepto sea igual a cero y la pendiente igual a uno. Para testear las dos restricciones habr´ıa que hacer un test conjunto como el test de Wald o un test F. Con lo encontrado en b) y s´olo con la informaci´ on que tenemos de b), la u ´ nica manera de testear esas hip´otesis separadamente mediantes test-t. Los valores de los test-t son para el intercepto t = 0,71 y para la pendiente t = −0,93, luego no se rechaza ninguna de las dos hip´otesis. Esto no nos ayuda mucho, puesto que como se dijo anteriormente la u ´ nica manera de testear este modelo correctamente es haci´endolo con un test de hip´otesis conjunta.

Cuadro 2: Valores Cr´ıticos para una distribuci´ on t-Student n-k 1 2 3 4 5 6 7

90 % 3.078 1.886 1.638 1.533 1.476 1.44 1.415

95 % 6.314 2.92 2.353 2.132 2.015 1.943 1.895

97.50 % 12.71 4.303 3.182 2.776 2.571 2.447 2.365

7

99 % 31.82 6.965 4.541 3.747 3.365 3.143 2.998

99.50 % 63.66 9.925 5.841 4.604 4.032 3.707 3.499

AYUDANTÍAS

Ayudantía de Econometría 17 de Junio 2004 Heterocedasticidad y Autocorrelación Profesores: Javiera Vasquez y Andres Otero 1. Considere el siguiente modelo: Yi = β + ε

⎡1⎤ Y = ⎢⎢3⎥⎥ ⎢⎣5⎥⎦

0⎤ ⎡1 0 ⎢ σ Ω ε = ⎢ 0.5 0 ⎥⎥ ⎢⎣ 0.2⎥⎦ 2

a) Calcule βˆ MCO y βˆ MCG b) Calcule Var( βˆ MCO ) y Var( βˆ MCG ) c) Calcule la Var( βˆ MCO ) que resultaría de un modelo sin heterocedasticidad. d) ¿Cuál estimador es más eficiente? 2. Considere ahora N=50 en las siguientes estimaciones calculadas a partir de los residuos de mínimos cuadrados ordinarios. e 2t = aˆ 0 + aˆ1et2−1 + aˆ 2 et2− 2 + vt e 2t = cˆ 0 + cˆ1 x t21 + cˆ 2 x t + wt

R 2 = 0 .5 R 2 = 0 .6

e t = bˆ0 + bˆ1 xt + bˆ2 et −1 + bˆ3 et − 2 + vt e t = bˆ0 + bˆ1et −1 + wt

R 2 = 0 .9

R 2 = 0 .4

a) Evalúe la existencia de autocorrelación de orden 2 utilizando un test asintótico b) Evalúe la existencia de heterocedasticidad utilizando un test F de bondad de ajuste. 3. Considere la siguiente información para responder las siguientes preguntas. ⎡ 3 ⎤ ⎢ 2 ⎥ ⎥ ⎢ Y = ⎢2.75⎥ ⎥ ⎢ ⎢ 1 ⎥ ⎢⎣ 0 ⎥⎦

⎡1 ⎤ ⎢ 2⎥ ⎢ ⎥ X = ⎢2⎥ dónde el modelo a estimar es yi = βxi + u i ⎢ ⎥ ⎢5 ⎥ ⎢⎣1⎥⎦

con i = 1,2, K 5 .

3.1) Si u i ~ N (0, i 2 )

3.1.1) Muestre cual es la variable dependiente e independiente que debe utilizar para calcular βˆ MCO y βˆ MCG . 3.1.2) Muestre cuanto vale Ω

3.2) Si con la información del apartado 3.1) Usted obtuvo los siguientes resultados βˆ MCO = 0.5 , βˆ MCG = 1.22 , Var( βˆ MCG ) = 0.3 y

⎡⎛ j ⎞ ∑ ⎢⎜⎝1 − L + 1 ⎟⎠ ∑ e e [x ' x 2

j =1

5



3.2.1) Evalúe si

t = j +1

t t− j

t

t− j

⎤ + xt − j ' xt ⎥ = 0.5 ⎦

]

β = 0.5 asumiendo que existe heterocedasticidad del tipo

u i ~ N (0, i 2 ) con i = 1,2, K 5

3.2.2) Evalúe si β = 1 asumiendo que el problema no es el señalado en 3.1, sino que existe autocorrelación.

4. Considere el modelo: yt = α + ε t

ε t = u t - u t -1

u ~ N(0,5)

⎡4⎤ Si y = ⎢⎢5⎥⎥ , obtenga el estimador de α ⎢⎣3⎥⎦ 5. Considere el siguiente MRL donde se cumplen todos los supuestos de MCO. Yi = βX i + u i ⎡4⎤ ⎡1⎤ ⎢3⎥ ⎢2⎥ ⎢ ⎥ donde Y = y X =⎢ ⎥ ⎢ − 6⎥ ⎢− 3⎥ ⎢ ⎥ ⎢ ⎥ ⎣ − 1⎦ ⎣0⎦ Sin embargo, se presume que puede existir heterocedasticidad. a) ¿ Cuál es el usual estimador de la varianza de βˆ en una estimación de MCO? b) ¿Cuál es la matriz de varianza y covarianzas de White? c) Realice un test de White para probar la existencia de heterocedasticidad.

d) Realice un test de Lagrange Multiplier para testear autocorrelación (con un rezago), ¿cuál es la hipótesis alternativa para este caso en particular? Para este apartado usa en vez de la información original, los siguientes vectores: ⎡4⎤ ⎡1⎤ ⎢3⎥ ⎢2⎥ ⎢ ⎥ ⎢ ⎥ Y = ⎢− 6⎥ y X = ⎢− 3⎥ ⎢ − 1⎥ ⎢0⎥ ⎢ ⎥ ⎢ ⎥ ⎣6 ⎦ ⎣3⎦ 6. Considere la siguiente estimación entre el retorno de las acciones de Microsoft y el retorno de mercado medido por el retorno asociado al índice de Dow Jones. Dependent Variable: RMICROSOFT Method: Least Squares Included observations: 150 after adjusting endpoints Variable

Coefficie Std. Error t-Statistic nt

Prob.

C RDOW JONES

0.003845 0.002445 1.572531 0.941777 0.110496 8.523149

0.1167 0.0000

150 ⎡0.0028 − 0.015⎤ ⎡0.7679 0.0012⎤ ei2 xi ' xi = ⎢ ( X ' X ) −1 = ⎢ ∑ ⎥ 5.6914 ⎦ 0.0004⎥⎦ i =1 ⎣ ⎣ 5 ⎡ ⎤ ⎡0.8718 − 0.0007⎤ j ⎞ 150 ⎛ 1 − ⎟ ∑ et et − j xt x't − j + xt − j x't ⎥ = ⎢ ⎢⎜ ∑ 0.0003 ⎥⎦ L + 1 ⎠t = j +1 j =1 ⎣⎝ ⎣ ⎦

[

150

150

∑ et et −1 1 150

∑e

2 t −1

]

= 0.25

∑e

2 t

1

148

= 0.052

1

a) Evalúe la existencia de autocorrelación de orden 1. b) Basándose en la conclusión obtenida en a), evalúe la hipótesis nula de que el retorno de Microsoft es igual al retorno del mercado.

Resoluci´on Problema 5 y 6 Ayudant´ıa Econometr´ıa 17 de Junio Profesores Javiera V´asquez y Andr´es Otero Preparado por Javier Fern´andez

Problema 5: A) El estimador de la varianza de βˆ es σ ˆ 2 (X 0 X)−1 , para lo cual necesitamos ˆ y luego con este, los eˆ (para estimar σ obtener el β, ˆ 2 ), por lo tanto: 28 βˆ = (X 0 X)−1 X 0 Y = = 2, 14 Con lo que  

Yˆ =   

2 4 −6 0





  ,e ˆ= 

   

2 −1 0 −1

  4+1+0+1 eˆ0 eˆ  2 = = 2, ,σ ˆ =  n−k 4−1

2 1 Vd ar(βˆmco ) = = 14 7

B) La matriz de varianzas y covarianzas de White (S0 ) esta definida de la siguiente forma: n 1X S0 = eˆ2 x~i 0 x~i n i=1 Donde x~i es un vector fila correspondiente a la iesima observaci´on, por lo tanto: 1 S0 = [4 ∗ (1)2 + 1 ∗ (2)2 + 0 ∗ (−3)2 + 1 ∗ (0)2 ] = 2 4

C) Para realizar un test de White necesitamos primero estimar por MCO (que ya fue hecho en partes anteriores) y luego correr una regresi´on entre el error estimado al cuadrado de la regresi´on MCO y todas las combinaciones posibles de X (notar que los regresores de esta regresi´on son todos combinaciones de variables o variables al cuadrado), sin olvidar la constante, pues usaremos el R2 de la regresi´on. En este caso, como la matriz X tiene solo una columna, el regresor es X 2 , con lo cual, si Y = eˆ2 y Z es una matriz que posee una columna de unos, y otra con X 2 , la regresi´on entre Y y Z en desviaciones de

1

media resulta como sigue:    

Y −Y =

2,5 −0,5 −1,5 −0,5





    ,Z − Z =   

−2,5 0,5 5,5 −3,5

  −13  ˆ ,β =  49

Con los resultados anteriores se puede obtener el R2 de la regresi´on, para realizar el test de White: βˆ0 Z 0 M0 Z βˆ R2 = = Y 0 M0 Y

h

−13 49

i2

9

∗ 49

= 0,3832

TW hite = n ∗ R2 = 4 ∗ 0,3832 = 1,5328 Lo que se compara con 3.84, que es el T critico proveniente de una χ2 con p − 1 grados de libertad, donde p es el numero de par´ametros de la regresi´on auxiliar; dado lo anterior, no se rechaza la hip´otesis nula de este test, que es de Homocedasticidad. D) En este caso, lo que hace el test de Breusch-Godfrey (LM) es estimar por MCO, y luego correr una regresi´on con el error estimado resultante dependiendo de una constante (pues se usa el R2 ), las variables X, y rezagos del error. Luego el test es n ∗ R2 y debe distribuirse bajo la nula como una χ2p , donde p es el numero de rezagos del error incluidos en la regresi´on.     Y =   

4 3 −6 −1 6





      , X =       

1 2 −3 0 3





   46  , βˆ = = 2, eˆ =  23  

      

2 −1 0 −1 0

       

Ahora se corre una regresi´on entre:    

eˆ = 

−1 0 −1 0





     y Z =  

1 2 2 1 −3 −1 1 0 0 1 3 −1

    

Al hacerlo en desviaciones de media, el βˆ y el R2 resultan como sigue: "

βˆ =

0,018 0,345

#

y R2 =

βˆ0 Z 0 M0 Z βˆ = 0,67 Y 0 M0 Y

Con lo cual el test de Breusch-Godfrey toma la siguiente forma: Tbg = n ∗ R2 = 4 ∗ 0,67 = 2,68 El resultado anterior nos lleva a no rechazar la hip´otesis nula (ausencia de autocorrelaci´on de hasta orden p), pues el T critico es 3.84. La hip´otesis alternativa de este test es la existencia de autocorrelaci´on de orden p, donde p, como ya se dijo, es el numero de rezagos del error que se incluyen en la regresi´on auxiliar. La hip´otesis alternativa de este test es la existencia de autocorrelaci´on de al menos orden p, dado que no se verificaron ordenes superiores. 2

Problema 6: A) La autocorrelaci´on de orden 1 puede ser testeada con el test de Durbin Watson,1 que es de la forma 2(1−φ), en este caso disponemos de una estimaci´on de φ,2 que es: P150

i=1 et et−1 2 i=1 et−1

P150

= 0,25, con lo cual el test queda: DW = 2(1 − 0,25) = 1,5

(1)

lo anterior pudiese sugerir autocorrelaci´on positiva, y al comparar el DW con la zona critica3 (provenientes de alg´ un libro, Greene por ejemplo) se aprecia que es estad´ıstico cae en la zona de autocorrelaci´on positiva, lo que entrega evidencia estad´ıstica a favor de la existencia de autocorrelaci´on de orden 1, y solo de orden 1, ya que este test no entrega ning´ un tipo de conclusi´on acerca de ordenes superiores de autocorrelaci´on. B) En este caso, para realizar inferencia lo correcto es usar la matriz de Newey West al calcular el proxy a la matriz de varianzas y covarianzas, pues hay evidencia de autocorrelaci´on de al menos orden 1, y como no conocemos el patr´on exacto, esto es lo adecuado. La hip´otesis conjunta que se pide evaluar es C = 0 y RDOW JON ES = 1, pues esta es equivalente con que el retorno de Microsoft es igual al retorno del mercado. El estad´ıstico adecuado es un test F para hip´otesis conjuntas, que depende de la normalidad del error, o un test asint´otico de hip´otesis conjuntas, como el test de Wald, que requiere de una muestra grande. Dado el contexto, y todo lo anterior, lo m´as adecuado pareciera ser usar el test de Wald, (pues no estamos seguros de la normalidad del error, disponemos de un n grande, y adem´as debemos usar un estimador asint´otico de σ 2 (X 0 ΩX)) cuya expresi´on es como sigue: h i0 h i−1 h i TW = RβˆM CO − q RV (βˆM CO )R0 RβˆM CO − q (2) Donde V (βˆM CO ) es la correcta matriz de varianzas y covarianzas de βˆM CO , y en este caso particular, dado la presunci´on de autocorrelaci´on, esta es de la siguiente manera: V (βˆM CO ) = (X 0 X)−1 S ∗ (X 0 X)−1 (3) "

=

0,0028 −0,015 5,6914

#"

1 150

"

0,7679 0,0012 0,0004

#

"

0,8718 −0,0007 0,0003

"

0 1

+

## "

0,0028 −0,015 5,6914 (4)

y [RβˆM CO − q] es de la forma: "

=

1 0 0 1

#"

0,003845 0,941777

1

#



#

(5)

Recordar que se puede usar solo si la estimaci´on no incluye a la variable dependiente rezagada. 2 El par´ ametro φ proviene de la relaci´on et = φet−1 + µ, donde µ es un ruido blanco. 3 En este caso, se uso una zona critica para un n = 150, y un K ∗ = 1, hay que recordar que este K ∗ no incluye a la constante; as´ı es como la zona critica que nos interesa, que es la del lado izquierdo, esta entre 1.611 y 1.637.

3

#

El calculo del estad´ıstico queda propuesto, al igual que la conclusi´on, la cual se obtiene al comparar el χ2calc con un χ2(2) de tabla.

4

Departamento de Econom´ıa

Universidad de Chile

Econometr´ıa I ˜o 2005 Oton Ayudant´ıa No 8 Profesores: Andr´es Otero y Javiera V´asquez Ayudantes: Rodrigo Bravo y Roberto Jaramillo

Comentes Comente las siguientes afirmaciones. Utilice matem´aticas y gr´aficos si lo cree pertinente. 1. Siempre podemos utilizar para testear hip´otesis los test t y F. Respuesta: Falso, ya que es necesario que se cumpla que el error est´e normalmente distribuido. Esto es porque cualquier funci´ on lineal de variables normalmente distribuidas estar´ a tambi´en normalmente distribuida, lo que es equivalente a decir que si u est´ a normalmente distribuida, los βˆ tambi´en lo estar´ an. 2. Una funci´ on de distribuci´ on normal se caracteriza porque su simetr´ıa es cero, y su kurtosis es indefinida. Respuesta: Falso. Es correcto que la funci´ on de distribuci´ on normal tiene simetr´ıa igual a cero, pero su coeficiente de kurtosis (es decir, el ancho de las colas de la distribuci´ on) es igual a 3. 3. Si los errores del modelo de regresi´ on lineal no tienen distribuci´on normal, a pesar de que los estimadores MCO ya no son MELI, siguen siendo insesgados. Respuesta: El comente es falso ya que el resultado de que los estimadores por MCO son MELI no requiere que los errores se distribuyan normal. En efecto tal propiedad requiere que los errores cumplan la siguiente condici´ on: E(ui ) = 0 ∀i, V ar(ui ) = σi2 I y Cov(ui , uj ) = 0 ∀ı 6= j, es decir, que los errores ui ∼ iid sean independientes e id´enticamente distribuidos. 4. Es mejor predecir un valor puntual de y 0 que el valor esperado E(y 0 /x0 ), ya que uno hace lo primero con mayor precisi´ on. Respuesta: Falso. La varianza del error de predicci´ on al predecir un valor puntual de y 0 es mayor 0 0 que al predecir E(y /x ), por lo tanto lo primero es menos preciso.

Ejercicios 1. Encontrar la varianza del error de predicci´on e˜ = E(y 0 ) − X 0 βˆ (al predecir el valor de E(y 0 )), y compararla con la varianza que se obtiene al predecir un valor puntual de y 0 Respuesta: ˆ = x0 (X 0 X)−1 X 0 u e˜ = E(y 0 ) − Y 0 βˆ = x0 β − x0 βˆ = x0 (β − β) σe˜2 = E[˜ e · e˜0 ] = E[x0 (X 0 X)−1 X 0 uu0 X(X 0 X)−1 x00 ] σe˜2 = x0 (X 0 X)−1 X 0 (σu2 )X(X 0 X)−1 x00 ] σe˜2 = σu2 [x0 (X 0 X)−1 X 0 X(X 0 X)−1 x00 ] 1

Departamento de Econom´ıa

Universidad de Chile

σe˜2 = σu2 [x0 (X 0 X)−1 x00 ]

ˆ + u0 . Por Al calcular un valor puntual de y 0 , el error de predicci´ on es e0 = y 0 − yˆ0 = x0 (β − β) lo tanto, calculando su varianza: ˆ + u0 )(x0 (β − β) ˆ + u0 )0 ] σe˜2 = E[˜ e · e˜0 ] = E[(x0 (β − β) ˆ ˆ 0 x00 + x0 (β − β)u ˆ 00 + (x0 (β − β)) ˆ 0 u0 + u0 u00 ] σe˜2 = E[x0 (β − β)(β − β) ˆ ˆ 0 x00 ] + E[u0 u00 ] σe˜2 = E[x0 (β − β)(β − β) σe˜2 = σu2 [x0 (X 0 X)−1 x00 ] + σu2 2. Suponga que con datos de 2 pa´ıses (Uganda y Suiza) tomados anualmente durante 10 a˜ nos, usted obtiene la siguiente estimaci´ on: Crecimiento = α · RecursosN aturales + β · HDI + u Con α ˆ = 0, 01, βˆ = 0, 01, σˆ2 = 0, 09. Adem´as: (X 0 X)−1 =

 1, 0 0, 2

0, 2 0, 1



Suponga que usted se entera de que el pr´oximo a˜ no Uganda tendr´a 2 unidades de RecursosN aturales y 0 de HDI, mientras que Suiza tendr´a 0 de RecursosN aturales y 2 de HDI. ¿Cu´al es su predicci´ on para el crecimiento de ambos pa´ıses el pr´oximo a˜ no? ¿Cu´al es su certeza de la afirmaci´ on anterior? Respuesta: El modelo que usaremos para calcular la predicci´ on es el siguiente: yˆ = α ˆ · RN + βˆ · HDI Por lo tanto, la predicci´ on para el crecimiento de y de Uganda es: yˆ0 = x0 βˆ

 2

   0, 01 0 · = 0, 02 0, 01

Ahora hay que calcular el valor del estad´ıstico t, para ver si el valor es estad´ısticamente significativo. Pero para calcular el estad´ıstico t, a´ un nos falta conocer la varianza de la predicci´ on de y. Recordar que estamos calculando la varianza del error de predicci´ on cuando se quiere conocer un valor puntual (para cada pa´ıs). Calculando para Uganda se obtiene:

2

Departamento de Econom´ıa

Universidad de Chile

σe˜2 = σu2 0 · [1 + x0 (X 0 X)−1 x00 ]  σe˜2 = 0,09[1 + 2 σe˜2

 0 ·



1 0,2

   0,2 2 ] · 0,1 0

   2 0,4 · ] 0

 = 0,09[1 + 2

σe˜2 = 0,45 Calculando el intervalo de confianza: yt+1 − yˆ0 < t1−α/2,n−k ] = 1 − α P r[tα/2,n−k < p V ar(σe˜2 ) Los grados de libertad son 10-2=8. Adem´ as asumimos un grado de significancia de 0.05. Por lo tanto el estad´ıstico t es igual a 2.306 (dos colas). Esto implica que: P r[−2,306
1 − R2 ⇒ R˜2 < R2 2

Departamento de Econom´ıa

Universidad de Chile

3. Tras haber tenido alg´ un tiempo de ocio, usted ha encontrado una base de datos que tiene una muestra representativa de las notas del ramo Econometr´ıa ”N”. En esta se encuentran las notas de los controles 2 y 3, y tambi´en la nota de la primera solemne. A usted le interesar´ıa saber c´omo afect´o el rendimiento de los controles 2 y 3 en la solemne, as´ı que utilizando lo datos, realice los siguientes puntos: Nota C2 2.2 5.1 5.1 2.2 3.9 3.8

Nota C3 3.7 5.1 3.4 1.9 3.4 2.8

Nota Sol 3 4 4.7 2.6 5 5.2

a) Establezca un modelo que le permita solucionar lo planteado. Respuesta: Nota Solemne = y Nota Control 2= x1 Nota Control 3= x2 yi = βˆ0 + βˆ1 x1,i + βˆ2 x2,i b) Estime por MCO el valor de los par´ametros del modelo. Respuesta: βˆM CO = (X 0 X)−1 X 0 Y En desviaci´ on con respecto a la media X 0X X 0 X −1 X 0Y βˆM CO



 8,32 4,13 4,13 5,72   1 5,72 −4,13 = 30,53 −4,13 8,32   4,84 = 1,24   0,75 = −0,36 =

Para rescatar el valor de la constante: βˆ0 βˆ0

= y¯ − x ¯1 βˆ1 − x ¯2 βˆ2 = 2,51

c) Analice la significancia estad´ıstica de todos los par´ametros. Para esto encuentre los valores de los estad´ısticos, con su respectivo P-value. Es necesario encontrar el valor de las varianzas de los estimadores:

3

Departamento de Econom´ıa

Universidad de Chile

ˆ V ar(β)

= σu2 i (X 0 X)−1 Pn ˆ2i i=1 u = n−k

σ ˆu2 i

σ ˆu2 i ˆ ⇒ V ar(β) ˆ V ar(β)

2,56 = 0,85 3   0,85 5,72 −4,13 = 30,53 −4,13 8,32   0,16 −0,12 = −0,12 0,23

=

tβˆi

=

tβˆ1

=

tβˆ2

=

βˆ − 0 q i V ar(βˆi ) 0,75 − 0 √ = 1,875 0,16 −0,36 − 0 √ = −0,75 0,23

P − valueβˆi P − valueβˆ1 P − valueβˆ2

= 2(1 − P r) = 0,15 = 0,51

El t de tabla es: t95 %,GL=3 = 3,18 Por lo tanto existe suficiente evidencia para afirmar que las pendientes no son estadisticamente significativas, con un 95 % de confianza. d ) Compruebe que la suma de los aportes marginales de los controles 2 y 3 resulta 1. Respuesta: H0 : βˆ1 + βˆ2 = 1 ⇒ βˆ1 + βˆ2 − 1

tH0

=

tH0

= −1,58

q

V ar(βˆ1 ) + V ar(βˆ2 ) + 2Cov(βˆ1 , βˆ2 )

El t de tabla es: t95 %,GL=3 = 3,18 Por lo tanto existe suficiente evidencia para afirmar que las pendientes suman uno, con un 95 % de confianza. e) Testee que el par´ ametro del control 2 es 0.3 y el del par´ametro del control 3 es 0.4

4

Departamento de Econom´ıa

Universidad de Chile

q n−k

= 2 = 3   1 0 R = 0 1   0,75 βˆ = −0,36   0,3 r = 0,4 [(Rβˆ − r)0 [R(X 0 X)−1 R0 ]−1 (Rβˆ − r)]/q Fq,n−k ∼ ˆ u ˆ0 u n−k

Fq,n−k

=

2,16/2 = 1,27 0,85

El F de tabla con un 95 % de confianza es 9.55, por lo que existe suficiente evidencia para no rechazar la hip´ otesis nula con un 95 % de confianza f ) Encuentre qu´e porcentaje de la variabilidad se explica por los datos. Tambi´en realice alg´ un ajuste a este coeficiente en caso de encontrarlo necesario. Para encontrar ese porcentaje, hay que revisar el R2

R2

=

ST

=

ST

=

6,01

=

1−

1− n X

(yi − y¯)2 =

i=1

SR =

n X

SR ST n X

yi2 − n¯ y2

i=1

uˆi 2 = 2,56

i=1

R2

2,56 = 0,57 6,01

Las variables independientes explican el modelo en un 57 %. Sin embargo, no estamos tomando en cuenta el problema de los grados de libertad (son muy pocos datos para la cantidad de par´ ametros), por lo que utilizamos el R˜2 para corregir esto: n−1 R˜2 = 1 − (1 − R2 ) = 0,28 n−k g) ¿Qu´e nos dicen los datos que ha obtenido? Tarea...

5

Pauta Comente Extra: Pregunta: mientras mayor es la varianza muestral y menor es la varianza de las variables explicativas, más preciso es el estimador MCO. Respuesta: el comente es falso, si bien, mientras mayor es el tamaño muestral (n) contamos con mayor información para estimar los parámetros y la muestra se acerca más a la población, lo que hace que nuestra estimación sea más precisa, necesitamos que la varianza de las variables explicativas sea la mayor posible para poder estimar el impacto que tiene un cambio marginal en la variable explicativa sobre la variables dependientes, mientras más variada sea X contamos con una amplia gama de valores que nos permiten identificar en forma más precisa su impacto sobre Y. En un modelo simple tenemos que la varianza del estimador MCO, tiene la siguiente forma: V ( βˆ ) =

σ2

∑(X

i

− X )2

Multiplicando y dividiendo por el tamaño muestral: V ( βˆ ) =

σ2 nV ( X )

Podemos observar que mientras mayor es el tamaño muestral menor es la varianza del estimador MCO (más preciso), y mientras mayor es la varianza de las variables explicativas menor es la varianza del estimador (más preciso).

Departamento de Econom´ıa

Universidad de Chile

Econometr´ıa I ˜o 2006 Oton Ayudant´ıa Extra 25/04/06 Profesores: Claudia Sanhueza, Javiera V´asquez. Ayudante: Roberto Jaramillo Moya1 Nota: Esta pauta ha sido publicada a modo de referencia. No ha sido revisada, por lo que es un muy buen ejercicio para el estudio buscar incongruencias.

1.

Ejercicios

1. Para la siguiente base de datos: Nota C2 2.2 5.1 5.1 2.2 3.9 3.8

Nota C3 3.7 5.1 3.4 1.9 3.4 2.8

Nota Sol 3 4 4.7 2.6 5 5.2

Para esta muestra, que fue obtenida del curso Econometr´ıa I de alg´ un semestre del pasado, responda las siguientes preguntas: a) Encuentre los estimadores de los par´ametros y su correspondiente matriz de varianzas y covarianzas. RESPUESTA Al trabajar con los datos en desviaci´ on con respecto a la media: 

X 0X

=

8,32 4,13

X 0 X −1

=

1 30,53

X 0Y

=

βˆM CO

=

βˆ0

=

2,51

u ˆ2i

=

2,56



n X



5,72 −4,13



4,84 1,24





4,13 5,72



−4,13 8,32



0,75 −0,36

i=1

La matriz de varianzas y covarianzas est´ a conformada por: Es necesario encontrar el valor de las varianzas de los estimadores: 1 [email protected]

1

Departamento de Econom´ıa

Universidad de Chile

ˆ V ar(β)

=

σ ˆu2 i

=

σ ˆu2 i

=

ˆ ⇒ V ar(β)

=

σu2 i (X 0 X)−1 Pn

u ˆ2i n−k i=1

2,56 = 0,85 3  0,85 5,72 30,53 −4,13



ˆ V ar(β)



−0,12 0,23

0,16 −0,12

=



−4,13 8,32

b) Calcule el ajuste del modelo. RESPUESTA

SR =

n X

R2

=

ST

=

ST

=

6,01

=

1−

1−

SR ST

n X

n X

i=1

i=1

(yi − y¯)2 =

yi2 − n¯ y2

uˆi 2 = 2,56

i=1

R2

2,56 = 0,57 6,01

Las variables independientes explican el modelo en un 57 %. Sin embargo, no estamos tomando en cuenta el problema de los grados de libertad (son muy pocos datos para la cantidad de par´ ametros), por lo que utilizamos el R˜2 para corregir esto: n−1 R˜2 = 1 − (1 − R2 ) = 0,28 n−k

c) ¿Son significativos los par´ ametros que acompa˜ nan a las variables indepedientes, a nivel individual y global? RESPUESTA

tβˆi

=

tβˆ1

=

tβˆ2

=

βˆi − 0

q

V ar(βˆi ) 0,75 − 0 √ = 1,875 0,16 −0,36 − 0 √ = −0,75 0,23

2

Departamento de Econom´ıa

Universidad de Chile

P − valueβˆi

=

2(1 − P r)

P − valueβˆ1

=

0,15

P − valueβˆ2

=

0,51

El t de tabla es: t95 %,GL=3 = 3,18 Por lo tanto existe suficiente evidencia para afirmar que las pendientes no son estadisticamente significativas, con un 95 % de confianza. Para hacer un test de significancia global, podemos utilizar la siguiente f´ ormula:

F

=

F

=

R2 /(k − 1) ∼ F(k−1,n−k) (1 − R2 )/(n − k) 0,57/(3 − 1) = 1,99 (1 − 0,57)/(6 − 3)

El valor F cr´ıtico es de 9.55 para un 95 % , por lo que existe suficiente evidencia para afirmar que los par´ ametros no ser´ıan significativos en forma global con un 95 % de confianza.

d ) Testee que la suma de las pendientes 1 y 2 es igual a uno. RESPUESTA H0 : βˆ1 + βˆ2 = 1 ⇒ tH 0

=

tH 0

=

q

βˆ1 + βˆ2 − 1

V ar(βˆ1 ) + V ar(βˆ2 ) + 2Cov(βˆ1 , βˆ2 ) −1,58

El t de tabla es: t95 %,GL=3 = 3,18 Por lo tanto existe suficiente evidencia para afirmar que las pendientes suman uno, con un 95 % de confianza.

e) Testee que el par´ ametro del control 2 es 0.3 y el par´ametro del control 3 es 0.4 RESPUESTA q

=

n−k

=

R

=

βˆ

=

r

=

Fq,n−k



Fq,n−k

=

2 3





1 0

0 1





0,75 −0,36





0,3 0,4

[(Rβˆ − r)0 [R(X 0 X)−1 R0 ]−1 (Rβˆ − r)]/q u ˆ0 u ˆ n−k

2,16/2 = 1,27 0,85

3

Departamento de Econom´ıa

Universidad de Chile

El F de tabla con un 95 % de confianza es 9.55, por lo que existe suficiente evidencia para no rechazar la hip´ otesis nula con un 95 % de confianza

f ) Si un alumno se sac´ o un 3.6 en el control 2 y un 4.3 en el control 3, haga una predicci´on del valor puntual de esta. RESPUESTA yˆ

=

2,51 + 0,75 · 3,6 + (−0,36) · 4,3



=

3,7

Para la varianza del error de predicci´ on:

V ar(˜ e)

= =

V ar(˜ e)

=

σˆu2 (1 + x0 (X 0 X)−1 x00 )) 1  3,6 0,85(1 + 30,53 3,64



4,3



5,72 −4,13



−4,13 8,32

El intervalo queda:

3,7 − 3,18 ·

p

3,64 ≤ y 0 −2,37 ≤ y 0

4

≤ 3,7 + 3,18 · ≤ 9,78

p

3,64



3,6 ) 4,3

Departamento de Econom´ıa

Universidad de Chile

Econometr´ıa I ˜ o 2006 Oton Ayudant´ıa 16-6-6 Profesoras: Javiera V´asquez y Claudia Sanhueza Ayudantes: Juan Carlos Caro, Javier Fern´andez, Nicol´as Grau, Roberto Jaramillo 1 , Roque Montero

1.

Comentes

1. Un estad´ıstico Durbin-Watson de 4 muestra inequ´ıvocamente una autocorrelaci´on positiva. 2. Si existe Heterocedasticidad en los errores, el estimador M´ınimos Cuadrados Ordinarios ser´a sesgado, sin embargo, cuando existe autocorrelaci´on en los errores no se produce sesgo en los par´ametros estimados. 3. La utilizaci´on de la matriz de White permite corregir el problema de heterocedasticidad sin saber a priori la especificaci´on de esta.

2.

Ejercicios

1. Considere el siguiente modelo: yt = C(1) + C(2)xt + C(3)yt−1 + ut

Testee la existencia de autocorrelaci´on en los errores. RESPUESTA Como el modelo incluye la variable dependiente rezagada, no se puede utilizar el estad´ıstico Durbin-Watson. Se tiene que utilizar el test h-Durbin: 1 [email protected]

1

Departamento de Econom´ıa

Universidad de Chile

h = (1 −

DW ) 2

r

n 2 ∼ N (0, 1) 1 − nˆ σα ˆ

2 2 Con la informaci´ on anterior: DW = 1,572226, n = 28 y σ ˆα ˆ = (0,143427)

h

=

h

=

s 1,572226 28 (1 − ) ∼ N (0, 1) 2 1 − 28(0,143427)2 1,738115749

El estad´ıstico t, en un test de dos colas, es de 1.96, por lo que no podr´ıamos rechazar la hip´ otesis nula de no autocorrelaci´ on.

2. Dado el siguiente modelo

yt ut

= =

β0 + β1 xt + ut ρut−1 + ²t

donde ²t ∼iid N (0, σ²2 ). Adem´as dispone de las siguientes observaciones: t yt xt

1 22 4

2 26 6

3 32 10

4 34 12

5 40 14

6 46 16

7 46 20

8 50 22

Obtenga una estimaci´on eficiente de los par´ametros β0 y β1 , sabiendo que ρ = 0,5. RESPUESTA Para estimar eficiente el modelo debemos utilizar el m´etodo de M´ınimos Cuadrados Generalizados, que consiste en transformar el modelo original de forma tal que el error este libre de autocorrelaci´ on, como en este caso el error sigue un procedimiento AR(1) se debe transformar de la siguiente forma la variable dependiente y explicativa del modelo:

y∗t = yt − 0,5yt−1 x∗t = xt − 0,5xt−1 De esta forma, se tienen los siguientes datos transformados: t 1 2 3 4 5 6 7 8 Suma

yt 22 26 32 34 40 46 46 50

xt 4 6 10 12 14 16 20 22

2

yt∗

x∗t

x∗ y ∗

x∗2

15 19 18 23 26 23 27 151

4 7 7 8 9 12 12 59

60 133 126 184 234 276 324 1337

16 49 49 64 81 144 144 547

Departamento de Econom´ıa

Universidad de Chile

El estimador MCG consiste en estimar por MCO el modelo transformado:

yt∗ = β0 (1 − ρ) + β1 x∗t + ²t As´ı, el estimador MCG de los par´ ametros es:

0

  P8 ∗ 7 t=2 xt P = 8 ∗2 ∗ 59 t=2 xt t=2 xt     P8 151 y∗ P8 t=2 ∗t ∗ = 1337 t=2 xt yt 

0

X∗ X∗ X∗ Y ∗

= =

P8

n

 βˆM CG

=

βˆM CG

=



α ˆ βˆ1



 =

10,67 1,29



7 59

59 547

−1 

151 1337

59 547





3. Considere el modelo: yt = βxt + ut , donde E(ut ) = 0, V (ut ) = k(βxt )2 y Cov(ut , us ) = 0 ∀ 6= s. Adem´as dispone de 5 observaciones de la variable dependiente y de la variable explicativa: yt 2 3 10 1 3

xt 1 2 4 1 1

Encuentre el estimador eficiente de β y de su varianza. RESPUESTA Este modelo no tiene problemas de autocorrelaci´ on, pero si de heterocedasticidad, ya que la varianza del error cambia para para observaci´ on t. De esta forma, el estimador eficiente es el de MCG que consiste en transformar el modelo original dividiendo cada observaci´ on de la variable dependiente y explicativas por la desviaci´ on est´ andar del error asociado a esta observaci´ on, una vez transformado el modelo se estima por MCO. La variables yt y xt transformadas son:

yt∗

=

x∗t

=

yt yt yt √ = p = σt βxt k kβ 2 x2t xt xt 1 = p = √ 2 2 σt β k kβ xt

El m´etodo eficiente de MCG consiste en estimar por MCO el modelo: yt∗ = βx∗t +u∗t , donde u∗t viid (0, σ 2 ):

3

Departamento de Econom´ıa

Universidad de Chile

βˆM CG

=

Pn yt∗ x∗t Pi=1 n ∗2 i=1 xt

=

Pn

= = βˆM CG V (βˆM CG )

= = =

V (βˆM CG )

=

yt√ k βxt k 1 2 √ i=1 ( β k ) Pn yt t=1 xt β

1 √

n 2/1 + 3/2 + 10/4 + 1/1 + 3/1 5 2 0

(X ∗ X ∗ )−1 1 Pn 1 2 √ ( t=1 β k ) β2k β2k = n 10

4

Departamento de Econom´ıa

Universidad de Chile

Econometr´ıa I Primavera 2006 Profesores: Jos´e Miguel Benavente, Rodrigo Montero. Ayudantes: Javier Fern´ andez, Andrea Guti´errez, Roberto Jaramillo, Roque Montero. Ayudant´ıa 05-09-06

1.

Ejercicios

1. Tras haber tenido alg´ un tiempo de ocio, usted ha encontrado una base de datos que tiene una muestra representativa de las notas del ramo Econometr´ıa ”N”. En esta se encuentran las notas de los controles 2 y 3, y tambi´en la nota de la primera solemne. A usted le interesar´ıa saber c´omo afect´o el rendimiento de los controles 2 y 3 en la solemne, as´ı que utilizando lo datos, realice los siguientes puntos: Nota C2 2.2 5.1 5.1 2.2 3.9 3.8

Nota C3 3.7 5.1 3.4 1.9 3.4 2.8

Nota Sol 3 4 4.7 2.6 5 5.2

a) Establezca un modelo que le permita solucionar lo planteado. RESPUESTA yi = β0 + β1 x1 + β2 x2 con yi x1 x2

= = =

Nota Solemne Nota Control 2 Nota Control 3

b) Estime por MCO el valor de los par´ametros del modelo. RESPUESTA Trabajando con el modelo en desv´ıos con respecto a la media:



X 0X

=

8,32 4,13

X 0 X −1

=

1 30,53

0



=

βˆM CO

=

βˆ0

=

2,51

u ˆ2i

=

2,56

n X





5,72 −4,13



4,84 1,24

XY





0,75 −0,36

i=1

1

4,13 5,72



−4,13 8,32

Departamento de Econom´ıa

Universidad de Chile

¯2 c) Obtenga los coeficientes R2 y R RESPUESTA R2

= = =

SR ST

1−

P uˆ2 P(y − y¯)2 Pi uˆ2 1− P 2 y − n¯ y2 1−

i

=

˜2 R

0,55

n−1 n−k 6−1 1 − (1 − 0,55) 6−3 0,25 1 − (1 − R2 )

= = =

d ) Analice la significancia estad´ıstica de todos los par´ametros. Para esto encuentre los valores de los estad´ısticos, con su respectivo P-value. Es necesario encontrar el valor de las varianzas de los estimadores: ˆ V ar(β) σ ˆu2 i

σ ˆu2 i ˆ ⇒ V ar(β) ˆ V ar(β)

= σu2 i (X 0 X)−1 Pn ˆ2i i=1 u = n−k

2,56 = 0,85 3   0,85 5,72 −4,13 = 30,53 −4,13 8,32   0,16 −0,12 = −0,12 0,23

=

tβˆi

=

tβˆ1

=

tβˆ2

=

βˆ − 0 q i V ar(βˆi ) 0,75 − 0 √ = 1,875 0,16 −0,36 − 0 √ = −0,75 0,23

P − valueβˆi P − valueβˆ1 P − valueβˆ2 2

= 2(1 − P r) = 0,15 = 0,51

Departamento de Econom´ıa

Universidad de Chile

El t de tabla es: t95 %,GL=3 = 3,18 Por lo tanto existe suficiente evidencia para afirmar que las pendientes no son estadisticamente significativas, con un 95 % de confianza. e) Compruebe que la suma de los aportes marginales de los controles 2 y 3 resulta 1. Respuesta: H0 : βˆ1 + βˆ2 = 1 ⇒ βˆ1 + βˆ2 − 1

tH0

=

tH0

= −1,58

q

V ar(βˆ1 ) + V ar(βˆ2 ) + 2Cov(βˆ1 , βˆ2 )

El t de tabla es: t95 %,GL=3 = 3,18 Por lo tanto existe suficiente evidencia para afirmar que las pendientes suman uno, con un 95 % de confianza. f ) Testee que el par´ ametro del control 2 es 0.3 y el del par´ametro del control 3 es 0.4

q n−k

= 2 = 3   1 0 R = 0 1   0,75 ˆ β = −0,36   0,3 r = 0,4 [(Rβˆ − r)0 [R(X 0 X)−1 R0 ]−1 (Rβˆ − r)]/q Fq,n−k ∼ u ˆ0 u ˆ n−k

Fq,n−k

=

2,16/2 = 1,27 0,85

El F de tabla con un 95 % de confianza es 9.55, por lo que existe suficiente evidencia para no rechazar la hip´ otesis nula con un 95 % de confianza

3

Departamento de Econom´ıa

Universidad de Chile

Econometr´ıa I Primavera 2006 Ayudant´ıa Extra - 17-10-06 Profesores: Jos´e Miguel Benavente, Rodrigo Montero Ayudantes: Javier Fern´ andez, Andrea Guti´errez, Roberto Jaramillo, Roque Montero

1.

Comentes

1. El planteamiento de un modelo ANOVA tiene la ventaja de que genera un error tipo 1 menor que hacer varios test t al mismo tiempo. RESPUESTA Falso, ya que la cantidad de test son distintos. Para ver la diferencia entre tres grupos, con ANOVA se plantean dos test de sinificancia, y con una comparaci´ on de medias 3, lo que genera que cada test en forma indiviual sea distinto. Como al hacer un test de significancia individual en ANOVA incluye m´ as efectos al mismo tiempo (comparaci´ on con m´ as medias), entonces la probabilidad de que el test se rechace es m´ as alta, con lo que el comente ser´ıa falso.

2.

Ejercicios

1. En el siguiente modelo de regresi´ on:

Yi = β1 + β2 Di + ui

(1)

Donde Y representa el salario por hora, y D es la variable dicot´ omica, que toma el valor 1 si es un titulado universitario y 0 si es titulado de educaci´ on media. Utilizando las f´ ormulas del estimador MCO, demuestre que βˆ1 = Y¯m y βˆ2 = Y¯u − Y¯m , donde el sub´ındice m significa con educaci´on media y u titulado universitario. RESPUESTA ˆ Planteando el modelo, la matriz X de variables explicativas queda i X!X

=

X!X

=

X!X

=

(X ! X)−1

=

(X ! X)−1

=

(X ! X)−1

=

D

˜

– ˜ i! ˆ i D D! – » ! i! D ii ! ! Di DD » – n nu nu nu » – 1 nu −nu · −nu n nu · n − n2u – » 1 −nu nu · −nu n nu · nm – » −1/nm 1/nm −1/nm n/(nu · nm ) »

1

(2)

(3)

Departamento de Econom´ıa

Universidad de Chile

βˆ

=

βˆ

=

βˆ

=

βˆ βˆ

X!Y

=

X!Y

=

X!Y

=

=

βˆ

=

βˆ

=

βˆ

=

– i! ! Y D » ! – iY D! Y – » P P yi D=1 yi

(4)

(X ! X)−1 X ! Y –» P – » −1/nm 1/nm P yi −1/nm n/(nu · nm ) D=1 yi " P Y −P # Y i

=

»

"

"

"

"



P



P



P

Yi

nm

D=0 nm

Yi



Yi

+

D=0 Yi P nm D=1 Yi nm

−Y¯m +

D=1 nm

+

¯

Y Pm

D=1 nm

¯

Y Pm

(6)

i

D=1

nm P n Yi + nuD=1 nm P

D=0 nm

(5)

Yi nm nu

Y¯m P Yi ¯ −Ym + D=1 nu – » Y¯m Y¯u − Y¯m

#

Yi

#

n

P

D=1

Yi

nu nm

( nnu − 1)

#

#

(7) (8) (9) (10) (11) (12)

2. Si tenemos el siguiente modelo que puede ser subdividido en dos grupos:

Grupo 1 Grupo 2

= =

Yi = βN + β1 Xi + u1,i Yi = βC + β1 Xi + u2,i

(13) (14)

Una forma de estimar este modelo es:

Yi = β0 + βN hi + βC di + β1 Xi + ui

(15)

Donde hi = 1 si pertenece al grupo 1, y 0 si no. Adem´ as di = 1 − hi . ¿Est´ an de acuerdo con el modelo propuesto? RESPUESTA No, debido a que la matriz de datos que se forma es: ˆ X = i hi di ˆ X = i hi 1 − hi

2

Xi

˜

Xi

˜

(16) (17)

Departamento de Econom´ıa

Universidad de Chile

Y en este caso la columna de unos se puede formar con la suma de la columna 2 y la columna 3, por lo que tendr´ıamos una columna LD, y la matriz seria singular y no calculable bajo MCO (Trampa de las Dummies).

3. De acuerdo a un estudio de un respetado profesor de esta facultad, en que se ve´ıan las diferencias de sueldos entre egresados de las distintas menciones, se han encontrado las siguientes conclusiones: a) Existe la idea de que los egresados de Econom´ıa de esta facultad, al salir reci´en de la carrera, ganan m´ as que los egresados de Administraci´ on de la misma facultad. ¿C´omo plantear´ıa el modelo y lo testear´ıa? RESPUESTA El modelo se puede plantear de la siguiente forma: yi = β0 + β1 di + ui

(18)

En que di toma el valor 1 si es egresado de Econom´ıa y 0 si es de Administraci´ on. En el caso que quisi´eramos testear que los valores son distintos, s´ olo hay que hacer un test de significancia de βˆ1 : ˆ t = σβ1 . Sin embargo, si lo que queremos testear es que un estudiante de Econom´ıa reci´en egresado βˆ1

gana m´ as que un estudiante de Administraci´ on, entonces lo que hay que buscar es que el par´ ametro andose esto en un test de una cola, que se plantea igual que el βˆ1 sea mayor que cero, transform´ anterior, pero lo que cambia es la zona de rechazo, que ahora s´ olo se encuentra a la izquierda de la curva de la tabla t-student.

b) A pesar de esto, se ha encontrado que los egresados de Administraci´ on de esta facultad, a medida que pasa el tiempo, incluso pueden llegar a ganar m´ as que los egresados de econom´ıa. ¿C´omo puede afirmar esto? RESPUESTA Se puede afirmar cuando se agrega una variable explicativa, que es el tiempo de haber egresado, y que la pendiente sea distinta para cada menci´ on. El modelo por plantear es el siguiente: yi = β0 + β1 di + β2 t + β3 tdi + ui

(19)

En que βˆ3 es la diferencia de pendiente entre las distintas menciones. Si testeamos la significancia de βˆ3 , ver´ıamos si la diferencia es significativa. Sin embargo, lo que se plantea es que en el futuro un egresado de Administraci´ on pueda ganar m´ as, por lo que adem´ as debemos testear si βˆ3 es menor que cero. Para esto nuevamente tendr´ıamos que hacer un test de una cola, pero la zona de rechazo estar´ıa a la derecha del test.

c) A pesar de no haber sido inclu´ıdo en el estudio, tambi´en existe la creencia de que los reci´en egresados de la universidad que es competencia directa, pero no tan prestigiosa, obtienen salarios distintos. Plantee el modelo. RESPUESTA Descartando la diferencia entre menciones, podemos plantear el modelo de la siguiente forma: yi = β0 + β1 chi + β2 tcati + ui

(20)

omicaque toma el valor 1 si el egresado es de la Universidad de Chile, En que chi es una variable dicot´ y 0 si no; cati toma le valor 1 si pertenece a la Universidad no tan prestigiosa, y 0 si no; y tambi´ en si tenemos los datos de otras universidades, la media de estas va a estar determinada por βˆ0 .

3

Universidad de Chile

Facultad de Economía y Negocios

Ayudantía Extra 03/11/2006 Econometría I Profesores: Rodrigo Montero, José Miguel Benavente Ayudantes: Roberto Jaramillo, Roque Montero, Javier Fernández, Andrea Gutiérrez

Repaso de conceptos 1. Omisión de variable relevante e inclusión de variable irrelevante 2. Heterocedasticidad

Comentes 1. La omisión de variables relevantes produce subestimación en los parámetros estimados por MCO. Falso, es cierto que el estimador MCO siempre será sesgado en presencia de variables irrelevantes omitidas: E ( ˆ1 )   1 

Cov( X 1 , X 2 ) 2 Var ( X 1 )  Sesgo

Por lo tanto el signo del sesgo dependerá del signo de  2 y la covarianza entre X1 y X2. Existen tres casos posibles:   

 2 positivo y covarianza positiva => sesgo positivo  2 positivo y covarianza negativa => sesgo negativo  2 negativo y covarianza positiva => sesgo negativo

2. En presencia de heterocedasticidad la mejor forma de estimar los parámetros de interés es mediante una transformación del modelo original, que consiste en dividir cada observación de la variable dependiente y explicativas ( yi , xi ) por la desviación estándar del error asociado  Si no conocemos la matriz  la eficiencia del estimador MCGF dependerá de la calidad de la estimación del patrón de heterocedasticidad. Si esta estimación es muy mala, por ejemplo no estamos seguros del patrón heterocedástico, podemos estar agregando más problemas al modelo. Por lo tanto, en algunos escenarios es mejor utilizar el estimador consistente de White.

Universidad de Chile

Facultad de Economía y Negocios

3. La omisión de una variable irrelevante es una fuente de heterocedasticidad. Falso. Efectivamente cuando omitimos una variable relevante en la especificación, dicha variable quedará parcialmente recogida en el comportamiento de las perturbaciones aleatorias (error), pudiendo introducir en estas su variación no necesariamente fija. No obstante al tratarse de una variable irrelevante esta no debiera afectar al modelo, y por lo tanto, su efecto no debería ser recogido por el término error. 4. Si hay heterocedasticidad, las pruebas convencionales t y F son invalidas. Verdadero, con perturbaciones no esféricas existe una alta probabilidad de que cometamos errores, puesto que con heterocedasticidad los estimadores MCO serán ineficientes (varianzas más grandes). Esto podría traer como consecuencia que no rechacemos la hipótesis nula, cuando la deberíamos rechazar, o en otras palabras, digamos que una variable no es significante cuando si lo es.

Ejercicios 1. Como sabemos, la demanda por un bien depende de muchas variables, entre ellas el ingreso y precio del bien. Un economista está estimando la demanda por un producto X, para lo cual ha propuesto el siguiente modelo:

Q  b0 P b1Y b2 e  a) Linealice el modelo y obtenga las elasticidades precio e ingreso.

Q  b0 P b1 Y b2 e   ln Q  ln b0  b1 ln P  b2 ln Y    ln Q    b1 ln P  b2 ln Y   Donde  = ln b0 Por definición:

Universidad de Chile

 Q,P

 Q,P

Facultad de Economía y Negocios

Q  %Q Q  ln Q     b1  % P P  ln P P Q Q  ln Q  %Q     b2 %Y Y  ln Y Y

b) De sus conocimientos microeconómicos ¿Qué problema podría detectar en el modelo? ¿qué consecuencias implicaría y en qué sentido? ¿cómo lo solucionaría? Como sabemos la demanda por un bien también depende del precio de sus sustitutos, por lo que podríamos estar omitiendo una variable relevante para el modelo, lo que implicaría sesgo en los parámetros. Luego, agregando Ps a la estimación, el modelo verdadero es el siguiente:

Q  b0 P b1 Y b2 Ps b3 e   ln Q  ln b0  b1 ln P  b2 ln Y  b3 ln Ps    ln Q    b1 ln P  b2 ln Y  b3 ln Ps   Entonces los parámetros estarán sesgados:

Intuitivamente:

E (b1 )  b1  b3

COV (ln P, ln Ps ) Var (ln P)

E (b2 )  b2  b3

COV (ln Y , ln Ps ) Var (ln Y )

cuando

el Ps aumenta, el Y real disminuye  COV (ln Y , ln Ps )  0 , y cuando el Ps aumenta, aumenta la demanda por Q, aumentando P  COV (ln P, ln Ps )  0 . Entonces, como b es la elasticidad cruzada  b  0 , el sesgo de bˆ será 3

3

positivo, y el sesgo de bˆ2 será negativo.

E (b1 )   Q , P 

E (b2 )   Q ,Y

1

Universidad de Chile

Facultad de Economía y Negocios

2. Considere el siguiente modelo de regresión clásico: y  x'   ut

ut ~ N (0, )

La estructura de I es la siguiente:

a I   e d

e b f

d f  c 

a) ¿Cuál o cuáles supuestos del modelo de regresión clásico no se cumplirían en este caso particular? Cómo se le llama a este o estos problemas? Se violan los supuestos:  

Varianza del error constante => Heterocedasticidad Covarianza de los errores igual a 0 => Autocorrelación

b) Demuestre que el estimador MCO de modelo son insesgados.

los coeficientes de este

c) ¿La varianza de los estimadores de este modelo, es insesgada? No, ante presencia de heterocedasticidad y autocorrelación la varianza de los estimadores está sesgada. d) Cómo se denomina el estimador MELI para los coeficientes de este modelo de regresión, suponiendo que los valores para a; b; c; d y f son conocidos? Si los valores de la matriz I son conocidos el estimador MELI es Mínimos Cuadrados Generalizados (MCG) e) Derive rigurosamente el estimador MELI que corresponde a la respuesta en (d), utilizando la notación matricial. (ayuda:  1  P' P )

Universidad de Chile

Facultad de Economía y Negocios

Minimizando la suma de los errores al cuadrado

3. Una empresa de autobuses desea estimar la demanda de billetes (Yt) en función de la variable constante, del precio de los mismos (X2t) y de la calidad del servicio, evaluada a través de los gastos que la empresa realiza para la mejora del mismo (X3t). Se dispone de 50 datos ordenados en forma creciente según la variable X3t y de la estimación MCO de las siguientes ecuaciones:

Las tres primeras ecuaciones se estimaron con los 50 datos; la cuarta se estimo con los 20 datos iniciales y la quinta con los 20 datos finales. Supondremos validas las aproximaciones asintóticas. a) Contraste el supuesto de homoscedasticidad en el modelo estimado en la ecuación (1) con el contraste de White. De los datos entregados nR2 = 50*0,053 = 2,65 este lo debo comparar con una  502 6  27,575 como es menor concluimos que no existe evidencia suficiente para demostrar heterocedasticidad a un 95% de confiabilidad. b) Contraste el supuesto de homoscedasticidad en el modelo estimado en la ecuación (1) con el contraste de Goldfeld-Quandt, eliminando las 10 observaciones centrales.

Universidad de Chile

Facultad de Economía y Negocios

uˆ1 ' uˆ1 / n1  k  ˆ u21 / ˆ u22  204/150= 1,36 lo comparo con una F17,17=? uˆ 2 uˆ 2 / n2  k (disculpen, pero no encontré la tabla) por lo tanto no existe evidencia suficiente para demostrar heterocedasticidad.

4. Suponga que se tiene el siguiente modelo Explique detalladamente cuales son las consecuencias sobre MCO cuando es aplicado a este modelo ¿Cómo estimaría este modelo? ¿Que estimador utilizaría? ¿ De que dependerá la eficiencia de su estimación?. Plantee una expresión para el estimador óptimo de  y

2 .

Este modelo presenta heterocedasticidad por lo que las estimaciones por MCO son ineficientes. El patrón que sigue la heterocedasticidad depende del valor esperado de la variable dependiente y t , es decir E ( yt )  X t  . Dado que  es desconocido no podemos aplicar el estimador MCG. Sin embargo, podemos aplicar MCGF y el estimador Máximo Verosimilutud (MV). La aplicación del primero requiere una estimación en dos etapas, ya que es necesario obtener ˆ para aplicar el método. De esta forma se puede estimar el modelo por MCO ignorando la heterocedasticidad y luego usar esta estimación para normalizar las variables y aplicar MCGF. Este método será menos eficiente que MV debido a que este último estimará en conjunto todos los parámetros involucrados.

Universidad de Chile

Facultad de Economía y Negocios

Universidad de Chile

Facultad de Economía y Negocios