Regresion Multiple

Modelo de Regresión Múltiple La ecuación que describe como la variable dependiente está relacionada con las variables in

Views 481 Downloads 7 File size 4MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

  • Author / Uploaded
  • Kenia
Citation preview

Modelo de Regresión Múltiple La ecuación que describe como la variable dependiente está relacionada con las variables independientes x1, x2, . . . xp y un término de error es: y = b0 + b1x1 + b2x2 + . . . + bpxp + e

donde:

b0, b1, b2, . . . , bp son los parámetros, y e es una variable aleatoria llamada término del error

Ecuación de Regresión Múltiple La ecuación que describe como el valor medio de y está relacionado con x1, x2, . . . xp es: E(y) = b0 + b1x1 + b2x2 + . . . + bpxp

Ecuación Estimada de Regresión Múltiple y^ = b0 + b1x1 + b2x2 + . . . + bpxp Una muestra aleatoria es utilizada para calcular los estadísticos muestrales b0, b1, b2, . . . , bp que son utilizados como estiamdores puntuales de los parámetros b0, b1, b2, . . . , bp.

Proceso de Estimación Modelo de Regresión Múltiple

E(y) = b0 + b1x1 + b2x2 +. . .+ bpxp + e Ecuación de Regresión Multiple E(y) = b0

+ b1x1 + b2x2 +. . .+ bpxp b0, b1, b2, . . . , bp son parámetros

Datos muestrales: x1 x2 . . . xp y . . . . . . . .

desconocidos

b0, b1, b2, . . . , bp Proporcionan las estimaciones de

b0 , b1 , b2 , . . . , b p

Cálculo de la ecuación de regresión múltiple estimada

yˆ  b0  b1 x1  b2 x2  ...  bp x p b0, b1, b2, . . . , bp son estadísticos muestrales

Método de Mínimos Cuadrados Criterio de Mínimos Cuadrados

min  ( y i  yˆ i )2

Interpretando los Coeficientes En el análisis de regresión multiple se interpreta cada coeficiente de regresión de la siguiente manera: bi representa un estimado del cambio en y correspondiente a un incremento de 1 unidad en xi cuando todas las otras variables independientes se mantienen constantes. Ejemplo: Una zapatería obtuvo la siguiente ecuación de regresión estimada en la que se relacionan las ventas contra la inversión en inventario y los gastos en publicidad. 𝑦ො = 25 + 10𝑥1 + 8𝑥2

donde x1 = inversión en inventario (en miles de $) x2= gasto en publicidad (en miles de $) y = ventas (en miles de $) a) Estime las ventas resultantes si la inversión en inventario es de $15 000 y el presupuesto para publicidad es de $10 000. b) Interprete b1 y b2 en esta ecuación de regresión estimada.

Coeficiente de Determinación Múltiple Relación entre STC, SCR, SCE STC = SCR + SCE 2 2 2 ˆ ˆ ( y  y ) ( y  y ) ( y  y ) + =  i  i  i i

donde:

STC = suma total de cuadrados SCR = suma de cuadrados debido a la regresión SCE = suma de cuadrados debido al error

Coeficiente de Determinación Múltiple Ajustado R2 = SCR/STC

SCE (n  k  1) R  1 STC (n  1) 2 a

n 1 R  1  (1  R ) n  k 1 2 a

2

Supuestos del modelo El error e es una variable aleatoria con media cero.

La varianza de e , denotada por 2, es la misma para todos los valores de las variables independientes. Los valores de e son independiente. El error e es una variable aleatoria distribuida normalmente y refleja la desviación entre el valor de y el valor esperado de y dado por b0 + b1x1 + b2x2 + . . + bpxp.

Prueba de Significancia • En una regresión lineal simple, las pruebas F y t llevan a la misma conclusión. • En una regresión múltiple, las pruebas F y t tienen propósitos diferentes.

Prueba F

• La prueba F es usada para determinar si existe una relación significativa entre la variable dependiente y el conjunto de todas las variables independientes. • La prueba F se le conoce como prueba de significancia global.

Prueba t

• Si la prueba F indica que hay significancia global, la prueba t es usada para determinar si cada una de las variables independientes es significativa. • Una prueba t individual es realizada para cada una de las variables independientes en el modelo. • Llamamos a cada una de estas pruebas t como una prueba de significancia individual.

Prueba de Significancia: Prueba F Hipótesis

H 0 : b1 = b2 = . . . = bk = 0 Ha: Uno o más de los parámetros es distinto de cero.

Estadístico de Prueba

F = CRM/ECM

Regla de Rechazo

Rechazar H0 si el valor-p < a o si F > Fa ,donde Fa está basada en una distribución F con k g.l. en el numerador y n - k - 1 g.l. en el denominador.

Forma general de la tabla ANOVA para la regresión lineal multiple Fuente de variación

Suma de cuadrados

Grados de libertad

Cuadrado medio

F

Regresión

SCR

k

CMR = SCR/k

F=CMR/ ECM

Error

SCE

n-k–1

ECM = SCE/(n-k-1)

Total

STC

n-1

Valor-p

Prueba de Significancia: Prueba t Hipótesis

H0 : bi  0 H a : bi  0

Estadístico de Prueba t  Regla de Rechazo

bi sbi

Rechazar H0 si el valor-p < a o si |t| > |ta|donde ta está basada en una distribución t con n - k - 1 grados de libertad.

Ejercicio: The Wall Street Journal realizó un estudio acerca de los gastos que realizan las mejores universidades en el basquetbol. Una parte de los datos se lista a continuación e incluye algunas escuelas (School), los ingresos (Revenue) en millones de $, el porcentaje de victorias (% Wins) y el sueldo del entrenador (Salary) en millones de $ de 39 de los mejores programas de basquetbol de Estados Unidos (The Wall Street Journal, 11-12 de marzo de 2006). a) Desarrolle la ecuación de regresión estimada para predecir el sueldo del entrenador dados los ingresos generados por el programa y el porcentaje de victorias. b) Use la prueba F para determinar la significancia global de la relación. ¿Cuál es su conclusión empleando 0.05 como nivel de significancia? c) Utilice la prueba t para determinar la significancia de cada una de las variables independientes. ¿Cuál es su conclusión con un nivel de significancia de 0.05?

Ejercicio: En el ejercicio 4 se proporcionó la siguiente ecuación de regresión estimada que relaciona las ventas contra la inversión en inventario y los gastos de publicidad. 𝑦ො = 25 + 10𝑥1 + 8𝑥2 Los datos para desarrollar este modelo provienen de 10 tiendas; con esta información, la STC= 16 000 y la SCR = 12 000. a) Calcule R2 para la ecuación de regresión estimada. b) Calcule 𝑅𝑎2 . c) ¿Este modelo parece explicar gran parte de la variabilidad de los datos? Explique.

Multicolinearidad • El término multicolinearidad se refiere a la correlación entre las variables independientes. • Cuando las variables independientes están altamente correlacionadas (digamos, |r | > .7), no es posible determinar por separado el efecto de cualquiera de las variables independientes sobre la variable dependiente • Debe hacerse todo lo posible para evitar incluir variables independientes que estén altamente correlacionadas. • La fuerte multicolinealidad da como resultado grandes varianzas y covarianzas de los estimadores de coeficientes de regresión (β) obtenidos por MC. • La multicolinealidad tiende también a producir estimadores de β que son demasiado grandes en valor absoluto.

Método de detección de la multicolinealidad: Factores de inflación de la varianza 1 VIFj  1  R 2j Rj es el coeficiente de determinación múltiple obtenido haciendo la regresión de xj sobre las demás VI.

Los factores VIF mayores que 5 implican problemas graves de multicolinealidad.

Variables Independientes cualitativas En muchas situaciones debemos trabajar con variables independientes cualitativas como género (masculino, femenino) método de pago (cash, cheque, tarjeta), etc. Por ejemplo, x2 puede representar género donde x2 = 0 indica masculino y x2 = 1 indica femenino. En este caso, x2 es llamado variable ficticia o indicadora. Si una variable cualitativa tiene k niveles, k – 1 variables ficticias son requeridas, donde cada variable ficticia es codificada como 0 o 1.

Ejercicio: Se brinda la información de los meses transcurridos desde el último servicio (Months Since Last Service), del tipo de reparación (Type of Repair), mecánica (Mechanical) o eléctrica (Electrical), los gerentes presentan una lista con los técnicos (Repairperson) que realizaron el servicio, con el objetivo de estimar el tiempo de reparación. a) Por ahora ignore los meses transcurridos desde el último servicio y el técnico asignado. Obtenga la ecuación de regresión lineal simple estimada para predecir el tiempo que se requiere para la reparación (y) dado el tipo de reparación (x2). Recuerde que x2=0 si ésta es mecánica y x2= 1 si es eléctrica. ¿La ecuación obtenida en el inciso proporciona un buen ajuste a los datos observados? Explique. b) Por ahora ignore los meses transcurridos desde el último servicio y el tipo de reparación. Obtenga la ecuación de regresión lineal simple estimada para predecir el tiempo necesario para la reparación dado el técnico que realizó el servicio. Sea x3=0 si éste fue realizado por Bob Jones, y x3=1 si lo realizó Dave Newton. ¿La ecuación obtenida proporciona un buen ajuste a los datos observados? Explique.

c) Obtenga la ecuación de regresión estimada para predecir el tiempo que requiere una reparación dados los meses transcurridos desde la última efectuada, el tipo de reparación y el técnico que realizó el servicio. d) Con un nivel de significancia de 0.05 ¿Es estadísticamente significativo agregar la variable x3, el técnico que realizó el servicio?