Sesin 1. RLM Con Variables Categricas

REGRESIÓN LINEAL MÚLTIPLE CON VARIABLES INDEPENDIENTES CUALITATIVAS ESTADÍSTICA II Plan de clases Inicio Construcción

Views 121 Downloads 1 File size 1MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

  • Author / Uploaded
  • Aaron
Citation preview

REGRESIÓN LINEAL MÚLTIPLE CON VARIABLES INDEPENDIENTES CUALITATIVAS ESTADÍSTICA II

Plan de clases Inicio

Construcción

Cierre

• Organizador previo • Logro esperado

• Análisis de la regresión lineal múltiple con variables independientes cualitativas. • Validación del modelo de regresión lineal múltiple con variables independientes cualitativas.

• Síntesis • Metacognición

REGRESIÓN Regresión Lineal Simple Regresión Lineal Múltiple Regresión Logística Binaria

Logro esperado

Realiza la regresión lineal múltiple con variables cualitativas independientes, en la resolución de problemas contextualizados, aplicando criterios estadísticos así como software estadístico, para luego interpretar los resultados obtenidos.

En los ejemplos considerados hasta ahora, las variables independientes son de tipo cuantitativas como, por ejemplo, ingreso, distancia recorrida, número de entregas, etc. Sin embargo, en muchas situaciones, se tiene que trabajar con variables independientes cualitativas como género (masculino o femenino), modo de pago (efectivo, tarjeta de crédito, cheque), etc.

En esta sesión, el objetivo es mostrar cómo se emplean las variables cualitativas en el análisis de regresión lineal múltiple. Para ilustrar el uso e interpretación de las variables independientes cualitativas se empleará un problema de Johnson Filtration, Inc. (Anderson et al. Estadística para administración y economía. 12° edición)

Ejemplo: Johnson Filtration Inc. da servicio de mantenimiento a los sistemas de filtración en el sur de Florida. Los clientes solicitan un servicio de mantenimiento para sus sistemas de filtración de agua y de esta manera, los administradores de Johnson podrían estimar el tiempo que se requerirá para el servicio y el costo del mismo. Se cree que el tiempo requerido para una reparación, en días; está relacionado con dos factores, meses transcurridos desde el último servicio de mantenimiento y tipo del problema (mecánico o eléctrico).

En la Tabla N°01, se presentan los datos correspondientes a una muestra de 10 solicitudes de servicio.

Para incorporar en el modelo el tipo de reparación, se define la variable siguiente:

0, si el tipo de reparación es mecánica x2   1, si el tipo de reparación es eléctrica

En el análisis de regresión a X2 se le llama variable ficticia o variable indicadora. Empleando esta variable ficticia, el modelo de regresión múltiple se expresa como sigue:

y  b0  b1 x1  b2 x2

En la Tabla N°02, se presentan los datos de la Tabla N°01, incluyendo los valores de la variable ficticia.

Con Minitab y los datos de la Tabla N°02 se obtienen estimaciones para los parámetros del modelo. En el resultado de Minitab se indica que la ecuación de regresión múltiple estimada es:

y  0.930  0.388 x1  1.26 x2 Empleando como nivel de significancia 5%, el valor-p correspondiente al estadístico de prueba Fcal (Fcal=21.36) es 0.001, lo cual indica que la relación de regresión es significativa. Además, se observan que tanto meses transcurridos desde el último servicio (valor-p=0.000) como tipo de reparación (valor-p=0.005) son estadísticamente significativos. Además, R-sq=85.9% y R-sq(adj)=81.9% indican que la ecuación de regresión estimada explica adecuadamente la variabilidad en el tiempo necesitado para la reparación. Por lo tanto, la ecuación lineal sí es útil para estimar el tiempo necesario para la reparación de las diversas solicitudes de servicio.

INTERPRETACIÓN DE LOS PARÁMETROS La ecuación de regresión múltiple para el ejemplo de Johnson Filtration es:

y  b0  b1 x1  b2 x2

Para entender cómo interpretar los parámetros β0, β1, y β2, cuando hay una variable cualitativa, considérese el caso en que: Si la reparación es de tipo mecánica: X2 = 0, la E(y/mecánica) para denotar la media o valor esperado del tiempo necesario para una reparación dado que se trata de una reparación mecánica, se tiene

E  y / mecánica   b0  b1 x1  b2  0   b0  b1 x1

1

De manera similar, si la reparación es de tipo eléctrica: x2 = 1, se tiene:

E  y / eléctrica   b0  b1 x1  b2 1   b0  b2   b1 x1

 2

Comparando ambas ecuaciones se observa que el tiempo requerido esperado para hacer una reparación es función lineal de x1 tanto cuando se trata de reparaciones mecánicas como de reparaciones eléctricas. La pendiente en ambas ecuaciones es b1, pero la intersección con el eje Y varia. En la primera ecuación, para las reparaciones mecánicas, la intersección con el eje Y es b0 y en la segunda ecuación, la ecuación para reparaciones eléctricas, la intersección es (b0 y b2).

La interpretación de b2, es que indica la diferencia entre el tiempo esperado que se requiere para una reparación eléctrica y el tiempo esperado que se requiere para una reparación mecánica.  Si b2 es positiva, el tiempo esperado necesario para una reparación eléctrica (X2 = 1) será mayor que para una reparación mecánica.;  Si b2 es negativa, el tiempo esperado requerido para una reparación eléctrica (X2 = 1) será menor que para una reparación mecánica.  Si b2 = 0, no hay diferencia entre los tiempos esperados que necesita para reparaciones eléctricas y mecánicas y el tipo de reparación no está relacionado con el tiempo necesario para hacer una reparación. Empleando la ecuación de regresión múltiple estimada 𝑦 = 0.93 + 0.388𝑥1 + 1.26𝑥2, se ve que 0.93 es la estimación de b0 y la estimación de b2 es 1.26. Por lo tanto, cuando x2 = 0 (reparación mecánica), se tiene: 𝑦 = 0.93 + 0.388𝑥1 y cuando x2 = 1 (reparación eléctrica), se tiene: 𝑦 = 0.93 + 1.26 + 0.388𝑥1 = 2.19 + 0.388𝑥1

De esta manera, el uso de una variable ficticia proporciona dos ecuaciones que sirven para predecir el tiempo requerido para una reparación, una ecuación corresponde a las reparaciones mecánicas y la otra a las reparaciones eléctricas.

Además, como b2 = 1.26, se sabe que, en promedio, en las reparaciones eléctricas se necesitan 1.26 horas más que en las reparaciones mecánicas. En la siguiente figura se presenta una gráfica con los datos de la Tabla N°02. El tiempo de reparación, en horas, se ha representado en el eje vertical y los meses transcurridos desde el último servicio se han representado en el eje horizontal. Los puntos de la gráfica que corresponden a una reparación eléctrica se han indicado con una E y los que corresponden a una reparación mecánica con una M. En esta gráfica se han representado también las ecuaciones con objeto de mostrar gráficamente las dos ecuaciones que sirven para predecir el tiempo que se requerirá para una reparación mecánica y para una reparación eléctrica.

Ejercicio resuelto 1 Véase el problema de Johnson Filtration presentado en esta sección. Supóngase que además de la información sobre los meses transcurridos desde el último servicio y de si se trata de una reparación mecánica o eléctrica, los administradores presentan una lista con las personas que realizaron las reparaciones. A continuación se presentan los nuevos datos:

Donde: X1 = Meses desde el último servicio X2 = Tipo de reparación → X2 = 0: Tipo mecánico y X2 = 1: Tipo eléctrico X3 = Persona que realiza la reparación → X3 = 0: Dave Newton y X3 = 1: Bob Jones

Ingresando los datos y analizando en el minitab se obtuvo los siguientes resultados: Regression Analysis: Tiempo versus Meses; Tipo; Persona

Analysis of Variance Source Regression Error Total

DF 3 6 9

Adj SS 9.4305 1.0455 10.4760

Adj MS 3.14350 0.17425

F-Value 18.04

P-Value 0.002

Model Summary S 0.417434

R-sq 90.02%

R-sq(adj) 85.03%

R-sq(pred) 67.71%

Coefficients Term Constant Meses Tipo Persona

Coef 1.251 0.2914 1.102 0.609

SE Coef 0.471 0.0836 0.303 0.388

T-Value 2.66 3.49 3.63 1.57

P-Value 0.038 0.013 0.011 0.167

VIF 2.43 1.27 2.16

Regression Equation Tiempo = 1.251 + 0.2914 Meses + 1.102 Tipo + 0.609 Persona

a. Obtenga la ecuación de regresión estimada que permita predecir el tiempo que se requiere para una reparación dados los meses transcurridos desde la última reparación, el tipo de reparación y la persona que realizó la reparación. Interprete el coeficiente de regresión para X1 y X3. b. Empleando como nivel de significancia 0.05, realice una prueba para ver si la ecuación de regresión estimada obtenida en el inciso a. representa una relación significativa entre las variables independientes y la variable dependiente. c. ¿Es estadísticamente significativo agregar la variable X3, la persona que realizó la reparación? Use α = 0.05. ¿Qué explicación puede dar para los resultados observados? Si se asume que todas las variables permanecen en el modelo de regresión: d. Estime el tiempo que se requiere una reparación si la han pasado 5 meses de la última reparación, el tipo de reparación es eléctrico y la persona que realizó la reparación fue Bob Jones. e. ¿Qué porcentaje de variabilidad del tiempo de reparación está explicada por el modelo de regresión?

SOLUCIÓN a. La ecuación de regresión estimada es: Tiempo = 1.251 + 0.2914 Meses + 1.102 Tipo + 0.609 Persona Interpretando:

Coeficiente para X1: Por cada mes desde la última reparación, el tiempo promedio requerido de reparación aumenta en 0.2914 días, manteniendo constantes a las otras variables independientes. Coeficiente para X2: El tiempo promedio de reparación realizada por Bob Jones será mayor que una reparación realizada por Dave Newton. b. Se pide: i. Planteamiento de las hipótesis: H0: El modelo de regresión no es significativo ((existe relación significativa entre las variables independientes y la variable dependiente) H1: El modelo de regresión es significativo (existe relación significativa entre las variables independientes y la variable dependiente) ii. Nivel de significancia: α = 0.05 iii. Estadístico de prueba: Fcal = 18.04 iv. Decisión y conclusión: Como p-valor (0.002) < α = 0.05, se rechaza H0. Al 5% de significancia, existe evidencia estadística para afirmar que el modelo de regresión es significativo.

c. Significancia para la variable X3: i. Planteamiento de las hipótesis: H0: La variable no es significativa en el modelo de regresión H1: La variable es significativa en el modelo de regresión ii. Nivel de significancia: α = 0.05 iii. Estadístico de prueba: Tcal = 1.57 iv. Decisión y conclusión: Como p-valor (0.1.67) > α = 0.05, no se rechaza H0. Al 5% de significancia, no existe evidencia estadística para afirmar que la persona que la variable persona que realiza la reparación (X3) es significativa . → Por la prueba individual, la variable no es útil en el análisis de regresión. d. Para: X1 = 5; X2 = 1 (eléctrico) y X3 = 1 (Bob Jones)

→ Tiempo = 1.251 + 0.2914 (5) + 1.102 (1) + 0.609 (1) = 4.419 días e. R2adj = 85.03%

Ejercicio propuesto 1 En la liga nacional de fútbol americano de Estados Unidos (NFL) se evalúa a sus prospectos con una escala que va del 5 al 9. Estas evaluaciones se interpretan como sigue: 8 – 9 deberá empezar el año próximo; 7.0 – 7.9 deberá empezar; 6.0 – 6.9 servirán de respaldo al equipo, y 5.0 – 5.9 pueden formar parte del club y contribuir. En la tabla siguiente se da posición (0: Guardia; 1: Tackle), peso, tiempo en segundos para correr 40 yardas y la evaluación dada por la NFL a 25 prospectos (USA Today, 14 de abril de 2000).

Ingresando los datos y analizando en el minitab se obtuvo los siguientes resultados: Regression Analysis: Evaluación versus Posición, Peso, Tiempo Analysis of Variance Source Regression Error Total

DF 3 21 24

Adj SS 9.156 10.101 19.258

Adj MS 3.0521 0.4810

F-Value 6.35

P-Value 0.003

Model Summary S 0.693554

R-sq 47.55%

R-sq(adj) 40.05%

R-sq(pred) 28.15%

Coefficients Term Constant Posición Peso Tiempo

Coef 11.22 0.732 0.0222 -2.278

SE Coef 4.52 0.289 0.0104 0.929

T-Value 2.48 2.53 2.14 -2.45

P-Value 0.022 0.019 0.045 0.023

VIF 1.09 1.30 1.29

a. Obtenga una ecuación de regresión estimada que muestre la relación entre la evaluación y posición, peso y tiempo requerido para correr 40 yardas. Interprete los coeficientes estimados de Posición y Tiempo. b. Empleando como nivel de significancia 0.05, pruebe si la ecuación de regresión estimada obtenida en el inciso a. indica que existe una relación significativa entre las variables independientes y la variable dependiente. c. ¿Es la posición un factor significativo en la evaluación de los jugadores? Use α = 0.05. Explique. d. Suponga que hay un nuevo prospecto de tackle que pesa 300 libras y corre 40 yardas en 5.1 segundos. Utilice la ecuación de regresión estimada obtenida en el inciso a) para estimar la evaluación de este jugador. e. ¿Proporciona la ecuación de regresión estimada un buen ajuste a los datos observados? Justifique su respuesta.

Metacognición  ¿Cómo mejorarías el aprendizaje del tema?  ¿Para que problemas de tu especialidad puedes utilizar lo aprendido?  ¿Qué dificultades crees que se presenten en su aplicación?

Actividad de aprendizaje El estudio de satisfacción del cliente sobre restaurantes de Consumer Reports se basa en más de 148 599 visitas a diferentes cadenas de restaurantes de servicio completo (sitio web de Consumer Reports, 11 de febrero de 2009). Suponga que los siguientes datos son representativos de los resultados reportados. La variable tipo, indica si el restaurante es de comida italiana, o de mariscos/carnes. Precio, indica la cantidad promedio que paga una persona por la comida y la bebida, menos la propina. Puntuación, refleja la satisfacción general de los comensales, con los valores más altos indicando mayor satisfacción general. Podemos interpretar como “muy satisfecho” una puntuación de 80. Para la variable: Tipo de comida se codificó de la siguiente manera: 0: Italiana 1: Mariscos/carnes Con la información recolectada se ingresó al minitab y se obtuvo los siguientes resultados:

Asumiendo que se cumple el supuesto de normalidad, con lo obtenido se pide: a. Verifique el supuesto de independencia de los errores y la no multicolinealidad de las variables independientes. b. Determine la ecuación de regresión que permita estimar la satisfacción del cliente en función del tipo de comida y el precio promedio de la comida. c. Interprete el coeficiente de regresión de Tipo de comida. d. Con un nivel de significancia de 5%, ¿el modelo de regresión estimado es significativo? e. ¿Es el tipo de restaurante un factor significativo en la satisfacción general del cliente? Use un α = 0.05. f. Estime la puntuación de satisfacción del cliente de Consumer Reports para un restaurante de mariscos/carnes con un precio promedio de $20 por comida. g. Interprete el coeficiente de determinación.

Referencias Bibliográficas

1. Anderson, S. (2010) Estadística para Administración y Economía. Cengage Learning 8va. Edición. México. 2. Montesinos, L., Llanos, K., Cerna, E., Pajuelo, S. y Coaquira, F. (2017) Estadística Descriptiva e Inferencial. Fondo Editorial USIL 1° Edición. Lima, Perú.