Ejercicios U1, U3, U4

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial ALUMNAS: Gutiérrez Flores Polette Fernanda J

Views 137 Downloads 1 File size 2MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Regresión lineal múltiple Conceptos básicos Un modelo de regresión múltiple trata de explicar el comportamiento de una variable dependiente en función de un conjunto de variables explicativas. Variable dependiente: Una variable dependiente es aquella cuyos valores dependen de los que tomen otra variable. La variable dependiente en una función que suele representar por y. Variable independiente: Una variable independiente es aquella cuyo valor no depende de otra variable. Es aquella característica o propiedad que se supone es la causa del fenómeno estudiado. Se está interesado en investigar la variable índice de criminalidad en relación con otras variables. Para ello se dispone de datos de 47 estados de EEUU relativos al año 1960. R 79,1 163,5 57,8 196,9 123,4 68,2 96,3 155,5 85,6 70,5 167,4 84,9 51,1 66,4 79,8 94,6 53,9 92,9 75 122,5 74,2 43,9 121,6

AGE 151 143 142 136 141 121 127 131 157 140 124 134 128 135 152 142 143 135 130 125 126 157 132

S 1 0 1 0 0 0 1 1 1 0 0 0 0 0 1 1 0 1 0 0 0 1 0

ED 91 113 89 121 121 110 111 109 90 118 105 108 113 117 87 88 110 104 116 108 108 89 96

EX1 58 103 45 149 109 118 82 115 65 71 121 75 67 62 57 81 66 123 128 113 74 47 87

EX2 56 95 44 141 101 115 79 109 62 68 116 71 60 61 53 77 63 115 128 105 67 44 83

LF 510 583 533 577 591 547 519 542 553 632 580 595 624 595 530 497 537 537 536 567 602 512 564

M 950 1012 969 994 985 964 982 969 955 1029 966 972 972 986 986 956 977 978 934 985 984 962 953

N 33 13 18 157 18 25 4 50 39 7 101 47 28 22 30 33 10 31 51 78 34 22 43

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

96,8 52,3 199,3

131 130 131

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

0 0 0

116 116 121

78 63 160

73 57 143

574 641 631

1038 984 1071

Datos de variables R = “índice de criminalidad, número de delitos conocidos por la policía por cada millón de habitantes” Age = “distribución de la edad, número de varones de edad 14-24 por cada mil de toda la población del estado” S = “variable binaria que distingue entre estados del sur (S = 1) del resto” Ed = “nivel educativo, número medio de años de escolarización” Ex1 = “gasto per cápita en protección policial relativa a 1960” Ex2 = “gasto per cápita en protección policial relativa a 1959” LF = “proporción en participación en trabajos de fuerza por cada mil hombres con edad 14-24” M = “Número de varones por mil mujeres” N = “Tamaño de la población del estado en cien mil” DECLARACIÓN DE VARIABLES Variables independientes o predictoras: X1 = “distribución de la edad, número de varones de edad 14-24 por cada mil de toda la población del estado” X2 = “variable binaria que distingue entre estados del sur (S = 1) del resto” X3 = “nivel educativo, número medio de años de escolarización” X4 = “gasto per cápita en protección policial relativa a 1960” X5 = “gasto per cápita en protección policial relativa a 1959” X6 = “proporción en participación en trabajos de fuerza por cada mil hombres con edad 14-24” X7 = “Número de varones por mil mujeres”

7 14 3

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

X8 = “Tamaño de la población del estado en cien mil” Variable dependiente o respuesta: Y= “índice de criminalidad, número de delitos conocidos por la policía por cada millón de habitantes”

ECUACIÓN DE REGRESIÓN De acuerdo a los datos, se presentará la siguiente ecuación a resolver:

Y=β0+ β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+β7X7+ β8X8 La ecuación de regresión está formada por: 1. Ocho variables independientes o predictoras. (X1, X2, X3, X4…) 2. Una variable dependiente o respuesta. (Y) 3. Coeficientes de regresión poblacional o pendientes. (β0, β1, β2, β3…) Mediante el uso del el programa MINITAB 17; se calculará la ecuación de regresión múltiple obteniendo lo siguiente:

ECUACIÓN DE REGRESIÓN

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Interpretación:

=

=

Nos muestra que a menor número de variable binaria, nivel educativo, número medio de años de escolarización, gasto per cápita en protección policial relativa a 1960, gasto per cápita en protección policial relativa a 1959, etcétera haciendo referencia a las variables X 1, X2,…, Xn (independientes), el índice de criminalidad y el número de delitos conocidos por la policía por cada millón de habitantes tiene un valor menor ya que afecta de manera proporcional a la disminución o aumento de estos.

El aumento promedio en el índice de criminalidad es de 0.437 por cada incremento en una unidad en la distribución de la edad, asumiendo que la las variables X2, X3, X4, X5, X6, X7 y X8 son constantes.

=

El aumento promedio en el índice de criminalidad es de 3.75 por cada incremento en una unidad en la variable binaria que distingue entre estados del sur, asumiendo que la las variables X1, X3, X4, X5, X6, X7 y X8 son constantes.

=

El decremento promedio en el índice de criminalidad es de 0.615 por cada aumento en una unidad en el nivel educativo, número medio de años de escolarización asumiendo que la las variables X1, X2, X4, X5, X6, X7 y X8 son constantes.

=

El aumento promedio en el índice de criminalidad es de 2.78 por cada incremento en el gasto per capita en protección policial relativa a 1960, asumiendo que la las variables X1, X2, X3, X5, X6, X7 y X8 son constantes.

=

El decremento promedio en el índice de criminalidad es de 1.94 por cada aumento en una unidad en el gasto per capita en protección policial relativa a 1959 asumiendo que la las variables X1, X2, X3, X4, X6, X7 y X8 son constantes.

6 =

El decremento promedio en el índice de criminalidad es de 0.010 por cada aumento en una unidad en la proporción en participación en trabajos de fuerza asumiendo que la las variables X1, X2, X3, X4, X5, X7 y X8 son constantes.

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

7

=

88

=

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

El aumento promedio en el índice de criminalidad es de 0.534 por cada incremento en el número de varones por cada mil mujeres asumiendo que la las variables X1, X2, X3, X4, X5, X6 y X8 son constantes. El aumento promedio en el índice de criminalidad es de 0.450 por cada incremento en el tamaño de la población del estado en cien mil, asumiendo que la las variables X1, X2, X3, X4, X5, X6 y X7 son constantes. COEFICIENTE DE DETERMINACION AJUSTADA

El coeficiente de determinación ajustada es el porcentaje de variación en la variable de respuesta que es explicado por su relación con una o más variables predictoras. El valor de R2 ajustado incorpora el número de predictores del modelo para elegir el modelo correcto. El R 2 ajustado se utiliza para determinar qué tan bien se ajusta el modelo; ajusta a los datos cuando desee ajustar el número de predictores del modelo. Coeficiente de determinación ajustado de los datos:

COEFICIENTE DE DETERMINACIÓN AJUSTADO

Interpretación El coeficiente de determinación al cuadrado ajustado indica que se puede minimizar en un 69.16% la suma de todas las correlaciones entre las variables predictoras (X1, X2, X3… Xn) con nuestra variable dependiente. COEFICIENTE DE CORRELACION MULTIPLE El coeficiente de correlación múltiple establece una medida del grado de asociación lineal entre la variable respuesta (Y) y las variables predictoras (X 1, X2,

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

X3, X4, X5, X6, X7, X8), concretamente entre la variable respuesta y la recta de regresión estimada. Se representa por r y varía entre -1 y 1.

DATOS OBTENIDOS CON ANÁLISIS DE DATOS EN EXCEL El valor de 79.03% se traduce como el porcentaje de variabilidad de Y (“índice de criminalidad, número de delitos conocidos por la policía por cada millón de habitantes”) explicada o debida a la recta de regresión, en tanto que puede comprobarse que cuando todos los puntos se encuentran sobre la recta de regresión estimada, a suma de cuadrados de residuos, SSE, toma el valor cero.

COEFICIENTE DE MALLOWS El Coeficiente de Mallows se utiliza como ayuda para elegir entre múltiples modelos de regresión, comparando la precisión y el sesgo del modelo completo con modelos que incluyen un subconjunto de los predictores. Por lo general se deben buscar modelos en los que el Coeficiente de Mallows sea pequeño y esté cerca del número de predictores del modelo más la constante (p). Un valor pequeño del Coeficiente de Mallows indica que el modelo es relativamente preciso (tiene poca varianza) para estimar los coeficientes de regresión reales y predecir futuras respuestas. En este caso, se observa que nuestro valor más pequeño es 2.1. Los resultados indican que el modelo con las variables Ed = “nivel educativo, número medio de años de escolarización”, Ex1 = “gasto per cápita en protección policial relativa a 1960”, M = “Número de varones por mil mujeres” y N = “Tamaño de la población del estado en cien mil” son relativamente precisos y no tienen sesgo puesto que su Coeficiente de Mallows es (2.1) siendo el valor más bajo y el más cercano al número de predictores más la constante.

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

PRUEBA DE HIPOTESIS DEL CONJUNTO Prueba de todo el conjunto de datos el cual determinará si existe una regresión lineal en la población, en la variable dependiente (Y) con todas las variables independientes en conjunto. 1. Planteamiento de la hipótesis H0 : β0 = β1 = β2 = β3 = β4 = β5 = β6 = β7 = β8 H1 : Al menos una de las βi ≠ 0 2. Nivel de significancia α =0.05 3. Región critica. Parámetro desconocido de la población sobre el que queremos realizar un contraste; región de valores que dan lugar a rechazar la hipótesis.

F0.05, 8,17= 2.548

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

4. Cálculos.

Valor de f = 80.09. Distribución f con 5 grados de libertad en el numerador y 16 grados de

libertad en el denominador 5. Conclusión. Dado que el valor de F (80.09) > F0.05, 8,17 = 2.548 con un nivel de significancia de α =0.05 se rechaza la hipótesis nula. Con un error de riesgo de error tipo I, se puede afirmar que las evidencias muéstrales sugieren que si hay efecto significativo entre el índice de criminalidad y las variables distribución de la edad, variable binaria que distingue entre estados del sur, nivel educativo, gasto per capita en protección policial relativa a 1960, gasto per capita en protección policial relativa a 1959, proporción en participación en trabajos de fuerza, número de varones por mil mujeres y el tamaño de la población del estado en cien mil.

PRUEBA DE HIPOTESIS DEL SUBCONJUNTO 1. Datos B0 = - 1.82 2. Prueba de hipótesis H0: B0 = - 1.82 H1: B0 > - 1.82 3. Nivel de significancia α =0.05 4. Región critica 5. Cálculos

Zona de aceptación

Zona de rechazo

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Como Tr (0.980) < T0.05, 25 (1.725) con un nivel de significancia de α = 0.05 se acepta H1. Por lo que el índice de criminalidad es de – 1.82 cuando el resto de las variables son 0.

PRUEBAS INDIVIDUALES DE COEFICIENTES INDIVIDUALES DEL MODELO Estas pruebas permiten deducir qué variables predictivas contribuyen de manera significativa al modelo de regresión lineal múltiple. 1. Planteamiento de hipótesis

8 6

7

6

7

8

2. Nivel de significancia α =0.05

Área de aceptación

3. Región critica Área de rechazo

4. Cálculos Los datos obtenidos para realizar la comparación de cada uno de los coeficientes

se

obtuvo

coeficientes individuales

de

los

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Comparación entre estadístico de prueba y nivel de significancia: Para llevar a cabo esta comparación hay que tomar en cuenta que cuando el valor estadístico de prueba es mayor que el valor crítico, H 0 se rechaza. Tval1= 0.63. Como Tcal1= 0.63 < 2.060, por lo tanto se ACEPTA Tval2= 0.19. Como Tcal2= 0.19 < 2.060, por lo tanto se ACEPTA Tval3= - 0.66. Como Tcal3= - 0.66 < 2.060, por lo tanto se ACEPTA Tval4= 1.01. Como Tcal4= 1.01 < 2.060, por lo tanto se ACEPTA Tval5= - 0.65. Como Tcal5= -0.65 < 2.060, por lo tanto se RECHAZA Tval6= - 0.04. Como Tcal3= -0.04 < 2.060, por lo tanto se ACEPTA Tval7= 1.85. Como Tcal4= 1.85< 2.060, por lo tanto se ACEPTA Tval8= 2.27. Como Tcal5= 2.27 > 2.060, por lo tanto se RECHAZA P-valor y el nivel de significancia: P-valor1= 0.535 es > α= 0.05, se acepta P-valor2= 0.849 es > α= 0.05, se acepta P-valor3= 0.520 es > α= 0.05, se acepta P-valor4= 0.324 es > α= 0.05, se acepta P-valor5= 0.523 es > α= 0.05, se acepta P-valor6= 0.969 es > α= 0.05, se acepta P-valor7= 0.082 es < α= 0.05, se rechaza P-valor8= 0.037 es > α= 0.05, se acepta 5. Conclusión

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Los resultados sugieren que las variables X1, X2, X3, X4, X5, X6 Y X8 no son significativas en el modelo de análisis de regresión lineal múltiple para la variable de respuesta Y (índice de criminalidad), a excepción de la variable X7 que hace referencia al número de varones por mil mujeres puesto que esta variable sí representa muestra un efecto significativo para el modelo. INTERVALO DE PREDICCION Utilizando una muestra aleatoria especificada de una población se obtiene un intervalo o límite de predicción para una única observación futura de la población.

Interpretación: Existe una herramienta y la posibilidad de obtener un intervalo de predicción con MIBITAB 17. De acuerdo a los datos, con un intervalo de predicción del 95% se asume que el valor futuro del índice de criminalidad caerá en el intervalo de (146,653; 289,605).

INTERVALO DE CONFIANZA Un intervalo de confianza es un rango de valores, derivado de los estadísticos de la muestra, que posiblemente incluya el valor de un parámetro de población desconocido. La desviación estándar de una estadística empleada como estimador de un parámetro poblacional también se denomina error estándar del estimado (abreviado SE) porque se refiere a la precisión denomina. Es posible calcular el error que se comete al tratar de predecir valores de “Y” a través de la ecuación de regresión:

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Haciendo uso de la siguiente fórmula:

Los valores de Y que se obtienen al reemplazar los valores de X1, X2, X3, X4, X5, X6, X7 y X8 en la ecuación de regresión Este error indica la diferencia promedio entre los valores reales de “Y” y los valores estimados de “Y” a partir de la ecuación de regresión. Syx1x2x3x4x5x6x7x8 = 24,78 Al estimar valores de la variación se encontró que se alejan en 24,78 promedio en las 26 observaciones. Es un dato considerable y podría causar una importante fluctuación en el resultado global.

ANÁLISIS DE DATOS EN EXCEL

Los cálculos de los intervalos de confianza se pueden obtener mediante:

Haciendo uso de las herramientas que nos proporciona Excel, fue posible obtener los intervalos de confianza por cada variable, arrojando los siguientes resultados:

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Grafica de distribución de normalidad (t). Esto facilita la obtención de los intervalos de confianza.

Intervalo de confianza del 95 (1-α) % para la intersección (β0) Con un intervalo de confianza del 95% se asume que el valor medio de la intersección caerá en el intervalo de: (-1112.73, 81.84) Intervalo de confianza del 95 (1-α) % para el coeficiente β1 Con un intervalo de confianza del 95% se asume que el valor medio de la distribución de la edad caerá en el intervalo de: (-1.02, 1.89) Intervalo de confianza del 95 (1-α) % para el coeficiente β2 Con un intervalo de confianza del 95% se asume que el valor medio de la variable binaria que distingue entre estados del sur caerá en el intervalo de: (-36.25, 43.58) Intervalo de confianza del 95 (1-α) % para el coeficiente β3 Con un intervalo de confianza del 95% se asume que el valor medio de la variable nivel educativo, número medio de años de escolarización caerá en el intervalo de: (-2.59, 1.36) Intervalo de confianza del 95 (1-α) % para el coeficiente β4 Con un intervalo de confianza del 95% se asume que el valor medio de la variable gasto per capita en protección policial relativa a 1960 caerá en el intervalo de: (3.00, 8.57) Intervalo de confianza del 95 (1-α) % para el coeficiente β5

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Con un intervalo de confianza del 95% se asume que el valor medio de la variable (8.22, 4.34) Intervalo de confianza del 95 (1-α) % para el coeficiente β6 Con un intervalo de confianza del 95% se asume que el valor medio de la variable proporción en participación en trabajos de fuerza caerá en el intervalo de: (-0.57, 0.55) Intervalo de confianza del 95 (1-α) % para el coeficiente β7 Con un intervalo de confianza del 95% se asume que el valor medio de la variable número de varones por cada mil mujeres caerá en el intervalo de: (-0.08, 1.14) Intervalo de confianza del 95 (1-α) % para el coeficiente β8 Con un intervalo de confianza del 95% se asume que el valor medio de la variable tamaño de la población del estado en cien mil caerá en el intervalo de: (0.03, 0.87) METODO DE SELECCIÓN PASO A PASO Regresión paso a paso es una herramienta que se utiliza en las etapas preliminares de la construcción de modelos para identificar un subconjunto útil de predictores. El proceso añade sistemáticamente la variable más significativa o elimina la variable menos significativa durante cada paso. Además, busca de entre todas las posibles variables explicativas aquellas que más y mejor expliquen a la variable dependiente sin que ninguna de ellas sea combinación lineal de las restantes. Nivel de significancia: α = 0.25

Subconju nto óptimo

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Utilizando este método de paso a paso, el programa nos arroja que con un nivel de significancia de α = 0.1 las variables dentro de nuestro modelo tienen una significancia importante en la regresión lineal múltiple. A su vez, este modelo se encarga de eliminar variables innecesarias. Por ello, al analizar la recta de regresión lineal múltiple original, se tiene:

Después de hacer la regresión lineal múltiple con el método paso a paso ajustado podemos observar la eliminación de algunas variables dado que éstas, son insignificantes para el modelo de regresión ajustado.

Asimismo, se observa que el coeficiente de determinación para la regresión paso a paso del modelo nuevo o de eliminación de variables es de r^2 = 77.68%. Nos muestra que las otras variables tales como el “índice de criminalidad, número de delitos conocidos por la policía por cada millón de habitantes”, “distribución de la edad, número de varones de edad 14-24 por cada mil de toda la población del estado”, “variable binaria que distingue entre estados del sur (S = 1) del resto”, “gasto per cápita en protección policial relativa a 1959” y la “proporción en participación en trabajos de fuerza por cada mil hombres con edad 14-24” se han eliminado. Con esto se obtienen variables significativas para el modelo de regresión haciendo uso de la herramienta paso a paso.

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

METODO DE SELECCIÓN HACIA ATRÁS El procedimiento hacia atrás incluye todas las variables en el modelo de regresión sin embargo en ésta se van eliminando variables progresivamente de menor a mayor contribución hasta que ésta sea lo suficientemente significativa como para no poder ser eliminada.

Subconjunto óptimo

En la eliminación las variables incluidas en el modelo se toman de la ecuación original y se van eliminando conforme se consideren variables insignificantes para el modelo final ajustado. Con un valor de α =0.1 las variables propuestas en el modelo de regresión original cambian ya que algunas tienden a ser insignificantes para explicar el índice de criminalidad (Y). Por ello, al analizar la recta de regresión lineal múltiple original, se tiene:

Después de hacer la regresión lineal múltiple con el método hacia atrás, podemos observar la eliminación de algunas variables dado que éstas, son insignificantes para el modelo de regresión ajustado. El programa arrojó la siguiente ecuación:

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Como puede observarse, sí hubo variables eliminadas puesto que fueron insignificantes en el modelo de regresión ajustado. Asimismo, se observa que el coeficiente de determinación para la regresión paso a paso del modelo nuevo o de eliminación de variables es de r^2 = 77.68%. Nos muestra que las otras variables tales como el “índice de criminalidad, número de delitos conocidos por la policía por cada millón de habitantes”, “distribución de la edad, número de varones de edad 14-24 por cada mil de toda la población del estado”, “variable binaria que distingue entre estados del sur (S = 1) del resto”, “gasto per cápita en protección policial relativa a 1959” y la “proporción en participación en trabajos de fuerza por cada mil hombres con edad 14-24” se han eliminado. Con esto se obtienen variables significativas para el modelo de regresión haciendo uso de la herramienta paso a paso. METODO DE SELECCIÓN HACIA ENFRENTE El procedimiento hacia delante (es equivalente al anterior excepto en el sentido que no existe ninguna reevaluación, y se van incluyendo, por tanto en el modelo las variables según su importancia. Frecuentemente este método coincide con el anterior cuando no hay que extraer ninguna de las variables introducidas.

Subconju nto Óptimo

Al realizar el análisis de regresión para obtener el modelo mediante el método de eliminación hacia adelante y con un valor de α =0.1 las variables propuestas en el modelo de regresión original cambian ya que algunas tienden a ser insignificantes para explicar el índice de criminalidad (Y). Por ello, al analizar la recta de regresión lineal múltiple original, se tiene:

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Después de hacer la regresión lineal múltiple con el método hacia atrás, podemos observar la eliminación de algunas variables dado que éstas, fueron insignificantes para el modelo de regresión ajustado. El programa arrojó la siguiente ecuación:

En este método, a diferencia de los otros se incluye la variable EX2 referente al “gasto per cápita en protección policial relativa a 1959”. Se observa que el coeficiente de determinación para la regresión hacia enfrente del modelo nuevo o de eliminación de variables es de r^2 = 78.30%. Nos muestra que las otras variables tales como el “índice de criminalidad, número de delitos conocidos por la policía por cada millón de habitantes”, “distribución de la edad, número de varones de edad 14-24 por cada mil de toda la población del estado”, “variable binaria que distingue entre estados del sur (S = 1) del resto” y la “proporción en participación en trabajos de fuerza por cada mil hombres con edad 14-24” se han eliminado. Con esto se obtienen variables significativas para el modelo de regresión haciendo uso de la herramienta paso a paso.

ANÁLISIS DE GRAFICA DE RESIDUOS; RESIDUALES GRAFICA DE NORMALIDAD, RESIDUALES HISTOGRAMA, RESIDUALES VARIANZA AJUSTES Y ANALISIS DE LOS RESIDUALES VARIANZA ORDEN

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

PLOT DE NORMALIDAD: Permite comprobar si la distribución está sesgada, si es demasiado plana o picuda, o si tiene valores extremos permitiendo cotejar normalidad. El gráfico más específico para este fin es el de probabilidad normal (q-q plot), en el que los valores se ajustan a la línea diagonal si la distribución sigue una normal. Si los puntos están bien cerca de una línea recta se concluye, que hay normalidad. Interpretación: En este caso si existe una normalidad dado que los puntos están muy juntos a la línea recta, excepto por el punto señalado el cual no se ajusta completamente a la gráfica. HISTOGRAMA DE LOS RESIDUOS: El histograma de residuos determina si los datos son asimétricos o si existen valores atípicos en los datos. También permitiendo cotejar normalidad. Cuando el histograma es simétrico, con un único pico en el centro, se concluye que hay normalidad. Interpretación: en el histograma, el flujo es simétrico excepto por el único lado izquierdo el punto o limite el cual esta fuera, o se aleja de -50 a 50. PLOT DE RESIDUALES VERSUS LOS VALORES PREDICHOS (FITS): Esta gráfica muestra un patrón aleatorio de residuos a ambos lados de 0. Los patrones

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

no aleatorios, pueden violar el supuesto de que las variables predictoras no están relacionadas con los residuos. Interpretación: En este caso la gráfica nos muestra datos no tan dispersos a excepción de uno que se encuentra señalado excepto por un punto el cual está señalado en la parte inferior, pero afecta en un pequeña parte al modelo. Por lo tanto se puede deducir que es normal. PLOT DE RESIDUALES VERSUS LA VARIABLE PREDICTORA: Al utilizar los residuos vs. los ajustes para verificar el supuesto de que los residuos tienen varianza constante. Es usado para detectar datos anormales así como si la varianza de los errores es constante con respecto a la variable predictora. Interpretación: El plot de los residuales versus los valores predichos muestra que la varianza de los errores es inconstante con respecto a la variable de respuesta, pues va fluctuando y tiende a aumentar cuando el valor de la variable de respuesta aumenta.

DISEÑO DE UN SOLO FACTOR

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

MODELO DEL DISEÑO COMPLETAMENTE ALEATORIZADO: MUESTRAS IGUALES El análisis de la varianza de un factor (ANOVA) es una metodología para analizar la variación entre muestras y la variación al interior de las mismas mediante la determinación de varianzas. ECUACION DEL MODELO ESTADISTICO Yij = µ + τi + εij Yij= medición que corresponde al tratamiento i y al bloque j µ= media global τi= parámetro que mide el efecto del al tratamiento i εij= error aleatorio atribuible a la medición Yij Los datos siguientes presentan las producciones de frijol soya (en bushels por acre) plantados a dos pulgadas de distancia entre sí en terrenos esencialmente similares con las columnas de 20, 24, 28 y 32 pulgadas de distancia:

ANÁLISIS DE VARIANZA Haciendo uso de MINITAB 17 el programa nos arroja los siguientes datos:

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

El análisis de varianza (ANOVA) es la técnica central en el análisis de datos experimentales. En el caso del DCA (diseño completamente aleatorizado) de muestra desigual lo que se lleva a cabo es separar la variabilidad debida a los tratamientos y la variabilidad debida al error, para así poder contrastar los resultados y poder hacer una inferencia en los efectos logrados en el experimento. Los valores señalados en el ANOVA se utilizaran para hacer comparaciones y para el resto del ejercicio. PRUEBA DE HIPÓTESIS Nivel de significancia.

α =0.05 Prueba hipótesis HO: μ 1 = μ 2 = μ 3=0 μ 4=0 H1: al menos una de las medias no son iguales.

Región crítica Zona de aceptación

Zona de rechazo

F0.05, 3,20 = 3.098 Cálculos

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Conclusión Comparando F: 10.78 > 3.098, se rechaza Ho. Utilizando el valor P: P = 0.000 < 0.05, se rechaza Ho Dado que p (0.000) es menor que el nivel de significancia de α =0.05 se rechaza H0 (hipótesis nula) y concluimos que la distancia (pulgadas) a la que están plantados los bushels sí influye en las producciones de frijol soya.

PRUEBA DE MEDIAS Cuando no se rechaza la hipótesis nula H0:  A  B  C  D el objetivo del experimento está cubierto y la conclusión es que los tratamientos no son diferentes. Si se rechaza H0, y por consiguiente se acepta la hipótesis alternativa es necesario investigar cuáles tratamientos resultaron diferentes, o cuáles provocan la diferencia. PRUEBA TUKEY El método de Tukey se utiliza en ANOVA para crear intervalos de confianza para todas las diferencias en parejas entre las medias de los niveles de los factores mientras controla la tasa de error por familia que especifique. Es importante considerar la tasa de error por familia cuando se realizan múltiples comparaciones

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

debido a que la probabilidad de cometer un error tipo I para una serie de comparaciones es mayor que la tasa de error para cualquier comparación individual. Para contrapesar esta mayor tasa de error, el método de Tukey ajusta el nivel de confianza de cada intervalo individual, de modo que el nivel de confianza simultáneo resultante sea igual al valor que especifique. El valor crítico está dado por:

El método de Tukey trabaja con un error a muy cercano al declarado por el experimentador.

Interpretación: Las medias que no comparten una letra son significativamente diferentes. Nuestros datos muestran que tres de nuestros factores comparten la letra A. Sin embargo, el cuarto factor que hace referencia a las 32 pulgadas, aparece con una letra distinta indicando que con un nivel de confianza del 95% se concluye que una hay variación significativa entre la distancia de 32 pulgadas a la que están plantados los bushels y las producciones de frijol-soya.

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Prueba Fisher

Interpretación: Las medias que no comparten una letra son significativamente diferentes. Esta prueba nos indica que nuestros datos distintos datos. Por lo que se puede concluir con un nivel de confianza del 95% que una hay variación significativa entre la distancia (pulgadas) a la que están plantados los bushels y las producciones de frijol-soya.

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

PRUEBA DE VARIANZAS Prueba de Levene La prueba de Levene utiliza la desviación absoluta de las observaciones en cada tratamiento de la mediana del tratamiento. Luego evalúa si la media de estas desviaciones es o no igual para todos los tratamientos. Si las desviaciones medias son iguales, las varianzas de las observaciones en todos los tratamientos serán iguales. El estadístico de la prueba de Levene es el estadístico F de ANOVA para probar igualdad de medias aplicado a las desviaciones absolutas.

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Interpretación: Como podemos observar en la prueba de Levene el estadístico de prueba de valor p que es igual a 0.433 y dado que nuestro valor P > 0.05 podemos concluir con un nivel de confianza del 95% que la variación entre grupos de factores y respuestas demuestra desigual no es estadísticamente significativa en cuanto a la variabilidad.

GRAFICAS E INTERPRETACIÓN

Esta gráfica revela la diferencia que hay en promedio de la resistencia entre las cuatro medidas de pulgadas incluidas en el análisis. Indica también que en el conjunto de pulgadas comparado con el nivel de coeficientes obtenidos muestran una simetría constante en la cual se tiene variabilidad y dispersiones similares.

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Plot de Normalidad: Permite cotejar normalidad. Si los puntos están cerca de una línea recta se concluye que hay normalidad. Interpretación: En este caso nos indica la normalidad que existe en los factores y las réplicas, es decir que si los puntos están completamente alineados en la línea azul se puede decir que hay distribución de normalidad en los datos. Excepción por dos puntos que salen por una desviación menor, se tendrían que revisar estos datos con otros estudios para que hubiese una normalidad exacta. Histograma de Residuales: De igual manera permite cotejar normalidad. Cuando el histograma es simétrico, con un único pico en el centro, se concluye que hay normalidad. Interpretación: En este caso nos señala que la variabilidad en función del valor no se modifica a gran escala. La fluctuación de los puntos no es anormal y se puede decir que las varianzas son constantes. Los puntos no se muestran tan dispersos y se encuentran siempre apegados a la línea de referencia. Plot de Residuales versus los valores predichos (FITS): Se usa para detectar si hay datos anormales, cuando hay datos que caen bastantes alejados, tanto en el sentido vertical como horizontal. Interpretación: Los datos no se encuentran tan dispersos excepto por algunos datos que afectan en una mínima parte al modelo.

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Plot de Residuales versus la variable predictora: Es usado para detectar datos anormales así como si la varianza de los errores es constante con respecto a la variable predictora.

DISEÑO DE UN SOLO FACTOR MODELO DEL DISEÑO COMPLETAMENTE ALEATORIZADO: MUESTRAS DESIGUALES El gerente de un restaurante quiere determinar si las ventas de platillos preparados con pollo dependen de la manera en que estos se describen en el menú. Tiene tres clases de menús impresos, que listan, entre otros, platillos de pollo o los clasifican como “Especialidades del Chef” y “Delicias para el gourmet” y pretende usar cada clase de menú en seis domingos distintos. En realidad, el gerente recopila los datos siguientes que revelan el número de platillos preparados con pollo vendidos en doce domingos: Listados entre otros platillos Clasificados como especialidade s del chef Clasificados como delicias para el gourmet

76

94

85

77

89

109

117

102

92

115

100

83

102

91

79

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

NIVEL DE

SIGNIFICANCIA.

α =0.05 PRUEBA HIPÓTESIS HO: μ 1 = μ 2 = μ 3=0 H1: al menos una de las medias no son iguales.

REGIÓN CRÍTICA Zona de aceptación

Zona de rechazo

F0.05, 2,12 = 3.885 Cálculos

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Conclusión Comparando F: 7.71 > 3.885, por lo tanto Ho se acepta Utilizando el valor P: P = 0.007 < 0.05, por lo tanto Ho se acepta Dado que p (0.007) es menor que el nivel de significancia de α =0.05 aceptamos la hipótesis nula y concluimos que las ventas de platillos preparados con pollo dependen de la manera en que estos se describen en el menú.

PRUEBA DE MEDIAS Cuando no se rechaza la hipótesis nula H0:  A  B  C  D el objetivo del experimento está cubierto y la conclusión es que los tratamientos no son diferentes. Si se rechaza H0, y por consiguiente se acepta la hipótesis alternativa es necesario investigar cuáles tratamientos resultaron diferentes, o cuáles provocan la diferencia. PRUEBA TUKEY El método de Tukey se utiliza en ANOVA para crear intervalos de confianza para todas las diferencias en parejas entre las medias de los niveles de los factores mientras controla la tasa de error por familia que especifique. Es importante considerar la tasa de error por familia cuando se realizan múltiples comparaciones debido a que la probabilidad de cometer un error tipo I para una serie de comparaciones es mayor que la tasa de error para cualquier comparación individual. Para contrapesar esta mayor tasa de error, el método de Tukey ajusta el nivel de confianza de cada intervalo individual, de modo que el nivel de confianza simultáneo resultante sea igual al valor que especifique. El valor crítico está dado por:

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

El método de Tukey trabaja con un error a muy cercano al declarado por el experimentador.

Interpretación: Las medias que no comparten una letra son significativamente diferentes. Nuestros datos muestran que dos de nuestros factores comparten la letra B. Sin embargo, el factor 2 que hace referencia a los platillos clasificados como especialidades del chef, aparece con una letra distinta indicando con un nivel de confianza del 95% que hay una variación significativa entre los platillos de pollo, “Especialidades del Chef” y “Delicias para el gourmet”. Prueba Fisher

Interpretación: Las medias que no comparten una letra son significativamente diferentes. Nuestros datos muestran que dos de nuestros factores comparten la letra B. Sin embargo, el factor 2 que hace referencia a los platillos clasificados como especialidades del chef, aparece con una letra distinta indicando con un nivel de confianza del 95% que hay una variación significativa entre los platillos de pollo, “Especialidades del Chef” y “Delicias para el gourmet”. PRUEBA DE VARIANZAS

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Prueba de Levene La prueba de Levene utiliza la desviación absoluta de las observaciones en cada tratamiento de la mediana del tratamiento. Luego evalúa si la media de estas desviaciones es o no igual para todos los tratamientos. Si las desviaciones medias son iguales, las varianzas de las observaciones en todos los tratamientos serán iguales. El estadístico de la prueba de Levene es el estadístico F de ANOVA para probar igualdad de medias aplicado a las desviaciones absolutas.

Interpretación: Como podemos observar la prueba de valor p que es igual a 0.00 y dado que nuestro valor P > 0.05 podemos concluir con un nivel de confianza del 95% que la variación entre grupos de factores y respuestas de muestra desigual no es estadísticamente significativa en cuanto a la variabilidad. INDEPENDENCIA La suposición de independencia en los residuos puede verificarse si se grafica el orden en que se colectó un dato contra el residuo correspondiente. Al graficar de esta manera, dado que no se detecta un patrón del todo definido o una tendencia claramente definida, esto es evidencia de que no es probable que exista una correlación entre los errores y por lo tanto, el supuesto de independencia se pudiera cumplir.

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Análisis de gráficas

Esta gráfica muestra que existe una considerable diferencia que hay los platillos preparados con pollo. Indica que en el conjunto de platillos comparado con el nivel de coeficientes obtenidos muestran una simetría constante en la cual forma se tiene variabilidad y dispersiones similares.

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Plot de Normalidad: Permite cotejar normalidad. Si los puntos están cerca de una línea recta se concluye que hay normalidad. Interpretación: En este caso nos indica la normalidad que existe en los factores y las réplicas, es decir que si los puntos están completamente alineados en la línea azul se puede decir que hay distribución de normalidad en los datos. Sin embargo, en este problema existe un punto que sale por una desviación menor, de igual manera se tendrían que revisar estos datos con otros estudios para que hubiese una normalidad exacta. Histograma de Residuales: Permite cotejar normalidad. Cuando el histograma es simétrico, con un único pico en el centro, se concluye que hay normalidad. Interpretación: Nos señala que la variabilidad en función del valor no se modifica a gran escala; sin embargo, la fluctuación de los puntos es anormal y se puede decir que las varianzas podrían no ser constantes. Los puntos no se muestran un poco dispersos y no se encuentran siempre apegados a la línea de referencia.. Plot de Residuales versus los valores predichos (FITS): Se usa para detectar si hay datos anormales, cuando hay datos que caen bastantes alejados, tanto en el sentido vertical como horizontal.

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Interpretación: Los datos no se encuentran tan dispersos excepto por un dato que podría afectar en una mínima parte al modelo. Plot de Residuales versus la variable predictora: Es usado para detectar datos anormales así como si la varianza de los errores es constante con respecto a la variable predictora.

DISEÑO COMPLETAMENTE AL AZAR (DCA) El diseño completamente al azar es el más simple de todos los diseños. Es un diseño en el cual los tratamientos son asignados aleatoriamente a las unidades experimentales sin ningún tipo de restricción. Este diseño es utilizado cuando las unidades experimentales son bastante homogéneas, es decir cuando la variabilidad entre ellas es pequeña y no existe ningún criterio de bloqueo que permita disminuirla. Dado que los tratamientos constituyen el único criterio de clasificación para las unidades experimentales, a este diseño se le conoce también como diseño de clasificación de una vía. MODELO ESTADÍSTICO

Los siguientes son los contenidos de colesterol (en miligramos por paquete) que cuatro laboratorios obtuvieron por paquetes de 6 onzas de tres alimentos dietéticos muy similares:

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

Alimentos dietéticos

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Laboratorios 1

2

3

4

A

3.7

2.8

3.1

3.4

B

3.1

2.6

2.7

3.0

C

3.5

3.4

3.0

3.3

Hipótesis H0: μ1=μ2=μ3=μ4=μ5 HI: Al menos una μ es diferente

H0:α1=α2=α3=α4=α5 HI: Al menos una α será distinto a 0

Las hipótesis en relación al problema serian Bloques H0: No existe una diferencia significativa de los niveles alimentos dietéticos.

de colesterol en los

H1: Existe una diferencia significativa de los niveles de colesterol en los alimentos dietéticos. Tratamiento H0: No existe una relación significativa entre las muestras tomadas de colesterol por los laboratorios H1: Existe una relación significativa entre las muestras tomadas de colesterol por los laboratorios El nivel de significancia correspondiente es: α=0.05

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Valor Crítico: Por medio del programa MINITAB se obtuvo la gráfica de distribución, la cual nos servirá de ayuda para poder observar si se aceptan o se rechazan las hipótesis propuestas anteriormente [Escriba una cita del documento o el resumen de un punto interesante. Puede situar el cuadro de texto en cualquier lugar del documento. Use la ficha Herramientas de dibujo para cambiar el formato del cuadro de texto de la cita.]

Después de calcular f f₁ > fα [K-1, (K-1)(b-1)] CON P-VALOR P-VALOR < 0.05 Analisis de varianza (ANOVA) el cual se obtuvo en Minitab

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Interpretacion de los datos obtenidos en minitab: Para los bloques que estos son los alimentos dieteticos, el valor F podemos observar que es menor al valor obtenido en la grafica lo cual nos indica que la hipotesis nula H0 se acepta 1.40 < 5.41 Podemos inferir con un nivel de significancia del 0.05 que NO existe una diferencia significativa de los niveles de colesterol en los alimentos dietéticos. Para los tratamientos que en este caso serían los laboratorios, comparando los valores de F con la gráfica podemos observar que es menor 3.37 < 5.41 por lo tanto la hipótesis nula H0 se acepta. En este caso podemos inferir con un nivel de confianza del 95% que NO existe una relación significativa entre las muestras tomadas de colesterol por los laboratorios.

ANALISIS DE LOS RESIDUALES GRAFICA DE NORMALIDAD

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Interpretación: se puede observar que los puntos de las muestras se ajustan a la recta. Sin embargo, los dos últimos puntos se encuentran un poco alejados del resto, esto nos indica que existe una ligera variación entre estos dos datos, por lo que analizarlo a fondo y tratar de eliminarlo nos proporciona una mejor tendencia. ANALISIS DE LOS RESIDUALES RESIDUOS HISTOGRAMA

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Interpretación: El histograma nos muestra una ausencia de simetría. Podemos observar que hay un rango que no cuenta con una barra; esto podría afectar el supuesto de normalidad debido a que la gráfica nos permite verificar que los residuos presenten dicha normalidad. Aunado a ello, estos resultados nos indican que se debe analizar el experimento para averiguar las causas de valores atípicos. ANALISIS DE LOS RESIDUALES VARIANZA AJUSTES

Interpretación: una forma de verificar el supuesto de varianza constante es graficando los predichos contra los residuos. Si los residuos se distribuyen de una manera aleatoria y en una banda horizontal, es señal de que se cumple el supuesto de que los tratamientos tienen igual varianza. Estos residuos se encuentran dispersos y no siguen un patrón constante por lo que se concluye que la varianza es constante.

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

ANALISIS DE LOS RESIDUALES VARIANZA ORDEN vs. orden (la respuesta es colesterol) 0.3

Residuo

0.2 0.1 0.0 -0.1 -0.2 1

2

3

4

5 6 7 8 Orden de observación

9

10

11

12

Interpretación: La suposición de independencia en los residuos puede verificarse si se grafica el orden en que se colectó un dato contra el residuo correspondiente. Se observa que no existe un patrón definido en la gráfica de varianza de orden, lo que indica la ausencia de correlación entre los errores y demuestra que el supuesto de independencia se cumple. Cuando este supuesto no se cumple, indica que existen deficiencias en la ejecución del experimento. DISEÑO CUADRADO LATINO (DCL) En este diseño la restricción para controlar la variabilidad está en dos direcciones, hileras y columnas. Los tratamientos se arreglan en bloques de dos sentidos y cada tratamiento aparece una vez en cada hilera y columna. El análisis de los datos puede eliminar el error la variabilidad debida a la hilera y columna. Debe existir el mismo número de tratamientos, hileras y columnas, o sea, el número de tratamientos es igual al número de repeticiones. Un arreglo para cuatro tratamientos podría ser:

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

MODELO ADITIVO LINEAL

EJERCICIO Para comparar cuatro diseños diferentes de pelotas de golf, A, B, C, D, cada una golpeado por cada uno de cuatro golfistas profesionales, P 1, P2, P3, P4, usando una vez cada uno de cuatro palos, D 1, D2, D3, D4. Las distancias del tee a los puntos en que las pelotas se detuvieron (en yardas) aparecen en las siguientes tablas: Datos:

D1

D2

D3

D4

P1

D 231

B 215

A 261

C 199

P2

C 234

A 300

B 280

D 266

P3

A 301

C 208

D 247

B 255

P4

B 253

D 258

C 210

A 290

Hipótesis H0: αA=αB=αC=αD Hi: Al menos una de las α = 0 Ho: no hay diferencia alguna entre las pelotas de golf por lo que no influyen en la distancias del tee.

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Hi: si hay diferencia entre las pelotas de golf por lo que sí influyen en la distancias del tee. Nivel de significancia: α = 0.05 Región crítica f₁ > fα [p-1, (p-1)(p-2)] f0.05 (3,6)=4.76

Se obtiene el ANOVA con MINITAB donde aparecen los siguientes resultados: Cálculos:

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Interpretación de los datos obtenidos en el ANOVA de F, comparándolos con la gráfica de la distribución: Para el primer dato que serían los golfistas, el dato que se obtuvo de F es mayor que el valor de la gráfica lo cual podemos decir que H0 se rechaza, por lo cual podemos inferir con un nivel de significancia del 0.05 que existe una relación en la forma de golpear las pelotas de golfs de los golfistas profesionales. Columna en este caso son los palos de golf, analizando el resultado obtenido de F junto con la gráfica es menor que el valor de 4.76 de la zona de rechazo por lo tanto en este caso se acepta H0, se infiere con un nivel de significancia del 0.05 que NO existe una diferencia significativa de los palos de golf. Fila (distancia), se observa que este dato de F es mayor que el dato que se observa en la gráfica por lo tanto se rechaza H, entonces se puede concluir con un nivel de significancia del 0.05 que existe una distancia significativa entre las pelotas de golf que fueron golpeadas. ANALISIS DE LOS RESIDUALES GRAFICA DE NORMALIDAD

Interpretación: Existe una tendencia lineal dentro de los primeros datos; se mantienen juntos. Sin embargo, los cuatro últimos puntos se encuentran un poco alejados del resto, esto nos indica que existe una ligera variación.

ANALISIS DE LOS RESIDUALES HISTOGRAMA

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Interpretación: El histograma nos muestra una ausencia de simetría. Podemos observar hay un rango que no cuenta con una barra; esto podría afectar el supuesto de normalidad debido a que la gráfica nos permite verificar si los residuos presenten normalidad. Estos resultados nos indican que se debe analizar el experimento para averiguar las causas de valores atípicos ANALISIS DE LOS RESIDUALES VARIANZA AJUSTES

Interpretación: graficar los predichos contra los residuos nos permiten verificar el supuesto de varianza constante. Si los residuos se distribuyen de una manera aleatoria y en una banda horizontal, es señal de que se cumple el supuesto de que los tratamientos tienen igual varianza. Estos residuos se encuentran dispersos y

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

no siguen un patrón constante por lo que se concluye que la varianza es constante. ANALISIS DE LOS RESIDUALES VARIANZA ORDEN

Interpretación: La suposición de independencia en los residuos puede verificarse si se grafica el orden en que se colectó un dato contra el residuo correspondiente. Se observa que no existe un patrón definido en la gráfica de varianza de orden, lo que indica la ausencia de correlación entre los errores y demuestra que el supuesto de independencia se cumple. Cuando este supuesto no se cumple, indica que existen deficiencias en la ejecución del experimento.

DISEÑO CUADRADO GRECO-LATINO (DCL) El modelo en cuadrado greco-latino se puede considerar como una extensión del cuadrado latino en el que se incluye una tercera variable de control o variable de bloque. En este modelo, como en el diseño en cuadrado latino, todos los factores deben tener el mismo número de niveles K y el número de observaciones necesarias sigue siendo K 2. Este diseño es, por tanto, una fracción del diseño completo en bloques aleatorizados con un factor principal y 3 factores secundarios que requeriría K4 observaciones. Los cuadrados grecolatinos se obtienen por superposición de dos cuadrados latinos del mismo orden y ortogonales entre sí, uno de los cuadrados con letras latinas el otro con letras griegas. Dos cuadrados reciben el nombre de ortogonales si, al superponerlos, cada letra latina y griega aparecen juntas una sola vez en el

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Planteamiento del modelo En un diseño en cuadrado greco-latino la variable respuesta Y ij (hp) viene descrita por la siguiente ecuación

EJERCICIO Se compara el rendimiento de tres procesos de fabricación (A, B, C) entre condiciones experimentales (α, β, γ) tres días distintos con tres procedimientos de medición. El diseño y los resultados obtenidos se indican en el cuadro. El número entre paréntesis en cada casilla es la media de las dos replicaciones. Datos

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Análisis de varianza (ANOVA) de Minitab

Si el P valor es menor a 0,05 se rechaza la hipótesis alterna, eso quiere decir que hay diferencia significativa entre tratamientos (salió valor = 0,000) hay diferencia entre tratamientos Si el P valor fuese mayor que 0,05 se acepta la hipótesis nula, No hay diferencia entre tratamientos. Región crítica

Interpretación de los datos obtenidos en MINITAB comparándolos con la gráfica de distribución

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial









ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

Procesos donde observamos que F es menor 1.09 4.26 por lo tanto H0 se rechaza con un nivel de confianza del 95% se puede inferir que NO existe una relación significativa entre los métodos utilizados durante los procesos de fabricación. Por lo tanto se deberían de mejor para que los métodos utilizados tuvieran mayor relación con esto se pretendía mejorar tiempos en los procesos. ANALISIS DE RESIDUALES GRAFICA DE NORMALIDAD Gráfica de probabilidad normal (la respuesta es Rendimiento) 99

95 90

Porcentaje

80 70 60 50 40 30 20 10 5

1

-3

-2

-1

0 Residuo

1

2

3

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

En este grafico de probabilidad normal para greco-latino realmente se puede observar que los residuos están distribuidos pero de una manera simétrica, por lo tanto el rendimiento es bastante bueno.

ANALISIS DE RESIDUALES HISTOGRAMA Histograma (la respuesta es Rendimiento) 9 8

Frecuencia

7 6 5 4 3 2 1 0

-2

-1

0 Residuo

1

2

Interpretación: El histograma muestra simetría, no presenta cambios que pudieran afectar los resultados obtenidos, por lo que se concluye que el supuesto de normalidad demuestra que los residuos son normales sin fluctuaciones atípicas.

Estadística Inferencial II Regresión Lineal Múltiple Ingeniería Industrial

ALUMNAS: Gutiérrez Flores Polette Fernanda Juana Monserrat Rubio Carbajal

ANALISIS DE RESIDUALES VARIANZA AJUSTES

Interpretación: Existe una constante en la varianza dentro de los puntos, lo cual hace que sea significativo el equilibrio en los puntos que están sobre la línea de 0.

ANALISIS DE RESIDUALES VARIANZA ORDEN

Interpretación: No hay un patrón definido en la gráfica del orden, esto muestra que no existe correlación entre los errores. Se debe prestar atención a ciertos puntos atípicos puestos que estos, nos podrían indicar qué factores o qué es lo que afecta a los resultados obtenidos, sin embargo el supuesto de independencia se cumple.