ANALISIS DE VARIANZA El análisis de varianza es una técnica estadística, cuyo objetivo es comprobar si son iguales las m
Views 163 Downloads 2 File size 1MB
ANALISIS DE VARIANZA El análisis de varianza es una técnica estadística, cuyo objetivo es comprobar si son iguales las medias de más de una población, mediante el análisis y la comparación de diversos tipos de varianza muéstrales insesgada.
Cada método del análisis la varianza está asociada a un modelo matemático especifico los modelos se clasifican según el número de variables que han de ser probadas. Si es una variable, el modelo se denomina de clasificación simple o de un factor, si son dos variables el modelo se denomina de clasificación doble o de 2 factores.
ANALISIS DE VARIANZA DE UN FACTOR - DISEÑO COMPLETAMENTE ALEATORIZADO Sea un “X” una característica que se mide en “K” poblaciones o tratamientos diferentes, con medias respectivas 𝜇1 , 𝜇2 , … … . 𝜇𝑘 y varianza respectivas 𝜎12 , 𝜎22 , … . 𝜎𝑘2 𝑑𝑜𝑛𝑑𝑒: a. Los k poblaciones son independientes. b. Cada poblacion tienen distribución normal , N(𝜇1 , 𝜎12 ) c. Los k varianza son iguales a la varianza común 𝜎 2 En el modelo de clasificación de un factor completamente aleatorizado, los valores 𝑋𝑖𝑗 de las k muestras, (j-ésima observación de la i-ésima muestra 𝑗 = 1, 2, … , 𝑛𝑖 ,
𝑖 = 1, 2, … , 𝑘 se registran
en un arreglo tabular como el de la siguiente tabla: TRATAMIENTO 2
⋯⋯
i
⋯⋯
k
𝑋11
𝑋21
⋯⋯
𝑋𝑖1
⋯⋯
𝑋𝑘1
𝑋12
𝑋22
⋯⋯
𝑋𝑖2
⋯⋯
𝑋𝑘2
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
𝑋1𝑛1
𝑋2𝑛2
⋯⋯
𝑋𝑖𝑛𝑖
⋯⋯
𝑋𝑘𝑛𝑘
TOTAL
𝑇1 .
𝑇2 .
⋯⋯
𝑇𝑖 .
⋯⋯
𝑇𝑘 .
𝑇..
𝑛𝑖
𝑛1
𝑛2
⋯⋯
𝑛𝑖
⋯⋯
𝑛𝑘
𝑛
MEDIAS
𝑋̅1.
𝑋̅2.
⋯⋯
𝑋̅𝑖.
⋯⋯
𝑋̅𝑘.
𝑋̅..
1
JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA
Dónde:
𝑇𝑖. : Suma de datos de la muestra i
𝑇.. : Total de los datos de las k muetras
𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘 = 𝑛: Total observado en la k muestras
𝑋̅𝑖. : Media de la muestra
𝑋̅..: Media total muestral MODELO DEL ANÁLISIS DE VARIANZA
El modelo matemático de clasificación simple de un factor completo aleatorio, es la ecuación:
𝑿𝒊𝒋 = 𝝁 + 𝜶𝒊 + 𝜺𝒊𝒋 𝑛𝑖 𝑖 = 1,2, … . 𝑘 ; 𝑗 = 1,2, … 𝑛𝑖 ; ∑𝑖−1 𝛼𝑖 = 0
, ,
Dónde:
𝑋𝑖𝑗 : Es la observación de la mestra
𝜇: Media Total
𝛼𝑖 : Efecto del i-ésimo tratamiento
𝜀𝑖𝑗 : Desviación del dato observado X ij (error o residuo)
PROCEDIMIENTO PARA REALIZAR UN ANOVA
Los pasos a seguir para realizar en análisis de varianza es: 1. Formula del modelo matemático: 𝑋𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗
, 𝑖 = 1,2, … . 𝑘 ,
𝑗 = 1,2, … 𝑛𝑖 y
𝑖 ∑𝑛𝑖−1 𝛼𝑖 = 0
2. Formular las hipótesis 𝐻𝑜 : 𝜇1 = 𝜇2 = ⋯ 𝜇𝑘
𝐻𝑜 : 𝛼1 = 𝛼2 = ⋯ 𝛼𝑘 = 0
𝐻1 ∶ 𝑛𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠
𝐻1 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝛼𝑖 𝑛𝑜 𝑒𝑠 𝑖𝑔𝑢𝑎𝑙 𝑎 𝑐𝑒𝑟𝑜
3. ANOVA Fuente de
Suma de
Grados de
Cuadrado de
variación
cuadrados
libertad
medias
Tratamientos
SCC
k-1
Error
CSE
n-k
𝑆𝐶𝐶 𝑘−1 𝑆𝐶𝐸 𝐶𝑀𝐸 = 𝑛−𝑘
SCT
n-1
total Dónde:
JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA
𝐶𝑀𝑇 =
F calculada
𝐹𝑐𝑎𝑙. =
𝐶𝑀𝑇 𝐶𝑀𝐸
𝑛
𝑛
𝑖 𝑖 𝑆𝐶𝑇 = ∑𝑘𝑖=1 ∑𝑗=1 (𝑋𝑖𝑗 − 𝑋̅.. )2 = ∑𝑘𝑖=1 ∑𝑗=1 𝑋𝑖𝑗 2 − 𝐶 , donde 𝐶 =
𝑇 𝑛𝑖 𝑆𝐶𝐶 = ∑𝑘𝑖=1 ∑𝑗=1 (𝑋̅𝑖. − 𝑋̅.. )2 = ∑𝑘𝑖=1 𝑛𝑖. − 𝐶
𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝐶
𝐹0 = 𝐹[1 − 𝛼, (𝑘 − 1, 𝑛 − 𝑘)𝑔. 𝑙]
2 𝑖
4. Decisión 1RNR Fo
Si 𝐹𝑐𝑎𝑙 > 𝐹0 , se rechaza 𝐻0 , caso contrario se acepta la 𝐻0 5. Interpretación
JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA
𝑇..2 𝑛
PRACTICA 1.
El gerente de compras de la empresa MODA desea comparar la velocidad de 4 máquinas de marcas diferentes con el fin de adquirir la más veloz para su uso en una confección específica. Para esto observó los tiempos que cada máquina utiliza para producir 6 unidades de la confección en forma aleatoria. Con un nivel de significancia de 0.05. Es posible concluir que las maquinas utilizan la misma velocidad por unidad de confección.
Maquinas
Suma Suma2/n
1
2
3
4
55
60
64
42
46
58
62
45
45
68
51
52
73
58
57
44
50
63
65
42
63
52
58
60
332
359
357
285
18370.67
21480.17
21241.50 𝑘
∑ 𝑖=1
𝑇𝑖.2 𝑛𝑖
1333
𝑇..2 = 74037.04 𝑛
13537.50
= 74629.83
3025
3600
4096
1764
2116
3364
3844
2025
2025
4624
2601
2704
5329
3364
3249
1936
2500
3969
4225
1764
3969
2704
3364
3600 𝑘
𝑛𝑖
∑ ∑ 𝑋𝑖𝑗 2 = 75761 Suma
Fuente de variación
18964
Suma de cuadrados 𝑘
Tratamientos
𝑆𝐶𝐶 = ∑ 𝑖=1
𝑇𝑖.2 𝑇..2 − 𝑛𝑖 𝑛
Error
𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝐶
Total
𝑆𝐶𝑇 = ∑ ∑ 𝑋𝑖𝑗 2 −
𝑘
𝑛𝑖
𝑖=1 𝑗=1
𝑇..2 𝑛
21625
21379
Grados de libertad
Cuadrado de medias 𝐶𝑀𝑇 =
n-k
𝑆𝐶𝐸 𝐶𝑀𝐸 = 𝑛−𝑘
JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA
𝑖=1 𝑗=1
F calculada
𝑭𝟎
𝑆𝐶𝐶 𝑘−1
k-1
n-1
13793
𝐶𝑀𝑇 𝐹𝑐𝑎𝑙 = 𝐶𝑀𝐸
𝐹0 = 𝐹[1 − 𝛼, (𝑘 − 1, 𝑛 − 𝑘)𝑔𝑙]
REGIÓN CRÍTICA Gráfica de distribución F; df1=3; df2=21 0.8 0.7
Densidad
0.6 0.5 0.4 0.3 0.2 0.1 0.0
0.05 0
X
3.072
FORMULACIÓN DE HIPÓTESIS: Hipótesis nula: Las maquinas utilizan la misma velocidad por unidad de confección (son homogéneas) Hipótesis alterna: Las maquinas no utilizan la misma velocidad por unidad de confección Fuente de variación
Suma de cuadrados
Grados de libertad
Cuadrado de medias
Tratamientos
𝑆𝐶𝐶 = 74629.83 − 74037.04 = 592.792
3
197.597
Error
𝑆𝐶𝐸 = 1723.958 − 592.792 = 1131.167
20
56.558
Total
𝑆𝐶𝑇 = 75761 − 74037.04 = 1723.958
23
Fc
𝑭𝟎
3.494
3.072
Conclusión: Como Fc > F0 se rechaza la hipótesis nula, es decir Al 95% de confianza se afirma Las maquinas no utilizan la misma velocidad por unidad de confección
JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA
EJEMPLO 1 El gerente de compras de la empresa MODA desea comparar la velocidad de 4 máquinas de marcas diferentes con el fin de adquirir la más veloz para su uso en una confección específica. Para esto observó los tiempos que cada máquina utiliza para producir 6 unidades de la confección en forma aleatoria. Con un nivel de significancia de 0.05. Es posible concluir que las maquinas utilizan la misma velocidad por unidad de confección. Maquinas M1
M2
M3
M4
55
60
64
42
46
58
62
45
45
68
51
52
73
58
57
44
50
63
65
42
63
52
58
60
JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA
JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA
ESTADÍSTICOS DESCRIPTIVOS Tabla 1 Estadísticos descriptivos de los tiempos empleados por máquina Error típico
Intervalo de confianza para la media al 95% Límite Límite inferior superior
N
Media
Desviación típica
Máquina 1
6
55.33
10.893
4.447
43.90
Máquina 2
6
59.83
5.382
2.197
Máquina 3
6
59.50
5.244
Máquina 4
6
47.50
Total
24
55.54
Mínimo
Máximo
66.77
45
73
54.19
65.48
52
68
2.141
54.00
65.00
51
65
7.148
2.918
40.00
55.00
42
60
8.658
1.767
51.89
59.20
42
73
Interpretación: Al 95 % de confianza se afirma que el tiempo promedio que emplea la máquina 1 en producir una unidad de confección se encuentra entre 43.9 min a 66.8 min, la máquina 2 emplea un tiempo promedio entre 54.19 min a 65.48 min, la máquina 3 emplea un tiempo promedio entre 54 min a 65 min y la maquina 4 emplea en tiempo promedio entre 40 min a 55 min.
Figura 1: Tiempo promedio empleados por máquina
JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA
PRUEBA DE HOMOGENEIDAD DE VARIANZAS Formulación de hipótesis Hipótesis nula: Las varianzas de los tiempos empleados por maquina, en producir una unidad de confección son homogéneas Hipótesis alterna: Las varianzas de los tiempos empleados por máquina, en producir una unidad de confección no son homogéneas
Tabla 2 Prueba de homogeneidad de varianzas TIEMPO Estadístico de Levene
gl1
gl2
Sig.
1,665
3
20
0,206
Interpretación: Al 95% de confianza, se afirma que las varianzas de los tiempos empleados en producir una unidad de confección son homogéneas mediante la prueba de Levene, con 𝑆𝑖𝑔. = 0.206 > 0.05
ANÁLISIS DE VARIANZA Formulación de hipótesis Hipótesis nula: Los tiempos promedios empleados por maquina en producir una unidad de confección son homogéneas. Hipótesis alterna: Existe diferencia en los tiempos promedio empleados por maquina en la producción de unidades de confección.
Tabla 3 Análisis de varianza TIEMPO Suma de cuadrados
gl
Media cuadrática
F
Sig.
Tratamiento
592.792
3
197.597
3.494
.035
Error
1131.167
20
56.558
Total
1723.958
23
Interpretación: Al 95% de confianza, mediante el análisis de varianza, se afirma que existe diferencia en los tiempos promedio empleados por maquina en la producción de unidades de confección, con 𝑆𝑖𝑔. = 0.035 < 0.05
JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA
COMPARACIÓN MÚLTIPLE Tabla 4 Comparación múltiple (I) MÁQUINA
(J) MÁQUINA
Diferencia de medias (I-J)
Intervalo de confianza al 95% Error típico
Sig. Límite inferior
Límite superior
M2
-4,500
4,342
,731
-16,65
7,65
M3
-4,167
4,342
,773
-16,32
7,99
M4
7,833
4,342
,301
-4,32
19,99
M1
4,500
4,342
,731
-7,65
16,65
M3
,333
4,342
1,000
-11,82
12,49
dimen
M4
12,333*
4,342
,046
,18
24,49
sion2
M1
4,167
4,342
,773
-7,99
16,32
M2
-,333
4,342
1,000
-12,49
11,82
M4
12,000
4,342
,054
-,15
24,15
M1
-7,833
4,342
,301
-19,99
4,32
M2
-12,333*
4,342
,046
-24,49
-,18
M3
-12,000
4,342
,054
-24,15
,15
M1
M2
M3
M4
dimension3
dimension3
dimension3
dimension3
*. La diferencia de medias es significativa al nivel 0.05.
Mediante la prueba HSD de Tukey se afirma que existe diferencia significativa entre los tiempos promedios empleados entre la Máquina 2 y la Maquina 4.
GRUPOS HOMOGÉNEOS Tabla 5 Grupos homogéneos TIEMPO HSD de Tukeya MÁQUINA
dimension1
N
Subconjunto para alfa = 0.05 1
2
M4
6
47,50
M1
6
55,33
55,33
M3
6
59,50
59,50
M2
6
Sig.
59,83 ,054
,731
Se muestran las medias para los grupos en los subconjuntos homogéneos. a. Usa el tamaño muestral de la media armónica = 6.000.
Conclusión: Se forman dos grupos homogéneos. Si se desea adquirir la maquina más veloz para el uso de una confección se recomienda la máquina 4. JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA
EJEMPLO 2 Cuatro profesores P1 , P2 , P3 y P4 , enseñan el mismo curso de estadística. De uno de sus exámenes se extrajeron, al azar una muestra de calificaciones de cada horario. Al nivel de significancia de 0.05. ¿Se puede concluir que existe una diferencia significativa en las calificaciones promedio obtenidas con los cuatro profesores? Estas se registran de la siguiente manera: PROFESORES 𝑃1
𝑃2
𝑃3
𝑃4
12
14
13
10
11
16
12
17
09
13
09
15
10
18
11
14
17
12
15
12
JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA
EJEMPLO 3 Se efectúa un experimento para determinar el rendimiento de 4 variedades de papa. Se dispone de 20 parcelas de igual fertilidad que se dividen en 4 grupos de 5 parcelas cada una. En cada grupo se siembra una variedad distinta de papa. Pruebe la hipótesis de que no existe diferencias significativas entre las producciones medias de las 4 variedades de papa al nivel de significación del 5%Los rendimiento en Kg, por cada parcela se dan en la tabla que sigue. Variedades de Papa V1
V2
V3
V4
55
52
53
52
53
58
55
50
60
50
57
51
52
60
51
49
53
52
54
53
EJEMPLO 4 Un departamento universitario desea contrastar si en los resultados de los alumnos en el aprendizaje de una determinada asignatura influye el profesor que la imparte. Para ello se eligen aleatoriamente muestras de alumnos de los cuatro profesores que imparten la asignatura: Juan, Luis, Pedro y Pablo, para que realicen un examen obteniéndose los siguientes resultados, en una puntuación de 0 a 80. Al nivel de confianza del 95%, ¿existe diferencias significativas en el aprendizaje de los estudiantes?
Juan
40 26 40 14 36
9 22 40 45 28
Luis
23 52 68 54 31 57 50 37 67 61
Pedro 57 45 47 30 48 24 24 17 39 Pablo
48 24
8
6 61 45 38 32 27 36 42
JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA
EJEMPLO 5 Una empresa de enlatado decide comprar nuevas máquinas para lo que dispone de cuatro ofertas. Antes de elegir una, decide realizar una prueba para saber si las cuatro máquinas ofertadas pueden producir la misma cantidad de unidades por hora. Para ello, observa la producción de las cuatro máquinas y los resultados se reflejan en la tabla adjunta. ¿Qué conclusiones se deducen de este experimento?
Maq. A
Maq. B
Maq. C
Maq. D
89
88
97
94
84
77
92
79
81
87
87
85
87
92
89
84
79
81
80
88
EJEMPLO 6 Un ingeniero de control de calidad de una compañía fabricante de equipos electrónicos de audio se encuentra inspeccionando un nuevo tipo de batería que tal vez pueda utilizar. Un lote de 20 baterias fue dividió aleatoriamente en cuatro grupos (de modo que había 5 baterias en cada uno). Cada grupo de baterías fue sometido a un nivel de presión: baja, normal, alta y muy alta. Las baterías se probaron simultáneamente bajo estos niveles de presión y se registraron los tiempos de falla (en horas).
Baja
8.0 8.1 9.2
9.4
11.7
Normal
7.6 8.2 9.8 10.9 12.3
Alta
6.0 6.3 7.1
7.7
8.9
Muy alta 5.1 5.6 5.9
6.7
7.8
Se afirma que existen diferencias altamente significativas solamente entre el grupo de baterías con presión baja y presión muy alta. ¿Está usted de acuerdo?. Explique
JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA
EJEMPLO 7 En una empresa en particular se escogieron 20 empleados al azar, para que en uno de cuatro grupos de entrenamiento, aprendieran a ejecutar una tarea en un banco. Los grupos eran diferentes respecto de la cantidad de instrucción que habían recibido, al terminar el periodo de entrenamiento, cada uno de los 20 empleados realizo la tarea. Se completa de la tarea y se obtuvieron los resultados siguientes:
A 51 42 35 65 49 B
30 48 44 56 54
C
80 75 85 73 40
D 53 47 45 50 71
¿Proporcionan estos datos evidencia suficiente como para concluir que existe diferencia significativa entre el tiempo promedio que necesitaron para la realización completa de la tarea?
EJEMPLO 8 Una compañía desea comparar cuatro tipos de procesos productivos. Se asigno aleatoriamente los procesos de producción a seis empresas semejantes. La duración de los procesos (en horas) se dan en la siguiente tabla:
Tipos de procesos de producción P1
P2
P3
P4
55
63
48
59
53
67
50
68
50
55
59
57
60
62
50
66
55
70
47
71
65
75
61
73
Al nivel de significancia del 5%. ¿ Se puede concluir que existe alguna diferencia en los rendimientos medios de los proceso de producción?
JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA
EJEMPLO 9 Un promotor inmobiliario esta considerando invertir en un centro comercial a construirse en Arequipa, Cusco, Iquitos, Piura, en donde es muy importante el nivel de ingresos mensuales de las familias. Para resolver este problema se diseño una prueba de hipotesis de varias medias seleccionando una muestra aleatoria de ingresos familiares en cada una de las ciudades, obteniéndose los siguientes ingresos en cientos de dólares.
Ingresos mensuales Arequipa Cusco Iquitos Piura 61
71
56
50
56
73
61
40
49
66
47
50
55
61
51
50
46
58
50
62
40
65
Con un nivel de significancia del 5%. ¿Puede el promotor concluir que hay diferencias significativas en el ingreso medio?
JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA