Anova

ANALISIS DE VARIANZA El análisis de varianza es una técnica estadística, cuyo objetivo es comprobar si son iguales las m

Views 163 Downloads 2 File size 1MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

ANALISIS DE VARIANZA El análisis de varianza es una técnica estadística, cuyo objetivo es comprobar si son iguales las medias de más de una población, mediante el análisis y la comparación de diversos tipos de varianza muéstrales insesgada.

Cada método del análisis la varianza está asociada a un modelo matemático especifico los modelos se clasifican según el número de variables que han de ser probadas. Si es una variable, el modelo se denomina de clasificación simple o de un factor, si son dos variables el modelo se denomina de clasificación doble o de 2 factores.

ANALISIS DE VARIANZA DE UN FACTOR - DISEÑO COMPLETAMENTE ALEATORIZADO Sea un “X” una característica que se mide en “K” poblaciones o tratamientos diferentes, con medias respectivas 𝜇1 , 𝜇2 , … … . 𝜇𝑘 y varianza respectivas 𝜎12 , 𝜎22 , … . 𝜎𝑘2 𝑑𝑜𝑛𝑑𝑒: a. Los k poblaciones son independientes. b. Cada poblacion tienen distribución normal , N(𝜇1 , 𝜎12 ) c. Los k varianza son iguales a la varianza común 𝜎 2 En el modelo de clasificación de un factor completamente aleatorizado, los valores 𝑋𝑖𝑗 de las k muestras, (j-ésima observación de la i-ésima muestra 𝑗 = 1, 2, … , 𝑛𝑖 ,

𝑖 = 1, 2, … , 𝑘 se registran

en un arreglo tabular como el de la siguiente tabla: TRATAMIENTO 2

⋯⋯

i

⋯⋯

k

𝑋11

𝑋21

⋯⋯

𝑋𝑖1

⋯⋯

𝑋𝑘1

𝑋12

𝑋22

⋯⋯

𝑋𝑖2

⋯⋯

𝑋𝑘2

















𝑋1𝑛1

𝑋2𝑛2

⋯⋯

𝑋𝑖𝑛𝑖

⋯⋯

𝑋𝑘𝑛𝑘

TOTAL

𝑇1 .

𝑇2 .

⋯⋯

𝑇𝑖 .

⋯⋯

𝑇𝑘 .

𝑇..

𝑛𝑖

𝑛1

𝑛2

⋯⋯

𝑛𝑖

⋯⋯

𝑛𝑘

𝑛

MEDIAS

𝑋̅1.

𝑋̅2.

⋯⋯

𝑋̅𝑖.

⋯⋯

𝑋̅𝑘.

𝑋̅..

1

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

Dónde: 

𝑇𝑖. : Suma de datos de la muestra i



𝑇.. : Total de los datos de las k muetras



𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘 = 𝑛: Total observado en la k muestras



𝑋̅𝑖. : Media de la muestra



𝑋̅..: Media total muestral MODELO DEL ANÁLISIS DE VARIANZA

El modelo matemático de clasificación simple de un factor completo aleatorio, es la ecuación:

𝑿𝒊𝒋 = 𝝁 + 𝜶𝒊 + 𝜺𝒊𝒋 𝑛𝑖 𝑖 = 1,2, … . 𝑘 ; 𝑗 = 1,2, … 𝑛𝑖 ; ∑𝑖−1 𝛼𝑖 = 0

, ,

Dónde: 

𝑋𝑖𝑗 : Es la observación de la mestra



𝜇: Media Total



𝛼𝑖 : Efecto del i-ésimo tratamiento



𝜀𝑖𝑗 : Desviación del dato observado X ij (error o residuo)

PROCEDIMIENTO PARA REALIZAR UN ANOVA

Los pasos a seguir para realizar en análisis de varianza es: 1. Formula del modelo matemático: 𝑋𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗

, 𝑖 = 1,2, … . 𝑘 ,

𝑗 = 1,2, … 𝑛𝑖 y

𝑖 ∑𝑛𝑖−1 𝛼𝑖 = 0

2. Formular las hipótesis 𝐻𝑜 : 𝜇1 = 𝜇2 = ⋯ 𝜇𝑘

𝐻𝑜 : 𝛼1 = 𝛼2 = ⋯ 𝛼𝑘 = 0

𝐻1 ∶ 𝑛𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠

𝐻1 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝛼𝑖 𝑛𝑜 𝑒𝑠 𝑖𝑔𝑢𝑎𝑙 𝑎 𝑐𝑒𝑟𝑜

3. ANOVA Fuente de

Suma de

Grados de

Cuadrado de

variación

cuadrados

libertad

medias

Tratamientos

SCC

k-1

Error

CSE

n-k

𝑆𝐶𝐶 𝑘−1 𝑆𝐶𝐸 𝐶𝑀𝐸 = 𝑛−𝑘

SCT

n-1

total Dónde:

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

𝐶𝑀𝑇 =

F calculada

𝐹𝑐𝑎𝑙. =

𝐶𝑀𝑇 𝐶𝑀𝐸

𝑛

𝑛



𝑖 𝑖 𝑆𝐶𝑇 = ∑𝑘𝑖=1 ∑𝑗=1 (𝑋𝑖𝑗 − 𝑋̅.. )2 = ∑𝑘𝑖=1 ∑𝑗=1 𝑋𝑖𝑗 2 − 𝐶 , donde 𝐶 =



𝑇 𝑛𝑖 𝑆𝐶𝐶 = ∑𝑘𝑖=1 ∑𝑗=1 (𝑋̅𝑖. − 𝑋̅.. )2 = ∑𝑘𝑖=1 𝑛𝑖. − 𝐶



𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝐶



𝐹0 = 𝐹[1 − 𝛼, (𝑘 − 1, 𝑛 − 𝑘)𝑔. 𝑙]

2 𝑖

4. Decisión 1RNR Fo

Si 𝐹𝑐𝑎𝑙 > 𝐹0 , se rechaza 𝐻0 , caso contrario se acepta la 𝐻0 5. Interpretación

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

𝑇..2 𝑛

PRACTICA 1.

El gerente de compras de la empresa MODA desea comparar la velocidad de 4 máquinas de marcas diferentes con el fin de adquirir la más veloz para su uso en una confección específica. Para esto observó los tiempos que cada máquina utiliza para producir 6 unidades de la confección en forma aleatoria. Con un nivel de significancia de 0.05. Es posible concluir que las maquinas utilizan la misma velocidad por unidad de confección.

Maquinas

Suma Suma2/n

1

2

3

4

55

60

64

42

46

58

62

45

45

68

51

52

73

58

57

44

50

63

65

42

63

52

58

60

332

359

357

285

18370.67

21480.17

21241.50 𝑘

∑ 𝑖=1

𝑇𝑖.2 𝑛𝑖

1333

𝑇..2 = 74037.04 𝑛

13537.50

= 74629.83

3025

3600

4096

1764

2116

3364

3844

2025

2025

4624

2601

2704

5329

3364

3249

1936

2500

3969

4225

1764

3969

2704

3364

3600 𝑘

𝑛𝑖

∑ ∑ 𝑋𝑖𝑗 2 = 75761 Suma

Fuente de variación

18964

Suma de cuadrados 𝑘

Tratamientos

𝑆𝐶𝐶 = ∑ 𝑖=1

𝑇𝑖.2 𝑇..2 − 𝑛𝑖 𝑛

Error

𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝐶

Total

𝑆𝐶𝑇 = ∑ ∑ 𝑋𝑖𝑗 2 −

𝑘

𝑛𝑖

𝑖=1 𝑗=1

𝑇..2 𝑛

21625

21379

Grados de libertad

Cuadrado de medias 𝐶𝑀𝑇 =

n-k

𝑆𝐶𝐸 𝐶𝑀𝐸 = 𝑛−𝑘

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

𝑖=1 𝑗=1

F calculada

𝑭𝟎

𝑆𝐶𝐶 𝑘−1

k-1

n-1

13793

𝐶𝑀𝑇 𝐹𝑐𝑎𝑙 = 𝐶𝑀𝐸

𝐹0 = 𝐹[1 − 𝛼, (𝑘 − 1, 𝑛 − 𝑘)𝑔𝑙]

REGIÓN CRÍTICA Gráfica de distribución F; df1=3; df2=21 0.8 0.7

Densidad

0.6 0.5 0.4 0.3 0.2 0.1 0.0

0.05 0

X

3.072

FORMULACIÓN DE HIPÓTESIS: Hipótesis nula: Las maquinas utilizan la misma velocidad por unidad de confección (son homogéneas) Hipótesis alterna: Las maquinas no utilizan la misma velocidad por unidad de confección Fuente de variación

Suma de cuadrados

Grados de libertad

Cuadrado de medias

Tratamientos

𝑆𝐶𝐶 = 74629.83 − 74037.04 = 592.792

3

197.597

Error

𝑆𝐶𝐸 = 1723.958 − 592.792 = 1131.167

20

56.558

Total

𝑆𝐶𝑇 = 75761 − 74037.04 = 1723.958

23

Fc

𝑭𝟎

3.494

3.072

Conclusión: Como Fc > F0 se rechaza la hipótesis nula, es decir Al 95% de confianza se afirma Las maquinas no utilizan la misma velocidad por unidad de confección

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

EJEMPLO 1 El gerente de compras de la empresa MODA desea comparar la velocidad de 4 máquinas de marcas diferentes con el fin de adquirir la más veloz para su uso en una confección específica. Para esto observó los tiempos que cada máquina utiliza para producir 6 unidades de la confección en forma aleatoria. Con un nivel de significancia de 0.05. Es posible concluir que las maquinas utilizan la misma velocidad por unidad de confección. Maquinas M1

M2

M3

M4

55

60

64

42

46

58

62

45

45

68

51

52

73

58

57

44

50

63

65

42

63

52

58

60

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

ESTADÍSTICOS DESCRIPTIVOS Tabla 1 Estadísticos descriptivos de los tiempos empleados por máquina Error típico

Intervalo de confianza para la media al 95% Límite Límite inferior superior

N

Media

Desviación típica

Máquina 1

6

55.33

10.893

4.447

43.90

Máquina 2

6

59.83

5.382

2.197

Máquina 3

6

59.50

5.244

Máquina 4

6

47.50

Total

24

55.54

Mínimo

Máximo

66.77

45

73

54.19

65.48

52

68

2.141

54.00

65.00

51

65

7.148

2.918

40.00

55.00

42

60

8.658

1.767

51.89

59.20

42

73

Interpretación: Al 95 % de confianza se afirma que el tiempo promedio que emplea la máquina 1 en producir una unidad de confección se encuentra entre 43.9 min a 66.8 min, la máquina 2 emplea un tiempo promedio entre 54.19 min a 65.48 min, la máquina 3 emplea un tiempo promedio entre 54 min a 65 min y la maquina 4 emplea en tiempo promedio entre 40 min a 55 min.

Figura 1: Tiempo promedio empleados por máquina

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

PRUEBA DE HOMOGENEIDAD DE VARIANZAS Formulación de hipótesis Hipótesis nula: Las varianzas de los tiempos empleados por maquina, en producir una unidad de confección son homogéneas Hipótesis alterna: Las varianzas de los tiempos empleados por máquina, en producir una unidad de confección no son homogéneas

Tabla 2 Prueba de homogeneidad de varianzas TIEMPO Estadístico de Levene

gl1

gl2

Sig.

1,665

3

20

0,206

Interpretación: Al 95% de confianza, se afirma que las varianzas de los tiempos empleados en producir una unidad de confección son homogéneas mediante la prueba de Levene, con 𝑆𝑖𝑔. = 0.206 > 0.05

ANÁLISIS DE VARIANZA Formulación de hipótesis Hipótesis nula: Los tiempos promedios empleados por maquina en producir una unidad de confección son homogéneas. Hipótesis alterna: Existe diferencia en los tiempos promedio empleados por maquina en la producción de unidades de confección.

Tabla 3 Análisis de varianza TIEMPO Suma de cuadrados

gl

Media cuadrática

F

Sig.

Tratamiento

592.792

3

197.597

3.494

.035

Error

1131.167

20

56.558

Total

1723.958

23

Interpretación: Al 95% de confianza, mediante el análisis de varianza, se afirma que existe diferencia en los tiempos promedio empleados por maquina en la producción de unidades de confección, con 𝑆𝑖𝑔. = 0.035 < 0.05

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

COMPARACIÓN MÚLTIPLE Tabla 4 Comparación múltiple (I) MÁQUINA

(J) MÁQUINA

Diferencia de medias (I-J)

Intervalo de confianza al 95% Error típico

Sig. Límite inferior

Límite superior

M2

-4,500

4,342

,731

-16,65

7,65

M3

-4,167

4,342

,773

-16,32

7,99

M4

7,833

4,342

,301

-4,32

19,99

M1

4,500

4,342

,731

-7,65

16,65

M3

,333

4,342

1,000

-11,82

12,49

dimen

M4

12,333*

4,342

,046

,18

24,49

sion2

M1

4,167

4,342

,773

-7,99

16,32

M2

-,333

4,342

1,000

-12,49

11,82

M4

12,000

4,342

,054

-,15

24,15

M1

-7,833

4,342

,301

-19,99

4,32

M2

-12,333*

4,342

,046

-24,49

-,18

M3

-12,000

4,342

,054

-24,15

,15

M1

M2

M3

M4

dimension3

dimension3

dimension3

dimension3

*. La diferencia de medias es significativa al nivel 0.05.

Mediante la prueba HSD de Tukey se afirma que existe diferencia significativa entre los tiempos promedios empleados entre la Máquina 2 y la Maquina 4.

GRUPOS HOMOGÉNEOS Tabla 5 Grupos homogéneos TIEMPO HSD de Tukeya MÁQUINA

dimension1

N

Subconjunto para alfa = 0.05 1

2

M4

6

47,50

M1

6

55,33

55,33

M3

6

59,50

59,50

M2

6

Sig.

59,83 ,054

,731

Se muestran las medias para los grupos en los subconjuntos homogéneos. a. Usa el tamaño muestral de la media armónica = 6.000.

Conclusión: Se forman dos grupos homogéneos. Si se desea adquirir la maquina más veloz para el uso de una confección se recomienda la máquina 4. JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

EJEMPLO 2 Cuatro profesores P1 , P2 , P3 y P4 , enseñan el mismo curso de estadística. De uno de sus exámenes se extrajeron, al azar una muestra de calificaciones de cada horario. Al nivel de significancia de 0.05. ¿Se puede concluir que existe una diferencia significativa en las calificaciones promedio obtenidas con los cuatro profesores? Estas se registran de la siguiente manera: PROFESORES 𝑃1

𝑃2

𝑃3

𝑃4

12

14

13

10

11

16

12

17

09

13

09

15

10

18

11

14

17

12

15

12

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

EJEMPLO 3 Se efectúa un experimento para determinar el rendimiento de 4 variedades de papa. Se dispone de 20 parcelas de igual fertilidad que se dividen en 4 grupos de 5 parcelas cada una. En cada grupo se siembra una variedad distinta de papa. Pruebe la hipótesis de que no existe diferencias significativas entre las producciones medias de las 4 variedades de papa al nivel de significación del 5%Los rendimiento en Kg, por cada parcela se dan en la tabla que sigue. Variedades de Papa V1

V2

V3

V4

55

52

53

52

53

58

55

50

60

50

57

51

52

60

51

49

53

52

54

53

EJEMPLO 4 Un departamento universitario desea contrastar si en los resultados de los alumnos en el aprendizaje de una determinada asignatura influye el profesor que la imparte. Para ello se eligen aleatoriamente muestras de alumnos de los cuatro profesores que imparten la asignatura: Juan, Luis, Pedro y Pablo, para que realicen un examen obteniéndose los siguientes resultados, en una puntuación de 0 a 80. Al nivel de confianza del 95%, ¿existe diferencias significativas en el aprendizaje de los estudiantes?

Juan

40 26 40 14 36

9 22 40 45 28

Luis

23 52 68 54 31 57 50 37 67 61

Pedro 57 45 47 30 48 24 24 17 39 Pablo

48 24

8

6 61 45 38 32 27 36 42

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

EJEMPLO 5 Una empresa de enlatado decide comprar nuevas máquinas para lo que dispone de cuatro ofertas. Antes de elegir una, decide realizar una prueba para saber si las cuatro máquinas ofertadas pueden producir la misma cantidad de unidades por hora. Para ello, observa la producción de las cuatro máquinas y los resultados se reflejan en la tabla adjunta. ¿Qué conclusiones se deducen de este experimento?

Maq. A

Maq. B

Maq. C

Maq. D

89

88

97

94

84

77

92

79

81

87

87

85

87

92

89

84

79

81

80

88

EJEMPLO 6 Un ingeniero de control de calidad de una compañía fabricante de equipos electrónicos de audio se encuentra inspeccionando un nuevo tipo de batería que tal vez pueda utilizar. Un lote de 20 baterias fue dividió aleatoriamente en cuatro grupos (de modo que había 5 baterias en cada uno). Cada grupo de baterías fue sometido a un nivel de presión: baja, normal, alta y muy alta. Las baterías se probaron simultáneamente bajo estos niveles de presión y se registraron los tiempos de falla (en horas).

Baja

8.0 8.1 9.2

9.4

11.7

Normal

7.6 8.2 9.8 10.9 12.3

Alta

6.0 6.3 7.1

7.7

8.9

Muy alta 5.1 5.6 5.9

6.7

7.8

Se afirma que existen diferencias altamente significativas solamente entre el grupo de baterías con presión baja y presión muy alta. ¿Está usted de acuerdo?. Explique

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

EJEMPLO 7 En una empresa en particular se escogieron 20 empleados al azar, para que en uno de cuatro grupos de entrenamiento, aprendieran a ejecutar una tarea en un banco. Los grupos eran diferentes respecto de la cantidad de instrucción que habían recibido, al terminar el periodo de entrenamiento, cada uno de los 20 empleados realizo la tarea. Se completa de la tarea y se obtuvieron los resultados siguientes:

A 51 42 35 65 49 B

30 48 44 56 54

C

80 75 85 73 40

D 53 47 45 50 71

¿Proporcionan estos datos evidencia suficiente como para concluir que existe diferencia significativa entre el tiempo promedio que necesitaron para la realización completa de la tarea?

EJEMPLO 8 Una compañía desea comparar cuatro tipos de procesos productivos. Se asigno aleatoriamente los procesos de producción a seis empresas semejantes. La duración de los procesos (en horas) se dan en la siguiente tabla:

Tipos de procesos de producción P1

P2

P3

P4

55

63

48

59

53

67

50

68

50

55

59

57

60

62

50

66

55

70

47

71

65

75

61

73

Al nivel de significancia del 5%. ¿ Se puede concluir que existe alguna diferencia en los rendimientos medios de los proceso de producción?

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA

EJEMPLO 9 Un promotor inmobiliario esta considerando invertir en un centro comercial a construirse en Arequipa, Cusco, Iquitos, Piura, en donde es muy importante el nivel de ingresos mensuales de las familias. Para resolver este problema se diseño una prueba de hipotesis de varias medias seleccionando una muestra aleatoria de ingresos familiares en cada una de las ciudades, obteniéndose los siguientes ingresos en cientos de dólares.

Ingresos mensuales Arequipa Cusco Iquitos Piura 61

71

56

50

56

73

61

40

49

66

47

50

55

61

51

50

46

58

50

62

40

65

Con un nivel de significancia del 5%. ¿Puede el promotor concluir que hay diferencias significativas en el ingreso medio?

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA