ANOVA para más de un factor Pablo A. Salgado email: [email protected] [email protected] z En
Views 146 Downloads 1 File size 347KB
ANOVA para más de un factor Pablo A. Salgado email: [email protected] [email protected]
z
En el apartado anterior se han visto los procedimientos que permiten la comparación de medias (ANOVA de un factor), que permite contrastar la hipótesis de igualdad de medias de las poblaciones definidas por los diferentes niveles en que podía segmentar el factor o variable independiente.
z
Cuando se desea estudiar el efecto de más de un factor sobre la variable dependiente es preciso recurrir a los modelos factoriales de análisis de varianza que permiten estudiar el efecto de diversos factores, tanto de manera individual como conjunta. 2
z
Cuando se trabaja con un factor (VI), se estudia su efecto sobre la VD y se especifican diversos contrastes entre los niveles del factor, si el resultado del ANOVA es significativo.
z
Pero si en el estudio intervienen dos factores, hay tres efectos que deben considerarse: los efectos de cada factor por separado sobre la VD, que se conocen como efectos principales, y el efecto de la interacción de ambos factores sobre la VD 3
z
Dadas una variable dependiente cuantitativa y dos o mas variables independientes cualitativas, o factores, el análisis factorial de la varianza consiste en analizar el comportamiento de la variable dependiente en las K subpoblanciones o grupos establecidos por las combinaciones de los valores de las independientes. 4
z
En el caso de tres factores, los efectos a estudiar serían 7 (tres principales, 3 interacciones dobles y 1 interacción triple).
z
Si el número de factores fueran cuatro, los efectos a estudiar serían 15 (4 principales, 6 interacciones binarias, 4 interacciones triples, y 1 interacción cuádruple). 5
El diseño factorial completamente aleatorizado z
En este diseño se exploran los efectos que cada factor tiene sobre la VD y los efectos de la interacción.
z
La hipótesis nula para cada factor dice que las medias de las poblaciones definidas por los grupos o niveles del factor son iguales.
z
La hipótesis referidas a las interacciones afirman que éstas no existen.
z
Para el contraste de estas hipótesis se utiliza el estadístico F, y según sea su valor crítico se aceptará o no la hipótesis planteada. 6
z
Cuando hay más de un factor, el número de poblaciones involucradas serán tantas como el producto de los niveles de cada uno de los factores.
z
Ejemplo: ser realiza el análisis de varianza factorial con dos factores, el primer con 3 niveles, y el segundo con 4 niveles, el número total de poblaciones será 12 (3 x 4 = 12).
z
Estas 12 poblaciones deben ser normales y homocedásticas. 7
z
También supone el modelo que las observaciones han sido aleatoriamente seleccionadas, una muestra de cada población.
z
Por lo tanto estas poblaciones son independientes entre si.
8
Ejemplo: archivos: ”ANOVA ULCERA.sav” y ”ANOVA ULCERA.xls” z
Supongamos que se sospecha que en los pacientes con úlcera péptica que han seguido un tratamiento, el tiempo que tarda en reaparecer la sintomatología ulcerosa está relacionado con el tiempo que tarda el paciente en responder al tratamiento. 9
z
Se somete al tratamiento a un grupo de pacientes con úlcera péptica, siendo todos ellos fumadores, y periódicamente (cada dos semanas) se comprueba si la sintomatología ulcerosa persiste o ha desaparecido.
z
Una vez desaparecida, el paciente sigue sometido a revisiones mensuales para comprobar el tiempo que tarda en reaparecer. 10
z Antes
de comenzar el tratamiento, algunos de los pacientes han decidido abandonar el hábito de fumar, por lo que se sospecha que en la reaparición de los síntomas, además del tiempo de respuesta al tratamiento, puede influir el efecto del abandono del tabaco. z Por lo tanto se aplicará el ANOVA de dos factores. 11
z Si
denominamos RESPUEST y TABACO a las variables “Tiempo de respuesta al tratamiento” y “Tabaquismo” respectivamente, los valores que presenta la primera en el conjunto de pacientes observados son: 2, 4, 6 y 8 semanas. Los valores que presenta la segunda variable son Si y No. 12
z La
hipótesis nula que se desea
contrastar es que las ocho muestras, establecidas por las combinaciones de los valores de RESPUEST y TABACO, proceden de ocho subpoblaciones en las que las medias de REAPARIC son iguales: 13
H0: µ respuesta1, tabaco1 = µ respuesta1, tabaco2 = µ respuesta2, tabaco1 = µ respuesta2, tabaco2 = µ respuesta3, tabaco1 = µ respuesta3, tabaco2 = µ respuesta4, tabaco1 = µ respuesta4, tabaco2
14
Tabla de análisis de la varianza: z
El análisis de la varianza con q factores se basa en que la variabilidad total de la muestra puede descomponerse en la variabilidad debida a, o explicada por, las diferencias entre grupos y la debida a las diferencias dentro de los grupos o residual: SC Total = SC Entre + SC Residual 15
zA
su vez, la variabilidad explicada por el efecto de pertenecer a un grupo puede descomponerse en la variabilidad debida a los efectos de cada una de las q variables independientes (efectos principales) y la debida al efecto de todas las posibles interacciones entre ellas. 16
z
z z
ANALIZAR -> MODELO LINEAR GENERAL -> UNIVARIANTE En el cuadro de diálogo DEPENDIENTES: LNREAPAR FACTORES FIJOS: z z
z z
z
Tiempo de respuesta Paciente que ha dejado de fumar
MODELO En el cuadro de diálogo SUMA DE CUADRADOS: TIPO II CONTINUAR OPCIONES En el cuadro de diálogo z z
MOSTRAR: ESTADISTICOS DESCRIPTIVOS CONTINUAR
ACEPTAR 17
Análisis de varianza univariante Factores inter-sujetos Etiqueta del valor
Tiempo de respuesta
Paciente ha dejado de fumar
N
1
2 Semanas
112
2
4 Semanas
100
3
6 Semanas
73
4
8 Semanas
27
1
Si
153
2
No
159
18
Estadísticos descriptivos: Variable dependiente: LNREAPAR Tiempo de respuesta
2 Semanas
4 Semanas
6 Semanas
8 Semanas
Total
Paciente ha dejado de fumar
Media
Desv. típ.
N
Si
2,4814
,12859
69
No
2,0963
,16019
43
Total
2,3336
,23503
112
Si
2,2051
,10899
40
No
1,7987
,27325
60
Total
1,9613
,29872
100
Si
1,5745
,20169
38
No
1,8828
,18988
35
Total
1,7223
,24898
73
Si
1,0310
,16553
6
No
1,4551
,21894
21
Total
1,3609
,27281
27
Si
2,1271
,45124
153
No
1,8523
,29495
159
Total
1,9870
,40329
312 19
Pruebas de los efectos inter-sujetos Variable dependiente: LNREAPAR Fuente
Suma de cuadrados tipo II
Media cuadrática
gl
Significación
Modelo corregido
39,683(a)
7
Intersección
1231,879
1
25,413
3
8,471
236,313
,000
TABACO
2,082
1
2,082
58,086
,000
RESPUEST * TABACO
8,384
3
2,795
77,966
,000
Error
10,897
304
3,585E-02
Total
1282,460
312
50,581
311
RESPUEST
Total corregida
5,669
F 158,147
,000
1231,879 34365,134
,000
a R cuadrado = ,785 (R cuadrado corregida = ,780)
20
z
z
El p-valor asociado al estadístico F, en la línea Modelo Corregido, es menor que 0,05. Por lo tanto se rechaza la hipótesis nula de que las ocho medidas son iguales. Dado que las diferencias entre lo observado en la muestra y lo esperado bajo la hipótesis nula de igualdad de las medias son estadísticamente significativas, no se puede aceptar que el tiempo de reaparición de los síntomas sea el mismo considerando simultáneamente los distintos tiempos de respuesta al tratamiento y si el paciente ha dejado de fumar o no. 21
z Sin
embargo, mediante el análisis
de la varianza con un factor, habíamos comprobado que el tiempo de reaparición de los síntomas era distinto según el tiempo de respuesta al tratamiento. 22
z
Podría suceder entonces que la diferencia de medias fuera debida únicamente al efecto de la variable RESPUEST, sin que el de TABACO interviniera en el resultado. Habiendo solo 4 medias distintas correspondientes a los cuatro grupos establecidos por los valores de RESPUEST: 23
z
µ respuesta1 = µ respuesta1, tabaco1 = µ respuesta1, tabaco2
z
µ respuesta2 = µ respuesta2, tabaco1 = µ respuesta2, tabaco2
z
µ respuesta3 = µ respuesta3, tabaco1 = µ respuesta3, tabaco2
z
µ respuesta4 = µ respuesta4, tabaco1 = µ respuesta4, tabaco2
z
siendo µ respuesta i distintas entre si.
24
z Para
comprobar a qué es debido
este hecho de que se rechace la hipótesis nula de igualdad de las ocho medias, analizaremos: z el
efecto de cada factor por
separado z el
efecto de la interacción. 25
Análisis de la interacción entre los factores: z
Al contrastar la hipótesis nula de que el efecto de la interacción de orden 2 es igual a cero, el p-valor asociado al estadístico F es menor que 0,05 (RESPUEST*TABACO). 26
z
Al contrastar la hipótesis nula de que, en particular, el efecto de cada uno de los factores RESPUEST y TABACO es nulo, también los pvalores asociados a los estadísticos F correspondientes, son significativos. 27
z
En consecuencia, al nivel de significación 0,05 todas las posibles hipótesis relativas a la nulidad de efectos pueden ser rechazadas. Luego el que las ocho medias difieran es debido tanto al efecto que causa una de las variables RESPUEST y TABACO por separado como al efecto de su interacción.
z
Ilustremos gráficamente este resultado: 28
GRAFICOS -> LINEAS
En el cuadro de diálogo
MULTIPLE -> DEFINIR
En el cuadro de diálogo
EJE DE CATEGORIAS: Tiempo de respuesta DEFINIR LINEAS POR: Pacientes ha dejado de fumar LAS LINEAS REPRESENTAN: OTRA FUCION DE RESUMEN VARIABLE: MEAN (LNREAPAR) ACEPTAR
29
30
14
95% IC Tiempo de reaparición
12
10
8
6 Fuma 4 Si
2
0
No 2 Sem
4 Sem
6 Sem
Tiempo de respuesta
8 Sem
31
z Representación
gráfica de las medias
de LNREAPAR en los grupos establecidos por las combinaciones de los valores de las variables RESPUEST y TABACO. 32
18 16
Tiempo de reaparición
14 12 10 8 6 4 Fuma 2
Si
0
No
2 Sem
4 Sem
6 Sem
Tiempo de respuesta
8 Sem
33
CONCLUSIONES zA
partir de los resultados anteriores
podemos concluir que, para predecir el tiempo de reaparición de los síntomas, es adecuado distinguir según el tiempo de respuesta al tratamiento y según si el paciente ha dejado de fumar o no. 34
Ejemplo ANOVA Archivos: “Datos de empleados fin.sav” “Datos de empleados fin.xls
Pablo A. Salgado email: [email protected] [email protected]
Variables: z z z z z z z z z z z
Sexo Edad (años) Edad (agrupada) Nivel educativo (años) Nivel educativo (niveles) Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) Situación social (minoría/mayoría) 36
ANOVA de un factor: z
Categorías laboral (VI) vs. Salario actual (VD). Descriptivos
Salario actual
N Administrativo Seguridad Directivo Total
363 27 84 474
Media $27,838.54 $30,938.89 $63,977.80 $34,419.57
Desviación típica $7,567.995 $2,114.616 $18,244.776 $17,075.661
Error típico $397.217 $406.958 $1,990.668 $784.311
Intervalo de confianza para la media al 95% Límite superior Límite inferior $27,057.40 $28,619.68 $30,102.37 $31,775.40 $60,018.44 $67,937.16 $32,878.40 $35,960.73
Mínimo $15,750 $24,300 $34,410 $15,750
Máximo $80,000 $35,250 $135,000 $135,000
Prueba de homogeneidad de varianzas Salario actual Estadístico de Levene 59,733
gl1 2
gl2 471
Sig. ,000
37
ANOVA de un factor: z
Categorías laboral vs. Salario actual. ANOVA Salario actual
Inter-grupos Intra-grupos Total
Suma de cuadrados 89438483925,943 48478011510,397 137916495436,340
gl 2 471 473
Media cuadrática 44719241963,0 102925714,459
F 434,481
Sig. ,000
Pruebas robustas de igualdad de las medias Salario actual a
Welch Brown-Forsythe
Estadístico 162,200 306,810
gl1 2 2
gl2 117,312 93,906
Sig. ,000 ,000
a. Distribuidos en F asintóticamente.
38
Gráfico de medias 70000
60000
Media de Salario actual
50000
40000
30000
20000 Administrativo
Seguridad
Directivo
Categoría laboral 39
Box Plot: Salario actual y Categoría laboral
40
Comparación Post hoc : Scheffé y Games Howell Comparaciones múltiples Variable dependiente: Salario actual
Scheffé
(I) Categoría laboral Administrativo Seguridad Directivo
Games-Howell
Administrativo Seguridad Directivo
(J) Categoría laboral Seguridad Directivo Administrativo Directivo Administrativo Seguridad Seguridad Directivo Administrativo Directivo Administrativo Seguridad
Diferencia de medias (I-J) -$3,100.349 -$36,139.258* $3,100.349 -$33,038.909* $36,139.258* $33,038.909* -$3,100.349* -$36,139.258* $3,100.349* -$33,038.909* $36,139.258* $33,038.909*
Error típico $2,023.760 $1,228.352 $2,023.760 $2,244.409 $1,228.352 $2,244.409 $568.679 $2,029.912 $568.679 $2,031.840 $2,029.912 $2,031.840
Sig. ,310 ,000 ,310 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
Intervalo de confianza al 95% Límite superior Límite inferior -$8,069.80 $1,869.10 -$39,155.54 -$33,122.98 -$1,869.10 $8,069.80 -$38,550.17 -$27,527.65 $33,122.98 $39,155.54 $27,527.65 $38,550.17 -$4,454.82 -$1,745.88 -$40,977.01 -$31,301.51 $1,745.88 $4,454.82 -$37,881.37 -$28,196.45 $31,301.51 $40,977.01 $28,196.45 $37,881.37
*. La diferencia de medias es significativa al nivel .05.
41
Subconjuntos Homogeneos: Scheffé Salario actual
Schefféa,b
Categoría laboral Administrativo Seguridad Directivo Sig.
N 363 27 84
Subconjunto para alfa = . 05 1 2 $27,838.54 $30,938.89 $63,977.80 ,259 1,000
Se muestran las medias para los grupos en los subconjuntos homogéneos. a. Usa el tamaño muestral de la media armónica = 58,031. b. Los tamaños de los grupos no son iguales. Se utilizará la media armónica de los tamaños de los grupos. Los niveles de error de tipo I no están garantizados.
42
Comparaciones planeadas a priori Grupo de edades (VI) Salario actual (VD)
Pablo A. Salgado email: [email protected] [email protected]
Grupo de Edades vs. Salario actual Descriptivos
Salario actual
Menos de 25 años Entre 25 y 30 años Entre 30 y 35 años Entre 35 y 40 años Más de 40 años Total
N 129 141 36 33 134 473
Media $28,990.74 $40,264.61 $46,358.75 $44,009.09 $27,922.35 $34,418.45
Desviación típica $10,369.639 $15,759.889 $24,242.481 $22,209.593 $15,164.298 $17,093.723
Error típico $912.996 $1,327.222 $4,040.414 $3,866.194 $1,309.996 $785.970
Intervalo de confianza para la media al 95% Límite Límite inferior superior $27,184.22 $30,797.25 $37,640.62 $42,888.60 $38,156.27 $54,561.23 $36,133.91 $51,884.27 $25,331.23 $30,513.47 $32,874.01 $35,962.88
Mínimo $18,150 $21,900 $20,850 $22,050 $15,750 $15,750
Máximo $90,625 $91,250 $103,750 $110,625 $135,000 $135,000
Prueba de homogeneidad de varianzas Salario actual Estadístico de Levene 18,491
gl1
gl2 468
4
Sig. ,000
Pruebas robustas de igualdad de las medias Salario actual a
Welch Brown-Forsythe
Estadístico 20,048 15,813
gl1 4 4
gl2 118,544 130,174
Sig. ,000 ,000
a. Distribuidos en F asintóticamente. 44
Comparaciones múltiples Variable dependiente: Salario actual Scheffé
(I) Grupo de edades Menos de 25 años
Entre 25 y 30 años
Entre 30 y 35 años
Entre 35 y 40 años
Más de 40 años
(J) Grupo de edades Entre 25 y 30 años Entre 30 y 35 años Entre 35 y 40 años Más de 40 años Menos de 25 años Entre 30 y 35 años Entre 35 y 40 años Más de 40 años Menos de 25 años Entre 25 y 30 años Entre 35 y 40 años Más de 40 años Menos de 25 años Entre 25 y 30 años Entre 30 y 35 años Más de 40 años Menos de 25 años Entre 25 y 30 años Entre 30 y 35 años Entre 35 y 40 años
Diferencia de medias (I-J) -$11,273.873* -$17,368.014* -$15,018.354* $1,068.386 $11,273.873* -$6,094.140 -$3,744.481 $12,342.259* $17,368.014* $6,094.140 $2,349.659 $18,436.399* $15,018.354* $3,744.481 -$2,349.659 $16,086.740* -$1,068.386 -$12,342.259* -$18,436.399* -$16,086.740*
Error típico $1,913.802 $2,960.844 $3,064.258 $1,937.538 $1,913.802 $2,933.225 $3,037.580 $1,895.064 $2,960.844 $2,933.225 $3,785.610 $2,948.767 $3,064.258 $3,037.580 $3,785.610 $3,052.590 $1,937.538 $1,895.064 $2,948.767 $3,052.590
Sig. ,000 ,000 ,000 ,990 ,000 ,366 ,823 ,000 ,000 ,366 ,984 ,000 ,000 ,823 ,984 ,000 ,990 ,000 ,000 ,000
Intervalo de confianza al 95% Límite Límite inferior superior -$17,192.43 -$5,355.31 -$26,524.62 -$8,211.41 -$24,494.77 -$5,541.93 -$4,923.58 $7,060.35 $5,355.31 $17,192.43 -$15,165.33 $2,977.05 -$13,138.40 $5,649.44 $6,481.65 $18,202.87 $8,211.41 $26,524.62 -$2,977.05 $15,165.33 -$9,357.59 $14,056.91 $9,317.14 $27,555.66 $5,541.93 $24,494.77 -$5,649.44 $13,138.40 -$14,056.91 $9,357.59 $6,646.40 $25,527.08 -$7,060.35 $4,923.58 -$18,202.87 -$6,481.65 -$27,555.66 -$9,317.14 -$25,527.08 -$6,646.40
*. La diferencia de medias es significativa al nivel .05. 45
Subconjuntos Homogeneos Salario actual a,b
Scheffé
Grupo de edades Más de 40 años Menos de 25 años Entre 25 y 30 años Entre 35 y 40 años Entre 30 y 35 años Sig.
N 134 129 141 33 36
Subconjunto para alfa = . 05 1 2 $27,922.35 $28,990.74 $40,264.61 $44,009.09 $46,358.75 ,998 ,323
Se muestran las medias para los grupos en los subconjuntos homogéneos. a. Usa el tamaño muestral de la media armónica = 62,199. b. Los tamaños de los grupos no son iguales. Se utilizará la media armónica de los tamaños de los grupos. Los niveles de error de tipo I no están garantizados.
46
Comparaciones múltiples Variable dependiente: Salario actual Games-Howell
(I) Grupo de edades Menos de 25 años
Entre 25 y 30 años
Entre 30 y 35 años
Entre 35 y 40 años
Más de 40 años
(J) Grupo de edades Entre 25 y 30 años Entre 30 y 35 años Entre 35 y 40 años Más de 40 años Menos de 25 años Entre 30 y 35 años Entre 35 y 40 años Más de 40 años Menos de 25 años Entre 25 y 30 años Entre 35 y 40 años Más de 40 años Menos de 25 años Entre 25 y 30 años Entre 30 y 35 años Más de 40 años Menos de 25 años Entre 25 y 30 años Entre 30 y 35 años Entre 35 y 40 años
Diferencia de medias (I-J) -$11,273.873* -$17,368.014* -$15,018.354* $1,068.386 $11,273.873* -$6,094.140 -$3,744.481 $12,342.259* $17,368.014* $6,094.140 $2,349.659 $18,436.399* $15,018.354* $3,744.481 -$2,349.659 $16,086.740* -$1,068.386 -$12,342.259* -$18,436.399* -$16,086.740*
Error típico $1,610.925 $4,142.282 $3,972.533 $1,596.762 $1,610.925 $4,252.818 $4,087.661 $1,864.834 $4,142.282 $4,252.818 $5,592.173 $4,247.473 $3,972.533 $4,087.661 $5,592.173 $4,082.100 $1,596.762 $1,864.834 $4,247.473 $4,082.100
Sig. ,000 ,001 ,005 ,963 ,000 ,610 ,889 ,000 ,001 ,610 ,993 ,001 ,005 ,889 ,993 ,003 ,963 ,000 ,001 ,003
Intervalo de confianza al 95% Límite superior Límite inferior -$15,701.15 -$6,846.60 -$29,218.08 -$5,517.95 -$26,428.75 -$3,607.96 -$3,321.12 $5,457.89 $6,846.60 $15,701.15 -$18,203.42 $6,015.14 -$15,421.11 $7,932.15 $7,221.24 $17,463.28 $5,517.95 $29,218.08 -$6,015.14 $18,203.42 -$13,327.73 $18,027.05 $6,339.70 $30,533.10 $3,607.96 $26,428.75 -$7,932.15 $15,421.11 -$18,027.05 $13,327.73 $4,423.04 $27,750.44 -$5,457.89 $3,321.12 -$17,463.28 -$7,221.24 -$30,533.10 -$6,339.70 -$27,750.44 -$4,423.04
*. La diferencia de medias es significativa al nivel .05.
47
48
49
Coeficientes de los contrastes
Contraste 1 2
Menos de 25 años 1 3
Grupo de edades Entre 25 y Entre 30 y Entre 35 y 30 años 35 años 40 años 1 0 -1 -2 -2 -2
Más de 40 años -1 3
Pruebas para los contrastes
Salario actual
Asumiendo igualdad de varianzas No asumiendo igualdad de varianzas
Contraste 1
Valor del contraste
Error típico
t
gl
Sig. (bilateral)
-$2,676.10
$3,602.908
-,743
468
,458
2
-$90,525.64
$9,905.028
-9,139
468
,000
1
-$2,676.10
$4,388.465
-,610
52,745
,545
-$90,525.64
$12453.21
-7,269
101,853
,000
2
50
ANOVA para Medidas Repetidas Pablo A. Salgado email: [email protected] [email protected]
z
Hemos visto, dentro del modelo lineal general, lo que en el ámbito del diseño se denominan diseños factoriales completamente aleatorizados, en donde se asigna aleatoriamente a los sujetos a cada una de las condiciones experimentales que se deriven del número de factores que concurren en el diseño.
z
En este caso las fuentes de variabilidad del análisis representan las diferencias entre los sujetos sometidos a las distintas condiciones. 52
z
En contraste con esto, hay otro tipo de diseños, en los que los sujetos pueden servir en todas o en algunas de las condiciones o tratamientos.
z
En estas circunstancias, parte de la variabilidad extraída en el análisis será el reflejo de la variabilidad de cada sujeto, y esta es la razón por la cual a este tipo de diseños se les denomina diseños intra-sujetos o diseños de medidas repetidas. 53
z
Los modelos de ANOVA con medidas repetidas (MR) sirven para estudiar el efecto de uno o mas factor intra-sujetos y se caracteriza porque todos los los neviveles del factor (si hay mas de uno) se aplican a los mismos sujetos.
z
El diseño mas simple de MR consiste en medir dos variables en una misma muestra de sujetos. Los datos de este diseño, como vimos, se analizan con la prueba t de Student para muestras relacionadas. 54
z
Pero los diseños de MR pueden tener mas de dos medidas y mas de un factor.
z
Las ventajas del diseño de MR son que requiere menos sujetos que un diseño aletorizado y permite eliminar la variación residual debida a las diferencias entre sujetos ya que son los mismos.
z
Pero hay que analizar algunos efectos atribuibles a la utilización de los mismos sujetos, tales como efectos de arrastre (analizar un efecto sin esperar que finalice el efecto tomado anteriormente) o de aprendizaje entre las series (mejora con la repetición). 55
z
En las ciencias del comportamiento, una alta proporción de los diseños que se llevan a cabo son de este tipo por la ventajas que suponen.
z
Son diseños que permiten estudiar cambios en conductas tales como aprendizaje, entrenamiento, recuerdo, cambio de actitudes, etc.
z
Además son particularmente sensibles y eficientes, en el sentido de que son más económicos en cuanto al número de sujetos, en comparación con los diseños entre-sujetos. 56
Diseño de un factor con medidas repetidas Archivos: “lectura medidas repetidas.sav” “lectura medidas repetidas.xls”
Pablo A. Salgado email: [email protected] [email protected]
Diseño de un factor intra-sujetos Es el caso más simple: z
Un grupo de sujetos pasa por todas las condiciones o niveles de un único factor.
z
Para llevar a cabo el análisis vamos a utilizar un conjunto de datos basados en un experimento de atención, en el cual, a cada sujeto, se le dan cinco páginas impresas, asignadas en sentido aleatorio.
z
Cada página tienen un nivel de dificultad de lectura ascendente (menos difícil el nivel 1 y más difícil el nivel 4) y cada una contiene el mismo número de errores tipográficos. 58
z
Los sujetos tenían que localizar los errores y la VD es el número de errores identificados correctamente. Sujetos
n1
n2
n3
n4
1
14
12
7
6
2
15
10
9
9
3
16
8
11
9
4
13
11
8
9
5
16
12
7
12
6
16
10
8
11
7
14
13
12
10
8
12
8
11
7
9
11
8
8
10
59
Sintaxis GLM n1 n2 n3 n4 /WSFACTOR = factor1 4 Polynomial /METHOD = SSTYPE(3) /PLOT = PROFILE( factor1 ) /EMMEANS = TABLES(factor1) COMPARE ADJ(BONFERRONI) /PRINT = OPOWER /CRITERIA = ALPHA(.05) /WSDESIGN = factor1 .
60
Factores intra-sujetos Medida: MEASURE_1 factor1 1 2 3 4
Variable dependiente n1 n2 n3 n4
Contrastes multivariadosc Efecto factor1
Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy
Valor ,898 ,102 8,791 8,791
F 17,582b 17,582b 17,582b 17,582b
Gl de la hipótesis 3,000 3,000 3,000 3,000
Gl del error 6,000 6,000 6,000 6,000
Significación ,002 ,002 ,002 ,002
Parámetro de no centralidad 52,747 52,747 52,747 52,747
Potencia a observada ,994 ,994 ,994 ,994
a. Calculado con alfa = ,05 b. Estadístico exacto c. Diseño: Intersección Diseño intra sujetos: factor1
61
La primera tabla es la de los contrastes multivariados, que ofrece cuatro estadísticos: la Traza de Pillai, la Lamdba de Wilks, la Traza de Hotelling y la Raíz mayor de Roy. z Su interpretación es la misma que la de cualquier estadístico: si el nivel crítico es < 0,05 se rechaza la hipótesis de igualdad de medias de los tratamientos. z En nuestro caso, efectivamente, se puede decir que el número de errores tipográficos detectados depende del nivel de dificultad de lectura de la página. z
62
z
En los modelos de medidas repetidas es necesario trabajar con el supuesto de que las varianzas de las diferencias entre cada dos niveles del factor MR son iguales.
z
En este ejemplo (4 medidas) pueden hacerse 6 pares de combinaciones de a dos por cada nivel (1-2, 1-3, 1-4, 2-3, 2-4, 3-4). 63
z
En el modelo de un factor MR se asume que las varianzas de esas 6 variables son iguales.
z
Este supuesto equivale a a afirmar que la matriz de varianzas-covarianzas es circularo esférica (circularidad de la matriz de varianzas-covarianzas).
z
El procedimiento de MR ofrece para contrastarlo la prueba de esfericidad de Mauchly. 64
z
Para contrastar el supuesto, el procedimiento Medidas repetidas aporta la prueba de esfericidad W de Mauchly, que para los datos que se analizan nos lleva a aceptar dicha hipótesis, que indica igualdad en las varianzas. Prueba de esfericidad de Mauchlyb
Medida: MEASURE_1 Epsilon Efecto intra-sujetos factor1
W de Mauchly ,819
Chi-cuadrado aprox. 1,344
gl 5
Significación ,931
Greenhous e-Geisser ,885
a
Huynh-Feldt 1,000
Límite-inferior ,333
Contrasta la hipótesis nula de que la matriz de covarianza error de las variables dependientes transformadas es proporcional a una matriz identidad. a. Puede usarse para corregir los grados de libertad en las pruebas de significación promediadas. Las pruebas corregidas se muestran en la tabla Pruebas de los efectos inter-sujetos. b. Diseño: Intersección Diseño intra sujetos: factor1
65
Pruebas de efectos intra-sujetos. Medida: MEASURE_1
Fuente factor1
Error(factor1)
Esfericidad asumida Greenhouse-Geisser Huynh-Feldt Límite-inferior Esfericidad asumida Greenhouse-Geisser Huynh-Feldt Límite-inferior
Suma de cuadrados tipo III 152,306 152,306 152,306 152,306 77,944 77,944 77,944 77,944
gl 3 2,656 3,000 1,000 24 21,249 24,000 8,000
Media cuadrática 50,769 57,342 50,769 152,306 3,248 3,668 3,248 9,743
F 15,632 15,632 15,632 15,632
Significación ,000 ,000 ,000 ,004
Parámetro de no centralidad 46,897 41,520 46,897 15,632
Potencia a observada 1,000 1,000 1,000 ,932
a. Calculado con alfa = ,05
z z
z
z
z
Si se rechaza el estadístico W: se ofrecen dos soluciones alternativas. La primera es basar la decisión en los contrastes multivariados, que no están afectados por el incumplimiento de dicho supuesto. La segunda es utilizar el estadístico F univariado aplicando un factor de corrección denominado Épsilon el cual expresa el grado en que la matriz de varianzas-covarianzas se aleja de la esfericidad. Son dos las estimaciones de épsilon: la de Greenhouse-Geisser y la Huynh-Feldt El tercer valor ofrecido, Límite inferior, es el valor más extremo que alcanzaría épsilon en el caso de un incumplimiento máximo de la esfericidad. 66
z
Respecto de los contrastes, el procedimiento ofrece por defecto contrastes de tipo Polinómico, que permite analizar la tendencia de los datos (lineal, cuadrática, cúbica, etc.). Si no se modifica esta opción por defecto la tabla con los contrastes Polinómicos y se denomina Prueba de los contrastes intra-sujetos. Pruebas de contrastes intra-sujetos Medida: MEASURE_1
Fuente factor1
Error(factor1)
factor1 Lineal Cuadrático Cúbico Lineal Cuadrático Cúbico
Suma de cuadrados tipo III 113,606 38,028 ,672 18,944 26,722 32,278
gl 1 1 1 8 8 8
Media cuadrática 113,606 38,028 ,672 2,368 3,340 4,035
F 47,974 11,385 ,167
Significación ,000 ,010 ,694
Parámetro de no centralidad 47,974 11,385 ,167
Potencia a observada 1,000 ,839 ,065
a. Calculado con alfa = ,05
67
z
Los resultados de esta prueba nos indica que el mejor contraste que diferencia las 4 medidas es el contraste lineal y cuadrático.
z
Esto significa que las medidas de los errores de tipográfico a medida que aumenta la dificultad en la lectura se ajustan significativamente a una recta (comportamiento lineal) como a una curva (comportamiento cuadrático). 68
z
La tabla siguiente permite obtener el promedio estimado para cada nivel medido con su intervalo de confianza. factor1 Medida: MEASURE_1
factor1 1 2 3 4
Media 14,111 10,222 9,000 9,222
Error típ. ,611 ,641 ,624 ,619
Intervalo de confianza al 95%. Límite Límite inferior superior 12,702 15,520 8,745 11,700 7,562 10,438 7,796 10,649 69
Comparaciones por pares Medida: MEASURE_1
(I) factor1 1
2
3
4
(J) factor1 2 3 4 1 3 4 1 2 4 1 2 3
Diferencia entre medias (I-J) 3,889* 5,111* 4,889* -3,889* 1,222 1,000 -5,111* -1,222 -,222 -4,889* -1,000 ,222
Error típ. ,735 ,904 ,676 ,735 ,983 ,816 ,904 ,983 ,940 ,676 ,816 ,940
a
Significación ,004 ,003 ,001 ,004 1,000 1,000 ,003 1,000 1,000 ,001 1,000 1,000
Intervalo de confianza al 95 a % para la diferencia Límite Límite inferior superior 1,332 6,446 1,965 8,257 2,538 7,240 -6,446 -1,332 -2,197 4,642 -1,840 3,840 -8,257 -1,965 -4,642 2,197 -3,491 3,046 -7,240 -2,538 -3,840 1,840 -3,046 3,491
Basadas en las medias marginales estimadas. *. La diferencia de las medias es significativa al nivel ,05. a. Ajuste para comparaciones múltiples: Bonferroni. 70
z
Por ultimo se comparan de a pares las 4 medidas para determinar en cuales se encuentran diferencias estadísticamente significativas.
z
Se observa que el factor 1 se diferencia de los niveles 2, 3 y 4; pero entre los niveles 2 3 y 4 no se observan diferencias estadisticamente significativas.
71
72
73
z
Por ultimo se comparan de a pares las 4 medidas para determinar en cuales se encuentran diferencias estadísticamente significativas.
z
Se observa que el factor 1 se diferencia de los niveles 2, 3 y 4; pero entre los niveles 2 3 y 4 no se observan diferencias estadisticamente significativas.
74
CONCLUSIONES zA
medida que aumenta la complejidad de la la
lectura disminuyen los errores detectados. z La
diferencia se da entre el nivel 1 y los
demás niveles. z No
se observan diferencias en los errores
entre los niveles de complejidad 2,3 y 4. 75