Analisis de La Varianza-ANOVA-Practica8

analisis de la varianza-ANOVA-practica8Descripción completa

Views 70 Downloads 1 File size 94KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

1

Práctica 8. Análisis de la varianza

Práctica 8 ANÁLISIS DE LA VARIANZA

Objetivos: En esta práctica utilizaremos el paquete SPSS para ilustrar el procedimiento ANOVA para comparar las medias de dos o más muestras.

Índice: 1. ANOVA de un factor 2. Contraste no paramétrico de Kruskal-Wallis 3. Ejercicios complementarios

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 8. Análisis de la varianza

2

1. ANOVA de un factor. En este apartado consideraremos la comparación de las medias de dos o más poblaciones en base a dos o más muestras independientes. Por ejemplo, supongamos que queremos establecer si existen diferencias entre los niveles medios del ph en las tres provincias de la Comunidad Valenciana (los datos se encuentran en el archivo AMBIENTE). Para poder efectuar el procedimiento ANOVA de un factor, SPSS necesita una columna en el editor de datos que contenga los valores de la variable cuyas medias en las k poblaciones se desea comparar, y otra que indique la población o grupo a que pertenece cada caso. Al seleccionar Analizar/Comparar medias/ANOVA de un factor aparece la ventana siguiente:

en la que colocaremos la variable ph en dependientes y la variable provin como factor. Los valores de la variable de factor deben ser enteros y la variable dependiente debe ser cuantitativa. En Opciones podemos pedirle al SPSS ciertos estadísticos descriptivos para cada grupo (número de casos, media, desviación típica, error típico de la media, mínimo, máximo, intervalo de confianza al 95% para la media) así como un gráfico de las medias de cada grupo. (Recuerda que con Gráficos/Barras de error puedes obtener un gráfico de los intervalos de confianza para la media de cada grupo). El procedimiento ANOVA de un factor requiere que cada grupo sea una muestra aleatoria independiente procedente de una población normal. El análisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos deberán ser simétricos (Recuerda que puedes utilizar Gráficos/Diagramas de caja para comprobar visualmente esta propiedad). Así mismo, los grupos deben proceder de poblaciones con varianzas iguales. Para contrastar este supuesto, podemos pedir con el botón Opciones la prueba de Levene de homogeneidad de varianzas. En el caso que estamos considerando, la prueba de Levene tiene un p-valor de 0.813, por lo que podemos considerar las varianzas iguales

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

3

Práctica 8. Análisis de la varianza

Prueba de homogeneidad de varianzas PH Estadístico de Levene ,207

gl1

gl2 297

2

Sig. ,813

El procedimiento proporciona la tabla ANOVA que aparece a continuación: ANOVA PH

Inter-grupos Intra-grupos Total

Suma de cuadrados ,319 87,051 87,370

gl 2 297 299

Media cuadrática ,160 ,293

F ,544

Sig. ,581

Como el p-valor obtenido es 0.581, no rechazamos la igualdad de medias de la variable ph en las tres provincias. Cuando se concluye que existen diferencias entre las medias, las pruebas de rango post hoc permiten determinar qué medias difieren. La prueba de rango post hoc StudentNewman-Keuls (pulsa el botón Post Hoc, selecciona S-N-K y especifica el nivel de significatividad) identifica subconjuntos homogéneos de medias que no se diferencian entre si. En la tabla de resultados de la prueba S-N-K aparecen en cada columna los grupos homogéneos. En el caso que estamos estudiando, al no haber rechazado la hipótesis nula de igualdad de medias, las tres medias se encuentran en el mismo subconjunto, por lo que hay una sola columna en el apartado de Subconjuntos. PH a

Student-Newman-Keuls

Provincia VALENCIA ALICANTE CASTELLON Sig.

N 100 100 100

Subconju nto para alfa = .05 1 5,894974 5,905580 5,968839 ,599

Se muestran las medias para los grupos en los subconjuntos homogéneos. a. Usa el tamaño muestral de la media armónica = 100,000.

Ejercicio 1:

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 8. Análisis de la varianza

4

Una cierta planta ha sido cultivada con cinco fertilizantes distintos. Se desea estudiar si el tipo de fertilizante influye en la longitud de la planta, para lo cual se han medido las longitudes de cinco series de 10 plantas, obteniéndose para cada serie los resultados que aparecen en el fichero fertilizante. ¿Influye el fertilizante en la longitud de las plantas ?, o dicho de otra manera, ¿hay evidencia estadística suficiente para afirmar que las medias son diferentes ?. De ser así, ¿existen tipos de fertilizante que no se diferencien entre si?

2. Contraste no paramétrico de Kruskal-Wallis El contraste no paramétrico de Kruskal-Wallis se utiliza para determinar si varias muestras independientes proceden de la misma población. Vamos a estudiar su funcionamiento sobre los resultados de un experimento para determinar el efecto de la hemodiálisis sobre el tamaño del hígado en el que tenemos tres grupos de individuos: control, pacientes no dializados y pacientes dializados, y la variable de interés es el área del hígado. Al seleccionar Analizar / Pruebas no paramétricas / K muestras independientes, introducir la variable area en Contrastar variables y la variable grupo en Variable de agrupación y seleccionar H de Kruskal-Wallis en la pantalla siguiente:

Cuando introducimos grupo en el campo Variable de agrupación, aparecen dos interrogantes (??). Esto permite definir el rango de las categorías de la variable de agrupación que van a ser consideradas en el contraste. Para definir el rango, hay que pulsar el botón Definir rangos e introducir valores enteros para el máximo y el mínimo que se correspondan con las categorías mayor y menor de la variable de agrupación que se quieran considerar. Se excluyen los casos con valores fuera de los límites. Por ejemplo, si se indica un valor mínimo de 1 y un valor máximo de 3, únicamente se utilizarán los grupos (muestras) correspondientes a los valores enteros entre 1 y 3. Se deben indicar ambos valores y el valor mínimo ha ser menor que el máximo. El resultado del test aparece en los dos cuadros siguientes. En el primero aparecen los rangos promedios de las muestras. En el segundo aparece el p-valor, en este caso 0.001.

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

5

Práctica 8. Análisis de la varianza

Rangos

AREA

GRUPO Control Paciente no dializado Paciente dializado Total

N 7 7 10 24

Rango promedio 7,71 7,86 19,10

Estadísticos de contrastea,b Chi-cuadrado gl Sig. asintót.

AREA 14,936 2 ,001

a. Prueba de Kruskal-Wallis b. Variable de agrupación: GRUPO

Con el botón Opciones se puede elegir uno o los dos conjuntos de estadísticos de resumen siguientes: Descriptivos (Muestra la media, la desviación típica, el mínimo, el máximo y el número de casos no perdidos) y Cuartiles (Muestra los valores correspondientes a los percentiles 25, 50 y 75).

3. Ejercicios complementarios 1.

( Fichero soja )

Una planta fisiológica investigó el efecto del estrés mecánico en las plantas de soja. Se repartieron aleatoriamente semillas plantadas en tiestos individuales, en cuatro grupos de tratamiento con 13 semillas cada uno. Las semillas de dos grupos fueron “estresadas” mediante 20 minutos de sacudidas dos veces al día, mientras que dos grupos de control fueron no estresados. Además, las plantas crecieron tanto con luz baja como con luz moderada. De esta manera, los tratamientos fueron cuatro: Tratamiento 1: luz baja, control Tratamiento 2: luz baja, stress Tratamiento 3: luz moderada, control Tratamiento 4: luz moderada, stress Después de 16 días de crecimiento, se cosecharon las plantas y se midió el área total de las hojas de cada planta. Los resultados obtenidos para cada tratamiento fueron: Trat. 1

Trat. 2

Trat. 3

Trat.4

264 200 225 268 215 241

235 188 195 205 212 214

314 320 320 340 299 268

283 312 291 259 216 201

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

6

Práctica 8. Análisis de la varianza

232 256 229 288 252 288 230

182 215 272 163 230 255 202

345 271 285 309 337 282 273

267 326 241 291 269 282 257

Analizar los datos obtenidos mediante la comparación de las medias de los cuatro tratamientos. ¿Hay evidencia estadística suficiente para afirmar que las medias son diferentes ?. En caso afirmativo, indica si hay tratamientos que no pueden ser diferenciados entre sí. Calcular un intervalo de confianza al 95% para las medias de los cuatro grupos, ¿son muy diferentes ? Obtener las gráficas de dichos intervalos.

2.

( Fichero iris )

Las longitudes de los sépalos de tres especies de flores del género Iris son (datos de R.A. Fisher): Iris setosa 5.1 4.9 4.7 4.6 5.0 5.4 4.6 5.0 4.4 4.9 5.4 4.8 4.8 4.3 5.8

Iris Versicolor 7.0 6.4 6.9 5.5 6.5 5.7 6.3 4.9 6.6 5.2 5.0 5.9 6.0 6.1 5.8

Iris Virginica 6.3 5.8 7.1 6.3 6.5 7.6 4.9 7.3 6.7 7.2 6.5 6.4 6.8 5.7 5.8

Estudiar si existen diferencias entre las tres especies respecto a la longitud de los sépalos, es decir ¿hay evidencia estadística suficiente para afirmar que las medias son diferentes ?. ¿Existe alguna especie que se diferencie significativamente de las otras?. Calcular un intervalo de confianza al 95% para las medias de los tres grupos, ¿son muy diferentes ? Obtener las gráficas de dichos intervalos.

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

7

Práctica 8. Análisis de la varianza

3.

( Fichero plomo )

Las glándulas nasales supraorbitales tienen una importante función en las aves marinas. Ayudan a excretar cloruro de sodio cuando las condiciones del medio fuerzan al ave a consumir más sal de lo normal. Se realizó un estudio para determinar el papel de estas glándulas en la excreción de plomo, un contaminante común del medio. Se estudian tres grupos de ánades: ánades con alimentación normal, grupo I; ánades alimentados a la fuerza con una dosis de plomo comercial de perdigones, grupo II; y ánades alimentados con perdigones de plomo y CaNa2EDTA, grupo III. Se obtuvieron los siguientes datos sobre la concentración de plomo (en microgramos de plomo por gramo de tejido) en las glándulas nasales: I 1.4 1.0 0.9 0.7 0.5 1.2 3.4 1.3

II 11.1 10.3 10.2 9.7 7.7 10.1 11.6 13.3

III 5.0 8.2 4.9 3.2 4.4 3.1 5.1 2.9

A la vista de los datos, ¿puede afirmarse que hay diferencias significativas en la concentración media de plomo entre los tres grupos?. ¿Existe alguna pareja de grupos que sea indistinguible?. 4. La deficiencia de vitamina A es un conocido problema de salud pública. Se ha demostrado que añadiendo vegetales de hoja verde a la dieta, se obtiene un aumento de las concentraciones en suero sanguíneo de vitamina A Se realiza un estudio para determinar si se obtiene algún beneficio por añadir grasa a la dieta. Un grupo de 30 niños, con similares concentraciones de vitamina A en suero, se divide aleatoriamente en tres subgrupos. Cada subgrupo recibe diariamente 40 gr. de espinacas, pero el contenido en grasa varía. Al final del experimento se obtienen los siguientes datos sobre la concentración en suero de vitamina A: I II III (sin grasa) (+5 gr. de grasa) (+10 gr. de grasa) _____________________________________________ 18.1 29.1 26.6 16.5 15.8 16.1 21.0 20.4 18.8 18.7 23.5 25.0 7.4 18.5 21.8 12.4 21.3 15.4 16.1 23.1 19.9 17.9 23.8 15.5 20.1 21.1 11.9 25.5

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

8

Práctica 8. Análisis de la varianza

Utilizar un test no paramétrico para contrastar la hipótesis de que el contenido de grasa en la dieta no tiene efecto sobre la concentración de vitamina A en suero al nivel α=0.1. Ejercicio 5. La ureasa es una enzima conocida por producir amoniaco en el tracto gastrointestinal. Se sabe que el amoniaco es nocivo para los pacientes con enfermedades de hígado. Se realiza un estudio para comparar la concentración de ureasa en los jugos gástricos de cinco poblaciones: I, controles normales; II, pacientes con obstrucción extrahepática de la vena porta; III, pacientes con tumores amíbicos de hígado; IV, pacientes con hepatitis vírica; y V, pacientes con hipertensión idiopática de la vena porta. Se obtienen los siguientes datos (en mg./mil.): I II III IV V 261.1 221.9 201.4 600.9 160.6 186.2 188.7 146.1 301.2 135.0 239.1 167.6 96.8 607.9 455.1 243.3 224.9 173.9 283.3 402.3 296.8 178.8 280.8 193.3 457.9 270.5 147.9 100.3 159.4 559.6 _______________________________________________________ Basándose en los datos y en el test de Kruskal-Wallis, ¿se puede pretender al nivel α=0.05 que estas poblaciones difieren con respecto a la concentración gástrica de ureasa? Ejercicio 6. Se realiza un estudio del contenido de azufre en cinco de los principales yacimientos de carbón de Texas. Se toman muestras aleatoriamente de cada uno de los yacimientos y se analizan. Los datos del porcentaje de azufre aparecen en la tabla. Supuestas normalidades y varianzas iguales, contrastar la igualdad de medias. ¿Qué conclusiones pueden extraerse de estos datos?. 1

2

3

4

5

1.51

1.69

1.56

1.30

0.73

1.92

0.64

1.22

0.75

0.80

1.08

0.90

1.32

1.26

0.90

2.04

1.41

1.39

0.69

1.24

2.14

1.01

1.33

0.62

0.82

1.76

0.84

1.54

0.90

0.72

1.17

1.28

1.04

1.20

0.57

1.59

2.25

0.32

1.18

1.49

0.54 1.30

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València