Tarea de La Maestria

MAESTRÍA EN INGENIERÍA CIVIL MENCIÓN GEOTECNIA Y VÍAS TERRESTRES CURSO: MATEMÁTICA AVANZADA PARA INGENIEROS. ELAVORAD

Views 60 Downloads 0 File size 693KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

MAESTRÍA EN INGENIERÍA CIVIL MENCIÓN GEOTECNIA Y VÍAS TERRESTRES

CURSO:

MATEMÁTICA AVANZADA PARA INGENIEROS.

ELAVORADO POR:

JORGE ARTURO CUMPA MARQUEZ

Contenido TABLA DE CONTINGENCIA ............................................................................................................. 2 CONTRASTE DE INDEPENDENCIA ................................................................................................. 3 CONTRASTE DE HOMOGENEIDAD ................................................................................................ 5 ANÁLISIS DE VARIANZA ................................................................................................................. 7 DISEÑO ESTADÍSTICO DE EXPERIMENTOS ................................................................................. 12 DISEÑO COMPLETAMENTE ALEATORIZADO ............................................................................ 13 DISEÑOS EN BLOQUES COMPLETOS ALEATORIZADOS .......................................................... 17

1

TABLA DE CONTINGENCIA En estadística las tablas de contingencia se emplean para registrar y analizar la asociación entre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales). Ejemplo Supóngase que se tienen dos variables, la primera el género (Masculino - Femenino) y la segunda recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos variables puedes resolver cualquier operación de probabilidad o algebra: Diestro Zurdo TOTAL

Hombre 43

9

52

Mujer

44

4

48

TOTAL

87

13

100

Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total. La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la significación estadística de la diferencia entre ellas puede ser evaluada con la prueba χ² de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una población. Si la proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si no existe asociación se dice que ambas variables son independientes. El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más simple es el coeficiente phi que se define por

donde χ2 se deriva del test de Pearson, y N es el total de observaciones -el gran total-. Φ puede oscilar entre 0 (que indica que no existe asociación entre las variables) e infinito. A diferencia de otras medidas de asociación, el coeficiente Φ de Cramer no está acotado. Estudio de diferencia de proporciones Hay situaciones en las que tenemos probabilidades de éxito cercanas al cero o del uno en donde las proporciones pueden ser poco representativas sobre el comportamiento dentro de los grupos. Por ejemplo:

2

Vamos a definir el riesgo relativo como

, para los ejemplos anteriores:

En el primer caso el éxito dentro de los grupos es 10 veces mayor que en el otro. Si X e Y independientes, entonces

con lo que su riesgo relativo es

. Ahora bien, ¿cómo estimar r?

En el ejemplo de más arriba: → la proporción de éxito (diestro) dentro de las mujeres es alrededor de un 10% mayor que dentro del grupo de los hombres.

CONTRASTE DE INDEPENDENCIA A través de este contraste pretendemos probar si existe independencia entre dos variables o atributos (en el conjunto de la población) a partir de las observaciones de las dos característica (en una muestra).Se trata, en realidad, de un caso particular del contraste de adherencia a un ajuste, en el que el modelo teórico sujeto a contraste es el de una distribución bidimensional con variables independientes. Las frecuencias observadas las podemos disponer en una tabla de contingencia: X\Y

y1

y2

yj

ym

x1

n1,1

n1,2

·

·

n1,*

Donde : ni,j es la frecuencia conjunta

x2

n2,1

n2,2

·

·

n2,*

ni,* es la frecuencia marginal de x

xi

·

·

ni,j

·

ni,*

·

·

·

·

·

xn

·

·

·

nn,m

nn,*

n*,1

n*,2

n*,j

n*,m

N

n*,j es la frecuencia marginal de y Si la hipótesis de independencia se cumple, y por el teorema de caracterización, se deberá cumplir que todas las frecuencias relativas conjuntas sean iguales al producto de las respectivas frecuencias relativas marginales:

3

luego en el caso de independencia cada una de las ij frecuencias conjuntas teóricas serán :

si establecemos el mismo método del test de la chi-2 crearemos el

estadístico hay que puntualizar que el citado estadístico se distribuirá con una distribución c 2 con (m-1)(n-1) grados de libertad. Las frecuencias conjuntas debe verificar siempre :

para cada fila

para cada columna

pero además : una de las m + n ecuaciones anteriores será combinación lineal de las otras m+n-1. De manera que de los m.n sumandos que constituyen el (m.n celdas de la tabla) ,m+n-1 están determinados por los demás y quedan por lo tanto:

estadístico

m·n -(m+n-1) libres = m·n - m - n + 1 = (m-1).(n-1). Como no estima ningún parámetro el número de grados de libertad será el número de sumandos (variables) libres (independientes): por tanto el estadístico seguirá EJEMPLO Se dispone de las observaciones del color del pelo y de los ojos de 400 individuos según la siguiente tabla: ojos azules

ojos negros

ojos pardos

rubios

120

20

20

160

castaños

50

30

60

140

morenos

50

10

40

100

220

60

120

400

4

Contrastar con un nivel de significación del 1 % la independencia de estos atributos. ( ir a script de realización) Construyamos primero la tabla de frecuencias teóricas: aplicando para cada valor la expresión

construimos la tabla de contingencia de frecuencias teóricas ojos azules

ojos negros

ojos pardos

rubios

88

24

48

160

castaños

77

21

42

140

morenos

55

15

30

100

220

60

120

400

construimos el estadístico que tomará el valor 55,13

( ir a script de realización)

dado que los grados de libertad serán: g. l.=(3-1)(3-1) = 4 y el valor crítico para a =0.01 y g. l .= 4 es 13.3 (ir a tabla de la c 2 ) ;de modo que dado que el estadístico es mayor que el valor de la tabla 55,13>13,3 rechazamos la hipótesis planteada. En consecuencia podemos concluir que existe dependencia entre el color de los ojos y el del pelo .

CONTRASTE DE HOMOGENEIDAD A través de este contraste pretendemos determinar si varias poblaciones distintas (m) tienen una estructura similar o, por decirlo de otro modo, si son o no homogéneas en lo que se refiere a la forma de distribuirse en ellas una cierta variable o atributo que puede tomar un conjunto de n valores o tipos diferentes (en todas las poblaciones). Para ello partiremos de la información de m muestras de las m poblaciones y trabajaremos con las frecuencias que en cada población tiene cada posible valor de la variable (o tipo del atributo). Si llamamos ni,j a la frecuencia con que se da el valor o tipo i en la muestra j, podemos construir una tabla con los datos similar a la que utilizábamos en el contraste de independencia. La hipótesis que queremos contrastar es que la distribución de la variable (o atributo) es homogénea en las j poblaciones, por lo tanto la frecuencia teórica con que se dará el valor o el tipo x i deberá ser tal que la proporción de observaciones (frecuencias relativas) del valor o tipo xi deberá ser la misma en todas las muestras

Por lo que se cumplirá que :

para i= 1,2,3,….n

5

y será obviamente la misma que la proporción de observaciones de ese tipo que hay en el total , que será:

para cada xi siendo N el total de observaciones

De manera que las frecuencias teóricas deberán verificar: así construida la tabla de contingencia de frecuencias teóricas y comparada con la de observadas ,

crearemos el estadístico ya conocido

que como en el caso de contraste de independencia seguirá el modelo

EJEMPLO Para intentar mejorar la posición en el mercado de cierto producto se llevaron a cabo tres campañas de promoción entre los minoristas distribuidores en otras tantas localidades: A,B,C. Se desea contrastar si las tres campañas son homogéneas respecto a los resultados en el incremento de las ventas en las tiendas, con un nivel de significación del 5 % .Para ello se han recogido los siguientes datos: localidad A

localidad B

localidad C

tiendas aumentan ventas

165

141

152

458

tiendas no

256

142

98

496

421

283

250

954

aumentan ventas

si calculamos las frecuencias teóricas mediante

tendremos :

localidad A

localidad B

localidad C

tiendas aumentan ventas

202,1153

135,86373

120,02096

458

tiendas no

218,8847

147,13626

129,97903

496

421

283

250

954

aumentan ventas

6

aplicando la expresión quedará su valor establecido en 29.871131

del

estadístico

el estadístico tendrá una distribución chi-dos con (m-1)·(n-1) g.l. es decir (3-1)·(2-1)=2 (ir a tabla de la c 2 ) el valor crítico para dicha distribución con nivel de significación a =0.05 será 5.99 ; dado que el estadístico es mayor rechazamos la hipótesis de que las tres campañas de promoción sean homogéneas. ANÁLISIS DE VARIANZA El análisis de Varianza contrasta la hipótesis de igualdad de las Medias de más de dos grupos, y tiene su fundamento en la relación entre la variación explicada por las diferencias entre grupos y la variación individual. Consideremos la siguiente situación: Queremos comparar la efectividad de cuatro tratamientos de la depresión, para lo que aplicamos los tratamientos a cuatro grupos de pacientes seleccionados aleatoriamente. A finales del tratamiento recogemos los datos, que son:

Los valores del cuerpo central de la tabla representan las puntuaciones obtenidas por el sujeto "i" en el grupo "j". Por ejemplo, X32=14 simboliza que el sujeto número tres del grupo 2 ha obtenido una puntuación igual a 14. Las puntuaciones de cada grupo son una muestra de la población de pacientes a los que se administra cada tratamiento (los del grupo 1, de la población a la que se administra el tratamiento 1, los del grupo 2, de la población a la que se administra el tratamiento 2, etc.). Las Medias de las poblaciones se simbolizan m1, m2, m3, etc. Queremos saber si estas Medias son semejantes o diferentes a la finalización del tratamiento, porque eso significaría que los tratamientos afectan de manera diferente a los pacientes. La Hipótesis Nula es:

El estadístico de contraste es:

7

donde MCE y MCI son las Medias Cuadráticas "entre" e "intra" respectivamente. El fundamento del estadístico de contraste es: a) El efecto del tratamiento en cada grupo es medido por la Media de las medidas de depresión de cada grupo. b) Si todos los tratamientos tuvieran el mismo efecto, esperaríamos que las Medias de los grupos fueran semejantes:

En cambio, cuanto más diferentes sean los efectos de los tratamientos, más diferentes esperamos que sean las Medias. c) La Media Cuadrática "entre" mide la variación explicada por las diferencias entre las Medias de los grupos más la variación explicada por diferencias individuales:

donde

si las Medias fueran semejantes, la Media Cuadrática "entre" sería igual a 0 (porque la Media de cada grupo sería igual a la Media total). Si las Medias fueran diferentes, la Media Cuadrática "entre" será mayor cuanto más y mayores sean las diferencias. d) La variación individual es medida por la Media Cuadrática "intra":

donde glI: grados de libertad "intra"= J(n-1).

8

La Media Cuadrática "intra" mide la variación explicada por diferencias individuales porque solo depende de las diferencias dentro de cada grupo. En cambio, las diferencias entre grupos no explican la variación "intra". e) El estadístico F pone en relación la variación "entre" respeto de la variación "intra":

cuanto mayor es la variación "entre" en relación a la variación "intra", mayor es el valor de F. f) Para generalizar a la población se opera con los valores esperados de la Medias Cuadráticas:

el valor esperado de la Media Cuadrática "entre" es igual a la Varianza explicada (ocasionada) por las diferencias individuales más una cantidad cuyo valor depende de las diferencias entre los tratamientos (entre las muestras).

El valor esperado de la Media Cuadrática "intra" es igual a la Varianza explicada por diferencias individuales. g) Si la Hipótesis Nula fuera verdadera, es decir, si NO hubiera diferencias entre las Medias poblacionales, el valor del término de la derecha en la expresión del valor esperado de la Media Cuadrática "entre", que es:

tomaría el valor 0 (porque las diferencias dentro del paréntesis siempre serían 0). En consecuencia, el estadístico F sería una razón de dos estimadores de la misma Varianza y seguiría la distribución F con J-1 y J(n-1) grados de libertad. h) Si la Hipótesis Nula fuera falsa, es a decir, si hubiera diferencias entre las Medias poblacionales, la expresión

9

tomaría un valor superior a 0. En consecuencia, el estadístico F NO sería una razón de dos estimadores de la misma Varianza y el cociente F NO seguiría la distribución FJ-1,J(n-1). i) En conclusión, si el estadístico F sigue la distribución FJ-1,J(n-1) pensaremos que no hay evidencia suficiente por rechazar la Hipótesis Nula. En cambio, si el estadístico F NO sigue la distribución FJ-1,J(n-1), pensaremos que es más razonable rechazar la Hipótesis Nula. Los supuestos del Análisis de Varianza para grupos independientes son: a) Los datos son independientes y siguen la distribución Normal. b) Todos los grupos tienen el mismo tamaño. c) Las Varianzas de los grupos son pareciendo. Los supuestos del apartado a) son satisfechos (generalmente) si los datos son seleccionados aleatoriamente, pero es conveniente verificar el cumplimiento de los supuestos con las pruebas del apartado 6. Comparación de medias Si la prueba F resulta significativa puede que todas o algunas de las Medias sean diferentes. Para saber entre qué Medias hay diferencias se puede aplicar las pruebas de comparación de medias como la prueba de Tuckey, la prueba de Scheffé (especialmente robusta a la violación de los supuestos estadísticos), la de Duncan (más potente cuanto mayor es el número de Medias comparadas), o la de Dunnett (especialmente adecuada para hacer comparaciones con un grupo de referencia). Modelo

El modelo del Análisis de Varianza es

donde

El modelo indica que podemos expresar el valor observado del individuo "i" en el grupo "j" como la adición de la magnitud general de la variable más la magnitud específica del grupo "j" más un componente específico del individuo "i". 10

El término del modelo que interesa es a (la magnitud de la variable o posición específica del grupo). El estimador de a es la esperanza de la Media Cuadrática "entre" MCE. La prueba F somete a contraste la hipótesis que un grupo (al menos) ocupa una posición diferente (la variable tiene una magnitud específica en ese grupo) a la de los otros grupos.

ANOVA intrasujetos

El análisis de Varianza intrasujetos contrasta la hipótesis de igualdades de las Medias de muestras recogidas en los mismos sujetos. Ejemplo: Queremos probar si una bebida tiene efecto estimulante, y damos a beber una dosis pequeña (0,5dl.) a un grupo de individuos seleccionados aleatoriamente. A las 24 horas les damos una dosis de 1dl., y hacemos lo mismo durante los dos días siguientes en dosis de 1,5 y 2dl. Cada día, al acabar de beber los administramos una prueba de coordinación motora, y recogemos los siguientes datos:

El análisis de los datos de grupos relacionados presenta características específicas: Cada fila define un grupo de datos del mismo sujeto. En consecuencia, la MCI no es un estimador adecuado de la variación aleatoria porque los datos no son independientes. Por otro lado, parte de la variación observada entre columnas es explicada por el efecto de los tratamientos (si hay efecto). Por esta razón la variación entre las filas (que es variación entre sujetos) mide la variación ocasionada por diferencias entre tratamientos más la variación ocasionada por diferencias individuales entre sujetos. Para resolver el problema, se define la variación aleatoria como el residuo de sustraer la variación "entre tratamientos" y la variación "entre sujetos" de la variación total:

La prueba F tiene el mismo sentido que en el Análisis de Varianza intersujetos, pero se hacen poniendo en el numerador la Media Cuadrática que corresponda y en el denominador la Media Cuadrática residual. Prueba F para someter a contraste la Hipótesis Nula de que los tratamientos no son efectivos:

Prueba F para someter a contraste que la variación ocasionada por diferencias individuales es nula:

11

DISEÑO ESTADÍSTICO DE EXPERIMENTOS Una prueba o serie de pruebas en las cuales se introducen cambios deliberados en las variables de entrada que forman el proceso, de manera que sea posible observar e identificar las causas de los cambios en la variable de salida

REALIZAR UN EXPERIMENTO Aplicar los distintos niveles, o combinaciones de niveles cuando hay presentes más de un factor, a distintas unidades experimentales y se observa el valor de la variable respuesta. ¥ Unidades experimentales: (personas, elementos físicos) ¥ Factor: Variable controlable por el experimentador (Niveles del factor o tratamientos) ¥ Variable de interés: Variable Respuesta ¥ Error experimental o perturbación: Variables no controlables por el experimentador ¥ Tamaño del experimento: número total de observaciones. OBJETIVO Estudiar el efecto que sobre la Variable Respuesta tiene un conjunto de otras variables que reciben el nombre de Factores ETAPAS 1) Diseñar un experimento con una estructura lo más adecuada posible a la situación que se desea estudiar y a los medios disponibles. a) Planteamiento general del problema y de los objetivos que se persiguen. b) Selección y definición de la variable respuesta. c) Elección de los factores y niveles que han de intervenir en el experimento. d) Determinación del conjunto de unidades experimentales incluidas en el estudio. e) Determinación de los procedimientos por los cuales los tratamientos se asignan a las unidades experimentales. 2) Realizar la experimentación de acuerdo con el plan previamente establecido en el diseño. 12

3) Analizar estadísticamente los resultados obtenidos y comprobar si las hipótesis establecidas y el modelo de diseño elegido se adecuan a la situación estudiada. 4) Realizar las modificaciones oportunas para ampliar o modificar el diseño. 5) Obtener las conclusiones apropiadas. PRINCIPIOS BÁSICOS DEL DISEÑO DE EXPERIMENTOS ¥ Aleatorización: La asignación de las unidades experimentales a los distintos tratamientos y el orden en el que se realizan los ensayos se determinan al azar. ¥ Replicación. ¥ Homogeneidad del material experimental. DISEÑO COMPLETAMENTE ALEATORIZADO ¥ Una compañía algodonera que emplea diversos fertilizantes desea comprobar si éstos tienen efectos diferentes sobre el rendimiento de la semilla de algodón. ¥ Una profesora de estadística que imparte en grupos experimentales de alumnos, en los que explica la misma materia pero siguiendo distintos métodos de enseñanza, desea comprobar si el método de enseñanza utilizado influye en las calificaciones de los alumnos. ¥ Una industria química, que obtiene un determinado producto, está interesada en comprobar si los cambios de temperatura influyen en la cantidad de producto obtenido.    

INTERÉS: Un solo factor con varios niveles o tratamientos TÉCNICA ESTADÍSTICA: Análisis de la Varianza de un factor o una vía OBJETIVO: Comparar ente sí varios grupos o tratamientos MÉTODO: Descomposición de la variabilidad total de un experimento en componentes independientes

OTROS FACTORES QUE INFLUYEN ¥ Pequeñas variaciones en la cantidad de riego, en la pureza de los insecticidas suministrados, etc. ¥ El nivel cultural del alumno, el grado de atención y de interés del alumno, etc. ¥ La pureza de la materia prima, la habilidad de los operarios, etc. Teóricamente es posible dividir esta variabilidad en dos partes, la originada por el factor de interés y la producida por los restantes factores que entran en juego, conocidos o no, controlables o no, que recibe el nombre de perturbación o error experimental. MODELO ESTADÍSTICO yij = μ + τ i + uij , i = 1, · · · , I; j = 1, · · · ni ¥ yij : Variable aleatoria que representa la observación j-ésima del i-ésimo tratamiento (nivel i-ésimo del factor). ¥ μ : Efecto constante, común a todos los niveles. Media global. ¥ τ i : Efecto del tratamiento i-ésimo. Es la parte de yij debida a la acción del nivel i-ésimo, que será común a todos los elementos sometidos a ese nivel del factor.

13

¥ uij : Variables aleatorias que engloban un conjunto de factores, cada uno de los cuales influye en la respuesta sólo en pequeña magnitud pero que de forma conjunta debe tenerse en cuenta. Deben verificar las siguientes condiciones:    

La media sea cero: E[uij] = 0 ∀i, j . La varianza sea constante: Var [uij] = σ2 ∀i, j Independientes entre sí: E [uij urk] = 0 i 6= r ó j 6= k. Distribución sea normal.

OBJETIVO Estimar lo efectos de los tratamientos y contrastar las hipótesis 1) Todos los tratamientos producen el mismo efecto. H0 : τ i = 0 , ∀i 2) Frente a la alternativa: Al menos dos difieren significativamente entre sí: H1 : τ i 6= 0 por lo menos para algún i o equivalentemente 1´) Todos los tratamientos tienen la misma media: H0 : μ1 = · · · = μI = μ 2´) H1 : μi 6= μj por lo menos para algún par (i, j) SITUACIONES (EFECTOS) ¥ Modelo de efectos fijos: ¥ Modelo de efectos aleatorios SITUACIONES (TAMAÑOS MUESTRALES) ¥ Modelo equilibrado o balanceado: Todas las muestras del mismo tamaño (ni = n) ¥ Modelo no-equilibrado o no-balanceado: Los tamaños, ni, de las muestras son distintos. TABLA ANOVA

Aceptar H0 si Fexp ≤ Fα;I−1,N −I ; Rechazar H0 si Fexp>Fα;I−1,N−I SCT = SCT r + SCR 1) SCT : Suma de cuadrados total 2) SCT r: Suma de cuadrados entre tratamientos 3) SCR: Suma de cuadrados dentro de los tratamientos o residual. 1´) CMT : Cuadrado medio total: CMT =SCT /(N − 1) 2´) CMT r : Cuadrado medio entre tratamientos: CMTr =SCTr/(I − 1) 3´) CMR : Cuadrado medio residual: CMR = SCR/(N − I) 14

Nota: Las expresiones de estas sumas de cuadrados están dadas en el Apéndice. COEFICIENTE DE DETERMINACIÓN R2 = SCT r / SCT R2 : Proporción de la variabilidad total presente en los datos que es explicada por el modelo de análisis de la varianza. EJEMPLOS 1. Una compañía textil utiliza diversos telares para la producción de telas. Aunque se desea que los telares sean homogéneos con el objeto de producir tela de resistencia uniforme, se supone que puede existir una variación significativa en la resistencia de la tela debida a la utilización de distintos telares. A su disposición tiene 5 tipos de telares con los que realiza determinaciones de la resistencia de la tela. Este experimento se realiza en orden aleatorio y los resultados se muestran en la tabla siguiente

. En este experimento, se han considerado 5 tipos de telares y se han realizado 6, 5, 5, 4 y 6 determinaciones de la resistencia de tela manufacturada con cada uno, respectivamente. ¥ La variable de interés o variable respuesta es la resistencia de la tela. ¥ El factor: Los telares ¥ Niveles del factor: 5 ¥ Modelo unifactorial de efectos fijos, no-equilibrado 2. En una determinada fábrica de galletas se desea saber si las harinas de sus cuatro proveedores producen la misma viscosidad en la masa. Para ello, produce durante un día 16 masas, 4 de cada tipo de harina, y mide su viscosidad. Los resultados obtenidos son:

¥ Variable respuesta: viscosidad ¥ Factor: Proveedor ¥ Tratamientos: 4 ¥ Modelo unifactorial de efectos fijos equilibrado

15

3. Una fábrica de textiles dispone de un gran número de telares. En principio, se supone que cada uno de ellos debe producir la misma cantidad de tela por unidad de tiempo. Para investigar esta suposición se seleccionan al azar cinco telares, y se mide la cantidad de tela producida en cinco ocasiones diferentes. Se obtienen los datos de la tabla adjunta. ¿Del estudio se concluye que todos los telares tienen el mismo rendimiento?

¥ Variable respuesta: cantidad de tela ¥ Factor: Telares ¥ Tratamientos: 5 ¥ Modelo unifactorial de efectos aleatorios equilibrado DIAGNOSIS Y VALIDACIÓN DEL MODELO Hipótesis básicas del modelo están o no en contradicción con los datos observados HIPÓTESIS DEL MODELO F La media sea cero: E [uij] = 0 ∀i, j . F La varianza sea constante: Var [uij] = σ2 ; ∀i, j F Independientes entre sí: E [uij urk] = 0 ; i 6= r ó j 6= k. F Distribución sea normal. VERIFICACIÓN ESTIMADORES DE LAS PERTURBACIONES: RESIDUOS eij = yij − byij = yij − bμ − bτ i = yij − ¯yi. . 1) Independencia de los residuos ♣ Gráfico de los residuos en función del tiempo 2) Normalidad de los residuos ♣ Histograma: Apariencia de una distribución Normal centrada en cero ♣ Gráfico probabilístico normal (Q-Q-Plot) 3) Homocedasticidad (Varianza constante) ♣ Residuos frente a los valores ajustados ♣ Residuos frente a ciertas variables de interés Ambas gráficas también se utilizan para comprobar la hipótesis de independencia 16

♣ Contrastes: Barlett, Cochran, Hartley y Levene H0 : H0 : σ21 = · · · = σ2I vs H1 : σ2i 6= σ2j para algún par (i, j) COMPARACIONES MÚLTIPLES Técnicas cuyo objeto es identificar:  

Qué tratamientos son diferentes (estadísticamente) y en cuánto oscila el valor de esas diferencias.

OBJETIVO FUNDAMENTAL Comparar entre sí medias de tratamientos o grupos de ellas PROCEDIMIENTOS ANALÍTICOS Comparar por parejas los efectos de I tratamientos H0:μi = μj vs ; H1:μi 6= μj ¥ Método LSD ¥ Método de Bonferroni ¥ Método de Tukey o método HSD ¥ Método de rango múltiple de Duncan ¥ Test de Newman-Keuls ¥ Método Scheffé ¥ Método de Dunnett DISEÑOS EN BLOQUES COMPLETOS ALEATORIZADOS ¥ HOMOGENEIDAD ENTRE LAS UNIDADES EXPERIMENTALES: En la industria algodonera: las parcelas de terreno son de la misma calidad e igual superficie. ¥ El error experimental reflejará esta variabilidad entre las parcelas de terreno. ¥ El error experimental sea lo más pequeño posible. Se debe sustraer del error experimental la variabilidad producida por las parcelas de terreno. Para ello, el experimentador puede: 1) Considerar parcelas de terreno muy homogéneas. 2) O bien, formar bloques de terreno de manera que el terreno de cada bloque sea lo más homogéneo posible y los bloques entre sí sean heterogéneos. RECORDEMOS 1) En el diseño completamente aleatorizado asignábamos los tratamientos al azar a las parcelas sin restricción alguna. 2) En el diseño en bloques aleatorizados primero agrupamos las parcelas en bloques y a continuación asignamos los tratamientos a las parcelas en cada bloque. SUPONGAMOS 17

¥ Se realiza una observación por tratamiento en cada bloque: N = IJ observaciones. ¥ La asignación de los tratamientos a las unidades experimentales en cada bloque se determina aleatoriamente. ¥ Los tratamientos y los bloques son factores de efectos fijos. ¥ No hay interacción entre los tratamientos y los bloques: (El efecto de un factor no depende del nivel del otro factor): Efectos de los factores son aditivos.

MODELO ESTADÍSTICO yij = μ + τ i + βj + uij i = 1, 2, · · · , I ; j = 1, 2, · · · , J ¥ yij : La variable aleatoria que representa la observación (i)-ésima del bloque (j)-ésimo. ¥ μ es un efecto constante. Media global. ¥ τ i : El efecto producido por el nivel i-ésimo del factor principal. ¥ βj : El efecto producido por el nivel j-ésimo del factor secundario o factor de bloque. Se supone que

¥ uij : Variables aleatorias independientes con distribución N (0, σ). DOS FACTORES 1) Factor tratamiento → factor principal 2) Factor bloque → factor secundario Interés fundamentalmente está centrado en el primero y el factor bloque se introduce en el modelo para eliminar su influencia en la variable respuesta. OBJETIVO ¥ Estimar los efectos de los tratamientos y de los bloques y contrastar la hipótesis:  

H0 : τ i = 0 ∀i vs H1 : τ i ≠ 0 por lo menos para algún i H0 : βj = 0 ∀j vs H1 : βj ≠ 0 por lo menos para algún j

18

1) SCT : Suma total de cuadrados. 2) SCT r: Suma de cuadrados entre tratamientos. 3) SCBl: Suma de cuadrados entre bloques 4) SCR: Suma de cuadrados del error o residual. 1´) CMT : Cuadrado medio total : CMT = SCT /(N − 1) 2´) CMT r : Cuadrado medio entre tratamientos: CMT r =SCT r/(I − 1) 3´) CMBl : Cuadrado medio entre bloques: CMBl =SCBl/(J − 1) 4´) CMR : Cuadrado medio residual: CMR =SCR/(I − 1)(J − 1) Nota: Las expresiones de estas sumas de cuadrados están dadas en el Apéndice. ANÁLISIS ESTADÍSTICO ¥ Contraste de interés: H0τ ≡ τ 1 = · · · = τ I = 0

Rechazar H0 a nivel α si Fτ (exp) > Fα;I−1,(I−1)(J−1) ¥ También es interesante contrastar: H0β ≡ β1 = · · · = βJ = 0

Rechazar H0 a nivel α si Fβ(exp) > Fα;J−1,(I−1)(J−1) EJEMPLO Una industria desea comprobar el efecto que tienen cinco productos químicos sobre la resistencia de un tipo particular de fibra. Como también puede influir la máquina empleada en la fabricación, decide utilizar un diseño en bloques aleatorizados, considerando las distintas máquinas como bloques. La industria dispone de 4 máquinas a las que asigna los 5 productos químicos en orden aleatorio. Los resultados obtenidos se muestran en la tabla adjunta.

19

Variable respuesta: Resistencia de la fibra Factor principal: Producto químico. (Niveles: 5) Factor secundario o factor bloque: Máquinas. (Niveles: 4) Diseño en bloques completos al azar

20