R CU 511 2014 UAC Evaluacion Pregrado

BIOESTADISTICA MEDICINA HUMANA TABLAS DE CONTINGENCIA Hasta ahora hemos descrito las variables categóricas mediante la

Views 44 Downloads 0 File size 861KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

BIOESTADISTICA

MEDICINA HUMANA TABLAS DE CONTINGENCIA Hasta ahora hemos descrito las variables categóricas mediante la proporción de veces que se ha dado cada una de sus posibles respuestas (frecuencias relativas) independientemente de los valores que toman otras variables. A esta distribución de la respuesta, que ignora el valor de otras variables, le llamamos distribución marginal de la variable. Una tabla de contingencia describe de forma simultánea dos variables cualitativas (escala nominal). En dicha tabla cada fila y cada columna representan las categorías de cada una de las dos variables que estamos resumiendo, y en cada casilla de la tabla de contingencia disponemos del número de veces que hemos observado la correspondiente combinación de ambas variables en nuestra muestra. Ejemplos. a) Si existe relación entre las complicaciones tras una intervención quirúrgica y el sexo del paciente en el hospital en él que se lleva a cabo la intervención. b) Supongamos el estudio sobre la relación de migrañas y el nivel de exposición el tabaco en 300 jóvenes menores de 25 años. c) Una encuesta de 150 adultos clasificados según su género y la cantidad de películas que vieron películas en el cine el mes pasado. Cada entrevistado se clasifica de acuerdo con dos criterios: la cantidad de películas que ha visto y el género.

Películas vistas 0 1 2 o más Total

Género Hombres

Mujeres

Total

20 40 10 70

40 30 10 80

60 70 20 150

En este caso todas las técnicas de inferencia vistas hasta ahora para variables cuantitativas no son aplicables, y para ello utilizaremos una prueba de hipótesis basado en el estadístico Chi cuadrado 𝜒 2 que nos permitirá evaluar si dos variables cualitativas son dependientes (están relacionados) o independientes. Distribución Chi- Cuadrado La distribución 𝜒 2 es una distribución asimétrica y con una única cola ya que únicamente toma valores superiores a 0. Esta distribución puede tomar las siguientes formas:

En el gráfico anterior observamos varias distribuciones, y es que la distribución Chi cuadrado al igual que la distribución t tiene como parámetro los grados de libertad. Así observamos que cuanto mayor es el número de grados de libertad la distribución Chi cuadrado admite valores mayores, es decir una variable Chi cuadrado con un número de grados de libertad bajo tomará valores bajos mientras que una variable con un número alto de grados de libertad en su distribución tomará valores más altos con mayor probabilidad. 1

BIOESTADISTICA

MEDICINA HUMANA

I Prueba de Independencia. Mediante el cual el investigador pretende estudiar la relación entre dos variables cualitativas en una población. 1. Establecer las hipótesis nula y alterna H0 : Las variables son independientes (No existe relación entre ellas). H1 : Las variables No son independientes (existe relación entre ellas). 2. Seleccionar una muestra aleatoria y anotar en cada celda de la tabla de contingencia las frecuencias observadas. 3. Calcular las frecuencias esperadas de cada celda de la tabla de contingencia bajo el supuesto de independencia.

𝐸𝑖𝑗 =

(Total de la fila 𝑖)(Total de la columna 𝑗) Tamaño de la muestra

4. Calcular el estadístico de prueba 𝑘

𝑘

𝑖

𝑗

(𝑂𝑖𝑗 − 𝐸𝑖𝑗 ) 𝒳 = ∑∑ 𝐸𝑖𝑗

2

2

Donde: 𝑘: Es el número de categorías. 𝑂𝑖𝑗 : Es la frecuencia observada en la categoría de la fila i columna j de la tabla de contingencia. 𝐸𝑖𝑗 : Es la frecuencia esperada en la categoría de la fila i columna j de la tabla de contingencia, basada en la suposición de independencia. Nota: Si una tabla de contingencia tiene n filas y m columnas, el estadístico de prueba tienen distribución chi-cuadrada con (𝑛 − 1) ∗ (𝑚 − 1) grados de libertad, siempre y cuando en todas la categorías las frecuencias esperadas sean 5 o más. 5. Regla de rechazo Se rechaza la 𝐻0 si 𝒳 2 ≥ 𝒳[2(𝑛−1)∗(𝑚−1);𝛼] Donde 𝛼 es el nivel de significancia, y las n filas y las m columnas dan los (𝑛 − 1) ∗ (𝑚 − 1) grados de libertad.

2

BIOESTADISTICA

MEDICINA HUMANA

 La prueba de independencia siempre es una prueba de una cola, en la que la región de rechazo se encuentra en la cola superior de la distribución chi-cuadrada.  Las frecuencias esperadas en cada celda de la tabla de contingencia debe ser 5 o más.

Ejemplo 1. Una empresa produce y distribuye 3 tipos de cerveza: Ligera, Clara y Oscura. Al analizar los segmentos de mercado de las tres cervezas, el grupo de investigación de mercado de la empresa se pregunta si las preferencias de los consumidores por estos tipos de cerveza difieren entre hombres y mujeres. Los resultados muéstrale se muestran en la tabla siguiente.

Género Hombre Mujer Total

Cerveza preferida Ligera Clara 20 40 30 30 50 70

Oscura 20 10 30

Total 80 70 150

 En caso de que las preferencias fueran independientes del género del consumidor, la empresa iniciará una campaña publicitaria para todas las cervezas.  Si las preferencias por los distintos tipos de cerveza dependen del género del consumidor, la empresa ajustaría sus promociones a los mercados. Con nivel de significancia 𝛼 = 5%, responder la pregunta de los investigadores. Solución Para determinar si la preferencia por un tipo de cerveza (ligera, clara u oscura) es independiente del género del consumidor (hombre o mujer) usaremos una prueba de independencia. Las hipótesis para esta prueba de independencia son las siguientes: 1. Pruebas de Hipótesis H0 : La preferencia por un tipo de cerveza es independiente del genero del consumidor. H1 : La preferencia por un tipo de creveza No es independiente del género del consumidor. 2. Tabla de Frecuencias observadas Cerveza preferida Género Ligera Clara Hombre 20 40 Mujer 30 30 Total 50 70 3. Tabla de frecuencias esperadas 𝐸𝑖𝑗 =

Oscura 20 10 30

(Total de la fila 𝑖)(Total de la columna 𝑗) Tamaño de la muestra 3

Total 80 70 150

BIOESTADISTICA

MEDICINA HUMANA

𝐸11 =

(80)(50) 150

𝐸13 =

(80)(30) 2400 = = 16 150 150

𝐸21 =

(70)(50) 150

𝐸33 =

(70)(30) 2100 = = 14 150 150

=

=

4000 150

3500 150

= 26.67

= 23.33

𝐸12 =

(80)(70) 150

𝐸22 =

(70)(70) 150

=

5600 150

= 37.33

=

4900 150

= 32.67

Primero se supone que la hipótesis nula es verdadera, es decir, que la cerveza preferida es independiente del género del consumidor. Se observa que en la muestra de 150 consumidores de cerveza: 50 prefirieron la cerveza ligera, 70 prefirieron la cerveza clara, y 30 prefirieron la cerveza oscura. En términos de proporciones se concluye que: 50⁄ 1 150 = ⁄3 de los consumidores prefirió la cerveza ligera, 70⁄ 7 150 = ⁄15 Prefirieron la cerveza clara y 30⁄ 1 150 = ⁄5 prefirió la cerveza oscura. Si la suposición de independencia es correcta, estas proporciones serán las que se observen tanto entre los hombres como entre las mujeres. Por consiguiente, bajo la suposición de independencia, es de esperarse que en la muestra de 80 consumidores del sexo masculino, (1⁄3) ∗ 80 = 26.67 prefieran la cerveza ligera, (7⁄15) ∗ 80 = 37.33 prefieran la cerveza clara y (1⁄5) ∗ 80 = 16 prefieran la cerveza oscura. Aplicando las proporciones correspondientes a los 70 consumidores del sexo femenino, (1⁄3) ∗ 70 = 23.33 prefieran la cerveza ligera, (7⁄15) ∗ 70 = 32.67 prefieran la cerveza clara y (1⁄5) ∗ 70 = 14 prefieran la cerveza oscura. Genero

Cerveza preferida

Frecuencia Observada 𝟎𝒊

Frecuencia Esperada 𝑬𝒊

Diferencia (𝟎𝒊 − 𝑬𝒊 )

Diferencia al cuadrado (𝟎𝒊 − 𝑬𝒊 )𝟐

(𝟎𝒊 − 𝑬𝒊 )𝟐 𝑬𝒊

Hombre Hombre Hombre

Ligera Clara Oscura

20 40 20

26.67 37.33 16

-6.67 2.67 4.00

44.44 7.11 16.00

1.67 0.19 1.00

Mujer Mujer Mujer Total

Ligera Clara Oscura

30 30 10

23.33 32.67 14

6.67 -2.67 -4.00

44.44 7.11 16.00

1.90 0.22 1.14 2 ᵡ = 6.12

𝜒[2(𝑛−1)∗(𝑚−1);𝛼] = 𝜒[2(2−1)∗(3−1);0.05] = 𝜒[22; 0.05] = 5.99 4. Calcular el estadístico de prueba 𝑘

𝑘

𝑖

𝑗

2

(𝑓𝑖𝑗 − 𝑒𝑖𝑗 ) 𝜒 = ∑∑ = 6.12 𝑒𝑖𝑗 2

5. Regla de rechazo Se rechaza la 𝐻0 si 𝜒 2 ≥ 𝜒[2(𝑛−1)∗(𝑚−1);𝛼] Como 𝜒 2 = 6.12 ≥ 𝜒[22; 0.05] = 5.99 entonces se rechaza la Ho. 4

BIOESTADISTICA MEDICINA HUMANA 6. Conclusión.- Por lo tanto la preferencia por un tipo de cerveza dependen del género del consumidor. Ejemplo 2. Supongamos que el estudio sobre la relación de migrañas y nivel de exposición al tabaco hemos recogido información sobre 300 jóvenes menores de 25 años. A continuación mostramos cómo quedará la tabla de contingencia Fumadores No migrañas Si migrañas Total

Fumadores pasivos

39 11 50

43 7 50

No fumadores 188 12 200

Total 270 30 300

SOLUCIÓN 1. Establecer las hipótesis nula y alterna H0 : Las variables son independientes (No existe relación entre ellas). H1 : Las variables No son independientes (existe relación entre ellas). 2. Seleccionar una muestra aleatoria y anotar en cada celda de la tabla de contingencia las frecuencias observadas.

No migrañas Si migrañas Total

Fumadores

Fumadores pasivos No fumadores

o11=39 E11 =45 o21 =11 E21 =5 50

o12=43 E12 =45 o22 =7 E22 =5 50

𝐸𝑖𝑗 =

(Total de la fila 𝑖)(Total de la columna 𝑗) Tamaño de la muestra

𝐸11 =

(270)(50) = 45 300

𝐸12 =

(270)(50) = 45 300

𝐸13 =

(300)(200) = 180 300

𝐸21 =

(30)(50) =5 300

𝐸22 =

(30)(50) =5 300

𝐸23 =

(30)(200) = 20 300

o13=188 E13 =180 o23 =12 E23 =20 200

Total 270 30 300

2

4. Calcular el estadístico de prueba: 𝒳 2 = ∑𝑘𝑖 ∑𝑘𝑗 𝑘

𝑘

𝑖

𝑗

(𝑂𝑖𝑗 −𝐸𝑖𝑗 ) 𝐸𝑖𝑗

2

(39 − 43)2 (43 − 45)2 (188 − 180)2 (11 − 5)2 (7 − 5)2 (12 − 20)2 (𝑓𝑖𝑗 − 𝑒𝑖𝑗 ) 𝜒 = ∑∑ = + + + + + 𝑒𝑖𝑗 45 45 180 5 5 20 2

𝜒 2 = 0.8 + 0.089 + 0.356 + 7.2 + 0.8 + 3.2 = 12.445 5. Regla de rechazo:

Se rechaza la 𝐻0 si 𝜒 2 ≥ 𝜒[2(𝑛−1)∗(𝑚−1);𝛼] 5

BIOESTADISTICA 𝜒[2(𝑛−1)∗(𝑚−1);𝛼] = 𝜒[2(2−1)∗(3−1);0.05]

MEDICINA HUMANA

= 𝜒[2(1)∗(2);0.05] = 𝜒[22 ; 0.05] = 5.99 Como 𝜒 2 = 12.44 > 𝜒[22 ; 0.05] = 5.99

Se rechaza la Ho Conclusión: Existe relación de migrañas con el nivel de exposición al tabaco.

6

BIOESTADISTICA

MEDICINA HUMANA EJERCICIOS PROPUESTOS 1 – TABLAS DE CONTINGENCIA NOMBRE:……………………………………………………………………………………………… I. Ejercicio 8.1. En una empresa que utilizaba para la fabricación de pinturas cierto producto químico se detectó que algunos empleados comenzaron a tener ciertos problemas de salud relacionados con alteraciones respiratorias. Se estaba contemplando la posibilidad de que el producto químico pudiera tener algo que ver con los problemas respiratorios. Para valorar esta hipótesis se seleccionó al azar a 500 empleados de la empresa, los cuales fueron clasificados en base a su nivel de exposición al producto y si tengan o no los síntomas de tales alteraciones respiratorias. Los resultados se presentan en la siguiente tabla:

¿Tenemos evidencias que indiquen, a nivel de significación 0.05, la existencia de relación entre el nivel de exposición y la presencia de síntomas de alteraciones respiratorias entre los empleados? Plantea y resuelve el contraste de hipótesis. Explica las conclusiones obtenidas.

7

BIOESTADISTICA MEDICINA HUMANA II. Ejercicio 8.2. Un estudio realizado por logopedas tenía como objetivo valorar la relación del grupo socioeconómico de las familias de los niños y la presencia o ausencia de cierto defecto en la pronunciación. Para valorar esta relación seleccionó aleatoriamente a 500 niños de escuela primaria, los cuales fueron clasificados con el grupo socioeconómico de sus familias (como Alto, Medio-Alto, Medio-Bajo, Bajo y la presencia o ausencia del defecto en la pronunciación. Los resultados fueron los siguientes:

¿Son compatibles estos datos con la hipótesis de que el defecto en la pronunciación no está relacionado con el estado socioeconómico (𝛼= 0.05)?. Plantea y resuelve el contraste de hipótesis adecuado para responder a esta pregunta.

8

BIOESTADISTICA

MEDICINA HUMANA ANALISIS DE VARIANZA DE UN FACTOR (ANOVA) Diseño de Experimentos.- Los modelos de diseño de experimentos son modelos estadísticos clásicos cuyo objetivo es averiguar si unos determinados factores influyen en una variable de interés y, si existe influencia de algún factor, cuantificar dicha influencia. Ejemplos 1. Supongamos que estamos interesados en comprobar si existen diferencias significativas en el nivel medio de hemoglobina (Hb) en tres tratamientos diferentes para personas con cierto tipo de anemia diagnosticada. 2. Una compañía telefónica está interesada en conocer la influencia de varios factores en la variable duración de una llamada telefónica. Los factores son los siguientes: hora a la que se produce la llamada; día de la semana en que se realiza la llamada y sexo del que realiza la llamada. Debe tenerse en cuenta que en el tratamiento matemático de los modelos de diseño de experimento los factores cuantitativos son tratados como cualitativos y sus niveles son elegidos y son codificados. Por lo general, un factor no suele tener más de cuatro niveles.

Conceptos Generales Unidades experimentales: (personas, elementos físicos, ···) Factor: Variable controlable por el experimentador Tratamiento: Niveles del factor (o combinaciones de los niveles del factor). Variable de interés: Variable Respuesta. Error experimental o perturbación: Resulta de las variables no controlables por el experimentador. Tamaño del experimento: número total de observaciones. Ejemplo. Supongamos que estamos interesados en comprobar si existen diferencias significativas en el nivel medio de hemoglobina (Hb) en tres tratamientos diferentes para personas con cierto tipo de anemia diagnosticada. Con el fin de realizar la comparación correspondiente se toman 45 pacientes con este tipo de anemia diagnosticada y se reparten al azar entre los tres tratamientos (15 en cada grupo). Unidades experimentales: Personas con cierto tipo de anemia diagnosticada. Factor: tratamientos diferentes (tres) Tratamiento: Tratamiento 1 (ingesta de suplementos de hierro), tratamiento 2 (Inyecciones de B-12) y tratamiento 3 (Transfusiones de sangre). Variable de interés: Nivel medio de hemoglobina (Hb) Tamaño del experimento: 45 Variable no controlable: Ejemplo (tiempo de experiencia del encargado de realizar la prueba de hemoglobina) ANALISIS DE VARIANZA CON UN FACTOR Se denomina modelo factorial con un factor o ANOVA con un factor al modelo lineal en el que la variable analizada depende de un sólo factor de tal manera que las causas de su variabilidad son englobadas en una componente aleatoria que se denomina error experimental. El análisis de varianza se usa para probar la igualdad de k medias poblacionales en un diseño completamente aleatorizado. La forma general de esta prueba de hipótesis es: 1) Todos los tratamientos tienen la misma media. 𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘 = 𝜇 𝐻1 : 𝜇𝑖 ≠ 𝜇𝑗 por lo menos para algun par (𝑖, 𝑗) O equivalentemente 2) Todos los tratamientos tienen el mismo efecto. 𝐻0 : 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑘 = 𝜇 𝐻1 : 𝜏𝑖 ≠ 𝜏𝑗 por lo menos para algun par (𝑖, 𝑗) 9

BIOESTADISTICA MEDICINA HUMANA Donde 𝜇𝑗 : media de la j_esima población. Se supone que para cada una de las k tratamientos se toma una muestra aleatoria simple de tamaño 𝑛𝑗 . Para los datos muestrales, sean MODELO ESTADÍSTICO 𝒚𝒊𝒋 = 𝝁 + 𝝉𝒋 + 𝒆𝒊𝒋

Donde 𝜇: La media global 𝜏𝑗 : Efecto del 𝑗_esimo tratamiento 𝑦𝑖𝑗 : Variable respuesta. 𝑒𝑖𝑗 : Error aleatorio Las fórmulas para la media muestral y la varianza muestral del tratamiento j son las siguientes: Tratamientos 2 𝑦12 𝑦22 𝑦32

1 𝑦11 𝑦21 𝑦31

𝑦𝑛2 2

𝑦𝑛𝑘 𝑘

𝑇.1 = ∑ 𝑦𝑖1

𝑇.2 = ∑ 𝑦𝑖2

𝑇.𝑘 = ∑ 𝑦𝑖𝑘

Totales

𝑖=1

𝑆 =

𝑖=1

𝑗 ∑𝑘𝑗=1 ∑𝑖=1 (𝑦𝑖𝑗 − 𝑦̅)

𝑁−1

𝑘

2 ∑𝑛𝑖=1 𝑦𝑖2 𝑦̅.2 = 𝑛2 𝑛2 ∑ (𝑦𝑖2 − 𝑦̅.2 )2 𝑆22 = 𝑖=1 𝑛2 − 1

𝑛𝑘

𝑖=1

𝑘 ∑𝑛𝑖=1 𝑦𝑖𝑘 𝑦̅.𝑘 = 𝑛𝑘 𝑛𝑘 ∑ (𝑦𝑖𝑘 − 𝑦̅.𝑘 )2 𝑆𝑘2 = 𝑖=1 𝑛𝑘 − 1

2

𝑛

2

𝑛2

1 ∑𝑛𝑖=1 𝑦𝑖1 𝑦̅.1 = 𝑛1 𝑛1 ∑ (𝑦𝑖1 − 𝑦̅.1 )2 𝑆12 = 𝑖=1 𝑛1 − 1

Varianza

k 𝑦1𝑘 𝑦2𝑘 𝑦3𝑘

𝑦𝑛1 1

𝑛1

Promedio



,

varianza total

𝑁 = ∑ 𝑛𝑗. numero total de observaciones. 𝑗=1

𝑦̅ =

𝑛

𝑗 ∑𝑘𝑗=1 ∑𝑖=1 𝑦𝑖𝑗

𝑘

media muestral de todas las observaciones.

𝑁

𝑛𝑗

𝑌.. = ∑ ∑ 𝑦𝑖𝑗 𝑗=1 𝑖=1 𝑛

𝐶=

𝑗 𝑦𝑖𝑗 ) (∑𝑘𝑗=1 ∑𝑖=1

𝑘

𝑁 𝑛

2

=

𝑗

𝑌..2 𝑁

𝑘

𝑛𝑗

2

2

𝑆𝐶𝑇 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅) = ∑ ∑(𝑦𝑖𝑗 ) − 𝐶 = suma de cuadrados totales 𝑗=1 𝑖=1 𝑛𝑗

𝑆𝐶𝑇𝑟𝑎 = ∑ 𝑗=1

𝑇.𝑗2 𝑛𝑗

𝑗=1 𝑖=1

− 𝐶, suma de cuadrados de tratamientos

𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑟𝑎, suma de cuardrados de errores. 𝑘

𝑛𝑗

𝑘 2

𝑘

𝑛𝑗

2

2

∑ ∑(𝑦𝑖𝑗 − 𝑦̅) = ∑ 𝑛𝑗 (𝑦̅.𝑗 − 𝑦̅) + ∑ ∑(𝑦𝑖𝑗 − 𝑦̅.𝑗 ) 𝑗=1 𝑖=1

𝑗=1

𝑗=1 𝑖=1

SUPUESTOS DEL ANÁLISIS DE VARIANZA CON UN FACTOR El análisis de varianza requiere que se cumplan algunos supuestos: 1. Muestreo aleatorio.- Todos los individuos que componen las observaciones de cada uno de los grupos deben haber sido elegidos de la población y asignados aleatoriamente a cada uno de ellos. 10

BIOESTADISTICA MEDICINA HUMANA 2. Normalidad.- Los valores de la variable se distribuyen normalmente (o siguen una distribución Normal) en cada uno de los grupos definidos por el factor, es decir, para cada grupo i, Yij ∼ N(𝜇𝑖 ; 𝜎 2 ). El no cumplimiento de este supuesto no afecta mucho a las conclusiones del análisis de la varianza si el tamaño de las muestras de cada grupo es relativamente grande (por ejemplo más de 30 datos por grupo). 3. Homocedasticidad.- La Homocedasticidad, o lo que es lo mismo, la Homogeneidad de varianzas, asume que las varianzas de todos los grupos a comparar son homogéneas (es decir, que no se detectan diferencias significativas entre las varianzas de los grupos a comparar). El no cumplimiento de esta hipótesis impide asumir como correctos los resultados que de este análisis se deriven, y por tanto impiden la utilización de ANOVA. Las poblaciones estudiadas tienen la misma varianza. TABLA: Análisis de Varianza (ANOVA) FUENTES DE VARIACION GRADOS DE SUMA DE CUADRADO LIBERTAD CUADRADOS MEDIO 𝑆𝐶𝑇𝑅 𝑘−1 Tratamientos (Entre grupos) SCTR 𝐶𝑀𝑇𝑅 = 𝑘−1 𝑆𝐶𝐸 𝑁−𝑘 Error (Dentro de grupos) SCE 𝐶𝑀𝐸 = 𝑁−𝑘 𝑁−1 Total SCT

F 𝐹=

𝐶𝑀𝑇𝑅 𝐶𝑀𝐸

PRUEBA DE HIPÓTESIS 1. Prueba de hipótesis para la igualdad de medias 𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝑢𝐾 𝐻1 : No todas las medias poblacionales son iguales. 2. Nivel de significancia: 𝜶 3. Estadístico de prueba 𝐹=

𝐶𝑀𝑇𝑅 𝐶𝑀𝐸

4. Regla de rechazo Usando valor de p : Rechazar la Ho si 𝒑 ≤ 𝜶; 𝜶 por lo general es 0.05 Valor crítico: Rechazar la Ho si 𝐹 ≥ 𝐹(𝑘−1,

𝑁−𝑘; 𝛼) .

Donde el valor de 𝐹𝛼 está basado en una distribución F con (𝑘 − 1) grados de libertad en el numerador y (𝑁 − 𝑘) grados de libertad en el denominador.

5. Conclusión

11

Valor de p

BIOESTADISTICA MEDICINA HUMANA Observación Se utiliza el nombre de análisis de la varianza ya que el elemento básico del análisis estadístico será precisamente el estudio de la variabilidad de la variable de interés. Teóricamente es posible dividir la variabilidad de la variable que se estudia en dos partes: 1. La originada por el factor en cuestión. 2. La producida por los factores restantes que entran en juego, conocidos o no, controlables o no, que se conocen con el nombre de error experimental. Ejemplo 1. Se desea saber si el grado de ansiedad es el mismo, en tres enfermedades distintas. Para ello se tomaron tres muestras de 10, 12 y 8 personas, respectivamente, con esas enfermedades, pasándole a cada una de ellas un test que mide el grado de ansiedad del individuo. Los resultados se dan en la tabla adjunta. Enfermedad Grado de ansiedad A 4 6 5 5 6 3 3 2 6 5 B 2 1 5 5 4 6 4 4 4 3 3 2 C 7 5 8 7 9 3 4 4 ¿Qué puede concluirse de los datos? Use 𝛼 = 5% Solución Número de observaciones 1 2 3 4 5 6 7 8 9 10 11 12 Totales Promedios Varianzas n

Enfermedad A B C 4 2 7 6 1 5 5 5 8 5 5 7 6 4 9 3 6 3 3 4 4 2 4 4 6 4 5 3 3 2 45 38 47 4.5 3.17 5.88 2.06 2.08 4.69 10 12 8

𝑌.. =130

1. PRUEBA DE IGUALDAD DE K MEDIAS POBLACIONALES H0 : 𝜇𝐴 = 𝜇𝐵 = 𝑢𝐶 𝐻1 : No todas las medias poblacionales son iguales. 2. 𝛼 = 0.05 3. ESTADISTICO DE PRUEBA Suma de cuadrados totales 𝑁 = 10 + 12 + 8 = 30 𝑌..2 (130)2 𝐶= = = 563.333 𝑁 30 𝑘

𝑛𝑗 2

𝑆𝐶𝑇 = ∑ ∑(𝑦𝑖𝑗 ) − 𝐶 = 𝟒𝟐 + 𝟔𝟐 + 𝟓𝟐 + 𝟓𝟐 + 𝟔𝟐 + 𝟑𝟐 + 𝟑𝟐 + 𝟐𝟐 + 𝟔𝟐 + 𝟓𝟐 + 22 + 12 + 52 + 52 + 42 + 62 𝑗=1 𝑖=1

+ 42 +42 + 42 + 32 + 32 + 22 + 𝟕𝟐 + 𝟓𝟐 + 𝟖𝟐 + 𝟕𝟐 + 𝟗𝟐 + 𝟑𝟐 + 𝟒𝟐 + 42 − 563.33 = 707 − 563.333 = 143.667 12

BIOESTADISTICA Suma de cuadrados de tratamientos 𝑛𝑗

𝑆𝐶𝑇𝑟𝑎 = ∑ 𝑗=1

MEDICINA HUMANA

𝑇.𝑗2

452 382 472 −𝐶 = [ + + ] − 563.33 = 598.958 − 563.333 = 35.625 𝑛𝑗 10 12 8

Suma de cuadrados de errores 𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑟𝑎 = 143.667 − 35.625 = 108.042 Tabla ANOVA FUENTES DE VARIACION Tratamientos (Entre grupos) Error (Dentro de grupos) Total

GRADOS DE LIBERTAD 3−1 = 2

SUMA DE CUADRADOS 35.625

CUADRADO MEDIO 15.812

30 − 3 = 27

108.042

4.002

30 − 1 = 29

143.667

F 3.951

4. Región de rechazo 𝐹(3−1, 30−3; 𝛼) = 𝐹(2,27; 0.05) = 3.3541 Como 𝐹 = 3.951 > 𝐹(2,27; 0.05) = 3.3541entonces se rechaza la Ho. 5. Conclusión.- Existe diferencia del nivel de ansiedad de los tres tipos de enfermedades. Ejemplo 2.- Número de unidades producidas por 15 trabajadores, aplicando diferentes métodos de producción: Método A B C 58 58 48 64 69 57 55 71 59 66 64 47 67 68 49 Solución Método

Totales Promedios Varianzas nj

A

B

C

58

58

48

64

69

57

55

71

59

66 67 310 62 27.5 5

64 68 330 66 46.5 5

47 49 260 52 156 5

1. PRUEBA DE IGUALDAD DE K MEDIAS POBLACIONALES H0 : 𝜇𝐴 = 𝜇𝐵 = 𝑢𝐶 𝐻1 : No todas las medias poblacionales son iguales. 2. 𝛼 = 0.05

13

900

BIOESTADISTICA 3. ESTADISTICO DE PRUEBA 𝑛

𝐶=

𝑗 𝑦𝑖𝑗 ) (∑𝑘𝑗=1 ∑𝑖=1

𝑘

2

𝑁

𝑛𝑗

=

MEDICINA HUMANA

(900)2 810000 = = 54000 15 15

2

𝑆𝐶𝑇 = ∑ ∑(𝑦𝑖𝑗 ) − 𝐶 = (58)2 + (64)2 + (55)2 + (66)2 + (67)2 + (58)2 + ⋯ (49)2 − 54000 𝑗=1 𝑖=1

𝑆𝐶𝑇 = (58)2 + (64)2 + (55)2 + (66)2 + (67)2 + (58)2 + ⋯ (49)2 − 54000 = 54860 − 54000 = 860 𝑛𝑗

𝑆𝐶𝑇𝑟𝑎 = ∑ 𝑗=1

𝑇.𝑗2 (310)2 (330)2 (260)2 −𝐶 = + + − 54000 = 54520 − 54000 = 520 𝑛𝑗 5 5 5

𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑟𝑎 = 860 − 520 = 340 FUENTES DE VARIACION Tratamientos (Entre grupos)

SUMA DE CUADRADOS 520

GRADOS DE LIBERTAD 2

CUADRADO MEDIO 260

Error (Dentro de grupos)

340

12

28.33

Total

860

14

F 9.1775

𝐹(𝑘−1, 𝑁−𝑘; 𝛼) = 𝐹(2,12; 0.05) = 3.885 Como 𝐹 = 9.1775 > 𝐹(2,12; 0.05) = 3.885 entonces se rechaza la Ho. Conclusión.- Existe algún método de producción (nivel del factor) que afecta en la producción de los trabajadores. COMPARACIONES MULTIPLES Una vez contrastado el que existen diferencias significativas mediante el análisis de la varianza, nos interesa conocer que niveles del factor o tratamientos son los que han influido más para que se de este resultado. Técnicas cuyo objeto es identificar:  Qué tratamientos son diferentes (estadísticamente) y  En cuánto oscila el valor de esas diferencias. Comparar entre sí las medias de tratamientos o grupos de ellas. Se comparan por parejas los efectos de los tratamientos, bajo las siguientes hipótesis. 𝐻0 : 𝜇𝑖 = 𝜇𝑗 𝐻1 : 𝜇𝑖 ≠ 𝜇𝑗 Existen varios métodos para comparar los efectos de los tratamientos Metodo LSD Metodo de Tukey o método HSD Metodo de rango multiple de Duncan Metodo de Bonferroni Contraste de la Mínima Diferencia Significativa Este procedimiento fue sugerido por Fisher en 1935 y es el primer método de comparaciones múltiples que vamos a utilizar. Dicho procedimiento consiste en una prueba de hipótesis por parejas basada en la distribución t. Este método debe aplicarse cuando previamente se haya rechazado la hipótesis nula del test F del análisis de la varianza. Se comparan por parejas los efectos de los tratamientos. Las siguientes hipótesis. 𝐻0 : 𝜇𝑖 = 𝜇𝑗 , 𝑖, 𝑗 = 1,2,3, … , 𝑘 𝐻1 : 𝜇𝑖 ≠ 𝜇𝑗 Lo que corresponde a los ya conocidos contrastes de la t de Student, que tienen en este caso como estadístico de prueba a (de nuevo suponiendo la homocedasticidad en todas las muestras): 𝑦̅𝑖. − 𝑦̅𝑗. 𝑇= ~𝑡(𝑁−𝑘) 1 1 √𝐶𝑀𝐸 (𝑛 + 𝑛 ) 𝑖 𝑗 14

BIOESTADISTICA MEDICINA HUMANA Por lo tanto, se concluye que la pareja de medias 𝜇𝑖 y 𝜇𝑗 son estadísticamente diferentes si |𝑦̅𝑖. − 𝑦̅𝑗. | > 𝐿𝑆𝐷 Donde 𝐿𝑆𝐷, se denomina mínima diferencia significativa, viene dada por: 𝐿𝑆𝐷 = 𝑡(𝑁−𝑘; 𝛼⁄ ) √𝐶𝑀𝐸 ( 2

1 1 + ) 𝑛𝑖 𝑛𝑗

Siendo 𝑛𝑖 𝑦 𝑛𝑗 el número de observaciones que corresponde a cada media. (𝑁 − 𝑘) el número de grados de libertad del error o varianza residual. 𝑡(𝑁−𝑘; 𝛼⁄ ) el valor crítico de la distribución t-student con N-k grados de libertad, con probabilidad 𝛼⁄2. 2 Si el diseño es balanceado (todos los tratamientos tienen el mismo número de observaciones), entonces el valor de LSD se reduce a 2 𝐿𝑆𝐷 = 𝑡(𝑁−𝑘; 𝛼⁄ ) √( ) 𝐶𝑀𝐸 2 𝑛 Además proporciona también intervalos de confianza para diferencias de medias. Dichos intervalos son de la forma: ((𝑦̅𝑖. − 𝑦̅𝑗. ) − 𝐿𝑆𝐷; (𝑦̅𝑖. − 𝑦̅𝑗. ) + 𝐿𝑆𝐷) Ejemplo 3.- Número de unidades producidas por 15 trabajadores, aplicando diferentes métodos de producción. Realizar las comparaciones múltiples usando LSD. A B C Promedios 62 66 52 2 2 2 𝐿𝑆𝐷 = 𝑡(𝑁−𝑘; 𝛼⁄ ) √( ) 𝐶𝑀𝐸 = 𝑡(12; 0.05⁄ ) √( ) 28.33 = 𝑡(12; 0.025) √( ) 28.33 = 2.178√11.332 = 7.331 2 2 𝑛 5 5 |𝑦̅𝐴 − 𝑦̅𝐵 | = |62 − 66| = 4 < 7.33 Se acepta la Ho, por lo tanto las medias de los tratamientos son iguales. |𝑦̅𝐴 − 𝑦̅𝐶 | = |62 − 52| = 10 > 7.33 Se rechaza la Ho, por lo tanto las medias de los tratamientos son diferentes. |𝑦̅𝐵 − 𝑦̅𝐶 | = |66 − 52| = 14 > 7.33 Se rechaza la Ho, por lo tanto las medias de los tratamientos son diferentes. Prueba de Tukey Tukey propuso una procedimiento para probar H0 : μi = μj contra H1 : μi ≠ μj para todos los p pares posible de medias, en el que el nivel de significación global es exactamente αg para tamaños de muestras iguales y es, a lo sumo, αg para tamaños de muestras diferentes. En este procedimiento se utiliza el estadístico de rango estudentizado q. 𝑌̅𝑚𝑎𝑥 − 𝑌̅𝑚𝑖𝑛 𝑞= √𝐶𝑀𝐸 𝑛 Donde 𝑌̅𝑚𝑎𝑥 y 𝑌̅𝑚𝑖𝑛 son las medias muestrales mayor y menor, respectivamente, sacadas de un grupo de p medias muestrales. Para una prueba de dos colas, el criterio de rechazo para cada par de medias sería:

15

BIOESTADISTICA

MEDICINA HUMANA

16

BIOESTADISTICA

MEDICINA HUMANA EJERCICIOS PROPUESTOS 2 – ANALISIS DE VARIANZA NOMBRE:……………………………………………………………………………………………… I. Ejemplo 3.- En un colectivo de 5 individuos se aplican 3 fármacos para estudiar su influencia sobre sus movimientos respiratorios (número de inspiraciones por minuto). Los valores obtenidos para cada individuo vienen expresados en la tabla: Estudie si el efecto de estos fármacos en la variación respiratoria producida puede considerarse o no el mismo. Realice las comparaciones múltiples. Use 𝛼 = 0.05

Antes del tratamiento Después de I fármaco Después de II fármaco Después de III fármaco

1 14 16 15 17

Individuos 3 18 21 18 20

2 16 17 14 16

17

4 15 16 15 13

5 20 24 22 18

BIOESTADISTICA MEDICINA HUMANA II. Para evaluar la influencia del tipo de acidosis del recién nacido en los niveles de glucemia medidos en el cordón umbilical del mismo, se obtuvieron los datos de la siguiente tabla:

Obtener conclusiones a partir de los resultados de esas muestras. Use 𝛼 = 0.05

18

BIOESTADISTICA

MEDICINA HUMANA ANALISIS DE REGRESION LINEAL MULTIPLE El análisis de regresión lineal múltiple estudia la relación de una variable dependiente con dos o más variables independientes. Para denotar el número de variables independientes usaremos 𝑝. Modelo de regresión lineal múltiple.- El modelo de regresión múltiple toma la forma: 𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊𝟏 + 𝜷𝟐 𝒙𝒊𝟐 + ⋯ +𝜷𝒑 𝒙𝒊𝒌 + 𝒆𝒊 ;

𝒑𝒂𝒓𝒂 𝒊 = 𝟏, 𝟐, 𝟑, 𝟒, … . . , 𝒏

Donde n: es el tamaño de la muestra. 𝒚: Es la variable dependiente (variable respuesta, var. explicada) 𝑥1 ; 𝑥2 ; … ; 𝑥𝑘 Son variables independientes. 𝛽0 ; 𝛽1 ; … ; 𝛽𝑘 Son los parámetros del modelo. 𝒆𝒊 : Termino error

Su forma matricial

Donde 𝒀 = 𝑿𝜷 + 𝒆 𝒀: Es un vector columna n dimensional. 𝑿: Es una matriz de dimensión 𝑛 × (𝑘 + 1) 𝜷: Es el vector de coeficientes de regresión a ser estimados, de dimensión (𝑘 + 1) 𝒆: Es un vector columna aleatorio de dimensión 𝒏 × 𝟏 ECUACIÓN DE REGRESIÓN MULTIPLE ESTIMADA Los valores de los parámetros 𝛽0 ; 𝛽1 ; … ; 𝛽𝑝 por lo general no se conocen, por lo que es necesario estimarlos a partir de los datos muestrales. Para calcular os valores de los estadísticos muestrales 𝑏0 ; 𝑏1 ; … ; 𝑏𝑝 , quienes se usan como estimadores puntuales de los parámetros 𝛽0 ; 𝛽1 ; … ; 𝛽𝑝 se emplea una muestra aleatoria simple. ̂ = 𝒃𝟎 + 𝒃𝟏 𝒙𝟏 + 𝒃𝟐 𝒙𝟐 + ⋯ +𝒃𝒑 𝒙𝒌 𝒚 Estimación de los parámetros 𝜷𝒊 por el Método de Mínimos Cuadrados.- Este método se usa para obtener la ecuación de regresión múltiple estimada. El criterio de los mínimos cuadrados es el siguiente: 𝑚𝑖𝑛 ∑(𝑦𝑖 − 𝑦̂𝑖 )2 Dónde: 𝑒𝑖 = 𝑦𝑖 − 𝑦̂: 𝑖 Error aleatorio para la observación 𝑖. 𝑦𝑖 : Valor observado de la variable dependiente en la observación i. 𝑦̂: 𝑖 Valor estimado para la variable dependiente en la observación i. Su forma matricial es:

∑𝑛𝑖=1 𝑒𝑖2 = 𝐞´ 𝐞 = (𝐘 − 𝐗𝛃)´ (𝐘 − 𝐗𝛃)

19

BIOESTADISTICA MEDICINA HUMANA Derivando la ecuación anterior con respecto al vector de parámetros 𝛃 se obtiene la siguiente ecuación: ̂ = (𝐗 ´ 𝐗)−𝟏 𝐗 ´ 𝐘 𝛃 −𝟏

Donde (𝐗 ´ 𝐗) representa la matriz inversa de (𝐗 ´ 𝐗). Note que (𝐗 ´ 𝐗) es simétrica, pues su transpuesta da la misma matriz.

INTERPRETACIÓN DE LOS ESTIMADORES PUNTUALES 𝒃𝒊 𝑏𝑖 : Representa la estimación del cambio en 𝑦 debido a un cambio en una unidad en 𝑥𝑖 mientras todas las demás variables independientes permanecen constantes. 𝑏0 : Cuando todas las variables independientes todos son cero entonces la variable dependiente 𝑦 = 𝑏0 . SUPUESTOS DEL MODELO DE REGRESION MULTIPLE Sea el modelo 𝒚 = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝜷𝟐 𝒙𝟐 + ⋯ +𝜷𝒌 𝒙𝒌 + 𝒆𝒊 Las suposiciones acerca del término del error 𝒆𝒊 en el modelo de regresión múltiple son análogas a las suposiciones en el modelo de regresión lineal simple. 1. El termino error 𝒆𝒊 es una variable aleatoria cuya media o valor esperado es cero, esto es 𝜇 = 𝐸(𝒆𝒊 ) = 0. En consecuencia el valor esperado de 𝑦 es: 𝑬(𝒚) = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝜷𝟐 𝒙𝟐 + ⋯ +𝜷𝒌 𝒙𝒌 2. La varianza del termino error 𝒆𝒊 se denota por 𝜎 2 y es la misma la todos los valores de las variables independientes 𝑥1 ; 𝑥2 ; … ; 𝑥𝑘 . Por consiguiente la varianza de 𝑦 respecto a la línea de regresión es 𝜎 2 . 3. Los valores del término 𝒆𝒊 son independientes. 4. Los valores del término𝒆𝒊 es una variable aleatoria distribuida normalmente, es decir 𝒆𝒊 ~𝑁(𝜇, 𝜎 2 ). Por lo que la variable dependiente 𝑦~𝑁(𝜇, 𝜎 2 ). Análisis de Varianza en la regresión múltiple.- Puede efectuarse un análisis de varianza que arroje luz sobre la calidad de la ecuación de regresión. Una hipótesis que sirve para determinar si el modelo explica una cantidad significativa de variación, es la siguiente: 𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = ⋯ = 𝛽𝑘 = 0 𝐻1 : 𝛽𝑖 ≠ 𝛽𝑗 20

BIOESTADISTICA FUENTES DE VARIACION

GRADOS DE LIBERTAD

SUMA DE CUADRADOS

𝑘

SCR

Error

𝑛 − (𝑘 + 1)

SCE

Total

𝑛−1

SCT

Regresión

CUADRADO MEDIO 𝑆𝐶𝑅 𝐶𝑀𝑅 = 𝑘 𝑆𝐶𝐸 𝐶𝑀𝐸 = 𝑛 − (𝑘 + 1)

MEDICINA HUMANA F Valor de P 𝐶𝑀𝑅 𝐹= 𝐶𝑀𝐸

Se trata de una prueba de cola superior. El rechazo de 𝐻0 significa que la ecuación de regresión difiere de una constante. Es decir, al menos una variable regresora (𝒙𝒊 ) es importante. Prueba de hipótesis t- student individuales para la selección de variables La prueba t -student que se utiliza con más frecuencia en la regresión múltiple es aquella que prueba la importancia de los coeficientes individuales, es 𝐻0 : 𝛽𝑗 = 0 𝐻1 : 𝛽𝑗 ≠ 0 Con frecuencia estas pruebas contribuyen a lo que se denomina selección de variables, con la cual el analista intenta llegar al modelo más útil, es decir, a la elección de cual regresor (𝒙𝒊 ) utilizar. Ejemplo 1. El dueño de Showtime Movie Theater, Inc., desea estimar el ingreso bruto semanal en función de los gastos en publicidad. A continuación se presentan los datos históricos de 10 semanas. Ingreso semanal (en miles de dólares) Y 96 90 95 92 95 94 94 94

Publicidad en tv (en miles de dólares) X1 5 2 4 2.5 3 3.5 2.5 3

Publicidad en periódico (en miles de dólares) X2 1.5 2 1.5 2.5 3.3 2.3 4.2 2.5

a) Obtenga una ecuación de regresión estimada en la que los montos gastados en publicidad en televisión y en periódicos sean las variables independientes. Resultados en Minitab Análisis de regresión: Ingreso sema vs. Publicidad e, Publicidad e La ecuación de regresión es Ingreso semanal = 83.2 + 2.29 Publicidad en tv + 1.30 Publicidad en periódico Predictor Coef de EE T P Constante 83.230 1.574 52.88 0.000 Publicidad en tv 2.2902 0.3041 7.53 0.001 Publicidad en periódico 1.3010 0.3207 4.06 0.010 ̂ = 𝟖𝟑. 𝟐𝟑 + 𝟐. 𝟐𝟗𝒙𝟏 + 𝟏. 𝟑𝟎𝒙𝟐 𝒚 b) Interprete los coeficientes de la ecuación estimada. 𝑏1 = 2.29: Cuando la publicidad en TV aumenta en 1000 dólares entonces el ingreso semanal bruto aumenta en 2.29 dólares, mientras las demás variables independientes permanecen constantes. 𝑏2 = 1.30: Cuando la publicidad en Periódico aumenta en 1000 dólares entonces el ingreso semanal bruto aumenta en 1.30 dólares, mientras las demás variables independientes permanecen constantes. c) ¿Cuál es el ingreso semanal bruto en una semana en la que se gastan $3500 en publicidad en televisión y $1800 en publicidad en periódicos? 𝑦̂ = 83.23 2.29𝑥1 + 1.30𝑥2 𝑦̂ = 83.23 + 2.29(3500) + 1.30(1800) = 10438.23 dolares 21

BIOESTADISTICA MEDICINA HUMANA Ejemplo 2. Salsberry vende casas en la costa este de Estados Unidos. Una de las preguntas más frecuentes de los compradores potenciales es: si compramos esta casa, ¿cuánto gastaremos en calefacción durante el invierno? Al departamento de investigación de Salsberry se le pidió desarrollar algunas directrices respecto de los costos de calefacción de casas unifamiliares. Se considera que tres variables se relacionan con los costos de calefacción: la temperatura externa diaria media, el número de pulgadas de aislamiento en el ático y la antigüedad en anos del calentador. Para el estudio, el departamento de investigación de Salsberry seleccionó una muestra aleatoria de 20 casas de venta reciente. Determinó el costo de calefacción de cada casa en enero pasado, así como la temperatura externa en enero en la región, el número de pulgadas de aislamiento en el ático y la edad del calentador. La información muestral se reporta en la tabla Costo de calefacción ($) 250 360 165 43 92 200 355 290 230 120 73 205 400 320 72 272 94 190 235 139

Temperatura externa media (°F) 35 29 36 60 65 30 10 7 21 55 54 48 20 39 60 20 58 40 27 30

Aislamiento del ático (pulgadas) 3 4 7 6 5 5 6 10 9 2 12 5 5 4 8 5 7 8 9 7

a) Tabla ANOVA Analysis of Variance Source DF Adj SS Regression 3 171220 Temperatura externa media (°F) 1 91751 Aislamiento del ático (pulgadas 1 25357 Antigüedad del calentador (años 1 6026 Error 16 41695 Total 19 212916

Antigüedad del calentador (años) 6 10 3 9 6 5 7 10 11 5 4 1 15 7 6 8 3 11 8 5

Adj MS F-Value P-Value 57073 21.90 0.000 91751 35.21 0.000 25357 9.73 0.007 6026 2.31 0.148 2606

 Como el valor de p para la regresión es menor que 0.05 entonces se rechaza la Ho, por lo que alguna variable independiente influye el costo de calefacción. b) Obtenga una ecuación de regresión estimada en la temperatura, aislamiento y antigüedad del calentador sean las variables independientes. Análisis de regresión: Costo de cal vs. Temperatura , Aislamiento , ... La ecuación de regresión es Costo de calefacción = 427 - 4.58 Temperatura externa media - 14.8 Aislamiento del ático + 6.10 Antigüedad del calentador

22

BIOESTADISTICA Prueba de Hipótesis individual para cada coeficiente 𝒃𝒊 Coef. Predictor Coef de EE T P Constante 427.19 59.60 7.17 0.000 Temperatura externa media -4.5827 0.7723 -5.93 0.000 Aislamiento del ático -14.831 4.754 -3.12 0.007 Antigüedad del calentador 6.101 4.012 1.52 0.148

MEDICINA HUMANA

S = 51.0486 R-cuad. = 80.4% R-cuad.(ajustado) = 76.7% ̂ = 𝟒𝟐𝟕. 𝟏𝟗 − 𝟒. 𝟓𝟖𝒙𝟏 − 𝟏𝟒. 𝟖𝟑𝒙𝟐 + 𝟔. 𝟏𝟎𝒙𝟑 𝒚 c) Interprete los coeficientes de la ecuación estimada. 𝑏1 = −𝟒. 𝟓𝟖. Cuando temperatura aumenta en 1°F entonces el costo de calefacción disminuye en 4.58 dólares, mientras las demás variables independientes permanecen constantes. 𝑏2 = −𝟏𝟒. 𝟖𝟑. Cuando el aislamiento aumenta en 1 pulgada entonces el costo de calefacción disminuye en -14.83 dólares, mientras las demás variables independientes permanecen constantes. 𝑏3 = 6. 𝟏𝟎. Cuando la antigüedad aumenta en 1 año entonces el costo de calefacción aumenta en 6.10 dólares, mientras las demás variables independientes permanecen constantes. d) ¿Cuál es el costo de calefacción cuando la temperatura es 30 °F, aislamiento es 5 pulgadas y la antigüedad es de 5 años? ̂ = 𝟒𝟐𝟕. 𝟏𝟗 − 𝟒. 𝟓𝟖𝒙𝟏 − 𝟏𝟒. 𝟖𝟑𝒙𝟐 + 𝟔. 𝟏𝟎𝒙𝟑 𝒚 ̂ = 𝟒𝟐𝟕. 𝟏𝟗 − 𝟒. 𝟓𝟖(𝟑𝟎) − 𝟏𝟒. 𝟖𝟑(𝟓) + 𝟔. 𝟏𝟎(𝟓) = 𝟐𝟒𝟔. 𝟏𝟒 𝒚

23