bioestadistica

Bioestadística. Dr. Cleto De La Torre Dueñas UNIVERSIDAD TECNOLOGICA DE LOS ANDES ESCUELA DE POSGRADO MAESTRIA EN SALU

Views 278 Downloads 8 File size 2MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Bioestadística.

Dr. Cleto De La Torre Dueñas

UNIVERSIDAD TECNOLOGICA DE LOS ANDES ESCUELA DE POSGRADO MAESTRIA EN SALUD PÚBLICA.

CURSO: BIOESTADISTICA

Dr. CLETO DE LA TORRE DUEÑAS [email protected]

ABANCAY – PERU 2019

1

Bioestadística.

Dr. Cleto De La Torre Dueñas

CONTENIDO

CAPITULO I: INTRODUCCION CAPITULO II: ORGANIZACIÓN Y PRESENTACIÓN DE DATOS. CAPITULO III: MEDIDAS DESCRIPTIVAS DE UNA DISTRIBUCIÓN DE DATOS. CAPITULO IV: DISTRIBUCIONES BIDIMENSIONALES CAPITULO

V:

PROBABILIDADES CAPITULO VI: VARIABLE ALEATORIA Y DISTRIBUCIONES DE PROBABILIDAD. CAPITULO VII: INTRODUCCION AL MUESTREO CAPITULO VIII: ESTIMACION POR INTERVALOS Y PRUEBAS DE HIPOTESIS CAPITULO IX: PRUEBA DE CHI-CUADRADO CAPITULO X: DISEÑO EXPERIMENTAL CAPITULO XI: REGRESIONES LOGISTICA Y PROBIT. ANEXOS.

2

Bioestadística.

Dr. Cleto De La Torre Dueñas

CAPITULO I INTRODUCCION La Estadística es la ciencia que se ocupa de los métodos y procedimientos de colección, clasificación, organización, análisis, síntesis e interpretación de datos; siendo su característica que la distingue, la de hacer generalizaciones o inferencias en base a una muestra. En palabras sencillas podríamos decir que la estadística es la ciencia de los datos En términos generales la estadística aborda dos tipos de problemas: ♦ Resumir, describir y explorar datos. ♦ Utilizar datos de una muestra para inferir la naturaleza del conjunto del cual se escogió la muestra. 1.1

DIVISION DE LA ESTADISTICA Así, la estadística se divide en dos partes íntimamente relacionadas: Estadística Descriptiva.- Esta es la parte de la estadística que se dedica a la organización, síntesis y descripción de conjuntos de datos. Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer inferencias) un conjunto de datos, especialmente cuando estos son demasiados, es necesario resumirlos o representarlos de manera clara, simplificada o reducida. Estadística Inferencial.- Esta rama de la estadística trata el problema de inferir la naturaleza de un conjunto de datos a partir de una muestra de dichos datos. El problema general de la Estadística

3

Bioestadística.

Dr. Cleto De La Torre Dueñas

Muestra

Población

Inferencias

Que tan reales es.

Figura 1: Relación entre población y muestra. 1.2

CONCEPTOS BASICOS Población. Es cualquier conjunto de datos, objetivo de nuestro interés, sobre los cuales interesa observar una o más características. Esta puede ser finita o infinita. El tamaño de la población es el número de individuos que tiene Muestra. Una muestra es un conjunto de individuos de la población que refleja las características de ésta lo mejor posible. Si las características quedan bien reflejadas, se dice que la muestra es representativa. El tamaño de una muestra es el número de individuos que tiene, lo denotamos por n. Unidad de estudio. Es cada elemento que va a ser estudiado. Lo más normal es que se trate de individuos, pero no tiene por qué ser así. Data. Es cualquier medida resultado de haber observado una variable en una unidad de alguna población. Parámetro es una propiedad descriptiva de una población. Ejemplo media y varianza poblacional Estadístico es una propiedad descriptiva de una muestra., ejemplo media y varianza muestral. Variable. Cualquier característica de Interés en el estudio. Variable cualitativa: Ordinal y Nominal Variable cuantitativa: Discreta y continua. Por otra parte, el reporte de las variables medidas requiere de los siguientes conceptos: Exactitud. Hace referencia a la cercanía con la que se encuentra la medición realizada con el valor real de la variable medida, esta relacionado con el concepto de la media.

4

Bioestadística.

Dr. Cleto De La Torre Dueñas

Precisión. Hace referencia a la cercanía con que se encuentran un conjunto de mediciones realizadas sobre la misma variable, relacionado con el concepto de varianza.

1.3

VARIABLES ESTADISTICAS A las características objeto de estudio en la población se les llama variables, ya que pueden variar de un individuo a otro y se representara por una letra mayúscula: X, Y, Z,. . ., debemos distinguir los distintos tipos de variables que hay, lo cual nos va a permitir utilizar las herramientas estadísticas apropiadas.

Tipos de variables. Las variables estadísticas pueden ser de dos tipos: Variables cualitativas o atributos: describen cualidades y no toman valores numéricos, estas a su vez pueden ser: Nominales.- Las cualidades no presentan ningún orden. Ejemplo Sexo de estudiantes. Ordinales.- Este tipo de variables presentan orden Ejemplo: Nivel de estudios. Variables cuantitativas: toman valores numéricos. A su vez pueden ser: • Discretas: Solo toman un número finito o infinito numerable de valores distintos (generalmente números naturales o enteros). Ejemplos: numero de compras de un producto en un mes, el año de fabricación de un vehiculo, numero de entradas de cine vendidas en un intervalo de tiempo, resultado de lanzar un dado, numero de hijos,. . . • Continuas: Toman valores en un intervalo. Generalmente corresponden a medir magnitudes continuas, por ejemplo, peso, altura, temperatura, intensidad de corriente, el tiempo entre dos llamadas telefónicas, el tiempo de servicio o de operación de una maquina, etc.

5

Bioestadística.

Dr. Cleto De La Torre Dueñas

Una característica esencial de este tipo de variables es que sus valores nunca son observables con exactitud, sino que dependen (las observaciones) de la precisión del instrumento de medida. 1.4

MEDICION Se llama medición Tenemos las

al proceso de atribuir números a las características.

siguientes escalas de medición: nominales, ordinales,

cuantitativas de intervalo y cuantitativas de razón.

Escala nominal: la clave de estas escalas de medida es que sólo informan de la igualdad o desigualdad de los individuos en una característica, pero no de posibles ordenaciones, puesto que la característica a la que se refieren no se tiene en mayor o menor medida, sino que simplemente adopta formas cualitativamente distintas. Los números solo sirven para distinguir valores o categorías diferentes de la variable. Ejemplo: El sexo 1=M y 2=F esto simplemente es un proceso de codificación pero no significa que la mujer sea mayor que el hombre, ni el doble, ni que existe sexo intermedio.

Escala Ordinal.- Los números además de servir para distinguir reflejan un orden existente sobre los valores de la variable. Se obtiene clasificando objetos o arreglándolos en un orden con respecto a alguna variable común. La pregunta es simplemente, si el objeto tiene más o menos de esta variable que algún otro objeto. Ejemplo : El dato representado por 5 es superior al representado por 2 en “ excelente=5, bueno =4, regular =3 y malo = 2.” es cierto la relación de orden 2

6

[4, 5>

7

[5, 6>

1

[6, 7>

1

[7, 8>

1

[8, 9>

1

Bioestadística.

Dr. Cleto De La Torre Dueñas

a) Halla la media, varianza, la desviación típica y coeficiente de variación. b) Mediana c) Moda. SOLUCION:

I

fi

mi

mifi

mi2fi

[0, 1>

2

0.5

1

0.5

2

[1, 2>

2

1.5

3

4.5

4

[2, 3>

3

2.5

7.5

18.75

7

[3, 4>

6

3.5

21

73.5

13

[4, 5>

7

4.5

31.5

141.75

20

[5, 6>

1

5.5

5.5

30.25

21

[6, 7>

1

6.5

6.5

42.25

22

[7, 8>

1

7.5

7.5

56.25

23

[8, 9>

1

8.5

8.5

72.25

24

Total

24

40.5

92

440

a) Media, varianza, desviación y coeficiente de variación. Media.

x

fm i

i

n



92  3.83 24

Varianza.

S  2

m

2 i i

n

f

 x2 

440   3.83  3.66 24

Desviación. s  3.66  1.91

59

Fi

Bioestadística.

Dr. Cleto De La Torre Dueñas

Coeficiente de Variación.

CV 

S 1.91   0.498 | X | 3.83

Mediana  12  7  Me  3    *1  3.833  6 

Moda   Mo  Li   1  A  1 2  1

 7 6 1

1

 7 1  6

 1  Mo  4    *1  4.14  1 6 

4) En un hospital, se ha medido el nivel de depresión que presentan los pacientes hospitalizados en una escala de 0- 20, obteniendo los siguientes resultados.

Nivel de

Nro de pacientes.

depresión 0-5

10

5-10

15

10-13

25

13-18

8

18-20

2

a) Calcule la media, varianza y la desviación. b) Determine la mediana y la moda c) Determine e interprete Q1, Q3, P10 y P90 d) Coeficiente de curtosis y de asimetría.

60

Bioestadística.

Dr. Cleto De La Torre Dueñas

SOLUCION: Intervalo

fi.

Fi

mi

mifi

mi2fi

0-5

10

10

2.5

25

62.5

5 -10

15

25

7.5

112.5

843.75

10-13

25

50

11.5

287.5

3306.25

13-18

8

58

15.5

124

1922

18-20

2

60

19

38

722

56

587

6856.5

60 a) Media y varianza Media.

x

fm i

n

i



587  9.78 60

Varianza.

S  2

m

2 i i

n

f

 x2 

6856.5   9.782   18.63 60

Desviación. s  18.63  4.31

b) Mediana y moda Mediana

n   2  F k 1  Me  Li   A f K     Determinamos

n 60   30 2 2

n   2  F k 1   30  25  Me  Li    A  10    3  10.6 f 25   K     Moda 61

Bioestadística.

Dr. Cleto De La Torre Dueñas

  Mo  Li   1  A  1 2  1

 25  15  10

1

 25  8  17

   10  Mo  Li   1  A  10    3  11.11  10  17   1 2 

c) Determine e interprete Q1, Q3, P10 y P90 

Para obtener los cuarteles se tiene la relación.

 i.n   4  F k 1  Qi  Li   A f K     Cuartil 1

 1.n   4  F k 1   15  10  Q1  Li    A  5  5  6.67 f 15   K     El 25% de los pacientes presentan niveles de depresión menores a 6.67

Cuartil 3

 3.n   4  F k 1   45  25  Q3  Li    A  10    3  12.4 fK  25      El nivel de depresión máximo del 75% de los pacientes es de 12.4.



Para obtener los percentiles se tiene la relación.

 i.n   100  F k 1  Pi  Li   A f K    

62

Bioestadística.

Dr. Cleto De La Torre Dueñas

Percentil 10

 10.n   100  F k 1   60 P10  Li    A  0 5  3 fK  10      El 10% de los pacientes tienen niveles de depresión entre 0 a 3 Percentil 90

 90.n   100  F k 1   54  50  P90  Li    A  13    5  15.5 fK  8      d) Coeficiente de Asimetría. Ap 

x  M o 9.78  11.11   -0.308 s 4.31

Puesto que Ap < 0  la distribución es asimétrica negativa o a izquierdas (desplazada hacia la izquierda).

Coeficiente de curtosis de fisher.

K

Q3  Q1 12.4  6.67  0.5   0.5  -0.0416 P90  P10 15.5  3

Si k  0 , entonces la distribución es platicúrtica. EJERCICIOS PROPUESTOS. 1. Un especialista esta diseñando tres terapias para tratar la depresión en adolescentes, con tal fin aplica un test de depresión a 50 adolescentes, los resultados básales se muestran a continuación.

63

Bioestadística.

Dr. Cleto De La Torre Dueñas

Nivel de depresión

[0, 40[

[40,70[

[70, 90[

[90,110[

[110,120]

Adolescentes

7

8

10

20

5

Reagrupe a los adolescentes en tres grupos A, B y C, de tal forma que el grupo A este integrado por el 30% de adolescentes con menores índices de depresión y el grupo C compuesto por el 45% de los que presentan mayores índices de depresión y el resto de adolescentes integra el grupo B. Calcule los limites de cada uno de los grupos y represente gráficamente.

2.- Los siguientes datos representan lecturas de presión sistólica (mm.Hg.) en una muestra de 41 sujetos hospitalizados en la Clínica Central el 1º Semestre de 2002.

138 164 150 132 144 125 149 157 146 158 140 147 136 148 152 149 168 126 138 176 163 119 154 165 146 173 142 147 135 153 153 140 135 161 145 135 142 150 156 145 128

a) Identifique los siguientes conceptos: i) Población analizada

ii) Elementos de la población. iii) Característica en estudio. iv) Tipo de dato analizado b) Construya una tabla de frecuencias completa para presentar estos datos con su correspondiente título e interprete n4 , f 2 , N3 , F5 c) Construya un gráfico adecuado para representar estos datos e interprételo. d) ¿Cuál será la presión sistólica media de los pacientes? ¿Y la mediana? e) Si el 25% de los pacientes fueron clasificados como hipertensos y el 10% fueron clasificados como hipotensos. ¿Entre qué valores debe estar la presión de un paciente para ser considerado normal?

64

Bioestadística.

Dr. Cleto De La Torre Dueñas

2.- Un psicólogo desea evaluar la eficacia de dos terapias para tratar problemas de estrés, para ello selecciona al azar 16 pacientes y forma aleatoriamente dos grupos. El primer grupo de 8 pacientes fue tratado con la terapia A y el segundo grupo de 8 pacientes con la terapia B. Al cabo de un tiempo se les mide su nivel reducción de estrés en una escala de o a 120. Los resultados se muestran a continuación:

Terapia A

50

40

60

40

60

50

35

25

Terapia B

60

70

60

80

60

50

80

70

En base a los resultados, cual de las terapias es más adecuado para los pacientes que estén interesados en: a).- Una efectiva mayor. b).- Resultados similares de la terapia para todo el grupo.

4.- Los siguientes son los pesos en gramos (redondeados al gramo más próximo) de 30 ratones, de un ensayo realizado en un Laboratorio de Química usadas en un estudio de deficiencias vitamínicas:

136

92

115

118

121

137

132

120

104

125

119

115

101

129

85

108

110

133

135

126

127

103

110

126

118

82

104

137

120

148

a) Construya una distribución de frecuencia con 6 clases que incluya límites dados y reales. b) Interprete la frecuencia absoluta de la clase 3. c) Construya el polígono de frecuencias. d) Se le pide a un analista experimentado la evaluación de dos métodos diferentes para la determinación de trazas de plomo en ácido acético glacial, y se le entrega una muestra que contiene precisamente 1.282 ppm. de Pb, por litro (dato 65

Bioestadística.

Dr. Cleto De La Torre Dueñas

desconocido por el analista). Se realizaron cinco determinaciones mediante cada método, que dieron los siguientes resultados para la concentración del plomo, en partes por millón (ppm):

Método A: 1.34

1.33

1.32

1.34

1.31

Método B: 1.30

1.26

1.30

1.33

1.24

Comparé ambos métodos en cuanto a su exactitud y variabilidad.

4. La siguiente información corresponde a puntajes obtenidos en un test de inteligencia aplicado a dos grupos diferentes; los resultados se muestran en sus respectivas tablas de frecuencia:

GRUPO A

GRUPO B

k Intervalos Frecuencias nk k Intervalos Frecuencias nk 1 414 - 473

5

1 586 - 629

7

2 473 - 532

8

2 629 - 672

11

3 532 - 591

15

3 672 - 715

10

4 591 - 650

3

4 715 - 758

7

5 650 - 709

4

5 758 - 801

2

6 709 - 768

1

6 801 - 844

1

a) De acuerdo a la información determine en que grupo el puntaje del test es más homogéneo. b) Si el 20% de los pacientes con puntajes más bajos son considerados retardados, el 10% de los pacientes con mayor puntaje son considerados superdotados y los demás pacientes son considerados normales. Determine para ambos grupos: i) ¿Cuál es el puntaje mínimo para ser considerado superdotado? ii) ¿Entre qué puntajes un paciente será considerado normal? iii) ¿Cuál es el número estimado de pacientes normales?

66

Bioestadística.

Dr. Cleto De La Torre Dueñas

c) Determine en ambos grupos el puntaje más típico de .los pacientes. d) Determine la media aritmética y la mediana en ambos grupos y compárela con la moda. ¿Cuál es su opinión respecto a la simetría de la distribución? e) Si consideramos ambos grupos como un total ¿Cuál será el puntaje medio total y su varianza? f) Determine un intervalo que contenga el 50% central de la distribución de los puntajes del grupo A.

5.- Los casos de SIDA diagnosticados en un País en los últimos años vienen dados en la siguiente tabla, clasificados por grupo de riesgo del paciente:

Factores

1993

1994

1995

1996

1997

Por Drogas Inyectables

3373

4723

4432

4203

3143

Heterosexuales

631

952

1044

1113

950

Homosexuales/Bisexuales

778

898

934

766

580

Drogas Inyect. Y Homosexuales

68

92

81

73

61

Hijos de madres de riesgo

82

76

79

46

37

Por Hemoderivados

56

66

52

44

25

Por transfusiones

32

23

21

14

12

Otros

321

291

302

249

290

5341

7121

6945

6508

5098

Analizar descriptivamente la información.

67

Bioestadística.

Dr. Cleto De La Torre Dueñas

CAPITULO IV DISTRIBUCIONES BIDIMENSIONALES Si resumir la información de una variable es de por si interesante, en investigación lo es mucho más el poner de manifiesto la posible relación entre dos de ellas. El análisis de la relación de dos variables, X e Y, depende del tipo de variables y Según sean los tipos de cada una de ellas se usa técnicas estadísticas diferentes. 4.1

CUALITATIVA-CUALITATIVA. Cuando las variables de estudio son cualitativas (categóricas) o cuantitativas discretas con poca variables X

modalidades, se suele presentar las observaciones de las

e Y, mediante pares ordenados

(xi, yi), esta forma de

presentaciones se denomina tablas de contingencia. Las tablas de contingencia son de doble entrada organizada por filas y columnas y donde se presenta la distribución de frecuencias conjuntas de las dos variables. Dada una variable bidimensional ( X, Y ), consideramos una muestra de tamaño n en la que X toma k valores distintos, x1, . . . , xk, e Y toma l valores distintos, y1, . . , yl, obtenemos, por tanto, observaciones del tipo (xi, yj).

La frecuencia absoluta de un valor (xi, yj) es el número de veces que dicho valor aparece en la muestra. Se representa por fij , se cumple k

l

 f i 1 j 1

ij

n

La frecuencia relativa de un valor (xi, yj) es el cociente de la frecuencia absoluta fij entre el tamaño de la muestra n, se representa por hij

68

Bioestadística.

Dr. Cleto De La Torre Dueñas

hij 

fij , n

se cumple:

k

l

 h i 1 j 1

ij

1

Distribuciones marginales Nos indican el comportamiento aislado de cada una de las variables X e Y que dan lugar a una variable bidimensional. Frecuencia absoluta marginal de xi, l

fil   fij

fi.  fi1  fi 2 

j 1

Frecuencia relativa marginal de xi,

hi . 

fi . n

Frecuencia absoluta marginal de yj, k

f kj   fij

f . j  f1 j  f 2 j 

i 1

Frecuencia relativa marginal de yj,

h. j 

f. j n

Una tabla de doble entrada de una variable bidimensional sigue la estructura que se presenta a continuación, en la que tienen cabida las frecuencias marginales (representadas en la última fila y última columna). Puede ser de frecuencias absolutas o relativas.

Y

y1

y2

.....

yl

ni.

x1

f11

f12

.....

f1l

f1.

x2

f21

f22

.....

f2l

f2.

..

..

..

.....

..

..

fk2

.....

fkl

fk.

f.2

.....

f.l

n

X

xk n.j

69

fk1 f.1

Bioestadística.

Dr. Cleto De La Torre Dueñas

Ejemplos. 1.- En una prueba de laboratorio, se aplico tres tipos de extractos a un grupo de ratones y se mide el grado de toxicidad. Obteniéndose los siguientes resultados. Grado de

Extracto A

Extracto A

Extracto A

Leve

40

25

10

Moderada

25

55

5

Severa

35

15

60

toxicidad

Analice la información y represente gráficamente.

Grado de toxicidad Leve Moderada Severa Total

70

A Frecuencia Porcentaje Frecuencia Porcentaje Frecuencia Porcentaje Frecuencia Porcentaje

40 40.0% 25 25.0% 35 35.0% 100 100.0%

Extracto B 25 26.3% 55 57.9% 15 15.8% 95 100.0%

C 10 13.3% 5 6.7% 60 80.0% 75 100.0%

Total 75 27.8% 85 31.5% 110 40.7% 270 100.0%

Bioestadística.

Dr. Cleto De La Torre Dueñas

60

50

Grado de toxicidad Leve Moderada Severa

Recuento

40

30

20

10

0 A

B

C

Extracto

4.2

CUALITATIVA-CUANTITATIVA. Supongamos que tenemos

datos cuantitativos (numéricos)

para varias

cualitativa (categorías), por ejemplo en un experimento donde hacemos mediciones numéricas en dos o más grupos. En estos casos, lo que se realiza es un estudio descriptivo de la variable numérica

en cada una de las

muestras y se comparamos los resultados.

Ejemplo 1) Un investigador esta analizando el efecto de un grupo de tratamientos, como desinflamante. El uso 5 tratamientos, en el cuadro siguiente se muestra la disminución de la inflamación.

Tratamiento

71

Reducción Tratamiento Reducción

Piroxicam

0.1183 Extracto

0.09

Piroxicam

0.0983 Extracto

0.08

Piroxicam

0.1383 Extracto

0.12

Piroxicam

0.1083 Extracto

0.08

Bioestadística.

Dr. Cleto De La Torre Dueñas

Piroxicam

0.1183 Extracto

0.11

Etanol Absoluto

0.2233 Cloroformo

0.0783

Etanol Absoluto

0.2033 Cloroformo

0.0383

Etanol Absoluto

0.2333 Cloroformo

0.0583

Etanol Absoluto

0.1933 Cloroformo

0.0383

Etanol Absoluto

0.2033 Cloroformo

0.0583

Etanol 70%

0.1733

Etanol 70%

0.1733

Etanol 70%

0.1533

Etanol 70%

0.2033

Etanol 70%

0.1733

a) Calcule el la disminución promedio para cada uno de los tratamientos. b) Cual de los tratamientos genera reducciones más homogéneas. c) Represente la información mediante un grafico. SOLUCION: Variable tratamiento

Mean

reduccion Cloroformo

0.05430 0.01673 0.000280

30.82 0.05830

Etanol Absoluto

0.21 130 0.01643 0.000270

7.78 0.20330

Etanol 70%

0.17530 0.01789 0.000320

10.20 0.17330

Extracto

0.09600 0.01817 0.000330

18.92 0.09000

Piroxicam

0.11630 0.01483 0.000220

12.75 0.11830

72

StDev Variance CoefVar Median

Bioestadística.

Dr. Cleto De La Torre Dueñas

0.25

reduccion

0.20

0.15

0.10

0.05 Cloroformo

4.3

Etanol Absoluto

Etanol 70% tratamiento

Extracto

Piroxicam

CUANTITATIVA-CUANTITATIVA. Análisis de dos variables cuantitativas y establecimiento de una relación entre ellas. La forma mas sencilla de estudiar la posible asociación entre estas variables es el diagrama de dispersión (Nube de puntos). Si reconocemos una tendencia, entonces el interés ahora será el análisis de regresión. Media y varianza La información de las dos variables X e Y se puede resumir usando la media y la varianza como se muestra a continuación: Media de la variable X:

x

fx

Media de la variable Y:

y

fy

Varianza de la variable X: s

73

2 x

i i

n i

i

n

fx 

2 i i

n

x

2

Bioestadística.

Dr. Cleto De La Torre Dueñas

Varianza de la variable Y: s y2 

fy i

2 i

n

y

2

La covarianza Es una medida de la asociación lineal existente entre dos variables. Resume la información contenida en el diagrama de dispersión. Presenta la siguiente expresión: cov( x, y )  sxy 

fxy i i

n

i

 x. y

Si la covarianza está muy próxima a cero, no existe relación entre las variables o si existe es marcadamente no lineal, si es positiva, hay asociación lineal positiva, y si es negativa, hay asociación lineal negativa. Sin embargo, como la covarianza depende de las unidades de medida de las variables, no nos permite cuantificar el grado de asociación lineal ni comparar la asociación existente entre distintos pares de variables. Para dar solución a este problema se obtiene el coeficiente de correlación.

Correlación. Estudia la relación o dependencia que existe entre dos variables que intervienen en una distribución bidimensional.

Coeficiente de correlación lineal. Es un número que mide el grado de dependencia entre las variables X e Y.

r

Se mide mediante la siguiente fórmula:

s xy s x .s y

Su valor está comprendido entre – 1 y 1. 

Si r = -1 ó r = 1 todos los valores de la variable bidimensional se encuentran situados sobre una recta.



Si – 1< r < 0 se dice que las

variables X e Y están también en

dependencia aleatoria. La correlación es negativa.

74

Bioestadística.



Dr. Cleto De La Torre Dueñas

Si 0 < r < 1 la correlación es positiva. Las variables X e Y están también en dependencia aleatoria.

La correlación es tanto más fuerte a medida que r se aproxima a –1 ó 1 y es tanto más débil a medida que se aproxima a 0. Análisis de Regresión. Regresión: conjunto de técnicas que son usadas para establecer una relación entre una variable cuantitativa llamada variable dependiente y una o más variables independientes, llamadas predictoras. Estas también deberían ser cuantitativas, sin embargo algunas de ellas podrían ser cualitativas. Modelo de regresión. Ecuación que representa la relación entre las variables Y    X 

Estimación de la línea de regresión usando Mínimos Cuadrados Se

debe

Minimizar

n

n

i 1

i 1

el

error

cuadrático

medio:

Q  ,     ei2   ( yi     xi ) 2

ˆ 

n

n

n

i 1

i 1 n

i 1

n xi yi   xi  yi n

n xi2  ( xi ) 2 i 1



S xy S xx

i 1

ˆ  y  ˆ x La pendiente ˆ , indica el cambio promedio en la variable de respuesta cuando la variable predictora aumenta en una unidad adicional. El intercepto ˆ , indica el valor promedio de la variable de respuesta cuando la variable predictora vale 0. Sin embargo carece de interpretación práctica si es irrazonable pensar que el rango de valores de x incluye a cero.

75

Bioestadística.

Dr. Cleto De La Torre Dueñas

A partir de la recta Yˆ  ˆ  ˆ X podemos calcular los valores de y conocidos los de x. La fiabilidad que podemos conceder a los cálculos obtenidos viene dada por el coeficiente de correlación: si r es muy pequeño no tiene sentido realizar ningún tipo de estimaciones. Si r es próximo a – 1 ó 1, las estimaciones realizadas estarán cerca de los valores reales. Si r = 1 o r = -1, las estimaciones realizadas coincidirán con los valores reales. Ejemplos. 1.- Se realizo una investigación sobre la temperatura anual media X ( Grados Fa) en varias ciudades y la tasa de mortalidad (Y) de un tipo de cáncer de pecho en mujeres. Los datos que obtuvo fueron los siguientes:

X

51.3

49.9

50

49.2

48.5

47.8

47.3

45.1

46.3

42.1

44.2

43.5

42.3

40.2

31.8

34

Y

102..5

104.5

100.4

95.9

87

95

88.6

89.2

78.9

84.6

81.7

72.2

65.1

68.1

67.3

52.5

a)

Trace un diagrama de dispersión.

b)

Ajuste una recta de regresión.

c)

Calcule la correlación lineal e interprete dicho valor.

Solución: 110

100

Y

90

80

70

60

50 30

35

40

45 X

76

50

Bioestadística.

Dr. Cleto De La Torre Dueñas

X

Y

x

y

y

s

2 x

i

n

n

5258.25

2631.69

10506.25

49.9

104.5

5214.55

2490.01

10920.25

50

100.4

5020

2500

10080.16

49.2

95.9

4718.28

2420.64

9196.81

48.5

87

4219.5

2352.25

7569

47.8

95

4541

2284.84

9025

47.3

88.6

4190.78

2237.29

7849.96

45.1

89.2

4022.92

2034.01

7956.64

46.3

78.9

3653.07

2143.69

6225.21

42.1

84.6

3561.66

1772.41

7157.16

44.2

81.7

3611.14

1953.64

6674.89

43.5

72.2

3140.7

1892.25

5212.84

42.3

65.1

2753.73

1789.29

4238.01

40.2

68.1

2737.62

1616.04

4637.61

31.8

67.3

2140.14

1011.24

4529.29

34

52.5

1785

1156

2756.25

sxy 



1333.5  83.34375 ; 16

n

y

2 i

n i

32285.29 114535.33

32285.29  44.593752  29.228 16

2

114535.33  83.343752  212.277 ; 16

y  i

60568.34

2

x 

x y n

1333.5

713.5  44.59375 ; 16

2 i

Y2

102.5



x 

s y2 

77

i

X2

51.3

713.5 x

X.Y

 x. y 

60568.34  (44.59375).(83.34375)  68.9 16

Bioestadística.

Dr. Cleto De La Torre Dueñas

Recta de regresión

ˆ 

n

n

n

i 1

i 1 n

i 1

n xi yi   xi  yi n

n xi2  ( xi ) 2 i 1



S xy S



2 x

68.9  2.357 29.228

i 1

ˆ  y  ˆ x  83.34375  2.357(44.59375)  21.76 Yˆ  ˆ  ˆ X  21.76  2.357 X r 2.-

sxy sx .s y

68.9  0.8747 29.228. 212.277



un equipo de investigadores de un hospital psiquiátrico realizó un

experimento para estudiar la relación que existe en pacientes esquizofrénico entre el tiempo de reacción a un estímulo particular y el nivel de la dosis de una droga. Los investigadores hicieron el experimento con dosis de 0,5; 1,0; 1,5; 2,0; 2,5 y 3,0 mg. Seleccionaron una m.a. de 18 pacientes en una población hospitalaria de esquizofrénico y asignaron al azar a cada paciente una de las dosis. Cada dosis fue administrada a un total de 3 pacientes. X = dosificación en mg Y = tiempo de reacción en milisegundo. La dosificación es una variable fija, puesto que los investigadores seleccionaron, anticipadamente su valor específico. La unidad de asociación es el paciente esquizofrénico y la muestra consiste en 18 unidades de asociación. X 0,5 0,5 0,5 1,0 1,0 1,0 1,5 1,5 1,5 2,0 2,0 2,0 2,5 2,5 2,5 3,0 3,0 3,0 Y 12 22 30 18 32 36 30 34 46 40 44 50 44 60 64 64 68 76

x

b1 

i

y

 31,5

x y i

i

x

2 i

 

i

 770

x y i

n  xi 2

i



1595 

x

2 i

 68,25

31,5770

18 2  31,5 68,25  18

 18,8571

n b0  y  b1 x  42,7778  18,85711,75  9,7779

78

y

2 i

 38508

x y i

i

1595

Bioestadística.

Dr. Cleto De La Torre Dueñas

yc  b0  b1 x  9,7779  18,8571x

  xi  y i b1   xi yi  n SCR r2    2 SCT  yi   2  yi  n

El

84 %

Ecuación de Regresión Lineal Simple Muestral

  18,85711595  31,5770    4667,13 18    0,84 2 5569,11  770 38508 18

de la variabilidad total presente en nuestros datos, se explica por la

regresión.

H 0 : Dosificación y Tiempo de Re acción no están relacionadas linealmente

H1 : Dosificación y Tiempo de Re acción están relacionadas linealmente F.deV.

g.l. SC

CM

Fc

Regresión 1

4667,13 4667,13 82,79

Error

16

901,98

Total

17

5569,11

RC  F / F  10,58

56,37

  0,005

Fc  82,79  RC  Re chazo H 0

El tiempo de reacción y el nivel de dosificación están relacionados linealmente. Por lo tanto podremos utilizar, con seguridad, nuestra ecuación de regresión muestral para predecir el valor que Y probablemente tomará para un valor dado de X. Ejercicios propuestos. 1. En un hospital se registra la temperatura T (en ºC) y el pulso P (pulsaciones por segundo) de cinco pacientes, obteniéndose los siguientes resultados:

79

T

38.9

38.3

37.8 37.2 36.7

P

100

90

80

70

60

Bioestadística.

Dr. Cleto De La Torre Dueñas

a) Ajuste un modelo lineal para estimar la temperatura de un paciente determinando los parámetros mediante el método de mínimos cuadrados. b) ¿Cuál es la calidad del ajuste realizado? c) ¿Cree usted que un paciente con alta temperatura tenga muchas pulsaciones por segundo? d) Determine el error estándar de estimación con el modelo ajustado y determine un intervalo de longitud cuatro errores estándar para estimar la temperatura de un paciente cuyo pulso sea de 85 pulsaciones por segundo. e) ¿Cuántas pulsaciones debe tener un paciente para que su temperatura no sobrepase los 40 grados?

2. Al investigar la capacidad vital Y en diferentes edades X (en años) en ocho niños se obtuvieron los siguientes resultados: X

4

5

Y

0.79 0.93

6

7

8

1.15 1.29

9

1.47 1.71

10

11

1.87

1.99

a) Ajuste un modelo lineal para estimar la capacidad vital de un niño determinando los parámetros mediante el método de mínimos cuadrados. b) ¿Cuál es la calidad del ajuste realizado? c) ¿Cree usted que un niño de mucha edad tenga bastante capacidad vital? d) Determine el error estándar de estimación con el modelo ajustado y determine un intervalo de longitud cuatro errores estándar para estimar la capacidad vital de un niño con una edad de 12 años.

3. Los investigadores están estudiando la correlación entre obesidad y la respuesta individual al dolor. La obesidad se mide como porcentaje sobre el peso ideal (X). La respuesta al dolor se mide utilizando el umbral de reflejo de flexión nociceptiva (Y), que es una medida de sensación de punzada. Se obtienen los siguientes datos: X Y 80

89 2

90 3

75 4

30 4,5

51 5,5

75 7

62 9

45 13

90 15

20 14

Bioestadística.

Dr. Cleto De La Torre Dueñas

a).- ¿Qué porcentaje de la varianza del peso es explicada mediante un modelo de regeseión lineal por la variación del umbral de reflejo? b).- Estúdiese la posible relación lineal entre ambas variables, obteniendo su grado de ajuste. c).- ¿Qué porcentaje de sobrepeso podemos esperar para un umbral de reflejo de 10? 4.- Se lleva a cabo un estudio, por medio de detectores radioactivos, de la capacidad corporal para absorber hierro y plomo. Participan en el estudio 10 sujetos. A cada uno se le da una dosis oral idéntica de hierro y plomo. Después de 12 días se mide la cantidad de cada componente retenida en el sistema corporal y, a partir de ésta, se determina el porcentaje absorbido por el cuerpo. Se obtuvieron los siguientes datos: Porcentaje de hierro, X Porcentaje de plomo, Y

17

22

35

43

80

85

91

92

96

100

8

17

18

25

58

59

41

30

43

58

a).- Comprobar la idoneidad del modelo lineal de regresión. b).- Obtener la recta de regresión, si el modelo lineal es adecuado. c).- Predecir el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe el 15% del plomo ingerido 5.- Se considera que el rendimiento de un proceso químico es una función de la cantidad de catalizador agregada a la reacción. Se realiza un experimento y se obtienen los siguientes datos: X= catalizador (lb)

Y= rendimiento (%)

X

0.9

14

1.6

1.7

1.8

2.0

2.1

2.3

Y

60.54

63.86

63.76

60.15

66.66

71.66

70.81

65.72

a) Calcule e interprete el coeficiente de regresión lineal. b) Pruebe la significación de la regresión. =0.10 c) Calcule e interprete el coeficiente de correlación.

81

Bioestadística.

Dr. Cleto De La Torre Dueñas

CAPITULO V PROBABILIDADES El Cálculo de Probabilidades se ocupa de estudiar ciertos experimentos que se denominan aleatorios, cuya característica fundamental es la incertidumbre del resultado, esto significa que es imposible predecir los resultados porque hay más de uno posible. En nuestra vida cotidiana asociamos usualmente el concepto de probabilidad a su calificativo

probable, considerando probable

a aquellos eventos en los que

tenemos alto grado de creencia en su ocurrencia. En esta línea probabilidad es un concepto asociado a una medida del azar. El objetivo de la probabilidad es cuantificar las posibilidades que tengan ciertos eventos inciertos. 5.1 EXPERIMENTO ALEATORIO. Es una acción que da lugar a resultados identificables y se caracteriza por: 

Todos los posibles resultados son conocidos previamente.



Repeticiones en situaciones análogas pueden dar resultados diferentes.



No se puede predecir el resultado del mismo antes de realizarlo, es decir, no se sabe cuál de los posibles resultados aparecerá al final. Los experimentos pueden ser aleatorios o deterministas. Aleatorio significa relativo a todo acontecimiento incierto, por depender de la suerte o del azar, mientras que los deterministas son aquellos que se caracterizan por el hecho de que las mismas causas producen los mismos efectos.

82

Bioestadística.

Dr. Cleto De La Torre Dueñas

Espacio muestral. Es el conjunto de todos los resultados posibles del experimento y se denota por  . A cada elemento de  se denomina punto muestral w , es decir:   w / w es un punto muestral .

Evento o Suceso Aleatorio. Un evento aleatorio es un subconjunto del espacio muestral y se denota con letras mayúsculas.  El evento seguro  , es aquel que ocurre siempre al realizar el experimento.  El evento imposible  , es aquel que no ocurre nunca.  Lo s eventos elementales solo tienen un punto muestral.  El evento complementario Ac , esta dado por todo los puntos muestrales que no están en A 5.2 OPERACIONES DE EVENTOS. Unión de eventos: Dados dos eventos A y B de un mismo espacio muestral su unión se representa por A  B y es el evento que contiene los elementos que están en A o en B o en ambos. El evento A  B ocurre si al menos uno de los dos eventos ocurre.

Intersección de eventos: Dados dos eventos A y B de un mismo espacio muestral su intersección se representa por A  B y es el evento que contiene los elementos que están en A y B al mismo tiempo. El evento A  B ocurre cuando ambos eventos ocurren simultáneamente.

Evento Complemento: El complemento de un evento A se representa por Ac y es el evento que contiene todos los elementos que no están en A. El evento

Ac ocurre si A no ocurre.

83

Bioestadística.

Dr. Cleto De La Torre Dueñas

5.3 DEFINICIÓN CLÁSICA DE PROBABILIDAD: La probabilidad de un suceso A se calcula como el número de casos favorables al suceso A, partido por el número de casos posibles del experimento aleatorio. P ( A) 

casos favorables casos posibles

5.4 DEFINICIÓN AXIOMÁTICA DE PROBABILIDAD. La probabilidad es una función que asigna a cada suceso A   un número real que varia entre 0 a 1. P :    y que verifica: A  P(A) i) 0  P( A)  1  A   ii) P     1 iii) Si A y B son sucesos incompatibles, P  A  B   P  A  P  B 

Como consecuencia de estos tres axiomas, se verifican además las siguientes propiedades: iv)

P( Ac )  1  P  A

v)

P ( )  0

vi)

Si A  B ,  P( A)  P( B)

vii) P( A \ B)  P( A)  P( A  B) ,  A,B   viii) Si A 1 , A 2 , ...... , A n son incompatibles dos a dos, entonces P  A1  A2  ...  An   P  A1   P  A2   ...  P  An 

ix)

Si A, B   son dos sucesos cualesquiera, entonces P  A  B   P  A  P  B   P  A  B 

x)

Si A, B   son dos sucesos cualesquiera, entonces

P( A)  P  A  Bc   P  A  B 

84

Bioestadística.

5.5

Dr. Cleto De La Torre Dueñas

PROBABILIDAD CONDICIONADA. Queremos estudiar como cambia la probabilidad de ocurrencia de A cuando se conoce que otro evento B ha ocurrido. En este caso habrá que redefinir el espacio muestral considerando solamente los elementos de B como posibles resultados. La probabilidad de A condicionada a B como la probabilidad de que ocurra

A sabiendo que ha ocurrido B, la denotamos por P(A|B) P( A | B) 

P( A  B) , P(B)  0. P( B)

En consecuencia, P(A  B) =P ( A) P ( B ) A

Independencia. Dos sucesos A, B   se dicen independientes si: P ( A)  P ( A | B ) , o bien P ( B )  P ( B | A)

Es decir, se cumplirá que: P( A  B)  P( B).P( A)

Si A y B son independientes, entonces A y B C son independientes, A C y B son independientes, y A C y B C son independientes. Observación. Decimos que n sucesos A1, A2,

An son independientes si para

cada par (Ai, Aj), P( Ai  Aj )  P( Ai ) P( Aj ) si i  j , si para cada trío (Ai, Aj, Ak) P( Ai  Aj  Ak )  P( Ai ) P( Aj ) P( Ak ) si i  j  k y así sucesivamente. En general, P( A1  A2    An)  P( A1) P( A2)  P( An)

85

Bioestadística.

Dr. Cleto De La Torre Dueñas

Teorema de la probabilidad compuesta. Dados n sucesos A 1 , A 2 , ......., A se verifica: P( A1  A2   An)  P( A1) P( A2 | A1) P( A3 | A1  A2)  P( An | A1  A2   An  1)

Teorema de la probabilidad total. Si suponemos que los eventos A1, A2, A3, ...., An, forman una partición de un espacio muestral  ; esto es, que los eventos Ai son mutuamente excluyentes y su unión es .

Si A 1 , A 2 , ......., A n son un sistema completo de sucesos tal que : i) A1

A2   i  j ( disjuntos dos a dos)

ii)  

n i 1

Ai

iii) P ( Ai )  0 ,  i  1,....n . La probabilidad de un suceso B cualquiera es: n

P ( B )   P ( Ai ) P ( B | A i ) i 1

P( B)  P( A1 ) P( B

A1

)  P( A2 ) P( B

A2

)  .......  P( An ) P( B

An

)

Teorema de Bayes. El procedimiento que se utiliza para encontrar probabilidades posteriores, a partir de probabilidades previas, se llama regla Bayesiana. Las probabilidades apriori o previas se conocen antes de obtener información alguna del experimento en cuestión.

86

Bioestadística.

Dr. Cleto De La Torre Dueñas

Las probabilidades aposteriori se determinan después de conocer los resultados del experimento. El teorema de Bayes consiste en un método para encontrar la probabilidad de una causa específica cuando se observa un efecto particular. Esto es, si el evento B ha ocurrido, ¿Cuál es la probabilidad de que fue generado por el evento A1 (que es una causa posible ) o por el A2 (otra causa posible)?. Si A 1 , A 2 , ......., A n son un sistema completo de sucesos tal que p ( Ai )  0 ,  i  1,....n , entonces para un suceso B cualquiera se verifica:

P( Ai | B) 

P( Ai | B) 

P( Ai  B)  P( B)

P( A ) P( B 1

P( Ai ) P( B | Ai )

 i1 P( Ai) P( B | Ai) n

, i = 1, ...., n.

P( Ai ) P( B | Ai ) )  P( A2 ) P( B )  .......  P( An ) P( B ) A1 A2 An

Problemas Resueltos. 1) En un hospital se realiza pruebas a tres pacientes para confirmar o descartar la presencia de una enfermedad. a) Cual es el espacio muestral. b) ¿Cual es la probabilidad de que dos pacientes den positiva en la prueba a la enfermedad.

87

Bioestadística.

Dr. Cleto De La Torre Dueñas

c) Cual es la probabilidad de que el primer paciente de positivo y el último de negativo a la enfermedad. d) Cual es la probabilidad de que por lo menos un paciente de positivo en la prueba.

Solución. Denotemos con P, si el resultado es positivo y con N, si la prueba descarta la presencia de la enfermedad. a)   PP 1 2 N3 , PP 1 2 P3 , PN 1 2 N3 , PN 1 2 P3 , N1 P2 P3 , N1 P2 N3 , N1 N 2 P3 , N1 N 2 N3  b) Sea el evento A: La prueba da positivo en dos pacientes A  PP 1 2 N3 , PN 1 2 P3 , N1 P2 P3  P( A) 

n( A) 3  n ( ) 8

c) Sea el evento B: Primer paciente da positivo y el ultimo negativo C  PP 1 2 N3 , P1 N 2 N3  P(C ) 

n(C ) 2  n ( ) 8

d) Sea el evento D: Por lo menos una prueba da positivo.

D  PP 1 2 N3 , PP 1 2 P3 , P1 N 2 N3 , P1 N 2 P3 , N1 P2 P3 , N1 P2 N3 , N1 N 2 P3 

P( D) 

n( D ) 7  n ( ) 8

2) Un 15% de los pacientes atendidos en un hospital son hipertensos, un 10% son obesos y un 3% son hipertensos y obesos. ¿Qué probabilidad hay de que elegido un paciente al azar sea obeso o hipertenso? A = {obeso} B = {hipertenso} A  B = {hipertenso y obeso} A  B = {obeso o hipertenso} P(A) = 0,10; P(B) = 0,15; P(A  B) = 0,03

88

Bioestadística.

Dr. Cleto De La Torre Dueñas

P  A  B   P  A  P  B   P  A  B 

P(A  B) = 0,10 + 0,15 - 0,03 = 0,22 3) Se ha comprobado que en una ciudad están enfermos con diarrea el 60% de los niños; con sarampión el 50% y el 20% con ambas enfermedades. Calcular la probabilidad de que elegido un niño al azar esté enfermo con diarrea, sarampión o ambas enfermedades. Sean los sucesos: A: "estar enfermo con diarrea". B: "estar enfermo con sarampión". P  A  B   P  A  P  B   P  A  B  El 90% de los niños tienen alguna de las dos enfermedades. 4) Un grupo de médicos prescriben tres tipos de medicina para una enfermedad en un hospital. El 40% de los medicos prescribe la medicina A , de estas en el 1% de los casos se presentan algun tipo de RAM,

el 30% de los medicos

prescribe la medicina B y en el 2% se presentan RAM. El resto de medicos prefieren la medicina C para dicha enfermedad, observandose que en el 3% de las mismas se presenta RAM. Si un paciente que recibio el tratamiento para la enfermedad se selecciona aleatoriamente. Cual es la probabilidad: a)

De que presente RAM.

b)

De que presente RAM y haya sido tratado con la medicina B.

c)

Calcular la probabilidad de que el paciente haya recibido la medicina C como tratamiento, dado que presento RAM.

Solución

89

Bioestadística.

Dr. Cleto De La Torre Dueñas

Presenta RAM 1% 99%

No presenta RAM

A 40%

Presenta RAM

2% Medicina

30%

98% B

No presenta RAM 3%

30%

Presenta RAM

C 97%

No presenta RAM

Sean los eventos. A: Paciente recibe como tratamiento la medicina A B: Paciente recibe como tratamiento la medicina B C: Paciente recibe como tratamiento la medicina C, D: El paciente presenta RAM.

a) P ( D )  P ( A) P ( D A)  P ( B ) P ( D B)  P (C ) P ( D C ) P( D)  0.4*(0.01)  0.3*(0.02)  0.3*(0.03)  0.019  1.9%

b) P(B  D) =P ( B) P( D B) P(B  D) =0.3*(0.02)  0.006  0.6%

c) P(C | D) 

P(C  D) P(C ) P( D | C )  P( D) P( A) P( D | A)  P( B) P( D | B)  P(C ) P( D | C )

P (C | D ) 

0.3*(0.03)  0.473  47.3% 0.4*(0.01)  0.3*(0.02)  0.3*(0.03)

5) En un laboratorio hay 7 vacunas para el virus A y 3 vacunas para el virus B. De las vacunas para el virus A, tres son fabricados en el Perú y el resto en el extranjero; mientras que de las vacunas para el virus B, uno es fabricado en Perú y dos en el extranjero. Suponiendo que del laboratorio se seleccionado al azar una vacuna, cual el la probabilidad de: a) Vacunas para el virus A 90

Bioestadística.

Dr. Cleto De La Torre Dueñas

b) Sean fabricados en el Perú. c) Vacunas para el virus B y fabricado en el extranjero. d) Vacunas para el virus B o fabricado en el extranjero. d) Vacunas para el virus A, dado que sea fabricado en el Perú. Solución.

Fabricado en

Vacunas para

Vacunas para

el virus A

el virus B

Total

3

1

4

4

2

6

7

3

10

el Perú Fabricado en el extranjero Total

Sean los eventos: A: Vacunas para el virus B. B: vacunas para el virus A. C: fabricados en el Perú, D: Fabricado en el extranjero. a) P( B) 

n( B ) 7   0.7 n() 10

b) P(C ) 

n(C ) 6   0.6 n() 10

c) P( A  D) 

n( A  D ) 2   0.4 n ( ) 10

d) P( A  D)  P( A)  P( D)  P( A  D)  P( A  D) 

n( A) n( D) n( A  D)   n (  ) n ( ) n ( )

3 6 2 7     0.7 10 10 10 10

n( B  C ) P( B  C ) n( B  C ) 4 n()    e) P ( B | C )  n(C ) P (C ) n(C ) 7 n()

91

Bioestadística.

Dr. Cleto De La Torre Dueñas

4) Una enfermedad puede estar producida por tres virus A, B, y C. En el laboratorio hay 3 tubos de ensayo con el virus A, 2 tubos con el virus B y 5 tubos con el virus C. La probabilidad de que el virus A produzca la enfermedad es de 1/3, que la produzca B es de 2/3 y que la produzca el virus C es de 1/7. Se inocula un virus a un animal y contrae la enfermedad. ¿Cuál es la probabilidad de que el virus que se inocule sea el C

Solución Sean los eventos A: Enfermedad producida por el virus A. B: Enfermedad producida por el virus B. C: Enfermedad producida por el virus C. E: El virus produce la enfermedad.

E

1/3

A

D

3/10

E

2/3 2/10

B D

5/10

1/7

E

C D

p(C | E ) 

p(C  E ) p (C ) p ( E | C )  p( E ) p( A) p( E | A)  p( B) p( E | B)  p(C ) p ( E | C )

3 1 * 21 10 3 p(C | E )    32.8% 3 1 2 2 5 1 64 *  *  * 10 3 10 3 10 7

92

Bioestadística.

Dr. Cleto De La Torre Dueñas

4.- Suponga que una prueba medica para diagnosticar la presencia de un determinado virus, da positivo en el 99% de los casos que se aplica a personas que posean virus, y que da negativo en el 97% de los casos que se aplica a personas que no lo poseen. Si se cree que la probabilidad de que una persona elegida al azar tenga el virus es 0.05 ¿Cual es la probabilidad de que una persona tenga realmente el virus cuando la prueba le haya dado positivo¿ Solución Sean los eventos B: La prueba da positivo V: La persona tiene Virus P( B / V )  0.99 , P(V )  0.05

P(V / B) 

P( B / A).P(V ) P( B / V ) P(V )  P( B / V c ).P(V c )

P(V / B) 

0.99*0.05  0.6346 0.99*0.05  0.03*0.95

Proporciones. Son los cocientes entre dos mediciones, por ejemplo si en una población de 2500 habitantes se diagnostican 150 casos de gripe aviar, entonces, la proporción de enfermos es de 150/2500 = 0.06 (6%). El valor de una proporción puede variar así de 0 a 1, y suele expresarse como un porcentaje.

Razones. Al igual que en el caso anterior es una división, pero aquí el numerador no forma parte del denominador como en le caso anterior, por ejemplo, la razón entre la población con gripe aviar y la sana es 150/2350 = 3/47 =0,064. Cuando, como en el caso del ejemplo, la razón se calcula entre la probabilidad de que ocurra un evento y la probabilidad de que éste no ocurra, la razón recibe también el nombre de odds. El valor de una odds varía entre cero y el infinito. El valor 0 corresponde al caso en que la enfermedad nunca ocurra, mientras que el valor infinito correspondería teóricamente a una enfermedad que esté siempre presente. 93

Bioestadística.

Proporcion 

Odds Odds  1

Dr. Cleto De La Torre Dueñas

Odds 

Proporcion 1  Proporcion

Tasas. El concepto de tasa es similar al de una proporción, con la diferencia de que las tasas llevan incorporado el concepto de tiempo. El numerador lo constituye la frecuencia absoluta de casos del problema a estudiar. A su vez, el denominador está constituido por la suma de los períodos individuales de riesgo a los que han estado expuestos los sujetos susceptibles de la población a estudio. De su cálculo se desprende la velocidad con que se produce el cambio de una situación frente a otra. Se han considerado dos tipos de tasas:

Prevalencía P. Esta tasa cuantifica la proporción de elementos de una población que presentan una determinada característica en un momento P

Numero elementos con la caracteristica en un momento dado Total de la poblacion en ese momento

La Incidencia I. La incidencia se define como el número de características nuevas que se desarrollan en una población durante un período de tiempo determinado. Hay dos tipos de medidas de incidencia: la incidencia acumulada y la tasa de incidencia, también denominada densidad de incidencia. La incidencia acumulada es la proporción de los elementos sin la característica que desarrollan la característica a lo largo de un período de tiempo concreto. P

Numero elementos nuevos con la caracteristica en un momento dado Total de la poblacion en ese momento

La incidencia acumulada proporciona una estimación de la probabilidad o el riesgo de que un elemento a desarrollar la característica durante un período especificado de tiempo. Como cualquier proporción, suele venir dada en términos de porcentaje. Además, al no ser una tasa, es imprescindible que se acompañe del periodo de observación para poder ser interpretada.

94

Bioestadística.

Dr. Cleto De La Torre Dueñas

Sensibilidad. Es la probabilidad de clasificar correctamente a un elemento muestreado con la característica, es decir, la probabilidad de que para un elemento muestreado se clasifique sin la característica. La sensibilidad es, por lo tanto, la capacidad del test o criterio para detectar la característica. Cuando los datos obtenidos a partir de una muestra se clasifican en una tabla, es fácil estimar a partir de ella la sensibilidad como la proporción de elementos con la característica Sensibilidad 

Número de elementoscon la característica Numero de elementostotales con y sin la caracteristica

Especificidad. Es la probabilidad de clasificar correctamente a un elemento sin la característica, es decir, es el caso complementario a la sensibilidad

Especificidad 

Número de elementossin la característica Numero de elementostotales con y sin la caracteristica

Riesgo. Es la incertidumbre frente a decidir por el desconocimiento del comportamiento de una variable o elemento muestreado. Su valor es obtenido mediante Predicción: La presencia de un factor de riesgo significa un riesgo aumentado de presentar en un futuro una evaluación o futuro la característica muestreada, en comparación el resto de elementos de la población.

Causalidad. La presencia de un factor de riesgo no es necesariamente causal. El aumento de incidencias de una característica en un población en relación a otro grupo, se asume como factor de riesgo, sin embargo esta asociación puede ser debida a una tercera variable.

Tests diagnósticos Los tests diagnósticos son una aplicación del teorema de Bayes a la Medicina, y se basan en lo siguientes tres puntos:

95

Bioestadística.

Dr. Cleto De La Torre Dueñas

1. Se sospecha que un paciente puede padecer cierta enfermedad, que tiene una incidencia de la enfermedad en la población (probabilidad de que la enfermedad la padezca una persona elegida al azar) de P(A); donde A={ Padecer la enfermedad} 2.

Como ayuda al diagnóstico de la enfermedad, se le hace pasar una serie de pruebas (tests), que dan como resultado: 

Positivo, T  , si la evidencia a favor de que el paciente esté enfermo es alta en función de estas pruebas;



Negativo, T  , en caso contrario.

Previamente, sobre el test diagnóstico a utilizar, han debido ser estimadas las cantidades: Sensibilidad.

Es la probabilidad que el test de positivo sobre una persona que sabemos que padece la enfermedad, P (T  / A) .

Para ello se entrena el test o el

instrumento con pacientes positivos y se evalúa el grado de confianza del test o instrumento con respecto al resultado correcto. Especificidad: Es la probabilidad que el test de negativo sobre una persona que no la padece, P(T  / Ac ) . Con tal fin se entrena el istrumento o test con pacientes negativos y se mide el grado de acierto de resultados negativos. La sensibilidad y especificidad se denominan también respectivamente tasa de verdaderos positivos y tasa de verdaderos negativos. Estas cantidades son calculadas de modo aproximado, antes de utilizar el test diagnóstico, considerando grupos suficientemente numerosos de personas de las que sabemos si padecen la enfermedad o no, y estimando los porcentajes correspondientes. Por ejemplo se toman 100 personas sanas y 100 enfermas, y se observa que:

96

Bioestadística.

Dr. Cleto De La Torre Dueñas

A

Ac

T

89

3

T

11

97

Total

100

100

Tasa de verdaderos positivos: 89% Tasa de falsos positivos: 3% Tasa de verdaderos negativos: 97% Tasa de falsos negativos: 11%

3. teniendo en cuenta el resultado del test diagnóstico, se utiliza el teorema de Bayes para ver cual es, a la vista de los resultados obtenidos, la probabilidad de que realmente esté enfermo si le dio positivo (índice predictivo de verdaderos positivos), mide el grado de acierto positivo en pacientes que el test o instrumento desconocen y esta definido.

P(T  / A) P( A) P( A / T )  P(T  / A) P( A)  P(T  / Ac ) P( Ac ) 

O la de que esté sano si le dio negativo (índice predictivo de verdaderos negativos), mide el grado de acierto negativo en pacientes que el test o instrumento desconocen y esta definido.

P(T  / Ac ) P( Ac ) P( A / T )  P(T  / Ac ) P( Ac )  P(T  / A) P( A) c



Ejemplo 1.- Con el objeto de diagnosticar la colelietasis se usan los ultrasonidos. Tal técnica tiene una sensibilidad del 91% y una especificidad del 98%. En la población que nos ocupa, la probabilidad de colelietasis es de 0,2. a).- Si a un individuo de tal población se le aplican los ultrasonidos y dan positivos, ¿cuál es la probabilidad de que sufra la colelietasis?

97

Bioestadística.

Dr. Cleto De La Torre Dueñas

b).- Si el resultado fuese negativo, ¿cuál sería la probabilidad de que no tenga la enfermedad? Solución: Vamos a utilizar la siguiente notación: 

A={Padecer la enfermedad (colelietasis)};



Ac={No padecer la enfermedad};



T+ ={ El resultado del test es positivo};



T+ ={ El resultado del test es negativo};

Los datos de que disponemos son las probabilidades condicionadas

P(T  / A)  Sensibilidad=0.91 P(T  / Ac )  Especificidad=0.98

y la incidencia de la enfermedad en la población P( A)  0.20

En el primer apartado se pide calcular el Indice Predictivo de Verdaderos Positivos, P ( A / T  ) ,que por el teorema de Bayes es:

P( A / T  ) 

P(T  / A) P( A) P(T  / A) P( A)  P(T  / Ac ) P( Ac )

P( A / T  ) 

P(T  / A) P( A) P(T  / A) P( A)  (1  P(T  / Ac ))(1  P( A))



(0.91)(0.2)  0.9192 (0.91)(0.2)  (0.02)(0.8)

En el segundo apartado, se ha de calcular el Indice Predictivo de Verdaderos Negativos, P( Ac / T  ) ,

98

Bioestadística.

Dr. Cleto De La Torre Dueñas

P( Ac / T  ) 

P(T  / Ac ) P( Ac ) P(T  / Ac ) P( Ac )  P(T  / A) P( A)

P( Ac / T  ) 

P(T  / Ac ) P( Ac ) P(T  / Ac ) P( Ac )  (1  P(T  / A)) P( A) 

(0.98)(0.8)  0.9775 (0.98)(0.8)  (0.09)(0.2)

Problemas Propuestos. 1.-Una anomalía física de una persona puede deberse sólo a las siguientes tres razones: Mala postura al sentarse, razones genéticas o por accidentes. Se ha observado que el 60% de las anomalías físicas se debe a razones genéticas, el 30% de estas se debe a mala postura al sentarse y el 34% a accidentes. El 12% se debió a mala postura y no a razones genéticas. El 30% de debió a accidentes y no a razones genéticas. El 29% se debió a accidentes y no a mala postura. El 72% se debió a mala postura o a razones genéticas. Si se elige una persona con anomalía física, calcular la probabilidad de que: a) La anomalía se produzca por las tres razones mencionadas. b) La anomalía se produzca por razones genéticas y no por mala postura. c) La anomalía se produzca sólo por accidente y no por las otras dos razones.

2.-Estamos interesados en saber cuál de dos análisis A y B es mejor para el diagnóstico de una determinada enfermedad, de la cual sabemos que la presenta un 10 % de individuos de la población. El porcentaje de resultados falsos positivos del análisis A es del 15% y el de B es del 22%. El porcentaje de falsos negativos de A es del 7% y el de B es del 3% a).- ¿Cuál es la probabilidad de acertar en el diagnóstico con cada análisis? b).- ¿Qué análisis usaría usted y por qué?

99

Bioestadística.

Dr. Cleto De La Torre Dueñas

3.- Una prueba diagnóstica para el cáncer uterino tiene una proporción de falsos positivos de 0.05 y de falsos negativos de 0.10. Una mujer con una probabilidad de 0.15 de padecer la enfermedad tiene un resultado negativo en la prueba. a) ¿Cuál será la probabilidad de que no esté enferma? b) Si el resultado es positivo en la prueba ¿Cuál será la probabilidad de esté realmente enferma?

4.- En una clínica hay internados 50 pacientes de los cuales 8 poseen insuficiencia cardiaca. Si se eligen 4 pacientes sin reemplazo de la clínica ¿Cuál será la probabilidad de que? a) a lo más uno tenga insuficiencia cardiaca b) a lo menos tres no tengan insuficiencia cardiaca c) exactamente dos tengan insuficiencia cardiaca d) Ninguno tenga insuficiencia cardiaca 5.- En una cierta población se ha observado un número medio anual de muertes por cáncer de pulmón de 5. Si el número de muertes causadas por la enfermedad sigue una distribución de Poisson, ¿Cuál es la probabilidad de que durante el año en curso: a) haya exactamente 3 muertes por cáncer al pulmón? b) más de dos personas mueran por cáncer al pulmón? c) Si se consideran 5 años ¿Cuál es la probabilidad de que en al menos 2 años, más de dos personas mueran por cáncer al pulmón?

6.- La probabilidad de muerte resultante del uso de píldoras anticonceptivas es de 3/100000. De 200000 mujeres que utilizan este medio de control de natalidad: a).- ¿Cuántas muertes debido a esta causa se esperan? b).- ¿Cuál es la probabilidad de haya como máximo 3 de estas muertes?.

5.- Una prueba de laboratorio para detectar heroína en la sangre tiene un 92% de precisión. Si se analizan 7 muestras en un día, ¿Cuál es la probabilidad de que?:

100

Bioestadística.

Dr. Cleto De La Torre Dueñas

a).- 6 o menos estén correctamente evaluadas b).- Menos de 3 estén correctamente evaluadas c).- Si en el laboratorio hay 50 muestras y se eligen 5 sin reemplazo, ¿Cuál es la probabilidad de que hayan sido mal evaluadas 4 o más?

6.- Una mujer portadora de hemofilia tiene 3 hijos ¿Cuál es el espacio muestral apropiado para estudiar la posible hemofilia de estos?

7.- Un experimento consiste en seleccionar al azar 4 personas y observar si su sangre tiene el factor RH+ o el factor RH-. a).- Indique el espacio muestral. b).- Enumere los elementos de los sucesos que se describe a continuación A: Por lo menos tres personas tienen sangre con RH+ B: A lo mas dos personas tienen sangre con RH-.

8.- Con la finalidad de determinar la efectividad de una prueba de sangre para detectar cierta enfermedad se realizo un estudio sobre 100 personas. De los 100 personas elegidas, al azar, las pruebas convencionales determinaron que 10 de ellas padecían la enfermedad y 90 de ellas no las tenian. En el grupo que no las padecía ,86 individuos resultaron con pruebas negativas y 4 resultaron con pruebas positivas. En el grupo de las personas que tenian la enfermedad se encontraron tres individuos con pruebas negativas y siste con positivas .A partir de los datos, ¿Cuál es la probabilidad de que una persona con prueba positiva padezcan la enfermedad?

9.- Con el fin de probar la efectividad de un test para detectar enfermedades renales en pacientes con hipertensión, se escogieron 200 pacientes hipertensos obteniéndose los siguientes resultados: 56 pacientes tenían afecciones renales, en 55 pacientes con enfermedad renal el test resulto positivo, en 13 pacientes sin enfermedad renal el test resulto positivo.

101

Bioestadística.

Dr. Cleto De La Torre Dueñas

a).- Hallar la “tasa falsa positiva” del test, esto es, la probabilidad que el test resulte negativo dado que el paciente sufre de afecciones renales. b).- Hallar la “tasa falsa negativa” del test, esto es la probabilidad que el test resulte positivo dado que el paciente no sufre de afecciones renales.

10.- Un especialista duda entre tres enfermedades E 1,E2 y E3 , posibles en un paciente observando el estado general del paciente , al especialista le parece que E1 es tres veces mas probable que cualquiera de las otras dos. Sin embargo, ordena un examen de sangre el que se sabe resulta positivo en el 10% de los casos cuando E1 es la causa de la dolencia, en el 90% de los casos cuando la causa de la dolencia es la E 3 y en el 20% de los casos cuando la causa de la dolencia es la E2. Si el resultado del análisis fue positivo ¿cual es la probabilidad final de cada enfermedad? .A la luz de los resultados ¿se puede afirmar que E1 es tres veces mas probable que cualquiera de las otras dos enfermedades?

11.- Un biólogo clasifica un tipo de mosquitos de acuerdo a su habita y el periodo de actividad que esta presenta Espacio cerrado

Espacio abierto

am

50

110

9-11 am

20

60

4-6

70

90

7-9

pm

Si selecciona al azar un mosquito. a)

Cual es la probabilidad de que su habita sea un lugar cerrado.

b)

Cual es la probabilidad de que su habita sea un lugar abierto

c)

Que probabilidad existe de que pertenezca a un lugar cerrado y su actividad este entre 7-9am.

d)

Dado que su habita es cerrado. Cual es la probabilidad de que su actividad este entre 4-6

102

pm.

Bioestadística.

Dr. Cleto De La Torre Dueñas

12.- En un grupo de 50 personas hay 4 que tienen sangre con factor RH- . Hallar la probabilidad de que escogidos 5 personas al azar y de una sola vez , dos de ellas tengan el factor indicado.

13.- Se estima que, en un país desarrollado, el 15% de la población adulta padece hipertensión, y que el 75% de todos los adultos cree no padecerla. También se sabe que el 6% de adultos tienen hipertensión y creen lo contrario. Si un individuo cree no padecerla) cuál es la probabilidad de que, realmente, la tenga ?; y si un individuo la padece, ) cuál es la probabilidad de que lo sepa ?

14.- En una industria de productos Químicos, las unidades son producidas por tres líneas en proporciones 25:35:40. Un 5% un 4% y un 2% de las unidades producidas por cada línea, respectivamente, son defectuosos. Las unidades son mezcladas y enviadas a los compradores. a).- Determine la probabilidad que una unidad escogida al azar sea defectuosa b).- Si un cliente encuentra una unidad defectuosa, determine la probabilidad que se haya producido en la primera línea 

15.- Un banco de sangre dispone de diez unidades de sangre tipo A .De ellas, cuatro están contaminadas con suero

de hepatitis. Se ha seleccionado

aletoriamente tres unidades de entre las diez para utilizarlas con tres pacientes diferentes. ¿Cual es la probabilidad de que un solo paciente este expuesto a contraer la hepatitis por esta causa?

16.- Una prueba diagnóstica para el cáncer uterino tiene un coeficiente falsopositivo de 0,05 y falso-negativo de 0,10. Una mujer con una probabilidad pre-prueba de padecer la enfermedad de 0,15 tiene un resultado negativo con la misma. Calcular la probabilidad de que no esté enferma.

103

Bioestadística.

Dr. Cleto De La Torre Dueñas

17.- El 60% de los individuos de una población están vacunados contra una cierta enfermedad. Durante una epidemia se sabe que el 20% la ha contraído y que 2 de cada 100 individuos están vacunados y son enfermos. Calcular el porcentaje de vacunados que enferma y el de vacunados entre los que están enfermos.

18.-

La

proporción

de

alcohólicos

que

existe

en

una

población

es,

aproximadamente, un 10%; no obstante, en las bajas que dan los médicos de la Seguridad Social difícilmente se encuentra el diagnóstico de alcoholismo. Aparecen sin embargo diagnosticados de hepatopatías, lumbalgias, etc., que pueden hacer sospechar alcoholismo subyacente. Se realizó un estudio que puso de manifiesto que el 85% de los individuos alcohólicos y el 7% de los no alcohólicos sufrían tales patologías. Se desea saber cuál es la probabilidad de que un individuo con esas patologías sea realmente alcohólico.

19.- Dos tratamientos A y B curan una determinada enfermedad en el 20% y 30% de los casos, respectivamente. Suponiendo que ambos actúan de modo independiente, cuál de las dos siguientes estrategias utilizaría para curar a un individuo con tal enfermedad: a) Aplicar ambos tratamientos a la vez. b) Aplicar primero el tratamiento B y, si no surte efecto, aplicar el A.

20.- Se eligen al azar 3 deportistas de un equipo de 10 integrantes para realizar un control antidopaje; Se sabe que 2 de los jugadores del equipo han tomado sustancias prohibidas. ¿Cuál es la probabilidad de elegir para el análisis a alguno de los infractores?

21.- Estamos interesados en saber cuál de dos análisis A y B es mejor para el diagnóstico de una determinada enfermedad, de la cual sabemos que la presentan un 10% de individuos de la población. El porcentaje de resultados

104

Bioestadística.

Dr. Cleto De La Torre Dueñas

falsos positivos del análisis A es del 15% y el de B es del 22%. El porcentaje de falsos negativos de A es del 7% y de B es del 3%. ¿Cuál es la probabilidad de acertar en el diagnóstico con cada método?

22.- Con objeto de diagnosticar la colelitiasis se usan los ultrasonidos. Tal técnica tiene una sensibilidad del 91% y una especificidad del 98%. En la población que nos ocupa la probabilidad de colelitiasis es del 20%. a).- Si a un individuo de tal población se le aplican los ultrasonidos y dan positivos, ¿cuál es la probabilidad de que sufra la colelitiasis? b) Si el resultado fuese negativo, ¿cuál es la probabilidad de que no tenga la enfermedad?

23.- Los estudios epidemiológicos indican que el 20% de los ancianos sufren un deterioro neuropsicológico. Sabemos que la tomografía axial computerizada (TAC) es capaz de detectar este trastorno en el 80% de los que lo sufren, pero que también da un 3% de falsos positivos entre personas sanas. Si tomamos un anciano al azar y da positivo en el TAC, ¿cuál es la probabilidad de que esté realmente enfermo?

24.- Una enfermedad puede estar producida por tres virus A, B, y C. En el laboratorio hay 3 tubos de ensayo con el virus A, 2 tubos con el virus B y 5 tubos con el virus C. La probabilidad de que el virus A produzca la enfermedad es de 1/3, que la produzca B es de 2/3 y que la produzca el virus C es de 1/7. Se inocula un virus a un animal y contrae la enfermedad. ¿Cuál es la probabilidad de que el virus que se inocule sea el C?

25.- Los genetistas han identificado dos cromosomas sexuales X e Y en los seres humanos. Todo individuo tiene un cromosoma X, y la presencia de un cromosoma Y, distingue al individuo como varón, por lo que los dos sexos se caracterizan como XX (hembra) y XY (macho). El daltonismo es causado por

105

Bioestadística.

Dr. Cleto De La Torre Dueñas

un alelo recesivo en el cromosoma X que denotamos por x. El cromosoma Y no tiene conexión con la ceguera al color. De modo que, en función de tal deficiencia, se consideran tres genotipos para las mujeres y dos para los varones.

Mujeres

Varones

XX (normal)

XY (normal)

Xx (portadora)

xY(daltónico)

xx (daltónica)

Si cada hijo hereda un cromosoma sexual de cada progenitor seleccionado de forma aleatoria. a) Calcular la probabilidad de que un hijo de portadora de ceguera al color y un varón normal sea un varón daltónico. b) Si esta pareja tiene tres hijos ¿cuál es la probabilidad de que los tres sean varones daltónicos? Si esta pareja tiene cinco hijos, ¿cuál es la probabilidad de que a lo sumo dos sean varones daltónicos? ¿Cuál es la probabilidad de que tres o más sean mujeres?. 26.- La siguiente tabla muestra la distribución de 400 personas según hábito de fumar y presencia de bronquitis. HÁBITO DE BRONQUITIS FUMAR

TOTAL

SI

NO

FUMA

140

110

250

NO FUMA

50

100

150

TOTAL

190

210

400

a) Si se elige una persona al azar ¿Cuál es la probabilidad de que: i) Fume y tenga bronquitis ii) No fume dado de que tiene bronquitis

106

Bioestadística.

Dr. Cleto De La Torre Dueñas

iii) No tenga bronquitis dado que fuma iv) No fume o tenga bronquitis. b) Los sucesos "Fumar" y "Tener bronquitis" son independientes?

27.- Supongamos que en un examen para detectar cáncer, el 90% de quienes tienen cáncer y el 5% de los que no tienen cáncer muestran una reacción positiva. Se sabe que en un hospital el 1% de los pacientes tiene cáncer. Si un paciente es elegido al azar del hospital y tiene una reacción positiva en este examen ¿Cuál será la probabilidad de que tenga realmente cáncer?

28.- En una clínica de rehabilitación se atienden pacientes con problemas físicos, fisiológicos y neurológicos los que representan el 25, 35 y 40 por ciento del total de pacientes. De éstos el 5, 4 y 2 por ciento tienen una edad entre 5 y 15 años. Si escogemos un paciente al azar y resulta tener edad entre 5 y 15 años. ¿Qué tipo de problema es más probable que tenga?.

29.- En un laboratorio las máquinas A, B y C fabrican el 25, 15 y 60 por ciento del total de los remedios, respectivamente. De lo que producen el 2, 4 y 6 por ciento respectivamente no cumplen las normas.

Si escogemos un remedio al

azar de la producción y no cumple las normas.¿Cuál máquina cree Ud. es más probable que lo haya fabricado?

30.-El 60% de los habitantes de una población están vacunados contra una cierta enfermedad. Durante una epidemia se sabe que el 20% la ha contraído y que 2 de cada 100 habitantes están vacunados y están enfermos. a) ¿Qué porcentaje de los vacunados enferma? b) ¿Qué porcentaje de los que están enfermos está vacunado?

31.-Dos tratamientos A y B curan una determinada enfermedad en el 20% y 30% de los casos respectivamente. Suponiendo que ambos actúan de modo

107

Bioestadística.

Dr. Cleto De La Torre Dueñas

independiente ¿Cuál de las dos siguientes estrategias utilizaría usted para curar a un sujeto con tal enfermedad? c) Aplicar ambos tratamientos a la vez. d) Aplicar primero el tratamiento B y, si no hace efecto, aplicar el A. 32.-En un estudio sobre enfermedades pulmonares, se ha examinado a 5000 personas de más de 60 años de edad, de las cuales 2000 son fumadores habituales. Entre los fumadores 900 tiene alguna afección pulmonar y entre los no fumadores, 750 tienen alguna afección pulmonar. e) Si se escoge una persona al azar determine la probabilidad de que: i) presente afección pulmonar si no fuma. ii) fume si presenta alguna afección pulmonar. f) Si se escogen tres personas, determine la probabilidad de que: i) ninguna presente afecciones pulmonares. ii) exactamente dos fumen. iii) a lo más dos presenten afecciones pulmonares. g) ¿Son independientes las enfermedades pulmonares del hábito de fumar?

33.-Si el 20% de lentes para microscopio producidos por una máquina son defectuosos. h) Determinar la probabilidad de que de 4 lentes elegidos al azar : i)

uno sea defectuoso.

ii) ninguno sea defectuoso iii) a lo más 2 sean defectuosos. i) Si se envía un pedido de 400 lentes para microscopios ¿Cuál es el número esperado de lentes defectuosos en el pedido? j) Si se eligen sucesivamente estos lentes hasta que aparece el primero defectuoso, encuentre la probabilidad de seleccionar 12 lentes.

108

Bioestadística.

Dr. Cleto De La Torre Dueñas

34.-Al inocular ratas con una sustancia presumiblemente tóxica generalmente el 10 % muere. Si se inoculan 20 ratas con esta sustancia, k) ¿Cuál es la probabilidad de que: i) 5 ratas mueran? ii) a lo más 3 ratas mueran ? l) ¿Cuál es el número esperado de mortalidad ?

35.-El departamento encargado de clasificar los medicamentos que ingresan a un hospital los clasifica según su duración, en tres tipos: A, B y C . El 15 % de los medicamentos, los de mayor duración son del tipo A; el 10 %

los de menor

duración son del tipo C y el resto del tipo B. Si suponemos que la duración de los medicamentos sigue un modelo normal con una media de 30 semanas y una desviación

estándar

2,5 semanas y el departamento pone a la venta

inmediatamente los medicamentos de la clase C. Hallar :

a) La duración mínima para que el medicamento sea clasificado como del tipo A. b) La duración máxima para que el medicamento sea puesto inmediatamente a la venta. c) El laboratorio que fabrica los medicamentos garantiza reponer el 5% de los medicamentos de menor duración. ¿Cuál será el tiempo de duración máxima que debe dar como garantía? d) Si se mantiene la desviación estándar de la duración ¿Cuánto deberá ser la duración media de los medicamentos si se considera que los medicamentos del tipo A aumente al 30 %?

109

Bioestadística.

Dr. Cleto De La Torre Dueñas

CAPITULO VI VARIABLE ALEATORIA Y DISTRIBUCIONES DE PROBABILIDAD. Definición.- Una variable aleatoria (v.a) X es cualquier función, que transforma cada elemento del espacio muestral  , en un numero real.

X :

  X  

Al conjunto de posibles valores de X se le llama rango de X (Rx)  Si Rx es finito o enumerable (rango discreto), entonces X es una v.a Discreta.  Si Rx no es enumerable (rango continuo), entonces X es una v.a Continua. Función de Probabilidad.- Si X es una v.a discreta, la función de probabilidad de X viene dada por:





PX  x   P  X  x   P  / X    x , tal que

 P ( x)  1

xRx

X

Función de densidad.- Si X es una v.a continua, la función de densidad de X es una aplicación

fX :

 0, 

b

tal que

P  a  X  b    f X ( x)dx a





f X ( x)dx  1



110

,tal que

Bioestadística.

Dr. Cleto De La Torre Dueñas

Función de distribución.- La función de distribución de una v.a X esta dada por: FX ( x)  P( X  x)  P(   / X ( )  x)

Propiedades.  F es continua por la derecha y es creciente  Si X es una v.a discreta , entonces P  a  X  b   F  b   F  a   P  X  a   Si X es una v.a continua , entonces P  a  X  b   F  b   F  a   Si X es una v.a continua , entonces F ' ( x) 

dF ( x)  f ( x) dx

 lim x FX ( x)  0 y lim x FX ( x)  1

Definición.X, denotada por E ( X ) o  X se

La esperanza o media de una variable aleatoria

define según sea la variable discreta o continua, mediante:   x.P  X  x  , si X es discreta  xRx EX      x. f ( x)dx, si X es continua  xRx

Propiedades.  El valor esperado de una constante es dicha constante  E  a  bX   a  bE  X 

Definición.- La varianza de una variable aleatoria X cuya media o esperanza es

 X , se define como V  X    X2  E  X   X   E  X  E  X    E  X   E 2  X  2

2

2

Propiedades.  La raíz cuadrada de la varianza se llama desviación estándar.   X2  E  X    X2 2

 V  aX  b   a 2V ( X )

Desigualdad de Chebyshev.

111

Bioestadística.

Dr. Cleto De La Torre Dueñas

Si X es una variable aleatoria, entonces para cualquier k   se cumple P  X   X  k X   1 

1 k2

Ejercicio resuelto. 1.- Sea X la variable aleatoria definida como la suma de los valores que aparecen al lanzar dos dados. a) Determine la distribución de probabilidad. b) Calcule la probabilidad P(5 0

conocido

-Si la población no es Ha:  < 0 normal pero n  30 Prueba de Medias

Ha:   0

H0:  = 0 vs

Ha:  > 0

Si se asume que :

Ha:  < 0

Z c  z1 

2

X  0

Zc   /

Z c  z1

n

X  0

Zc  s /

Z c   z1

n

Tc  t1   n  1

Tc 

2

X  0

Tc  t1  n  1

S/ n

Tc  t1  n  1

2 es desconocido Prueba

de

diferencias

de Ha: 1  2

Medias

Ha: 1 > 2

H0: 1 = 2 vs:

Ha: 1 < 2

Asumiendo

 12 y  22 Conocidos --Si las poblaciones no son

154

normales

pero

Zc 

X1  X 2

2

 n2

Z c  z1

X1  X 2

Z c   z1

12 n1

Zc 

Z c  z1 

2 2

s12 s22  n1 n2

Bioestadística.

Dr. Cleto De La Torre Dueñas

n1  30 y n2  30 Prueba de diferencia de Medias

Ha: 1  2

H0: 1 = 2 vs Asumiendo

Tc  S X1 1X21 p

Ha: 1 > 2 que: Ha: 1 < 2

 12   22 y

n1 n2

Tc  t1  n1  n2  2 2

Tc  t1  n1  n2  2 

n1 1S12 n2 1S22

Sp 

n1  n2  2

Tc  t1  n1  n2  2

desconocidos Prueba de diferencia de Medias

Ha: 1  2

H0: 1 = 2 vs

Ha: 1 > 2

Asumiendo que:

Ha: 1 < 2

 12   22

y

Tc  v

X1  X 2 S12 S22  n1 n2

S12 S12 2 n ) n1 1 ( S12 / n1 ) 2 ( S 22 / n2 ) 2  n 1 n1 1 2

(

Tc  t1   v  2

Tc  t1  v 

Tc  t1  v 

desconocidos Prueba de varianzas

Ha:  2   02

H0: 2 =  02 vs

Ha: 

2

  02

  2 c

c2  2  n 1 ó c2  12  n  1 2

 n1S 2  02

2

c2  1  n  1

Ha:  2   02

c2    n  1 Prueba de razón de Ha:  2   2 1 2 varianzas. Ha:  12   22 H0:  12

  22

Prueba proporciones

Ha:  12   22

vs

155

2

2

2 Smax

Fc  S 2

Fc  F1  n1  1, n2  1

min

Fc  F  n1  1, n2  1 de Ha: p  p0 Ha: p > p0

H0: p =p0 Vs

Fc  F  nmax 1, nmin 1 ó Fc  F1

Ha: p < p0

Zc 

p  p0 p (1 p )/ n

Zc  z1

2

Z c  z1

Zc   z1

Bioestadística.

Dr. Cleto De La Torre Dueñas

Prueba de diferencia de proporciones

Ha: p1  p2

Zc 

Ha: p1 > p2 H0: p1 =p2 Vs

Ha: p1 < p2

pc 

p1  p2 pc (1 pc ) pc (1 pc )  n1 n2

n1 p1  n2 p2 n1  n2

Z c  z1 

2

Z c  z1

Z c   z1

EJERCICIOS RESUELTOS 1.-La concentración media de dióxido de carbono en el aire en una cierta zona no es habitualmente mayor que 355 p.p.m.v. (partes por millón en volumen). Se Sospecha que esta concentración es mayor en la capa de aire mas próxima a la superficie. Para contrastar esta hipótesis se analiza el aire en 60 puntos elegidos aleatoriamente a una misma altura cerca del suelo. Resulto una media muestral de 580 p.p.m.v. Suponiendo normalidad para las mediciones, proporcionan estos datos suficiente evidencia estadística, al nivel de 95% de confianza, a favor de la hipótesis de que la concentración media es mayor cerca del suelo? . Use

  180 Solución Formulación de hipótesis. H0:  = 355 Ha:  > 355 Nivel de significancia,   5% Estadística de prueba. X  0

Zc   /

n

  180 , z1  1.645 , n  60, x1  580 580 355 Zc  180  9.68 / 60

Región critica

156

Bioestadística.

Dr. Cleto De La Torre Dueñas

=5% Z0=1.645 Zc =9.68 Región Aceptación

Región Crítica

Conclusión. Como Z c  Z o Se rechaza la hipótesis nula, por la concentración media de dióxido de carbono en el aire es mayor cerca del suelo.

2- Se tienen algunos indicios de que el consumo de tabaco tiende a provocar problemas de trombosis debidos a un aumento en la capacidad de coagulación. Para estudiar esta hipótesis, Levine (1973) extrajo muestras de sangre de 9 individuos antes y después de que fumasen un cigarrillo y midió la capacidad de

agregación

de

las

plaquetas,

obteniendo

los

datos

siguientes

(correspondientes al máximo porcentaje de plaquetas que se agregaron después de haber sido sometidas a un estimulo adecuado):

Antes

25

25

27

44

30

67

53

53

52

Después

27

29

37

56

46

82

57

80

61

4

10

12

16

15

4

27

9

Diferencia 2

Hay suficiente evidencia estadística (al nivel de significación 0,05) a favor de la hipótesis de que los fumadores presentan una mayor tendencia a la formación de coágulos? Indicar las condiciones que se requieren para que el test utilizado sea valido. Solución Formulación de hipótesis. H0: d = 0 Ha: d  0

157

Bioestadística.

Dr. Cleto De La Torre Dueñas

Nivel de significancia,   5% Estadística de prueba.

Tc 

X  0 S/ n

s  7.76 , t(1 / 2,n1)  2.262 n  9, x1  11

Tc 

11  0  4.25 7.76 / 9

Región critica

t0=–2.26 R.R. H0

R.A. H0

t0=2.26 tc=4.25 R.R. H0

Conclusión. Se rechaza la hipótesis nula, por que los fumadores presentan una mayor tendencia a la formación de coágulos. 3.- Con el propósito de verificar la efectividad de un tratamiento basado en ejercicios para el aumento de la talla en niños de 10 años (en cms.), se realizó un experimento aplicando el tratamiento a 13 niños y considerando 16 como controles, el que arrojó los siguientes resultados: Tratados Controles

n1  13 , x1  138.6 , S12  29.16

n2  16 , x2  125.8 , S2 2  26.7

Solución. Formulación de hipótesis. H0: 1 = 2 Ha: 1  2 Nivel de significancia,   5%

158

Bioestadística.

Dr. Cleto De La Torre Dueñas

Estadística de prueba. Supongamos que las varianzas poblacionales son iguales, entonces el estadístico de prueba es:

Tc 

X1  X 2 Sp

1  1 n1 n2

 t (n1 + n2 -2)

De la información se tiene: n1  13 , x1  138.6 , S12  29.16

Tratados

n2  16 , x2  125.8 , S2 2  26.7

Controles

Sp 

 n1 1 S12  n2 1 S22

Tc 

X1  X 2

n1  n2  2

Sp

1 1 n1 n2





131*29.16 16 1*26.7 1316  2

 5.27

138.6  125.8  6.50 1 1 5.27 * 13  16

Región critica

T0  t1   n1  n2  2  t0.975 13  16  2   t0.975  27   2.052 2

Conclusión.

t0=–2.052 R.R. H0

t0=2.052 R.A. H0

tc=6.50

R.R. H0

Como Tc  T0 , entonces se rechaza H0, por tanto el método los ejercicios permiten mejorar el crecimiento.

4.- Se aplica un medicamento a 15 pacientes que padecen cierta enfermedad, escogidos al azar, y un placebo a 20 pacientes. En el primer grupo, la desaparición del estado febril se observa a las 19 horas de tratamiento en promedio (con un desvío de 2 hs.). En el grupo control, la mejoría se observa

159

Bioestadística.

Dr. Cleto De La Torre Dueñas

en promedio a las 25 horas con un desvío de 3 horas. Decidir si el medicamento modifica el tiempo de curación.

Solución. Formulación de hipótesis. Ho : 1  2 , el medicamento es inocuo.

Ha : 1  2 , el medicamento produce efecto.

Nivel de significancia,   5% Estadística de prueba. tc 

 25  19   0  9  4     20   15 

 7.06

Región critica Es un ensayo de dos colas donde los valores críticos se buscan en la Tabla tstudent, interpolando entre 30 y 40 grados de libertad.

T0  t1   n1  n2  2  t0.975  20  15  2   t0.975  33  2.0357 2

Conclusión. Se acepta la hipótesis nula. Como Tc  T0 , se rechaza Ho , es decir 1  2 5.- En un estudio sobre las preferencias de un grupo de especialistas, sobre el uso de dos tipos de tratamiento (A y B) para una enfermedad. De 600 especialistas encuestados, respondieron: 20% prefiere el tratamiento A para la enfermedad, y 15 % el tratamiento B. ¿Es posible concluir con 95% de confianza que las preferencias de los tratamientos A y B son similares? Solución. Formulación de hipótesis. H0: p1 =p2 Ha: p1  p2 Nivel de significancia,   5%

160

Bioestadística.

Dr. Cleto De La Torre Dueñas

Estadística de prueba.

Zc 

p1  p2 pc (1 pc ) pc (1 pc )  n1 n2

Tratamiento A. p1  0.2 , n1  600

Tratamiento B. p2  0.15 , n2  600 pc 

n1 p1  n2 p2 600*0.2  600*0.15   0.175 n1  n2 600  600

Zc 

p1  p2 pc (1 pc ) pc (1 pc )  n1 n2



0.20  0.15 0.175(1 0.175) 0.175(1 0.175)  600 600

 2.279

Región critica

=5% Zc =2.279

Z0=1.96 Región Aceptación

Región Crítica

Conclusión. Como

Z c  Z o , se rechaza la hipótesis nula, por tanto

p1  p2

EJERCICIOS PROPUESTOS

1. Se escogen al azar dos grupos formados por 20 individuos cada uno, entre los que padecen cierta alergia. Se administra una droga curativa al primer grupo y se observa una mejoría en 15 de los casos. Al segundo grupo se le

161

Bioestadística.

Dr. Cleto De La Torre Dueñas

administra un placebo y mejoran 13 de ellos. Ensayar la hipótesis que la droga sirve para curar ese tipo de alergia.

2. Se escogen 5 pacientes al azar, del grupo que concurre diariamente al Laboratorio de Análisis Clínicos a efectuarse una determinación de Uremia. Las muestras extraídas se miden con el procedimiento habitual y además con una nueva técnica clínica que se desea probar. Ver si hay diferencia entre ambas técnicas. Los resultados expresados en g/l fueron:

Pacientes

Vieja

Nueva

Diferencias

1

0.38

0.33

0.05

2

0.54

0.45

0.09

3

0.22

0.15

0.07

4

0.11

0.09

0.02

5

0.23

0.22

0.01

3. El jefe de un laboratorio se encuentra con una técnica de medición fuera del control estadístico. Para investigar las causas decide investigar si el factor humano tiene incidencia, y toma una muestra de suero cualquiera la divide en 20 alícuotas. Luego elige 10 de ellas al azar y se las entrega al laboratorista 1 para que haga las determinaciones; las restantes las encomienda al laboratorista 2 para que las mida. Los resultados obtenidos son: S12  2.4 es la varianza obtenida por el laborista, 1 y S 22  0.8 para el otro. Decidir si hay diferencia en dispersión entre ambos. 4. Dos tipos de soluciones químicas A y B fueron ensayadas para medirle su pH. Se tomaron 6 muestras de A que dieron una media de 7,48 con un desvío de 0,02. De la B se tomaron 5 muestras y se obtuvo una media de 7,32 con un desvío de 0,03. Con esta información decidir si ambas muestras tienen el mismo pH.

162

Bioestadística.

5.

Dr. Cleto De La Torre Dueñas

Se escogen 5 pacientes al azar, del grupo que concurre diariamente al Laboratorio de Análisis Clínicos a efectuarse una determinación de Uremia. Las muestras extraídas se miden con el procedimiento habitual y además con una nueva técnica clínica que se desea probar. Ver si hay diferencia entre ambas técnicas. Los resultados expresados en g/l fueron:

Paciente 1 2 3 4 5 Vieja 0.38 0.54 0.22 0.11 0.23 Nueva 0.33 0.45 0.15 0.09 0.22 Diferencia 0.05 0.09 0.07 0.02 0.01 6. Un dentista afirma que el 40% de los niños de 10 años presentan indicios de caries dental. Tomada una muestra de 100 niños, se observó que 36 presentaban indicios de caries. Contrastar la hipótesis del dentista para un nivel de confianza del 90%.

7. Se tienen algunos indicios de que el consumo de tabaco tiende a provocar problemas de trombosis debidos a un aumento en la capacidad de coagulación. Para estudiar esta hipótesis, Levine (1973) extrajo muestras de sangre de 11 individuos antes y después de que fumasen un cigarrillo y midió la capacidad de agregación de las plaquetas, obteniendo los datos siguientes (correspondientes al máximo porcentaje de plaquetas que se agregaron después de haber sido sometidas a un estimulo adecuado):

Antes: Después

25 25 27 29

27 44 37 56

30 67 53 46 82 57

53 80

52 61

60 59

28 43

¿Hay suficiente evidencia estadística (al nivel de significación 0,01) a favor de la hipótesis de que los fumadores presentan una mayor tendencia a la formación de coágulos? Indicar las condiciones que se requieren para que el test utilizado sea valido.

163

Bioestadística.

Dr. Cleto De La Torre Dueñas

8. Una compañía farmacéutica afirma que cierto medicamento elimina el dolor de cabeza en un cuarto de hora en el 90% de los casos. Tomada una muestra de 200 pacientes a los que se les administro el medicamento, se observó la desaparición del dolor en 170 de ellos. Contrastar la hipótesis de la compañía.

9. Se deseaba saber si los individuos sometidos a dos tipos de intervenciones con objeto de reparar fracturas en el brazo, y sometidos al mismo tipo de rehabilitación, conseguían la misma fuerza. Para ello, después de un mes de la intervención y tras 15 días de ejercicios de rehabilitación, se les sometió a una prueba consistente en levantar pesos progresivos con el brazo afectado hasta llegar a un máximo. ¿Qué se puede afirmar a la vista de los resultados que figuran a continuación?: 2 Intervención 1: n1  8, x1  12.3, s1  4.61

Intervención 2: n2  15, x2  11.1, s22  4.35

10. Se sabe que los individuos con un infarto temprano (antes de los 35 años) tienen un riesgo alto de volver a sufrir otro infarto en los siguientes 5 años. Se piensa que tal riesgo se reduce si las personas con infarto temprano se someten a una serie prolongada de ejercicios de esfuerzo. a) ¿Qué se puede decir de la efectividad de tales ejercicios si, de 60 personas sometidas a ellos, 16 registraron un nuevo infarto, en tanto que ello sucedió en 83 personas de las 198 que no se sometieron a los mismos? b) Evaluar la ganancia obtenida; c) Sin la información anterior, ¿con qué tamaño de muestra debería haberse diseñado el experimento para que un test al 5% de error detecte una diferencia de riesgos del 10% en el 90% de las ocasiones?

11. Determine un intervalo de 95% de confianza para la diferencia entre las tallas medias de los niños tratados y controles .¿Puede concluir a partir del

164

Bioestadística.

Dr. Cleto De La Torre Dueñas

intervalo encontrado que el tratamiento es más efectivo para el crecimiento de los niños? 12. Encontrar un intervalo de 95% de confianza para la varianza de la talla de los niños controles.

13. Determine entre qué valores se encontrará la verdadera talla promedio de los niños tratados, si desea una confianza de 99%. Con este resultado ¿Podría asegurar que la talla promedio de los niños tratados en la población es de 145 cms.?

14. Si en un estudio posterior se desea estimar la talla promedio de los niños a los cuales se les aplica el tratamiento con una confianza de 95% y un error no superior a 2 cms.. ¿Cuántas observaciones se deberán hacer?

15. Se desea probar la efectividad de una vitamina en el crecimiento de ratas. De una muestra aleatoria de 20 ratas se escogen al azar 12 para aplicarles el tratamiento y se dejan 8 como controles (no se les aplica el tratamiento). Después de un tiempo se miden las ratas y sus longitudes (en pulgadas) fueron las siguientes : Tratadas : 7.4 ; 7.4 ; 7.5 ; 7.6 ; 7.9 ; 7.9 ; 8.0 ; 8.1 ; 8.2 ; 8.3 ; 8.4 ; 8.4 Controles : 7.2 ; 7.3 ; 7.4 ; 7.3 ; 8.0 ; 8.2 ; 8.2 ; 8.5 a)

Pruebe la hipótesis de que la vitamina es efectiva (proporciona longitudes mayores) con una confiabilidad de 95%.

b)

Encuentre un intervalo de 90% de confianza para la diferencia de longitudes entre los dos grupos.

c)

Pruebe la hipótesis de que la varianza poblacional para los tratados es de 0.8 pulgadas cuadradas a un nivel de significación de 1%.

d)

Si se desea estimar el crecimiento medio de las ratas tratadas con una confiabilidad de 95% y un error no mayor que 0.5 pulgadas ¿Cuántas ratas se deben escoger para aplicarles el tratamiento?

165

Bioestadística.

Dr. Cleto De La Torre Dueñas

15.- Se sospecha que una nueva droga es efectiva en el 90% de los casos para una cierta enfermedad, pero el laboratorio que fabrica dicha droga cree que es efectiva en menos del 90%. En una muestra aleatoria de 400 personas que tenían esa enfermedad, 320 sanaron con la aplicación de la droga. a) ¿Cree Ud. que el laboratorio tiene razón? Use una significación de 1%. b) ¿Entre qué valores se encuentra la verdadera proporción de efectividad de la droga con una confiabilidad de 95%? c) Si se desea estimar la proporción de efectividad de la droga con un error de 5% y una confiabilidad de 95% ¿En cuántas personas deberá ser aplicada la droga? (Use la muestra anterior como muestra piloto)

16- Un psicólogo afirma que su terapia para tratar la depresión en adolescentes es efectiva, reduciendo en promedio 20 unidades en una escala de 0 a 100. El jefe de la unidad de terapia piensa que esta cifra es exagerada y pide realizar un estudio. En una muestra de 16 adolescentes que fueron tratados con esta terapia se ha medido el nivel de reducción de la depresión resultando una media de 18 y una varianza de 3 unidades. Con un nivel de confianza del 95% cual es su conclusión.

17.-Un psicólogo desea evaluar la eficacia de dos terapias para tratar problemas de estrés, para ello selecciona al azar 70 pacientes y forma aleatoriamente dos grupos. El primer grupo de 30 pacientes fue tratado con la terapia A y el segundo grupo de 40 pacientes con la terapia B. Al cabo de un tiempo se les mide su nivel de estrés en una escala de o a 100. los resultados son, para la terapia A, su media es 40 y para la terapia B es 60. Suponiendo que las desviaciones son  1  55,  2  20 . Al nivel de significancía del 2%, cual es su conclusión.

166

Bioestadística.

Dr. Cleto De La Torre Dueñas

18.- El colegio de psicólogos realizo un estudio para comparar la efectividad de dos terapias para tratar problemas de suicidios en adolescentes, para tal efecto se considero 300 pacientes para la terapia A y 100 para B, resultando que la terapia tuvo efecto en 25 y 40% de los casos respectiavemente. Al nivel de confianza del 95%, cual es su conclusión.

19.- Se afirma que cierta terapia que se prescribe para tratar la ansiedad es efectiva en menos del 50% de los casos. Al parecer esta afirmación no se ajusta a la realidad, por lo que se les aplica esta terapia a 70 pacientes, resultando que 50 de ellos han experimentado mejoras. Esta suficiente evidencia para concluir que realmente la terapia es efectiva en más del 50% de los casos al nivel de significancia del 5%.

20.- Un psicólogo afirma que su terapia para tratar la depresión en adolescentes es efectiva, reduciendo en promedio 20 unidades en una escala de 0 a 100. El jefe de la unidad de terapia piensa que esta cifra es exagerada y pide realizar un estudio. En una muestra de 10 adolescentes que fueron tratados con esta terapia se ha medido el nivel de reducción de la depresión ,obteniéndose los siguientes resultados 17,18,23,20,19,16,17,22,25,16. Con un nivel de confianza del 97% cual es su conclusión.

21.- Un psicólogo desea evaluar la eficacia de dos terapias (Ay B) para tratar problemas de estrés, para ello selecciona al azar 100 pacientes y forma aleatoriamente dos grupos de tamaños iguales. Al cabo de un tiempo se les mide su nivel de estrés en una escala de o a 100. los resultados son, para la terapia A, su media es 55 y para la terapia B es 65. Suponiendo que las desviaciones son  1  105,  2  120 . Al nivel de significancía del 5%, cual es su conclusión.

167

Bioestadística.

Dr. Cleto De La Torre Dueñas

22.-El colegio de psicólogos realizo un estudio para comparar la efectividad de dos terapias para tratar problemas de suicidios en adolescentes, para tal efecto se considero 300 pacientes para la terapia A y 100 para B, resultando que las terapias tuvieron efecto en 100 y 60 pacientes respectivamente. Al nivel de confianza del 98%, cual es su conclusión.

23.- Se afirma que cierta terapia que se prescribe para tratar la ansiedad es efectiva en 60% de los casos. Al parecer esta afirmación no se ajusta a la realidad, por lo que se les aplica esta terapia a 35 pacientes, resultando los siguientes datos 1,0,0,1,1,1,1,0,1,0,1,1,1,1,1,0,0,1,0,0,1,1,1,1,1,0,0,0,1,0,1,0,1,0,1 donde 1 indica que el tratamiento es efectivo y 0 que no es efectivo para tratar la ansiedad. En base a la información, cual es su conclusión respecto a la terapia al 98%.

24.- Se pretende realizar un estudio para determinar el porcentaje de adolescentes que tienen problemas de adicción a drogas en una población de 20000 habitantes. Suponiendo que esta población esta dividida en tres regiones, el primero formado por 20%, el segundo por 50% y el tercero por el resto. Describa el plan de muestreo con 95% de confianza y 5% de error.

25.- Consideremos dos yacimientos de mineral de cobre. Los yacimientos se dividieron en secciones, y se analizaron muestras procedentes de secciones correspondientes, determinando su contenido en cobre como muestras en paralelo. Los datos obtenidos fueron los siguientes:

Yacimiento 1

25.5

23.1

28.2

24.4

31.5

25.7

27.9

28.7

Yacimiento 2

24.8

21.6

21.6

17.5

25.2

19.2

15.1

27.8

¿Existe una diferencia significativa entre los dos yacimientos en lo que refiere a su contenido en metal?. =0.05

168

Bioestadística.

Dr. Cleto De La Torre Dueñas

26.- El límite superior especificado de impurezas de una sustancia es 0.01 por 100. El analista repite el análisis cinco veces y encuentra los siguientes resultados: 0.009, 0.012, 0.0113, 0.0821 y 0.0915. Teniendo en cuenta el error experimental, ¿es significativamente superior el promedio de impurezas al especificado del 0.01%?. =0.01

27.- Se instala un nuevo dispositivo de filtrado en una unidad química. Antes y después de su instalación una muestra aleatoria proporcionó los siguientes resultados acerca del porcentaje de impurezas: Tiempo

Tamaño de

Promedio

Variancia

muestra

aritmético

Antes

40

12.5

101.17

Después

35

10.2

94.73

¿Ha reducido significativamente el porcentaje de impurezas el dispositivo de filtrado?. =0.05

28.- Un biólogo sostiene que las concentraciones altas de actinomisina D inhiben la síntesis de ARN en las células y, por consiguiente, también la producción de proteínas. En un experimento realizado para probar esta teoría, se compara la síntesis del ARN en células tratadas con dos concentraciones de actinomisina D, 0.6 y 0.7 microgramo por milímetro, respectivamente. De las 70 células tratadas con la concentración más baja, 55 se desarrollaron normalmente, mientras que sólo 28 de las 50 tratadas con la concentración alta se desarrollaron normalmente. ¿Proporcionan estos datos suficiente evidencia para concluir que hay diferencia entre las tasas de síntesis del ARN normales para las células expuestas a las dos concentraciones de actinomisina D?. =0.10

169

Bioestadística.

Dr. Cleto De La Torre Dueñas

CAPITULO IX PRUEBA DE CHI-CUADRADO Las pruebas de hipótesis desarrolladas anteriormente, están basadas en el supuesto de que la muestra pertenezca a una población con distribución conocida. Muchas de las investigaciones científicas Aquí abordaremos dos problemas muy interesantes dentro de lo que se conoce con el nombre de estadística no paramétrica. La prueba de homogeneidad y la prueba de independencia. La justificación de estos problemas es comparar las frecuencias esperadas y las observadas.

Tabla de contingencia. Es relativamente frecuente encontrarse con información referida a la observación de dos características de una población, en las que se establecen modalidades o categorías, mediante las cuales se clasifican los individuos o elementos que constituyen una muestra de la misma. Este tipo de distribución bidimensional de frecuencias suele presentarse en forma de tabla de doble entrada, también llamada tabla de contingencia. La información obtenida del estudio generalmente se presenta en una tabla de contingencias, en esta se tiene un conjunto de n elementos clasificados de acuerdo a dos criterios, X e Y, cada uno de los cuales tiene una serie de categorías mutuamente excluyentes:

170

Bioestadística.

Dr. Cleto De La Torre Dueñas

Total

Y1

Y2

...Y j ...

Yc

X1

o11

o12

o1 j

o1c

n1.

X2

o21

o22

o2 j

o2c

n2.

...

...

...

...

...

...

Xi

oi1

oi 2

oij

oic

ni.

...

...

...

...

...

...

Xr

or1

or 2

orj

orc

nc .

n.1

n.2

n. j

n.c

n

Total

En esta tabla, oij representa la frecuencia observada, es decir, el número de individuos que pertenecen simultáneamente a las categorías X i e Y j . r

c

i 1

j 1

o. j   nij y oi.   nij

En esta sección se verán las pruebas de homogeneidad y de independencia. Si bien ambas pruebas presentan el mismo procedimiento de cálculo, las hipótesis a probar son diferentes y por lo tanto las conclusiones obtenidas también. PRUEBA DE HOMOGENEIDAD. En ocasiones ocurre que tenemos a varias poblaciones clasificadas de acuerdo con las categorías definidas para una determinada variable. La pregunta que se sugiere inmediatamente es si la proporción de individuos pertenecientes a cada una de las clases es la misma en todas las poblaciones. Si, con la información suministrada por las muestras obtenidas, se puede aceptar que esto es así, diremos que las poblaciones son homogéneas con respecto a la variable de clasificación utilizada. Existen r poblaciones y una muestra aleatoria es extraída desde cada población. Sea ni. el tamaño de la muestra extraída de la i-ésima población. Cada observación de cada muestra puede ser clasificada en una de c categorías 171

Bioestadística.

Dr. Cleto De La Torre Dueñas

diferentes. Los datos son arreglados en la siguiente tabla de contingencia r  c:

... .. . … . ..

Categoría Categoría Población 1 O11 O12 2 1 O22 Población 2 O21   



 Población r Total

 O r2 n.1

. O r2 n.2

Categoría Total n 1 •. O 1c c O2c n2•   

.



.... …

 o rc n.c

n r. n.. nr-



En la tabla, oij es el número de observaciones de la muestra i clasificadas en la categoría j; n.j es el número total de observaciones en la categoría j extraídas desde las r poblaciones y n.. es el total de observaciones extraídas desde las r poblaciones. Hipótesis: Sea  ij la probabilidad de que una observación seleccionada de la población i sea clasificada en la categoría j. Entonces las hipótesis son: Ho: 1j =... = r j para todo j = 1, 2,…c H1: Al menos una igualdad no se cumple. Las hipótesis pueden expresarse equivalentemente de la siguiente manera: H0: La variable aleatoria tiene la misma distribución de probabilidades en las r poblaciones. H1: La variable aleatoria tiene una distribución de probabilidades diferente en al menos una de las poblaciones. La estadística de prueba esta dado por: r

xc2   j 1

c

(oij  eij )

j 1

eij



 x 2 (r  1)(c  1) donde eij  ni .x

n. j n..

Regla de decisión: La hipótesis nula se rechaza con un nivel de significación a si el x c2 resulta mayor

172

Bioestadística.

Dr. Cleto De La Torre Dueñas

que el valor de tabla x21 ,( r 1)( c1)

PRUEBA DE INDEPENDENCIA Esta prueba permite analizar si dos variables aleatorias son o no independientes. Dado una muestra aleatoria de tamaño n.. es extraída, y cada observación de la muestra es clasificada de acuerdo a dos criterios (variables X y Y). Usando el primer criterio cada observación es clasificada en una de r filas y usando el segundo criterio en una de c columnas. Los datos son arreglados en la siguiente tabla de contingencia rxc:

Fila 1 Fila 2

Fila r Total

Columna Columna ... 0 11 0 12 . .. 1 2 0 21 0 22 ...

O r2 n .i

O r2 n .2

. .

.. ..

Columna c Total O ic ni. 0 2c n2.

0 rc n.,

n ro n..

En la tabla, o jj es el número de observaciones clasificadas en la fila i columna j, n i . es el número total de observaciones en la fila i y n. j es el número total de observaciones en la columna j. Hipótesis: Sea  ij la probabilidad de que una observación sea clasificada en la fila i columna j,  i . la probabilidad de que una observación sea clasificada en la fila i y  . j la probabilidad de que una observación sea clasificada en la columna j. Entonces las hipótesis son: Ho:  ij   i. . j para todo i = 1, ... r, j = 1, ... c. H1: Al menos una igualdad no se cumple. Las hipótesis pueden expresarse, en forma equivalente de la siguiente manera: 173

Bioestadística.

Dr. Cleto De La Torre Dueñas

Ho: Las variables X y Y son independientes. HI: Las variables X y Y no son independientes. Estadístico de prueba: r

xc2   j 1

c

(oij  eij )

j 1

eij



 x 2 (r  1)(c  1) donde eij  ni .x

n. j n..

Regla de decisión: Se adopta la siguiente regla de decisión: 

Si c2  (2r 1)( c 1) entonces se acepta la hipotes H 0



Si c2  (2r 1)( c 1) entonces se rechaza la hipotes H 0

Como puede observarse el procedimiento es muy similar al de la prueba de homogeneidad, y a veces suelen confundirse. EJERCICIOS RESUELTOS 1.

En una investigación realizada sobre las reacciones adversas que producen tres tipos de extractos para el tratamiento de una enfermedad, se obtuvo los siguientes resultados. Tratamiento Reacciones adversas

A

B

C

Total

Si

70

100

150

320

No

130

100

50

280

Total

200

200

200

600

¿Podemos concluir con 95% de confianza que el la presencia de interacciones de los tres fármacos es similar? Solución. H0: El porcentaje de reacciones adversas es homogéneo para los tres tratamientos.

174

Bioestadística.

Dr. Cleto De La Torre Dueñas

H1: El porcentaje de reacciones adversas no es homogéneo para los tres tratamientos.



2 c

e11 

320* 200 320* 200 320* 200  106.67 , e12   106.67 , e13   106.67 600 600 600

e21 

280* 200 280* 200 280* 200  93.33 , e22   93.33 , e23   93.33 600 600 600

 70  106.67  

2

106.67

100  106.67  

2

106.67

150  106.67   106.67

2

130  93.33 

2

93.33

100  93.33  93.33

2

 50  93.33 

c2  65.625 De la tabla de chi-cuadrado , 02  5.991

1 

o2=5.99 R.A. H0

o2=65.625 R.R. H0

Como  c2   02 , se rechaza la hipótesis nula La proporción de reacciones adversas de los tres tratamientos no es similar. 2.- En un estudio sobre enfermedades al corazón en hombres, 356 voluntarios fueron clasificados de acuerdo con su nivel socioeconómico y sus hábitos de fumar. Los datos se presentan en la siguiente tabla:

Habito de fumar

Nivel Socioeconómico Alto

Medio

Bajo

Total

Actualmente

51

22

43

116

En el pasado

92

21

28

141

Nunca

68

9

22

99

211

52

93

356

Total

175

93.33

2

Bioestadística.

Dr. Cleto De La Torre Dueñas

¿Es el hábito de fumar independiente del nivel socioeconómico? Las hipótesis a contrastar serán las siguientes: Ho: El hábito de fumar es independiente del nivel socioeconómico. HI: El hábito de fumar no es independiente del nivel socioeconómico. Las frecuencias observadas y esperadas (frecuencias espe radas entre paréntesis) se presentan en la siguiente tabla:

Nivel Socioeconómico Habito de fumar Alto

Medio

Bajo

Total

Actualmente

51 (68.75)

22(16.94)

43(30.30)

116

En el pasado

92(83.57)

21(20.60)

28(36.83)

141

Nunca

68(58.68)

9(14.46)

22(25.86)

99

211

52

93

356

Total

Con estos datos el estadístico de prueba es: 2 c

x

3

3

i 1

j 1



o

ij

 eij  eij

2

 18.510

x 2 (3  1)(3  1)

Los grados de libertad para el estadístico de prueba son (3 -1)(3-1) = 4. El 2 valor de tabla para un nivel de significación del 5% es x(0.95,4)  9.488 . Como el

valor calculado es mayor que el valor de tabla se rechaza H o y se concluye que existe suficiente evidencia estadística para aceptar que el hábito de fumar

y

el

nivel

socioeconómico

están

relacionados (o

no

son

independientes). 3.- Los siguientes datos fueron obtenidos en un estudio sobre la enfermedad de Hodgkin, un cancer de los nodos linfaticos . Cada uno de los 538 pacientes con la enfermedad fue clasificado según el tipo de Histilogia y por su respuesta al tratamiento después de tres meses de iniciado este. Los valores de la variable 176

Bioestadística.

Dr. Cleto De La Torre Dueñas

Histilogia considerados fueron, predominancia de Linfocitos (PL), Esclerosis Nodular (EN), Celularidad Mixta (CM) y agotamiento de los Linfocitos (AL). Los datos obtenidos fueron:

Histologia

Respuesta

Total

Positiva

Parcial

Ninguna

PL

74

18

12

104

EN

68

16

12

96

CM

154

54

58

266

AL

18

10

44

72

Total

314

98

126

538

La respuesta al tratamiento esta relacionado el tipo de Histología. Solución Ho: La respuesta al tratamiento no esta relacionado el tipo de Histología. (Independientes) HI: La respuesta al tratamiento

esta relacionado el tipo de Histología

(Dependientes)

Histilogia

PL EN CM AL

Total

Frecuencia observada Frecuencia esperada Frecuencia observada Frecuencia esperada Frecuencia observada Frecuencia esperada Frecuencia observada Frecuencia esperada Frecuencia observada Frecuencia esperada

Positiva 74 60.7 68 56.0 154 155.2 18 42.0 314 314.0

Respuesta Parcial 18 18.9 16 17.5 54 48.5 10 13.1 98 98.0

Ninguna 12 24.4 12 22.5 58 62.3 44 16.9 126 126.0

Total 104 104.0 96 96.0 266 266.0 72 72.0 538 538.0

EL p-valor, juega un papel muy importante en la decisión de las hipótesis. Si pvalor < 0.05 se acepta la hipótesis alterna con un nivel de confianza del 95%, en

177

Bioestadística.

Dr. Cleto De La Torre Dueñas

este caso influye el factor; en el caso que p > 0.05 la decisión es aceptar la hipótesis nula, no influye el factor. En nuestro ejemplo p-valo