Libro BIOESTADISTICA-CANALES.pdf

· B I O E S T A D ( S T I C A Herramienta para la Investigación ANGEL CANALES BIOESTADÍSTICA. Herramie

Views 31 Downloads 0 File size 96MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

·

B

I

O

E

S

T

A

D

(

S

T

I

C

A

Herramienta para la Investigación

ANGEL CANALES

BIOESTADÍSTICA. Herramient� para la Investigación

Autor-Editor:

© Ángel Canales Gutiérrez Puno - Perú

Primera

Edición, 201 1

Tiraje: 1000 ejemplares Diagramación y Edición: 1von Rocío Gutierrez Flores Hecho el Depósito Legal en la Biblioteca Nacional del Perú Nº 2 0 1 1 - 1 2 1 1 6 ISBN: 978-612-00-0700-6

Impreso en: Corporación MERÚ E.I.R.L. Jr. Puno 2 1 9 Interior esq. Con Jr. Moquegua, Telef. ( 0 5 1 ) 363934 - Puno Puno - Perú Octubre, 201 I

PRESENTACION

La bioestadística,

es

una herramienta fundamental para realizar

trabajos de investigación, donde se analiza variables biológicas, que sirven para plantear y probar hipótesis.

Muchos

investigadores

bioestadística última,

descriptiva

siendo

una

poseen e

limitaciones

ínferencíal,

limitante

para

para

principalmente

publicar

e

aplicar en

interpretar

esta los

resultados obtenidos de la investigación.

El libro Bioestadística: Herramienta para la investigación, permitirá al investigador encaminar en el campo de la investigación desde una

biocstadístíca

descriptiva

simple

hasta

una

prueba

ínfercncial,

permitiendo una mayor rigurosidad en la interpretación y discusión de los resultados obtenidos.

La aceptación o rechazo de una hipótesis, no será posible sino no se aplica una prueba bioestadística adecuada. En el libro existe una variedad

de

ejemplos

con variables

biológicas,

que

posibilita

al

lector-investigador aplicar pruebas inferenciales.

Contrariamente, existirá investigadores que no le dan importancia a la aplicación de pruebas bioestadísticas, siendo una respuesta a la limitación del conocimiento y utilidad de las diversas pruebas que detecten diferencias y/o igualdades en la investigación.

EL

l 1

t

AUTOR

ÍNDICE

PÁG.

CAPÍTULO l. Principios de la bioestadística

07

1 . 1 Reseña histórica

07

1 . 2 Población y muestra

08

1 . 3 Precisión y exactitude

09

1 . 4 Parámetro

11

1 . 5 Esta dígrafo

11

1 . 6 Ciclo metodológico

1 1.

1.7Variables

13

1 . 8 Distribución de frecuencias

15

1 . 9 Representación gráfica de datos

27

1 . 1 0 Problemas propuestos

·

31

CAPÍTULO II. Estadística descriptiva

33

2 . 1 Media

33

2 . 2 Mediana

37

2 . 3 Moda

40

2 . 4 Desviación estándar

43

2 . 5 Varianza

48

2 . 6 Coeficiente de variabilidad

49

2 . 7 Problemas propuestos

50

CAPITULO 1 1 1 . Probabilidades, distribuciones, límites de confianza, hipótesis, asimetrías

52

3 . 1 Probabilidades

52

3 . 2 Distribución normal de probabilidad

53

3 . 3 Distribución de P o i s s o n y espacial

56

3 . 4 Intervalos de confianza

64

3.SAsimetríayKurtosis

66

3 . 6 Pruebas de hipótesis

69

3.7Tamañodemuestra

75

3 . 8 Problemas propuestos

82

CAPITULO IV. Pruebas bioestadístícas paramétricas

83

4 . 1 Supuestos para pruebas bioestadísticas

83

4.2 ANDEVA de clasificación simple

94

4.3 ANDEVA factorial

110

4.4 Regresión

127

4 . 5 Correlación

134

4.5 Problemas propuestos

143

CAPITULO V. Pruebas no paramétricas

14 7

5 . 1 J i cuadrado

149

5 . 2 Tabla de contingencia

154

5 . 3 Kruskal Wallis

159

5 . 4 Mann Whitney

169

5 . 5 Friedman Two Way

172

5 . 6 Problemas propuestos

177

ANEXOS

179

BIBLIOGRAFÍA

217

_il. Canales G.

Bioestadistica

CAPITULO I

PRINCIPIOS DE LA BIOESTADISTICA

1 . 1 . RESEÑA HISTÓRICA: ETAPA INICIAL DE LA SISTEMATIZACIÓN Y ETAPA ACTUAL 1 . 2 . POBLACIÓN MUESTRA 1 . 3 . PRECISIÓN Y EXACTITUD 1.4. PARÁMETRO 1 . 5 . ESTADÍGRAFO 1 . 6 . CICLO METODOLÓGICO 1 . 7 . VARIABLESCONTINUAS,DISCRETASYATRIBUTOS 1.8. DISTRIBUCIÓN DE FRECUENCIAS 1.9. H I S T O G RA M A E N F O R M A D E F I G U RA S PROBLEMAS PROPUESTOS

1.1.

BREVERESEÑAHISTÓRICA

El desarrollo histórico de la estadística atraviesa por 3 etapas.

a) Se

Etapa inicial extiende

desde

la

antigüedad

hasta

mediados

del

siglo

XVIII.

Se

caracteriza porque la estadística está asociada a los censos poblacionales, registros de bienes y servicios del estado. La palabra estadística deriva del vocablo "estado".

La cultura egipcia contó

con recopilaciones regulares

de

datos

de su

administración estatal, sobresaliendo Saphkit, diosa de los libros y de los cuentos.

b)

Etapa de sistematización

Se caracteriza por la aparición de escuelas que sistematizan la estadística, destacándose tres:

Escuela alemana: Creó la primera cátedra de la estadística considerando

esta disciplina como la descripción de los fenómenos concernientes a estado o administración.

Escuela inglesa: Cuantificaron las leyes que rigen los fenómenos sociales,

como consecuencia "aritmetizaron" la estadística.

07

A. Canales G.

Escuela

Bioestadistica

Francesa:

Introduce

la

teoría

de

las

probabilidades

como

. fundamento m a t e m á t i c o de la estadística.

e)

Etapa actual

Comprendida entre p r i n c i p i o s del siglo XIX hasta nuestros días. En esta etapa,

la

matemática

se

plasma

como

la

columna

vertebral

de

la

estadística y se caracteriza p o r el gran desarrollo alcanzado como ciencia y como metodología de investigación científica aplicada a todas las ramas del saber h u m a n o : biología, medicina, ingeniería, economía, entre otros. La

estadística,

aplicaciones

es

hoy

alcanzan

a

un

campo

casi

todas

extremadamente

las

ciencias

e

activo,

incluso

a

cuyas

todas

las

humanidades.

1.2.

P O B L A C I Ó N Y M U E S T RA

Población Es el conjunto mayor de objetos (universo) que estos tengan al menos una característica, acerca de las cuales se desea información.

Conjunto

de

individuos

de

la

misma

especie

características que viven en un determinado

que

tienen

las

mismas

espacio y tiempo, pueden

ser infinitos o finitos, denominado también universo.

Muestra Es una parte de población que puede ser tomado aleatoriamente y debe ser

una

parte

representativa, fórmulas para

representativa no

podemos

de

la

inferir

determinar el tamaño

población. acerca de

de

muestra,

importante para realizar trabajos de investigación.

Población

X

X

08

Si la

la

muestra

población.

siendo

un

no

es

Existen

dato

muy

Bioes tadística

A. Canales G.

1 . 3 . PRECISIÓN Y EXACTITUD . "Exactitud"

normal,

y

pero

Exactitud,

"Precisión"

se

usan

estadísticamente

es

la

cercanía

de

·

sinónimamente

haremos

un

dato

una

en

la

conversación

distinción.

m e d i d o

o

computado

a

su

verdadero

valor.

Precisión,

Los

es

valores

enteros.

De

pueden,

colonia

bajo

hembras

El

último

l o s

se

y

que

entre

ciertas

machos

el

el

Entre

estos

la

1 , 5

m e d i d a

la

al

de

más

suelen

ser

1 2

y

establecida

Así

una

debe,

los

medida

dicha

existe

nido

y

fr a c c í o n a l ,

otras

exactos.

discretas

Si

en

una

entre

exacto.

precisión,

nosotros

longitud

si

tres,

p r o p o r c i ó n

denotar

se

el

ni

exactos.

la

ente.

números

números

de

o

no

en

parte

número

que

de

longitud

una

números

machos,

hay

cinco

como

también

entre

objeto

nido,

que

derivan

también

continuo

de

que

un

no

menos

medirse

y

en

huevos

o

mismo

necesariamente,

cuatro,

continuas

medidas

exacto.

valor

de

serán

hembras

valor

e s c a l a

valor

y

dos

de

objetarse

la

es

1 8

no

del

huevos

exacto

c o n d i c i o n e s ,

hay

aunque

cuatro

también

variables

verdadero

1 2 , 2 5 m m

longitud

de

sobre

encuentra

decir

las

ser

repetidas

cuatro

número

podrán

animales

dígito

límites

del

discretas,

similar

de

usuales,

correctamente;

tampoco

variables

forma

medidas

contamos

acerca

contado

entre

s o n

cuando

duda

claramente

Las

cercanía

p r e c i s o s

Así,

ninguna

hemos

la

1 2 , 3

encuentra

esto

creemos

en

mm

es,

que

quiere

algún

lugar

1 2 , 3 5 m m .

límites

reales

estructura

definir,

como

de

que

1 2 , 2 5

1 2 , 3 5 ,

m e d i m o s ,

h e m o s

hecho,

no

l o s

se

encuentra

lo

s a b e m o s .

límites

reales

la

verdadera

Algo

como

puede

1 2 , 2 5

y

1 2 , 3 5 m m .

Esto

está

reales

caer

ser

a

de

dado

y

una

medida

escogida

manera

una

claro,

1 2 , 1 5

un

m e d i d a

2 , 2 5

hasta

en

la

m e d i d a

mm.

exacta

de

cualquiera

estado

de

que

1 2 , 2 5

1 2 , 2 5 ?

de

las

insatisfactorio

1 2 , 3 5

mm.

1 2 , 3 4 9 9 9 9 ... ,

¿ D o n d e

así

de

¿Entonces,

corno

¿ N o

dos

en

la

1 2 , 2

tendría

clases

el

implicaría

puede

iguales

1 2 , 3

método?

y

Lo

clasificaríamos,

l o s

de

09

1 2 , 2

consigo

cualquiera

entre

p o s i b i l i d a d e s

1 2 , 2

creando

mismo

en

la

1 2 , 1 5

límites

preguntarse,

ocurriría

clase

y

de

1 2 , 3

1 2 , 2 4 9 9 9

de

esta

con

d e s d e

. . . . .

.A.

Biocstadisuca

G.

Tal argumento es correcto, pero cuando registramos un número como . 1 2 , 2 o 1 2 , 3 denotamos que la decisión, por supuesto, no es arbitraria, sino que está basada sobre la medida más válida. Si la escala de medidas es tan precisa que un valor de 1 2 , 2 5 fuese claramente reconocido, entonces la medida debería registrarse originalmente con cuatro cifras significantes. Los límites reales, por consiguiente, tienen una cifra más que la última cifra significante m e d i d a por el observador.

Límites reales

192 ,3

192, 5

193 ,5

192, 8

192, 75

192, 85

1 9 2 , 76

192 , 7 5 5

192, 765

Una regla fácil de recordar, es que el número de pasos de una unidad desde la más p e q u e ñ a hasta la más grande de las medidas de una ordenación debería estar comprendido entre 3 0 y 3 0 0 . A continuación se presenta en forma de figuras las diferencias entre precisión y exactitud.

Sin error, pero no

Sin error y

preciso :::::No exacto

Con error y no

Con error. pero

=

No exacto

N o exacto

Figura 1 . 2 . Diferencias entre error, precisión en la toma de datos

JO

.il. Canales

Bioes tadis tica

G.

1.4. PARÁMETRO Y ESTADIGRAFO

Parámetro Es un número que describe alguna característica de la población y para determinar

su valor

es

necesario

utilizar la

información

poblacional

completa, y por lo tanto, las decisiones se toman con certidumbre total.

Estadígrafo Es un número que se obtiene a partir de los datos muestrales y describe alguna característica de la muestra y la toma de decisiones contiene un grado de incertidumbre.

1 . 5 . ESTÁDÍSTICA DESCRIPTIVA E INFERENCIAL

Estadística: Es la aplicación de los conocimientos de la matemática con la finalidad de recolectar y analizar datos para obtener información.

Bioestadistica Está relacionado a la recolección y análisis de datos biológicos o variables biológicos.

Ejemplos:

peso,

talla,

temperatura,

número

de

especies,

individuos, número de enfermedades, número de bacterias, entre otros.

Estadística descriptiva Trata de la recopilación, clasificación, presentación y descripción de los datos.

No

diferencias.

es

recomendable

Hay dos

clases

de

utilizar

ésta

estadística

para

estadística descriptiva, los

analizar

estadísticos

centrales o de localización y estadísticos de dispersión. Los estadísticos centrales señalan la p o s i c i ó n de una muestra de dimensión dada. Por lo tanto, un estadístico central debe p o s e e r un valor representativo para la masa de observaciones.

Estadística inferencial N o s proporciona la teoría para tomar decisiones frente a la incertidumbre o afirmar algo acerca de la población a partir de los datos bajo estudio. Esta estadística, es la que debe de emplearse en trabajos de investigación y para publicaciones en revistas científicas.

1 . 6 . CICLO M E T O D O L Ó G I C O ¡ ¡

Cuando no sea posible obtener una información completa de la población,

¡

J

se extraen muestras representativas de dicha población mediante las

11

Bioestadistica

_11. Canales G.

���-��������·

técnicas de muestreo y en base al estudio o información obtenida de los . datos muestrales se toman decisiones frente a la incertidumbre, o se afirma algo acerca de la población total con ayuda de la bioestadística ínferencial.

Este ciclo se cumple en la mayoría de

los trabajos de la bioestadística.

POBLACIÓN

Técnicas de muestreo .

Muestra

0 Bioestadística inferencia!

Figura 1 . 3 . Ciclo metodológico de la bíoestadístíca inferencial. La recolección de los datos, es en forma desordenada, luego procedemos a ordenarlo y una vez ordenada, procedemos a presentar en

forma de

figuras, cuadros y tablas. En este proceso interviene el ciclo metodológico. Ejemplo:

Cuadro 1 . 1 . Procedencia de los Estudiantes de la Facultad de Ciencias Biológicas de la UNA Puno ( 2 0 0 7 ) .

Provincias

Mujeres

Hombres

Ayaviri

40

20

Azángaro

30

20

6

4

80

70

Puno

100

80

Otros

5

4

Huancané

J u l i a ca

12

iL Canales G.

Figura

1.4.

Bioestadistica

Representación

en

forma

de

barras

de

los

datos

numéricos de alumnos de la FCCBB-UNA Puno

1 . 7 . VARIABLES

Qué es variable. Una variable es una p r o p i e d a d c o n r e s p e c t o a la cual l o s i n d i v i d u o s de una

muestra

se

diferencia

muestras

diferencian

a

los

que

han

Conservándose

sentido

en

individuos

sido

de

de

verificable

la

muestra

estudiadas,

uniforme,

etimológico

algo

la

tal

puede

propiedad

palabra,

y

por

y

medible.

bajo

no

no

Si

estudio,

ser

de

sería

tanto,

ni

la

o

propiedad

al

interés

una

menos

no

las

estadístico.

variable

siquiera

a

en

debería

el

ser

llamada así.

Las

variables

pueden

ser

adquieren

relacionadas

valor

con

para

otras

la

investigación

(formar

parte

teoría).

P o d e m o s dividir variables b i o l ó g i c a s c o m o s i g u e :

1

1

l

1

13

J

de

científica

una

cuando

hipótesis

o una

_.A.

Canales

Bioes tadistica

G.

Variables mensurables. Son todas aquellas cuyos diferentes estados pueden ser expresados de una manera numérica. Podemos establecer una división en dos clases:

a.

Las variables continuas

Las cuales teóricamente p u e d e n alcanzar un número infinito de valores entre dos puntos fijos cualesquiera.

Por ejemplo, entre las medidas longitudinales, 1 , 5 y 1 , 6 cm hay un número infinito de longitudes que podrían ser medidas, si se tuvieran un método de calibración suficientemente preciso para obtener tales medidas.

Cualquier

lectura

de

una

variable

continua,

tal

como

de

la

longitud

1 , 5 7mm, es de s d e luego una aproximación a la lectura exacta, la cual en la práctica es incognoscible.

Para medir este tipo de variables se utiliza

e q u i p o s e instrumentos.

E j e m p l o s de variables continuas: longitudes, áreas, volúmenes, pesos, ángulos, temperaturas, períodos de tiempo, porcentajes.

b. En

Variables discontinuas. discretas o merísticas.

contraste

con

las variables

continuas

existe

otro

tipo

llamado

de

variables discontinuas, c o n o c i d o s también como variables discretas o merísticas. Éstas son variables que p o s e e n únicamente algunos valores numéricos fijos y además no pueden tomar valores intermedios entre dichos valores fijos.

Así el número de artejos del apéndice de un insecto dado puede s e r 4; 5 ó 6 pero

nunca

5,5

ó 4,3.

Ejemplos:

El

número

de

una

cierta

estructura

( segmentos, cerdas, dientes ó glándulas), el número de vástagos o prole, el número de colonias de microorganismos, animales, número de plantas en un área determinada, entre otros.

Variable ordinal o atributo Algunas variables no pueden ser medidas, pero pueden ser ordenadas y _ clasificadas por su magnitud. Así, en un experimento se puede clasificar ordenadamente la emergencia de 1 0 pupas sin especificar la hora exacta en la que cada pupa emergió. En tales casos, registramos los datos como una variable ordinal, que es el orden de emergencia.

14

. ..4.

Canales

Bioestadisuca

G .

Las variables que no pueden ser medidas, pero que p u e d e expresarse cualitativamente, reciben el nombre de atributos.

Todas ellas s o n propiedades, tales como blanco o negro, preñada o no preñada,

vivo

o

muerto,

macho

o

hembra.

Cuando

tales

atributos

aparecen combinados con frecuencias pueden tratarse estadísticamente. De 8 0 ratones, p o d e m o s establecer que cuatro de ellos s o n negros y el resto grises. Cuando l o s atributos se combinan con frecuencias en cuadros adecuados para su tratamiento, nos referimos a ellos llamándoles datos de enumeración.

Así, los d a t o s d e enumeración sobre el color de los ratones, se dispondrían como siguen:

Frecuencia

Color Negro

4

Gris

76

Total

80

En algunos casos, los atributos pueden convertirse en variables, si esto se considera necesario. Así, cabe sustituir los colores por longitudes de onda o por valores sobre una figura, los cuales son magnitudes mensurables. Algunos otros atributos que pueden ser clasificados u ordenados, son susceptibles

de

ser

codificados

a

fin

de

convertirlos

en

variables

ordinales. E j e m p l o : Los tres atributos siguientes que designaremos por las

expresiones

"pobremente

desarrollado",

"bien

desarrollado",

e

"hipertrófico", podrían ser codificados convenientemente mediante las cifras

1, 2, 3 . Estos valores denotan el orden de desarrollo pero no la

magnitud relativa entre estos estados de crecimiento.

1 . 8 DISTRIBUCIÓN DE FRECUENCIAS

Cuando se trabaja con conjuntos grandes de datos, con frecuencia es útil organizarlos y resumirlos p o r m e d io de la construcción de una tabla que liste los distintos valores posibles de los datos (ya sea de forma individual o por grupos), junto con las frecuencias correspondientes, es decir, el número de veces que ocurren dichos valores.

Construcción de una distribución de frecuencias 1) Sean las siguientes cifras, los calificativos de un curso de bioestadística,

en el que se han evaluado a n

=

5 6 personas, siendo la escala de evacuación

de O a 1 0 0 .

15

A.. Canales G.

Bioestadisttca

Cuadro 1.2 Datos para la distribución de frecuencias

¡

73

81

44

69

30

38

75

66

76

84

72

82

58

89

73

59

87

63

43

59

64

74

63

63

48

52

77

68

47

53

63

72

52

55

75

43

67

61

87

39

62

75

69

53

79

95

50

38

70

84

82

95

59

75

36

65

'

J

2) El siguiente paso es, ordenarlos sea en sentido creciente o en sentido decreciente. En el presente ejemplo ordenaremos en sentido creciente, es decir del me n o r al mayor dato.

Cuadro 1 . 3 . Ordenamiento de datos del menor al mayor

30

50

61

68

75

84

36

56

62

69

75

87

38

56

63

69

75

87

38

53

63

70

76

89

39,

53

63

72

77

95

43

55

63

72

79

95

43

58

64

73

81

44

59

65

73

82

47

59

66

74

82

48

59

67

75

84

En el cuadro ¿qué relaciones podemos distinguir entre los números? Hay un valor menor o valor mínimo V min = 3 0 Existe un valor mayor o valor m á x i m o = 9 5 Hay datos que se repiten

Existen

relaciones

clasificarán

los

56

que

no

datos

se en

perciben grupos

o

y

para

poder

conjuntos,

percibirlas

que

en

se

lenguaje

bioestadístico se llaman intervalos de clases, según los siguientes p a s o s :

1 . ¿cuántas clases o intervalos necesitaremos? Para saber esto, se utiliza la

fórmula de Sturges.

16

I I i : >es

1 , u

I is t i ,

K = 1 + 3 , 3 l o g l/

En l a q u e : K = número de i n t e r v a l o s o c l a s e s N = n ú m e r o de datos ( t a m a ñ o de la muestra)

La fórmula de Sturges, es de mucha u t i l i d a d d e b i d o a que o r i e n t a y n o s d a una

idea

de

cuantos

intervalos

usar,

pero

es

una

fórmula

poco

c o n s e r v a d o r a y n o s d a un n ú m e r o de i n t e r v a l o s un p o c o m e n o r d e l q u e s e u t i l i z a en la p r á c t i c a . E n este e j e m p l o :

En la fórmula t e n e m o s :

K = 1 + 3,3 log 5 6

log 5 6 = 1 , 7 4 8

K = 1 + 3,3 (1,748) K = 1 + 5,8 K

La

fórmula

es

6,8

conservadora,

entonces

para

obtener

el

número

que

r e a l m e n t e es n e c e s a r i o , r e d o n d e a m o s al s i g u i e n t e entero mayor. K = 7 N o t a : E n la práctica el n ú m e r o de intervalos debe t o m a r s e a l r e d e d o r d e

1 0 , el número de datos con el q u e se trabajan, es más o m e n o s a l r e d e d o r de 1 0 0 .

C u a n d o el n ú m e r o de datos es m e n o r q u e 1 0 0 , el n ú m e r o de i n t e r v a l o s se debe tomar m e n o r de 1 0 . Para un número de datos bastante grande, el n ú m e r o de intervalos es mayor a 1 0 , la p r á c t i c a a c o n s e j a l o s s i g u i e n t e s límites. 5 < K ;;;;,,. 1 5 Lo que quiere decir, es q u e se r e c o m i e n d a q u e el n ú m e r o de c l a s e s n o d e b e ser m e n o r de 5 n i mayor a 1 5 .

2 . Luego se h a c e el r e c o r r i d o o e x t e n s i ó n de l o s datos que se d e n o t a con la letra L. S u fórmula e s :

L = valor m á x i m o - v a l o r m í n i m o + 1

Se debe s u m a r el n ú m e r o

1

c u a n d o l o s d a t o s s e e x p r e s a n en n ú m e r o s

enteros, Si los datos son d e c i m a l e s no se toma l .

1



' '"7

¡

V m a x = 95 V min = 3 0

L = 95 - 30 +1 L= 6 6

Entonces la extensión o r e c o r r i d o en 6 6 .

3 ) La i d e a es resumir l o s valores para percibir algunas características o p r o p i e d a d e s de l o s datos, que no s e notan a s i m p l e vista. Por la fórmula de Sturges t e n e m o s 7 intervalos, clasificando las 5 6 notas en 7 grupos.

El r e c o r r i d o se dividiría en 7 partes iguales o intervalos.

S e d e b e r e p r e s e n t a r el a n c h o o amplitud de cada intervalo con la letra C . Este a n c h o de intervalo s e obtiene mediante la fórmula: L

C = ­ k

L o s valores L y K s o n c o n o c i d o s : L = 6 6 y K = 7 . 0 A p l i c a n d o l o s datos en la fórmula anterior t e n e m o s :

66

e = - = 7

9 43 1

Redondearemos a 1 O.

El entero inmediato inferior a 1 0 es 9, y no es conveniente porque el recorrido de trabajo s e r á :

I = c x K = 9 x 7 = 63 esto daría lugar a que el dato 9 5 se encuentre fuera de este recorrido.

Luego

C

=

10

y

por

lo

tanto

el

recorrido

de

c o n s e c u e n c i a de r e d o n d e a r 9 . 4 3 a 1 0 s e r á :

T = c x K = 10 x 7 = 70

trabajo

obtenido

como

� L Canales

.

4)

Teniendo

n. en

Bioe« uulistica

cuenta

que

este

recorrido

es

mayor que

el

recorrido

o r i g i n a l b u s c a r e m o s el exceso: Exceso= 7 0 - 76 Exceso= 4 El exceso proviene de h a b e r a u m e n t a d o la amplitud de cada intervalo de 9,43 a 1 0 .

Para b u s c a r la simetría de la d i s t r i b u c i ó n de los datos, d e b e m o s repartir este exceso a l o s d o s extremos del r e c o r r i d o original, mitad para cada l a d o . vl + Z

R e s t a m o s 2 al valor m í n i m o y s u m a m o s 2 al valor m á x i m o .

95 + 2 = 97 30 - 2 = 28

A partir del valor o b t e n i d o 2 8 agregamos sucesivamente la amplitud 1 0 y a s í o b t e n e m o s d o s p u n t o s de d i v i s i ó n que determinan l o s 7 intervalos ( ver figura)

1 8

38

48

58

-g

68

88

98

Pero se presenta una dificultad c u a n d o algunos de los datos c o i n c i d e n con c u a l q u i e r a de l o s puntos en d i v i s i ó n c o m o s o n :

3 8 , 48, 5 8 y 6 8

Supongamos

que

un

dato

es

38

¿dónde

intervalo de cuyos extremos s o n 2 8 y 3 8 ? extremos 3 8 y 4 8 ?

19

lo ó

colocamos?

¿En

el

primer

¿en el s e g u n d o q u e t i e n e n los

• l.

Bioesuuiisticc:

Canalc« G.

Para

despejar

esta

duda

adoptaremos

por

acuerdo,

el

intervalo

cerrado p o r la i z q u i e r d a , que incluye el n ú m e r o 2 8 ( extremo inferior d e l intervalo) y abierto por la d e r e c h a que no incluye el número

38

( extremo

un

superior

del

intervalo).

En

el

lenguaje

matemático,

intervalo de este t i p o se r e p r e s e n t a p o r el s í m b o l o [ 2 8 , 3 8 > . El n ú m e r o 3 8 s ó l o sirve de frontera s u p e r i o r p a r a i n d i c a r que el intervalo p u e d e c o n t e n e r n ú m e r o s a n t e r i o r e s a 3 8 , pero no al 3 8 . Por e j e m p l o , p o d r á c o n t e n e r el n ú m e r o 3 7 , 9 9 9 , p e r o n u n c a l l e g a r á a i n c l u i r el n ú m e r o 3 8 .

El s i g u i e n t e intervalo [ 3 8 , 4 8 ] > al n ú m e r o 3 8 pero no al 4 8 .

E n la práctica,

los

intervalos

formando una c o l u m n a

deben

colocarse unos

debajo

del

otro,

b a s e o c o l u m n a matriz, q u e dará o r i g e n a la

d i s t r i b u c i ó n de f r e c u e n c i a s . E j e m p l o s :

Intervalos o c l a s e s

Intervalos o c l a s e s

Intervalos o c l a s e s

[ 28 - 38>

2 8 � 3 8

[ 3 8 - 48>

38�48

[ 48 - 5 8 >

4 8 - 5 8

[ 5 8 - 68>

5 8 - -> 6 8

[ 68 - 7 8 >

68 ->78

[ 78 - 8 8 >

7 8 · --> 8 8

[ 88 - 9 8 >

8 8 - -.. 9 3

Para h a c e r más s e n c i l l a la r e p r e s e n t a c i ó n d e l o s i n t e r v a l o s en la c o l u m n a matriz, r e d u c i m o s el t a m a ñ o del c o r c h e t e y d e l p a r é n t e s i s a n g u l a r " > " y l o c o l o c a m o s entre d o s n ú m e r o s , y e s c r i b i m o s

Procediendo

en

forma

similar

para

los

28 -

otros

4

3 8 en vez d e [ 2 8 - 3 8 > .

intervalos,

se

obtiene

la

c o l u m n a matriz q u e se p r e s e n t a en el cuadro anterior.

5) El s i g u i e n t e p a s o de este p r o c e s o de r e s u m e n , es p o n e r n o s de a c u e r d o que

todos

intervalo,

y

cada

estén

uno

de

los

datos

representados

caracterizan a la c l a s e

que

por

se

un

halle

dentro

mismo

de

valor.

un Este

mismo valor

y p o r e s o se llama marca de c l a s e , la m i s m a q u e s e

o b t i e n e p r o m e d i a n d o l o s extre m os de c a d a intervalo.

20

,

l .

Ccu 1.11 lcs

Dir1f'Sl.1ulis,

( ·

Las marcas de c l a s e de los 7 intervalos s o n :

2 8 + 38

=

=

48 + 5 8

33

3 8 + 48

=

88 + 98

73

2

=

5 8 + 68

43

2

=

68 + 7 8

53

2

2

=

7 8 + 88

63

2

=

93

2

83

2

Otra m a n e r a de o b t e n e r la marca de clase, es p r o m e d i a r l o s extremos del p r i m e r intervalo ( 2 8 + 3 8 ) "'"" 2

=

3 3 y a c o n t i n u a c i ó n s u m a r la a m p l i t u d 1 0 ,

para d e esta m a n e r a obtener la m a r c a de c l a s e del s e g u n d o intervalo que es 3 3 + 1 0 = 4 3 . Es decir, c o l o c a r cada uno de l o s datos en el intervalo que le c o r r e s p o n d e . A m e d i d a que a s i g n e m o s un dato a un intervalo anterior que es 4 3 más la a m p l i t u d 1 0 , o b t e n i e n d o 5 3 , q u e es .la marca de c l a s e del tercer intervalo y así p o d e m o s

continuar hasta acabar con el s é p t i m o

intervalo.

6) Ahora l l e v a r e m o s a cabo la c l a s i f i c a c i ó n y el c o n t e o de l o s datos, es decir, c o l o c a r cada uno de l o s datos en el intervalo que l e c o r r e s p o n d e . A medida que asignemos

un

dato a un

intervalo

r e p r e s e n t a r e m o s en la

c o l u m n a de c o n t e o p o r m e d i o de un palote. U n a vez que h e m o s acabado de a s i g n a r todos los datos a un intervalo d e t e r m i n a d o , todos e l l o s estarán re presentados por la marca de c l a s e de d i c h o intervalo. De esta forma, d e s p u é s de o r d e n a r l o s datos en forma creciente ( t a m b i é n s e p u e d e h a c e r todo el p r o c e s o de c o n s t r u c c i ó n de la d i s t r i b u c i ó n de frecuencia con l o s datos

ordenados

distribución tomamos

de

como

en forma creciente, frecuencias). primer

Tal

número

lo

como

30,

que

que dará lugar a otro tipo están

en

el

está

entre

cuadro

28

y

de

anterior,

38,

es

decir,

p e r t e n e c e el p r i m e r intervalo, a c o n t i n u a c i ó n m a r c a m o s un palote en la c o l u m n a de conteo.

El s e g u n d o n ú m e r o 3 6 t a m b i é n pertenece al intervalo 2 8 -

3 8 , por lo

tanto marcamos otro palote en el m i s m o casillero que l e c o r r e s p o n d e en la c o l u m n a de conteo, y así sucesivamente hasta llegar al p e n ú l t i m o número 8 9 q u e pertenece al intervalo de 8 8 - 9 8 , luego m a r c a r e m o s un palote e n · el c a s i l l e r o de e s e intervalo en la c o l u m n a de conteo y p o r ú l t i m o el dato 9 5 que también p e r t e n e c e a ese intervalo, para el que a s i g n a r e m o s un palote en el c a s i l l e r o c o r r e s p o n d i e n t e de la c o l u m n a de conteo.

2-1

' S Í U C / l s ! Ü ' U

Cuadro 1.4 Cuantificación y conteo de datos

Intervalos

Marcas de clase

Conteo

Frecuencias

2 8 ----> 3 8

33

11

2

38 ->48

43

IIIII

II

7

4 8 -----> 5 8

53

IIIII

II

7

58-•68

63

II I I I

68->78

I I I II

78 - - -> 8 8

83

8 8 -----> 9 8

93

1 III

14

III II

15

I I I 11

III 1 1

IIJII

8

III

3

III

n

Contando

el

número

de

palotes

del

primer intervalo,

56

obtenemos

dos

palotes, lo que e s c r i b i m o s en la c o l u m n a de frecuencias con el número 2, en

el

segundo

intervalo

obtenemos

7

palotes

lo

que

expresamos

e s c r i b i e n d o el número 7 en la c o l u m n a de frecuencias.

A c o n t i n u a c i ó n r e s u m i m o s l o s p a s o s ( 5 ) , (6) y (7) en el Cuadro 1 . 5 , al q u e

se d e n o m i n a cuadro de distribución de frecuencias absolutas.

Cuadro 1 . 5 . Distribución de frecuencias absolutas

Intervalos

Fi

Xi

33

2

43

7

53

7

63

14

73

15

83

8

93

3

2 8 - - J. 3 8

3 8 --),48

48-58

58

--->

68

68-78

78 -+88

88 -�98 n == 5 6

El s u b í n d i c e i es una variable entera que indica un intervalo determinado y p o r l o tanto, en este c a s o , d e b e variar d e s d e 1 hasta 7 ( 1 7).

1, 2 , 3, 4, 5, 6 y

..J . Canales. G. -------------

Bioesuulistica .--

.- · - ·

.

-----

.

· - · - - - -

- Lu e g o :

=

Xl = 3 3

f1

X2

43

f2 = 7

X3

53

f3

=

2

7

X4 = 6 3

f4 = 1 4

X = 93

f = 3

Interpretación del cuadro de distribución de frecuencias Las frecuencias van cambiando a partir del valor 2 en el primer intervalo o clase, hasta a l c a n z a r los valores mayores: 1 4 y 1 5 en l o s intervalos q u e están

en

la

parte

central

de

la

columna

de

frecuencias.

Al

continuar

c r e c i e n d o la variable x, la frecuencia c o m i e n z a a d i s m i n u i r hasta l l e g a r al valor 3, en el extremo inferior. Esto significa que hay p o c o s a l u m n o s que t i e n e calificativo m e n o r y t a m b i é n que hay p o c o s a l u m n o s que t i e n e n calificativo mayor. Así m i s m o , gran parte del n ú m e r o d e a l u m n o s t i e n e n calificativos i n t e r m e d i o s .

Ejemplo 1 . 1 . Sean l o s siguientes p e s o s d e n = 5 0 p e r s o n a s t o m a d a s de un gimnasio, el p e s o está expresado en kilogramos.

73

102

90

97

98

106

108

93

87

88

100

87

104

85

90

95

80

98

82

98

104

112

90

98

101

94

105

98

93

82

91

84

93

88

97

103

84

105

92

114

96

100

104

96

101

75

93

82

100

95

1) C o n s t r u i r u n cuadro de d i s t r i b u c i ó n de frecuencias.

Cuadro 1 . 6 . O r d e n a m i e n t o de datos en forma creciente

73

82

87

90

93

96

98

100

103

105

75

84

88

91

93

96

98

100

104

106

80

84

88

92

94

97

98

101

104

112

82

85

90

93

95

97

98

101

104

112

82

87

90

93

95

98

100

102

105

114

.28

Canales U.

.J.

Bio-stcuiissica

2) C a l c u l a m o s el n ú m e r o de intervalo mediante la fórmula de Sturges

K = 1 + 3 , 3 3 log n

K = 1 + 3,3 log 5 0 K = 1 + 3,3 (1,69) K

=

1 + 5,58

K

=

6,58

C o m o la fórmula de Sturges es un p o c o conservadora, n o s dará un valor algo

menor

del

necesario,

luego

redondearemos

este

valor

al

entero

i n m e d i a t o s u p e r i o r.

. K = 7, entonces tendremos 7 intervalos o clases

3)

Luego

determinaremos

el

recorrido

de

extensión

de

los

datos

m e d i a n t e la siguiente fórmula.

I = valor máximo

valor m í n i m o + 1

Valor máximo

= 114

Valor m í n i m o = 7 3 1 = 1 1 4 - 7 3 + 1 = 4 2

4) C o m o con la fórmula de Sturges h e m o s o b t e n i d o 7 intervalos o clases, tendremos que dividir el recorrido en 7 partes i g u a l e s o 7 intervalos.

E n la fórmula I = c x k, ya s a b e m o s q u e I

=

42 y K

=

7, e n t o n c e s la a m p l i t u d

de cada uno de l o s intervalos, que l l a m a r e m o s c s e r á :

1 c

=

-

42 =

-

K

5)

Ahora

elaboraremos

la

=

6

7

columna

matriz

o

columna

base

de

la

d i s t r i b u c i ó n d e frecuencias.

C o m e n z a r e m o s a c o n s t r u i r el p r i m e r intervalo, para lo cual s u m a m o s la amplitud intervalo,

6 al valor m í n i m o , obteniendo

de

q u e será el extremo

este

modo

el

extremo

inferior de superior

intervalo:

Extremo i n f e r i o r + a m p l i t u d = 7 3 + 6 = 7 9 O b t e n e rn o s de este m o d o el primer intervalo 7 3 --. 7 9

24

l primer

del

primer

_A.

G.

Canales

Bioestadistica

Para el segundo_intervalo tomaremos como número menor 8 5 y como número límite superior 8 5 + 6 = 9 1 , procediendo en la misma forma para los demás intervalos, obtenemos el cuadro. Estos intervalos forman la columna matriz, que se encuentran en el cuadro y es la que se muestra en el siguiente cuadro de d i s t r i b u c i ó n de frecuencias.

+H 73

7JJ

-H+H-

85

j'1

lp.

103

101

11�

Observamos. que en los intervalos son del tipo semi-cerrado, luego el primer intervalo: 73-> 7 9 , contiene como propio al número 7 3 , pero no contiene el número 79, el cual sirve sólo de referencia superior; p ue d e contener el número 7 8 , 7 8 o el número 7 8 , 9 9 8 pero no al 7 9 . El siguiente intervalo si contiene el número 79, como propio, pero no el número 8 5 que s ó l o le sirve de referencia superior.

Intervalos 7 3 ----+ 7 9 79 ----+ 8 5 8 5 ----+ 9 1 9 1 ----+ 9 7 9 7 ----+ 1 0 3 1 0 3 ----+ 1 0 9 109-115

6) A continuación convenimos en que todos y que cada uno de l o s años que se hallan dentro de un m i s mo intervalo, estarán representados p o r el m i s m o valor que se denomina marca de clase. Las marcas de clase se obtienen promediando l o s extremos del intervalo. Las marcas de clase de los 7 intervalos serán: 73 + 79

= 76

79 + 85

= 82

97 + 1 0 3

2.1±_97

que las

marcas

= 100

1 0 9 + 115

2

=

94

1 0 3 + 109

2

2

Nótese

= 88

85 + 9 1 2

2

= 112

2 = 106

2

de

clase s e podrían

extremos del p r i m e r intervalo

obtener p r o m e d i a n d o los

( 7 3 + 7 9 ) / 2 = 76 y luego, p r o c e d i e n d o a

sumar sucesivamente la amplitud s e i s . Así, para

25

el

segundo

intervalo

A:. Canales G.

Bioestadistica

+ 6

tenemos la marca de c l a s e del primer intervalo más la amplitud 6 : 7 6

=

=

88

y

a s í hasta l a marca de

E n el s i g u i e n t e d e b e m o s r e a l i z a r la c l a s i f i c a c i ó n

y

conteo d e l o s datos, o

8 2 , para el tercer intervalo t e n d r e m o s 8 2 + 6 clase del s é p t i m o intervalo.

7) : 1

s e a c o l o c a r cada uno de e l l o s dentro de s u restrictiva c l a s e , r e p r e s e n t a n d o ·i;., ' i

c a d a dato p o r un p a l o t e . D e esta m a n e r a c e n t r a m o s nuestra a t e n c i ó n , en

l '

n H

el 7 3 , p e r t e n e c e al p r i m e r i n t e r v a l o : en

el

primer

número

75

casillero

que

de

también

la

a s í v e m o s que el p r i m e r n ú m e r o ,

7 3 - 7 9 , l u e g o d i b u j a m o s un p a l o t e

columna

perítense

de

al

conteo.

primer

A

continuación

intervalo,

en

dibujamos

el un

p a l o t e e n el p r i m e r c a s i l l e r o de la c o l u m n a de c o n t e o .

\l ¡

y

l o s d a t o s o r d e n a d o s en forma c r e c i e n t e

¡:¡

:

':l , 1

Después

el

valor

80

que

pertenece

al

intervalo

79

-

85,

entonces

' l

1 .

d i b u j a m o s un p a l o t e e n el s e g u n d o c a s i l l e r o de la c o l u m n a de conteo

y

así

¡

¡

continuamos dibujando

p a l o t e s en l o s c a s i l l e r o s d e la c o l u m n a d e c o n t e o ,

hasta l l e g a r al p e n ú l t i m o dato 1 1 2 que p e r t e n e c e al intervalo 1 0 9 - 1 1 5 . L u e g o d i b u j a m o s un p a l o t e en el ú l t i m o intervalo de la c o l u m n a de c o n t e o 1

y \

j

por

último

tenemos

el

valor

114,

que

también

pertenece

al

último

'

intervalo,

p o r lo

tanto

dibujamos

un

palote

en

el

último

casillero

de

la

c o l u m n a de c o n t e o . 11 \ i

Luego c o n t a m o s el n ú m e r o de palotes en cada c a s i l l e r o d e la c o l u m n a de

conteo y

l o e x p r e s a m o s en una c o l u m n a a d i c i o n a l , q u e será la c o l u m n a d e

l

f r e c u e n c i a s . Para el p r i m e r c a s i l l e r o t e n e m o s 2 p a l o t e s , le c o r r e s p o n d e l a : ¡

111

frecuencia

2,

para

el

segundo

tenemos

6

palotes,

le

corresponde

la

f r e c u e n c i a 6 . Así c o n t i n u a m o s hasta el último c a s i l l e r o , t e n e m o s 8 p a l o t e s

¡" q u e lo

e x p r e s a m o s c o n la f r e c u e n c i a 8

y

el último q u e t i e n e 2

palotes lo

e x p r e s a m o s c o n el 2 . \

Cuadro 1 . 7 .

I n t e r v a l o s , c o n t e o y frecuencias

1

!

Intervalos

Conteos

Frecuencias

7 3 --> 7 9

lI

2

79 --> 8 5

IIIII

85 - - > 9 1 9 1 -- .. 9 7 9 7 ··-, 1 0 3

IIIII

lI I I I

II III

II I I I

IIIII

1 0 9 --> 1 1 5

II

8

III

II III

103 -�109

6

I

I

11

III

13 8

II

2

n

26

=

SO

l:l. Canales G.

Bioestadistica

Por último, r e s u m i m o s los pasos ( 5 ) , (6) y (7) en el siguiente

cuadro de

distribución de frecuencias:

Cuadro 1.8. Intervalos, marcas de clase y frecuencias

Xi

Intervalos

Frecuencias

73-79

76

79-85

82

6

85-91

88

8

91-97 97 - 1 0 3

2

94

11

100

13 8

103

+:

109

106

109

->

115

112

2 n

=

SO

E L s u b í n d i c e i a p a r e c e en el encabezamiento de la c o l u m n a X l y de la columna fi, es una variable entera cuyos valores s o n : i=1,2,3,4,5,6y7

Xl = 7 6

f1

X2 = 8 2

f2 = 6

X3 = 88

f3 = 8

X 7= 1 1 7

f 7= 2

=

2

1 . 9 REPRESENTACIÓN GRÁFICA DE DATOS

Histogramas

Entre l o s distintos tipos de figuras, los histogramas s o n particularmente importantes.

El

histograma

representa frecuencias.

es

clases Las

una

figura

de

valores

alturas

de

de de

las

barras,

en

datos

y la

barras

d o n d e la escala

escala horizontal

vertical

representa

c o r r e s p o n d e n a l o s valores

de

frecuencias, en tanto que las barras se d i b u j a n de manera adyacente (sin e s p a c i o s entre ellas).

El histograma no es a d e c u a d o para determinar si hay c a m b i o s a lo largo del tiempo.

27

_,A.

En

Bioesuulisiicc:

Cuna/es

la

Figura

1.5,

se

presenta

un

histograma

que

corresponde

a

la

distribución de frecuencia del Cuadro 1 . 5 .

AsC para el intervalo 2 8 - � 3 8 le corresponde la altura de 2 (frecuencia). De esta forma, d i b u j a m o s un rectángulo cuya b a s e es el intervalo 2 8 --� 3 8 y cuya altura es 2 . Para el siguiente intervalo de frecuencias 3 8 corresponde la altura 7. Para el siguiente intervalo 48

-->

-->

48 le

5 8 tendremos un

rectángulo cuya base es dicho intervalo y cuya altura es el valor 7, p o r q u e 7 es la frecuencia que c o r r e s p o n d e a ese intervalo. Así p r o c e d e m o s a dibujar los d e m á s rectángulos hasta llegar al intervalo 8 8

--->

98 que se

toma como base del último rectángulo, siendo su altura 3 .

15

28

38

48

58

78

68

88

98

Figura 1 . 5 . Histograma de frecuencias

Polígono de frecuencias EL

polígono

de

frecuencia,

utiliza

segmentos

lineales

conectados

a

puntos que se l o c a l i z a n directamente p o r e n c i m a de l o s valores de las marcas de clase.

La altura de los puntos corresponde a las frecuencias de clase, en tanto que los segmentos lineales se extienden hacia la derecha y la izquierda, de manera que la figura i n i c i a y termina sobre el eje horizontal.

Comenzaremos sobre

el

determinando las

intervalo

88----> 9 6 ,

escalas horizontal y vertical.

dibujamos

un

rectángulo

cuya

base

Luego es

el

rectángulo 8 8 ---> 9 6 y la altura es la frecuencia 5, de esa forma c o n t i n u a m o s hasta el último intervalo y o b t e n e m o s la Figura 1 . 6 .

.A. Canales G.

Bioestodistica

f

15

9

6

3

O

X 88

96

104

112

120

128

136

144

Figura 1 . 6 . Histograma de frecuencias y polígono de frecuencias

Observación Si unimos los puntos de la línea s u p e r i o r de cada uno de l o s rectángulos de un histograma de

frecuencia

obtendremos

el polígono

de

frecuencias

correspondiente a la m i s m a distribución de frecuencias.

Ejercicios de polígonos e histogramas de frecuencias En

el

papel

milimetrado

dibujar

los

polígonos

y los

histogramas

frecuencias de las distribuciones de frecuencias.

Frecuencias

14

absolutas

n

/\

10

8 6 4

\

2

o

..___._

.. 3

.........._Intervalos

79

85

91

�r

103

109

115

Figura 1 . 7 . Polígono de frecuencias absolutas e intervalos

29

de

;L C a n a l c»

B io cs t cu lis iico

3

38

46

62

70

78

Figura 1 . 8 . Polígono de frecuencias absolutas e intervalos

Ahora,

realizaremos

porcentuales.

Primero

una

figura

elegiremos

.con la

barras escala

para

las

horizontal,

frecuencias sistema

de

c o o r d e n a d a s rectangulares, señalamos las categorías en el eje horizontal, y en el eje vertical c o l o c a m o s la frecuencia absoluta.

Escala horizontal

1 distancia

1 , 2 cm

D o n d e la distancia será la s e p a r a c i ó n que hay en el eje horizontal entre cinco categorías ( c a s a d o s , solteros, divorciados, viudos y categorías de l o s que no declaran). No hay ninguna regla particular que señale la magnitud de la distancia. C o m o hay 5 categorías, el tamaño de la b a s e s e r á :

B a s e = 5 x 2cm = 10cm. Determinación de la escala vertical. C o m o la altura debe ser % de la base, tendremos:

Altura=

.3.

( b a s e ) = .3.

4

4

(10cm) =

30

7,Scm

4

Por lo tanto la altura máxima de la figura será 7 , S c m , h a c e m o s el siguiente razonamiento:

Bioesuulisiica

A Canales G.

(Altura máxima) 7 , S c m __ 2 5 unidades de frecuencia lcm

x

* 2 5 u . d.

lcm X =

f = 3,33

7,Scm

Escala vertical

l c m = 5 u.d.f. Luego en la escala vertical para cada cm le corresponde 5 u n i d a d e s de frecuencia absoluta ( u.d.f.). Se ha aproximado a S por c o m o d i d a d porque este número ofrece facilidades para trabajar en el papel milimetrado.

Así, para el valor 2 5 u.d.f. trazamos una línea horizontal, hasta cortar la barra

levantada

por

la

categoría

casado,

quedando

de

este

modo

determinada la altura de la barra.

e

s

o

V

NO

Figura 1 . 9 . Barras con frecuencias absolutas de las cinco categorías

1 . 1 0 PROBLEMAS PROPUESTOS

1 . Haga un listado de 2 0 variables continuas, 2 0 discretas y 2 0 atributos, r e l a c i o n a d o s con variables estadísticas. /

.

. •

1

1

2 . Resuelva el siguiente e j e r c i c i o de datos d e s o r d e n a d o s , recolectado de campo sobre número de plantas silvestres en 1 m 2 , evaluado en el cerro H u a j e de P u n o .

31

A . Canales ( x .

liiucstudisticn

a) Calcule los datos en un cuadro

b] C a l c u l e cuántas clases de intervalos se requieren.

c) Represente en forma de figuras los resultados de l o s siguientes datos: S, 4,3,4,4,8,11,12,8,6,6,13,16,17,14,17,19,7,18,22,21,20,7,9,14.

3 . Haga 1 0 e j e m p l o s de p r e c i s i ó n y 1 0 e j e m p l o s de exactitud.

.A.

Canales

G.

Bioestadistica

CAPITULO II

ESTADÍSTICA DESCRIPTIVA 2.1.MEDIA 2 . 2 . MEDIANA 2.3.MODA 2.4. DESVIACION ESTANDAR 2 . 5 . VARIANZA 2 . 6 . COEFICIENTE DE VARIABILIDAD 2 . 7 . PROBLEMAS PROPUESTOS

2.1.MEDIA

La media es en la mayoría de los c a s o s un valor no observable, viene dado en la misma unidad de m e d i d a que la variable.

Es la más usual de las medidas de concentración y la más conocida. Es llamada también m e d i a aritmética o p r o m e d i o .

Para calcular la media s e distingue dos c a s o s :

1.

C u a n d o los datos no están agrupados

2.

Cuando los datos están clasificados, formando distribuciones de frecuencias.

Primer caso:

Cuando l o s datos no están agrupados, se suman los números y s e dividen 1 1

entre el número de c a s o s .

Ejemplo 2 . 1 . Los datos s o n calificaciones del curso de bioestadística, de un alumno de la Facultad de Ciencias Biológicas de la UNA Puno.

P r i m e r examen

14

Segundo examen

13

Prácticas

12

Quizes

15

S u m a total

54

Nota final (media) 5 4 / 5

0

3o

=

13,5

.A.

Canales

U.

B i o es u ui i s ii c c :

Ejemplo 2 . 2 . Hallar la media aritmética d e : 5, 7, 9, 3, 4, 6.

La fórmula para calcular la media aritmética para este caso incluye el símbolo L, que se llama sumatoria e i n d i c a operación de a d i c i ó n .

-

1 f,

X =

�¿Xi i=l

Donde:

i,

es la variable entera que toma valores desde i

sucesivamente hasta i

=

1, i

=

2,

i

3 y así

n. Desarrollando el símbolo sumatoria tenemos:

1

X

= - (x l +

x2

+

+ · .. +

x3

xn)

n Volviendo

a los

datos

que teníamos

al

comenzar el presente ejemplo

tenemos: N o s dieron 6 números 5, 7, 9, 3, 4 y 6, entonces n = 6.

1 X

=

6

1 (S

+

7

+

9

+

3

+

4

+

8)

=

(36)

6

=

6

n

Con respecto al símbolo la

L

x 1, en vez de

confusiones.

i





¿



se dan casos en que se simplifica y se escribe

Es'to se hace cuando no hay posibilidades de crear

issl

Ejemplo 2 . 3 . Encontrar el p r o m e d i o de los siguientes datos: 1 5 , 1 6 , 1 7 , 1 3 , 9, 1 1 , 1 0 , 1 3 , 1 9 , 2 1 Fórmula: n

X =

�Ixi i=L

X = 1 / 1 0 ( 1 5 + 1 6 + 1 7 + 1 3 + 9 + 1 1 + 1 0 + 1 3 + 19 + 2 1 )

Segundo

14.4

caso:

C u a n d o los datos están agrupados formando cuadros de frecuencias, se ut ili za la f órmula:

""' f. X . X

==

L..

1

n

1

/1. Canales G.

x:

BirJcstadistfr·a

Media aritmética

f : frecuencia de cada dato. X;: cada uno de los datos

Ejemplo 2.4. Datos de la longitud de las de una muestra de p o b l a c i ó n

de

m a r i p o s a s . Calcular la m e d i a aritmética.

X¡ (cm)



f¡X¡ (cm)

3,3

1

3,3

3,4

o

o

3,5

1

3,5

3,6

2

7,2

3,7

1

3,7

3,8

3

11,4

3,9

3

11,7

4,0

4

16,0

4,1

3

12,3

4,2

2

8,4

4,3

2

8,6

4,4

1

4,4

4,5

1

4,5

=

6Íi

¿f¡ _

=

n

=

24

I=:LX¡ = 9 5 , 0

24

95,0cm

X =

= 3 96cm 1

24

Propiedades de la media 1) La suma algebraica de las desviaciones de un conjunto de valores con respecto a su m e d í a aritmética es O.

Explicación Sean l o s números: 1 5 , 2 , 1 0 , 8 , 9 y 7

Su m e d i a aritmética: ( 1 5 + 2 + 1 0 + 8 + 9 +7) + 6

=

51 + 6

=

8.5

Bioestadistica

Sus desviaciones con respecto a la media s o n : ( 1 5 - 8 . 5 ) , (2 - 8 . 5 ) , ( 1 0 - 8 . 5 ) , ( 8 - 8 . 5 ) , ( 9 - 8 . 5 ) , (7 - 8 . 5 ) , la suma es: ( 1 5 - 8 . 5 ) + (2 - 8 . 5 ) + ( 1 0 - 8 . 5 ) + ( 8 - 8 . 5 ) + (9 - 8 . 5 ) + (7 - 8 . 5 ) = 6 . 5 - 6 . 5 + 1.5-0.5 + 0.5-1.S = O

2)

La suma

de l o s

cuadrados

de

las

desviaciones

de

un

conjunto

de

n ú m e r o s : xl x2 x3 . . . xn con respecto a su media x, es mínimo.

Explicación Esta propiedad significa que si calculamos la suma de l o s cuadrados de las desviaciones

con

diferente

la

de

respecto

x y

con

respecto

comparamos

con

la

a otro suma

número de

cualquiera

cuadrados

desviaciones con respecto a la media, comprobaremos

de

a, Ias

esta última es

menor.

Las ideas con l o s números 1 2 , 5, 7, 8 .

Primero: calcularemos las desviaciones con respecto a la m e d i a . Su m e d i a e s : ( 1 2 + 5 + 7 + 8) + 4 = 3 2 + 4 = 8, es d e c i r X = 8 sus d e s v i a c i o n e s con respecto a la m e d i a s o n : 1 2 - 8 = 4;

5 - 8 = -3

7 - 8 = 1

8 - 8 = O

La suma de l o s cuadrados de estas desviaciones e s : 2 2 4 + (-3)2 + 0 = 1 6 + 9 + 1 + o = 2 6

Segundo:

Calculemos

las

desviaciones

con

respecto

a cualquier otro

número: 1 0 (2)2 + ( - 5 ) 2 + ( - 3 ) 2 + ( - 2 ) 2 = 4 + 2 5 + 9 + 4 = 42 C o m p a r a n d o 1 y 2 vemos

que:

2 6 < 4 2 , lo q u e verifica la propiedad.

Usos de la media 1 . - La media de la muestra se usa cuando se necesita una medida de t e n d e n c i a central que no varíe mucho entre una y otra muestra extraída de la m i s m a propiedad, esta es la razón para preferirla, cuando se d e s e a la máxima confiabilidad en la estimulación de la media poblacional.

2 . - También se usa la m e d i a cuando la distribución de frecuencias de l o s datos es simétrica o t i e n e p o c a asimetría. Igualmente cuando se aproxima a la distribución normal de probabilidades porque esta distribución es simétrtca.

A . Canales G.

Bioes tadis U cu

3 . - Se calcula la media, varianza o la desviación estándar (según medidas de variabilidad que se estudiarán).

Ejercicios para calcular la media aritmética Hallar la media aritmética de los siguientes datos:

a)

12,14,1�9,14,12,13,18,21

b)

2 2 , 24, 3 0 , 1 9 , 1 8 , 2 2 , 3 3 , 2 8 , 2 6 , 3 2

Calcule

la

media

aritmética

para

las

siguientes

distribuciones

de

frecuencias.

Intervalos

Frecuencia

Intervalos

Frecuencia

21

28-38

7

8 8 -¿ 9 6

38-48

4

9 6 ->104

15

48-58

12

104-112

25

5 8 ->68

5

112 -120

16

6 8 - ;,. 7 8

9

120 - 1 2 8

11

78-88

13

128 - 1 3 6

13

88-98

4

136-144

22

2 . 2 . MEDIANA

La m e d i a n a es el punto que divide la distribución de los datos en dos partes iguales. Por debajo de la mediana estará la mitad del número de c a s o s y p o r e n c i m a de ella estará la otra mitad. La mediana se designa con el símbolo M d . Se presentan dos casos

¡

1.

C u a n d o los datos n o están agrupados

2.

Cuando los datos están clasificados, formando distribuciones de frecuencias.

Primer caso a) Cuando el número de elementos de la clasificación es impar.

Ejemplo 2 . 5 . 3, 8, 5 6 , 14, 2 6 , 3 1 , 2, 7, 5 2 hay nueve elementos. Lo primero que se hace es ordenar l o s datos en forma creciente (también se podría ordenar en forma decreciente).

G.

.iL

B ices iad is cica

2, 3, 7, 8, 14, 24, 3 1 , 5 2 , 5 6 La

mediana

es

el

número

que

ocupa

el

centro

de

la

distribución.

Observamos que hay cuatro valores menores que 1 4 y 4 valores mayores que 14, entonces la m e d i a n a es 1 4 . B) Cuando el número de elementos de la distribución es par.

Ejemplo 2 . 6 . 38, 56, 87, 2 2 , 1 5 , 90, 43, 3 3 Ordenamos: 1 5 , 2 2 , 3 3 , 39, 43, 56, 87, 9 0

Vemos que hay dos valores centrales, la mediana será la media de esos valores centrales. 39 Md

+

43

=

=

41

2

Segundo caso

E j e m p l o 2 . 7. Calcular la median de la distribución de valores.

=

1

2 8 --" 3 8

2

i

=

2

3 8 --" 4 8

7

9

i

=

3

4 8 --" 5 8

7

16

i

=

4

5 8 --" 6 8

14

30

i

=

5

68 ->78

15

45

i

=

6

78-88

8

53

i

=

7

88 ->98

3

56





Fi

fi

Intervalos i

2

:j

i

n

=

56

1

!

S e debe seguir la siguiente regla

j

1) Se obtiene las frecuencias acumuladas. Estas

frecuencias

acumuladas

presentan

un

ordenamiento

elementos de la distribución, así: E n el primer intervalo están los elementos: 1 º - 2 º

En el s e g u n d o intervalo están los elementos: 3 º - 4 º - 5 º - 6º - 7º - 8º - 9 º En el tercer intervalo están los elementos: 17º - 1 8 º - 1 9 º ... 29º - 30º

38

de

los

56

En la quinta clase están los elementos: 3 1 º - 3 2 º - 3 3 º . ..44º - 45º

En la sexta clase están l o s e l e m e n t o s : 46º - 47º - 48º . . . 5 2 º - 5 3 º

y en la séptima y última clase están l o s elementos:

54º - S S º y 56º

2) Se determina la clase en d o n d e se encuentra la mediana, para esto se hace la división:

n

56

- = - = 28

2

2

Luego, la m e d i a no o c u p a el lugar 2 8 º y p o r lo tanto, debe encontrarse en la clase cuarta (i

=

4) puesto que en esta clase están los elementos que

ocupan los lugares 1 7 º hasta el 3 0 º .

3) Se a p l i c a la fórmula:

extremo i n f e r i o r +

Md

( g - Fi - 1 ) 2 fi c

Datos Extremo inferior del intervalo (i = 4) es 5 8

n/2 = 2 9

f4 = 1 4 en la frecuencia del intervalo d o n d e están M d . C = 1 0 amplitud del intervalo. Fi - 1

=

F4

1

=

F3

=

16, frecuencia acumulada hasta la tercera clase, es

decir, acumulada hasta la clase anterior o clase en donde está la mediana (i =4).

Reemplazamos los datos en la fórmula y obtenemos:

(29 - 16) Md

=

56

+

10 14

M d = 56 + 9,29

65,29

A . Canales G.

· E j e m p l o

Btoestadistica

2.8.

Intervalos

fi

i =

1

2 8 -> 3 8

5

5

i

2

38->48

8

13

i =

3

4 8 --> 5 8

15

8

i =

4

5 8 --> 6 8

3

31

=

F

=

5

68->78

5

36

i =

6

78 ->88

2

38

i =

7

88 - > 9 8

2

40

i

n = 40

n

40

- = - = 20

2

2

Luego la mediana está en la clase tercera (i = 3) Luego se aplica la siguiente fórmula:

Md

=

. .e . extremointerior

+

(� - Fi - 1 ) 2 ---f-i--c

Datos: Extremo i n f e r i o r = 48 N/2 = 20

F i = f3 = 1 5 C=S F i- 1

=

F 3 - 1 = F 2 = 13

(20 - 13) Md

=

48+

8

=

51,73

15 2.3.MODA

Llamaremos moda de una distribución de frecuencias, al valor de las variables correspondiente a la mayor frecuencia de datos o lo que es lo mismo

el

valor

representado

o

el

máximo

de

individuos.

Cuando

el

n ú m e r o de observaciones es pequeño, no debe c a l c u l a r s e la moda, ya que no

puede

apreciarse

si

existe

una

decidida

tendencia

de

los

valores

concentrarse en uno s o l o .

Si se trata de una distribución de frecuencias con datos discretos, no agrupados,

el

frecuencias

absolutas,

cálculo

es y

inmediato: el

valor

de

máxima frecuencia, es la moda.

40

basta la

con

variable

mirar

la

columna

correspondiente

de

a la

A . Canale: G.

__

.:

.

La

.

p

o

�_"

,:_

moda

r

el

Bioesuulistic«

�····-------------·-··-------·-----�--------------------------------------·-·--

.,

d e

un

símbolo

conjunto

M

o

de

datos

es

el

valor

más

repetido.

Se

representa

,

Primer caso: 1)

D e t e r m i n a r

7,

La

7,

7,

moda

9,

es

9,

el

d i s t r i b u c i ó n

2)

El

la

m o d a

del

siguiente

conjunto

de

d a t o s :

2,

2,

3,

4,

5,

6,

1 2 .

número

s e

l l a m a

siguiente

7,

p o r q u e

u n i m o d a l ,

c o n j u n t o

de

s o n

l o s

p o r q u e

datos

no

m á s

s ó l o

repetidos

p o s e e

tiene

una

m o d a :

(3

v e c e s ) .

Esta

m o d a .

1 5 ,

1 9 ,

2 0 ,

3 5 ,

4 7 ,

5 9 , 6 5 .

Porque

3)

n i n g u n o

La

s i g u i e n t e

9,

9,

La

=

1 3 ,

1 3

8,

40,

Mo

1 3 ,

es

40,

2 1 ,

está

repetido

d i s t r i b u c i ó n

1 8 ,

y t a m b i é n

40,

=

e l l o s

1 3 ,

s i g u i e n t e

3 2 ,

M o

1 3 ,

=

Mo

4)

de

2 0 ,

M o

=

=

Mo

8 0 ,

b i m o d a l ,

2 4 ,

24,

es

3 3 ,

decir,

5 9 ,

tiene

7 8 ,

d o s

m o d a s :

8,

7 8 .

2 4 .

t r i m o d a l :

40,

es

24,

8 0 ,

4,

8 , . 8 ,

8,

1 5 ,

1 5 ,

1 5 ,

2 0 ,

2 0 ,

2 1 ,

2 1 ,

2 1 ,

2 1 ,

distribución

de

9 0 .

40

Segundo caso: C u a n d o

frecuen

los

ci

as

datos

,

la

están

m o d a

se

c

agrupados

a

lcula

p o r

la

formando

siguiente

una

fórmula:

61

=

Mo

Extremo i n f e r i o r +

] e

[ 61

E

d

n

El

e

x

tremo

e

p

respecto

62-- R

e

a

lar

la

e

la

ior

a

la

la

a

repr

e

x

e

senta

ceso

de

contigua

el

clase

c l a s e

E n

el

clase

resenta

m a m o s

Ejemplo 2 . 9 .

cu

f r

epresenta

C ---- R p

cal

in

resent

a

respecto

l

62

o n d e :

61- R

L a

+

e

x

ceso

conti

la

g

am

m o d a l

p

a

lit

q

valor

la

f

ud

de

de

inferior

recuenc

a

i

a

ell

ca

que

da

a

41

la

c l a s e

m o d a l .

la

clase

modal

de

la

clase

m o d a l

,

c

o

interv

tiene

n

con

ella.

la

frecuencias

m o d a :

de

de

a.

recuencia

p o s t e r i o r

uella

d i s t r i b u c i ó n

f

posterior

de

ua

el

la

a

lo.

mayor

del

f

r e c u e n c i a .

cuadro

s

i

guient

e,

/L Canales G.

Bioestadisuca

f

Intervalos

f

Intervalos

5 2 8 ----> 3 8

2

88 ----> 9 6

3 8 --> 4 8

7

96 - � 1 0 4

48 ----> 5 8

7

1 0 4 ----> 1 1 2

58 ----> 6 8

14

1 1 2 ->120

68 ----> 7 8

15

1 2 0 ----> 1 2 8

8

15

3

5 ¡

2 78 ----> 8 8

8

1 2 8 - -* 1 3 6

88 ----> 9 8

3

136-144

2

1 s :1

Para el cuadro de arriba (izquierda), buscamos cuál es el intervalo o clase



que t i e n e la mayor frecuencia, siendo 1 5 y c o r r e s p o n d e a la clase 68 � 7 8

l�.

l l a m á n d o s e clase modal.

l· �

Extremo inferior; es el valor inferior de la clase 68 JI

----->

78 o clase m o d a l ,

e n t o n c e s el extremo inferior es 6 8 .

i' LH - 1 5 - 1 4 - 1 ; jj, 2 - 1 5 -8 - 7 C - 1 0

Mo

= Extremo i n f e r i o r +

[

.D.i .D.1

+

] e .D.z

Aplicado la fórmula: 1-] Mo

=

68

+ [-

10

1 + 7

Mo-68+10/8-68+ 1,25-69,25 Mo --- 6 9 , 2 5

Usos de la moda Primero:

Cuando

se

necesita

una

estimación

rápida

de

la

tendencia

central.

Segundo: Cuando s e d e s e a c o n o c e r el punto d e máxima frecuencia en una

distribución asimétrica

de datos,

esto es

el valor más

conjunto de datos.

Tercero: En general la m o d a es la m e n o s usada.

X, Md,

42

Mo

repetido d e · un

Bioes uuiistico.

.

O b s e r v a c i ó n :

m e d i d a s

En

l a s

a n t e r i o r e s

d i s t r i b u c i o n e s

de

frecuencias

s i m é t r i c a s ,

las

tres

c o i n c i d e n :

X

-

M

d

-

-

M

o

.

Cuadro 2 . 1 . Comparación de la media, mediana y la moda

¿Qué tan

Definición

Medida

Existencia

¿Torna

¿Seve

Ventajas y

en

afectada

desventajas

común es?

de tendencia

cuenta

por

central

cada

valores

µ

Media

=

í:x/n

"promedio"

Siempre

más

existe

valor?

extremos?





Funciona bien con

conocido

muchos métodos

1

estadísticos.

¡Mediana

Valor en

De uso

Siempre

medio

común

existe

No

No

S u e l e ser una b u e n a o p c i ó n si hay algunos valores extremos

Moda

Valor más

Se usa en

Podría no

frecuente

ocasiones

No

Apropiada

No

existir;

para datos

podría

en el nivel

haber más

nominal

de una

--·

2.4 DESVIACIÓN ESTÁNDAR O DESVIACIÓN TÍPICA La

d e

d e s v i a c i ó n

v a r i a c i ó n

d e s v i a c i ó n

A

la

e s t á n d a r

de

1.

en

La

que

s e

s e

2 .

El

cita

a

d e

c e r o

n ú m e r o .

un

c o n j u n t o

l o s

la

a

l a

es

d a t o s

a

m u e s t r a l e s ,

la

r e s p e c t o

importantes

m e d i a .

a

la

es

E s

l a

u n

m e d i d a

t i p o

d e

m e d i a .

q u e

s o n

c o n s e c u e n c i a

de

e s t á n d a r :

u n a

m e d i d a

d e

v a r i a c i ó n

de

t o d o s

l o s

m e d i a .

d e s v i a c i ó n

c u a n d o

A d e m á s ,

c o n

d e s v i a c i ó n

estándar,

de

r e s p e c t o

v a l o r e s ,

r e s p e c t o

la

c o n

p r o p i e d a d e s

d e f i n e

c o n

v a l o r

i g u a l

de

de

d e s v i a c i ó n

v a l o r e s

de

v a l o r e s

p r o m e d i o

co n t i n u a c i ó n

forma

l o s

t o d o s

valores

e s t á n d a r

l o s

grandes

v a r i a c i ó n .

43

s

s u e l e

v a l o r e s

s

i

n

de

d

i

c

s e r

l o s

a

n

p o s i t i v o .

d a t o s

s o n

mayores

el

S ó l o

es

m i s m o

c a n t i d a d e s

.A.

Caruilcs

3.

G-.

Bioesuulistica

El valor de la desviación estándar (s) se puede incrementar de manera drástica con la i n c l u s i ó n de u n o o más datos distantes (valores de datos que se encuentran muy l e j o s de los d e m á s ) .

4.

Las u n i d a d e s de la desviación estándar s ( c o m o m i n u t o s , p i e s , libras) son las m i s m a s d e los datos o r i g i n a l e s .

D a d o e l conjunto de n ú m e r o s Xi -- X 2 , X3, . . . Xn, d o n d e i es una variable entera que toma l o s valores 1, 2, 3, hasta n. Sea el X la m e d i a aritmética de este conjunto de valores, entonces definimos la d e s v i a c i ó n estándar del conjunto de n ú m e r o s Xi, mediante la siguiente fórmula:

s

=

Jí:C\:

X)2

En d o n d e S representa la d e s v i a c i ó n estándar, s i e n d o la raíz cuadrada de la s u m a d e l o s cuadrados de las d e s v i a c i o n e s de cada valor con respecto a la m e d i a , dividida entre el número de valores. E j e m p l o :

C a l c u l a r la d e s v i a c i ó n estándar del siguiente conjunto de n ú m e r o s : 3, 5, 7, 1 0 , 18, 1 5 .

Aplicaremos la anterior fórmula, d ó n d e el promedio (media aritmética) del conjunto de n ú m e r o s es X - 9 , 6 7

(3 - 9 , 6 7 )

2

+

(5 - 9 , 6 7 )

2

+

(7 - 9 , 6 7 )

2

+ ... +

(15

9,67)

S = 6

(-6,67)

2

+

(-4,67)

2

+

(2,67)

2

+ ... +

(5,33)

S = 6

41,5

+

21,8

+

7,13

+

s =

0,11

+

6

S = j17�34

S

= � 28,56 =

44-

5,34

69,39

+

28,41

2

2

Bicestadistica

A . Canales O.

.

Ejercicios

no

resueltos

del

cálculo

de

l a

desviación

estándar

para

datos

agrupados.

Ejemplo 2 . 1 0 . Calcular la d e s v i a c i ó n estándar del siguiente conjunto de n ú m e r o s , a p l i c a n d o la siguiente fórmula

n

s =

1 "' ; ¿

2

X

i

-

2

- X

i=l

� 9 . 1� 1 9 , 2 3 , 2 8 , 3 7 , 5 4 , 6 2 , 7 0

x --32

2:1':!\

;

x

X 2 ---42

2

-1024

+ 92 + 1 4

2

+ 2 3 2 + 2 8 2 + 3 7 2 + 542 + 6 2 2 + 7 0

2

= 14996

1

S =

10 (14996) - 1024

S

=

-) 1 4 9 9 , 6 - 1 0 2 4

=

=

-) 4 7 5 , 6

21,80

Ejemplo 2 . 1 1 . C a l c u l a r d e s v i a c i ó n estándar del siguiente conjunto de números, a p l i c a n d o la fórmula anterior:

-3, - 2 2 , - 2 0 , - 1 0 , 6, 9, 1 5 , 40

3F

x---1,s15

.í:f==l

X

2

-3,516

= (-3)2 + (-22)2 +

(-20)2 + (-10)2 +

62 +

92 +

1 5 2 + 402

1

S

=

(2935) - 3 , 5 1 6

=

-) 3 6 6 , 8 1 5 - 3 , 5 1 6

8 =

S = -) 3 6 3 , 3 5 9

19,06

Ejemplo 2 . 1 2 . Calcular la desviación estándar del siguiente conjunto de números: 3, 8, 2 5 , 40, 5 5 , 60, 65, 7 3 , 8 1

X-45.56

Li==I

X

2

-3

x2 - - 2 0 7 5 . 3 1 2

+ 82 + 2 5

2

+ 40

2

+ 552 + 602 + 65

2

+ 73

2

+ 81

2

-25038

1

S

(25038) - 2075,31

=

-) 2 7 8 2 - 2 0 7 5 , 3 1

9

S = -) 7 0 6 , 6 9

=

26,58

Bioc« ( m i ís tic«

Ejemplo 2 . 1 3 . Calcular desviación estándar del siguiente conjunto de números. - 1 5 , - 1 2 , -3, 5, 8, 1 0 , 1 6 , 2 0

x--3.62s

X

2

-13.141

1

s =

8

=

(1223) - 13,141

S

=

-} 1 5 2 . 8 7 5 - 1 3 , 1 4 1

=

-} 1 3 9 , 7 3 4

11,82

Ejemplo 2 . 1 4 . Calcular la desviación estándar del siguiente conjunto de números, a p l i c a n d o la fórmula - 2 5 0 , - 1 3 4 , - 5 9 , - 3 2 , 1, 1 5 , 2 3 2 , 4 5 8

X-28,875;

If=1 x

X

2

---833,76

2

-348775

1

S

=

(348775) - 833,76

8

S

=

-} 4 2 7 6 , 1 1 5

=

-} 4 3 5 9 6 , 8 7 5 - 8 3 3 , 7 6

=

206,79

Cálculo de la desviación estándar para datos agrupados C u a n d o l o s datos se encuentran agrupados formando d i s t r i b u c i o n e s de frecuencias; d o n d e no se tiene en cuenta el número de datos que hay en cada clase, es decir, la frecuencia de la clase. Para este caso se t i e n e la siguiente fórmula.

S =

o

S = n-1

En d o n d e fi representa la frecuencia de cada clase.

E j e m p l o 2 . 1 4 . Calcular la desviación estándar de la siguiente clase de frecuencias:

46

[fo ws uulis iica

Inte.rvalos

Xi

40 --+ S O

45

so

--+ 6 0

60 -->70

fi

Xi-µ

(Xi - µ)2

3

-17,S

306,25

s

-7,S

56,25

7

2,5

6,25

4

12,S

156,25

1

22,S

506,25

fi(Xi - µ)2

918,75

SS

281,25

65

70 ->80

75

80 -->90

85

43,75

625,00

506,25 20 2375

Según los m é to do s a p rendido s al tratar la m e d i a aritmética, observamos que:

X

IP-1 =

-

fi * Xi

1250

=

n

=

62,S

20 En

la

columna

Xi,

restamos

a

cada

valor

la

media

aritmética

µ

y

obtenemos: 45

62,5 = -17,5

SS - 62,5 = -7,5 65 - 6 2 , 5 = 2,2 75 - 62,5 = 12,5 86 - 6 2 , 5 = 2 2 , 5 Entonces, aplicando la fórmula:

S



=

S

=

fi 1 8 , 7 5

=

10,9

Método clave Todo el p r o c e s o anterior p u e d e simplificarse utilizando el método clave, que e m p l e a la siguiente fórmula.

S

=

C

¿ fi:

U2

_

¡z: f� *

U

r

En el mismo ejemplo anterior aplicaremos el método clave en el siguiente cuadro: 'Intervalos

fi

uz

fi*u

fi*u2

Xi

u

40

-->50

45

-2

3

-6

4

50

-*60

55

-1

5

-5

1

5

60 -->70

65

o

7

o

o

o

12



-->80

75

1

4

4

1

4

B0-->90

85

2

1

2

4

4

20

í::fi*u ----5

sn-

í::fi*u 2

25

;C \ .

Ccuuuc«

e-amplitud de los intervalos-10 n - I : f i - 2 0 número de elementos

Los valores de la columna u (-2, - 1 , O, 1, 2) p u e d e n interpretarse de la m i s m a manera.

X i - A u=--­

e

La e l e c c i ó n del valor A se hace entre l o s valores de las marcas de clase Xi en forma arbitraria. En el presente caso elegimos A - 6 5 porque entre las marcas de clase es el valor que está en medio. De esa forma obtenemos que u : 45

65

-20

u =

10

55

=

-2

=

-1

10

65

-10

u =

10

10

En la práctica se p o n e u · - O para el intervalo d o n d e se ha e l e g i d o el valor de A, que es 6 5 en este c a s o . Para los valores m e n o r e s de las marcas de clase: 5 6 , 4 5 se p o n e u -·-1 --2 respectivamente.

65

65

O

_1_0_

= 10

75 - 65 = O;

85 - 65

=-1-0-= l ;

=-1-0-= 2

A p l i c a n d o la fórmula anterior o b t e n e m o s :

s =

S =

1 0 .j l , 1 8 7 5

=

10

10(1,09)

25 (-5) 20 20

=

=

1 0 .J 1 , 2 5 - 0 , 0 6 1 5

10,9

2 . 5 LA VARIANZA Se def i ne como el c u adrado de la desv i a c i ó n est á ndar . calcular

la

var i an z a ,

p reviamente

calcular la desviación est á ndar.

L os

Se

h arem o s

f i ne s de

de b an ser

i nter p retac i ón

bajos.

de

lo s

E n tonce s

p ara

métodos

pa ra

re p re s enta co n el s í m b o l o

valores altos de la varian z a en datos

p ara

uso

biológicos,

s',

no so n r e c o m e n d a b l e s

cie n t í fi c a . Es importan t e

qu e d i c h o s v al o res

Bioestadistica

Curwles G.

, En el ejercicio anterior se calculó la desviación e s t á n d a r - 1 0 . 9 'La varianza será:

2

s -(10,9)2--118,81

2 . 6 COEFICIENTE DE VARIABILIDAD El

coeficiente

de variación

es

una

medida

de

dispersión

relativa,

sin

d i m e n s i o n e s , y cuya unidad es la m e d i a :

s CV=M

Si la media es cero, está claro que esta medida no puede utilizarse. A m e n u d o se utiliza también expresada en forma de p o r c e n t a j e :

s

cv

fµf *

100

Y s u valor está c o m p r e n d i d o entre el 0 % y el 1 0 0 % .

En

muestras

no

demasiadas

pequeñas,

extraídas

de

poblaciones

normales el CV no s u e l e ser mayor del 3 0 % .

Un CV superior al 5 0 % debe hacernos pensar en una población estadística no homogénea.

Este

coeficiente

resulta

también

muy

adecuado,

en

el

caso

que

las

medidas de las distribuciones a comparar difieren mucho, a u n q u e estén expresadas en las mismas u n i d a d e s .

Ejemplo 2 . 1 5 . Datos de tallas y p e s o de estudiantes. Después de calcular la

media

y

la

desviación

típica

de

esas

medidas,

se

obtuvieron

siguientes r e s u l t a d o s :

Variable X = talla

X

Variable Y = p e s o

= 1,70m

Y =

Sx = O , S m

Sy

=

69kg

Skg

¿ E n cuál de las v a r i a b l e s existe mayor d i s p e r s i ó n ?

49

los

..A.

Canales

Bioes iad ís t i ca

G-.

SOLUCIÓN:

Como las variables están expresadas en u n i d a d e s diferentes ( m y kg) utilizamos el coeficiente de variación que es una medida de dispersión adimensional: 0,5 CV(tallas)

= -_- *

100

=

29,41

1,70 5

CV(pesos)

=

* 1 0 0 = 7, 2 69

Esto i m p l i c a que la variable " p e s o s " está m e n o s dispersada que la

2 . 7 PROBLEMAS PROPUESTOS

Ordenar los datos en forma ascendente. 1.

1,2,2,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,5,5,S,S,S,5,5,5, 5,5,6,6,6,6,6,6,6,6,6,6,6,6, 7,7,7, 7,8,8,8,9,9,9,9.

2.

3.

Calcular la mediana de los siguientes datos a)

14, 1 5 , 1 6 , 1 9 , 2 3

b)

14,15,16,19

Calcular el promedio, desviación estándar, varianza y coeficiente de variabilidad de l o s datos que se presentan en los siguientes cuadros. a)

C a l c u l e la m o d a en el siguiente

cuadro de distribuciones de

frecuencias.

Intervalos

f

117�126

2

126 � 1 3 5

3

135

--+

144

10

144 �153

13

153 �162

6

162�171

4

171�180

2

50

Bioes tad is iica

G.

..A .

b)

Datos tomados de estudiantes del 2 d o nivel de la Facultad de Ciencias Biológicas de la UNA Puno ( 2 0 0 7 ) .

Muestra

Talla (cm)

Peso (kg)

Edad

1

152

46

17

2

150

48

18

3

153,5

46

20

4

149

44

18

5

457

47

18

6

152

46

19

7

154

45

19

8

160

57

18

9

147

54

19

10

155

48

19

11

146

49

19 20

>-·

12

157,5

51

13

148

44

18

14

155,5

44

20

,---

15

150

47

22

16

154

50

19

17

160,5

53

19

18

147

45

18

19

144,5

43

18

20

156,5

44

19

21

151

46

18

22

161,5

54

18

23

165

58

19

24

157,5

59

20

25

167

57

18

26

157

61

24

27

153

47

18

28

157

56

20

29

160

51

20

30

155,5

58

19

51

13 ioes uul istica

CAPITULOIII

PROBABILIDADES, DISTRIBUCIONES, LÍMITES DE CONFIANZA, HIPÓTESIS, ASIMETRÍAS

3 . 1 . PROBABILIDADES 3 . 2 . D I S T R I B U C I Ó N NORMAL DE PROBABILIDAD 3 . 3 . D I S T R I B U C I Ó N DE P O I S S O N Y ESPACIAL 3 . 4 . INTERVALOS DE CONFIANZA 3 . 5 . A S I M E T R Í A YCURTOSIS 3 . 6 . PRUEBAS DE HIPÓTESIS 3 . 7. TAMAÑO DE MUESTRA 3 . 8 . PROBLEMAS PROPUESTOS

3 . 1 PROBABILIDADES

Es una m e d i d a de ocurrencia de un evento o s u c e s o (P), que se obtiene dividiendo el número de resultados favorables para la ocurrencia entre el número total de p o s i b i l i d a d e s .

Un experimento es determinístico si se obtiene el mismo resultado ejemplo,

a un

repetirlo objeto

en

cae

igualdad siempre

de

con

condiciones. una

· Por

gravedad

de

2•

9,8m/seg Un experimento es aleatorio cuando al repetirlo en igualdad de

condiciones,

los

resultados

varían.

Por

ejemplo,

el

lanzamiento de una moneda.

Las características de los fenómenos aleatorios s o n : a)

Son

fenómenos

tales,

que

al

repetirlos

indefinidamente

y en

igualdad de condiciones, presenta resultados distintos en cada experiencia particular.

b)

Si repetimos una experiencia n

veces

y anotamos el número de

veces q u e aparece un determinado fenómeno.

En el caso del lanzamiento de una moneda, nunca p o d e m o s predecir en un determinado lanzamiento si va ha s a l i r cara o sello, pero a m e d i d a que a u m e n t e n , el valor Nº de caras/Nº total de lanzamientos tiende a estabilizarse a medida que n aumente.

"

Canales Cí.

Bioesuulistica

Espacio muestral Conjunto

formado

por

todos

los

sucesos

elementales,

recibe

el

nombre de e s p a c i o muestral.

Suceso

if""*

En general l l a m a m o s s u c e s o a todo subconjunto del e s p a c i o muestral. Merece e s p e c i a l atención el s u c e s o

seguro, que es el p r o p i o e s p a c i o

muestral y el s u c e s o i m p o s i b l e .

Ejemplo 3 . 1 . ¿ C u á l es la p r o b a b i l i d a d de obtener un número determinado al lanzar un dado?

3 PA

=

=

(2,4,6)

=

0,5; 50%

6 Ejemplo 3 . 2 . ¿Cuál es la probabilidad de obtener una c o m b i n a c i ó n de n ú m e r o s que sumados sean m e n o r e s que 4 al lanzar dos dados?

P(N)

1,1

1,2

1,3

1,4

1,5

1,6

2,1

2,2

2,3

2,4

2,5

2,6

3,1

3,2

3,3

3,4

3,5

3,6

4,1

4,2

4,3

4,4

4,5

4,6

5,1

5,2

5,3

5,4

5,5

5,6

6,1

6,2

6,3

6,4

6,5

6,6

3}�·

P(N)

=

( 1.1 ; 1 . 2 ; 2 . 1 )

=

. 3

6

=

'

0,08;

8%

3 . 2 D I S T R I B U C I Ó N NORMAL DE PROBABILIDADES Distribución normal, aparece p o r primera vez en 1 7 3 3 en los trabajos de Moivre

relativos

a

cálculos

de

distribución

límite

de

una

variable

binomial. · � f

Más tarde, en 1 8 0 9 GAUSS y posteriormente Laplace ( 1 8 1 2 ) , la estudian en relación a trabajos sobre la teoría de errores con datos experimentales. A finales del siglo X V I I I y principios del XIX, los astrónomos encontraban

siempre la desagradable situación de que los resultados de sus medidas, eran distintas unos a otros, y se p o d í a resolver p o r la imperfección de l o s instrumentos

de

medida

disponibles.

Era

pues,

necesario

averiguar

valores p o s i b l e s . Primero GAUSS, p e n s ó que la media aritmética de todos los valores observados sería el valor correcto.

53

.il. Canales G·.

B toes iadis tica

Más tarde, GAUSS y LAPLACE se les ocurrió pintar la distribución de frecuencias de los resultados. Observaron cómo los valores extremos eran correctos, y cada vez las medidas se hacen más iguales y más numerosas . hasta concentrarse en un valor medio que es el valor más frecuente. Por esta

razón,

LAPLACE.

la Se

distribuciones

distribución creyó eran

normal

entonces, de

este

que

tipo

es

como

en

la

y por

distribución

práctica eso

se

le

la

de

GAUSS y

mayoría

puso

de

las

"distribución

normal", llamando a las restantes distribuciones anormales.

Quetelet descubrió que la distribución normal para la biometría de las anchuras de tórax de 5 7 3 8 soldados escoceses. El valor más frecuente fue aproximadamente 40 pulgadas, 3 9 pulgadas se presentaban casi con la misma frecuencia, 4 1 y 3 8 fueron más raros, 42 y 3 7 más aún, hasta que l !

por fin 3 3 y 48 pulgadas resultaron ser valores extremos aislados.

1 1

La distribución normal se define de la ecuación:

J 2]

l

1

·I

y =

l ¡

y¡·:_l_¡.

¡-1

crV2rre

(x. x)

2 �

Donde: X: variables aleatoria

1

µ: es la m e d i a de l o s valores de la variable X

o: desviación estándar de la variable aleatoria X i¡

rt:

3,1416

e: 2 , 7 1 8

:I

Regla empírica para datos con distribución normal (Figura 3 . 1 ) Aproximadamente el 68% de todos los valores, están dentro de una desviación estándar de la media. Aproximadamente el 9 5 % de todos los valores, están dentro de d o s desviaciones estándar de la media. Aproximadamente el 9 9 . 7 % de todos los valores, están dentro de tres desviaciones estándar de la media.

Figura3.1 Curva normal general

54

Bioes tadis iica

La curva tiene la forma acampanada con un máximo en X . Es simétrica en torno a :X ya que el valor de la densidad es idéntico en X + c y en

X - c, para

todo valor de e. La curva es cóncava hacia a b a j o en :X y en sus proximidades, se vuelve cóncava

hacia

arriba

al

alejarse

de

X,

suficientemente

en

cualquier

d i r e c c i ó n . Es decir, la curva presenta dos puntos de inflexión en X = X - o y en X = X + c. T i e n e como eje X como asíntota.

Las

medidas

de

partida,

se

convierten

en

números

expresados

en

desviaciones estándar, c o m o u n i d a d e s a la derecha o a la i z q u i e r d a de la media.

µ/ o, Z tiene esa propiedad, es decir, si

Si se define una variable Z =X -

x,

Z = O; si X = X +O, Z = 1, si X = X + 2 o, Z = 2 .

I

Valores X

X

Valores Z

- 2

a

-2

X-a

X

X + O

X + 2 a

1

o

1

2

C o m o X es una variable aleatoria, Z también l o es. Existe la tabla de probabilidades normales, las cuales son expresadas como valores de la variable estandarizada "Z".

Ejemplos 3 . 3 . C a l c u l a r la p r o b a b i l i d a d del evento: que la variable toma valores

comprendidos

entre

O

y

1,27.

Busque

probabilidades.

P ( O < Z < 1,27)

U7

P ( O < Z < 1,27) = 0,3980 = 39,80% a)

Calcular P ( O < Z < 3 , 4 5 ) . Respuesta: 0 , 4 9 9 7 = 4 9 , 9 7 %

b)

Calcular P ( O < Z < 0 , 8 ) . Respuesta 0 , 2 8 8 1 = 2 8 , 8 1 o/o :

55

en

la

tabla

de

Bioestadisuca

/l. Canales G.

c)

Calcular la probabilidad del evento "Z" tome valores comprendidos entre-2,4 y - 0 , 8 5 P (-2,4

< Z < 0,85)

Área entre ( - 2 , 4 y - 0 , 8 5 ) = área entre ( - 2 , 4 y O) - área entre ( - 0 , 8 5 y O) - 0,4918-0,3023 = 0,1895 Luego: P (-2,4 < Z < 0,85) = 0 , 1 8 9 5

=

18,95%.

3 . 3 D I S T R I B U C I Ó N DE P O I S S O N Y ESPACIAL

a)

Distribución de Poisson

La distribución de P o i s s o n es de importancia fundamental en el estudio de

fenómenos

entre

otros,

aleatorios:

físicos,

químicos,

biológicos,

astronómicos

ya que representa un modelo probabilístico apropiado para

la descripción de tales fenómenos.

Siguen esta distribución una gran cantidad de variables. Por ejemplo, la d i s t r i b u c i ó n de P o i s s o n p u e d e representar adecuadamente valores tan d i s p e r s o s como número de partículas radiactivas emitidas p o r unidad de tiempo, un número durante

de llamadas que entran en una central telefónica

cierta periodo

de tiempo,

cantidad de plancton,

recuento

de

c o l o n i a s bacterianas por p l a c a petrí, en estudios m i c r o b i o l ó g i c o s y en estudios de e c o l o g í a .

Hay, pues, dos m o d e l o s generales que llevan a

una distribución Poisson,

aquellos en los que se estudia un medio (agua, aire, sangre entre otros) en el

encuentran

(plancton,

números

bacterias,

elevados

hematíes,

de

entidades

levaduras,

pequeñas

plantas,

discretas

individuos,

entre

otros).

El

propósito

de

ajustar

una

distribución

de

Poisson

a varios

de

los

acontecimientos raros que ocurren en la naturaleza, es comprobar si los acontecimientos raros ocurren independientemente unos de otros. Si es así,

seguirán

una

distribución

de

56

Poisson.

Si

la

aparición

de

un

B i o ee uu l í s ii ca

acontecimiento

aumenta

la

probabilidad

de

que

ocurra

un

segundo

acontecimiento igual al primero, obtenemos una distribución de contagio. Si el éxito de un acontecimiento impide que se dé un segundo, obtenemos una

distribución

puede

ser

espacialmente

usada

como

uniforme.

prueba

para

La

distribución

comprobar

la

de

Poisson

aleatoriedad

o

i n d e p e n d e n c i a de l o s s u c e s o s , no s ó l o espacialmente, sino también en el tiempo.

Para determinar la distribución espacial, no solamente contabilizamos en forma directa l o s individuos de una determinada especie, sino también, p o d e m o s contabilizar nidos, madrigueras, huellas, fecas, plumas, pieles, cráneos y todo indicio de la presencia de la especie.

bJ

Distribución Espacial

La

distribución

espacial,

trabaja

en

espacios

pequeños,

donde

se

contabiliza el número de individuos de una e s p e c i e que se encuentra en un hábitat y en un tiempo determinado. La metodología recomendada son 2

los cuadrantes aleatorios, que pueden variar d e s d e I rn ' hasta 2 5 m

de

acuerdo a la e s p e c i e que se está investigando. No confundir la distribución espacial trabaja

con con

la

distribución

espacios

geográfica,

grandes,

que

relacionando

es con

totalmente las

zonas

diferente, de

vida

y

coordenadas geográficas.

Para determinar la distribución espacial, se requieren 09 parámetros importantes, como s o n :

L Frecuencia observada 2 . Frecuencias Esperada

3. Media

=

(X)

. 4 . Vananza -

s- -

1 [e" I fi L,

·2f') Xl

1

-

(¿ Xífi)Z] �

2

S . Índice de D i s p e r s i ó n (ID = rr /X)

6. Grados de Libertad (n

1)

7 . Nonograma de Clapham 8. Prueba de H i p ó t e s i s 2

9. Prueba Bioestadística de X = ID (n

1)

No es recomendable, con solamente hallar el índice d e d i s p e r s i ó n , la misma que ayuda a inferir el tipo de distribución espacial, se debe realizar

A. Canales O.

F3ü >es tadis tica

otras pruebas co m o la pruebas de hipótesis y la comprobación a través de una prueba bioestadística.

En la naturaleza, en forma general encontramos tres tipos de distribución especial.

Distribución Uniforme Se presenta cuando los individ uos de u n a d e t e r m i n a d a e s p e c i e de flora o fauna silvestre, se encuentran en altas concentraciones de individuos en un es pacio limitado, p e r m i t i e n d o que los individuos tengan antagonismo por acceder a un es pa cio y alimento.

Para demostrar este tipo de distribución, se debe realizar no m e n o s de 2 0 r epet iciones . Esta cantidad puede incrementarse de acuerdo al área de muestreo.

Es

probable

si

se

presenta. este tipo

de

distribución,

el hábitat tenga

perturbación y/ o transformación inducida por la actividad del hombre, if

por

lo

es

necesario

considerar

programas

de

manejo

del

hábitat

o

estrategias de recuperación de la especie de flora y fauna silvestre. j

q,



























11

.l

11



l

11

lt

j

''

.

¡

11

Figura 3 . 2 . Representación de la distribución uniforme

Este

tipo

de

distribución

se

presenta

también,

cuando

los

datos

recolectados del campo y analizadas a través de frecuencias o b s e r v a d a s ) es per a das , presenta una varianza mucho menor que la M e d i a (Varianza= 1,4; M e d i a = 4, 7 ) . Así mismo se p u e d e calcular el índice de d i s p e r s i ó n cor los Grados de Libertad del número mayor de individuos.

58

En este tipo de distribución espacial, el Índice de D i s p e r s i ó n ( I D ) , debe estar cercano a O ( I D = 0 , 3 ; GL = 4 0 ) . También, como estos datos se p u e d e platear en el Nomograma de Clapham, tal como se presenta en la figura que

se

presenta

a

continuación

(Diseño

original

de

N omograma

de

ClaphamA. Canales, 1 9 9 6 ) .

,

....

....

······••·

;

:

l '

:

:

\ '

i

¡

:

·: i ¡

r.s

11,.

:



:

. 7

,_

....

..•..

,

,...•.•..

,. . •

¡

•··-··-·

.....

,

-···

\

D

1.6

I

;T . s

R

i l

:s

, u

:(

l

l o

!e

!��

o

: �

l(i.

l

to

iR

.

o

:s

:

A

! i ' . . .,

;

,

.s

\

:

' " , , ,.

1A

'"�,

.

:

•.

3

:

:

2

J

D

1

T

:s

R

I

s

u

e

j

N

lo

A

l.

iE

itl.

T

I

iA

¡

;

1 '

,,,,;,w· :

.9

¡ . 1 l "

:

:

. 7 .l .

lf i

.6

, ¡

l

, :,

:

:

¡

:

:

i/( t

.4

o

!

T

s

: R

il

:8

u

:(

:!

! O

, N

: u

if

i N

i o

IR

I M

f

¡ .3

----

2 ··-··

N

o.

i

¡

f�Yf•

:

:

:

¡

(J

:

!

; i

i

' '

1

ioo G

Figura

3.3.

[)

o

Representación

200 O

de

E

la

l

H

T

distribución

A

uniforme

en

el

Nomograma de Claphan

Distribución Aleatoria

Este tipo de distribución espacial, se presenta cuando los individuos de la especie en investigación, no tienen inconvenientes con la disponibilidad de alimentos ni de hábitat, esto implica que el hábitat es de buena calidad y

con alimentos disponibles para la alimentación de individuos. Entonces

los individuos pueden ocupar cualquier espacio dentro del hábitat, sin ningún riesgo de ser excluido o presentar antagonismo.

Este tipo

de distribución,

es la más recomendable, p o r esta razón se

r e c o m i e n d a plantear l a s hipótesis de que los individuos se encuentran en una distribución aleatoria.

Biocstadistia:

lll



11







11



1



111

11

• !11

• 1

..

11

1

lfj

..

1'11 !

¡ :





111



llt

lll







1



• •

11!1

1111



1



11



11



Figura 3 . 4 . Representación de la distribución aleatoria

Este tipo de d i s t r i b u c i ó n , es cuando después de un a n á l i s i s de frecuencias observadas y esperadas, presentan una varianza s i m i l a r o igual que la M e d i a ( V a r i a n z a = 1,4; M e d i a = 1 , 7 ) . Así m i s m o se puede calcular el índice de

dispersión

con

los

Grados

de

libertad.

En

este

caso,

el

Índice

de

D i s p e r s i ó n con l o s Grados de Libertad, d e b e estar cercano a 1 o un p o c o más que 1 ( l . D . = 1, 1 ; G . L . = 2 0 ) . También con estos datos se p u e d e platear en el Nomograma de Clapham, tal como se presenta en la figura que se presenta a c o n t i n u a c i ó n .

l 1

\

N

1.9

O

1.S 1.7

1

C E

\

-1-··-fllL,.....¡. .• -;,..•••• +-···+·-··-·····-j.···---

1.6

'

E

O

O_

'l.

s ..

'-··

T ..... R ••

1

B

C

\J

l

Ó

----..¡...¡-·,1-, !

.!:!-+--+(-..¡.(_)-+N,-+T-·.¡.A--¡.G _ . ,J1

1.5;..-i-----...........;-""'!l,---i---+--+--+---+--+--+-+

1.4

O

............... ·-· --4-·+--·+--·+--·-+--1·-·-

\.

_

1

1.3

......_

.111

_¡_

2.-�=

.

·¡--

,.

l.2

-�·

l

1t..

1-�E·_ __· - - � ..

0

1

S

T

--t---

--:-·>···---- ·-

···-

R

I

1

1

efu

- - >-- >- ·

C · I

lº·+·N-+-+-A.....¡...L......¡...E_j , A

+-4··--····+--+-·-i. __i

T

º ¡ R . l l _ � - - -

���l-=j,--,""""*�=-+=-1-1

o.9+-I-+--+--·--+--+-·-,,,F--'-+--+--...--1-+--+'......+........--i-·--+'_

o.al __

/l

1

1

1

1

i

p

o.7r

1

/

! �::�--1-+---..l/ ! _---+--ti·-·+---+--+--+-l----+--+0.4l_ __l l

0.3¡

l

Ó

0.2i

1

N

0.1

f

j

o

1

:5

T

iH

Íl

6

U

le

: I

' Ó

·-- -N

U

F-_1i _..... N

Ji

jF

O

.-.

--+---+--+--+--!

R

M

,,

/

E

J

:

__ J ........L.--+·--l--+·--+--+---t--1---..;,.---+ .. ··-+-··l-····+--·-+-·-+·-·-+-.! o _J -17 i 1

:

so

10

G

Figura

3.5.

+-··+··-�----·�--�-·1·---,---�-i

no

1 eo R

.A

O

O

S

Representación

O

de

E

la

Nomograma de Claphan

60

L

ase

200

I

B

E

R

T

distribución

A

O

aleatoria

en

el

Bioes tadis U ca

Canales Cr.

Distribución Contagiosa o Amontonada Este

tipo

especie,

de

se

distribución,

encuentran

g r u p o s · dentro razones,

del

hábitat.

pudiendo

territorial,

o

se

en

debido

ser a

Este

por que

presenta

forma

cuando

agrupada

o

comportamiento

comportamiento solo

los

en

los

individuos

amontonada, puede

tener

reproductivo,

lugares

de

de

una

formando varias

defensa

agrupamiento

se

encuentran l o s alimentos n e c e s a r i o s y espacio d i s p o n i b l e . Sin embargo, este tipo de comportamiento no es de mucho riesgo para la e s p e c i e , pero se debe tener cuidado con las p o b l a c i o n e s y el hábitat.

Figura 3 . 6 . Representación de la distribución contagiosa

Este tipo de distribución, es c u a n d o después de un análisis de frecuencias observadas y esperadas, presentan una Varianza mucho mayor que la Media (Varianza= 2,4; M e d i a = 0 , 9 ) . Así m i s m o se p u e d e calcular el Índice de

Díspersión

con los

Grados

de

Libertad.

En

este

caso,

el

Í n d i c e de

Dispersión debe s e r mucho mayor que 1 ( I . D . = 2 , 3 ; G.L. = 4 0 ) . También, con estos datos se p u e d e plotear en el Nomograma de Clapham, tal como se presenta en la siguiente figura.

61

f

'.

.

.iL Canales G·.

B toes iad is l tea

f

1

¡

!

\

!

1

1

¡

1

!

1 1

1

!

¡

t--.

¡

l

.Li.Lí..

1

l

U

10

l

if

O

R

M

E

50

G

Figura

N

3 . 7.

R

E

O

Representación

de

la

L

I

B

E

R

distribución

T

A

D

contagiosa

en

el

en

la

Nomograma de Clapham

Resumen:

a)

I D = m e n o r a 1 cercano a O

V < M = D. Uniforme

b)

I D = cercano 1

V = M = D. Poisson o Aleatoria

c)

ID=muchomayorquel

V> M = D. Contagiosa.

l Ejemplo

!

3.4.

Numero

de

madrigueras

de

vizcacha

evaluados

l o c a l i d a d de Llalli, Prov. Lampa, 2 0 0 8 (Cada c u a d r a n t e = S ü m 2 ) .

1

8

5

7

9

5

4

4

4

5

4

4

9

4

8

3

5

5

6

9

4

4

2

6

6

6

7

6

3

4

6

5

5

2

5

3

9

4

4

1

3

7

6

6

5

7

4

4

8

4

4

6

5

6

6

6

1 1

ll ! I

1

1

¡ I

¡

;

Para

!:{

¡

hallar

el

tipo

de

distribución

espacial,

j

formulas. l í 1 , ¡ 1

I



62

1

¡

.

empleamos

las

siguientes

Bioestadisuca

G.

.A.

s- =

�. [e� :E



L

· 2

XI

· )

-

ñ

:E :E

(¿ :E

Xifí)Z]

fi

xifi

=

M e d i a (X)

f i

sz I D =

X

G.L. = ( n - 1 )

xz

= I D (n - - 1 )

Luego se tabula los datos acuerdo al cuadro p r e s e n t a d o .

Xi

Fi

Xi2

Xi2fi

Xifi

o

o

o

o

o

1

1

1

1

1

2

2

4

8

4

3

4

9

36

12

4

15

16

240

60

5

10

25

250

50

6

12

36

432

72

7

4

49

196

28 24

8

3

64

192

9

4

81

324

36

¿

55

285

1678

287

2]

1

2

s

s2

[

= 55

287

1679 -

55

= 3,35

287 Media(X) =

= 5,218

55 3,35 I D = - - =

063 1

5,218 G.L.=(n-1)=9

xz

1 = 8

= 0,63(8) = 5,04

Respuesta: La d i s p o s i c i ó n de las madrigueras de las vizcachas, presentan una distribución uniforme,

esto

implica

que tienen problemas

con

el

hábitat. Es probable que exista una perturbación del hábitat, la que t i e n e sus

efectos

en

la

falta

de

alimento

ma,drigueras.

63

y

lugares

para

construir

sus

il. Canales (i.

Bioestcuiistica

3 . 4 INTERVALOS DE CONFIANZA Es definido como la p r o b a b i l i d a d de que el parámetro se encuentra dentro del intervalo dado. También se puede d e n o m i n a r niveles de confianza. Los más usuales s o n el 9 5 % y el 9 9 % .

Nivel de confianza a l 95%

Implica que de 1 0 0 datos, se espera que 9 5 de ellos se encuentren dentro del intervalo construido del parámetro evaluado. También se e s p e r a que 5 de ellos se encuentren fuera del intervalo, ya sea a la derecha o a la izquierda.

b

Nivel de confianza al 9 9 %

Significa que de 1 0 0 casos o datos, se espera que 99 de ellos estén dentro del intervalo construido del parámetro evaluado. También se espera que i esté fuera del intervalo construido.

Intervalo de confianza para estimar la media poblacional

Es necesario que la muestra sea tomada en forma aleatoria, con l o s datos de la muestra se calcula la m e d i a y la desviación estándar. Se emplea la siguiente fórmula:

X ±

Zo e

X,

donde:

X = Es la m e d i a aritmética de la muestra

Zo a

=

Es el coeficiente de confianza. Es

el

error

estándar

de

la

m e d i a y su

valor

depende

de

la

desviación estándar poblacional.

El extremo izquierdo del intervalo se llama, límite de confianza inferior, el extremo derecho, se llama límite de confianza superior. Intervalo de confianza de 95% para estimar la medía p o b l a c i o n a l

95%=0,95

G.

Bioesiadistica

�=04750 2

J

En la tabla de probabilidades normales, para el área de O ,4 7 5 0 se obtiene el punta je Z = 1, 96 La fórmula para el intervalo de confianza es:

x±1,96o x Intervalo de confianza de 9 9 % para estimar la media poblacional 9 9 %

=

0,99:

99 ·º'

2

=0 4 9 5 0 1

Luego: X ± 2 , 5 8 o X

o

·2.SS

Ejemplo 3 . 5 . A partir de la estatura (cm) media de 6 0 0 estudiantes, se tomó una muestra representativa de 40 estudiantes. De esta manera se obtuvo:

n > 0,05 N

40 > 0 , 0 5 ( 6 0 0 ) 40>30

X =164,3cm

S=6,096

Determinar los intervalos de confianza de 9 5 % y 9 9 % para estimar el parámetro indicado. Para el 9 5 % de confianza

X ± 1 , 9 6 o :X

dX

(J

= *

:O J � = � =

x

6:06 =

�oºo � �o

= ü.93



1,96 o

x

=

164,3

±

1,96

* o,93 = 164,3 ± 1,83 166,13

162,,47

65

Para el 9 9 % de confianza

x

± 2,58 o

x

=

164,3

± 2 , 5 8 * o,93 = 164,3 ± 2,4

161,90

3.5ASIMETRÍAYCURTOSIS

Asimetría Es la deformación horizontal de las curvas de frecuencias. Cuando la curva está inclinada hacia la derecha se denomina asimetría a la derecha o asimetría positiva.

Observamos que la M d aritmética que era hacia el lado más largo derecho) y que x > Md > M o ,

O

O

l\'.lo

X

1\-Id

l\Id

Iv!o

X

( el

Bioes tadis tic a

�·---X X

o

'.Md

!\fo

Cuando la curva está alargada o inclinada al lado

izquierdo

se llama

asimetría a la i z q u i e r d a o negativo. Notamos que la Md está del lado más largo ( el izquierdo) y q u e :

X < M d > Mo

En la figura, vemos que la curva está igualmente inclinada hacia ambos l a d o s , a este tipo de distribución se llama curva simétrica. Es importante observar que la Media (X), mediana (Md) y la moda (Mo) coinciden en el m i s m o eje horizontal, en este c a s o :

X = Md = Mo. Curtos is

Es la deformación vertical de una curva de frecuencias. Se define como el grado

de apuntamiento

normalidad

de

datos,

muy pronunciado. debiendo

estar

Se

entre

aplica -z

a

en +z.

la

prueba de

Existen

tres

deformaciones que a continuación d e s c r i b i r e m o s :

a)

Leptocúrtica:

Aplastamiento ,-:; ·

horizontal

y la

curva

con

apuntamiento

p ro n u n ci a d o ,

puesto que los datos se encuentrnn en las colas y en la parte m e d i a .

67

Bioestadisüca

A.. Canales G.

b)

Platicúrtica

Una curva achatada, es decir, que tienen muy poco apuntamiento, los datos se encuentran en las partes medias.

e)

Mesocúrtica

Una curva que tiene una situación intermedia entre las dos anteriores, es decir,

no

tiene

un

fuerte

apuntamiento

pero

que

e s p a c i a d a . Los datos s e encuentran en la parte media.

68

tampoco

es

muy

B ioes tadis tic a

A. Canales G.

· Goeficiente·de·ourtosis

Es una m e d i da define p or

la

de la

pertentílíco

c urtos is

bas a da en ' los cuarti l es y

pe rcentiles q ue

se

f ór m ul a.

Q

K =

P90 - P 1 0

En d o n d e :

K

= coeficiente

P90

de curto sis

= percentil

90

P 1 0 = percentil 1 0 Q = Q 3 - Q 1 2 es el rango semicuartil

Para la curva normal de probabilidades K = 0 , 2 6 3 Orienta tener las siguientes pautas: a)

Si K tiende a 0,5 se dice que la curva es leptocúrtica.

b)

Si K tiende a 0 , 2 5 se dice que la curva es m e s oc ú r t í c a ,

Si K tiende a O, se dice que la curva e� platicúrtica.

0.125

ol

0.25

1

1

1

1

leptocúrtica

mesocúrtica

platicúrticas

0.5

0.375

3 . 6 PRUEBA DE HIPÓTESIS

Las pruebas de hipótesis fueron creadas entre el periodo 1 9 1 5 y 1 9 3 3 , como resultado

de la labor de dos grupos

o tendencias:

por un lado,

Ronald Fisher ( 1 8 9 0 - 1 9 6 2 ) y por el otro, Jerzy Neyman ( 1 8 9 4 - 1 9 8 1 ) en conjunto con Egon Pearson ( 1 8 9 5 - 1 9 8 0 ) . Ambas tendencias tuvieron como antecedente la famosa prueba de ji al cuadrado de Karl Pearson (1857 -1936).

El planteamiento de la hipótesis en la investigación, es un componente fundamenta l

que per m ite inferir sobre el problema .

recha z o de hipótesis, per m itir á

p lantear

La

aceptació n y/ o

o mejorar nuevos cono ci mientos

como principios, le y es, teor í as o me j o r ar una metodolog í a empleada por otro investigador .

Seguramente, existen investigadores que no plantean ninguna hipótesis, por

tanto,

su

investigación

es

meramente descriptiva,

al

no

probar

ninguna hipótesis. Esto no implica que no sirva la investigación, pudiendo

69

il. Canales G.

Biocs tculisiica

servir de base para continuar una investigación

ínferencial,

donde es

posible probar una hipótesis.

Consideramos que es fundamental tener en cuenta la hipótesis nula y alterna,

lo

alterna,

esto

usual

es

que

implica

siempre

detectar

deseamos

diferencias

comprobar una

a través

del

uso

hipótesis de

alguna

prueba bioestadística.

Otros autores consideran, hipótesis de trabajo e hipótesis estadística, lo cual no es recomendable. Es adecuado que la hipótesis sea la unión de ambas y no p o r separado.

Lo que deseamos en un trabajo de investigación, es demostrar nuevas teorías, leyes y principios, o al m e n o s mejorarlas. Entonces, el resultado de la aceptación o rechazo de las hipótesis de la investigación, permitirá que la c i e n c i a avance con estas nuevas acepciones inferenciales.

Las hipótesis deben cumplir algunos requisitos. a) Referencia

hechos

a hechos reales.

reales,

de

otro

Toda hipótesis se refiere siempre

modo

las

hipótesis

serian

a los

especulativos

y

carecerían de fundamento práctico.

bJ Fundamentación teórica. Toda hipótesis esta incluida en el contexto de

una teoría, o, fundamentada por conocimientos logrados por la ciencia. Por

esta

razón,

se

afirma que

las

hipótesis

científicas

son

supuestos

razonables en la medida en que la sustentan en teorías, cuya consistencia esta probada.

Es posible que una hipótesis, en si consistente pero totalmente nueva, pueda

contradecir

una

teoría

vigente.

Se

trata

en

este

caso,

de

una

hipótesis que siendo consistente en si misma, hace apertura a una nueva teoría. Estos casos se dan en la ciencia de manera excepcional.

e)

Fundamentación lógica. Las hipótesis científicas deben ser razonables

y lo son si cumplen con las exigencias de la lógica. Respetan y expresan formalmente los principios lógicos, por ejemplo el principio de no contradicción.

d) Predictividad.

Las

hipótesis

son

supuestos

investigador puede adentrarse a los hechos.

70

con

los

cuales

el

G.

,

e )

Comprensible.

Bioesiadistica

Deben ser entendible por la comunidad científica. Los

científicos prefieren evitar el lenguaje misterioso.

La

exigencia

de

que

una

hipótesis

sea

compresible,

platea

que

el

investigador utilice un lenguaje de tal manera, que no sea subjetivo ni contenga juicios de valor. Existen varias definiciones de hipótesis planteados p o r diversas autores, pero al final todos mantienen la definición principal de la h i p ó t e s i s .

Definiciones de hipótesis -

Es una proposición enunciada para r e s p o nd er tentativamente a un problema (Pardinas, 1 9 8 7 ) . Son conjeturas basados en leyes y teorías (Bunge, 1 9 9 7 ) . Enunciado afirmativo y condicional que establece una relación entre hechos,

respondiendo

así

provisionalmente

un

problema

de

investigación y sujetándose a comprobación (Tafur, 1 9 9 7 ) . Nos indican lo que estamos buscando o tratando de probar, y p u ede definirse

como

explicaciones

tentativas

del

fenómeno

investigado,

formuladas a manera de p r o p o s i c i o n e s (Fernández et al., 1 9 9 7 ) . Es

un

enunciado

condicional

de posible respuesta a un

problema,

basado en hechos, teorías, leyes y principios, que pued e ser aceptado o rechazado

a

través

de

la

aplicación

de

pruebas

bioestadísticas

adecuadas (Canales, 1 9 9 9 ) .

Predicción Bunge ( 1 9 7 3 ) , Sokal y Rohlf ( 1 9 8 1 ) y Baker &Allen ( 1 9 8 0 ) .

+

¿Cualserálacausadexsobrey?,

+

¿ Que ocurriría si X = Y?

A las respuestas de estas preguntas se llama predicción, que en el sentido común, es una previsión basada en generalizaciones empíricas tácticas, fundamentada en teorías.

La predicción científica, es condicional y por lo tanto es una aplicación de la teoría científica ( anticipa nuevo conocimiento y es contrastada).

+

Mientras,

que

la

conjetura

y

la

profecía,

son

enunciados

i n c o n d i c i o n a l e s de la forma "ocurrirá p"

+

En la hipótesis, esta implícita la predicción.

+

Un

experimento

prueba

una

hipótesis

verificando

predicciones que se derivan de la misma son correctas.

71

si

las

Bioestadistíca

A . Canales G.

Tabla de la verdad

+

Hipótesis

Predicción

Correcta

Correcta

Falsa

Correcta o falsa

Ejemplos de hipótesis con predicciones:

+

Hipótesis:

S i . . . el salmón, utiliza s o l o el estimulo visual para

encontrar el arroyo d o n d e nació, para p o n e r sus huevos . . .

+

PREDICCION:

entonces . . . . un salmón al que se le i m p i d e ver

mediante una venda, no p u e d e retornar al arroyo d o n d e n a c i ó .

+

H i p ó t e s i s : S i . . . el salmón encuentra la ruta de vuelta a su arroyo natal mediante el olor especifico de sus aguas ...

+

PREDICCION:

entonces ...

obstruyendo

los

sacos

olfatorios,

p o d e m o s evitar que el salmón encuentre su arroyo natal.

+

H i p ó t e s i s l : El beriberi es el resultado de un d e s o r d e n dietético, y no se debe a una infección ba c te r í a l ,

+

Hipótesis I I : Un factor presente en la cáscara del arroz parece evitar la manifestación de este trastorno.

+

Eijkman pud o hacer una pr e di c c i ó n s e n c i l l a mediante estas dos hipótesis.

+ +

Hipótesis 1 : S i . . . e l beriberi es un transtorno dietético, ... Hipótesis I I : S i . . . el beriberi es el resultado de alimentarse con arroz descascarado ...

P R E D I C C I O N : entonces . . . el darle arroz descascarado a l o s p o l l o s debe producir esta d o l e n c i a . Por el contrario,

alimentarlos con

arroz con cáscara debe mantenerlos saludables.

Propuestas de hipótesis con predicción 1)

Hipótesis:

Si...

el

acceso

a una

revista

científica

indexada,

limita las publicaciones de las investigaciones de los docentes de las universidades, P R E D I C C I O N : entonces la creación de una revista científica de distribución

a nivel

internacional

propia

de

las

universidades,

elevara el número de publicaciones.

2)

Hipó tes is:

Si...

la

falta

de

publicaciones

,

científicas

de

los

profesores de las universidades, esta limitada por el tipo de formato propuesto por la dirección de Investigación . . . ,

72

Bioestudistica

Canales G.

P R E D I C C I Ó N : Entonces ... la modificación de formato de acuerdo a una revista científica indexada, posibilitará un mayor número de publicaciones.

Hipótesis considerando diferencias o igualdades.

Con diferencia La diversidad de e s p e c i e s de fauna silvestre, disminuirá conforme la altitud (msnm) se incremente, es decir a menores altitudes existirá una mayor

diversidad

condiciones

que

a

favorables

los

de

mayores

factores

altitudes,

climáticos

y

esto

de

debido

a

las

competencia

por

hábitat y alimentos que ocurre en zonas bajas, mientras que en zonas con mayores altitudes, las condiciones de los factores climáticos son adversos (temperatura,

humedad,

precipitación

pluvial

entre

otros)

(Primack,

1 9 9 4 , Pianka, 1 9 7 8 ) .

Con igualdades La diversidad de e s p e c i e s de fauna silvestre, será igual conforme la altitud (msnm) se incremente, es decir a menores y mayores altitudes existirá similar

cantidad

homogeneidad

de

de

diversidad

hábitat

y

a

de

la

especies,

selección

esto

natural

debido

a

( adaptación

la y

especialización) (Caughley, 1 9 9 4 ) .

Es

importante

que

las

hipótesis

estén

basados

en

teorías,

leyes,

publicaciones por científicos en libros, revistas científicas, p o r ello se debe colocar el nombre del autor.

Vale la pena distinguir los siguientes términos: (i)

Expectativa,

es

una

actitud

automática

de

anticipación

que

se

encuentra en todo los animales. La expectativa, es una operación consciente, pero carece de fundamento. (ii)

Conjetura, intento consciente pero no racionalmente justificado sin fundamentos.

La

conjetura,

puede

ser

juego

divertido,

una

superstición peligrosa. (iii)

Profecía, en gran escala, basada en el supuesto fundamento de la revelación

o

de

otra

fuente

esotérica

"ciencia

oculta".

Nunca

es

contrastada.

Hablando en el lenguaje de la biología, puede decirse que la predicción es el tipo más alto de adaptación -del hombre. Mediante ella, el hombre se

73

/L Canales G.

Bioes iadis iico

adapta anticipadamente a las nuevas condiciones que el mismo configura. Las, profecías, o conjeturas de gran escala como las del Apocalipsis, de Nostradamus

y

de

ciertos

políticos,

son

tan

infundadas

como

las

conjeturas.

Cuando Creso Preguntó al o r á c u l o de Belfos, qué ocurriría si atacaba a los Persas, la respuesta fue: "Un gran reino será destruido". Creso no se dio cuenta de la ambigüedad de la sentencia y atacó: un reíno, el suyo quedo destruido, como estaba profetizado.

Predicción con regresión

Sokál y R o h t f ( 1 9 8 1 ) . Una función, es una relación matemática que nos permite predecir que los valores de una variable Y, corresponden a valores dados de una variable X. El tipo más simple de regresión sigue la ecuación Y = X (relación entre el Número de anillos de crecimiento de un árbol c o m o una función de la edad).

Para

p o d e r rechazar y/ o

aceptar una

hipótesis,

es

necesario

utilizar

pruebas bioestadísticas, caso contrario se puede incurrir en errores que pueden ser negativos para el avance científico.

El uso de la pruebas bioestadísticas son una herramienta de ayuda para el investigador y no una limitan te.

La

bioestadística,

provee

las

herramientas

para

d i s c e r n i r con

mayor

claridad las causas, efectos, diferencias, asociaciones de los datos, y p o r lo tanto, es más sencilla la interpretación y discusión de las resultados.

Al hacer una prueba bioestadística, puede haber dos resultados: Aceptar

la

hipótesis

nula

(no

hay

diferencia)

o

rechazarla

(si

hay

diferencia). Existen dos tipos posibles de errores: rechazar la hipótesis nula cuando es verdadera ( error tipo 1) o aceptarla cuando es falso ( error tipo I I ) . A menudo la hipótesis es aceptada cuando es falsa, debido al p e q u e ñ o tamaño de muestra. El error tipo II puede ser común en estudios de conservación ya que generalmente las poblaciones son pequeñas. La aceptación de una hipótesis p u e d e tener consecuencias muy serias en proyectos de conservación por ejemplo: Imaginemos que una especie está disminuyendo,

pero

que

nuestras

7,4

1 1

estimaciones

poblacionales

no

G.

ii.

detectan

Biocntadisiica

ninguna

( cometiendo

un

diferencia.

error

de

Si

tipo

concluimos

H),

entonces

que no

no

hay

habrá

diferencia

medidas

de

conservación para modificar la tendencia.

La forma de conocer si el diseño es adecuado para no cometer un error de tipo II, es mediante el cálculo del p o d e r estadístico. El p o d e r estadístico es la probabilidad de rechazar una hipótesis nula falsa. Se calcula como 1 beta.

Cuadro 3 . 1 . Definiciones de Hipótesis y errores de tipo I y I I .

r

Parámetros

Definiciones

Hipótesis nula (Ho)

Hipótesis que generalmente indica que no

existe diferencias

-I�ipótesis alternativa (Ha)

Hipótesis que generalmente indica que

existe diferencias

---Error Tipo I

Rechazo' de una Hipótesis nula verdadera

Error Tipo I I

Aceptación de una hipótesis nula falsa



-· Alfa

Probabilidad de cometer un error Tipo I

Beta

Probabilidad de cometer un error Tipo II

Poder

Capacidad de una prueba bioestadística

para rechazar la hipótesis nula cuando no

es verdadera. Grado de d i s m i n u c i ó n de

L

errores de Tipo 1 1 .

3 . 7 . TAMAÑO DE MUESTRA

Tamaño

de

muestra

en

el muestreo

aleatorio

simple,

cuando

la

variable es continua.

Partimos de la fórmula del intervalo de confianza, para estimar la media poblacional de la variable:

·-----E-----

Canales ( } .

En donde: x=

media de la varianza

Z = coeficiente de confianza, que depende del nivel de confianza asumido. a x

=

error

estándar

de

la

media.

Es

la

desviación

estándar

de

la

distribución muestra} de la media. E = error al estimar la media poblacional. Es la distancia o separación entre un extremo del intervalo y el centro del mismo, se t i e n e n :

E =

z-x

Consideramos dos casos:

1) Cuando el tamaño de la población (N) es grande, n < 0 . 0 5 N 2) Cuando el tamaño de la población, no es muy grande, n > O . O S N.

Estudiaremos el caso 1) cuando N es grande se utiliza la fórmula: O' CJX

= -

Fn En donde, a es la desviación estándar poblacional n es el tamaño de la muestra. Reemplazándose se tiene:

Zcr E = -

Fn Elevamos al cuadrado ambos miembros de la fórmula:

z2 Ez

=

- cr z

n

Despejando n.

z2 n

=

- cr Ez

2

Esta es la fórmula para el caso de población grande (n< O , O S N )

El valor de n varía en forma directamente proporcional a los valores que están

en

el

numerador.

Además,

n

varía

en

forma

inversamente

proporcional al valor del denominador de la fórmula. Cuando

el

nivel

de

confianza

probabilidades normales Z

=

2,58.

asumido

es

99%,

según

la

tabla

de

A . Canales G.

B ioes tadis tica

Para el nivel de confianza de 9 5%, la tabla da Z

=

1, 9 6 .

La desviación estándar poblacional u no se obtiene directamente. En la práctica,

se

le

estima

tomando

la

desviación

estándar

de

una

investigación semejante ya efectuada. Si no hay antecedente, se toma del universo de una muestra piloto, llamada también, muestra guía o muestra de ensayo, de tamaño arbitrario. Supongamos de 8 0 o 1 0 0 elementos. Con los datos de la pre muestra, se calcula su media aritmética x y su desviación estándars:

(Y =

Es

decir,

la

desviación

estándar

s

poblacional

estimada,

es

igual

a

la

desviación estándar de la pre muestra.

El error E lo fija el especialista, puesto que es la persona más indicada para estimar el máximo error que se pueda admitir al calcular el valor m e d i o poblacional de la variable de estudio.

En la práctica, cuando no hay el especialista se toma:

E = 3 % de X o 5 % de X

Esto es el 3 % o el 5 % del valor medio de la pre muestra.

Ejemplo 3 . 6 . En una p o b l a c i ó n de 1 0 0 0 0 0 hombres adultos, se trata de

construir un cuadro que correlacione los p e s o s con la talla y la edad de las p e r s o n a s . Se quiere estimar el tamaño de una muestra aleatoria que sea representativa

de

la

población

dada.

De

varias

facultades

de

la

universidad se toma una muestra de S O personas varones, de edades y tallas que están dentro de l o s límites de estudio. Sus pesos en kg son:

55

68

73

64

85

90

77

82

52

60

83

72

66

78

80

¡,,,,.---,,---

59

58

56

74

57

72

64

72

62

73

70

77

81

69

54

71

72

73

85

76

-80

70

85

71

78

58

69

74

70

80

61

60

62

71

70

77

A . Canales

De estos valores obtenemos:

X = N, p o r lo tanto corregimos: 1850 n

=

=

764,46

1850 l

+

1300

n = 7 64 personas Este es el tamaño mínimo de la muestra bajo las condiciones dadas.

80

Bioestculistica

Tamaño

de

muestra

en

el muestreo

aleatorio

simple,

cuando

la

variable es cualitativa (proporciones) Es muestreo para proporciones de utilidad, cuando la variable en estudio es cualitativa, en escala nominal o en escala ordinal. Por ejemplo, con la variable sexo se tiene dos categorías: hombre y mujer. Supongamos que hay

20

personas

de

las

cuales

8

son

hombres,

y

12

mujeres.

Las

frecuencias en las categorías s o n :

f. absoluta

f. relativa

f. porcentual

8

p = 8/20 = 0.4

40%

Mujer

12

q = 1 2 / 2 0 = 0.4q

60%

Total

20

p + q = l

100%

Categorías "-iíoñi'bre

En donde: nº de hombres en el grupo

=

p

proporción de hombres

=

d nº tota 1

. ,

.

q = p r o p o r c i on de mujeres

e personas

nº de mujeres en el grupo

=

d nº tata 1

e personas

Propiedades y conceptos: 1.

Una proporción es la razón o cociente del número de elementos que tienen una propiedad dada, entre el total de elementos de la población.

2.

Se demuestra que: a = p.q, es decir:

La varianza a2, es igual al producto de la proporción de elementos que tienen cierta propiedad, por la proporción de elementos que no la tienen.

3.

También, en el análisis matemático se demuestra que para la varianza máxima se tienen: p=q=0,5

De donde se deduce que el valor máximo de la varianza es: 2�.:-

cr

máxima= O , S x 0 , 5 = 0 , 2 5

81

..A .

Canales

3 . 8 PROBLEMAS PROPUESTOS

a) Calcule el tamaño de muestra para la toma de datos de talla de pejerrey de una población grande de 1 5 0 0 0 0 individuos, con un nivel de confianza de 9 5 % . Se conoce el promedio ( 2 5 c m ) , desviación estándar ( 1 , 5 6 ) , error (3%).

b ) Calcule el tamaño de muestra de los siguientes datos: N

1500

Z = 1,96 Promedio

1,56

Desviación estándar= 3 , 5 Error=3,5%

e) Calcule el tamaño de muestra de la p o b l a c i ó n de vizcachas, tomar datos de

peso

(kg)

de

una

población

de

3500

individuos,

se

conoce

los

siguientes datos: Z = 1,96 Promedio

2 , 5 kg

Desviación estándar= 3 , 6 Error=5%

d)

Que haría U d.

Si no tiene promedio

ni varianza

de la especie y/ o

población que desea estudiar. Plantee todas las alternativas de solución.

Bioesuulisiica

A Canales G.

CAPITULO IV

PRUEBAS BIOESTADÍSTICAS PARAMÉTRICAS

4.1.

SUPUESTOS PARA PRUEBAS BIOESTADÍSTICAS

4.2.

ANDEVA DE CLASIFICACIÓN SIMPLE.

4.3.

ANDEVA FACTORIAL.

4.4.

REGRESIÓN

4.5.

CORRELACIÓN

PROBLEMAS PROPUESTOS

4 . 1 . SUPUESTOS PARA PRUEBA BIOESTADÍSTICAS Para aplicar pruebas bioestadísticas (paramétricas y no paramétricas ), se recomienda que las variables deban ser continuas y discretas. Algunas de las

pruebas

bioestadísticas

paramétricas

son:

Análisis

de

Varianza

(ANDEVA), Regresión, Correlación, Prueba de t (aunque otros autores consideran como no paramétricas utilizada como prueba de contaste).

Para aplicar una prueba bioestadística paramétrica, es necesario cumplir con los siguientes supuestos:

1. Normalidad de datos. Para comprobar

si existe normalidad en los datos, debe realizar pruebas

de bondad de ajuste como: kurtosis. Esto implica que los datos analizados estén en un rango de - 1 a + G 1 y G2 que debe ser igual O, entonces nos indica que los datos tienen normalidad. En caso de no existir normalidad de datos puede, hacer una transformación con Arcsen, Raiz cuadrada, logaritmo y Box Cox. Ejemplo de una prueba gráfica de normalidad de datos.

Las

consecuencias

de

la

no

normalidad

del

error,

no

son

demasiado

graves. Únicamente una distribución muy asimétrica tendría un efecto marcado sobre el nivel de significación del resultado o sobre la eficiencia del error. La mejor manera de corregir la falta de normalidad es hacer una transformación, a fin de cumplir con el supuesto de normalidad. Si a pesar de la transformación de los datos, continua la anormalidad, entonces se debe optar por una prueba no paramétríca.

83

.A

Canales

Bioestadistica

G.

5

4

6

PESO

Figura 4 . 1 . Curva de normalidad de datos

Interpretación:

La

figura

muestra

que

la

mayoría

de

los

datos

se

encuentran dentro de los rangos de Kurtosis aceptable, p o r lo que se acepta que l o s datos tienen normalidad.

Ejemplo 4 . 1 . Se presenta las alturas de de los primeros 7 0 estudiantes

graduados en el curso de bioestadística. H o : La muestra viene de una población normal. H 1 : La muestra no viene de una distribución normal.

Marca de

Altura

Frecuencia

clase

(X;)

observada

f¡X;

f;X;2

P(X;)

(fe;)

o

62,5

(f;-fe;)Z /fe;

esperada

(f¡) < 1'1

Frecuencia

0,0102

0,7140

0,1523

7938

0,0115

0,8050

0,1423

62.5-63,5

63

2

63,5-64,5

64

2

128

8192

0,0219

1,5330

0,1004

64,5-65,5

65

3

195

12675

0,0357

2,4990

0,3834

126



i

l

1

1

¡

65,5-66,5

66

5

330

21780

0,0542

3,7940

0,3127

66,5-67,5

67

4

268

17956

0,0755

5,2850

0,1337

67,5-68,5

68

6

408

27744

0,0995

6,9650

1,0371

Bioestadistica

A.. - Canales G.

68,5-69,5

69

5

345

23805

0,1122

7,8540

0,0136

69,5-70,5

70

8

560

39200

0,1191

8,3370

0,1474

70,5-71,5

71

7

497.

35287

0,1156

8,0920

0,0046

71,5-72,5

72

7

504

36288

0,1026

7,1820

2,6560

72,5-73,5

73

10

730

53290

0,0858

6,0060

0,6941

73,5-74,5

74

6

444

32856

0,0311

4,2770

0,0036

74,5-75,5

75

3

225

16875

0,0414

2,8980

0,0241

75,5-76,5

76

2

152

11552

0,0256

1,7920

76,5-77,5

77

o

o

o

o

>77,5

_Ef¡

I;f¡X/=

X¡=4912

345438

I;[¡ - 7 0

µ

=

0,0145

1,0150

0,0136

0,9520

I; P(X¡)

=

¿f¡X¡

4912

n -

= 7CJ =

1,9670

xz = 7 , 7 7 2 3

E f e ¡ = 70,000

1,000

70,17

49122 345438 -

70

S = 69

S = �=3,31

Para hallar P (proporción) se debe calcular Z: X · - µ Z = - 1__

s Entonces, empezaremos con la clase de mayor tamaño, en este caso las medidas > 7 7 , 5 . Aquí nos preguntamos e

población

normal

(y

por

lo

tanto,

e

aleatoria de esa población es

que

normal)

esperamos tenga una altura > 7 7 , 5 . A s í , Z

cuál es la proporción de una proporción

con

µ

=

de

una

muestra

7 0 , 1 7 y S = 3 , 3 1 , que

= ( 7 7 , 5 - 7 0 , 1 7 ) / 3 , 3 1 = 2 , 2 1 , para

este valor de Z, la proporción es 0 , 0 1 3 6 (Tabla A).

Similarmente, por calcular Z sería

0,0145,

la misma

que

=

(76,5 - 7 0 , 1 7 ) / 3 , 3 1

nos

informa que

=

1 , 9 1 , la proporción

0,0145

de

la

población

tendría una altura mayor a 7 6 , 5 . Por lo tanto, 0 , 0 2 8 1 - 0 , 0 1 3 6 = 0 , 0 1 4 5 de las observaciones, o ( 0 , 0 1 4 5 ) (70) = 1 , 0 1 5 0 de los individuos, estarían entre 7 6 , 5 y 7 7 , 5 .

Para determinar la proporción de la p o b l a c i ó n > 7 5 ,5, calculamos Z = (7 5 , 5 ·-

70,17)/3,31

=

1 , 6 1 , y luego

P (Z

>

1,61)

=

0,0537.

Por lo tanto, la

proporción de la población que está entre 7 5 , 5 y 76,5 sería P ( 1 , 6 1 < Z < 1,91)

=

0,0537 -0,0281

=

0,056.

Luego, probabilidades similares son obtenidas, empezando con la clase más pequeña y procediendo hasta alcanzar la clase es, para estaturas< 6 2 , 5 , Z = ( 6 2 , 5 - 7 0 , 1 7 ) / 3 , 3 1

85

=

que contiene µ. Esto

-2,32 y P ( X i < 62,5) = P

Canales G.

Bioes tadística

(Z< - 2 , 3 2 ) = 0 , 0 1 0 2 . Para alturas< 6 3 , 5 , Z

- 2 , 0 2 , por lo tanto P ( 6 2 , 5 < X i >

6 3 , 5 ) = P ( - 2 , 3 2 < Z < - 2 , 0 2 ) = 0 , 0 2 1 7 - 0 , 0 1 0 2 = 0 , 0 1 1 5 . Para alturas


77,5

87

..A .

Canales

G.

Con los valores d e µ = 7 0 , 7 1 y S = 3 , 3 1 resuelto en el Ejemplo 4 . 1 , ahora determinaremos la frecuencia esperada acumulada relativa. Por ejemplo, para encontrar P ( X i < 6 2 , 5 ) operamos (Z < - 2 , 3 2 )

2,18)

=

Z = (62,5- 70,17)/3,31 = -2,32,yP

O, 0 1 0 2 (Tabla A). Similarmente fe,

=

P ( X i < 6 3 , 5 ) = P (Z < -

0 , 0 1 4 6 , y así sucesivamente. El Cuadro A da proporciones en el

lado derecho de la curva. Pero desde que la curva normal es simétrica, el lado izquierdo de la curva contiene la misma p r o p o r c i ó n . Así, P (Z < - 2 , 3 2 ) = P (Z > 2 , 3 2 ) y d e s p u é s se lee directamente del Tabla A.

Si la Z es positiva, sin embargo, la frecuencia esperada acumulada relativa es 1 , 0 0 0 0 menos la proporción tabulada. Por ejemplo, P ( X i < 7 2 , 5 ) = P (Z < O, 70)

=

1 , 0 0 0 0 - P (Z > O, 70) = 1 , 0 0 0 0 - 0 , 2 4 2 0 = O, 7 5 8 0 .

Máximo Di

0 , 0 5 8 0 , máximo D'I

=

0,1053, D

=

0,1053

De acuerdo a la prueba de normalidad D 0 . 0 5 , 7 0 = 0 , 1 0 6 (Tabla B) Por lo tanto, n o rechazamos la H o ( 0 , 0 5 < P < 0 , 1 0 )

X.i en pulgadas

Figura 4 . 3 . Polígono de la frecuencia acumulada de los datos de altura de los estudiantes del ejemplo 4 . 1 .

88

B toes tculistica

J-l. Canales G.

Otro

método

para

determinar

si

una

muestra

proviene

de

una

distribución normal, es la prueba de Shapiro and Wilk, conocida como prueba W. El p o d e r

de W ha mostrado ser excelente cuando evalúa para

salidas de n o r m a l i d a d .

El procedimiento de W para una prueba de normalidad, especialmente cuando n > S O puede ser muy engorroso. Un procedimiento alternativo es D'Agostino,

que implica

el

cálculo

de

una estadística que

el

llama

D,

aplicable como una poderosa prueba para partidas de normalidad. T

D = - ­

-J n 3 S S Donde, SS es la suma de cuadrados.

Ejemplo 4.4.

Prueba

D ' Agostino

para

probar normalidad,

aplicado

datos del e j e m p l o 4 . 1 .

H o : La muestra proviene de una población normal H l : La muestra no proviene de una p o b l a c i ó n normal

Xi

fl

i

63

2

1 - 2

64

2

3 - 4

65

3

5 - 7

66

5

8 - 1 2 13 - 1 6

67

4

68

6

17 - 2 2

69

5

23 - 27 28 - 35

70

8

71

7

36-42

72

7

43-49

10 6

6 0 - 65

75

3

6 6 - 68

76

2

69 - 70

(¿ SS -

-

I

f.X� i

i

so -

73 74

f1. X 1· )

2

n

4912 -

n

-

+ 1

59

2

345 4 3 8 - - - - - 7 S S 9429 70 � = 0 , 2 8 6 4 (ver Tabla C), no rechazamos la

Ho.

2.

Independencia de datos.

La falta de independencia de los datos, puede tener su origen en el tiempo más que el espacio. En un experimento podríamos medir el efecto de un tratamiento mediante el registro de los p e s o s de diez individuos. Estas m e d i c i o n e s p u e d e n dar resultados discordantes de sobreestimación y subestimación. pesan

los

Por e j e m p l o , p o d e m o s determinar el

individuos

de

los · diversos

grupos,

de

orden en que se

acuerdo

con

algún

procedimiento aleatorio. N o es sencillo realizar una transformación de datos para vencer la no independencia. Pero, existen algunas pruebas c o m o las pruebas de bondad

de ajuste de las corridas hacia abajo y hacia

arriba que trabaja con la prueba Z y también se puede hacer pruebas gráficas .

...

• �

., �

••.



.

Ir









..

.



...

t







'

'

.. .. . . . .

.

.

X

.

.

X "

.

..

.

é

. .

.

.

. .

» Ó ,

No existe i n d e p e n d e n c i a de datos

Si existe independencia de datos

Figura 4.4. Independencia de datos

90

G.

.

Bioes tad is tica

Homogeneidad de varianzas.

3 .

La igualdad de varianzas en un grupo de muestras es una precondición

importante para diversas pruebas bioestadísticas. Las pruebas que se pueden

aplicar

para

analizar

o

corregir

este

supuesto

tenemos

las

pruebas de Cochran, Bartlett que trabajan probabilidades. Así mismo, se p u e de realizar pruebas gráficas donde l o s residuos de los datos deben estar distribuidos cerca de la m e d i a .

X

X

Si existe homogeneidad de varianzas

No existe homogeneidad de varianzas

Figura 4 . 5 Homogeneidad de varianzas

A continuación se presenta un ejemplo desarrollado con la prueba de Bartlett.

Ejemplo 4 . 5 .

Diecinueve cerdos fueron divididos en cuatro grupos, y

cada grupo fue alimentado con diferentes alimentos. Los datos que se presentan s o n l o s pesos en kilogramos, y se desea evaluar si la varianza de los pe s o s en todos los cerdos es la misma en l o s cuatro tipos de alimentos.

H o : Las cuatro varianzas de las poblaciones son homogéneas.

H 1 : Las cuatro varianzas de las p o b l a c i o n e s son heterogéneas

91

A . Canales O.

Alimento 1

Alimento 2

Alimento 3

60,8

6 8 ,7

102,6

87,9

57,0

67,7

102,1

84,4

65,0

74,0

100,2

83,1

58,6

66,3

96,5

85,7

61,7

69,8

90,3

x

60,62

69,3

100,35

86,28

ss,

37,57

34,26

22,97

33,55

gl,

4

4

3

4

s

21

log s

21

gl.flog s

21)

1/ gl,

9,39

8,56

7,66

8,39

0,9325

0,8842

0,9238

3,8908

3,7300

2,6526

3,6952

0,250

0,250

0,333

0,250

t

= (60,8

60,62)

2

=

Sp

2

B

-

128,35

-

-

15

-

=

I::; (1/ gh) = 1 , 0 8 3

+ . . . + (61,7

= 0, 9 3 2 5

log si

r

(I

gli)

-

¿

gl¡logsf]

B = 2 , 3 0 2 5 9 ( ( 0 , 9 3 2 5 ) ( 1 5 ) - 13,9686]

B

=

2,30259[0,0189]

B = 0,0435

e -

1

+

-

1

(�

3 ( k - l)

e=

1

3

e = B

=

B e

L

2_ _ _ 1 ) gli

!3) ( 1,83

+

-

r

gl,

ts)

1,113

0,0435

= C

X�

60,62)

¿g}i

8 56

2 , 3 0 2 5 9 [ (Iogsi)

0,0391 1,113

05 3

= 7,815

92

128,55

15

I::; gL(log s21) = 1 3 , 9 7

¿SSi

2

5P

2

=

Xi)z j

[t, (X¡i

+ (57 - 60,62)

l::; S S ¡ 6V¡

0,9727

SS =

ssi

Alimento 4

2

37,57

G.

Por

lo

tanto,

Bioestadistica

no

rechazamos

la

Ho,

lo

que

indica

que



existe

homogeneidad de varianzas.

4.

Interacción

Para análisis

con más

de

dos variables,

además

de los tres

primeros

supuestos ( normalidad, independencia y h o m o g e n e i d a d de varianzas), se debe cumplir el supuesto de interacción. Si la interacción es significativa se debe transformar l o s datos, se requiere que l o s efectos no deban tener interacción significativa. Se p u e d e aplicar las pruebas de Tukey para la no aditividad.

Si

la

interacción

posiblemente

existe,

falso

entonces

cuando

dicho

la

prueba

efecto

es

será

muy

poco

grande.

eficaz

y

Existe

la

posibilidad de transformar los datos, si a pesar de dicha transformación persiste la interacción, puede analizarse los datos con ANDEVA simple o de una vía.

E j e m p l o (Utilizando el programa Statgraphics):

Cuadro

Análisis

4.1.

(interacción

no

de

Varianza

significativa).

de

Factor

dos

a:

factores

especies

de

con

replicación

moluscos

(a=2):

Acmaea scabray A. Dijitalis. Factor B : concentraciones de oxigeno de agua

demar(b=3): 100%, 7 5 % y 5 0 % .

Fcalc

p

16,638075

1,721

0,1964ns

90,660508

9,376

0,0004s

1,251

0,2 ns

FdeV

se

A (especies)

6,63808

1

B (salinidad)

181,32102

2

AxB

23,9262

2

11,9631

401,5213

42

9,6692614

623,40659

47

GL

CM

(Interac,) Error

-· Total

F (0,05) ( 1 , 4 2 )

=

4,07

F(0,05)(2,42)

=

3,22 F ( 0 , 0 0 1 ( 2 , 4 2 ) = 8 , 1 8

Interpretación: El c o n s u m o de oxígeno no difiere para las dos especies de moluscos, pero difiere con respecto a la salinidad. Al 5 0 % de agua de mar, disminuye el consumo de oxígeno. No existe suficiente evidencia de una interacción del consumo de oxígeno entre e s p e c i e x salinidad.

El no pu

cumplimiento

de

los

supuestos

para las

pruebas p a r a m é t r

ícas,

ede tener resultados contrarios en la interpretación de los datos y dar

98

Bioestadistica

A. Canales G.

sugerencias

erróneas.

Actualmente,

existen

varios

paquetes

b i o e s t a d í s t i c o s para c o m p u t a d o r a s que p u e d e n r e a l i z a r todas las pruebas

:

p a r a m é t r i c a s y no paramétricas y también c o m p r o b a r l o s s u p u e s t o s .

Pero,

para

manejar

conocimiento

Caso

dichos

teórico

contrario,

"si

de

introduce

c o m o resultado basura".

recomendables

paquetes

conceptos

son:

se

y

basura

debe

a

los

Los programas

S T A T G RA P H I C S ,

tener

una

procedimientos

programas

q u e tienen

SAS,

base

sólida

de

bioestadísticos.

también

y

exigencia científica

SYSTAT,

INFOSTAT

,

recibirá

y

otros

m e n o s exigentes.

4.2.. La

ANÁLISIS DE VARIANZA DE CLASIFICACION SIMPLE (ANDEVA)

Bioestadística

disciplinas

del

para

técnica

la

de

prueba

Fisher,

de

conocida

hipótesis

de

como

p o b l a c i o n e s con datos en m u e s t r a s . Esta t é c n i c a es u n a herramienta muy

muchas

(ANDEVA)

la

t

en

varianza

desarrollado

¡

útil

de

ha

análisis

varias

s a b e r h u m a n o y en investigaciones

en las

c u a l e s s e a p l i c a n la o b s e r v a c i ó n y la e x p e r i m e n t a c i ó n . ¡;':! .. ·•·· I}

La técnica c o n s i s t e en s e p a r a r que la v a r i a c i ó n total observada las causas

r l

y factores p a r c i a l e s , s i g u i e n d o l o s s i g u i e n t e s p a s o s :

a) Clasificar o s e p a r a r las c a u s a s parciales de variación

b ) C a l c u l a r l o s grados de l i b e r t a d (GL), para c a d a factor o causa p a r c i a l de

variación.

e)

Calcular

la

suma

observaciones

de

(SC)

los

con

cuadrados

respecto

a

la

de

las

desviaciones

media,

para

cada

de

una

las

de

las

factor

de

c a u s a s de v a r i a c i ó n .

d)

Calcular

la

varianza

o

cuadrado

medio

CM)

para

cada

variación.

e)



1

Probar

hipótesis

por

p r u e b a de F o r e l a c i ó n

1

f)

medio

de

a

prueba

de

Fisher;

conocida

como

de varianzas.

Comparar l o s p r o m e d i o s ( d i s c r i m i n a r v a r i a b l e s ) p o r varios m é t o d o s .

E l a n á l i s i s de varianza sirve para determinar la diferencia o igualdad entre

1 ¡

f !

d o s o más m e d i a s p o b l a c i o n a l e s , utilizando

muestras i n d e p e n d i e n t e s . El

m é t o d o s e b a s a en la siguiente pregunta: ¿habrá mayor variación entre las

¡ ¡

q

m e d i a s de distintos g r u p o s , que entre l o s grupos m i s m o s ?

I ¡

H ¡ ¡

¡ l

!l

U na

u

variabilidad

diferencia

entre

i nherent e

las

medias

ha

de

ser

grande

con

respecto

a los gr u pos para que sea significativa.

H ; ¡

94

a

la

·.

Bioestadistico.

A. Canales G.

El nombre de análisis de varianza se utiliza porque la variabilidad total en el conjunto de datos se p u e d e descomponer, en la suma de la variabilidad entre las distintas medidas muestrales y la variabilidad en las muestras. Es un método que sirve para estudiar la variación entre medias y esa variación se mide p o r una varianza.

Aplicación del ANDEVA, cuando el número de repeticiones es constante para todas las muestras (n = nl = n2 = n 3 , etc.).

E j e m p l o 4 . 5 . Peso en K g d e 1 0 n i ñ o s al nacer tomados al azar.

H o : N o existe diferencia de los pesos de recién nacidos.

H l : Existe diferencia de los pesos de recién nacidos, entre los hospitales evaluados.

HOSPITALES N

A

B

e

D

1

3,000

3,625

3,800

3,050

2

3,500

3,450

3,500

2,800

3

3,400

3,400

3,350

3,500

4

3,400

3,625

3,250

3,400

5

3,350

3,625

4,100

3,350

6

5,050

3,150

3,900

3,200

7

4,760

3,360

3,900

3,050

8

3,400

3,230

4,000

3,400

9

3,650

3,950

3,670

2,900

3,600

3,100

37,070

31,75

10 ¿Xij

X

3,260

3,400

36,770

34,815

3,677

3,482

3,707

3,175

k

N

=In¡=

40

i=l

Cualquier valor es Xij. Por e j e m p l o X 1 1

=

3 , 0 5 0 , etc.

El Gran Total e s :

95

3 , 0 0 0 ; X12

=

3 , 5 0 0 ; X24

=

3 , 6 2 5 ; X41

A . Canales G.

LL i

Bioestadistica.

X¡j

= 36,770 + 34,395 + 3 7 , 0 7 + 3 1 , 7 5 = 140,405

j

L L Xl i

2

= 3

2

+ 3,5

2

34,395

=--+ 10



La variación

¡

2

+ . . . 2,9

2

+ 3,1

= 500,386

j

36,77

r

2

+ 3,4

total

observada

2

37,07

2

31,75

2

+--+--=494636 10 10 1

10

en

los

40

niños

muestreados

se

puede

atribuir las siguientes causas parciales.

a)

Variación entre hospitales o entre muestras.

b)

Variación dentro de cada hospital o de cada muestra (variación de muestreo que más tarde definiremos como error experimental y que, como se explicará, tiene también varias causas parciales.

Cálculo de la suma de los cuadrados ( S C ) .

l.

F e =

C 2:: i i i X ¡ i ) 2 ¿n¡

2 . se

total =

L Li XG -

Fe

¿·X� 3.Se

1-'1

¿¡-

grupos=

-

Fe



4. se

error =

se

total -

se

grupos

Cualquier método puede emplearse, pero el descrito en 3ª es el de uso más común por ser bastante práctico.

Aplicando estas 4 fórmulas a los ejemplos, tiene:

140'4052

1 . FC

=

=

492 839 1

40

2.

se

total = 5 0 0 , 3 8 6 - 4 9 2 , 8 3 9 = 7 , 5 4 7

3.

se

g ru p o s = 494, 6 3 6 - 4 9 2 , 8 3 9 =

1 1 i l

1, 7 9 7

l j

4.SC error=

se

total_-

se

muestras= 7,547 - 1 , 7 9 7 = 5,73

!t

J I

Cálculo de cuadrados m e d i o s :

96

Bioestadistica

A. Canales G.

se grupos CM grupos = ---­ gl grupos se

error

CM e r r o r = g1 error Finalmente cálculo de la F: CM grupos F=---­ CM error

Cuadro 4 . 2 . ANDEVA Clasificación Simple de niños nacidos en cuatro hospitales.

se

GL

FdeV

=

3

CM

Fe (0,05)

1,797

0,599 0,159

Hospitales

(a-1)

Error

A(n-1)

=

36

5,75

Total

a(n-1)

=

39

7,547

3,767

Ft (0,05) 2,84

Con d. Signif.

�·

Interpretación: El peso (Kg) de niños nacidos, presenta diferencia entre los cuatro hospitales Fe

ro.os,

=

3, 7 6 7 ; gl

=

3 , 3 6 ; Ft 0 , 0 5 ; 3 , 3 6

=

2,84.

En base al E j e m p l o 4 . 5 , se presenta los resultados estadísticos utilizando el Software Infostat.

3.40

3.40 3,35 5.05

4.7'6 3.40 3.65

1

3.26

1

3.63

2

3.45

2

3.40

2

,.

97

A. Canales G.

CU.adro

de

Biocstadistica

d e l. a Varianza.

A.ná.Usis

r

f.V.

se

Modelo

1.80

3

0.60

3.75

0.0192

HOSP

1.60

3

0.60

3.75

0.0192

Error

5.75

36

0 . 1 6

Total

7.SS

39

gl

CM

Interpretación: El valor p

=

< se

uvo

III)

p-valor

0 , 0 1 9 2 , sugiere el rechazo de Ho, es decir

existe diferencia de los p e s o s de los recién nacidos entre los hospitales

en�

los que se hizo la evaluación. Corroborando con los resultados obtenidos:' manualmente.

Importante: Cuando el resultado del análisis de ANDEVA es sígnificativa/. se tiene que hacer en forma obligatoria, los análisis de contrastes con lá · Prueba

Tukey y otras

pruebas

que

determinan

diferencias

entre

los

tratamientos, zonas, dietas entre otras. Contrariamente si los resultados · son, no Significativos no es necesario hacer una prueba de contraste. Para , realizar la prueba de contraste es necesario que las comparaciones deban;'. ser más de dos tratamientos.

En l o s próximos ejemplos, se harán las respectivas pruebas de c o n t r a s t e. " las mismas que pueden ser numéricas o gráficas.

Ejemplo 4 . 6 . C o n s i d e r e m o s una variable sobre lo que actúa un factorque, puede presentarse bajo un determinado número de niveles, t. Por ejemplo. p o d e rn o s considerar un fármaco que s e : administra a t = 3 grupos d e , personas y se les realiza cierta medición del efecto causado:

Datos

de personas

con

gripe,

apendicitis y sanos,

organizado

en tres