· B I O E S T A D ( S T I C A Herramienta para la Investigación ANGEL CANALES BIOESTADÍSTICA. Herramie
Views 31 Downloads 0 File size 96MB
·
B
I
O
E
S
T
A
D
(
S
T
I
C
A
Herramienta para la Investigación
ANGEL CANALES
BIOESTADÍSTICA. Herramient� para la Investigación
Autor-Editor:
© Ángel Canales Gutiérrez Puno - Perú
Primera
Edición, 201 1
Tiraje: 1000 ejemplares Diagramación y Edición: 1von Rocío Gutierrez Flores Hecho el Depósito Legal en la Biblioteca Nacional del Perú Nº 2 0 1 1 - 1 2 1 1 6 ISBN: 978-612-00-0700-6
Impreso en: Corporación MERÚ E.I.R.L. Jr. Puno 2 1 9 Interior esq. Con Jr. Moquegua, Telef. ( 0 5 1 ) 363934 - Puno Puno - Perú Octubre, 201 I
PRESENTACION
La bioestadística,
es
una herramienta fundamental para realizar
trabajos de investigación, donde se analiza variables biológicas, que sirven para plantear y probar hipótesis.
Muchos
investigadores
bioestadística última,
descriptiva
siendo
una
poseen e
limitaciones
ínferencíal,
limitante
para
para
principalmente
publicar
e
aplicar en
interpretar
esta los
resultados obtenidos de la investigación.
El libro Bioestadística: Herramienta para la investigación, permitirá al investigador encaminar en el campo de la investigación desde una
biocstadístíca
descriptiva
simple
hasta
una
prueba
ínfercncial,
permitiendo una mayor rigurosidad en la interpretación y discusión de los resultados obtenidos.
La aceptación o rechazo de una hipótesis, no será posible sino no se aplica una prueba bioestadística adecuada. En el libro existe una variedad
de
ejemplos
con variables
biológicas,
que
posibilita
al
lector-investigador aplicar pruebas inferenciales.
Contrariamente, existirá investigadores que no le dan importancia a la aplicación de pruebas bioestadísticas, siendo una respuesta a la limitación del conocimiento y utilidad de las diversas pruebas que detecten diferencias y/o igualdades en la investigación.
EL
l 1
t
AUTOR
ÍNDICE
PÁG.
CAPÍTULO l. Principios de la bioestadística
07
1 . 1 Reseña histórica
07
1 . 2 Población y muestra
08
1 . 3 Precisión y exactitude
09
1 . 4 Parámetro
11
1 . 5 Esta dígrafo
11
1 . 6 Ciclo metodológico
1 1.
1.7Variables
13
1 . 8 Distribución de frecuencias
15
1 . 9 Representación gráfica de datos
27
1 . 1 0 Problemas propuestos
·
31
CAPÍTULO II. Estadística descriptiva
33
2 . 1 Media
33
2 . 2 Mediana
37
2 . 3 Moda
40
2 . 4 Desviación estándar
43
2 . 5 Varianza
48
2 . 6 Coeficiente de variabilidad
49
2 . 7 Problemas propuestos
50
CAPITULO 1 1 1 . Probabilidades, distribuciones, límites de confianza, hipótesis, asimetrías
52
3 . 1 Probabilidades
52
3 . 2 Distribución normal de probabilidad
53
3 . 3 Distribución de P o i s s o n y espacial
56
3 . 4 Intervalos de confianza
64
3.SAsimetríayKurtosis
66
3 . 6 Pruebas de hipótesis
69
3.7Tamañodemuestra
75
3 . 8 Problemas propuestos
82
CAPITULO IV. Pruebas bioestadístícas paramétricas
83
4 . 1 Supuestos para pruebas bioestadísticas
83
4.2 ANDEVA de clasificación simple
94
4.3 ANDEVA factorial
110
4.4 Regresión
127
4 . 5 Correlación
134
4.5 Problemas propuestos
143
CAPITULO V. Pruebas no paramétricas
14 7
5 . 1 J i cuadrado
149
5 . 2 Tabla de contingencia
154
5 . 3 Kruskal Wallis
159
5 . 4 Mann Whitney
169
5 . 5 Friedman Two Way
172
5 . 6 Problemas propuestos
177
ANEXOS
179
BIBLIOGRAFÍA
217
_il. Canales G.
Bioestadistica
CAPITULO I
PRINCIPIOS DE LA BIOESTADISTICA
1 . 1 . RESEÑA HISTÓRICA: ETAPA INICIAL DE LA SISTEMATIZACIÓN Y ETAPA ACTUAL 1 . 2 . POBLACIÓN MUESTRA 1 . 3 . PRECISIÓN Y EXACTITUD 1.4. PARÁMETRO 1 . 5 . ESTADÍGRAFO 1 . 6 . CICLO METODOLÓGICO 1 . 7 . VARIABLESCONTINUAS,DISCRETASYATRIBUTOS 1.8. DISTRIBUCIÓN DE FRECUENCIAS 1.9. H I S T O G RA M A E N F O R M A D E F I G U RA S PROBLEMAS PROPUESTOS
1.1.
BREVERESEÑAHISTÓRICA
El desarrollo histórico de la estadística atraviesa por 3 etapas.
a) Se
Etapa inicial extiende
desde
la
antigüedad
hasta
mediados
del
siglo
XVIII.
Se
caracteriza porque la estadística está asociada a los censos poblacionales, registros de bienes y servicios del estado. La palabra estadística deriva del vocablo "estado".
La cultura egipcia contó
con recopilaciones regulares
de
datos
de su
administración estatal, sobresaliendo Saphkit, diosa de los libros y de los cuentos.
b)
Etapa de sistematización
Se caracteriza por la aparición de escuelas que sistematizan la estadística, destacándose tres:
Escuela alemana: Creó la primera cátedra de la estadística considerando
esta disciplina como la descripción de los fenómenos concernientes a estado o administración.
Escuela inglesa: Cuantificaron las leyes que rigen los fenómenos sociales,
como consecuencia "aritmetizaron" la estadística.
07
A. Canales G.
Escuela
Bioestadistica
Francesa:
Introduce
la
teoría
de
las
probabilidades
como
. fundamento m a t e m á t i c o de la estadística.
e)
Etapa actual
Comprendida entre p r i n c i p i o s del siglo XIX hasta nuestros días. En esta etapa,
la
matemática
se
plasma
como
la
columna
vertebral
de
la
estadística y se caracteriza p o r el gran desarrollo alcanzado como ciencia y como metodología de investigación científica aplicada a todas las ramas del saber h u m a n o : biología, medicina, ingeniería, economía, entre otros. La
estadística,
aplicaciones
es
hoy
alcanzan
a
un
campo
casi
todas
extremadamente
las
ciencias
e
activo,
incluso
a
cuyas
todas
las
humanidades.
1.2.
P O B L A C I Ó N Y M U E S T RA
Población Es el conjunto mayor de objetos (universo) que estos tengan al menos una característica, acerca de las cuales se desea información.
Conjunto
de
individuos
de
la
misma
especie
características que viven en un determinado
que
tienen
las
mismas
espacio y tiempo, pueden
ser infinitos o finitos, denominado también universo.
Muestra Es una parte de población que puede ser tomado aleatoriamente y debe ser
una
parte
representativa, fórmulas para
representativa no
podemos
de
la
inferir
determinar el tamaño
población. acerca de
de
muestra,
importante para realizar trabajos de investigación.
Población
X
X
08
Si la
la
muestra
población.
siendo
un
no
es
Existen
dato
muy
Bioes tadística
A. Canales G.
1 . 3 . PRECISIÓN Y EXACTITUD . "Exactitud"
normal,
y
pero
Exactitud,
"Precisión"
se
usan
estadísticamente
es
la
cercanía
de
·
sinónimamente
haremos
un
dato
una
en
la
conversación
distinción.
m e d i d o
o
computado
a
su
verdadero
valor.
Precisión,
Los
es
valores
enteros.
De
pueden,
colonia
bajo
hembras
El
último
l o s
se
y
que
entre
ciertas
machos
el
el
Entre
estos
la
1 , 5
m e d i d a
la
al
de
más
suelen
ser
1 2
y
establecida
Así
una
debe,
los
medida
dicha
existe
nido
y
fr a c c í o n a l ,
otras
exactos.
discretas
Si
en
una
entre
exacto.
precisión,
nosotros
longitud
si
tres,
p r o p o r c i ó n
denotar
se
el
ni
exactos.
la
ente.
números
números
de
o
no
en
parte
número
que
de
longitud
una
números
machos,
hay
cinco
como
también
entre
objeto
nido,
que
derivan
también
continuo
de
que
un
no
menos
medirse
y
en
huevos
o
mismo
necesariamente,
cuatro,
continuas
medidas
exacto.
valor
de
serán
hembras
valor
e s c a l a
valor
y
dos
de
objetarse
la
es
1 8
no
del
huevos
exacto
c o n d i c i o n e s ,
hay
aunque
cuatro
también
variables
verdadero
1 2 , 2 5 m m
longitud
de
sobre
encuentra
decir
las
ser
repetidas
cuatro
número
podrán
animales
dígito
límites
del
discretas,
similar
de
usuales,
correctamente;
tampoco
variables
forma
medidas
contamos
acerca
contado
entre
s o n
cuando
duda
claramente
Las
cercanía
p r e c i s o s
Así,
ninguna
hemos
la
1 2 , 3
encuentra
esto
creemos
en
mm
es,
que
quiere
algún
lugar
1 2 , 3 5 m m .
límites
reales
estructura
definir,
como
de
que
1 2 , 2 5
1 2 , 3 5 ,
m e d i m o s ,
h e m o s
hecho,
no
l o s
se
encuentra
lo
s a b e m o s .
límites
reales
la
verdadera
Algo
como
puede
1 2 , 2 5
y
1 2 , 3 5 m m .
Esto
está
reales
caer
ser
a
de
dado
y
una
medida
escogida
manera
una
claro,
1 2 , 1 5
un
m e d i d a
2 , 2 5
hasta
en
la
m e d i d a
mm.
exacta
de
cualquiera
estado
de
que
1 2 , 2 5
1 2 , 2 5 ?
de
las
insatisfactorio
1 2 , 3 5
mm.
1 2 , 3 4 9 9 9 9 ... ,
¿ D o n d e
así
de
¿Entonces,
corno
¿ N o
dos
en
la
1 2 , 2
tendría
clases
el
implicaría
puede
iguales
1 2 , 3
método?
y
Lo
clasificaríamos,
l o s
de
09
1 2 , 2
consigo
cualquiera
entre
p o s i b i l i d a d e s
1 2 , 2
creando
mismo
en
la
1 2 , 1 5
límites
preguntarse,
ocurriría
clase
y
de
1 2 , 3
1 2 , 2 4 9 9 9
de
esta
con
d e s d e
. . . . .
.A.
Biocstadisuca
G.
Tal argumento es correcto, pero cuando registramos un número como . 1 2 , 2 o 1 2 , 3 denotamos que la decisión, por supuesto, no es arbitraria, sino que está basada sobre la medida más válida. Si la escala de medidas es tan precisa que un valor de 1 2 , 2 5 fuese claramente reconocido, entonces la medida debería registrarse originalmente con cuatro cifras significantes. Los límites reales, por consiguiente, tienen una cifra más que la última cifra significante m e d i d a por el observador.
Límites reales
192 ,3
192, 5
193 ,5
192, 8
192, 75
192, 85
1 9 2 , 76
192 , 7 5 5
192, 765
Una regla fácil de recordar, es que el número de pasos de una unidad desde la más p e q u e ñ a hasta la más grande de las medidas de una ordenación debería estar comprendido entre 3 0 y 3 0 0 . A continuación se presenta en forma de figuras las diferencias entre precisión y exactitud.
Sin error, pero no
Sin error y
preciso :::::No exacto
Con error y no
Con error. pero
=
No exacto
N o exacto
Figura 1 . 2 . Diferencias entre error, precisión en la toma de datos
JO
.il. Canales
Bioes tadis tica
G.
1.4. PARÁMETRO Y ESTADIGRAFO
Parámetro Es un número que describe alguna característica de la población y para determinar
su valor
es
necesario
utilizar la
información
poblacional
completa, y por lo tanto, las decisiones se toman con certidumbre total.
Estadígrafo Es un número que se obtiene a partir de los datos muestrales y describe alguna característica de la muestra y la toma de decisiones contiene un grado de incertidumbre.
1 . 5 . ESTÁDÍSTICA DESCRIPTIVA E INFERENCIAL
Estadística: Es la aplicación de los conocimientos de la matemática con la finalidad de recolectar y analizar datos para obtener información.
Bioestadistica Está relacionado a la recolección y análisis de datos biológicos o variables biológicos.
Ejemplos:
peso,
talla,
temperatura,
número
de
especies,
individuos, número de enfermedades, número de bacterias, entre otros.
Estadística descriptiva Trata de la recopilación, clasificación, presentación y descripción de los datos.
No
diferencias.
es
recomendable
Hay dos
clases
de
utilizar
ésta
estadística
para
estadística descriptiva, los
analizar
estadísticos
centrales o de localización y estadísticos de dispersión. Los estadísticos centrales señalan la p o s i c i ó n de una muestra de dimensión dada. Por lo tanto, un estadístico central debe p o s e e r un valor representativo para la masa de observaciones.
Estadística inferencial N o s proporciona la teoría para tomar decisiones frente a la incertidumbre o afirmar algo acerca de la población a partir de los datos bajo estudio. Esta estadística, es la que debe de emplearse en trabajos de investigación y para publicaciones en revistas científicas.
1 . 6 . CICLO M E T O D O L Ó G I C O ¡ ¡
Cuando no sea posible obtener una información completa de la población,
¡
J
se extraen muestras representativas de dicha población mediante las
11
Bioestadistica
_11. Canales G.
���-��������·
técnicas de muestreo y en base al estudio o información obtenida de los . datos muestrales se toman decisiones frente a la incertidumbre, o se afirma algo acerca de la población total con ayuda de la bioestadística ínferencial.
Este ciclo se cumple en la mayoría de
los trabajos de la bioestadística.
POBLACIÓN
Técnicas de muestreo .
Muestra
0 Bioestadística inferencia!
Figura 1 . 3 . Ciclo metodológico de la bíoestadístíca inferencial. La recolección de los datos, es en forma desordenada, luego procedemos a ordenarlo y una vez ordenada, procedemos a presentar en
forma de
figuras, cuadros y tablas. En este proceso interviene el ciclo metodológico. Ejemplo:
Cuadro 1 . 1 . Procedencia de los Estudiantes de la Facultad de Ciencias Biológicas de la UNA Puno ( 2 0 0 7 ) .
Provincias
Mujeres
Hombres
Ayaviri
40
20
Azángaro
30
20
6
4
80
70
Puno
100
80
Otros
5
4
Huancané
J u l i a ca
12
iL Canales G.
Figura
1.4.
Bioestadistica
Representación
en
forma
de
barras
de
los
datos
numéricos de alumnos de la FCCBB-UNA Puno
1 . 7 . VARIABLES
Qué es variable. Una variable es una p r o p i e d a d c o n r e s p e c t o a la cual l o s i n d i v i d u o s de una
muestra
se
diferencia
muestras
diferencian
a
los
que
han
Conservándose
sentido
en
individuos
sido
de
de
verificable
la
muestra
estudiadas,
uniforme,
etimológico
algo
la
tal
puede
propiedad
palabra,
y
por
y
medible.
bajo
no
no
Si
estudio,
ser
de
sería
tanto,
ni
la
o
propiedad
al
interés
una
menos
no
las
estadístico.
variable
siquiera
a
en
debería
el
ser
llamada así.
Las
variables
pueden
ser
adquieren
relacionadas
valor
con
para
otras
la
investigación
(formar
parte
teoría).
P o d e m o s dividir variables b i o l ó g i c a s c o m o s i g u e :
1
1
l
1
13
J
de
científica
una
cuando
hipótesis
o una
_.A.
Canales
Bioes tadistica
G.
Variables mensurables. Son todas aquellas cuyos diferentes estados pueden ser expresados de una manera numérica. Podemos establecer una división en dos clases:
a.
Las variables continuas
Las cuales teóricamente p u e d e n alcanzar un número infinito de valores entre dos puntos fijos cualesquiera.
Por ejemplo, entre las medidas longitudinales, 1 , 5 y 1 , 6 cm hay un número infinito de longitudes que podrían ser medidas, si se tuvieran un método de calibración suficientemente preciso para obtener tales medidas.
Cualquier
lectura
de
una
variable
continua,
tal
como
de
la
longitud
1 , 5 7mm, es de s d e luego una aproximación a la lectura exacta, la cual en la práctica es incognoscible.
Para medir este tipo de variables se utiliza
e q u i p o s e instrumentos.
E j e m p l o s de variables continuas: longitudes, áreas, volúmenes, pesos, ángulos, temperaturas, períodos de tiempo, porcentajes.
b. En
Variables discontinuas. discretas o merísticas.
contraste
con
las variables
continuas
existe
otro
tipo
llamado
de
variables discontinuas, c o n o c i d o s también como variables discretas o merísticas. Éstas son variables que p o s e e n únicamente algunos valores numéricos fijos y además no pueden tomar valores intermedios entre dichos valores fijos.
Así el número de artejos del apéndice de un insecto dado puede s e r 4; 5 ó 6 pero
nunca
5,5
ó 4,3.
Ejemplos:
El
número
de
una
cierta
estructura
( segmentos, cerdas, dientes ó glándulas), el número de vástagos o prole, el número de colonias de microorganismos, animales, número de plantas en un área determinada, entre otros.
Variable ordinal o atributo Algunas variables no pueden ser medidas, pero pueden ser ordenadas y _ clasificadas por su magnitud. Así, en un experimento se puede clasificar ordenadamente la emergencia de 1 0 pupas sin especificar la hora exacta en la que cada pupa emergió. En tales casos, registramos los datos como una variable ordinal, que es el orden de emergencia.
14
. ..4.
Canales
Bioestadisuca
G .
Las variables que no pueden ser medidas, pero que p u e d e expresarse cualitativamente, reciben el nombre de atributos.
Todas ellas s o n propiedades, tales como blanco o negro, preñada o no preñada,
vivo
o
muerto,
macho
o
hembra.
Cuando
tales
atributos
aparecen combinados con frecuencias pueden tratarse estadísticamente. De 8 0 ratones, p o d e m o s establecer que cuatro de ellos s o n negros y el resto grises. Cuando l o s atributos se combinan con frecuencias en cuadros adecuados para su tratamiento, nos referimos a ellos llamándoles datos de enumeración.
Así, los d a t o s d e enumeración sobre el color de los ratones, se dispondrían como siguen:
Frecuencia
Color Negro
4
Gris
76
Total
80
En algunos casos, los atributos pueden convertirse en variables, si esto se considera necesario. Así, cabe sustituir los colores por longitudes de onda o por valores sobre una figura, los cuales son magnitudes mensurables. Algunos otros atributos que pueden ser clasificados u ordenados, son susceptibles
de
ser
codificados
a
fin
de
convertirlos
en
variables
ordinales. E j e m p l o : Los tres atributos siguientes que designaremos por las
expresiones
"pobremente
desarrollado",
"bien
desarrollado",
e
"hipertrófico", podrían ser codificados convenientemente mediante las cifras
1, 2, 3 . Estos valores denotan el orden de desarrollo pero no la
magnitud relativa entre estos estados de crecimiento.
1 . 8 DISTRIBUCIÓN DE FRECUENCIAS
Cuando se trabaja con conjuntos grandes de datos, con frecuencia es útil organizarlos y resumirlos p o r m e d io de la construcción de una tabla que liste los distintos valores posibles de los datos (ya sea de forma individual o por grupos), junto con las frecuencias correspondientes, es decir, el número de veces que ocurren dichos valores.
Construcción de una distribución de frecuencias 1) Sean las siguientes cifras, los calificativos de un curso de bioestadística,
en el que se han evaluado a n
=
5 6 personas, siendo la escala de evacuación
de O a 1 0 0 .
15
A.. Canales G.
Bioestadisttca
Cuadro 1.2 Datos para la distribución de frecuencias
¡
73
81
44
69
30
38
75
66
76
84
72
82
58
89
73
59
87
63
43
59
64
74
63
63
48
52
77
68
47
53
63
72
52
55
75
43
67
61
87
39
62
75
69
53
79
95
50
38
70
84
82
95
59
75
36
65
'
J
2) El siguiente paso es, ordenarlos sea en sentido creciente o en sentido decreciente. En el presente ejemplo ordenaremos en sentido creciente, es decir del me n o r al mayor dato.
Cuadro 1 . 3 . Ordenamiento de datos del menor al mayor
30
50
61
68
75
84
36
56
62
69
75
87
38
56
63
69
75
87
38
53
63
70
76
89
39,
53
63
72
77
95
43
55
63
72
79
95
43
58
64
73
81
44
59
65
73
82
47
59
66
74
82
48
59
67
75
84
En el cuadro ¿qué relaciones podemos distinguir entre los números? Hay un valor menor o valor mínimo V min = 3 0 Existe un valor mayor o valor m á x i m o = 9 5 Hay datos que se repiten
Existen
relaciones
clasificarán
los
56
que
no
datos
se en
perciben grupos
o
y
para
poder
conjuntos,
percibirlas
que
en
se
lenguaje
bioestadístico se llaman intervalos de clases, según los siguientes p a s o s :
1 . ¿cuántas clases o intervalos necesitaremos? Para saber esto, se utiliza la
fórmula de Sturges.
16
I I i : >es
1 , u
I is t i ,
K = 1 + 3 , 3 l o g l/
En l a q u e : K = número de i n t e r v a l o s o c l a s e s N = n ú m e r o de datos ( t a m a ñ o de la muestra)
La fórmula de Sturges, es de mucha u t i l i d a d d e b i d o a que o r i e n t a y n o s d a una
idea
de
cuantos
intervalos
usar,
pero
es
una
fórmula
poco
c o n s e r v a d o r a y n o s d a un n ú m e r o de i n t e r v a l o s un p o c o m e n o r d e l q u e s e u t i l i z a en la p r á c t i c a . E n este e j e m p l o :
En la fórmula t e n e m o s :
K = 1 + 3,3 log 5 6
log 5 6 = 1 , 7 4 8
K = 1 + 3,3 (1,748) K = 1 + 5,8 K
La
fórmula
es
6,8
conservadora,
entonces
para
obtener
el
número
que
r e a l m e n t e es n e c e s a r i o , r e d o n d e a m o s al s i g u i e n t e entero mayor. K = 7 N o t a : E n la práctica el n ú m e r o de intervalos debe t o m a r s e a l r e d e d o r d e
1 0 , el número de datos con el q u e se trabajan, es más o m e n o s a l r e d e d o r de 1 0 0 .
C u a n d o el n ú m e r o de datos es m e n o r q u e 1 0 0 , el n ú m e r o de i n t e r v a l o s se debe tomar m e n o r de 1 0 . Para un número de datos bastante grande, el n ú m e r o de intervalos es mayor a 1 0 , la p r á c t i c a a c o n s e j a l o s s i g u i e n t e s límites. 5 < K ;;;;,,. 1 5 Lo que quiere decir, es q u e se r e c o m i e n d a q u e el n ú m e r o de c l a s e s n o d e b e ser m e n o r de 5 n i mayor a 1 5 .
2 . Luego se h a c e el r e c o r r i d o o e x t e n s i ó n de l o s datos que se d e n o t a con la letra L. S u fórmula e s :
L = valor m á x i m o - v a l o r m í n i m o + 1
Se debe s u m a r el n ú m e r o
1
c u a n d o l o s d a t o s s e e x p r e s a n en n ú m e r o s
enteros, Si los datos son d e c i m a l e s no se toma l .
1
�
' '"7
¡
V m a x = 95 V min = 3 0
L = 95 - 30 +1 L= 6 6
Entonces la extensión o r e c o r r i d o en 6 6 .
3 ) La i d e a es resumir l o s valores para percibir algunas características o p r o p i e d a d e s de l o s datos, que no s e notan a s i m p l e vista. Por la fórmula de Sturges t e n e m o s 7 intervalos, clasificando las 5 6 notas en 7 grupos.
El r e c o r r i d o se dividiría en 7 partes iguales o intervalos.
S e d e b e r e p r e s e n t a r el a n c h o o amplitud de cada intervalo con la letra C . Este a n c h o de intervalo s e obtiene mediante la fórmula: L
C = k
L o s valores L y K s o n c o n o c i d o s : L = 6 6 y K = 7 . 0 A p l i c a n d o l o s datos en la fórmula anterior t e n e m o s :
66
e = - = 7
9 43 1
Redondearemos a 1 O.
El entero inmediato inferior a 1 0 es 9, y no es conveniente porque el recorrido de trabajo s e r á :
I = c x K = 9 x 7 = 63 esto daría lugar a que el dato 9 5 se encuentre fuera de este recorrido.
Luego
C
=
10
y
por
lo
tanto
el
recorrido
de
c o n s e c u e n c i a de r e d o n d e a r 9 . 4 3 a 1 0 s e r á :
T = c x K = 10 x 7 = 70
trabajo
obtenido
como
� L Canales
.
4)
Teniendo
n. en
Bioe« uulistica
cuenta
que
este
recorrido
es
mayor que
el
recorrido
o r i g i n a l b u s c a r e m o s el exceso: Exceso= 7 0 - 76 Exceso= 4 El exceso proviene de h a b e r a u m e n t a d o la amplitud de cada intervalo de 9,43 a 1 0 .
Para b u s c a r la simetría de la d i s t r i b u c i ó n de los datos, d e b e m o s repartir este exceso a l o s d o s extremos del r e c o r r i d o original, mitad para cada l a d o . vl + Z
R e s t a m o s 2 al valor m í n i m o y s u m a m o s 2 al valor m á x i m o .
95 + 2 = 97 30 - 2 = 28
A partir del valor o b t e n i d o 2 8 agregamos sucesivamente la amplitud 1 0 y a s í o b t e n e m o s d o s p u n t o s de d i v i s i ó n que determinan l o s 7 intervalos ( ver figura)
1 8
38
48
58
-g
68
88
98
Pero se presenta una dificultad c u a n d o algunos de los datos c o i n c i d e n con c u a l q u i e r a de l o s puntos en d i v i s i ó n c o m o s o n :
3 8 , 48, 5 8 y 6 8
Supongamos
que
un
dato
es
38
¿dónde
intervalo de cuyos extremos s o n 2 8 y 3 8 ? extremos 3 8 y 4 8 ?
19
lo ó
colocamos?
¿En
el
primer
¿en el s e g u n d o q u e t i e n e n los
• l.
Bioesuuiisticc:
Canalc« G.
Para
despejar
esta
duda
adoptaremos
por
acuerdo,
el
intervalo
cerrado p o r la i z q u i e r d a , que incluye el n ú m e r o 2 8 ( extremo inferior d e l intervalo) y abierto por la d e r e c h a que no incluye el número
38
( extremo
un
superior
del
intervalo).
En
el
lenguaje
matemático,
intervalo de este t i p o se r e p r e s e n t a p o r el s í m b o l o [ 2 8 , 3 8 > . El n ú m e r o 3 8 s ó l o sirve de frontera s u p e r i o r p a r a i n d i c a r que el intervalo p u e d e c o n t e n e r n ú m e r o s a n t e r i o r e s a 3 8 , pero no al 3 8 . Por e j e m p l o , p o d r á c o n t e n e r el n ú m e r o 3 7 , 9 9 9 , p e r o n u n c a l l e g a r á a i n c l u i r el n ú m e r o 3 8 .
El s i g u i e n t e intervalo [ 3 8 , 4 8 ] > al n ú m e r o 3 8 pero no al 4 8 .
E n la práctica,
los
intervalos
formando una c o l u m n a
deben
colocarse unos
debajo
del
otro,
b a s e o c o l u m n a matriz, q u e dará o r i g e n a la
d i s t r i b u c i ó n de f r e c u e n c i a s . E j e m p l o s :
Intervalos o c l a s e s
Intervalos o c l a s e s
Intervalos o c l a s e s
[ 28 - 38>
2 8 � 3 8
[ 3 8 - 48>
38�48
[ 48 - 5 8 >
4 8 - 5 8
[ 5 8 - 68>
5 8 - -> 6 8
[ 68 - 7 8 >
68 ->78
[ 78 - 8 8 >
7 8 · --> 8 8
[ 88 - 9 8 >
8 8 - -.. 9 3
Para h a c e r más s e n c i l l a la r e p r e s e n t a c i ó n d e l o s i n t e r v a l o s en la c o l u m n a matriz, r e d u c i m o s el t a m a ñ o del c o r c h e t e y d e l p a r é n t e s i s a n g u l a r " > " y l o c o l o c a m o s entre d o s n ú m e r o s , y e s c r i b i m o s
Procediendo
en
forma
similar
para
los
28 -
otros
4
3 8 en vez d e [ 2 8 - 3 8 > .
intervalos,
se
obtiene
la
c o l u m n a matriz q u e se p r e s e n t a en el cuadro anterior.
5) El s i g u i e n t e p a s o de este p r o c e s o de r e s u m e n , es p o n e r n o s de a c u e r d o que
todos
intervalo,
y
cada
estén
uno
de
los
datos
representados
caracterizan a la c l a s e
que
por
se
un
halle
dentro
mismo
de
valor.
un Este
mismo valor
y p o r e s o se llama marca de c l a s e , la m i s m a q u e s e
o b t i e n e p r o m e d i a n d o l o s extre m os de c a d a intervalo.
20
,
l .
Ccu 1.11 lcs
Dir1f'Sl.1ulis,
( ·
Las marcas de c l a s e de los 7 intervalos s o n :
2 8 + 38
=
=
48 + 5 8
33
3 8 + 48
=
88 + 98
73
2
=
5 8 + 68
43
2
=
68 + 7 8
53
2
2
=
7 8 + 88
63
2
=
93
2
83
2
Otra m a n e r a de o b t e n e r la marca de clase, es p r o m e d i a r l o s extremos del p r i m e r intervalo ( 2 8 + 3 8 ) "'"" 2
=
3 3 y a c o n t i n u a c i ó n s u m a r la a m p l i t u d 1 0 ,
para d e esta m a n e r a obtener la m a r c a de c l a s e del s e g u n d o intervalo que es 3 3 + 1 0 = 4 3 . Es decir, c o l o c a r cada uno de l o s datos en el intervalo que le c o r r e s p o n d e . A m e d i d a que a s i g n e m o s un dato a un intervalo anterior que es 4 3 más la a m p l i t u d 1 0 , o b t e n i e n d o 5 3 , q u e es .la marca de c l a s e del tercer intervalo y así p o d e m o s
continuar hasta acabar con el s é p t i m o
intervalo.
6) Ahora l l e v a r e m o s a cabo la c l a s i f i c a c i ó n y el c o n t e o de l o s datos, es decir, c o l o c a r cada uno de l o s datos en el intervalo que l e c o r r e s p o n d e . A medida que asignemos
un
dato a un
intervalo
r e p r e s e n t a r e m o s en la
c o l u m n a de c o n t e o p o r m e d i o de un palote. U n a vez que h e m o s acabado de a s i g n a r todos los datos a un intervalo d e t e r m i n a d o , todos e l l o s estarán re presentados por la marca de c l a s e de d i c h o intervalo. De esta forma, d e s p u é s de o r d e n a r l o s datos en forma creciente ( t a m b i é n s e p u e d e h a c e r todo el p r o c e s o de c o n s t r u c c i ó n de la d i s t r i b u c i ó n de frecuencia con l o s datos
ordenados
distribución tomamos
de
como
en forma creciente, frecuencias). primer
Tal
número
lo
como
30,
que
que dará lugar a otro tipo están
en
el
está
entre
cuadro
28
y
de
anterior,
38,
es
decir,
p e r t e n e c e el p r i m e r intervalo, a c o n t i n u a c i ó n m a r c a m o s un palote en la c o l u m n a de conteo.
El s e g u n d o n ú m e r o 3 6 t a m b i é n pertenece al intervalo 2 8 -
3 8 , por lo
tanto marcamos otro palote en el m i s m o casillero que l e c o r r e s p o n d e en la c o l u m n a de conteo, y así sucesivamente hasta llegar al p e n ú l t i m o número 8 9 q u e pertenece al intervalo de 8 8 - 9 8 , luego m a r c a r e m o s un palote e n · el c a s i l l e r o de e s e intervalo en la c o l u m n a de conteo y p o r ú l t i m o el dato 9 5 que también p e r t e n e c e a ese intervalo, para el que a s i g n a r e m o s un palote en el c a s i l l e r o c o r r e s p o n d i e n t e de la c o l u m n a de conteo.
2-1
' S Í U C / l s ! Ü ' U
Cuadro 1.4 Cuantificación y conteo de datos
Intervalos
Marcas de clase
Conteo
Frecuencias
2 8 ----> 3 8
33
11
2
38 ->48
43
IIIII
II
7
4 8 -----> 5 8
53
IIIII
II
7
58-•68
63
II I I I
68->78
I I I II
78 - - -> 8 8
83
8 8 -----> 9 8
93
1 III
14
III II
15
I I I 11
III 1 1
IIJII
8
III
3
III
n
Contando
el
número
de
palotes
del
primer intervalo,
56
obtenemos
dos
palotes, lo que e s c r i b i m o s en la c o l u m n a de frecuencias con el número 2, en
el
segundo
intervalo
obtenemos
7
palotes
lo
que
expresamos
e s c r i b i e n d o el número 7 en la c o l u m n a de frecuencias.
A c o n t i n u a c i ó n r e s u m i m o s l o s p a s o s ( 5 ) , (6) y (7) en el Cuadro 1 . 5 , al q u e
se d e n o m i n a cuadro de distribución de frecuencias absolutas.
Cuadro 1 . 5 . Distribución de frecuencias absolutas
Intervalos
Fi
Xi
33
2
43
7
53
7
63
14
73
15
83
8
93
3
2 8 - - J. 3 8
3 8 --),48
48-58
58
--->
68
68-78
78 -+88
88 -�98 n == 5 6
El s u b í n d i c e i es una variable entera que indica un intervalo determinado y p o r l o tanto, en este c a s o , d e b e variar d e s d e 1 hasta 7 ( 1 7).
1, 2 , 3, 4, 5, 6 y
..J . Canales. G. -------------
Bioesuulistica .--
.- · - ·
.
-----
.
· - · - - - -
- Lu e g o :
=
Xl = 3 3
f1
X2
43
f2 = 7
X3
53
f3
=
2
7
X4 = 6 3
f4 = 1 4
X = 93
f = 3
Interpretación del cuadro de distribución de frecuencias Las frecuencias van cambiando a partir del valor 2 en el primer intervalo o clase, hasta a l c a n z a r los valores mayores: 1 4 y 1 5 en l o s intervalos q u e están
en
la
parte
central
de
la
columna
de
frecuencias.
Al
continuar
c r e c i e n d o la variable x, la frecuencia c o m i e n z a a d i s m i n u i r hasta l l e g a r al valor 3, en el extremo inferior. Esto significa que hay p o c o s a l u m n o s que t i e n e calificativo m e n o r y t a m b i é n que hay p o c o s a l u m n o s que t i e n e n calificativo mayor. Así m i s m o , gran parte del n ú m e r o d e a l u m n o s t i e n e n calificativos i n t e r m e d i o s .
Ejemplo 1 . 1 . Sean l o s siguientes p e s o s d e n = 5 0 p e r s o n a s t o m a d a s de un gimnasio, el p e s o está expresado en kilogramos.
73
102
90
97
98
106
108
93
87
88
100
87
104
85
90
95
80
98
82
98
104
112
90
98
101
94
105
98
93
82
91
84
93
88
97
103
84
105
92
114
96
100
104
96
101
75
93
82
100
95
1) C o n s t r u i r u n cuadro de d i s t r i b u c i ó n de frecuencias.
Cuadro 1 . 6 . O r d e n a m i e n t o de datos en forma creciente
73
82
87
90
93
96
98
100
103
105
75
84
88
91
93
96
98
100
104
106
80
84
88
92
94
97
98
101
104
112
82
85
90
93
95
97
98
101
104
112
82
87
90
93
95
98
100
102
105
114
.28
Canales U.
.J.
Bio-stcuiissica
2) C a l c u l a m o s el n ú m e r o de intervalo mediante la fórmula de Sturges
K = 1 + 3 , 3 3 log n
K = 1 + 3,3 log 5 0 K = 1 + 3,3 (1,69) K
=
1 + 5,58
K
=
6,58
C o m o la fórmula de Sturges es un p o c o conservadora, n o s dará un valor algo
menor
del
necesario,
luego
redondearemos
este
valor
al
entero
i n m e d i a t o s u p e r i o r.
. K = 7, entonces tendremos 7 intervalos o clases
3)
Luego
determinaremos
el
recorrido
de
extensión
de
los
datos
m e d i a n t e la siguiente fórmula.
I = valor máximo
valor m í n i m o + 1
Valor máximo
= 114
Valor m í n i m o = 7 3 1 = 1 1 4 - 7 3 + 1 = 4 2
4) C o m o con la fórmula de Sturges h e m o s o b t e n i d o 7 intervalos o clases, tendremos que dividir el recorrido en 7 partes i g u a l e s o 7 intervalos.
E n la fórmula I = c x k, ya s a b e m o s q u e I
=
42 y K
=
7, e n t o n c e s la a m p l i t u d
de cada uno de l o s intervalos, que l l a m a r e m o s c s e r á :
1 c
=
-
42 =
-
K
5)
Ahora
elaboraremos
la
=
6
7
columna
matriz
o
columna
base
de
la
d i s t r i b u c i ó n d e frecuencias.
C o m e n z a r e m o s a c o n s t r u i r el p r i m e r intervalo, para lo cual s u m a m o s la amplitud intervalo,
6 al valor m í n i m o , obteniendo
de
q u e será el extremo
este
modo
el
extremo
inferior de superior
intervalo:
Extremo i n f e r i o r + a m p l i t u d = 7 3 + 6 = 7 9 O b t e n e rn o s de este m o d o el primer intervalo 7 3 --. 7 9
24
l primer
del
primer
_A.
G.
Canales
Bioestadistica
Para el segundo_intervalo tomaremos como número menor 8 5 y como número límite superior 8 5 + 6 = 9 1 , procediendo en la misma forma para los demás intervalos, obtenemos el cuadro. Estos intervalos forman la columna matriz, que se encuentran en el cuadro y es la que se muestra en el siguiente cuadro de d i s t r i b u c i ó n de frecuencias.
+H 73
7JJ
-H+H-
85
j'1
lp.
103
101
11�
Observamos. que en los intervalos son del tipo semi-cerrado, luego el primer intervalo: 73-> 7 9 , contiene como propio al número 7 3 , pero no contiene el número 79, el cual sirve sólo de referencia superior; p ue d e contener el número 7 8 , 7 8 o el número 7 8 , 9 9 8 pero no al 7 9 . El siguiente intervalo si contiene el número 79, como propio, pero no el número 8 5 que s ó l o le sirve de referencia superior.
Intervalos 7 3 ----+ 7 9 79 ----+ 8 5 8 5 ----+ 9 1 9 1 ----+ 9 7 9 7 ----+ 1 0 3 1 0 3 ----+ 1 0 9 109-115
6) A continuación convenimos en que todos y que cada uno de l o s años que se hallan dentro de un m i s mo intervalo, estarán representados p o r el m i s m o valor que se denomina marca de clase. Las marcas de clase se obtienen promediando l o s extremos del intervalo. Las marcas de clase de los 7 intervalos serán: 73 + 79
= 76
79 + 85
= 82
97 + 1 0 3
2.1±_97
que las
marcas
= 100
1 0 9 + 115
2
=
94
1 0 3 + 109
2
2
Nótese
= 88
85 + 9 1 2
2
= 112
2 = 106
2
de
clase s e podrían
extremos del p r i m e r intervalo
obtener p r o m e d i a n d o los
( 7 3 + 7 9 ) / 2 = 76 y luego, p r o c e d i e n d o a
sumar sucesivamente la amplitud s e i s . Así, para
25
el
segundo
intervalo
A:. Canales G.
Bioestadistica
+ 6
tenemos la marca de c l a s e del primer intervalo más la amplitud 6 : 7 6
=
=
88
y
a s í hasta l a marca de
E n el s i g u i e n t e d e b e m o s r e a l i z a r la c l a s i f i c a c i ó n
y
conteo d e l o s datos, o
8 2 , para el tercer intervalo t e n d r e m o s 8 2 + 6 clase del s é p t i m o intervalo.
7) : 1
s e a c o l o c a r cada uno de e l l o s dentro de s u restrictiva c l a s e , r e p r e s e n t a n d o ·i;., ' i
c a d a dato p o r un p a l o t e . D e esta m a n e r a c e n t r a m o s nuestra a t e n c i ó n , en
l '
n H
el 7 3 , p e r t e n e c e al p r i m e r i n t e r v a l o : en
el
primer
número
75
casillero
que
de
también
la
a s í v e m o s que el p r i m e r n ú m e r o ,
7 3 - 7 9 , l u e g o d i b u j a m o s un p a l o t e
columna
perítense
de
al
conteo.
primer
A
continuación
intervalo,
en
dibujamos
el un
p a l o t e e n el p r i m e r c a s i l l e r o de la c o l u m n a de c o n t e o .
\l ¡
y
l o s d a t o s o r d e n a d o s en forma c r e c i e n t e
¡:¡
:
':l , 1
Después
el
valor
80
que
pertenece
al
intervalo
79
-
85,
entonces
' l
1 .
d i b u j a m o s un p a l o t e e n el s e g u n d o c a s i l l e r o de la c o l u m n a de conteo
y
así
¡
¡
continuamos dibujando
p a l o t e s en l o s c a s i l l e r o s d e la c o l u m n a d e c o n t e o ,
hasta l l e g a r al p e n ú l t i m o dato 1 1 2 que p e r t e n e c e al intervalo 1 0 9 - 1 1 5 . L u e g o d i b u j a m o s un p a l o t e en el ú l t i m o intervalo de la c o l u m n a de c o n t e o 1
y \
j
por
último
tenemos
el
valor
114,
que
también
pertenece
al
último
'
intervalo,
p o r lo
tanto
dibujamos
un
palote
en
el
último
casillero
de
la
c o l u m n a de c o n t e o . 11 \ i
Luego c o n t a m o s el n ú m e r o de palotes en cada c a s i l l e r o d e la c o l u m n a de
conteo y
l o e x p r e s a m o s en una c o l u m n a a d i c i o n a l , q u e será la c o l u m n a d e
l
f r e c u e n c i a s . Para el p r i m e r c a s i l l e r o t e n e m o s 2 p a l o t e s , le c o r r e s p o n d e l a : ¡
111
frecuencia
2,
para
el
segundo
tenemos
6
palotes,
le
corresponde
la
f r e c u e n c i a 6 . Así c o n t i n u a m o s hasta el último c a s i l l e r o , t e n e m o s 8 p a l o t e s
¡" q u e lo
e x p r e s a m o s c o n la f r e c u e n c i a 8
y
el último q u e t i e n e 2
palotes lo
e x p r e s a m o s c o n el 2 . \
Cuadro 1 . 7 .
I n t e r v a l o s , c o n t e o y frecuencias
1
!
Intervalos
Conteos
Frecuencias
7 3 --> 7 9
lI
2
79 --> 8 5
IIIII
85 - - > 9 1 9 1 -- .. 9 7 9 7 ··-, 1 0 3
IIIII
lI I I I
II III
II I I I
IIIII
1 0 9 --> 1 1 5
II
8
III
II III
103 -�109
6
I
I
11
III
13 8
II
2
n
26
=
SO
l:l. Canales G.
Bioestadistica
Por último, r e s u m i m o s los pasos ( 5 ) , (6) y (7) en el siguiente
cuadro de
distribución de frecuencias:
Cuadro 1.8. Intervalos, marcas de clase y frecuencias
Xi
Intervalos
Frecuencias
73-79
76
79-85
82
6
85-91
88
8
91-97 97 - 1 0 3
2
94
11
100
13 8
103
+:
109
106
109
->
115
112
2 n
=
SO
E L s u b í n d i c e i a p a r e c e en el encabezamiento de la c o l u m n a X l y de la columna fi, es una variable entera cuyos valores s o n : i=1,2,3,4,5,6y7
Xl = 7 6
f1
X2 = 8 2
f2 = 6
X3 = 88
f3 = 8
X 7= 1 1 7
f 7= 2
=
2
1 . 9 REPRESENTACIÓN GRÁFICA DE DATOS
Histogramas
Entre l o s distintos tipos de figuras, los histogramas s o n particularmente importantes.
El
histograma
representa frecuencias.
es
clases Las
una
figura
de
valores
alturas
de
de de
las
barras,
en
datos
y la
barras
d o n d e la escala
escala horizontal
vertical
representa
c o r r e s p o n d e n a l o s valores
de
frecuencias, en tanto que las barras se d i b u j a n de manera adyacente (sin e s p a c i o s entre ellas).
El histograma no es a d e c u a d o para determinar si hay c a m b i o s a lo largo del tiempo.
27
_,A.
En
Bioesuulisiicc:
Cuna/es
la
Figura
1.5,
se
presenta
un
histograma
que
corresponde
a
la
distribución de frecuencia del Cuadro 1 . 5 .
AsC para el intervalo 2 8 - � 3 8 le corresponde la altura de 2 (frecuencia). De esta forma, d i b u j a m o s un rectángulo cuya b a s e es el intervalo 2 8 --� 3 8 y cuya altura es 2 . Para el siguiente intervalo de frecuencias 3 8 corresponde la altura 7. Para el siguiente intervalo 48
-->
-->
48 le
5 8 tendremos un
rectángulo cuya base es dicho intervalo y cuya altura es el valor 7, p o r q u e 7 es la frecuencia que c o r r e s p o n d e a ese intervalo. Así p r o c e d e m o s a dibujar los d e m á s rectángulos hasta llegar al intervalo 8 8
--->
98 que se
toma como base del último rectángulo, siendo su altura 3 .
15
28
38
48
58
78
68
88
98
Figura 1 . 5 . Histograma de frecuencias
Polígono de frecuencias EL
polígono
de
frecuencia,
utiliza
segmentos
lineales
conectados
a
puntos que se l o c a l i z a n directamente p o r e n c i m a de l o s valores de las marcas de clase.
La altura de los puntos corresponde a las frecuencias de clase, en tanto que los segmentos lineales se extienden hacia la derecha y la izquierda, de manera que la figura i n i c i a y termina sobre el eje horizontal.
Comenzaremos sobre
el
determinando las
intervalo
88----> 9 6 ,
escalas horizontal y vertical.
dibujamos
un
rectángulo
cuya
base
Luego es
el
rectángulo 8 8 ---> 9 6 y la altura es la frecuencia 5, de esa forma c o n t i n u a m o s hasta el último intervalo y o b t e n e m o s la Figura 1 . 6 .
.A. Canales G.
Bioestodistica
f
15
9
6
3
O
X 88
96
104
112
120
128
136
144
Figura 1 . 6 . Histograma de frecuencias y polígono de frecuencias
Observación Si unimos los puntos de la línea s u p e r i o r de cada uno de l o s rectángulos de un histograma de
frecuencia
obtendremos
el polígono
de
frecuencias
correspondiente a la m i s m a distribución de frecuencias.
Ejercicios de polígonos e histogramas de frecuencias En
el
papel
milimetrado
dibujar
los
polígonos
y los
histogramas
frecuencias de las distribuciones de frecuencias.
Frecuencias
14
absolutas
n
/\
10
8 6 4
\
2
o
..___._
.. 3
.........._Intervalos
79
85
91
�r
103
109
115
Figura 1 . 7 . Polígono de frecuencias absolutas e intervalos
29
de
;L C a n a l c»
B io cs t cu lis iico
3
38
46
62
70
78
Figura 1 . 8 . Polígono de frecuencias absolutas e intervalos
Ahora,
realizaremos
porcentuales.
Primero
una
figura
elegiremos
.con la
barras escala
para
las
horizontal,
frecuencias sistema
de
c o o r d e n a d a s rectangulares, señalamos las categorías en el eje horizontal, y en el eje vertical c o l o c a m o s la frecuencia absoluta.
Escala horizontal
1 distancia
1 , 2 cm
D o n d e la distancia será la s e p a r a c i ó n que hay en el eje horizontal entre cinco categorías ( c a s a d o s , solteros, divorciados, viudos y categorías de l o s que no declaran). No hay ninguna regla particular que señale la magnitud de la distancia. C o m o hay 5 categorías, el tamaño de la b a s e s e r á :
B a s e = 5 x 2cm = 10cm. Determinación de la escala vertical. C o m o la altura debe ser % de la base, tendremos:
Altura=
.3.
( b a s e ) = .3.
4
4
(10cm) =
30
7,Scm
4
Por lo tanto la altura máxima de la figura será 7 , S c m , h a c e m o s el siguiente razonamiento:
Bioesuulisiica
A Canales G.
(Altura máxima) 7 , S c m __ 2 5 unidades de frecuencia lcm
x
* 2 5 u . d.
lcm X =
f = 3,33
7,Scm
Escala vertical
l c m = 5 u.d.f. Luego en la escala vertical para cada cm le corresponde 5 u n i d a d e s de frecuencia absoluta ( u.d.f.). Se ha aproximado a S por c o m o d i d a d porque este número ofrece facilidades para trabajar en el papel milimetrado.
Así, para el valor 2 5 u.d.f. trazamos una línea horizontal, hasta cortar la barra
levantada
por
la
categoría
casado,
quedando
de
este
modo
determinada la altura de la barra.
e
s
o
V
NO
Figura 1 . 9 . Barras con frecuencias absolutas de las cinco categorías
1 . 1 0 PROBLEMAS PROPUESTOS
1 . Haga un listado de 2 0 variables continuas, 2 0 discretas y 2 0 atributos, r e l a c i o n a d o s con variables estadísticas. /
.
. •
1
1
2 . Resuelva el siguiente e j e r c i c i o de datos d e s o r d e n a d o s , recolectado de campo sobre número de plantas silvestres en 1 m 2 , evaluado en el cerro H u a j e de P u n o .
31
A . Canales ( x .
liiucstudisticn
a) Calcule los datos en un cuadro
b] C a l c u l e cuántas clases de intervalos se requieren.
c) Represente en forma de figuras los resultados de l o s siguientes datos: S, 4,3,4,4,8,11,12,8,6,6,13,16,17,14,17,19,7,18,22,21,20,7,9,14.
3 . Haga 1 0 e j e m p l o s de p r e c i s i ó n y 1 0 e j e m p l o s de exactitud.
.A.
Canales
G.
Bioestadistica
CAPITULO II
ESTADÍSTICA DESCRIPTIVA 2.1.MEDIA 2 . 2 . MEDIANA 2.3.MODA 2.4. DESVIACION ESTANDAR 2 . 5 . VARIANZA 2 . 6 . COEFICIENTE DE VARIABILIDAD 2 . 7 . PROBLEMAS PROPUESTOS
2.1.MEDIA
La media es en la mayoría de los c a s o s un valor no observable, viene dado en la misma unidad de m e d i d a que la variable.
Es la más usual de las medidas de concentración y la más conocida. Es llamada también m e d i a aritmética o p r o m e d i o .
Para calcular la media s e distingue dos c a s o s :
1.
C u a n d o los datos no están agrupados
2.
Cuando los datos están clasificados, formando distribuciones de frecuencias.
Primer caso:
Cuando l o s datos no están agrupados, se suman los números y s e dividen 1 1
entre el número de c a s o s .
Ejemplo 2 . 1 . Los datos s o n calificaciones del curso de bioestadística, de un alumno de la Facultad de Ciencias Biológicas de la UNA Puno.
P r i m e r examen
14
Segundo examen
13
Prácticas
12
Quizes
15
S u m a total
54
Nota final (media) 5 4 / 5
0
3o
=
13,5
.A.
Canales
U.
B i o es u ui i s ii c c :
Ejemplo 2 . 2 . Hallar la media aritmética d e : 5, 7, 9, 3, 4, 6.
La fórmula para calcular la media aritmética para este caso incluye el símbolo L, que se llama sumatoria e i n d i c a operación de a d i c i ó n .
-
1 f,
X =
�¿Xi i=l
Donde:
i,
es la variable entera que toma valores desde i
sucesivamente hasta i
=
1, i
=
2,
i
3 y así
n. Desarrollando el símbolo sumatoria tenemos:
1
X
= - (x l +
x2
+
+ · .. +
x3
xn)
n Volviendo
a los
datos
que teníamos
al
comenzar el presente ejemplo
tenemos: N o s dieron 6 números 5, 7, 9, 3, 4 y 6, entonces n = 6.
1 X
=
6
1 (S
+
7
+
9
+
3
+
4
+
8)
=
(36)
6
=
6
n
Con respecto al símbolo la
L
x 1, en vez de
confusiones.
i
X¡
•
¿
x¡
se dan casos en que se simplifica y se escribe
Es'to se hace cuando no hay posibilidades de crear
issl
Ejemplo 2 . 3 . Encontrar el p r o m e d i o de los siguientes datos: 1 5 , 1 6 , 1 7 , 1 3 , 9, 1 1 , 1 0 , 1 3 , 1 9 , 2 1 Fórmula: n
X =
�Ixi i=L
X = 1 / 1 0 ( 1 5 + 1 6 + 1 7 + 1 3 + 9 + 1 1 + 1 0 + 1 3 + 19 + 2 1 )
Segundo
14.4
caso:
C u a n d o los datos están agrupados formando cuadros de frecuencias, se ut ili za la f órmula:
""' f. X . X
==
L..
1
n
1
/1. Canales G.
x:
BirJcstadistfr·a
Media aritmética
f : frecuencia de cada dato. X;: cada uno de los datos
Ejemplo 2.4. Datos de la longitud de las de una muestra de p o b l a c i ó n
de
m a r i p o s a s . Calcular la m e d i a aritmética.
X¡ (cm)
f¡
f¡X¡ (cm)
3,3
1
3,3
3,4
o
o
3,5
1
3,5
3,6
2
7,2
3,7
1
3,7
3,8
3
11,4
3,9
3
11,7
4,0
4
16,0
4,1
3
12,3
4,2
2
8,4
4,3
2
8,6
4,4
1
4,4
4,5
1
4,5
=
6Íi
¿f¡ _
=
n
=
24
I=:LX¡ = 9 5 , 0
24
95,0cm
X =
= 3 96cm 1
24
Propiedades de la media 1) La suma algebraica de las desviaciones de un conjunto de valores con respecto a su m e d í a aritmética es O.
Explicación Sean l o s números: 1 5 , 2 , 1 0 , 8 , 9 y 7
Su m e d i a aritmética: ( 1 5 + 2 + 1 0 + 8 + 9 +7) + 6
=
51 + 6
=
8.5
Bioestadistica
Sus desviaciones con respecto a la media s o n : ( 1 5 - 8 . 5 ) , (2 - 8 . 5 ) , ( 1 0 - 8 . 5 ) , ( 8 - 8 . 5 ) , ( 9 - 8 . 5 ) , (7 - 8 . 5 ) , la suma es: ( 1 5 - 8 . 5 ) + (2 - 8 . 5 ) + ( 1 0 - 8 . 5 ) + ( 8 - 8 . 5 ) + (9 - 8 . 5 ) + (7 - 8 . 5 ) = 6 . 5 - 6 . 5 + 1.5-0.5 + 0.5-1.S = O
2)
La suma
de l o s
cuadrados
de
las
desviaciones
de
un
conjunto
de
n ú m e r o s : xl x2 x3 . . . xn con respecto a su media x, es mínimo.
Explicación Esta propiedad significa que si calculamos la suma de l o s cuadrados de las desviaciones
con
diferente
la
de
respecto
x y
con
respecto
comparamos
con
la
a otro suma
número de
cualquiera
cuadrados
desviaciones con respecto a la media, comprobaremos
de
a, Ias
esta última es
menor.
Las ideas con l o s números 1 2 , 5, 7, 8 .
Primero: calcularemos las desviaciones con respecto a la m e d i a . Su m e d i a e s : ( 1 2 + 5 + 7 + 8) + 4 = 3 2 + 4 = 8, es d e c i r X = 8 sus d e s v i a c i o n e s con respecto a la m e d i a s o n : 1 2 - 8 = 4;
5 - 8 = -3
7 - 8 = 1
8 - 8 = O
La suma de l o s cuadrados de estas desviaciones e s : 2 2 4 + (-3)2 + 0 = 1 6 + 9 + 1 + o = 2 6
Segundo:
Calculemos
las
desviaciones
con
respecto
a cualquier otro
número: 1 0 (2)2 + ( - 5 ) 2 + ( - 3 ) 2 + ( - 2 ) 2 = 4 + 2 5 + 9 + 4 = 42 C o m p a r a n d o 1 y 2 vemos
que:
2 6 < 4 2 , lo q u e verifica la propiedad.
Usos de la media 1 . - La media de la muestra se usa cuando se necesita una medida de t e n d e n c i a central que no varíe mucho entre una y otra muestra extraída de la m i s m a propiedad, esta es la razón para preferirla, cuando se d e s e a la máxima confiabilidad en la estimulación de la media poblacional.
2 . - También se usa la m e d i a cuando la distribución de frecuencias de l o s datos es simétrica o t i e n e p o c a asimetría. Igualmente cuando se aproxima a la distribución normal de probabilidades porque esta distribución es simétrtca.
A . Canales G.
Bioes tadis U cu
3 . - Se calcula la media, varianza o la desviación estándar (según medidas de variabilidad que se estudiarán).
Ejercicios para calcular la media aritmética Hallar la media aritmética de los siguientes datos:
a)
12,14,1�9,14,12,13,18,21
b)
2 2 , 24, 3 0 , 1 9 , 1 8 , 2 2 , 3 3 , 2 8 , 2 6 , 3 2
Calcule
la
media
aritmética
para
las
siguientes
distribuciones
de
frecuencias.
Intervalos
Frecuencia
Intervalos
Frecuencia
21
28-38
7
8 8 -¿ 9 6
38-48
4
9 6 ->104
15
48-58
12
104-112
25
5 8 ->68
5
112 -120
16
6 8 - ;,. 7 8
9
120 - 1 2 8
11
78-88
13
128 - 1 3 6
13
88-98
4
136-144
22
2 . 2 . MEDIANA
La m e d i a n a es el punto que divide la distribución de los datos en dos partes iguales. Por debajo de la mediana estará la mitad del número de c a s o s y p o r e n c i m a de ella estará la otra mitad. La mediana se designa con el símbolo M d . Se presentan dos casos
¡
1.
C u a n d o los datos n o están agrupados
2.
Cuando los datos están clasificados, formando distribuciones de frecuencias.
Primer caso a) Cuando el número de elementos de la clasificación es impar.
Ejemplo 2 . 5 . 3, 8, 5 6 , 14, 2 6 , 3 1 , 2, 7, 5 2 hay nueve elementos. Lo primero que se hace es ordenar l o s datos en forma creciente (también se podría ordenar en forma decreciente).
G.
.iL
B ices iad is cica
2, 3, 7, 8, 14, 24, 3 1 , 5 2 , 5 6 La
mediana
es
el
número
que
ocupa
el
centro
de
la
distribución.
Observamos que hay cuatro valores menores que 1 4 y 4 valores mayores que 14, entonces la m e d i a n a es 1 4 . B) Cuando el número de elementos de la distribución es par.
Ejemplo 2 . 6 . 38, 56, 87, 2 2 , 1 5 , 90, 43, 3 3 Ordenamos: 1 5 , 2 2 , 3 3 , 39, 43, 56, 87, 9 0
Vemos que hay dos valores centrales, la mediana será la media de esos valores centrales. 39 Md
+
43
=
=
41
2
Segundo caso
E j e m p l o 2 . 7. Calcular la median de la distribución de valores.
=
1
2 8 --" 3 8
2
i
=
2
3 8 --" 4 8
7
9
i
=
3
4 8 --" 5 8
7
16
i
=
4
5 8 --" 6 8
14
30
i
=
5
68 ->78
15
45
i
=
6
78-88
8
53
i
=
7
88 ->98
3
56
i·
1·
Fi
fi
Intervalos i
2
:j
i
n
=
56
1
!
S e debe seguir la siguiente regla
j
1) Se obtiene las frecuencias acumuladas. Estas
frecuencias
acumuladas
presentan
un
ordenamiento
elementos de la distribución, así: E n el primer intervalo están los elementos: 1 º - 2 º
En el s e g u n d o intervalo están los elementos: 3 º - 4 º - 5 º - 6º - 7º - 8º - 9 º En el tercer intervalo están los elementos: 17º - 1 8 º - 1 9 º ... 29º - 30º
38
de
los
56
En la quinta clase están los elementos: 3 1 º - 3 2 º - 3 3 º . ..44º - 45º
En la sexta clase están l o s e l e m e n t o s : 46º - 47º - 48º . . . 5 2 º - 5 3 º
y en la séptima y última clase están l o s elementos:
54º - S S º y 56º
2) Se determina la clase en d o n d e se encuentra la mediana, para esto se hace la división:
n
56
- = - = 28
2
2
Luego, la m e d i a no o c u p a el lugar 2 8 º y p o r lo tanto, debe encontrarse en la clase cuarta (i
=
4) puesto que en esta clase están los elementos que
ocupan los lugares 1 7 º hasta el 3 0 º .
3) Se a p l i c a la fórmula:
extremo i n f e r i o r +
Md
( g - Fi - 1 ) 2 fi c
Datos Extremo inferior del intervalo (i = 4) es 5 8
n/2 = 2 9
f4 = 1 4 en la frecuencia del intervalo d o n d e están M d . C = 1 0 amplitud del intervalo. Fi - 1
=
F4
1
=
F3
=
16, frecuencia acumulada hasta la tercera clase, es
decir, acumulada hasta la clase anterior o clase en donde está la mediana (i =4).
Reemplazamos los datos en la fórmula y obtenemos:
(29 - 16) Md
=
56
+
10 14
M d = 56 + 9,29
65,29
A . Canales G.
· E j e m p l o
Btoestadistica
2.8.
Intervalos
fi
i =
1
2 8 -> 3 8
5
5
i
2
38->48
8
13
i =
3
4 8 --> 5 8
15
8
i =
4
5 8 --> 6 8
3
31
=
F
=
5
68->78
5
36
i =
6
78 ->88
2
38
i =
7
88 - > 9 8
2
40
i
n = 40
n
40
- = - = 20
2
2
Luego la mediana está en la clase tercera (i = 3) Luego se aplica la siguiente fórmula:
Md
=
. .e . extremointerior
+
(� - Fi - 1 ) 2 ---f-i--c
Datos: Extremo i n f e r i o r = 48 N/2 = 20
F i = f3 = 1 5 C=S F i- 1
=
F 3 - 1 = F 2 = 13
(20 - 13) Md
=
48+
8
=
51,73
15 2.3.MODA
Llamaremos moda de una distribución de frecuencias, al valor de las variables correspondiente a la mayor frecuencia de datos o lo que es lo mismo
el
valor
representado
o
el
máximo
de
individuos.
Cuando
el
n ú m e r o de observaciones es pequeño, no debe c a l c u l a r s e la moda, ya que no
puede
apreciarse
si
existe
una
decidida
tendencia
de
los
valores
concentrarse en uno s o l o .
Si se trata de una distribución de frecuencias con datos discretos, no agrupados,
el
frecuencias
absolutas,
cálculo
es y
inmediato: el
valor
de
máxima frecuencia, es la moda.
40
basta la
con
variable
mirar
la
columna
correspondiente
de
a la
A . Canale: G.
__
.:
.
La
.
p
o
�_"
,:_
moda
r
el
Bioesuulistic«
�····-------------·-··-------·-----�--------------------------------------·-·--
.,
d e
un
símbolo
conjunto
M
o
de
datos
es
el
valor
más
repetido.
Se
representa
,
Primer caso: 1)
D e t e r m i n a r
7,
La
7,
7,
moda
9,
es
9,
el
d i s t r i b u c i ó n
2)
El
la
m o d a
del
siguiente
conjunto
de
d a t o s :
2,
2,
3,
4,
5,
6,
1 2 .
número
s e
l l a m a
siguiente
7,
p o r q u e
u n i m o d a l ,
c o n j u n t o
de
s o n
l o s
p o r q u e
datos
no
m á s
s ó l o
repetidos
p o s e e
tiene
una
m o d a :
(3
v e c e s ) .
Esta
m o d a .
1 5 ,
1 9 ,
2 0 ,
3 5 ,
4 7 ,
5 9 , 6 5 .
Porque
3)
n i n g u n o
La
s i g u i e n t e
9,
9,
La
=
1 3 ,
1 3
8,
40,
Mo
1 3 ,
es
40,
2 1 ,
está
repetido
d i s t r i b u c i ó n
1 8 ,
y t a m b i é n
40,
=
e l l o s
1 3 ,
s i g u i e n t e
3 2 ,
M o
1 3 ,
=
Mo
4)
de
2 0 ,
M o
=
=
Mo
8 0 ,
b i m o d a l ,
2 4 ,
24,
es
3 3 ,
decir,
5 9 ,
tiene
7 8 ,
d o s
m o d a s :
8,
7 8 .
2 4 .
t r i m o d a l :
40,
es
24,
8 0 ,
4,
8 , . 8 ,
8,
1 5 ,
1 5 ,
1 5 ,
2 0 ,
2 0 ,
2 1 ,
2 1 ,
2 1 ,
2 1 ,
distribución
de
9 0 .
40
Segundo caso: C u a n d o
frecuen
los
ci
as
datos
,
la
están
m o d a
se
c
agrupados
a
lcula
p o r
la
formando
siguiente
una
fórmula:
61
=
Mo
Extremo i n f e r i o r +
] e
[ 61
E
d
n
El
e
x
tremo
e
p
respecto
62-- R
e
a
lar
la
e
la
ior
a
la
la
a
repr
e
x
e
senta
ceso
de
contigua
el
clase
c l a s e
E n
el
clase
resenta
m a m o s
Ejemplo 2 . 9 .
cu
f r
epresenta
C ---- R p
cal
in
resent
a
respecto
l
62
o n d e :
61- R
L a
+
e
x
ceso
conti
la
g
am
m o d a l
p
a
lit
q
valor
la
f
ud
de
de
inferior
recuenc
a
i
a
ell
ca
que
da
a
41
la
c l a s e
m o d a l .
la
clase
modal
de
la
clase
m o d a l
,
c
o
interv
tiene
n
con
ella.
la
frecuencias
m o d a :
de
de
a.
recuencia
p o s t e r i o r
uella
d i s t r i b u c i ó n
f
posterior
de
ua
el
la
a
lo.
mayor
del
f
r e c u e n c i a .
cuadro
s
i
guient
e,
/L Canales G.
Bioestadisuca
f
Intervalos
f
Intervalos
5 2 8 ----> 3 8
2
88 ----> 9 6
3 8 --> 4 8
7
96 - � 1 0 4
48 ----> 5 8
7
1 0 4 ----> 1 1 2
58 ----> 6 8
14
1 1 2 ->120
68 ----> 7 8
15
1 2 0 ----> 1 2 8
8
15
3
5 ¡
2 78 ----> 8 8
8
1 2 8 - -* 1 3 6
88 ----> 9 8
3
136-144
2
1 s :1
Para el cuadro de arriba (izquierda), buscamos cuál es el intervalo o clase
�
que t i e n e la mayor frecuencia, siendo 1 5 y c o r r e s p o n d e a la clase 68 � 7 8
l�.
l l a m á n d o s e clase modal.
l· �
Extremo inferior; es el valor inferior de la clase 68 JI
----->
78 o clase m o d a l ,
e n t o n c e s el extremo inferior es 6 8 .
i' LH - 1 5 - 1 4 - 1 ; jj, 2 - 1 5 -8 - 7 C - 1 0
Mo
= Extremo i n f e r i o r +
[
.D.i .D.1
+
] e .D.z
Aplicado la fórmula: 1-] Mo
=
68
+ [-
10
1 + 7
Mo-68+10/8-68+ 1,25-69,25 Mo --- 6 9 , 2 5
Usos de la moda Primero:
Cuando
se
necesita
una
estimación
rápida
de
la
tendencia
central.
Segundo: Cuando s e d e s e a c o n o c e r el punto d e máxima frecuencia en una
distribución asimétrica
de datos,
esto es
el valor más
conjunto de datos.
Tercero: En general la m o d a es la m e n o s usada.
X, Md,
42
Mo
repetido d e · un
Bioes uuiistico.
.
O b s e r v a c i ó n :
m e d i d a s
En
l a s
a n t e r i o r e s
d i s t r i b u c i o n e s
de
frecuencias
s i m é t r i c a s ,
las
tres
c o i n c i d e n :
X
-
M
d
-
-
M
o
.
Cuadro 2 . 1 . Comparación de la media, mediana y la moda
¿Qué tan
Definición
Medida
Existencia
¿Torna
¿Seve
Ventajas y
en
afectada
desventajas
común es?
de tendencia
cuenta
por
central
cada
valores
µ
Media
=
í:x/n
"promedio"
Siempre
más
existe
valor?
extremos?
Sí
Sí
Funciona bien con
conocido
muchos métodos
1
estadísticos.
¡Mediana
Valor en
De uso
Siempre
medio
común
existe
No
No
S u e l e ser una b u e n a o p c i ó n si hay algunos valores extremos
Moda
Valor más
Se usa en
Podría no
frecuente
ocasiones
No
Apropiada
No
existir;
para datos
podría
en el nivel
haber más
nominal
de una
--·
2.4 DESVIACIÓN ESTÁNDAR O DESVIACIÓN TÍPICA La
d e
d e s v i a c i ó n
v a r i a c i ó n
d e s v i a c i ó n
A
la
e s t á n d a r
de
1.
en
La
que
s e
s e
2 .
El
cita
a
d e
c e r o
n ú m e r o .
un
c o n j u n t o
l o s
la
a
l a
es
d a t o s
a
m u e s t r a l e s ,
la
r e s p e c t o
importantes
m e d i a .
a
la
es
E s
l a
u n
m e d i d a
t i p o
d e
m e d i a .
q u e
s o n
c o n s e c u e n c i a
de
e s t á n d a r :
u n a
m e d i d a
d e
v a r i a c i ó n
de
t o d o s
l o s
m e d i a .
d e s v i a c i ó n
c u a n d o
A d e m á s ,
c o n
d e s v i a c i ó n
estándar,
de
r e s p e c t o
v a l o r e s ,
r e s p e c t o
la
c o n
p r o p i e d a d e s
d e f i n e
c o n
v a l o r
i g u a l
de
de
d e s v i a c i ó n
v a l o r e s
de
v a l o r e s
p r o m e d i o
co n t i n u a c i ó n
forma
l o s
t o d o s
valores
e s t á n d a r
l o s
grandes
v a r i a c i ó n .
43
s
s u e l e
v a l o r e s
s
i
n
de
d
i
c
s e r
l o s
a
n
p o s i t i v o .
d a t o s
s o n
mayores
el
S ó l o
es
m i s m o
c a n t i d a d e s
.A.
Caruilcs
3.
G-.
Bioesuulistica
El valor de la desviación estándar (s) se puede incrementar de manera drástica con la i n c l u s i ó n de u n o o más datos distantes (valores de datos que se encuentran muy l e j o s de los d e m á s ) .
4.
Las u n i d a d e s de la desviación estándar s ( c o m o m i n u t o s , p i e s , libras) son las m i s m a s d e los datos o r i g i n a l e s .
D a d o e l conjunto de n ú m e r o s Xi -- X 2 , X3, . . . Xn, d o n d e i es una variable entera que toma l o s valores 1, 2, 3, hasta n. Sea el X la m e d i a aritmética de este conjunto de valores, entonces definimos la d e s v i a c i ó n estándar del conjunto de n ú m e r o s Xi, mediante la siguiente fórmula:
s
=
Jí:C\:
X)2
En d o n d e S representa la d e s v i a c i ó n estándar, s i e n d o la raíz cuadrada de la s u m a d e l o s cuadrados de las d e s v i a c i o n e s de cada valor con respecto a la m e d i a , dividida entre el número de valores. E j e m p l o :
C a l c u l a r la d e s v i a c i ó n estándar del siguiente conjunto de n ú m e r o s : 3, 5, 7, 1 0 , 18, 1 5 .
Aplicaremos la anterior fórmula, d ó n d e el promedio (media aritmética) del conjunto de n ú m e r o s es X - 9 , 6 7
(3 - 9 , 6 7 )
2
+
(5 - 9 , 6 7 )
2
+
(7 - 9 , 6 7 )
2
+ ... +
(15
9,67)
S = 6
(-6,67)
2
+
(-4,67)
2
+
(2,67)
2
+ ... +
(5,33)
S = 6
41,5
+
21,8
+
7,13
+
s =
0,11
+
6
S = j17�34
S
= � 28,56 =
44-
5,34
69,39
+
28,41
2
2
Bicestadistica
A . Canales O.
.
Ejercicios
no
resueltos
del
cálculo
de
l a
desviación
estándar
para
datos
agrupados.
Ejemplo 2 . 1 0 . Calcular la d e s v i a c i ó n estándar del siguiente conjunto de n ú m e r o s , a p l i c a n d o la siguiente fórmula
n
s =
1 "' ; ¿
2
X
i
-
2
- X
i=l
� 9 . 1� 1 9 , 2 3 , 2 8 , 3 7 , 5 4 , 6 2 , 7 0
x --32
2:1':!\
;
x
X 2 ---42
2
-1024
+ 92 + 1 4
2
+ 2 3 2 + 2 8 2 + 3 7 2 + 542 + 6 2 2 + 7 0
2
= 14996
1
S =
10 (14996) - 1024
S
=
-) 1 4 9 9 , 6 - 1 0 2 4
=
=
-) 4 7 5 , 6
21,80
Ejemplo 2 . 1 1 . C a l c u l a r d e s v i a c i ó n estándar del siguiente conjunto de números, a p l i c a n d o la fórmula anterior:
-3, - 2 2 , - 2 0 , - 1 0 , 6, 9, 1 5 , 40
3F
x---1,s15
.í:f==l
X
2
-3,516
= (-3)2 + (-22)2 +
(-20)2 + (-10)2 +
62 +
92 +
1 5 2 + 402
1
S
=
(2935) - 3 , 5 1 6
=
-) 3 6 6 , 8 1 5 - 3 , 5 1 6
8 =
S = -) 3 6 3 , 3 5 9
19,06
Ejemplo 2 . 1 2 . Calcular la desviación estándar del siguiente conjunto de números: 3, 8, 2 5 , 40, 5 5 , 60, 65, 7 3 , 8 1
X-45.56
Li==I
X
2
-3
x2 - - 2 0 7 5 . 3 1 2
+ 82 + 2 5
2
+ 40
2
+ 552 + 602 + 65
2
+ 73
2
+ 81
2
-25038
1
S
(25038) - 2075,31
=
-) 2 7 8 2 - 2 0 7 5 , 3 1
9
S = -) 7 0 6 , 6 9
=
26,58
Bioc« ( m i ís tic«
Ejemplo 2 . 1 3 . Calcular desviación estándar del siguiente conjunto de números. - 1 5 , - 1 2 , -3, 5, 8, 1 0 , 1 6 , 2 0
x--3.62s
X
2
-13.141
1
s =
8
=
(1223) - 13,141
S
=
-} 1 5 2 . 8 7 5 - 1 3 , 1 4 1
=
-} 1 3 9 , 7 3 4
11,82
Ejemplo 2 . 1 4 . Calcular la desviación estándar del siguiente conjunto de números, a p l i c a n d o la fórmula - 2 5 0 , - 1 3 4 , - 5 9 , - 3 2 , 1, 1 5 , 2 3 2 , 4 5 8
X-28,875;
If=1 x
X
2
---833,76
2
-348775
1
S
=
(348775) - 833,76
8
S
=
-} 4 2 7 6 , 1 1 5
=
-} 4 3 5 9 6 , 8 7 5 - 8 3 3 , 7 6
=
206,79
Cálculo de la desviación estándar para datos agrupados C u a n d o l o s datos se encuentran agrupados formando d i s t r i b u c i o n e s de frecuencias; d o n d e no se tiene en cuenta el número de datos que hay en cada clase, es decir, la frecuencia de la clase. Para este caso se t i e n e la siguiente fórmula.
S =
o
S = n-1
En d o n d e fi representa la frecuencia de cada clase.
E j e m p l o 2 . 1 4 . Calcular la desviación estándar de la siguiente clase de frecuencias:
46
[fo ws uulis iica
Inte.rvalos
Xi
40 --+ S O
45
so
--+ 6 0
60 -->70
fi
Xi-µ
(Xi - µ)2
3
-17,S
306,25
s
-7,S
56,25
7
2,5
6,25
4
12,S
156,25
1
22,S
506,25
fi(Xi - µ)2
918,75
SS
281,25
65
70 ->80
75
80 -->90
85
43,75
625,00
506,25 20 2375
Según los m é to do s a p rendido s al tratar la m e d i a aritmética, observamos que:
X
IP-1 =
-
fi * Xi
1250
=
n
=
62,S
20 En
la
columna
Xi,
restamos
a
cada
valor
la
media
aritmética
µ
y
obtenemos: 45
62,5 = -17,5
SS - 62,5 = -7,5 65 - 6 2 , 5 = 2,2 75 - 62,5 = 12,5 86 - 6 2 , 5 = 2 2 , 5 Entonces, aplicando la fórmula:
S
�
=
S
=
fi 1 8 , 7 5
=
10,9
Método clave Todo el p r o c e s o anterior p u e d e simplificarse utilizando el método clave, que e m p l e a la siguiente fórmula.
S
=
C
¿ fi:
U2
_
¡z: f� *
U
r
En el mismo ejemplo anterior aplicaremos el método clave en el siguiente cuadro: 'Intervalos
fi
uz
fi*u
fi*u2
Xi
u
40
-->50
45
-2
3
-6
4
50
-*60
55
-1
5
-5
1
5
60 -->70
65
o
7
o
o
o
12
-·
-->80
75
1
4
4
1
4
B0-->90
85
2
1
2
4
4
20
í::fi*u ----5
sn-
í::fi*u 2
25
;C \ .
Ccuuuc«
e-amplitud de los intervalos-10 n - I : f i - 2 0 número de elementos
Los valores de la columna u (-2, - 1 , O, 1, 2) p u e d e n interpretarse de la m i s m a manera.
X i - A u=--
e
La e l e c c i ó n del valor A se hace entre l o s valores de las marcas de clase Xi en forma arbitraria. En el presente caso elegimos A - 6 5 porque entre las marcas de clase es el valor que está en medio. De esa forma obtenemos que u : 45
65
-20
u =
10
55
=
-2
=
-1
10
65
-10
u =
10
10
En la práctica se p o n e u · - O para el intervalo d o n d e se ha e l e g i d o el valor de A, que es 6 5 en este c a s o . Para los valores m e n o r e s de las marcas de clase: 5 6 , 4 5 se p o n e u -·-1 --2 respectivamente.
65
65
O
_1_0_
= 10
75 - 65 = O;
85 - 65
=-1-0-= l ;
=-1-0-= 2
A p l i c a n d o la fórmula anterior o b t e n e m o s :
s =
S =
1 0 .j l , 1 8 7 5
=
10
10(1,09)
25 (-5) 20 20
=
=
1 0 .J 1 , 2 5 - 0 , 0 6 1 5
10,9
2 . 5 LA VARIANZA Se def i ne como el c u adrado de la desv i a c i ó n est á ndar . calcular
la
var i an z a ,
p reviamente
calcular la desviación est á ndar.
L os
Se
h arem o s
f i ne s de
de b an ser
i nter p retac i ón
bajos.
de
lo s
E n tonce s
p ara
métodos
pa ra
re p re s enta co n el s í m b o l o
valores altos de la varian z a en datos
p ara
uso
biológicos,
s',
no so n r e c o m e n d a b l e s
cie n t í fi c a . Es importan t e
qu e d i c h o s v al o res
Bioestadistica
Curwles G.
, En el ejercicio anterior se calculó la desviación e s t á n d a r - 1 0 . 9 'La varianza será:
2
s -(10,9)2--118,81
2 . 6 COEFICIENTE DE VARIABILIDAD El
coeficiente
de variación
es
una
medida
de
dispersión
relativa,
sin
d i m e n s i o n e s , y cuya unidad es la m e d i a :
s CV=M
Si la media es cero, está claro que esta medida no puede utilizarse. A m e n u d o se utiliza también expresada en forma de p o r c e n t a j e :
s
cv
fµf *
100
Y s u valor está c o m p r e n d i d o entre el 0 % y el 1 0 0 % .
En
muestras
no
demasiadas
pequeñas,
extraídas
de
poblaciones
normales el CV no s u e l e ser mayor del 3 0 % .
Un CV superior al 5 0 % debe hacernos pensar en una población estadística no homogénea.
Este
coeficiente
resulta
también
muy
adecuado,
en
el
caso
que
las
medidas de las distribuciones a comparar difieren mucho, a u n q u e estén expresadas en las mismas u n i d a d e s .
Ejemplo 2 . 1 5 . Datos de tallas y p e s o de estudiantes. Después de calcular la
media
y
la
desviación
típica
de
esas
medidas,
se
obtuvieron
siguientes r e s u l t a d o s :
Variable X = talla
X
Variable Y = p e s o
= 1,70m
Y =
Sx = O , S m
Sy
=
69kg
Skg
¿ E n cuál de las v a r i a b l e s existe mayor d i s p e r s i ó n ?
49
los
..A.
Canales
Bioes iad ís t i ca
G-.
SOLUCIÓN:
Como las variables están expresadas en u n i d a d e s diferentes ( m y kg) utilizamos el coeficiente de variación que es una medida de dispersión adimensional: 0,5 CV(tallas)
= -_- *
100
=
29,41
1,70 5
CV(pesos)
=
* 1 0 0 = 7, 2 69
Esto i m p l i c a que la variable " p e s o s " está m e n o s dispersada que la
2 . 7 PROBLEMAS PROPUESTOS
Ordenar los datos en forma ascendente. 1.
1,2,2,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,5,5,S,S,S,5,5,5, 5,5,6,6,6,6,6,6,6,6,6,6,6,6, 7,7,7, 7,8,8,8,9,9,9,9.
2.
3.
Calcular la mediana de los siguientes datos a)
14, 1 5 , 1 6 , 1 9 , 2 3
b)
14,15,16,19
Calcular el promedio, desviación estándar, varianza y coeficiente de variabilidad de l o s datos que se presentan en los siguientes cuadros. a)
C a l c u l e la m o d a en el siguiente
cuadro de distribuciones de
frecuencias.
Intervalos
f
117�126
2
126 � 1 3 5
3
135
--+
144
10
144 �153
13
153 �162
6
162�171
4
171�180
2
50
Bioes tad is iica
G.
..A .
b)
Datos tomados de estudiantes del 2 d o nivel de la Facultad de Ciencias Biológicas de la UNA Puno ( 2 0 0 7 ) .
Muestra
Talla (cm)
Peso (kg)
Edad
1
152
46
17
2
150
48
18
3
153,5
46
20
4
149
44
18
5
457
47
18
6
152
46
19
7
154
45
19
8
160
57
18
9
147
54
19
10
155
48
19
11
146
49
19 20
>-·
12
157,5
51
13
148
44
18
14
155,5
44
20
,---
15
150
47
22
16
154
50
19
17
160,5
53
19
18
147
45
18
19
144,5
43
18
20
156,5
44
19
21
151
46
18
22
161,5
54
18
23
165
58
19
24
157,5
59
20
25
167
57
18
26
157
61
24
27
153
47
18
28
157
56
20
29
160
51
20
30
155,5
58
19
51
13 ioes uul istica
CAPITULOIII
PROBABILIDADES, DISTRIBUCIONES, LÍMITES DE CONFIANZA, HIPÓTESIS, ASIMETRÍAS
3 . 1 . PROBABILIDADES 3 . 2 . D I S T R I B U C I Ó N NORMAL DE PROBABILIDAD 3 . 3 . D I S T R I B U C I Ó N DE P O I S S O N Y ESPACIAL 3 . 4 . INTERVALOS DE CONFIANZA 3 . 5 . A S I M E T R Í A YCURTOSIS 3 . 6 . PRUEBAS DE HIPÓTESIS 3 . 7. TAMAÑO DE MUESTRA 3 . 8 . PROBLEMAS PROPUESTOS
3 . 1 PROBABILIDADES
Es una m e d i d a de ocurrencia de un evento o s u c e s o (P), que se obtiene dividiendo el número de resultados favorables para la ocurrencia entre el número total de p o s i b i l i d a d e s .
Un experimento es determinístico si se obtiene el mismo resultado ejemplo,
a un
repetirlo objeto
en
cae
igualdad siempre
de
con
condiciones. una
· Por
gravedad
de
2•
9,8m/seg Un experimento es aleatorio cuando al repetirlo en igualdad de
condiciones,
los
resultados
varían.
Por
ejemplo,
el
lanzamiento de una moneda.
Las características de los fenómenos aleatorios s o n : a)
Son
fenómenos
tales,
que
al
repetirlos
indefinidamente
y en
igualdad de condiciones, presenta resultados distintos en cada experiencia particular.
b)
Si repetimos una experiencia n
veces
y anotamos el número de
veces q u e aparece un determinado fenómeno.
En el caso del lanzamiento de una moneda, nunca p o d e m o s predecir en un determinado lanzamiento si va ha s a l i r cara o sello, pero a m e d i d a que a u m e n t e n , el valor Nº de caras/Nº total de lanzamientos tiende a estabilizarse a medida que n aumente.
"
Canales Cí.
Bioesuulistica
Espacio muestral Conjunto
formado
por
todos
los
sucesos
elementales,
recibe
el
nombre de e s p a c i o muestral.
Suceso
if""*
En general l l a m a m o s s u c e s o a todo subconjunto del e s p a c i o muestral. Merece e s p e c i a l atención el s u c e s o
seguro, que es el p r o p i o e s p a c i o
muestral y el s u c e s o i m p o s i b l e .
Ejemplo 3 . 1 . ¿ C u á l es la p r o b a b i l i d a d de obtener un número determinado al lanzar un dado?
3 PA
=
=
(2,4,6)
=
0,5; 50%
6 Ejemplo 3 . 2 . ¿Cuál es la probabilidad de obtener una c o m b i n a c i ó n de n ú m e r o s que sumados sean m e n o r e s que 4 al lanzar dos dados?
P(N)
1,1
1,2
1,3
1,4
1,5
1,6
2,1
2,2
2,3
2,4
2,5
2,6
3,1
3,2
3,3
3,4
3,5
3,6
4,1
4,2
4,3
4,4
4,5
4,6
5,1
5,2
5,3
5,4
5,5
5,6
6,1
6,2
6,3
6,4
6,5
6,6
3}�·
P(N)
=
( 1.1 ; 1 . 2 ; 2 . 1 )
=
. 3
6
=
'
0,08;
8%
3 . 2 D I S T R I B U C I Ó N NORMAL DE PROBABILIDADES Distribución normal, aparece p o r primera vez en 1 7 3 3 en los trabajos de Moivre
relativos
a
cálculos
de
distribución
límite
de
una
variable
binomial. · � f
Más tarde, en 1 8 0 9 GAUSS y posteriormente Laplace ( 1 8 1 2 ) , la estudian en relación a trabajos sobre la teoría de errores con datos experimentales. A finales del siglo X V I I I y principios del XIX, los astrónomos encontraban
siempre la desagradable situación de que los resultados de sus medidas, eran distintas unos a otros, y se p o d í a resolver p o r la imperfección de l o s instrumentos
de
medida
disponibles.
Era
pues,
necesario
averiguar
valores p o s i b l e s . Primero GAUSS, p e n s ó que la media aritmética de todos los valores observados sería el valor correcto.
53
.il. Canales G·.
B toes iadis tica
Más tarde, GAUSS y LAPLACE se les ocurrió pintar la distribución de frecuencias de los resultados. Observaron cómo los valores extremos eran correctos, y cada vez las medidas se hacen más iguales y más numerosas . hasta concentrarse en un valor medio que es el valor más frecuente. Por esta
razón,
LAPLACE.
la Se
distribuciones
distribución creyó eran
normal
entonces, de
este
que
tipo
es
como
en
la
y por
distribución
práctica eso
se
le
la
de
GAUSS y
mayoría
puso
de
las
"distribución
normal", llamando a las restantes distribuciones anormales.
Quetelet descubrió que la distribución normal para la biometría de las anchuras de tórax de 5 7 3 8 soldados escoceses. El valor más frecuente fue aproximadamente 40 pulgadas, 3 9 pulgadas se presentaban casi con la misma frecuencia, 4 1 y 3 8 fueron más raros, 42 y 3 7 más aún, hasta que l !
por fin 3 3 y 48 pulgadas resultaron ser valores extremos aislados.
1 1
La distribución normal se define de la ecuación:
J 2]
l
1
·I
y =
l ¡
y¡·:_l_¡.
¡-1
crV2rre
(x. x)
2 �
Donde: X: variables aleatoria
1
µ: es la m e d i a de l o s valores de la variable X
o: desviación estándar de la variable aleatoria X i¡
rt:
3,1416
e: 2 , 7 1 8
:I
Regla empírica para datos con distribución normal (Figura 3 . 1 ) Aproximadamente el 68% de todos los valores, están dentro de una desviación estándar de la media. Aproximadamente el 9 5 % de todos los valores, están dentro de d o s desviaciones estándar de la media. Aproximadamente el 9 9 . 7 % de todos los valores, están dentro de tres desviaciones estándar de la media.
Figura3.1 Curva normal general
54
Bioes tadis iica
La curva tiene la forma acampanada con un máximo en X . Es simétrica en torno a :X ya que el valor de la densidad es idéntico en X + c y en
X - c, para
todo valor de e. La curva es cóncava hacia a b a j o en :X y en sus proximidades, se vuelve cóncava
hacia
arriba
al
alejarse
de
X,
suficientemente
en
cualquier
d i r e c c i ó n . Es decir, la curva presenta dos puntos de inflexión en X = X - o y en X = X + c. T i e n e como eje X como asíntota.
Las
medidas
de
partida,
se
convierten
en
números
expresados
en
desviaciones estándar, c o m o u n i d a d e s a la derecha o a la i z q u i e r d a de la media.
µ/ o, Z tiene esa propiedad, es decir, si
Si se define una variable Z =X -
x,
Z = O; si X = X +O, Z = 1, si X = X + 2 o, Z = 2 .
I
Valores X
X
Valores Z
- 2
a
-2
X-a
X
X + O
X + 2 a
1
o
1
2
C o m o X es una variable aleatoria, Z también l o es. Existe la tabla de probabilidades normales, las cuales son expresadas como valores de la variable estandarizada "Z".
Ejemplos 3 . 3 . C a l c u l a r la p r o b a b i l i d a d del evento: que la variable toma valores
comprendidos
entre
O
y
1,27.
Busque
probabilidades.
P ( O < Z < 1,27)
U7
P ( O < Z < 1,27) = 0,3980 = 39,80% a)
Calcular P ( O < Z < 3 , 4 5 ) . Respuesta: 0 , 4 9 9 7 = 4 9 , 9 7 %
b)
Calcular P ( O < Z < 0 , 8 ) . Respuesta 0 , 2 8 8 1 = 2 8 , 8 1 o/o :
55
en
la
tabla
de
Bioestadisuca
/l. Canales G.
c)
Calcular la probabilidad del evento "Z" tome valores comprendidos entre-2,4 y - 0 , 8 5 P (-2,4
< Z < 0,85)
Área entre ( - 2 , 4 y - 0 , 8 5 ) = área entre ( - 2 , 4 y O) - área entre ( - 0 , 8 5 y O) - 0,4918-0,3023 = 0,1895 Luego: P (-2,4 < Z < 0,85) = 0 , 1 8 9 5
=
18,95%.
3 . 3 D I S T R I B U C I Ó N DE P O I S S O N Y ESPACIAL
a)
Distribución de Poisson
La distribución de P o i s s o n es de importancia fundamental en el estudio de
fenómenos
entre
otros,
aleatorios:
físicos,
químicos,
biológicos,
astronómicos
ya que representa un modelo probabilístico apropiado para
la descripción de tales fenómenos.
Siguen esta distribución una gran cantidad de variables. Por ejemplo, la d i s t r i b u c i ó n de P o i s s o n p u e d e representar adecuadamente valores tan d i s p e r s o s como número de partículas radiactivas emitidas p o r unidad de tiempo, un número durante
de llamadas que entran en una central telefónica
cierta periodo
de tiempo,
cantidad de plancton,
recuento
de
c o l o n i a s bacterianas por p l a c a petrí, en estudios m i c r o b i o l ó g i c o s y en estudios de e c o l o g í a .
Hay, pues, dos m o d e l o s generales que llevan a
una distribución Poisson,
aquellos en los que se estudia un medio (agua, aire, sangre entre otros) en el
encuentran
(plancton,
números
bacterias,
elevados
hematíes,
de
entidades
levaduras,
pequeñas
plantas,
discretas
individuos,
entre
otros).
El
propósito
de
ajustar
una
distribución
de
Poisson
a varios
de
los
acontecimientos raros que ocurren en la naturaleza, es comprobar si los acontecimientos raros ocurren independientemente unos de otros. Si es así,
seguirán
una
distribución
de
56
Poisson.
Si
la
aparición
de
un
B i o ee uu l í s ii ca
acontecimiento
aumenta
la
probabilidad
de
que
ocurra
un
segundo
acontecimiento igual al primero, obtenemos una distribución de contagio. Si el éxito de un acontecimiento impide que se dé un segundo, obtenemos una
distribución
puede
ser
espacialmente
usada
como
uniforme.
prueba
para
La
distribución
comprobar
la
de
Poisson
aleatoriedad
o
i n d e p e n d e n c i a de l o s s u c e s o s , no s ó l o espacialmente, sino también en el tiempo.
Para determinar la distribución espacial, no solamente contabilizamos en forma directa l o s individuos de una determinada especie, sino también, p o d e m o s contabilizar nidos, madrigueras, huellas, fecas, plumas, pieles, cráneos y todo indicio de la presencia de la especie.
bJ
Distribución Espacial
La
distribución
espacial,
trabaja
en
espacios
pequeños,
donde
se
contabiliza el número de individuos de una e s p e c i e que se encuentra en un hábitat y en un tiempo determinado. La metodología recomendada son 2
los cuadrantes aleatorios, que pueden variar d e s d e I rn ' hasta 2 5 m
de
acuerdo a la e s p e c i e que se está investigando. No confundir la distribución espacial trabaja
con con
la
distribución
espacios
geográfica,
grandes,
que
relacionando
es con
totalmente las
zonas
diferente, de
vida
y
coordenadas geográficas.
Para determinar la distribución espacial, se requieren 09 parámetros importantes, como s o n :
L Frecuencia observada 2 . Frecuencias Esperada
3. Media
=
(X)
. 4 . Vananza -
s- -
1 [e" I fi L,
·2f') Xl
1
-
(¿ Xífi)Z] �
2
S . Índice de D i s p e r s i ó n (ID = rr /X)
6. Grados de Libertad (n
1)
7 . Nonograma de Clapham 8. Prueba de H i p ó t e s i s 2
9. Prueba Bioestadística de X = ID (n
1)
No es recomendable, con solamente hallar el índice d e d i s p e r s i ó n , la misma que ayuda a inferir el tipo de distribución espacial, se debe realizar
A. Canales O.
F3ü >es tadis tica
otras pruebas co m o la pruebas de hipótesis y la comprobación a través de una prueba bioestadística.
En la naturaleza, en forma general encontramos tres tipos de distribución especial.
Distribución Uniforme Se presenta cuando los individ uos de u n a d e t e r m i n a d a e s p e c i e de flora o fauna silvestre, se encuentran en altas concentraciones de individuos en un es pacio limitado, p e r m i t i e n d o que los individuos tengan antagonismo por acceder a un es pa cio y alimento.
Para demostrar este tipo de distribución, se debe realizar no m e n o s de 2 0 r epet iciones . Esta cantidad puede incrementarse de acuerdo al área de muestreo.
Es
probable
si
se
presenta. este tipo
de
distribución,
el hábitat tenga
perturbación y/ o transformación inducida por la actividad del hombre, if
por
lo
es
necesario
considerar
programas
de
manejo
del
hábitat
o
estrategias de recuperación de la especie de flora y fauna silvestre. j
q,
•
•
•
•
•
•
•
•
•
•
•
•
•
11
.l
11
,¡
l
11
lt
j
''
.
¡
11
Figura 3 . 2 . Representación de la distribución uniforme
Este
tipo
de
distribución
se
presenta
también,
cuando
los
datos
recolectados del campo y analizadas a través de frecuencias o b s e r v a d a s ) es per a das , presenta una varianza mucho menor que la M e d i a (Varianza= 1,4; M e d i a = 4, 7 ) . Así mismo se p u e d e calcular el índice de d i s p e r s i ó n cor los Grados de Libertad del número mayor de individuos.
58
En este tipo de distribución espacial, el Índice de D i s p e r s i ó n ( I D ) , debe estar cercano a O ( I D = 0 , 3 ; GL = 4 0 ) . También, como estos datos se p u e d e platear en el Nomograma de Clapham, tal como se presenta en la figura que
se
presenta
a
continuación
(Diseño
original
de
N omograma
de
ClaphamA. Canales, 1 9 9 6 ) .
,
....
....
······••·
;
:
l '
:
:
\ '
i
¡
:
·: i ¡
r.s
11,.
:
•
:
. 7
,_
....
..•..
,
,...•.•..
,. . •
¡
•··-··-·
.....
,
-···
\
D
1.6
I
;T . s
R
i l
:s
, u
:(
l
l o
!e
!��
o
: �
l(i.
l
to
iR
.
o
:s
:
A
! i ' . . .,
;
,
.s
\
:
' " , , ,.
1A
'"�,
.
:
•.
3
:
:
2
J
D
1
T
:s
R
I
s
u
e
j
N
lo
A
l.
iE
itl.
T
I
iA
¡
;
1 '
,,,,;,w· :
.9
¡ . 1 l "
:
:
. 7 .l .
lf i
.6
, ¡
l
, :,
:
:
¡
:
:
i/( t
.4
o
!
T
s
: R
il
:8
u
:(
:!
! O
, N
: u
if
i N
i o
IR
I M
f
¡ .3
----
2 ··-··
N
o.
i
¡
f�Yf•
:
:
:
¡
(J
:
!
; i
i
' '
1
ioo G
Figura
3.3.
[)
o
Representación
200 O
de
E
la
l
H
T
distribución
A
uniforme
en
el
Nomograma de Claphan
Distribución Aleatoria
Este tipo de distribución espacial, se presenta cuando los individuos de la especie en investigación, no tienen inconvenientes con la disponibilidad de alimentos ni de hábitat, esto implica que el hábitat es de buena calidad y
con alimentos disponibles para la alimentación de individuos. Entonces
los individuos pueden ocupar cualquier espacio dentro del hábitat, sin ningún riesgo de ser excluido o presentar antagonismo.
Este tipo
de distribución,
es la más recomendable, p o r esta razón se
r e c o m i e n d a plantear l a s hipótesis de que los individuos se encuentran en una distribución aleatoria.
Biocstadistia:
lll
•
11
•
•
•
11
•
1
•
111
11
• !11
• 1
..
11
1
lfj
..
1'11 !
¡ :
•
•
111
•
llt
lll
•
•
•
1
•
• •
11!1
1111
•
1
•
11
•
11
•
Figura 3 . 4 . Representación de la distribución aleatoria
Este tipo de d i s t r i b u c i ó n , es cuando después de un a n á l i s i s de frecuencias observadas y esperadas, presentan una varianza s i m i l a r o igual que la M e d i a ( V a r i a n z a = 1,4; M e d i a = 1 , 7 ) . Así m i s m o se puede calcular el índice de
dispersión
con
los
Grados
de
libertad.
En
este
caso,
el
Índice
de
D i s p e r s i ó n con l o s Grados de Libertad, d e b e estar cercano a 1 o un p o c o más que 1 ( l . D . = 1, 1 ; G . L . = 2 0 ) . También con estos datos se p u e d e platear en el Nomograma de Clapham, tal como se presenta en la figura que se presenta a c o n t i n u a c i ó n .
l 1
\
N
1.9
O
1.S 1.7
1
C E
\
-1-··-fllL,.....¡. .• -;,..•••• +-···+·-··-·····-j.···---
1.6
'
E
O
O_
'l.
s ..
'-··
T ..... R ••
1
B
C
\J
l
Ó
----..¡...¡-·,1-, !
.!:!-+--+(-..¡.(_)-+N,-+T-·.¡.A--¡.G _ . ,J1
1.5;..-i-----...........;-""'!l,---i---+--+--+---+--+--+-+
1.4
O
............... ·-· --4-·+--·+--·+--·-+--1·-·-
\.
_
1
1.3
......_
.111
_¡_
2.-�=
.
·¡--
,.
l.2
-�·
l
1t..
1-�E·_ __· - - � ..
0
1
S
T
--t---
--:-·>···---- ·-
···-
R
I
1
1
efu
- - >-- >- ·
C · I
lº·+·N-+-+-A.....¡...L......¡...E_j , A
+-4··--····+--+-·-i. __i
T
º ¡ R . l l _ � - - -
���l-=j,--,""""*�=-+=-1-1
o.9+-I-+--+--·--+--+-·-,,,F--'-+--+--...--1-+--+'......+........--i-·--+'_
o.al __
/l
1
1
1
1
i
p
o.7r
1
/
! �::�--1-+---..l/ ! _---+--ti·-·+---+--+--+-l----+--+0.4l_ __l l
0.3¡
l
Ó
0.2i
1
N
0.1
f
j
o
1
:5
T
iH
Íl
6
U
le
: I
' Ó
·-- -N
U
F-_1i _..... N
Ji
jF
O
.-.
--+---+--+--+--!
R
M
,,
/
E
J
:
__ J ........L.--+·--l--+·--+--+---t--1---..;,.---+ .. ··-+-··l-····+--·-+-·-+·-·-+-.! o _J -17 i 1
:
so
10
G
Figura
3.5.
+-··+··-�----·�--�-·1·---,---�-i
no
1 eo R
.A
O
O
S
Representación
O
de
E
la
Nomograma de Claphan
60
L
ase
200
I
B
E
R
T
distribución
A
O
aleatoria
en
el
Bioes tadis U ca
Canales Cr.
Distribución Contagiosa o Amontonada Este
tipo
especie,
de
se
distribución,
encuentran
g r u p o s · dentro razones,
del
hábitat.
pudiendo
territorial,
o
se
en
debido
ser a
Este
por que
presenta
forma
cuando
agrupada
o
comportamiento
comportamiento solo
los
en
los
individuos
amontonada, puede
tener
reproductivo,
lugares
de
de
una
formando varias
defensa
agrupamiento
se
encuentran l o s alimentos n e c e s a r i o s y espacio d i s p o n i b l e . Sin embargo, este tipo de comportamiento no es de mucho riesgo para la e s p e c i e , pero se debe tener cuidado con las p o b l a c i o n e s y el hábitat.
Figura 3 . 6 . Representación de la distribución contagiosa
Este tipo de distribución, es c u a n d o después de un análisis de frecuencias observadas y esperadas, presentan una Varianza mucho mayor que la Media (Varianza= 2,4; M e d i a = 0 , 9 ) . Así m i s m o se p u e d e calcular el Índice de
Díspersión
con los
Grados
de
Libertad.
En
este
caso,
el
Í n d i c e de
Dispersión debe s e r mucho mayor que 1 ( I . D . = 2 , 3 ; G.L. = 4 0 ) . También, con estos datos se p u e d e plotear en el Nomograma de Clapham, tal como se presenta en la siguiente figura.
61
f
'.
.
.iL Canales G·.
B toes iad is l tea
f
1
¡
!
\
!
1
1
¡
1
!
1 1
1
!
¡
t--.
¡
l
.Li.Lí..
1
l
U
10
l
if
O
R
M
E
50
G
Figura
N
3 . 7.
R
E
O
Representación
de
la
L
I
B
E
R
distribución
T
A
D
contagiosa
en
el
en
la
Nomograma de Clapham
Resumen:
a)
I D = m e n o r a 1 cercano a O
V < M = D. Uniforme
b)
I D = cercano 1
V = M = D. Poisson o Aleatoria
c)
ID=muchomayorquel
V> M = D. Contagiosa.
l Ejemplo
!
3.4.
Numero
de
madrigueras
de
vizcacha
evaluados
l o c a l i d a d de Llalli, Prov. Lampa, 2 0 0 8 (Cada c u a d r a n t e = S ü m 2 ) .
1
8
5
7
9
5
4
4
4
5
4
4
9
4
8
3
5
5
6
9
4
4
2
6
6
6
7
6
3
4
6
5
5
2
5
3
9
4
4
1
3
7
6
6
5
7
4
4
8
4
4
6
5
6
6
6
1 1
ll ! I
1
1
¡ I
¡
;
Para
!:{
¡
hallar
el
tipo
de
distribución
espacial,
j
formulas. l í 1 , ¡ 1
I
•
62
1
¡
.
empleamos
las
siguientes
Bioestadisuca
G.
.A.
s- =
�. [e� :E
fí
L
· 2
XI
· )
-
ñ
:E :E
(¿ :E
Xifí)Z]
fi
xifi
=
M e d i a (X)
f i
sz I D =
X
G.L. = ( n - 1 )
xz
= I D (n - - 1 )
Luego se tabula los datos acuerdo al cuadro p r e s e n t a d o .
Xi
Fi
Xi2
Xi2fi
Xifi
o
o
o
o
o
1
1
1
1
1
2
2
4
8
4
3
4
9
36
12
4
15
16
240
60
5
10
25
250
50
6
12
36
432
72
7
4
49
196
28 24
8
3
64
192
9
4
81
324
36
¿
55
285
1678
287
2]
1
2
s
s2
[
= 55
287
1679 -
55
= 3,35
287 Media(X) =
= 5,218
55 3,35 I D = - - =
063 1
5,218 G.L.=(n-1)=9
xz
1 = 8
= 0,63(8) = 5,04
Respuesta: La d i s p o s i c i ó n de las madrigueras de las vizcachas, presentan una distribución uniforme,
esto
implica
que tienen problemas
con
el
hábitat. Es probable que exista una perturbación del hábitat, la que t i e n e sus
efectos
en
la
falta
de
alimento
ma,drigueras.
63
y
lugares
para
construir
sus
il. Canales (i.
Bioestcuiistica
3 . 4 INTERVALOS DE CONFIANZA Es definido como la p r o b a b i l i d a d de que el parámetro se encuentra dentro del intervalo dado. También se puede d e n o m i n a r niveles de confianza. Los más usuales s o n el 9 5 % y el 9 9 % .
Nivel de confianza a l 95%
Implica que de 1 0 0 datos, se espera que 9 5 de ellos se encuentren dentro del intervalo construido del parámetro evaluado. También se e s p e r a que 5 de ellos se encuentren fuera del intervalo, ya sea a la derecha o a la izquierda.
b
Nivel de confianza al 9 9 %
Significa que de 1 0 0 casos o datos, se espera que 99 de ellos estén dentro del intervalo construido del parámetro evaluado. También se espera que i esté fuera del intervalo construido.
Intervalo de confianza para estimar la media poblacional
Es necesario que la muestra sea tomada en forma aleatoria, con l o s datos de la muestra se calcula la m e d i a y la desviación estándar. Se emplea la siguiente fórmula:
X ±
Zo e
X,
donde:
X = Es la m e d i a aritmética de la muestra
Zo a
=
Es el coeficiente de confianza. Es
el
error
estándar
de
la
m e d i a y su
valor
depende
de
la
desviación estándar poblacional.
El extremo izquierdo del intervalo se llama, límite de confianza inferior, el extremo derecho, se llama límite de confianza superior. Intervalo de confianza de 95% para estimar la medía p o b l a c i o n a l
95%=0,95
G.
Bioesiadistica
�=04750 2
J
En la tabla de probabilidades normales, para el área de O ,4 7 5 0 se obtiene el punta je Z = 1, 96 La fórmula para el intervalo de confianza es:
x±1,96o x Intervalo de confianza de 9 9 % para estimar la media poblacional 9 9 %
=
0,99:
99 ·º'
2
=0 4 9 5 0 1
Luego: X ± 2 , 5 8 o X
o
·2.SS
Ejemplo 3 . 5 . A partir de la estatura (cm) media de 6 0 0 estudiantes, se tomó una muestra representativa de 40 estudiantes. De esta manera se obtuvo:
n > 0,05 N
40 > 0 , 0 5 ( 6 0 0 ) 40>30
X =164,3cm
S=6,096
Determinar los intervalos de confianza de 9 5 % y 9 9 % para estimar el parámetro indicado. Para el 9 5 % de confianza
X ± 1 , 9 6 o :X
dX
(J
= *
:O J � = � =
x
6:06 =
�oºo � �o
= ü.93
X±
1,96 o
x
=
164,3
±
1,96
* o,93 = 164,3 ± 1,83 166,13
162,,47
65
Para el 9 9 % de confianza
x
± 2,58 o
x
=
164,3
± 2 , 5 8 * o,93 = 164,3 ± 2,4
161,90
3.5ASIMETRÍAYCURTOSIS
Asimetría Es la deformación horizontal de las curvas de frecuencias. Cuando la curva está inclinada hacia la derecha se denomina asimetría a la derecha o asimetría positiva.
Observamos que la M d aritmética que era hacia el lado más largo derecho) y que x > Md > M o ,
O
O
l\'.lo
X
1\-Id
l\Id
Iv!o
X
( el
Bioes tadis tic a
�·---X X
o
'.Md
!\fo
Cuando la curva está alargada o inclinada al lado
izquierdo
se llama
asimetría a la i z q u i e r d a o negativo. Notamos que la Md está del lado más largo ( el izquierdo) y q u e :
X < M d > Mo
En la figura, vemos que la curva está igualmente inclinada hacia ambos l a d o s , a este tipo de distribución se llama curva simétrica. Es importante observar que la Media (X), mediana (Md) y la moda (Mo) coinciden en el m i s m o eje horizontal, en este c a s o :
X = Md = Mo. Curtos is
Es la deformación vertical de una curva de frecuencias. Se define como el grado
de apuntamiento
normalidad
de
datos,
muy pronunciado. debiendo
estar
Se
entre
aplica -z
a
en +z.
la
prueba de
Existen
tres
deformaciones que a continuación d e s c r i b i r e m o s :
a)
Leptocúrtica:
Aplastamiento ,-:; ·
horizontal
y la
curva
con
apuntamiento
p ro n u n ci a d o ,
puesto que los datos se encuentrnn en las colas y en la parte m e d i a .
67
Bioestadisüca
A.. Canales G.
b)
Platicúrtica
Una curva achatada, es decir, que tienen muy poco apuntamiento, los datos se encuentran en las partes medias.
e)
Mesocúrtica
Una curva que tiene una situación intermedia entre las dos anteriores, es decir,
no
tiene
un
fuerte
apuntamiento
pero
que
e s p a c i a d a . Los datos s e encuentran en la parte media.
68
tampoco
es
muy
B ioes tadis tic a
A. Canales G.
· Goeficiente·de·ourtosis
Es una m e d i da define p or
la
de la
pertentílíco
c urtos is
bas a da en ' los cuarti l es y
pe rcentiles q ue
se
f ór m ul a.
Q
K =
P90 - P 1 0
En d o n d e :
K
= coeficiente
P90
de curto sis
= percentil
90
P 1 0 = percentil 1 0 Q = Q 3 - Q 1 2 es el rango semicuartil
Para la curva normal de probabilidades K = 0 , 2 6 3 Orienta tener las siguientes pautas: a)
Si K tiende a 0,5 se dice que la curva es leptocúrtica.
b)
Si K tiende a 0 , 2 5 se dice que la curva es m e s oc ú r t í c a ,
Si K tiende a O, se dice que la curva e� platicúrtica.
0.125
ol
0.25
1
1
1
1
leptocúrtica
mesocúrtica
platicúrticas
0.5
0.375
3 . 6 PRUEBA DE HIPÓTESIS
Las pruebas de hipótesis fueron creadas entre el periodo 1 9 1 5 y 1 9 3 3 , como resultado
de la labor de dos grupos
o tendencias:
por un lado,
Ronald Fisher ( 1 8 9 0 - 1 9 6 2 ) y por el otro, Jerzy Neyman ( 1 8 9 4 - 1 9 8 1 ) en conjunto con Egon Pearson ( 1 8 9 5 - 1 9 8 0 ) . Ambas tendencias tuvieron como antecedente la famosa prueba de ji al cuadrado de Karl Pearson (1857 -1936).
El planteamiento de la hipótesis en la investigación, es un componente fundamenta l
que per m ite inferir sobre el problema .
recha z o de hipótesis, per m itir á
p lantear
La
aceptació n y/ o
o mejorar nuevos cono ci mientos
como principios, le y es, teor í as o me j o r ar una metodolog í a empleada por otro investigador .
Seguramente, existen investigadores que no plantean ninguna hipótesis, por
tanto,
su
investigación
es
meramente descriptiva,
al
no
probar
ninguna hipótesis. Esto no implica que no sirva la investigación, pudiendo
69
il. Canales G.
Biocs tculisiica
servir de base para continuar una investigación
ínferencial,
donde es
posible probar una hipótesis.
Consideramos que es fundamental tener en cuenta la hipótesis nula y alterna,
lo
alterna,
esto
usual
es
que
implica
siempre
detectar
deseamos
diferencias
comprobar una
a través
del
uso
hipótesis de
alguna
prueba bioestadística.
Otros autores consideran, hipótesis de trabajo e hipótesis estadística, lo cual no es recomendable. Es adecuado que la hipótesis sea la unión de ambas y no p o r separado.
Lo que deseamos en un trabajo de investigación, es demostrar nuevas teorías, leyes y principios, o al m e n o s mejorarlas. Entonces, el resultado de la aceptación o rechazo de las hipótesis de la investigación, permitirá que la c i e n c i a avance con estas nuevas acepciones inferenciales.
Las hipótesis deben cumplir algunos requisitos. a) Referencia
hechos
a hechos reales.
reales,
de
otro
Toda hipótesis se refiere siempre
modo
las
hipótesis
serian
a los
especulativos
y
carecerían de fundamento práctico.
bJ Fundamentación teórica. Toda hipótesis esta incluida en el contexto de
una teoría, o, fundamentada por conocimientos logrados por la ciencia. Por
esta
razón,
se
afirma que
las
hipótesis
científicas
son
supuestos
razonables en la medida en que la sustentan en teorías, cuya consistencia esta probada.
Es posible que una hipótesis, en si consistente pero totalmente nueva, pueda
contradecir
una
teoría
vigente.
Se
trata
en
este
caso,
de
una
hipótesis que siendo consistente en si misma, hace apertura a una nueva teoría. Estos casos se dan en la ciencia de manera excepcional.
e)
Fundamentación lógica. Las hipótesis científicas deben ser razonables
y lo son si cumplen con las exigencias de la lógica. Respetan y expresan formalmente los principios lógicos, por ejemplo el principio de no contradicción.
d) Predictividad.
Las
hipótesis
son
supuestos
investigador puede adentrarse a los hechos.
70
con
los
cuales
el
G.
,
e )
Comprensible.
Bioesiadistica
Deben ser entendible por la comunidad científica. Los
científicos prefieren evitar el lenguaje misterioso.
La
exigencia
de
que
una
hipótesis
sea
compresible,
platea
que
el
investigador utilice un lenguaje de tal manera, que no sea subjetivo ni contenga juicios de valor. Existen varias definiciones de hipótesis planteados p o r diversas autores, pero al final todos mantienen la definición principal de la h i p ó t e s i s .
Definiciones de hipótesis -
Es una proposición enunciada para r e s p o nd er tentativamente a un problema (Pardinas, 1 9 8 7 ) . Son conjeturas basados en leyes y teorías (Bunge, 1 9 9 7 ) . Enunciado afirmativo y condicional que establece una relación entre hechos,
respondiendo
así
provisionalmente
un
problema
de
investigación y sujetándose a comprobación (Tafur, 1 9 9 7 ) . Nos indican lo que estamos buscando o tratando de probar, y p u ede definirse
como
explicaciones
tentativas
del
fenómeno
investigado,
formuladas a manera de p r o p o s i c i o n e s (Fernández et al., 1 9 9 7 ) . Es
un
enunciado
condicional
de posible respuesta a un
problema,
basado en hechos, teorías, leyes y principios, que pued e ser aceptado o rechazado
a
través
de
la
aplicación
de
pruebas
bioestadísticas
adecuadas (Canales, 1 9 9 9 ) .
Predicción Bunge ( 1 9 7 3 ) , Sokal y Rohlf ( 1 9 8 1 ) y Baker &Allen ( 1 9 8 0 ) .
+
¿Cualserálacausadexsobrey?,
+
¿ Que ocurriría si X = Y?
A las respuestas de estas preguntas se llama predicción, que en el sentido común, es una previsión basada en generalizaciones empíricas tácticas, fundamentada en teorías.
La predicción científica, es condicional y por lo tanto es una aplicación de la teoría científica ( anticipa nuevo conocimiento y es contrastada).
+
Mientras,
que
la
conjetura
y
la
profecía,
son
enunciados
i n c o n d i c i o n a l e s de la forma "ocurrirá p"
+
En la hipótesis, esta implícita la predicción.
+
Un
experimento
prueba
una
hipótesis
verificando
predicciones que se derivan de la misma son correctas.
71
si
las
Bioestadistíca
A . Canales G.
Tabla de la verdad
+
Hipótesis
Predicción
Correcta
Correcta
Falsa
Correcta o falsa
Ejemplos de hipótesis con predicciones:
+
Hipótesis:
S i . . . el salmón, utiliza s o l o el estimulo visual para
encontrar el arroyo d o n d e nació, para p o n e r sus huevos . . .
+
PREDICCION:
entonces . . . . un salmón al que se le i m p i d e ver
mediante una venda, no p u e d e retornar al arroyo d o n d e n a c i ó .
+
H i p ó t e s i s : S i . . . el salmón encuentra la ruta de vuelta a su arroyo natal mediante el olor especifico de sus aguas ...
+
PREDICCION:
entonces ...
obstruyendo
los
sacos
olfatorios,
p o d e m o s evitar que el salmón encuentre su arroyo natal.
+
H i p ó t e s i s l : El beriberi es el resultado de un d e s o r d e n dietético, y no se debe a una infección ba c te r í a l ,
+
Hipótesis I I : Un factor presente en la cáscara del arroz parece evitar la manifestación de este trastorno.
+
Eijkman pud o hacer una pr e di c c i ó n s e n c i l l a mediante estas dos hipótesis.
+ +
Hipótesis 1 : S i . . . e l beriberi es un transtorno dietético, ... Hipótesis I I : S i . . . el beriberi es el resultado de alimentarse con arroz descascarado ...
P R E D I C C I O N : entonces . . . el darle arroz descascarado a l o s p o l l o s debe producir esta d o l e n c i a . Por el contrario,
alimentarlos con
arroz con cáscara debe mantenerlos saludables.
Propuestas de hipótesis con predicción 1)
Hipótesis:
Si...
el
acceso
a una
revista
científica
indexada,
limita las publicaciones de las investigaciones de los docentes de las universidades, P R E D I C C I O N : entonces la creación de una revista científica de distribución
a nivel
internacional
propia
de
las
universidades,
elevara el número de publicaciones.
2)
Hipó tes is:
Si...
la
falta
de
publicaciones
,
científicas
de
los
profesores de las universidades, esta limitada por el tipo de formato propuesto por la dirección de Investigación . . . ,
72
Bioestudistica
Canales G.
P R E D I C C I Ó N : Entonces ... la modificación de formato de acuerdo a una revista científica indexada, posibilitará un mayor número de publicaciones.
Hipótesis considerando diferencias o igualdades.
Con diferencia La diversidad de e s p e c i e s de fauna silvestre, disminuirá conforme la altitud (msnm) se incremente, es decir a menores altitudes existirá una mayor
diversidad
condiciones
que
a
favorables
los
de
mayores
factores
altitudes,
climáticos
y
esto
de
debido
a
las
competencia
por
hábitat y alimentos que ocurre en zonas bajas, mientras que en zonas con mayores altitudes, las condiciones de los factores climáticos son adversos (temperatura,
humedad,
precipitación
pluvial
entre
otros)
(Primack,
1 9 9 4 , Pianka, 1 9 7 8 ) .
Con igualdades La diversidad de e s p e c i e s de fauna silvestre, será igual conforme la altitud (msnm) se incremente, es decir a menores y mayores altitudes existirá similar
cantidad
homogeneidad
de
de
diversidad
hábitat
y
a
de
la
especies,
selección
esto
natural
debido
a
( adaptación
la y
especialización) (Caughley, 1 9 9 4 ) .
Es
importante
que
las
hipótesis
estén
basados
en
teorías,
leyes,
publicaciones por científicos en libros, revistas científicas, p o r ello se debe colocar el nombre del autor.
Vale la pena distinguir los siguientes términos: (i)
Expectativa,
es
una
actitud
automática
de
anticipación
que
se
encuentra en todo los animales. La expectativa, es una operación consciente, pero carece de fundamento. (ii)
Conjetura, intento consciente pero no racionalmente justificado sin fundamentos.
La
conjetura,
puede
ser
juego
divertido,
una
superstición peligrosa. (iii)
Profecía, en gran escala, basada en el supuesto fundamento de la revelación
o
de
otra
fuente
esotérica
"ciencia
oculta".
Nunca
es
contrastada.
Hablando en el lenguaje de la biología, puede decirse que la predicción es el tipo más alto de adaptación -del hombre. Mediante ella, el hombre se
73
/L Canales G.
Bioes iadis iico
adapta anticipadamente a las nuevas condiciones que el mismo configura. Las, profecías, o conjeturas de gran escala como las del Apocalipsis, de Nostradamus
y
de
ciertos
políticos,
son
tan
infundadas
como
las
conjeturas.
Cuando Creso Preguntó al o r á c u l o de Belfos, qué ocurriría si atacaba a los Persas, la respuesta fue: "Un gran reino será destruido". Creso no se dio cuenta de la ambigüedad de la sentencia y atacó: un reíno, el suyo quedo destruido, como estaba profetizado.
Predicción con regresión
Sokál y R o h t f ( 1 9 8 1 ) . Una función, es una relación matemática que nos permite predecir que los valores de una variable Y, corresponden a valores dados de una variable X. El tipo más simple de regresión sigue la ecuación Y = X (relación entre el Número de anillos de crecimiento de un árbol c o m o una función de la edad).
Para
p o d e r rechazar y/ o
aceptar una
hipótesis,
es
necesario
utilizar
pruebas bioestadísticas, caso contrario se puede incurrir en errores que pueden ser negativos para el avance científico.
El uso de la pruebas bioestadísticas son una herramienta de ayuda para el investigador y no una limitan te.
La
bioestadística,
provee
las
herramientas
para
d i s c e r n i r con
mayor
claridad las causas, efectos, diferencias, asociaciones de los datos, y p o r lo tanto, es más sencilla la interpretación y discusión de las resultados.
Al hacer una prueba bioestadística, puede haber dos resultados: Aceptar
la
hipótesis
nula
(no
hay
diferencia)
o
rechazarla
(si
hay
diferencia). Existen dos tipos posibles de errores: rechazar la hipótesis nula cuando es verdadera ( error tipo 1) o aceptarla cuando es falso ( error tipo I I ) . A menudo la hipótesis es aceptada cuando es falsa, debido al p e q u e ñ o tamaño de muestra. El error tipo II puede ser común en estudios de conservación ya que generalmente las poblaciones son pequeñas. La aceptación de una hipótesis p u e d e tener consecuencias muy serias en proyectos de conservación por ejemplo: Imaginemos que una especie está disminuyendo,
pero
que
nuestras
7,4
1 1
estimaciones
poblacionales
no
G.
ii.
detectan
Biocntadisiica
ninguna
( cometiendo
un
diferencia.
error
de
Si
tipo
concluimos
H),
entonces
que no
no
hay
habrá
diferencia
medidas
de
conservación para modificar la tendencia.
La forma de conocer si el diseño es adecuado para no cometer un error de tipo II, es mediante el cálculo del p o d e r estadístico. El p o d e r estadístico es la probabilidad de rechazar una hipótesis nula falsa. Se calcula como 1 beta.
Cuadro 3 . 1 . Definiciones de Hipótesis y errores de tipo I y I I .
r
Parámetros
Definiciones
Hipótesis nula (Ho)
Hipótesis que generalmente indica que no
existe diferencias
-I�ipótesis alternativa (Ha)
Hipótesis que generalmente indica que
existe diferencias
---Error Tipo I
Rechazo' de una Hipótesis nula verdadera
Error Tipo I I
Aceptación de una hipótesis nula falsa
-·
-· Alfa
Probabilidad de cometer un error Tipo I
Beta
Probabilidad de cometer un error Tipo II
Poder
Capacidad de una prueba bioestadística
para rechazar la hipótesis nula cuando no
es verdadera. Grado de d i s m i n u c i ó n de
L
errores de Tipo 1 1 .
3 . 7 . TAMAÑO DE MUESTRA
Tamaño
de
muestra
en
el muestreo
aleatorio
simple,
cuando
la
variable es continua.
Partimos de la fórmula del intervalo de confianza, para estimar la media poblacional de la variable:
·-----E-----
Canales ( } .
En donde: x=
media de la varianza
Z = coeficiente de confianza, que depende del nivel de confianza asumido. a x
=
error
estándar
de
la
media.
Es
la
desviación
estándar
de
la
distribución muestra} de la media. E = error al estimar la media poblacional. Es la distancia o separación entre un extremo del intervalo y el centro del mismo, se t i e n e n :
E =
z-x
Consideramos dos casos:
1) Cuando el tamaño de la población (N) es grande, n < 0 . 0 5 N 2) Cuando el tamaño de la población, no es muy grande, n > O . O S N.
Estudiaremos el caso 1) cuando N es grande se utiliza la fórmula: O' CJX
= -
Fn En donde, a es la desviación estándar poblacional n es el tamaño de la muestra. Reemplazándose se tiene:
Zcr E = -
Fn Elevamos al cuadrado ambos miembros de la fórmula:
z2 Ez
=
- cr z
n
Despejando n.
z2 n
=
- cr Ez
2
Esta es la fórmula para el caso de población grande (n< O , O S N )
El valor de n varía en forma directamente proporcional a los valores que están
en
el
numerador.
Además,
n
varía
en
forma
inversamente
proporcional al valor del denominador de la fórmula. Cuando
el
nivel
de
confianza
probabilidades normales Z
=
2,58.
asumido
es
99%,
según
la
tabla
de
A . Canales G.
B ioes tadis tica
Para el nivel de confianza de 9 5%, la tabla da Z
=
1, 9 6 .
La desviación estándar poblacional u no se obtiene directamente. En la práctica,
se
le
estima
tomando
la
desviación
estándar
de
una
investigación semejante ya efectuada. Si no hay antecedente, se toma del universo de una muestra piloto, llamada también, muestra guía o muestra de ensayo, de tamaño arbitrario. Supongamos de 8 0 o 1 0 0 elementos. Con los datos de la pre muestra, se calcula su media aritmética x y su desviación estándars:
(Y =
Es
decir,
la
desviación
estándar
s
poblacional
estimada,
es
igual
a
la
desviación estándar de la pre muestra.
El error E lo fija el especialista, puesto que es la persona más indicada para estimar el máximo error que se pueda admitir al calcular el valor m e d i o poblacional de la variable de estudio.
En la práctica, cuando no hay el especialista se toma:
E = 3 % de X o 5 % de X
Esto es el 3 % o el 5 % del valor medio de la pre muestra.
Ejemplo 3 . 6 . En una p o b l a c i ó n de 1 0 0 0 0 0 hombres adultos, se trata de
construir un cuadro que correlacione los p e s o s con la talla y la edad de las p e r s o n a s . Se quiere estimar el tamaño de una muestra aleatoria que sea representativa
de
la
población
dada.
De
varias
facultades
de
la
universidad se toma una muestra de S O personas varones, de edades y tallas que están dentro de l o s límites de estudio. Sus pesos en kg son:
55
68
73
64
85
90
77
82
52
60
83
72
66
78
80
¡,,,,.---,,---
59
58
56
74
57
72
64
72
62
73
70
77
81
69
54
71
72
73
85
76
-80
70
85
71
78
58
69
74
70
80
61
60
62
71
70
77
A . Canales
De estos valores obtenemos:
X = N, p o r lo tanto corregimos: 1850 n
=
=
764,46
1850 l
+
1300
n = 7 64 personas Este es el tamaño mínimo de la muestra bajo las condiciones dadas.
80
Bioestculistica
Tamaño
de
muestra
en
el muestreo
aleatorio
simple,
cuando
la
variable es cualitativa (proporciones) Es muestreo para proporciones de utilidad, cuando la variable en estudio es cualitativa, en escala nominal o en escala ordinal. Por ejemplo, con la variable sexo se tiene dos categorías: hombre y mujer. Supongamos que hay
20
personas
de
las
cuales
8
son
hombres,
y
12
mujeres.
Las
frecuencias en las categorías s o n :
f. absoluta
f. relativa
f. porcentual
8
p = 8/20 = 0.4
40%
Mujer
12
q = 1 2 / 2 0 = 0.4q
60%
Total
20
p + q = l
100%
Categorías "-iíoñi'bre
En donde: nº de hombres en el grupo
=
p
proporción de hombres
=
d nº tota 1
. ,
.
q = p r o p o r c i on de mujeres
e personas
nº de mujeres en el grupo
=
d nº tata 1
e personas
Propiedades y conceptos: 1.
Una proporción es la razón o cociente del número de elementos que tienen una propiedad dada, entre el total de elementos de la población.
2.
Se demuestra que: a = p.q, es decir:
La varianza a2, es igual al producto de la proporción de elementos que tienen cierta propiedad, por la proporción de elementos que no la tienen.
3.
También, en el análisis matemático se demuestra que para la varianza máxima se tienen: p=q=0,5
De donde se deduce que el valor máximo de la varianza es: 2�.:-
cr
máxima= O , S x 0 , 5 = 0 , 2 5
81
..A .
Canales
3 . 8 PROBLEMAS PROPUESTOS
a) Calcule el tamaño de muestra para la toma de datos de talla de pejerrey de una población grande de 1 5 0 0 0 0 individuos, con un nivel de confianza de 9 5 % . Se conoce el promedio ( 2 5 c m ) , desviación estándar ( 1 , 5 6 ) , error (3%).
b ) Calcule el tamaño de muestra de los siguientes datos: N
1500
Z = 1,96 Promedio
1,56
Desviación estándar= 3 , 5 Error=3,5%
e) Calcule el tamaño de muestra de la p o b l a c i ó n de vizcachas, tomar datos de
peso
(kg)
de
una
población
de
3500
individuos,
se
conoce
los
siguientes datos: Z = 1,96 Promedio
2 , 5 kg
Desviación estándar= 3 , 6 Error=5%
d)
Que haría U d.
Si no tiene promedio
ni varianza
de la especie y/ o
población que desea estudiar. Plantee todas las alternativas de solución.
Bioesuulisiica
A Canales G.
CAPITULO IV
PRUEBAS BIOESTADÍSTICAS PARAMÉTRICAS
4.1.
SUPUESTOS PARA PRUEBAS BIOESTADÍSTICAS
4.2.
ANDEVA DE CLASIFICACIÓN SIMPLE.
4.3.
ANDEVA FACTORIAL.
4.4.
REGRESIÓN
4.5.
CORRELACIÓN
PROBLEMAS PROPUESTOS
4 . 1 . SUPUESTOS PARA PRUEBA BIOESTADÍSTICAS Para aplicar pruebas bioestadísticas (paramétricas y no paramétricas ), se recomienda que las variables deban ser continuas y discretas. Algunas de las
pruebas
bioestadísticas
paramétricas
son:
Análisis
de
Varianza
(ANDEVA), Regresión, Correlación, Prueba de t (aunque otros autores consideran como no paramétricas utilizada como prueba de contaste).
Para aplicar una prueba bioestadística paramétrica, es necesario cumplir con los siguientes supuestos:
1. Normalidad de datos. Para comprobar
si existe normalidad en los datos, debe realizar pruebas
de bondad de ajuste como: kurtosis. Esto implica que los datos analizados estén en un rango de - 1 a + G 1 y G2 que debe ser igual O, entonces nos indica que los datos tienen normalidad. En caso de no existir normalidad de datos puede, hacer una transformación con Arcsen, Raiz cuadrada, logaritmo y Box Cox. Ejemplo de una prueba gráfica de normalidad de datos.
Las
consecuencias
de
la
no
normalidad
del
error,
no
son
demasiado
graves. Únicamente una distribución muy asimétrica tendría un efecto marcado sobre el nivel de significación del resultado o sobre la eficiencia del error. La mejor manera de corregir la falta de normalidad es hacer una transformación, a fin de cumplir con el supuesto de normalidad. Si a pesar de la transformación de los datos, continua la anormalidad, entonces se debe optar por una prueba no paramétríca.
83
.A
Canales
Bioestadistica
G.
5
4
6
PESO
Figura 4 . 1 . Curva de normalidad de datos
Interpretación:
La
figura
muestra
que
la
mayoría
de
los
datos
se
encuentran dentro de los rangos de Kurtosis aceptable, p o r lo que se acepta que l o s datos tienen normalidad.
Ejemplo 4 . 1 . Se presenta las alturas de de los primeros 7 0 estudiantes
graduados en el curso de bioestadística. H o : La muestra viene de una población normal. H 1 : La muestra no viene de una distribución normal.
Marca de
Altura
Frecuencia
clase
(X;)
observada
f¡X;
f;X;2
P(X;)
(fe;)
o
62,5
(f;-fe;)Z /fe;
esperada
(f¡) < 1'1
Frecuencia
0,0102
0,7140
0,1523
7938
0,0115
0,8050
0,1423
62.5-63,5
63
2
63,5-64,5
64
2
128
8192
0,0219
1,5330
0,1004
64,5-65,5
65
3
195
12675
0,0357
2,4990
0,3834
126
;¡
i
l
1
1
¡
65,5-66,5
66
5
330
21780
0,0542
3,7940
0,3127
66,5-67,5
67
4
268
17956
0,0755
5,2850
0,1337
67,5-68,5
68
6
408
27744
0,0995
6,9650
1,0371
Bioestadistica
A.. - Canales G.
68,5-69,5
69
5
345
23805
0,1122
7,8540
0,0136
69,5-70,5
70
8
560
39200
0,1191
8,3370
0,1474
70,5-71,5
71
7
497.
35287
0,1156
8,0920
0,0046
71,5-72,5
72
7
504
36288
0,1026
7,1820
2,6560
72,5-73,5
73
10
730
53290
0,0858
6,0060
0,6941
73,5-74,5
74
6
444
32856
0,0311
4,2770
0,0036
74,5-75,5
75
3
225
16875
0,0414
2,8980
0,0241
75,5-76,5
76
2
152
11552
0,0256
1,7920
76,5-77,5
77
o
o
o
o
>77,5
_Ef¡
I;f¡X/=
X¡=4912
345438
I;[¡ - 7 0
µ
=
0,0145
1,0150
0,0136
0,9520
I; P(X¡)
=
¿f¡X¡
4912
n -
= 7CJ =
1,9670
xz = 7 , 7 7 2 3
E f e ¡ = 70,000
1,000
70,17
49122 345438 -
70
S = 69
S = �=3,31
Para hallar P (proporción) se debe calcular Z: X · - µ Z = - 1__
s Entonces, empezaremos con la clase de mayor tamaño, en este caso las medidas > 7 7 , 5 . Aquí nos preguntamos e
población
normal
(y
por
lo
tanto,
e
aleatoria de esa población es
que
normal)
esperamos tenga una altura > 7 7 , 5 . A s í , Z
cuál es la proporción de una proporción
con
µ
=
de
una
muestra
7 0 , 1 7 y S = 3 , 3 1 , que
= ( 7 7 , 5 - 7 0 , 1 7 ) / 3 , 3 1 = 2 , 2 1 , para
este valor de Z, la proporción es 0 , 0 1 3 6 (Tabla A).
Similarmente, por calcular Z sería
0,0145,
la misma
que
=
(76,5 - 7 0 , 1 7 ) / 3 , 3 1
nos
informa que
=
1 , 9 1 , la proporción
0,0145
de
la
población
tendría una altura mayor a 7 6 , 5 . Por lo tanto, 0 , 0 2 8 1 - 0 , 0 1 3 6 = 0 , 0 1 4 5 de las observaciones, o ( 0 , 0 1 4 5 ) (70) = 1 , 0 1 5 0 de los individuos, estarían entre 7 6 , 5 y 7 7 , 5 .
Para determinar la proporción de la p o b l a c i ó n > 7 5 ,5, calculamos Z = (7 5 , 5 ·-
70,17)/3,31
=
1 , 6 1 , y luego
P (Z
>
1,61)
=
0,0537.
Por lo tanto, la
proporción de la población que está entre 7 5 , 5 y 76,5 sería P ( 1 , 6 1 < Z < 1,91)
=
0,0537 -0,0281
=
0,056.
Luego, probabilidades similares son obtenidas, empezando con la clase más pequeña y procediendo hasta alcanzar la clase es, para estaturas< 6 2 , 5 , Z = ( 6 2 , 5 - 7 0 , 1 7 ) / 3 , 3 1
85
=
que contiene µ. Esto
-2,32 y P ( X i < 62,5) = P
Canales G.
Bioes tadística
(Z< - 2 , 3 2 ) = 0 , 0 1 0 2 . Para alturas< 6 3 , 5 , Z
- 2 , 0 2 , por lo tanto P ( 6 2 , 5 < X i >
6 3 , 5 ) = P ( - 2 , 3 2 < Z < - 2 , 0 2 ) = 0 , 0 2 1 7 - 0 , 0 1 0 2 = 0 , 0 1 1 5 . Para alturas
77,5
87
..A .
Canales
G.
Con los valores d e µ = 7 0 , 7 1 y S = 3 , 3 1 resuelto en el Ejemplo 4 . 1 , ahora determinaremos la frecuencia esperada acumulada relativa. Por ejemplo, para encontrar P ( X i < 6 2 , 5 ) operamos (Z < - 2 , 3 2 )
2,18)
=
Z = (62,5- 70,17)/3,31 = -2,32,yP
O, 0 1 0 2 (Tabla A). Similarmente fe,
=
P ( X i < 6 3 , 5 ) = P (Z < -
0 , 0 1 4 6 , y así sucesivamente. El Cuadro A da proporciones en el
lado derecho de la curva. Pero desde que la curva normal es simétrica, el lado izquierdo de la curva contiene la misma p r o p o r c i ó n . Así, P (Z < - 2 , 3 2 ) = P (Z > 2 , 3 2 ) y d e s p u é s se lee directamente del Tabla A.
Si la Z es positiva, sin embargo, la frecuencia esperada acumulada relativa es 1 , 0 0 0 0 menos la proporción tabulada. Por ejemplo, P ( X i < 7 2 , 5 ) = P (Z < O, 70)
=
1 , 0 0 0 0 - P (Z > O, 70) = 1 , 0 0 0 0 - 0 , 2 4 2 0 = O, 7 5 8 0 .
Máximo Di
0 , 0 5 8 0 , máximo D'I
=
0,1053, D
=
0,1053
De acuerdo a la prueba de normalidad D 0 . 0 5 , 7 0 = 0 , 1 0 6 (Tabla B) Por lo tanto, n o rechazamos la H o ( 0 , 0 5 < P < 0 , 1 0 )
X.i en pulgadas
Figura 4 . 3 . Polígono de la frecuencia acumulada de los datos de altura de los estudiantes del ejemplo 4 . 1 .
88
B toes tculistica
J-l. Canales G.
Otro
método
para
determinar
si
una
muestra
proviene
de
una
distribución normal, es la prueba de Shapiro and Wilk, conocida como prueba W. El p o d e r
de W ha mostrado ser excelente cuando evalúa para
salidas de n o r m a l i d a d .
El procedimiento de W para una prueba de normalidad, especialmente cuando n > S O puede ser muy engorroso. Un procedimiento alternativo es D'Agostino,
que implica
el
cálculo
de
una estadística que
el
llama
D,
aplicable como una poderosa prueba para partidas de normalidad. T
D = -
-J n 3 S S Donde, SS es la suma de cuadrados.
Ejemplo 4.4.
Prueba
D ' Agostino
para
probar normalidad,
aplicado
datos del e j e m p l o 4 . 1 .
H o : La muestra proviene de una población normal H l : La muestra no proviene de una p o b l a c i ó n normal
Xi
fl
i
63
2
1 - 2
64
2
3 - 4
65
3
5 - 7
66
5
8 - 1 2 13 - 1 6
67
4
68
6
17 - 2 2
69
5
23 - 27 28 - 35
70
8
71
7
36-42
72
7
43-49
10 6
6 0 - 65
75
3
6 6 - 68
76
2
69 - 70
(¿ SS -
-
I
f.X� i
i
so -
73 74
f1. X 1· )
2
n
4912 -
n
-
+ 1
59
2
345 4 3 8 - - - - - 7 S S 9429 70 � = 0 , 2 8 6 4 (ver Tabla C), no rechazamos la
Ho.
2.
Independencia de datos.
La falta de independencia de los datos, puede tener su origen en el tiempo más que el espacio. En un experimento podríamos medir el efecto de un tratamiento mediante el registro de los p e s o s de diez individuos. Estas m e d i c i o n e s p u e d e n dar resultados discordantes de sobreestimación y subestimación. pesan
los
Por e j e m p l o , p o d e m o s determinar el
individuos
de
los · diversos
grupos,
de
orden en que se
acuerdo
con
algún
procedimiento aleatorio. N o es sencillo realizar una transformación de datos para vencer la no independencia. Pero, existen algunas pruebas c o m o las pruebas de bondad
de ajuste de las corridas hacia abajo y hacia
arriba que trabaja con la prueba Z y también se puede hacer pruebas gráficas .
...
• �
., �
••.
•
.
Ir
•
•
�
•
..
.
•
...
t
�
�
•
'
'
.. .. . . . .
.
.
X
.
.
X "
.
..
.
é
. .
.
.
. .
» Ó ,
No existe i n d e p e n d e n c i a de datos
Si existe independencia de datos
Figura 4.4. Independencia de datos
90
G.
.
Bioes tad is tica
Homogeneidad de varianzas.
3 .
La igualdad de varianzas en un grupo de muestras es una precondición
importante para diversas pruebas bioestadísticas. Las pruebas que se pueden
aplicar
para
analizar
o
corregir
este
supuesto
tenemos
las
pruebas de Cochran, Bartlett que trabajan probabilidades. Así mismo, se p u e de realizar pruebas gráficas donde l o s residuos de los datos deben estar distribuidos cerca de la m e d i a .
X
X
Si existe homogeneidad de varianzas
No existe homogeneidad de varianzas
Figura 4 . 5 Homogeneidad de varianzas
A continuación se presenta un ejemplo desarrollado con la prueba de Bartlett.
Ejemplo 4 . 5 .
Diecinueve cerdos fueron divididos en cuatro grupos, y
cada grupo fue alimentado con diferentes alimentos. Los datos que se presentan s o n l o s pesos en kilogramos, y se desea evaluar si la varianza de los pe s o s en todos los cerdos es la misma en l o s cuatro tipos de alimentos.
H o : Las cuatro varianzas de las poblaciones son homogéneas.
H 1 : Las cuatro varianzas de las p o b l a c i o n e s son heterogéneas
91
A . Canales O.
Alimento 1
Alimento 2
Alimento 3
60,8
6 8 ,7
102,6
87,9
57,0
67,7
102,1
84,4
65,0
74,0
100,2
83,1
58,6
66,3
96,5
85,7
61,7
69,8
90,3
x
60,62
69,3
100,35
86,28
ss,
37,57
34,26
22,97
33,55
gl,
4
4
3
4
s
21
log s
21
gl.flog s
21)
1/ gl,
9,39
8,56
7,66
8,39
0,9325
0,8842
0,9238
3,8908
3,7300
2,6526
3,6952
0,250
0,250
0,333
0,250
t
= (60,8
60,62)
2
=
Sp
2
B
-
128,35
-
-
15
-
=
I::; (1/ gh) = 1 , 0 8 3
+ . . . + (61,7
= 0, 9 3 2 5
log si
r
(I
gli)
-
¿
gl¡logsf]
B = 2 , 3 0 2 5 9 ( ( 0 , 9 3 2 5 ) ( 1 5 ) - 13,9686]
B
=
2,30259[0,0189]
B = 0,0435
e -
1
+
-
1
(�
3 ( k - l)
e=
1
3
e = B
=
B e
L
2_ _ _ 1 ) gli
!3) ( 1,83
+
-
r
gl,
ts)
1,113
0,0435
= C
X�
60,62)
¿g}i
8 56
2 , 3 0 2 5 9 [ (Iogsi)
0,0391 1,113
05 3
= 7,815
92
128,55
15
I::; gL(log s21) = 1 3 , 9 7
¿SSi
2
5P
2
=
Xi)z j
[t, (X¡i
+ (57 - 60,62)
l::; S S ¡ 6V¡
0,9727
SS =
ssi
Alimento 4
2
37,57
G.
Por
lo
tanto,
Bioestadistica
no
rechazamos
la
Ho,
lo
que
indica
que
sí
existe
homogeneidad de varianzas.
4.
Interacción
Para análisis
con más
de
dos variables,
además
de los tres
primeros
supuestos ( normalidad, independencia y h o m o g e n e i d a d de varianzas), se debe cumplir el supuesto de interacción. Si la interacción es significativa se debe transformar l o s datos, se requiere que l o s efectos no deban tener interacción significativa. Se p u e d e aplicar las pruebas de Tukey para la no aditividad.
Si
la
interacción
posiblemente
existe,
falso
entonces
cuando
dicho
la
prueba
efecto
es
será
muy
poco
grande.
eficaz
y
Existe
la
posibilidad de transformar los datos, si a pesar de dicha transformación persiste la interacción, puede analizarse los datos con ANDEVA simple o de una vía.
E j e m p l o (Utilizando el programa Statgraphics):
Cuadro
Análisis
4.1.
(interacción
no
de
Varianza
significativa).
de
Factor
dos
a:
factores
especies
de
con
replicación
moluscos
(a=2):
Acmaea scabray A. Dijitalis. Factor B : concentraciones de oxigeno de agua
demar(b=3): 100%, 7 5 % y 5 0 % .
Fcalc
p
16,638075
1,721
0,1964ns
90,660508
9,376
0,0004s
1,251
0,2 ns
FdeV
se
A (especies)
6,63808
1
B (salinidad)
181,32102
2
AxB
23,9262
2
11,9631
401,5213
42
9,6692614
623,40659
47
GL
CM
(Interac,) Error
-· Total
F (0,05) ( 1 , 4 2 )
=
4,07
F(0,05)(2,42)
=
3,22 F ( 0 , 0 0 1 ( 2 , 4 2 ) = 8 , 1 8
Interpretación: El c o n s u m o de oxígeno no difiere para las dos especies de moluscos, pero difiere con respecto a la salinidad. Al 5 0 % de agua de mar, disminuye el consumo de oxígeno. No existe suficiente evidencia de una interacción del consumo de oxígeno entre e s p e c i e x salinidad.
El no pu
cumplimiento
de
los
supuestos
para las
pruebas p a r a m é t r
ícas,
ede tener resultados contrarios en la interpretación de los datos y dar
98
Bioestadistica
A. Canales G.
sugerencias
erróneas.
Actualmente,
existen
varios
paquetes
b i o e s t a d í s t i c o s para c o m p u t a d o r a s que p u e d e n r e a l i z a r todas las pruebas
:
p a r a m é t r i c a s y no paramétricas y también c o m p r o b a r l o s s u p u e s t o s .
Pero,
para
manejar
conocimiento
Caso
dichos
teórico
contrario,
"si
de
introduce
c o m o resultado basura".
recomendables
paquetes
conceptos
son:
se
y
basura
debe
a
los
Los programas
S T A T G RA P H I C S ,
tener
una
procedimientos
programas
q u e tienen
SAS,
base
sólida
de
bioestadísticos.
también
y
exigencia científica
SYSTAT,
INFOSTAT
,
recibirá
y
otros
m e n o s exigentes.
4.2.. La
ANÁLISIS DE VARIANZA DE CLASIFICACION SIMPLE (ANDEVA)
Bioestadística
disciplinas
del
para
técnica
la
de
prueba
Fisher,
de
conocida
hipótesis
de
como
p o b l a c i o n e s con datos en m u e s t r a s . Esta t é c n i c a es u n a herramienta muy
muchas
(ANDEVA)
la
t
en
varianza
desarrollado
¡
útil
de
ha
análisis
varias
s a b e r h u m a n o y en investigaciones
en las
c u a l e s s e a p l i c a n la o b s e r v a c i ó n y la e x p e r i m e n t a c i ó n . ¡;':! .. ·•·· I}
La técnica c o n s i s t e en s e p a r a r que la v a r i a c i ó n total observada las causas
r l
y factores p a r c i a l e s , s i g u i e n d o l o s s i g u i e n t e s p a s o s :
a) Clasificar o s e p a r a r las c a u s a s parciales de variación
b ) C a l c u l a r l o s grados de l i b e r t a d (GL), para c a d a factor o causa p a r c i a l de
variación.
e)
Calcular
la
suma
observaciones
de
(SC)
los
con
cuadrados
respecto
a
la
de
las
desviaciones
media,
para
cada
de
una
las
de
las
factor
de
c a u s a s de v a r i a c i ó n .
d)
Calcular
la
varianza
o
cuadrado
medio
CM)
para
cada
variación.
e)
:¡
1
Probar
hipótesis
por
p r u e b a de F o r e l a c i ó n
1
f)
medio
de
a
prueba
de
Fisher;
conocida
como
de varianzas.
Comparar l o s p r o m e d i o s ( d i s c r i m i n a r v a r i a b l e s ) p o r varios m é t o d o s .
E l a n á l i s i s de varianza sirve para determinar la diferencia o igualdad entre
1 ¡
f !
d o s o más m e d i a s p o b l a c i o n a l e s , utilizando
muestras i n d e p e n d i e n t e s . El
m é t o d o s e b a s a en la siguiente pregunta: ¿habrá mayor variación entre las
¡ ¡
q
m e d i a s de distintos g r u p o s , que entre l o s grupos m i s m o s ?
I ¡
H ¡ ¡
¡ l
!l
U na
u
variabilidad
diferencia
entre
i nherent e
las
medias
ha
de
ser
grande
con
respecto
a los gr u pos para que sea significativa.
H ; ¡
94
a
la
·.
Bioestadistico.
A. Canales G.
El nombre de análisis de varianza se utiliza porque la variabilidad total en el conjunto de datos se p u e d e descomponer, en la suma de la variabilidad entre las distintas medidas muestrales y la variabilidad en las muestras. Es un método que sirve para estudiar la variación entre medias y esa variación se mide p o r una varianza.
Aplicación del ANDEVA, cuando el número de repeticiones es constante para todas las muestras (n = nl = n2 = n 3 , etc.).
E j e m p l o 4 . 5 . Peso en K g d e 1 0 n i ñ o s al nacer tomados al azar.
H o : N o existe diferencia de los pesos de recién nacidos.
H l : Existe diferencia de los pesos de recién nacidos, entre los hospitales evaluados.
HOSPITALES N
A
B
e
D
1
3,000
3,625
3,800
3,050
2
3,500
3,450
3,500
2,800
3
3,400
3,400
3,350
3,500
4
3,400
3,625
3,250
3,400
5
3,350
3,625
4,100
3,350
6
5,050
3,150
3,900
3,200
7
4,760
3,360
3,900
3,050
8
3,400
3,230
4,000
3,400
9
3,650
3,950
3,670
2,900
3,600
3,100
37,070
31,75
10 ¿Xij
X
3,260
3,400
36,770
34,815
3,677
3,482
3,707
3,175
k
N
=In¡=
40
i=l
Cualquier valor es Xij. Por e j e m p l o X 1 1
=
3 , 0 5 0 , etc.
El Gran Total e s :
95
3 , 0 0 0 ; X12
=
3 , 5 0 0 ; X24
=
3 , 6 2 5 ; X41
A . Canales G.
LL i
Bioestadistica.
X¡j
= 36,770 + 34,395 + 3 7 , 0 7 + 3 1 , 7 5 = 140,405
j
L L Xl i
2
= 3
2
+ 3,5
2
34,395
=--+ 10
n¡
La variación
¡
2
+ . . . 2,9
2
+ 3,1
= 500,386
j
36,77
r
2
+ 3,4
total
observada
2
37,07
2
31,75
2
+--+--=494636 10 10 1
10
en
los
40
niños
muestreados
se
puede
atribuir las siguientes causas parciales.
a)
Variación entre hospitales o entre muestras.
b)
Variación dentro de cada hospital o de cada muestra (variación de muestreo que más tarde definiremos como error experimental y que, como se explicará, tiene también varias causas parciales.
Cálculo de la suma de los cuadrados ( S C ) .
l.
F e =
C 2:: i i i X ¡ i ) 2 ¿n¡
2 . se
total =
L Li XG -
Fe
¿·X� 3.Se
1-'1
¿¡-
grupos=
-
Fe
n¡
4. se
error =
se
total -
se
grupos
Cualquier método puede emplearse, pero el descrito en 3ª es el de uso más común por ser bastante práctico.
Aplicando estas 4 fórmulas a los ejemplos, tiene:
140'4052
1 . FC
=
=
492 839 1
40
2.
se
total = 5 0 0 , 3 8 6 - 4 9 2 , 8 3 9 = 7 , 5 4 7
3.
se
g ru p o s = 494, 6 3 6 - 4 9 2 , 8 3 9 =
1 1 i l
1, 7 9 7
l j
4.SC error=
se
total_-
se
muestras= 7,547 - 1 , 7 9 7 = 5,73
!t
J I
Cálculo de cuadrados m e d i o s :
96
Bioestadistica
A. Canales G.
se grupos CM grupos = --- gl grupos se
error
CM e r r o r = g1 error Finalmente cálculo de la F: CM grupos F=--- CM error
Cuadro 4 . 2 . ANDEVA Clasificación Simple de niños nacidos en cuatro hospitales.
se
GL
FdeV
=
3
CM
Fe (0,05)
1,797
0,599 0,159
Hospitales
(a-1)
Error
A(n-1)
=
36
5,75
Total
a(n-1)
=
39
7,547
3,767
Ft (0,05) 2,84
Con d. Signif.
�·
Interpretación: El peso (Kg) de niños nacidos, presenta diferencia entre los cuatro hospitales Fe
ro.os,
=
3, 7 6 7 ; gl
=
3 , 3 6 ; Ft 0 , 0 5 ; 3 , 3 6
=
2,84.
En base al E j e m p l o 4 . 5 , se presenta los resultados estadísticos utilizando el Software Infostat.
3.40
3.40 3,35 5.05
4.7'6 3.40 3.65
1
3.26
1
3.63
2
3.45
2
3.40
2
,.
97
A. Canales G.
CU.adro
de
Biocstadistica
d e l. a Varianza.
A.ná.Usis
r
f.V.
se
Modelo
1.80
3
0.60
3.75
0.0192
HOSP
1.60
3
0.60
3.75
0.0192
Error
5.75
36
0 . 1 6
Total
7.SS
39
gl
CM
Interpretación: El valor p
=
< se
uvo
III)
p-valor
0 , 0 1 9 2 , sugiere el rechazo de Ho, es decir
existe diferencia de los p e s o s de los recién nacidos entre los hospitales
en�
los que se hizo la evaluación. Corroborando con los resultados obtenidos:' manualmente.
Importante: Cuando el resultado del análisis de ANDEVA es sígnificativa/. se tiene que hacer en forma obligatoria, los análisis de contrastes con lá · Prueba
Tukey y otras
pruebas
que
determinan
diferencias
entre
los
tratamientos, zonas, dietas entre otras. Contrariamente si los resultados · son, no Significativos no es necesario hacer una prueba de contraste. Para , realizar la prueba de contraste es necesario que las comparaciones deban;'. ser más de dos tratamientos.
En l o s próximos ejemplos, se harán las respectivas pruebas de c o n t r a s t e. " las mismas que pueden ser numéricas o gráficas.
Ejemplo 4 . 6 . C o n s i d e r e m o s una variable sobre lo que actúa un factorque, puede presentarse bajo un determinado número de niveles, t. Por ejemplo. p o d e rn o s considerar un fármaco que s e : administra a t = 3 grupos d e , personas y se les realiza cierta medición del efecto causado:
Datos
de personas
con
gripe,
apendicitis y sanos,
organizado
en tres