Instituto De Ciencias Y Estudios Superiores De Tamaulipas A.C

INSTITUTO DE CIENCIAS Y ESTUDIOS SUPERIORES DE TAMAULIPAS A.C ANTOLOGÍA BIOESTADISTICA I Compilador: Ricardo Alberto

Views 135 Downloads 5 File size 925KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

INSTITUTO DE CIENCIAS Y ESTUDIOS SUPERIORES DE TAMAULIPAS A.C

ANTOLOGÍA

BIOESTADISTICA I

Compilador: Ricardo Alberto Ponce de León Díaz

Tampico, Tamps. Mayo de 2015

1

ÍNDICE

Objetivo General de la Antología

4

Introducción a la Bioestadística

5

Unidad I: Medidas de Tendencia Central y Dispersión Objetivo de la Unidad

6

1.1. Concepto de Tendencia Central

6

1.2. Media Aritmética

10

1.3. Mediana

12

1.4. Moda

12

1.5. Datos Simples y Datos Agrupados

13

1.6. Agrupamiento por Intervalos

14

1.7. Medidas de Dispersión

14

1.8. Rango

14

1.9. Varianza

15

1.10Ejercicios Propuestos

18

Actividades de Aprendizaje de Unidad I

19

Síntesis de la Unidad I

19

Unidad II: Coeficiente de Correlación Objetivo de la Unidad

20

2.1. Regresión Lineal

20

2.2. Interpretación de la Ecuación de Regresión Lineal Simple

20

2.3. Intensidad de una Relación Lineal

24

2.4. Correlación Lineal Simple

26

2.5. Cálculo del Coeficiente de Correlación

27

2.6 Interpretación

28

2.7. Ejercicios Propuestos

29

Actividades de Aprendizaje de la Unidad II

31

Síntesis de la Unidad I

31

2

Unidad III: Técnicas de Análisis Estadísticos Objetivo de la unidad

32

3.1 Relación de Análisis e Interpretación.

32

3.2 El Test T

32

3.3 Análisis de Varianza

34

3.4 El Xi Cuadrado

35

3.5 Pruebas de Hipótesis

38

3.6 Solución de ejercicios

40

Actividades de Aprendizaje de la Unidad III

43

Síntesis de la Unidad III

43

Bibliografía y Fuentes Consultadas

44

3

OBJETIVO GENERAL DE LA ANTOLOGIA

La información contenida en ésta antología es un gran recurso para que el alumno comprenda los temas enlistados en la carta descriptiva de la materia de Bioestadística I. Su lectura y consulta constante será de gran ayuda para su entendimiento.

4

Introducción a la Bioestadística La bioestadística es una rama de la estadística que se ocupa de los problemas planteados dentro de las ciencias de la vida, como la biología, la medicina, entre otros. La bioestadística es una disciplina aplicada ya que comprende el desarrollo y aplicación de métodos y de técnicas de análisis cuantitativo para extraer información biológica de conjuntos de datos obtenidos desde la experimentación o el muestreo. El primer médico que utilizó métodos matemáticos para cuantificar variables de pacientes y sus enfermedades fue el francés Pierre Charles-Alexandre Louis (1787-1872). La primera aplicación de la Méthode numérique (que es como tituló a su obra y llamó a su método) es su clásico estudio de la tuberculosis, que influyó en toda una generación de estudiantes.

Aplicaciones La aplicación resulta hoy en día necesaria, en los campos: 

Salud pública, que incluye: epidemiología, nutrición, salud ambiental y en investigación de servicios sanitarios.



Genómica y poblaciones genéticas



Medicina



Ecología



Bioensayos

La colaboración de la bioestadística ha sido clave en el desarrollo de nuevos fármacos, en el entendimiento de enfermedades crónicas como el cáncer y sida, y estos son algunos de los miles de ejemplos posibles. (Balzarini, Tablada, & González, Introducción a la Bioestadística, 2011)

5

UNIDAD I

MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN.

Objetivo: Reconocer y analizar con ayuda de las herramientas estadísticas más apropiadas, los datos extraídos de muestras o poblaciones.

1.1 Concepto De Tendencia Central La estadística busca entre otras cosas, describir las características típicas de conjuntos de datos. Las medidas de tendencia central corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos que nos ayudan a resumir la información en un sólo número. (Dawson, 2011) Medidas de Tendencia Central Entre las medidas de tendencia central tenemos: Media Aritmética, Mediana y Moda. Se debe tomar en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan variables cuantitativas. Una variable es una propiedad que puede fluctuar y cuya variación es susceptible de adoptar diferentes valores, los cuales pueden medirse u observarse. (Dawson, 2011) Tipos de variables: 

Cualitativas: son aquellas que no pueden expresarse numéricamente. Sus posibles valores se llaman modalidades o categorías. No se pueden asociar naturalmente a un número y no se pueden hacer operaciones algebraicas con ellos. Ejemplo: Sexo, nivel de estudios, etc.



Cuantitativas: Son aquellas que se pueden expresar numéricamente: 

Variables cuantitativas discretas son aquellas variables cuyos posibles

valores

constituyen un conjunto de cardinal finito ó a lo sumo infinito numerable. Ejemplo: Tamaño de una familia (4), número de enfermeras (12), número de hermanos de un amigo (2)

6



Variables cuantitativas continuas son aquellas que pueden tomar los infinitos valores de un intervalo, es decir, si entre dos valores son posibles infinitos valores intermedios. Ejemplo: la altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75



Una variable no aleatoria (asociada al resultado de una experiencia que sí produce el mismo resultado) está caracterizada por un valor para cada condición.



Una variable aleatoria está caracterizada por la llamada función densidad de probabilidad, a partir de la cual se obtienen las probabilidades para sus posibles valores para cada condición. (García Ramos, Ramos González, & Ruiz Garzón, 2008)

Los objetivos de la investigación científica se pueden entender, de un modo muy general, en términos de encontrar y describir las variables de interés y las relaciones entre ellas, para el problema en estudio. La estadística es la ciencia que estudia los métodos que permiten realizar este proceso para variables aleatorias. Estos métodos permiten resumir datos y acotar el papel de la casualidad (azar). Se divide en dos áreas: Estadística descriptiva: Trata de describir las variables aleatorias en las "muestras". El objetivo esencial de la Estadística descriptiva es la caracterización de los conjuntos de datos numéricos; dicha caracterización, pretende poner de manifiesto, las propiedades de estos conjuntos, lo cuál se puede lograr de forma gráfica o analítica. (Guerra Bustillo, Menéndez Acuña, & Barrero Morera, 2011) Estadística inductiva o inferencial: Trata de la generalización hacia las poblaciones de los resultados obtenidos en las muestras y de las condiciones bajo las cuales estas conclusiones son válidas. Se enfrenta básicamente con dos tipos de problemas:

7



Estimación, que puede ser puntual o por intervalos



Contraste de hipótesis.

El tamaño de la muestra es una característica a considerar para lograr una buena representatividad. Los procedimientos de selección de muestra o de muestreos basados en el azar (procedimientos aleatorios) son preferibles a los procedimientos de selección muestreos basado en el juicio del investigador sobre cuáles elementos considerar en la muestra y cuáles no. Los muestreos aleatorios son muestreos probabilísticos ya que es posible conocer la probabilidad que tiene cada muestra de ser seleccionada. En el muestreo aleatorio simple, uno de los más utilizados, todas las unidades tienen la misma posibilidad de formar parte de la muestra.

Estadística Descriptiva La descripción completa de una variable aleatoria está dada por su función densidad de probabilidad (fdp). Afortunadamente una gran cantidad de variables de muy diversos campos están adecuadamente descritas por unas pocas familias de fdps: binomial, Poisson, normal, gamma, etc. Dentro de cada familia, cada fdp está caracterizada por unos pocos parámetros, típicamente dos: media y varianza. Por tanto la descripción de una variable indicará la familia a que pertenece la fdp y los parámetros correspondientes. Ejemplo: (hipotético) la concentración de glucosa en sangre en individuos no diabéticos, medida en mg/dl, es normal con media 98 y varianza 90. El problema es ¿cómo averiguar la fdp de una variable de interés? La familia, generalmente, se sabe por resultados de la teoría de la probabilidad, aunque, en cada caso, conviene verificarlo. Para conocer los parámetros se deberían conocer los resultados de todos los posibles experimentos (población: conjunto de todos los valores de una variable aleatoria). Generalmente la población es inaccesible, bien es infinita, o aunque finita suficientemente grande para ser inabordable. En consecuencia, se estudian muestras (subconjuntos de la población) que, en caso de ser aleatorias, permiten realizar estimaciones tanto de la familia como de los parámetros de las fdps.

8

Muestra aleatoria: muestra elegida independientemente de todas las demás, con la misma probabilidad que cualquier otra y cuyos elementos están elegidos independientemente unos de otros y con la misma probabilidad. (Celis de la Rosa, 2014) Métodos gráficos de representación de muestras: El método gráfico más frecuente es el histograma. El histograma es una variedad especial de gráfico que, al igual que el diagrama de barras, utiliza columnas para mostrar la frecuencia con que las características se presentan, pero difiere en que las columnas no se separan y en que la escala horizontal es cuantitativa. Presenta las siguientes características: 1. El área de trazo está formada por un eje vertical, con escala discreta, y un eje horizontal, con escala cuantitativa discreta o continua. 2. El eje vertical corresponde a las frecuencias observadas, sean absolutas o relativas, y siempre empieza en cero. 3. En el eje horizontal, se anota la escala en que se midió la variable que se describe. No es indispensable que la escala empiece en cero. 4. Las barras se extienden desde el eje horizontal hasta que alcancen la frecuencia que representan. Su ancho es igual al intervalo de clase en que se agruparon los datos cuantitativos. Las barras no se separan, excepto cuando no existen elementos en la barra adyacente. 5. El área de cada barra es igual a la proporción que el número de elementos en ese intervalo de clase tiene en relación con el total de observaciones. (Balzarini, 2011)

9

1.2 Media Aritmética La media aritmética, o simplemente media o promedio, es una medida descriptiva de tendencia central cuyo único número resume una serie de valores a partir de los cuales se calcula. Se obtiene sumando todos los valores de una población y dividiendo el total entre el número de valores que se sumaron. E s e l s í m b o l o d e la m e d i a ar i t m é t i c a .

Ejemplo Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.

Media aritmética para datos agrupados Si los d a t o s vienen a g r u p a d o s en una tabla de frecuencias, la expresión de la m e d i a es:

10

Ejercicio de media aritmética En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que muestra la tabla 1. C a l c u l a l a p un t u a c i ó n m e d i a . (Celis de la Rosa, 2014)

Tabla 1 Ejercicio sobre la Media (Celis de la Rosa, 2014)

xi

fi

xi · fi

[10, 20)

15

1

15

[20, 30)

25

8

200

[ 3 0 , 4 0)

35

10

350

[40, 50)

45

9

405

[50, 60

55

8

440

[ 6 0 , 7 0)

65

4

260

[70, 80)

75

2

150

42

11

1

820

1.3 Mediana Todos nuestros datos en forma creciente o decreciente, la mediana es aquel valor que deja sobre sí el 50% (la mitad) de los datos y bajo sí el otro 50% (la otra mitad de los datos). La m e d i a n a se representa por M e . La m e d i a n a se puede h a l l a r sólo para va r i a b l e s c u a n t i t at i va s .

Cálculo de la mediana 1. O r d e n am o s los d a t os de m e n o r a m a yo r . 2. Si la serie tiene un n ú m e r o i m p a r d e m e d i da s la m e d i a n a es la p u n t u a c i ó n c e n t r a l de la misma. 2, 3, 4, 4, 5, 5, 5, 6, 6

Me = 5

3. Si la serie tiene un n ú m e r o p a r de puntuaciones la m e d i a n a es la m e d i a entre las dos p u n t u a c i o n e s c e nt r al e s . 7, 8, 9, 10, 11, 12

Me = 9 . 5

1.4 Moda La moda de una muestra es aquel valor de la variable que se presenta con mayor frecuencia, es decir, el que más se repite. Se representa por M o . Se puede hallar la m o da para va r i a b l e s c u a l i t a t i va s y c u a n t i t a t i va s . H a l l a r la m o d a de la distribución: 2, 3, 3, 4, 4, 4, 5, 5

Mo= 4

Si en un grupo hay d o s o va r i a s p u n t u a c i o n e s con la m i s m a f r ec u e n c i a y esa frecuencia es la máxima, la d i s t r i b u ci ó n es b i m o d a l o m u l t i m o d a l , es decir, tiene va r i a s m o d a s .

1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9

Mo= 1, 5, 9

Cuando todas las p u nt ua c i o n e s de un grupo tienen la m i sm a f r ec u e nc i a , n o hay m o d a . 2, 2, 3, 3, 6, 6, 9, 9 (Balzarini, Estadística y biometría, 2013)

12

PROPIEDADES DE LAS MEDIDAS DE TENDENCIA CENTRAL.

Propiedades de la media aritmética: 

Su cálculo es muy sencillo y en el intervienen todos los datos.



Su valor es único para una serie de datos dada.



Se usa con frecuencia para comparar poblaciones, aunque es más apropiada acompañarla de una medida de dispersión.



Se interpreta como punto de equilibrio de las masas del conjunto de datos.

Propiedades de la mediana: 

Es menos sensible que la media a oscilaciones de los valores de la variable.



Puede calcularse para datos agrupados en intervalos, incluso cuando uno de ellos no esta acotado.



No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética cuando la población es bastante heterogénea.

Propiedades de la moda: 

Calculo sencillo



Interpretación muy clara



Al depender solo de las frecuencias, puede calcularse para las variables cualitativas (García Ramos, Ramos González, & Ruiz Garzón, 2008)

1.5 Datos Simples Y Datos Agrupados Es aquella distribución en la que la disposición tabular de los datos estadísticos se encuentra ordenada en clases y con la frecuencia de cada clase; es decir, los datos originales de varios valores adyacentes del conjunto se combinan para formar un intervalo de clase. No existen normas establecidas para determinar cuándo es apropiado utilizar datos agrupados o datos no agrupados; sin embargo, se sugiere que cuando el número total de datos (N) es igual o superior 50 y además el rango o recorrido de la serie de datos es mayor de 20, entonces, se utilizará la distribución de frecuencia para datos agrupados, también se utilizará este tipo de distribución cuando se requiera elaborar gráficos lineales como el histograma, el polígono de frecuencia o la ojiva.

13

La razón fundamental para utilizar la distribución de frecuencia de clases es proporcionar mejor comunicación acerca del patrón establecido en los datos y facilitar la manipulación de los mismos. Los datos se agrupan en clases con el fin de sintetizar, resumir, condensar o hacer que la información obtenida de una investigación sea manejable con mayor facilidad. 1.6 Agrupamiento Por Intervalo

Los datos que pueden tener tantos decimales como se desee y que entre cada dos de ellos siempre puede haber otro, se llaman continuos. Al poder estar muy cerca unos de otros, no se pueden estudiar de uno en uno y se agrupan en intervalos.

Son continuos el peso, la estatura, el nivel de glucosa en la sangre, etc. Estos datos se suelen estudiar clasificados en intervalos: De 20 a 30 kg. , de 30 g a 40 g., de 120 cm. a 140 cm., etc. La primera operación que hay que aprender es la de agrupar datos. (Prieto Valiente, 2010)

1.7 Medidas de Dispersión

La dispersión de un conjunto de observaciones se refiere a la variedad que exhiben sus valores. Si todos los valores son los mismos, no existe dispersión; si no lo son, hay dispersión en los datos. La magnitud de la dispersión puede ser pequeña cuando los valores, aunque diferentes, están próximos entre sí. Si los valores están ampliamente “diseminados”, la dispersión es mayor. Las medidas de dispersión más frecuentes utilizadas son: el rango, desviación media y la varianza.

Las m e d i d a s d e d i s pe r s i ó n son:

1.8 Rango El rango es la diferencia entre el valor máximo y el mínimo de un conjunto de datos de una distribución estadística.

Desviación media La d e s vi a c i ó n

m e d i a es la m e d i a

d e s vi a c i o n e s respecto a la m e d i a .

14

a r i t m ét i c a de los va l o r e s

a b s o l u t o s de las

1.9 Varianza

La va r i a n za es la m e d i a a r i t m ét i c a del c u a d r a d o d e l a s de s vi a c i o n e s respecto a la media. La varianza se representa por

.

Varianza para datos agrupados

Para simplificar el c á l c u l o d e l a va r i a n za vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

Varianza para datos agrupados

(Ritchey, 2008)

Ejercicios de varianza Calcular la varianza de la distribución:

15

9 , 3, 8, 8, 9, 8, 9, 18

C A L C U L A R L A V A R I A N Z A d e l a d i st r i b uc i ó n d e l a t a b l a 2 : Tabla 2 Varianza (Ritchey, 2008)

xi

fi

xi · fi

xi2 · fi

[10, 20)

15

1

15

225

[20, 30)

25

8

200

5000

[ 3 0 , 4 0)

35

10

350

12 250

[40, 50)

45

9

405

18 225

[50, 60

55

8

440

24 200

[ 6 0 , 7 0)

65

4

260

16 900

[70, 80)

75

2

150

11 250

42

1 820

88 050

16

Desviación típica o estándar

La varianza se expresa en unidades cuadradas que son difíciles de interpretar. Una medida de dispersión expresada en las unidades originales es la desviación típica o desviación estándar, que es igual a la raíz cuadrada de la varianza. La d e s vi a c i ó n t í p i c a se representa por σ.

Desviación típica para datos agrupados

Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

Desviación típica para datos agrupados

( R i t c h e y, 2 0 0 8 )

17

1 . 1 0 E j e r c i ci o s Pr op u e s t o s Calcular la d e s vi a c i ó n t í p i c a de la distribución: 9 , 3, 8, 8, 9, 8, 9, 18

C a l c u l a r l a d e s vi a c i ó n t í pi c a d e l a d i s t r i b u c i ó n d e l a t a b l a 3 : Tabla 3 Datos para ejercicio de desviación típica

xi

fi

xi · fi

xi2 · fi

[10, 20)

15

1

15

225

[20, 30)

25

8

200

5000

[ 3 0 , 4 0)

35

10

350

12 250

[40, 50)

45

9

405

18 225

[50, 60)

55

8

440

24 200

[ 6 0 , 7 0)

65

4

260

16 900

[70, 80)

75

2

150

11 250

42

1 820

88 050

(Ritchey, 2008)

(Ritchey, 2008)

18

Actividades de Aprendizaje de la Unidad I 

Síntesis en Power Point titulado Las Medidas de Tendencia Central.



Realiza Ejercicios correspondientes al tema

Medidas de Tendencia Central, sustituyendo

valores en fórmulas. 

Participa en el foro “Medidas de Tendencia Central y Dispersión”



Resuelve cuestionario de la unidad I

Síntesis de la Unidad I

El abordar éste tema nos permite comprender el uso de la estadística, en este caso bioestadística, en el ámbito médico. Nos brinda el tener un panorama más amplio sobre la estadística, la cuál se basa en información obtenida

en encuestas de muestras poblacionales que representan un todo.

Asimismo se da a conocer las herramientas más importantes para la elaboración de tendencias en los análisis estadísticos básicos.

19

UNIDAD II COEFICIENTE DE CORRELACIÓN Y REGRESION LINEAL

Objetivo de la Unidad

Analizar e interpretar los resultados obtenidos.

2.1 Regresión Lineal.

Según Pearson, se define como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas. (Álvarez Alva, 2002)

Regresión lineal El objeto de un análisis de regresión es investigar la relación estadística que existe entre una variable dependiente (Y) y una o más variables independientes (

).

2.2 .Interpretación de la Ecuación de regresión Lineal Simple Para poder realizar esta investigación, se debe postular una relación funcional entre las variables. Debido a su simplicidad analítica, la forma funcional que más se utiliza en la práctica es la relación lineal. Cuando solo existe una variable independiente, esto se reduce a una línea recta: Donde los coeficientes b0 y b1 son parámetros que definen la posición e inclinación de la recta. (Nótese que hemos usado el símbolo especial

para representar el valor de Y calculado por la

recta. Como veremos, el valor real de Y rara vez coincide exactamente con el valor calculado, por lo que es importante hacer esta distinción.) El parámetro b0, conocido como la "ordenada en el origen," nos indica cuánto es Y cuando X = 0. El parámetro b1, conocido como la "pendiente," nos indica cuánto aumenta Y por cada aumento de una unidad en X. Nuestro problema consiste en obtener estimaciones de estos coeficientes a partir de una muestra de observaciones sobre las variables Y y X. En el análisis de regresión, estas estimaciones se obtienen por medio del método de mínimos cuadrados.

20

El método de mínimos cuadrados consiste en calcular los parámetros de la variable independiente X, y anotando en cada caso el correspondiente valor medio para la variable dependiente Y de la curva ó línea seleccionada (X1,Y1)……(Xn,Yn) utilizando como criterio la minimización de la suma de los cuadrados de los residuos ó errores. Que representados gráficamente, deberían caer sobre una línea recta. (Díaz Portillo, 1992)

Diagrama de Dispersión Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de 2 variables para un conjunto de datos.

Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical. Un diagrama de dispersión se llama también gráfico de dispersión.

Ejemplo

Figura 1. http://blog.espol.edu.ec/nemo/2010/12/03/creando-grafico-dispersion-ggplot2-part1/ (Montaño, 2010)

21

En éste gráfico se está representando los datos de peso y altura de una muestra poblacional, en donde podemos observar que pese a la distribución de los puntos, existe una tendencia hacia una línea recta.

Ejemplo La Tabla 4, muestra las pérdidas de peso medias, observadas en 9 grupos de 25 escarabajos Tribolium, después de 6 días de ser sometidos a distintos grados de humedades relativas. Se trata de estudiar la relación lineal entre ambas variables y predecir la pérdida de peso media de los escarabajos en función de la humedad.

Tabla 4

http://www.uv.es/framarru/estCCAA_0809_archivos/practica5.PDF (Valencia, 2015)

22

En primer lugar podemos realizar un gráfico de dispersión (figura 2) para ver cómo varía el peso medio en función de la humedad.

Figura 2

http://www.uv.es/framarru/estCCAA_0809_archivos/practica5.PDF (Valencia, 2015)

Observamos que cuanto mayor es la humedad, menor es la pérdida de peso, además los puntos del gráfico se ajustan bastante bien a una recta. Por lo que podemos pensar en el modelo lineal , la variable humedad

relativa,

representará la pérdida de peso y la variable independiente

notemos

que

en

este

caso

no

hay

otra

http://www.uv.es/framarru/estCCAA_0809_archivos/practica5.PDF (Valencia, 2015)

23

la

alternativa.

2.3 Intensidad de una Regresión Lineal Simple

El término regresión fue introducido por Francis Galton en su libro Natural inheritance (1889) y fue confirmado por su amigo Karl Pearson. Su trabajo se centró en la descripción de los rasgos físicos de los descendientes (variable Y) a partir de los de sus padres (variable X). Estudiando la altura de padres e hijos a partir de más de mil registros de grupos familiares, se llegó a la conclusión de que los padres muy altos tenían una tendencia a tener hijos que heredaban parte de esta altura, pero que revelaban también una tendencia a regresar a la media.

El modelo de regresión simple se define por:

El coeficiente de determinación, por otro lado, mide el porcentaje de la variación total en Y que es explicado por la variación conjunta de las variables independientes. (Balzarini M. , Estadística y biometría, 2013)

Para poder interpretar adecuadamente una regresión lineal es necesario que se respeten los siguientes supuestos: 1. Y es una variable aleatoria. 2. Para cada valor de X existe una sub población de valores de Y que tienen una distribución normal. 3. Todas las sub poblaciones de Y tienen la misma varianza. 4. Las medias de las sub poblaciones de Y forman una línea recta en la gráfica de correlación, lo que se representa mediante la fórmula

5. La variable X puede o no ser aleatoria, pero se mide sin error. (Celis de la Rosa, 2014)

24

Ejemplo Imaginemos un análisis de regresión con “salario” como variable dependiente y “salini” (salario inicial) y “expprev” (experiencia previa) como variables independientes. La figura 3 muestra el diagrama de dispersión de salario sobre salini y expprev, y el plano de regresión en un plano tridimensional.

Figura 3 Diagrama de dispersión de salario sobre salini y expprev

http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis_datosyMultivariable/18reglin _SPSS.pdf (Departamento de Materiales y Análisis de Datos, 2015)

Con una variable dependiente y dos independientes, necesitamos 3 ejes para poder representar el correspondiente diagrama de dispersión. Y si en lugar de usar dos variables independientes

25

utilizaríamos tres, sería necesario un espacio

de cuatro dimensiones para poder construir el

diagrama de dispersión. Y un espacio de cinco dimensiones para poder construir

el diagrama

correspondiente a 4 variables independientes, etc.

Por lo tanto, con más de una variable independiente, la representación grafica de las relaciones presentes en un modelo de regresión resulta poco intuitiva, muy complicada y poco útil. http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis_datos yMultivariable/18reglin_SPSS.pdf (Departamento de Materiales y Análisis de Datos, 2015)

2.4 Correlación Lineal Simple

En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos variables aleatorias. Así, por ejemplo, podemos preguntarnos si hay alguna relación entre las notas de la asignatura Estadística I y las de Matemáticas I. Una primera aproximación al problema consistiría en dibujar en el plano de dispersión un punto por cada alumno: la primera coordenada de cada punto sería su nota en estadística, mientras que la segunda sería su nota en matemáticas. Así, obtendríamos una nube de puntos la cual podría indicarnos visualmente la existencia o no de algún tipo de relación (lineal, parabólica, exponencial, etc.) entre ambas notas.

Otro ejemplo, consistiría en analizar la facturación de una empresa en un periodo de tiempo dado y de cómo influyen los gastos de promoción y publicidad en dicha facturación. Si consideramos un periodo de tiempo de 10 años, una posible representación sería situar un punto por cada año de forma que la primera coordenada de cada punto sería la cantidad en euros invertidos en publicidad, mientras que la segunda sería la cantidad en euros obtenidos de su facturación. De esta manera, obtendríamos una nube de puntos que nos indicaría el tipo de relación existente entre ambas variables.

En particular, nos interesa cuantificar la intensidad de la relación lineal entre dos variables. El parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de Pearson cuyo valor oscila entre –1 y +1. (Celis de la Rosa, 2014)

26

2.5 Cálculo del Coeficiente de Correlación

El coeficiente de correlación habla de la relación lineal entre dos variables en una población bivariante. Puede asumir valores entre -1 y +1. Si la relación entre dos variables es perfectamente lineal e inversa, r = –1. Si es lineal y directa, r = 1. Cuando las dos variables no están correlacionadas, r = 0. Mientras más cerca esté el valor numérico del coeficiente de correlación a 1, indistintamente del signo, más estrecha será la relación entre las dos variables. El coeficiente de correlación poblacional se representa con la letra griega l, y su estadístico, r, se calcula mediante la ecuación:

El coeficiente de correlación (r) es un número que indica el grado o intensidad de asociación entre las variables X e Y. Su valor varía entre -1 y +1; esto es: -1 ≤ r ≤ 1.

Si r=-1, la asociación es perfecta pero inversa; es decir, a valores altos de una variable le corresponde valores bajos a la otra variable, y viceversa.

Si r=+1, también la asociación es perfecta pero directa.

Si r=0, no existe asociación entre las dos variables.

Luego puede verse que a medida que r se aproxime a -1 ó +1 la asociación es mayor, y cuando se aproxima a cero la asociación disminuye o desaparece. (Celis de la Rosa, 2014)

27

2.6 Interpretación Para interpretar el coeficiente de correlación utilizamos la siguiente escala (Tabla 5) Valor

-1

Significado

Correlación

negativa

grande

y

perfecta

-0,9 a -0,99

Correlación negativa muy alta

-0,7 a -0,89

Correlación negativa alta

-0,4 a -0,69

Correlación negativa moderada

-0,2 a -0,39

Correlación negativa baja

-0,01 a -0,19 Correlación negativa muy baja

0

Correlación nula

0,01 a 0,19

Correlación positiva muy baja

0,2 a 0,39

Correlación positiva baja

0,4 a 0,69

Correlación positiva moderada

0,7 a 0,89

Correlación positiva alta

0,9 a 0,99

Correlación positiva muy alta

1

Correlación

positiva

grande

y

perfecta

http://www.monografias.com/trabajos85/coeficiente-correlacion-karl-pearson/coeficiente-correlacion-karl-pearson.shtml (Suárez Ibujes, 2015)

28

2.7 Ejercicios Propuestos

Calcular el coeficiente de correlación de la siguiente serie de datos (Tabla 6) de altura y peso de los alumnos de una clase:

Tabla 6

http://www.aulafacil.com/CursoEstadistica/Lecc-12-est.htm (Aula Facil.com, 2015)

Si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el alumno, mayor será su peso.

Si representáramos en un gráfico (Figura 4) los pares de valores de las dos variables la nube de puntos se aproximaría a una recta.

Relación lineal

Relación exponencial

Figura 4 http://www.aulafacil.com/CursoEstadistica/Lecc-12-est.htm (Aula Facil.com, 2015)

29

Sin relación

Sin embargo, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación las variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar los pares de valores en un gráfico y ver qué forma describe. El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:

Los valores que puede tomar el coeficiente de correlación “r” son: -1 < r < 1 Si “r” > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La correlación es tanto más fuerte cuando se aproxime a 1. Por ejemplo: altura y peso, los alumnos más altos suelen pesar más. Si “r < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlación negativa es tanto más fuerte cuanto más se aproxime a -1. Por ejemplo: Peso y velocidad, los alumnos más gordos suelen correr menos. Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de correlación (parabólica, exponencial, etc.) De todos modos, aunque el valor de "r" fuera próximo a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relación de causa-efecto entre las dos variables, ya que este resultado podría haberse debido al puro azar. Aplicando la formula tenemos que, r = 0,719 Por lo tanto, la correlación existente entre estas dos variables es elevada (0,7) y de signo positivo. http://www.aulafacil.com/CursoEstadistica/Lecc-12-est.htm (Aula Facil.com, 2015)

30

Actividades de Aprendizaje de la Unidad II

1. Elabora Síntesis en Power Point del tema Correlación entre dos Variables. 2. Realiza los Ejercicios de las Actividades de Aprendizaje correspondientes al tema Coeficiente de Correlación, sustituyendo valores en fórmulas. 3. Participa en el foro “Coeficiente de Correlación y Regresión Lineal”. 4. Resuelve cuestionario de la unidad.

Síntesis de la Unidad II

En la presente unidad se muestra la importancia de la correlación entre dos variables distintas. El alumno entiende que encontrar cierto grado de relación entre dos variables cuantitativas distintas de si, tiene una enorme aplicación en la investigación médica y muchas otras actividades. Así como también en el transcurso de la unidad se explican las herramientas para el cálculo de dichas correlaciones.

31

UNIDAD III TÉCNICAS DE ANÁLISIS ESTADÍSTICOS

Objetivo de la Unidad

Analizar la hipótesis comprobada.

3.1 Relación de Análisis e Interpretación

Una de las etapas más relevantes en el proceso de Investigación, es el análisis e interpretación de los resultados; con el apoyo de las técnicas estadísticas es posible hacer predicciones, mismas que son consideradas como herramientas básicas para la toma de decisiones.

La Teoría de Correlación y regresión es con el propósito de que ejerciten su aplicación en las formas manual y electrónica, de manera que cuenten con elementos para los avances de su trabajo de investigación.

El propósito del análisis es resumir las observaciones llevadas a cabo de forma tal que proporcionen respuesta a las interrogantes de la investigación. La interpretación, más que una operación distinta, es un aspecto especial del análisis su objetivo es buscar un significado más amplio a las respuestas mediante su tropiezo con otros conocimientos disponibles. (Dawson, 2011)

3.2 El Test T. En estadística, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la que el estadístico utilizado tiene una distribución t de Student si la hipótesis nula es cierta. Se aplica cuando la población estudiada sigue una distribución normal pero el tamaño muestral es demasiado pequeño como para que el estadístico en el que está basada la inferencia esté normalmente distribuido, utilizándose una estimación de la desviación típica en lugar del valor real. Es utilizado en análisis discriminante. Los Test estadísticos ayudan

a saber cuánto NO vale el valor poblacional en que estamos

interesados. (Prieto Valiente, 2010)

32

Entre los usos más frecuentes de las pruebas T se encuentran: 

El test de locación de muestra única por el cual se comprueba si la media de una población distribuida normalmente tiene un valor especificado en una hipótesis nula.



El test de locación para dos muestras, por el cual se comprueba si las medias de dos poblaciones distribuidas en forma normal son iguales. Todos estos test son usualmente llamados test t de Student, a pesar de que estrictamente hablando, tal nombre sólo debería ser utilizado si las varianzas de las dos poblaciones estudiadas pueden ser asumidas como iguales; la forma de los ensayos que se utilizan cuando esta asunción se deja de lado suelen ser llamados a veces como Prueba t de Welch. Estas pruebas suelen ser comúnmente nombradas como pruebas t desapareadas o de muestras independientes, debido a que tienen su aplicación más típica cuando las unidades estadísticas que definen a ambas muestras que están siendo comparadas no se superponen.



El test de hipótesis nula por el cual se demuestra que la diferencia entre dos respuestas medidas en las mismas unidades estadísticas es cero. Por ejemplo, supóngase que se mide el tamaño del tumor de un paciente con cáncer. Si el tratamiento resulta efectivo, lo esperable seria que el tumor de muchos pacientes disminuyera de tamaño luego de seguir el tratamiento. Esto con frecuencia es referido como prueba t de mediciones apareadas o repetidas. (Prieto Valiente, 2010)

EJEMPLO. La compañía USALUZ produce focos. El presidente de la Cía. dice que sus focos duran 300 días. Entonces la competencia va a varios (nótese) supermercados y compra15 focos para probar esa afirmación. Los focos de la muestra duran en promedio290 días con una desviación estándar de 50 días. Entonces, si quieren desmentir al presidente de USALUZ necesita saber cual es la probabilidad de de que 15 focos seleccionados al azar tengan una vida promedio no mayor de 290 días. La solución de este tipo de problemas requiere calcular el valor t basado en los datos y después usar una tabla de distribución t para encontrar la probabilidad. (Sitio Web de Geociencias UNAM, 2015)

33

Solución. Primero necesitamos calcular el valor “t” usando la formula:

Donde

es la media de la muestra,

Desviación estándar de la muestra y

la media poblacional,

es la

el tamaño de la muestra.

(Sitio Web de Geociencias UNAM, 2015)

Usando la tabla de T Student (Prieto Valente, 2010) ó para una mayor exactitud la T Distribution Calculator (www.stattrek.com, 2015) Usando esta última seleccionamos “T-Score” del menú de “Random Variable” e introducimos los datos: *Grados de libertad (v): 15-1 = 14 *El valor de “t” que obtuvimos = -0.7746

El resultado que nos proporciona es 0.2257. Esto significa que si la verdadera vida de un foco es de 300 días, hay una probabilidad de 22.6% de que la vida promedio de 15 focos seleccionados al azar sea menor o igual a 290 días. (Sitio Web de Geociencias UNAM, 2015) 3.3. Análisis de Varianza

Es una técnica estadística que nos permite, entre otras cosas, comparar dos o más medias de forma simultánea. El análisis de la varianza plantea el problema como un modelo matemático, en el cual la variable dependiente es la variable cuantitativa, y la variable independiente es la variable cualitativa, también llamada factor.

34

El análisis de la varianza se basa en que, si existen diferencias significativas entre las medias de cada grupo, la varianza entre grupos se verá incrementada y por lo tanto será significativamente distinta y mayor que la varianza dentro de grupos. Al análisis de la varianza se le conoce casi universalmente por las siglas ANOVA, que corresponden a su nombre en inglés (ANALISYS OF VARIANCE). El modelo matemático de ANOVA se basa en descomponer la diferencia observada entre un elemento y la media global en dos partes: 

Entre grupos, debida al efecto de grupo (si es que lo hay), esta fracción de la variabilidad es la explicada por la variable independiente.



Dentro de grupos debida a todas las demás causas, que pueden ser efectos de otras variables no controladas por el modelo.

De acuerdo a Ricard Boque, El análisis de la varianza (ANOVA) es una potente herramienta estadística, de gran utilidad tanto en la industria, para el control de procesos, como en el laboratorio de análisis, para el control de métodos analíticos. (Álvarez Cáceres, 2008)

3.4 El Xi Cuadrado

Se define como una distribución de probabilidad continua con un parámetro que representa los grados de libertad de la variable aleatoria. En realidad la distribución ji-cuadrada es la distribución muestral de s2. O sea que si se extraen todas las muestras posibles de una población normal y a cada muestra se le calcula su varianza, se obtendrá la distribución muestral de varianzas. (Díaz Narvaéz, 2009) Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el estadístico X2. Si se elige una muestra de tamaño n de una población normal con varianza

35

, el estadístico:

Tiene una distribución muestral que es una distribución ji-cuadrada con gl=n-1 grados de libertad y se denota X2 (X es la minúscula de la letra griega ji). El estadístico ji-cuadrada esta dado por:

Donde n es el tamaño de la muestra, s2 la varianza muestral y

la varianza de la población de

donde se extrajo la muestra. El estadístico ji-cuadrada también se puede dar con la siguiente expresión:

Propiedades de las distribuciones ji-cuadrada 1. Los valores de X2 son mayores o iguales que 0. 2. La forma de una distribución X2 depende del gl=n-1. En consecuencia, hay un número infinito de distribuciones X2. 3. El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1. 4. Las distribuciones X2 no son simétricas. Tienen colas estrechas que se extienden a la derecha; esto es, están sesgadas a la derecha. 5. Cuando n>2, la media de una distribución X2 es n-1 y la varianza es 2(n-1). 6. El valor modal de una distribución X2 se da en el valor (n-3). (Díaz Narvaéz, 2009) EJEMPLO Suponga que los tiempos requeridos por un cierto autobús para alcanzar un de sus destinos en una ciudad grande forman una distribución normal con una desviación estándar

=1 minuto. Si se elige

al azar una muestra de 17 tiempos, encuentre la probabilidad de que la varianza muestral sea mayor que 2.

36

Solución: Primero se encontrará el valor de ji-cuadrada correspondiente a s2=2 como sigue:

El valor de 32 se busca adentro de la tabla 7 de PERCENTILES DE DISTRIBUCION (Celis de la Rosa, 2014) en el renglón de 16 grados de libertad y se encuentra que a este valor le corresponde un área a la derecha de 0.01.

Tabla 7 (Celis de la Rosa, 2014)

37

En consecuencia, el valor de la probabilidad es P(s2>2)

Figura 5 (Celis de la Rosa, 2014)

3.5 Pruebas de Hipótesis La hipótesis se define simplemente como una proposición acerca de una ó más poblaciones y que motiva a la investigación.

Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste involucra la toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o no una hipótesis en favor de la otra. Una hipótesis estadística se denota por “H” y son dos:

- Ho: hipótesis nula - H1: hipótesis alternativa

Partes de una hipótesis:

1. Hipótesis - La hipótesis nula “Ho”

Se refiere siempre a un valor específico del parámetro de la población, no a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia. Por lo general hay un “no” en la hipótesis nula que indica que “no hay cambio” Podemos rechazar o aceptar Ho. Por lo tanto la hipótesis nula es una afirmación que no se rechaza a menos que los datos muestrales proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula siempre contiene un signo de igualdad con respecto al valor especificado del parámetro. - La hipótesis alternativa “H1”

38

Es cualquier hipótesis que difiera de la hipótesis nula. Es una afirmación que se acepta si los datos muestrales proporcionan evidencia suficiente de que la hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado del parámetro.

2. Nivel de significancia Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota mediante la letra griega α, también es denominada como nivel de riesgo, este término es más adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera.

La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula. Estos valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa la región de no rechazo de la de rechazo. Errores tipo I y II Error tipo l se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de hecho es falsa y debía ser rechazada.

3. Estadístico de prueba Valor determinado a partir de la información muestral, que se utiliza para determinar si se rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso utilizaremos los estadísticos z y t. La elección de uno de estos depende de la cantidad de muestras que se toman, si las muestras son iguales a 30 o mas se utiliza el estadístico z, en caso contrario se utiliza el estadístico t. (Wayne W, 2008)

39

3.6. Solución de Ejercicios

Supóngase que un investigador está interesado en el peso al nacer de una población en la cual se sospecha que el promedio está por arriba de lo que se ha reportado. Para probar su hipótesis, desea medir el peso de los que nacieron en el transcurso del último año. El investigador asume que el peso promedio al nacer es 3 300 g y que su desviación estándar es 500 g. 1. Planteamiento de la hipótesis. , o “el peso promedio al nacer en la población de interés es menor o igual a 3,300 g”. , o “el peso promedio al nacer en la población de interés es mayor de 3,300 g”. 2. Selección del nivel de significancia. 3.

= 0.05.

Descripción de la población que interesa y planteamiento de los supuestos necesarios: a. Se sabe que los valores que adquiere la variable peso al nacer se distribuyen normalmente en la población de interés. b. Se conoce la varianza poblacional.

4. Selección del estadístico pertinente. Media muestral, 5. Especificación del estadístico de prueba y consideración de su distribución. El estadístico de prueba es z, que se distribuye normalmente con media igual a cero y desviación estándar igual a uno.

6. Especificación de las regiones de rechazo y aceptación. El valor crítico de la prueba, que define las regiones de rechazo y aceptación, se localiza de la siguiente manera: a) Se pone atención a qué tipo de prueba se realiza:

. Como se

trata de una prueba de una cola, la región de rechazo se encuentra en un extremo de la curva normal. b) Se recuerda que para esta prueba

= 0.05.

c) Entonces, el interés se ubica en una región de rechazo que consta de aquella parte de la distribución normal que se localiza en la derecha de la curva de distribución z, la cual incluye todos los valores de z tales que,

40

cuando

es verdadera, la probabilidad de ocurrencia aleatoria de una z de

ese tamaño o mayor es igual o menor de 0.05. d) Con lo anterior, y mediante el apoyo de la tabla 8, de distribución normal del anexo ¨B¨ (Celis de la Rosa, 2014) , se procede de la siguiente manera: i.

A la probabilidad de que el resultado sea mayor que la media de

referencia

(3,300

g)

se

le

resta

el

valor

de

(0.50-0.05=0.45); ii.

El valor resultado (0.4500) se busca en el cuerpo del cuadro de distribución normal del anexo B (Tabla 8). Dado que el valor 0.4500 no se encuentra en la tabla, entonces se extrapolan los valores z para los valores más próximos. Así, ya que el valor de z correspondiente a 0.4495 es 1.64, y que el valor de z para 0.4505 es 1.65, el valor de z para 0.4500 debe ser 1.645.

Tabla 8

(Celis de la Rosa, 2014)

41

e) Una vez obtenido el valor crítico, éste define las regiones de rechazo y aceptación. En la figura 6, la región de rechazo se representa de color, mientras que la región de aceptación la constituye el resto del área que se encuentra por debajo de la curva normal.

(Celis de la Rosa, 2014) Fig. 6 Regiones de rechazo y aceptación para ejemplo explicativo.

7. Recolección de datos y cálculo de los estadísticos necesarios. Después de estudiar a los 10 niños que nacieron en la población, el investigador encuentra en ellos que el promedio del peso al nacer es de 3 250 g. Para saber qué valor de z corresponde a un promedio de g, cuando la población se distribuye normalmente con

= 3 300 g y

3,550

= 500 g, bajo el

supuesto de la hipótesis nula, se realiza la siguiente ecuación:

8. Decisión estadística. Dado que el valor z calculado en el punto anterior es inferior al valor z tabulado en el punto 6, el resultado encontrado por el investigador en el grupo estudiado se localiza en la región de aceptación de la hipótesis nula, por lo que ésta no se rechaza. 9. Conclusión. Se concluye que “la diferencia observada no es estadísticamente significativa (p > 0.05)”. (Celis de la Rosa, 2014)

42

Actividades de Aprendizaje de la Unidad III 1. Presentación en Power Point sobre el “Análisis de Varianza” 2. Participa en el foro “Técnicas de Análisis Estadístico”. 3. Resuelve cuestionario de la unidad.

Síntesis de la Unidad III

En ésta unidad se lleva a cabo la explicación de los distintos métodos de distribución que nos llevan a interpretar correctamente los resultados de una investigación estadística para la mejor toma de decisiones, en el entendido que los resultados no debe ir exentos del sentido común y más tratándose del área médica.

43

BIBLIOGRAFIA Y FUENTES CONSULTADAS

Aula Facil.com. (2015). Recuperado el 2015, de http://www.aulafacil.com/CursoEstadistica/Lecc-12est.htm Departamento de Materiales y Análisis de Datos. (2015). Recuperado el 2015, de http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis _datosyMultivariable/18reglin_SPSS.pdf Sitio Web de Geociencias UNAM. (2015). Recuperado el 2015, de http://www.geociencias.unam.mx/~ramon/EstInf/Clase7.pdf www.stattrek.com. (2015). Recuperado el 2015, de http://stattrek.com/online-calculator/tdistribution.aspx Álvarez Alva, R. (2002). Salud Pública y Medicina Preventiva. México: Manual Moderno. Álvarez Cáceres, R. (2008). Estadística multivariante y no paramétrica con SPSS: aplicación a las ciencias de la salud. México: Ediciones Díaz de Santos. Balzarini, M. (2013). Estadística y biometría. México: Editorial Brujas. Balzarini, M., Tablada, M., & González, L. (2011). Introducción a la Bioestadística. México: Brujas. Celis de la Rosa, A. d. (2014). Bioestadística (3era. Edición). México: El Manual Moderno. Dawson, G. F. (2011). Interpretración Fàcil de la Bioestadística. España: Sciences. Díaz Narvaéz, V. P. (2009). Metodología de la Investigación científica y estadística para médicos, odontólogos y estudiantes de la salud. México: RIL editores. Díaz Portillo, J. (1992). Guía Práctica del curso de Bioestadística Aplicada a las Ciencias de la Salud. México: Instituto Nacional de Gestión Sanitaria. García Ramos, J. A., Ramos González, C. D., & Ruiz Garzón, G. (2008). Estadística administrativa. Cádiz, España: Servicio de Publicaciones de la Universidad de Cádiz. Guerra Bustillo, C. W., Menéndez Acuña, E., & Barrero Morera, R. (2011). Estadística. México: Editorial Félix Varela. Montaño, N. (03 de Diciembre de 2010). Gráfico de Dispersión. Recuperado el 24 de febrero de 2015, de http://blog.espol.edu.ec/nemo/2010/12/03/creando-grafico-dispersion-ggplot2-part1/ Prieto Valiente, L. (2010). Bioestadísticas sin dificultades matemáticas en base de tesoros perdidos. México: Díaz Santos. Ritchey, F. J. (2008). Estadísticos para las ciencias sociales. Mèxico: McGraw Hill Interamericana.

44

Suárez Ibujes, M. O. (2015). Monografías. Recuperado el 2015, de http://www.monografias.com/trabajos85/coeficiente-correlacion-karl-pearson/coeficientecorrelacion-karl-pearson.shtml Valencia, U. d. (2015). Pràcticas de Estadìstica. Recuperado el 2015, de http://www.uv.es/framarru/estCCAA_0809_archivos/practica5.PDF Wayne W, D. (2008). Bioestadística. Base para el análisi de las ciencias de la salud. México: Limusa Wiley.

45