Unidad 1 Estadistica Descriptiva

UNIDAD 1 ESTADISTICA DESCRIPTIVA Competencias específicas a desarrollar: Comprende los conceptos básicos de la estadísti

Views 178 Downloads 2 File size 749KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

UNIDAD 1 ESTADISTICA DESCRIPTIVA Competencias específicas a desarrollar: Comprende los conceptos básicos de la estadística descriptiva para el análisis, organización y presentación de datos Antecedentes: Hoy en día, la estadística es una ciencia que se encarga de estudiar una determinada población por medio de la recolección, recopilación e interpretación de datos. Del mismo modo, también es considerada una técnica especial apta para el estudio cuantitativo de los fenómenos de masa o colectivo. Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas. 

La estadística se divide en dos grandes áreas:



Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.

Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. Su objetivo es obtener conclusiones útiles para lograr hacer deducciones acerca de la totalidad de todas las observaciones hechas, basándose en la información numérica.

Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada, pero la estadística inferencial, por su parte, se divide en estadística paramétrica y estadística no paramétrica. Existe también una disciplina llamada estadística matemática, la que se refiere a las bases teóricas de la materia. La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas criminales, etc.

1.1 Conceptos básicos de estadística Existen muchas definiciones de Estadística, pero en síntesis la podemos definir como la ciencia rama de la Matemática que se ocupa de recolectar, organizar, presentar, analizar e interpretar información cuantitativa para obtener conclusiones válidas, solucionar problemas, predecir fenómenos y ayudar a una toma de decisiones más efectivas. APLICACIONES La Estadística anteriormente sólo se aplicaba a los asuntos del Estado, pero en la actualidad la utilizan las compañías de seguros, empresarios, comerciantes, educadores, etc. No hay campo de la actividad humana que no requiera del auxilio de esta ciencia, así por ejemplo: 



  

 

El educador mediante la estadística podrá conocer si un estudiante lee muy bien o regular, si la asistencia es normal o irregular, si la estatura está en relación con la edad, media aritmética de rendimiento escolar en un período determinado, etc. El hombre de negocios realiza encuestas estadísticas para determinar la reacción de los consumidores frente a los actuales productos de la empresa y en el lanzamiento de los nuevos. El economista emplea una amplia gama de estadísticas para estudiar los planes de los consumidores y efectuar pronósticos sobre las tendencias de las actividades económicas El gerente de una empresa eléctrica proporciona un buen servicio a la comunidad mediante la variación estacional de las necesidades de carga El sociólogo trata de auscultar la opinión pública mediante encuestas, para determinar su preferencia por un candidato presidencial, o su posición frente a determinados problemas económicos, políticos o sociales El geólogo utiliza métodos estadísticos para determinar las edades de las rocas El Genetista determina las semejanzas entre los resultados observados y esperados en una experiencia genética se determina estadísticamente

OBJETIVOS 





Describir numéricamente las características de los conjuntos de observaciones. Esta etapa consiste en recopilar, organizar, tabular y presentar gráficamente los datos, proporcionando una visión cuantitativa de los fenómenos observados. Analizar los datos de manera objetiva con el fin de disponer de un concepto claro de universo o población y adoptar decisiones basadas en la información proporcionada por los datos de la muestra. Estimar o predecir lo que sucederá en el futuro con un fenómeno de una manera relativamente aceptable, así por ejemplo, podemos estimar cuál será la población del país dentro de un determinado número de años conociendo la actual.

MÉTODOS 



Recopilación.- Consiste en la obtención de datos relacionados con el problema motivo de estudio, utilizando instrumentos, tales como: cuestionarios, entrevistas, informes, memorias, etc. Organización.- Consiste en realizar una crítica, corrección, clasificación y tabulación de los datos obtenidos en el paso anterior.







Presentación.- Consiste en mostrar datos de manera significativa y descriptiva. Los datos deben colocarse en un orden lógico que revele rápida y fácilmente el mensaje que contienen. La presentación se la puede hacer a través de gráficos estadísticos. Análisis.- Consiste en descomponer el fenómeno en partes y luego examinar cada una de ellas con el objetivo de lograr una explicación, haciendo uso, en su mayoría, de los cálculos matemáticos. Interpretación.- Consiste en un proceso mental, mediante el cual se encuentra un significado más amplio de los datos estadísticos con el objetivo de llegar a conclusiones para la toma de decisiones y solución de problemas.

POBLACIÓN Llamado también universo o colectivo es el conjunto de todos los elementos que tienen una característica común. Una población puede ser finita o infinita. Es población finita cuando está delimitada y conocemos el número que la integran, así por ejemplo: Estudiantes de la Universidad ITSL. Es población infinita cuando a pesar de estar delimitada en el espacio, no se conoce el número de elementos que la integran, así por ejemplo: Todos los profesionales universitarios que están ejerciendo su carrera. MUESTRA Es un subconjunto de la población. Ejemplo: Estudiantes de 2do Semestre de la Universidad. Sus principales características son:  

Representativa.- Se refiere a que todos y cada uno de los elementos de la población tengan la misma oportunidad de ser tomados en cuenta para formar dicha muestra. Adecuada y válida.- Se refiere a que la muestra debe ser obtenida de tal manera que permita establecer un mínimo de error posible respecto de la población.

Para que una muestra sea fiable, es necesario que su tamaño sea obtenido mediante procesos matemáticos que eliminen la incidencia del error. Para calcular el tamaño de la muestra suele utilizarse la siguiente fórmula:

Donde: n = el tamaño de la muestra. N = tamaño de la población. Desviación estándar de la población que, generalmente cuando no se tiene su valor, suele utilizarse un valor constante de 0,5. Z = Valor obtenido mediante niveles de confianza. Es un valor constante que, si no se tiene su valor, se lo toma en relación al 95% de confianza equivale a 1,96 (como más usual) o en relación al 99% de confianza equivale 2,58, valor que queda a criterio del encuestador. e = Límite aceptable de error muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador.

Ejemplo ilustrativo: Calcular el tamaño de la muestra de una población de 1000 elementos. Solución: Se tiene N=1000, y como no se tiene los demás valores se tomará o=0,5, Z = 1,96 y e = 0,05. Reemplazando valores en la fórmula se obtiene:

1.2 DESCRIPCION DE DATOS El dato estadístico es un conjunto de valores numéricos que tienen relación entre sí, estos pueden ser comparados, analizados e interpretados en una investigación, se pude afirmar que son las expresiones numéricas obtenidas como consecuencia de observar a un individuo de la población. La estadística descriptiva es una parte de la estadística que se dedica a analizar y representar los datos, otras ramas de la estadística se centran en el contraste de hipótesis y su generalización a la población.

En el estudio de los datos se lleva a cabo una serie de medidas de tendencia central, para ver en qué medida los datos se agrupan o dispersan en torno a un valor central. Los datos son colecciones de un número cualquiera de observaciones relacionadas entre sí, estas deben organizarse de manera que faciliten su análisis. Los datos no agrupados son el conjunto de observaciones que se presentan en su forma original tal y como fueron recolectados, para obtener información directamente de ellos. Cuando en la muestra que se ha tomado de la población o proceso que se desea analizar se tienen menos de 30 datos, estos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados. Los datos agrupados son aquellos que se encuentran ordenados y clasificados. Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos en clases y a partir de estas determinar las características de las muestras y por consiguiente las de la población de donde fue tomada. Antes de pasar a definir cuál es la manera de determinar las características de interés, cuando se han agrupado en clases los datos de la muestra, es necesario que sepamos cómo se agrupan los datos, esto se determinara de acuerdo al tipo de muestra que se esté realizando y de acuerdo al tipo de datos obtenidos. Una clase o también denominada intervalo de clase, son divisiones o categorías en las cuales se agrupa un conjunto de datos ordenados con características comunes. En otras palabras, son fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan valores comprendidos entre dos límites. Un número de clases pequeño, puede ocultar la naturaleza

natural de los valores y un número muy alto puede provocar demasiados detalles como para observar alguna información de gran utilidad en la investigación. Algo que responde a la identificación de la dispersión de los datos de una muestra es el rango, el cual se define como la diferencia entre el dato mayor menos el dato menor de un conjunto de datos. Permite obtener una idea de la dispersión estadística de los dato FRECUENCIA DE CLASE Frecuencia es el número de veces que se repite o aparece un mismo dato estadístico en un conjunto de observaciones de una investigación determinada, las frecuencias se les designan con las letras Fi, y por lo general se les llaman frecuencias absolutas. La frecuencia de clase es el número de datos que hay en un intervalo de clase, es decir el número de veces que un elemento definido aparece en la muestra. Por ejemplo si se tienen los siguientes datos: 9, 10, 9, 11, 5, 3, 3, 7, 5, 4, 8, 2, tu rango es de 2-11, tu intervalo de clase es 5-10 y la frecuencia de clase (Fi) es 12. FRECUENCIA RELATIVA Es la relación o cociente de la frecuencia absoluta entre el número total de datos o en si es el cociente entre la frecuencia con que se presenta dicho valor y el total de observaciones. La frecuencia relativa se puede expresar en tantos por ciento y se representa por ni. ni= fi/N La Suma de frecuencias relativas es igual a 1 Ejemplo Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas: 32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29. X 27 28 29 30 31 32 33 34

Fi 1 2 6 7 8 3 3 1 N= 31

ni 0.032 0.064 0.194 0.226 0.258 0.097 0.097 0.032 1.000

19, 20, 19, 18, 19, 18, 20, 19, 20, 20, 19, 20, 19, 19, 22, 23, 21 PUNTO MEDIO Punto medio es el punto que divide a un segmento en dos partes iguales. Es el punto que se encuentra exactamente a la mitad, entre un límite y otro.

El centro de la clase, es el valor de los datos que se ubican en la posición central de la clase y representa todos los demás valores de esa clase. Este valor se utiliza para el calculo de la media aritmética. La media aritmética es el valor obtenido al sumar todos datos y dividir el resultado entre el numero total de datos. LIMITES Son una restricción, lo que limita al rango, suelen ser incluyentes y excluyentes. Son los valores extremos que tiene el intervalo de clase, inferior y superior, entre los cuales van a estar los valores de los datos agrupados en ese intervalo de clase. Los limites inferiores y superiores son los valores mínimos y máximos de una distribución.

Por ejemplo:

En un curso de 15 alumnos, se le pidió a un profesor que pesara a todos los alumnos, los datos obtenidos son los siguientes: 62, 95, 38, 95, 79, 92, 60, 42, 82, 39, 85,87, 91, 94, 53. Limite inferior: 38. Limite superior: 98.

HISTOGRAMA Se puede considerar como un gráfico de columnas especial. Se realiza sobre el primer cuadrante del plano cartesiano. La diferencia radica en que el histograma se utiliza más a menudo para representar tablas tipo B, donde el ancho de la columna equivale al ancho del intervalo de clase. Las frecuencias absolutas se colocan en el eje vertical y también puede emplearse las frecuencias relativas. Otra diferencia importante es que no existe espacio entre las barras.

Los Histogramas son diagramas de barras verticales en los que seCuando se trata de analizar la dispersión que presentan unos datos, la representación gráfica más adecuada es el histograma. Para

realizar un histograma se marcan una serie de intervalos sobre un eje horizontal, y sobre cada intervalo se coloca un rectángulo de altura proporcional al número de observaciones (frecuencia absoluta) que caen dentro de dicho intervalo. De esta manera el histograma de frecuencias resulta muy útil para representar gráficamente la distribución de frecuencias. Si se pretende comparar varios histogramas construidos con distinto número de datos, es preferible que las alturas de los rectángulos sean proporcionales al porcentaje de observaciones en cada intervalo o al tanto uno por uno (frecuencia relativa). En un histograma de frecuencias, la altura de los rectángulos está determinada por la frecuencia absoluta de la clase. De manera similar, en un histograma de frecuencias relativas (frecuencias acumuladas, frecuencias relativas acumuladas), la altura de los rectángulos está determinada por la frecuencia relativa (frecuencia absoluta acumulada , frecuencia relativa acumulada ) de la clase. El histograma de frecuencias acumuladas para los datos del ejemplo anterior se muestra en la figura que se puede apreciar en el siguiente gráfico:

1.3 Medidas de tendencia central Las medidas de tendencia central como su nombre lo dice son cálculos o evaluaciones que nos proporcionan idea del comportamiento del fenómeno en la parte céntrica de este. En otras palabras las medidas de tendencia central se ocupan de medir del centro, el foco o el medio de un fenómeno. 1.3.1

Media Aritmética

Para calcular la media aritmética de una muestra utilizamos la siguiente fórmula: Representa la media aritmética de la muestra Números de datos. Sumatoria. Cada uno de los datos.

La formula dice que la suma de las observaciones entre los números de las mismas, es igual al promedio de los datos. Ejemplo: Las calificaciones del examen fueron: 6 ,7 ,8 ,8 ,9 ,10 ,10. La media aritmética para los datos anteriores es “x Promedio es igual a la suma de 6+7+8+8+9+10+10; entre el numero de observaciones (siente)”. Variable Frecuencia Frecuencia Relativa 6

1

0.142857

7

1

0.142857

8

2

0.285714

9

1

0.142857

10

2

0.285714

Totales

7

1.00

El promedio de los alumnos es de 8.285714 puntos. 1.3.2

Mediana

Mediana (Me): Valor que divide una serie de datos en dos partes iguales. La cantidad de datos que queda por debajo y por arriba de la mediana son iguales. La definición de geométrica se refiere al punto que divide en dos partes a un segmento. Por ejemplo, la mediana del segmento es el punto C. Existen entonces dos segmentos iguales: Ejemplo: mediana para datos no agrupados (cantidad de datos impar) Encontrar la mediana para los siguientes datos: 41234221553 SOLUCIÓN PASO 1: Ordenar los datos. 11222334455 PASO 2: Localizar el valor que divide en dos parte iguales el número de datos. 11222334455 La mediana es 3, dejando 5 datos a cada lado. Ejemplo: mediana para datos no agrupados (cantidad de datos par) Modifiquemos el ejemplo anterior, eliminando el último dato. Encontrar la mediana: 4123422155 SOLUCIÓN PASO 1: Ordenar los datos. 1122234455

PASO 2: Localizar el valor que divide en dos parte iguales el número de datos. 1122234455 El punto medio se encuentra entre dos valores: 2 y 3, por tanto, el valor de la mediana será 2,5. Ejemplo: mediana para datos agrupados en tablas tipo A Calcular la mediana a partir de la siguiente tabla de frecuencia: Ni Clase f

F

h%

H%

1

10

5

5

10.4

10.4

2

20

7

12 14.6

25.0

3

30

10 22 20.8

45.8

4

40

13 35 27.1

72.9

5

50

10 45 20.8

93.8

6

60

2

47 4.2

97.9

7

70

1

48 2.1

100.0

Total

48

100%

SOLUCIÓN PASO 1: Localizar entre que clases se encuentra la mediana. Observe que la mediana se encuentra entre las clases 3 y 4, donde podremos encontrar una frecuencia relativa acumulada del 50%. PASO 2: Interpolar los datos para encontrar la mediana. En el paso anterior habíamos dicho que el punto que divide el 2 parte iguales se encuentra entre 30 y 40. Clase H

Diferencia

1.3.3

40

72.9%

30

45.8%

10

27.1%

Moda

Moda (Mo): indica el valor que más se repite, o la clase que posee mayor frecuencia. En el caso de que dos valores presenten la misma frecuencia, decimos que existe un conjunto de datos bimodal. Para más de dos modas hablaremos de un conjunto de datos multimodal. Ejemplo: moda para datos no agrupados Los siguientes datos provienen del resultado de entrevistar a 30 personas sobre la marca de gaseosa que más consume a la semana:

LUNES

MARTES

MIERCOLES

JUEVES

VIERNES

SABADO

Marca 1

Marca 2

Marca 1

Marca 1

Marca 1

Marca 3

Marca 1

Marca 3

Marca 1

Marca 2

Marca 1

Marca 1

Marca 2

Marca 1

Marca 3

Marca 3

Marca 2

Marca 1

Marca 1

Marca 1

Marca 1

Marca 3

Marca 1

Marca 2

Marca 3

Marca 1

Marca 3

Marca 3

Marca 2

Marca 3

SOLUCIÓN PASO 1: Determinar las frecuencias de cada valor de la variable. La marca 1 se repite 15 veces La marca 2 se repite 6 veces La marca 3 se repite 9 veces PASO 2: la moda representa el valor que más se repite. En este caso es la marca 1. 1.4 MEDIDAS DE DISPERSION Otra forma para asegurar que las diferencias entre la media y los puntos de un valor positivo, es elevándola al cuadrado. Al promedio de estas distancias al cuadrado se le conoce como varianza. Varianza (S2 o s2): Es el resultado de la división de la sumatoria de las distancias existentes entre cada dato y su media aritmética elevadas al cuadrado, y el número total de datos. Distinguimos dos símbolos para identificar la varianza: S2 para datos muéstrales, y σ2 para datos poblacionales. Note que la fórmula para la varianza muestral presenta en su denominador al tamaño de la muestra menos uno, tendencia adoptada por los estadísticos para denotar una varianza más conservadora. 1.4.1

Varianza para datos no agrupados

La siguiente muestra representa las edades de 25 personas sometidas a un análisis de preferencias para un estudio de mercado. 25

19

21

35

44

20

27

32

38

33

18

30

19

29

33

26

24

28

39

31

31

18

17

30

27

Determinar la varianza. SOLUCIÓN PASO 1: Calcular la media aritmética. PASO 2: Calcular la varianza En este punto, la varianza es identificada por S2. La varianza equivale a 51,8567. Por elevar las unidades al cuadrado, carece de un significado contextual dentro del análisis descriptivo del caso. 1.4.2

Varianza para datos agrupados

Calcular la varianza a partir de la siguiente tabla de frecuencia (suponga que los datos son poblacionales). Ni

Lm

Ls

F

Mc

1

15

17

2

16

2

17

19

5

18

3

19

21

13

20

4

21

23

4

22

5

23

25

1

24

Total

25

1.4.3

Desviación estándar muestral

Habíamos visto que la varianza transforma todas las distancias a valores positivos elevándolas al cuadrado, con el inconveniente de elevar consigo las unidades de los datos originales. La desviación estándar soluciona el problema obteniendo la raíz cuadrada de la varianza, consiguiendo así, un valor similar a la desviación media. Desviación estándar o típica (S o s) Es igual a la raíz cuadrada de la varianza. La S representa la desviación estándar de una muestra, mientras que σ la desviación para todos los datos de una población. Ampliando las fórmulas tenemos Aplicamos el mismo procedimiento a las fórmulas para las tablas de frecuencias tipo A. Y para las tablas de frecuencias tipo B.

Calcular la desviación estándar al siguiente conjunto de datos muéstrales.

220

215

218

210

210

219

208

207

213

225

213

204

225

211

221

218

200

205

220

215

217

209

207

211

218

PASO 1: Calcular la media aritmética. PASO 2: Calcular la varianza En este punto, la varianza es identificada por S2. PASO 3: Calcular la desviación estándar a partir de la raíz cuadrada de la varianza. Los datos se alejan en promedio de la media aritmética en 6,5516 puntos. 1.4.4

Desviación Media

Para conocer con un solo indicador que tan disperso se encuentran un conjunto de datos a un punto de concentración, debemos como primera medida, calcular la distancia de cada dato respecto a una medida de tendencia central. Por ejemplo: 4

5

3

5

3

2

2

2

2

3

5

1

4

1

4

Tenemos que la media aritmética es de aproximadamente 3,0667 (indicador de tendencia central por excelencia). El primer dato (4), se aleja de la media en 0,9333 hacia la derecha. Gráficamente tendríamos: Para el segundo dato (5) la distancia es de 1,9333 respecto a la media aritmética:

Note que el tercer dato (3) posee una distancia de 0,0667 hacia la izquierda de la media. Para indicar las distancias de estos puntos, agregaremos el signo negativo, por tanto, la distancia del tercer dato sería –0,0667. La representación gráfica de todos los puntos quedaría: El total de las distancias de los puntos que están a la izquierda respecto a la media es de -8,6 (empleando todos los decimales), que es igual a la sumatoria de las distancias de los puntos que están a la derecha respecto a la media 8,6. Concluimos que la sumatoria de todas las distancias de cada punto respecto a la media aritmética es igual a cero (las distancias se anulan): Para responder a la pregunta de ¿qué tan disperso están los datos respecto a la media aritmética?, recurriremos nuevamente al promedio simple. Para llegar a una fórmula básica de dispersión, en que las distancias positivas y negativas no se eliminen, modificaremos la fórmula anterior para trabajar solo con distancias positivas mediante el valor absoluto: La distancia promedio sería de aproximadamente 1,15 (resultado de la división entre la distancia total absoluta y el total de datos). A esta distancia promedio se le conoce con el nombre de desviación media y significa que en promedio, los datos se separan de la media en 1,15.

1.4.5

Desviación Mediana

El criterio que guía esta estadística, radica en el uso de diferencias de cada dato respecto a la mediana muestral m. Si estas diferencias son muy grandes, entonces estamos ante un caso de gran variabilidad, y si son pequeñas se espera que la variabilidad sea pequeña. Naturalmente que el criterio que parece más apropiado es agrupar las discrepancias individuales y tratarlas en conjunto. Un agrupamiento natural sería una suma de ellas, pero el sólo uso de las diferencias no garantiza que se pueda medir discrepancias porque algunas (prácticamente la mitad) serán menores que la mediana, con diferencias negativas, y el resto mayores que la mediana, con diferencias positivas, y al sumar dichos valores habría compensaciones entre valores negativos y positivos. Por lo tanto, una salida a esta dificultad es considerar el valor absoluto de la diferencias calculadas y promediarlos. Esto conduce a la definición siguiente: Dado un conjunto de datos, x1, ..., xn su desviación mediana d.m., está definida por :

Donde d.m. representa la mediana de datos

Puede verse entonces que, cuanto mayor sea la dispersión existente entre los datos, tanto mayor tenderá a ser el promedio del valor absoluto de las diferencias de los datos, respecto de la mediana muestral. Esta estadística se encuentra medida en la misma escala que los datos originales, lo que facilita su comprensión. 1.4.6

Rango

El rango es una medida de dispersión muy simple, es la diferencia entre el mayor y el menor valor de los datos representados en la muestra. Al usar los extremos de una muestra, se corre el riesgo de obtener resultados muy cambiantes debido a la posible presencia de algunos valores mucho mayores o mucho menores que la gran parte de los datos. Esta dificultad muestra un aspecto negativo del rango, sin embargo su gran simplicidad de cálculo, hace que en muchas situaciones sea práctico su uso. RANGO= Máx. Datos – Min. Datos Para la primera muestra (0, 45, 50, 55, 100), el dato menor es 0 y el dato mayor es 100, por lo que sus valores se encuentran en un rango de: Rango = 100 – 0 =100 Mientras que para la segunda muestra (47, 49.5, 50, 51.5, 52), el dato menor es 47 y el dato mayor es igual a 52 por lo que su rango correspondiente es igual a: Rango = 52 – 47= 5 Lo que indica que la segunda muestra es más homogénea ya que sus datos están dispersos en un menor rango Parámetros agrupados En el estudio de las distribuciones de datos, la estadística selecciona un conjunto de los mismos de forma que sean representativos de todos los de la distribución. Estos datos seleccionados se denominan características de la distribución o parámetros estadísticos http://wape23.jimdo.com/unidad-1/1-4-medidas-de-dispersi%C3%B3n/1-4-3-desviaci%C3%B3nmedia/

1.5 Parámetros para datos agrupados En el estudio de las distribuciones de datos, la estadística selecciona un conjunto de los mismos de forma que sean representativos de todos los de la distribución. Estos datos seleccionados se denominan características de la distribución o parámetros estadísticos 1.5.1

La Media

La media aritmética o simplemente media es el promedio más comúnmente usado, este puede ser simple o ponderado.

La media aritmética simple está dada por la formula Sx/n y que significa: la suma de todos los valores dividida por el número de datos.

Por ejemplo: 10, 13, 10, 13, 14, 10, 13, 10, 15. La media para datos agrupados es la siguiente:

La definición es claramente entendida como una extensión de la definición que dimos para datos no agrupados, ya que es lógico suponer que datos que se repiten con una frecuencia pueden simplificar la suma:

Por supuesto que los índices de la segunda suma con respecto a la primera corren con respecto a menor número, es decir, con respecto al número de agrupamientos m. Por ejemplo: Sean los siguientes datos 1, 1, 2, 2, 4, 4, 5, 2, 3, 2, 3, 4, 1, 2, 1. La media para dichos datos es:

1.5.2

La desviación típica

Desviación estándar soluciona el problema obteniendo la raíz cuadrada de la varianza, consiguiendo así, un valor similar a la desviación media Desviación estándar o típica (S o s): Es igual a la raíz cuadrada de la varianza. La S representa la desviación estándar de una muestra, mientras que σ la desviación para todos los datos de una población. Ampliando las fórmulas tenemos Aplicamos el mismo procedimiento a las fórmulas para las tablas de frecuencias tipo A. Y para las tablas de frecuencias tipo B 1.6 Distribución de frecuencias Las distribuciones de frecuencia resumen los datos originales, los condensan o agrupan para facilitar el análisis de los mismos. Sin embargo para ampliar el análisis, casi siempre es deseable formar la distribución de frecuencias relativa o la distribución de porcentaje, dependiendo de la preferencia de la información. También se puede definir como un listado de datos a menudo expresado en forma de diagrama que asocia cada valor de una variable con su Frecuencia. Ejemplo 1: Del conjunto de dato siguientes 32232441224320221331

X representa el elemento f su frecuencia teniendo así X

F

0

1

1

3

2

8

3

5

4

3

1.6.1

Distribuciones Numéricas

Las distribuciones numéricas son simplemente agrupamiento de datos en categoría numérica, es decir cuando los datos cuando los datos se agrupan por tamaños. Para comprender mejor esto veamos lo siguiente. Ejemplo: Los datos correspondientes a 183 sobre el tamaño de los sistemas de televisión por cable de los Estados Unidos se pueden resumir de la siguiente forma: Números de Suscriptores Sistemas de televisión por cable Menos de 1000

2444

1000-3499

1573

3500-9999

958

10000-19999

269

20000-49999

239

50000 o mas

57

Total

5640

En este ejemplo cada clase cubrió un amplio rango de valores, pero también hay distribuciones numéricas en que la clase cubre solo un valor. En este ejemplo cada clase cubrió un amplio rango de valores, pero también hay distribuciones numéricas en que la clase cubre solo un valor.

1.6.2

Distribuciones categóricas

Si agrupamos los datos en categorías no numéricas la tabla resultante se conoce como distribución categórica o cualitativa. En bioestadística, la distribución se refiere en general a toda la lista o tabla de dato estadísticos, ordenada según un criterio determinado. Una distribución se define por ciertas propiedades de su variable componente: medidas de tendencia central y medidas de dispersión de la variable. Existen varios conceptos dentro de Distribución que se deben aclarar, a saber: 1.6.3

Distribución de frecuencias:

Tabla de datos, referentes a una variable en cuestión, en la que se exponen varias categorías de la misma, junto con sus frecuencias o número de veces que se repite en la muestra (puede expresarse también en porcentaje). La tabla puede tener diferentes formatos y es llamada tabla de frecuencias. Cuando se comparan la frecuencia de dos variables, se compone una tabla de contingencia, en la cual una variable ocupa las filas y la otra las columnas. Ejemplo 1: Una tabla de frecuencias simple de la variable COMA, en sus categorías Ausente y Presente. (spss). Categorías Frecuencia Porcentaje Ausencia

602

87.7

Presencia 126

17.3

Total

100.0

1.6.4

728

Distribuciones acumuladas

En ella se usa el número de clases anchos de clase y límites de clase que fueron definidos para la distribución de frecuencia. Sin embargo más que mostrar la frecuencia de cada clase, la distribución de frecuencia acumulada muestra la cantidad de elementos con valores menores o igual que al límite superior de la clase por cada clase. En si la frecuencia acumulada muestra simplemente la suma de todas las clases cuyos datos tienen valores menores a la frecuencia de la clase. Ejemplo 1: En esta tabla se muestra la frecuencia acumulada, f, frecuencia relativa acumulada y frecuencia porcentual acumulada Tiempo de auditorias

Frecuencia Acumulada

Frecuencia relativa Frecuencia Porcentual acumulada Acumulada

Menor que o igual a 14

4

0.20

20

Menor que o igual a 19

12

0.60

60

Menor que o igual a 24

17

0.85

85

Menor que o igual a 29

19

0.95

95

Menor que o igual a 34

20

1.00

100

1.6.5

Distribuciones porcentuales

Las distribuciones de la frecuencia se pueden modificar para satisfacer necesidades particulares. Una manera consiste en convertir una distribución en una distribución porcentual. Esto se logra dividiendo cada frecuencia de la clase entre el número total de factores agrupados y multiplicando luego por el 100%. Ejemplo: convertir la distribución de datos de emisión de óxidos de azufre en una distribución porcentual. Solución: La primera clase contiene 3/80*100= 3.75% de los datos, la segunda comprende 10/80*100%= 12.50% de los datos… y la séptima clase contiene 2/80*100% = 2.50% de los datos de estos resultados se muestran en la siguiente tabla. Toneladas de óxidos de azufre Porcentaje 5.0-8.9 9.0-12.9 13.0-16.9 17.0-20.9 21.0-24.9 25.0-28.9 29.0-32.9

3.75 12.5 17.5 31.25 21.25 11.25 2.5

Intervalos 1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 56-60 61-65 66-70

f

fr

31 116 116 58 42 0 0 0 0 0 0 0 0 1

31/264 116/364 116/364 58/364 42/364 0/364 0/364 0/364 0/364 0/364 0/364 0/364 0/364 1/364

0.0851 0.3186 0.3186 0.1593 0.1153 0 0 0 0 0 0 0 0 0.0027

8.51% 31.86% 31.86% 15.93% 11.53% 0% 0% 0% 0% 0% 0% 0% 0% 0.27%

Para poder dejar en claro todo los términos y formulas vistas analizaremos estos datos según la siguiente tabla:

Elemento f

3 4 5

1 15 15 25

Distribución porcentual 0.27% 4.12 % 4.12 % 6.86 %

Distribución porcentual acumulada 0.27% 4.39 % 8.51 % 15.37 %

7 8 9 12 13 15 16 17 18 19 21 23 67 20

56 35 38 40 38 7 37 13 1 1 40 1 1

15.38 9.61 10.43 10.98 10.43 1.91 10.2 3.57 0.27 0.27 10.98 0.3 0.3

% % % % % % % % % % % % %

30.75 40.36 50.79 61.77 72.2 74.11 84.31 87.88 88.15 88.42 99.4 99.7 100

% % % % % % % % % % % % %

La distribución se obtuvo de dividir la frecuencia de cada elemento que está clasificado en la tabla 2 entre el total de elementos de la muestra en este caso 364. Así para el numero 23 tenemos 40/364= 0.1098 Para obtener la distribución porcentual solo se multiplica la distribución normal por 100, entonces tenemos que 40/364 = 0.1098 * 100 =10.98 % 1.6.6

Distribuciones porcentuales acumuladas

Podemos convertir una distribución porcentual en distribución porcentual acumulada. Solo sumamos los porcentajes de las frecuencias comenzando ya sea con la distribución superior o inferior. Para la columna de la frecuencia porcentual acumulada sumamos todas las frecuencias porcentuales anteriores al elemento de estudio con la del mismo elemento: Para el numero 7 por ejemplo sumaremos 0.27% + 4.12% + 4.12% + 6.86% = 15.37% Al final el último elemento deberá tener una distribución porcentual del 100 % 1.7 Técnicas de agrupación de datos Las clases deben estar definidas tal que cada observación pertenezca a una sola clase, y que las clases adyacentes tengan fronteras en común 1.7.1

Límites de clase

Se debe escoger los límites de la clase de tal manera que cada valor de dato pertenezca a una clase y solo a una. El límite inferior de la clase es el valor mínimo posible de los datos que se asignan a la clase. El límite superior de la clase es el valor máximo posible de los datos que se asignan a la clase. Para formar distribuciones con datos cualitativos no se necesitó especificar límites de clase, porque cada elemento caía, en forma natural, en una clase o categoría separada. Pero con los datos cuantitativos, como los tiempos de sabiduría de la tabla 2.5, son los límites de clase para determinar dónde se clasifica a cada uno de los datos.

1.7.2

Rango de clase

Faltan los temas de técnicas de agrupación de datos (1.6) y técnicas de muestreo (1.7) Completar los temas faltantes y traer un ejercicios que abarque todos los temas de la unidad 1 entregar en hoja de máquina y a mano con portada