Mdulo 1 Estadistica Descriptiva

Estadística Descriptiva Fecha de actualización: Noviembre 2017 1 TABLA DE CONTENIDO 1. Distribuciones de frecuencias

Views 339 Downloads 3 File size 8MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Estadística Descriptiva Fecha de actualización: Noviembre 2017

1

TABLA DE CONTENIDO

1. Distribuciones de frecuencias y gráficas estadísticas ......................................................... 3 1.1

Introducción

1.2

Marco conceptual

1.2.1 ¿Qué es la estadística? ........................................................................................................................................... 3 1.2.2 ¿Qué son las variables estadísticas? ................................................................................................................ 3 1.2.2.3 ¿Cuál es la clasificación de las variables estadísticas? ........................................................................ 4 1.2.2.4 ¿Qué son las distribuciones de frecuencias?............................................................................................ 5 1.2.2.5 ¿Qué elementos contienen las distribuciones de frecuencias? ....................................................... 6 1.2.2.6 ¿Cómo se puede representar gráficamente las distribuciones de frecuencia? ........................ 6

1.4

Ejercicios de reflexión

1.5

Conclusiones 30

2.2.

Marco conceptual

30

31

2.2.1 ¿Cuáles son las medidas de tendencia central? ....................................................................................... 31 2.2.2 ¿Cuáles son las medidas de variabilidad? .................................................................................................. 33 2.2.3 ¿Cuáles son las medidas de posición? ......................................................................................................... 33 2.2.4 ¿Cuáles son las Medidas de forma? .............................................................................................................. 36 2.2.5. ¿Cuáles son las medidas de relación entre dos variables? ................................................................ 39 2.2.6 ¿Qué es regresión lineal simple?.................................................................................................................... 43

2.3. Ejemplos: ¿Cómo realizar el análisis de los estadísticos con Excel?

53

2.4. Ejercicios de reflexión

70

2.5. Conclusiones

71

INTRODUCCIÓN AL MÓDULO 1 La importancia del tema de este módulo “estadística descriptiva”, radica en el análisis de los datos mediante recursos como los gráficos, estadísticos y modelos de regresión simple, utilizado para resolver problemáticas de carácter investigativo. La finalidad de esta temática es que el estudiante, logre adquirir las competencias básicas resumidas en la recolección, organización y análisis de los datos usando los recursos proporcionados por los contenidos temáticos y que estos puedan ser nuevas herramientas para su desarrollo profesional y académico. Además, en la unidad temática se hace énfasis en el uso del programa Excel en todos los temas de estadística descriptiva, siendo muy práctico para el estudiante y enriquecedor en competencias relacionadas con TIC. Para hacer este aprendizaje acerca de Excel más interactivo y didáctico para el estudiante, estarán disponibles los archivos .XLS de todos los ejemplos del módulo, con el objetivo de promover su práctica en tiempo real, utilizando las indicaciones paso a paso dadas en cada uno de los ejemplos del módulo. 2

1. Distribuciones de frecuencias y gráficas estadísticas 1.1 Introducción Durante el desarrollo de procesos investigativos de enfoque cuantitativo se utilizan diferentes instrumentos para la recolección de datos a partir de una muestra determinada, por lo tanto, es necesario la utilización de técnicas estadísticas que permitan realizar el análisis de los mismos. En esta unidad temática se profundizará en las herramientas para presentar datos de forma organizada a través de tablas de frecuencias y la representación gráfica, que así mismo, permitan describir y representar los datos. La representación de los datos depende del tipo de información con el que se cuente, en esta unidad temática se verá la clasificación de los datos según los tipos de variables. Es importante tener claro que el objetivo principal de la unidad temática no es simplemente obtener una tabla o una gráfica que represente los datos si no entender lo que indican en una situación problema. Cómo herramienta de ayuda para la realización de las tablas y gráficos, se utiliza el programa Excel. 1.2 Marco conceptual

1.2.1 ¿Qué es la estadística? La estadística es la ciencia que determina los procedimientos para la recolección, organización, interpretación, modelación y análisis de un conjunto de datos obtenidos de una población o muestra, acerca de un fenómeno determinado, para tomar decisiones frente a una situación determinada. Dentro de la misma estadística existen dos ramas: 1. Estadística descriptiva: permite describir las características que se presentan en una población o muestra. 2. Estadística inferencial: a partir del estudio de una muestra extraída de la población permite obtener conclusiones válidas acerca de la población.

1.2.2 ¿Qué son las variables estadísticas? Las variables estadísticas son las características o factores que tienen los elementos analizados de un conjunto de datos. Las variables pueden ser, por ejemplo: en un conjunto de hombres y mujeres su estado civil, en una empresa comercializadora el número de ventas realizadas, en una ciudad el número de personas afectados por la inseguridad en el último mes.

3

1.2.2.3 ¿Cuál es la clasificación de las variables estadísticas? Las variables estadísticas se clasifican en dos tipos: 1. Variables cuantitativas: son aquellas variables en la que sus posibles resultados siempre son representados por un valor numérico. Por ejemplo, la estatura de los estudiantes de aula de estadística sus posibles resultados podrían ser 1,65 cm, 1,84 cm, 1,75 cm, entre otros, “valores numéricos”; otra variable cuantitativa sería el número de llegadas tarde al lugar de trabajo en un mes, los posibles resultados podrían ser 0, 1, 2..., “valores numéricos”. Dentro de las variables cuantitativas existen dos clasificaciones: a. Variables cuantitativas discretas: son aquellas variables cuantitativas en las que sus posibles resultados son representados por el conjunto de los números enteros. Por ejemplo, el número de compras hechas por una familia, sus posibles resultados son 0, 1, 2, … solamente lo representan valores enteros, otra variable cuantitativa discreta es cuantos días a la semana realizan actividad física los empleados de una empresa, sus posibles resultados son 0, 1, 2, 3, 4, 5, 6 y 7. b. Variables cuantitativas continuas: son aquellas variables cuantitativas en las que sus posibles resultados son representados por el conjunto de los números decimales. Por ejemplo, en una carrera de atletismo el tiempo registrado por cada uno de los competidores en segundos, sus posibles resultados podrían ser 6.25, 4.2, 8.4, …, 10.0 y como se observa los valores son decimales, otra variable cuantitativa continua es la temperatura marcada en grados centígrados (°C) de las 6 am en Bogotá durante un mes, sus posibles resultados son -2.8, 0, 4.5, 10.0, 7.2, 15.0, 13.7, entre otros. 2. Variables cualitativas: son aquellas variables en la que sus posibles resultados siempre son representados por atributos observables no numéricos. Por ejemplo, tomando como muestra los estudiantes del aula de estadística, una variable cualitativa seria los gustos musicales de los estudiantes, sus posibles resultados podrían ser rock, salsa y reguetón; otra variable cualitativa sería el nivel de satisfacción de los estudiantes con los contenidos de la asignatura pues los posibles resultados serían: alta, estándar o baja. Dentro de las variables cualitativas hay dos clasificaciones que se verán a continuación. Variables cualitativas ordinales: son aquellas variables cualitativas en las que sus posibles resultados posee un orden natural o jerárquico. Por ejemplo, las medallas conseguidas en diez competencias de BMX, los posibles resultados son oro, plata y bronce; estás categorías poseen un orden natural primer lugar (oro), segundo lugar (plata) y tercer lugar (bronce), otra variable cualitativa ordinal sería la nota de una prueba expresada como atributo, los posibles resultados son excelente, sobresaliente, aceptable, insuficiente y deficiente como se puede observar existe una jerarquía u orden natural. Es importante notar que las variables cualitativas ordinales pueden ser representadas por valores numéricos por su posicionamiento, en el ejemplo de la competencia de BMX se puede colocar 1= “oro”, 2=” plata” y 3= “bronce”, en algunos 4

casos hace más práctico los análisis estadísticos, pero hay que tener cuidado en no confundirlas con variables cuantitativas. Variables cualitativas nominales: son aquellas variables cualitativas en las que sus posibles resultados no poseen un criterio de orden natural o jerarquía. Por ejemplo, el sexo de una persona los posibles resultados son hombre o mujer, estos no tienen un criterio de orden natural o jerarquía, otra variable cualitativa nominal sería el color preferido de los estudiantes del aula de estadística, los posibles resultados serían rojo, azul, negro, blanco, entre otros; pueden ser ordenadas aleatoriamente, pero no de manera natural. El siguiente mapa conceptual describe la clasificación de las variables estadística:

Fuente: Creación propia

1.2.2.4 ¿Qué son las distribuciones de frecuencias? “Una distribución de frecuencias es un conjunto de puntuaciones ordenadas en sus respectivas categorías” (Hernández Sampieri, Fernández Collado, & Baptista Lucio, 2010, p. 287). Ejemplo1.2.2.4.1. En un proceso de investigación se realizó la siguiente consulta ¿Cuál es su nivel máximo de formación académica?, a los docentes de una institución universitaria, en la siguiente tabla se pueden evidenciar las respuestas obtenidas Categoría Pregrado Especialización Maestría Doctorado Post - doctorado Total

Código 1 2 3 4 5

5

Frecuencia 12 25 44 31 5 117

1.2.2.5 ¿Qué elementos contienen las distribuciones de frecuencias? Las distribuciones de frecuencias pueden ser complementadas utilizando las frecuencias acumuladas y los porcentajes o frecuencia relativa. En esta sección se darán las definiciones de los tipos de frecuencias. La frecuencia absoluta es la frecuencia que se ha ido trabajando anteriormente, es decir el número de veces que se repite la categoría seleccionado en el conjunto total de datos. La frecuencia relativa es la razón de cada uno de las categorías entre la frecuencia absoluta y el total de los datos. 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 =

𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠

Se puede representar el frecuencia relativa como un porcentaje, conocida como la 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑝𝑟𝑜𝑐𝑒𝑛𝑡𝑢𝑎𝑙. (Triola, 2013). 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑝𝑟𝑜𝑐𝑒𝑛𝑡𝑎𝑗𝑒 =

𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 ∗ 100% 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠

La frecuencia absoluta acumulada de una categoría es la suma de las frecuencias absolutas de todas las anteriores categorías. La frecuencia relativa acumulada de una categoría es la suma de las frecuencias relativas de todas las anteriores categorías. Para comprender mejor los tipos de frecuencia dirigirse al ejemplo 1.3.1 de la sección 1.3.

1.2.2.6 ¿Cómo se puede representar gráficamente las distribuciones de frecuencia? Las frecuencias absolutas y relativas generalmente se representan mediante histogramas y gráficas circulares. A continuación, se muestra las representaciones gráficas e interpretaciones en un ejemplo. Ejemplo 1.2.26.1. Las siguientes son gráficas que representan distribuciones de frecuencias.

6

Fuente: Hernández Sampieri, Fernández Collado, & Baptista Lucio (2006).

1.3 Ejemplos: ¿Cómo realizar tablas de frecuencias o gráficas en Excel?

Ejemplo 1.3.1. (Latidos del corazón) Supóngase que un centro de salud se tomó el número de latidos del corazón por minuto a una muestra de 30 pacientes y se tabuló en Excel:

Se necesita realizar la distribución de frecuencias de los datos y un gráfico apropiado para realizar los análisis estadísticos. Para realizar esta tarea se usarán tablas dinámicas así: 7

1- Se selecciona toda la tabla e ir al menú insertar y seleccionar tablas dinámicas:

2- En el menú crear tablas dinámicas verificar que aparecen señaladas con las celdas correctas:

3- Del menú crear tabla dinámica, debajo de “Elija donde desea colocar el informe de tabla dinámica”, señalar la hoja de cálculo existente y seleccionar las celdas que se desee al lado de la tabla original. Dar aceptar:

4- En la parte superior derecha de la hoja de calcula seleccionar “latidos del corazón por minutos” y arrastrar hasta parte inferior derecha en el menú FILAS

8

5- En la parte superior derecha de la hoja de cálculo, seleccionar “Paciente” y arrastrar hasta parte inferior derecha en el menú VALORES:

6- Finalmente, para realizar la frecuencia absoluta se va a VALORES, luego en “Suma de Paciente”, se hace clic izquierdo y configuración de campo:

9

7- En el menú configuración de campos se selecciona cuenta y aceptar

10

8- Ahí se tiene la tabla de frecuencias:

Como puede observarse esta tabla de frecuencia tiene 23 categorías lo que haría muy complicados los análisis estadísticos como por ejemplo las representaciones gráficas, entonces es necesario para este ejemplo agrupar los datos como sigue: 1- Hay que Calcular el valor mínimo de los datos, el valor máximo de los datos y el rango, para ello se seleccionan los datos así y se usa la función MIN (valor mínimo):

Valor máximo de los datos se usa la función “Max” y se seleccionan los datos así: 11

El rango se calcula como la diferencia entre el valores máximo y mínimo:

2- Calcular el número de intervalos y su amplitud 12

Para calcula el número de intervalo se debe aplicar la fórmula de Surges: k = 1 + 3,3log(n), donde k es el número de intervalos grupos o clases en las que se van a dividir los datos y n es el número total de datos. Luego se tiene que k = 1 + 3,3 log(30) = 5,9, que se aproxima a 6 intervalos, en Excel se hace así:

El criterio # Muestra celda I6, es el número de datos en este caso 30. Para calcular la amplitud del intervalo se debe efectuar la fórmula A = rango/k, se divide el rango entre los k – intervalos, es decir A =

66 6

= 11, entonces:

La función ENTERO es para aproximar el valor a su entero más cercano. 3- Calcular los limites inferiores y superiores de cada uno de los k – intervalos: 13

El primer intervalo está compuesto por el valor mínimo (límite inferior), para calcular su límite superior sólo se debe sumar la amplitud al límite inferior:

Los signos de dólar $$ alrededor indican que la celda I8 se tomará como una celda fija al replican la fórmula. Para calcular el límite inferior del segundo intervalo se debe copiar la celda del intervalo superior del primer intervalo, así:

Como se puede ver se copia la celda k11 en la I12 Para terminar los límites inferiores de todos los intervalos, se arrastra o copia la fórmula de la celda I12 (límite inferior del segundo intervalo), hasta el sexto intervalo, (recuerde que k=6):

14

Y para terminar los límites superiores se arrastra o copia la fórmula de la celda K11 (primer límite superior) hasta el sexto límite superior:

Finalmente se podrá calcular las distribuciones de frecuencias: 1- Se calcula la frecuencia absoluta acumulada, utilizando la función FRECUENCIA que tiene dos partes, la primera es los datos, ahí se colocan los 30 datos (C3:C32) de la tabla y la otra es grupo en esta se indica a los seis limites superiores (K11:K16), así:

15

Nótese que en los datos se anclan usando los dólares $$ para que no se modifique que se cuenta la frecuencia sobre estos datos, pero en la parte de los grupos no se ancla para ir disminuyendo las opciones cuando se copie la fórmula y entonces queda:

Y como puede verificarse que se calcula la frecuencia absoluta acumulada, en la última celda el total es 30. 2- Se calcula la frecuencia absoluta a partir de la frecuencia absoluta acumulada. Primero se calcula la primera frecuencia del primer intervalo, para esto se copia la celda “M11”, la primera frecuencia absoluta acumulada, estas siempre coinciden:

16

Para calcular la segunda frecuencia absoluta se hace la diferencia entre, la frecuencia absoluta acumulada correspondiente (M12) y la frecuencia absoluta acumulada anterior (M11) y se replica la fórmula hasta el sexto intervalo, así:

Debajo de todas las frecuencias absolutas se hizo la suma de las frecuencias que dio igual a 30 verificando que estén correctas las frecuencias. 3- Para terminar, se va a calcular las frecuencias relativas y relativas acumuladas. Para la primera se hace la razón entre cada una de las frecuencias absolutas y el número de la muestra y se copia la formula hasta el sexto intervalo, así:

17

Esto extrae que porcentaje representa cada uno de los intervalos. Para el segundo, en el primer intervalo se calcula la frecuencia relativa acumulada copiando la primera frecuencia relativa, que siempre coinciden:

Luego se calcula la segunda frecuencia relativa acumulada sumando la anterior frecuencia relativa acumulada (O11) con la correspondiente frecuencia relativa (N11) y se copia hasta el sexto intervalo, así:

18

Nótese que la última celda O16 da igual a 1, que es lo correspondiente al 100%. Para terminar y representar las frecuencias como porcentajes cambiamos el formato de número a porcentaje en las columnas que corresponde a frecuencia relativa y frecuencia relativa acumulada, de la siguiente manera: Seleccionar las celdas a las que se les desee cambiar el formato:

19

Clic derecho y seleccionar formato de celdas:

Seleccionar porcentaje y dar aceptar

Y finalmente quedaría lista la distribución de frecuencias: 20

Los gráficos más indicados para los datos agrupados son el histograma y el polígono de frecuencias, en este caso se va a realizar el histograma, para consultar la realización en Excel del polígono de frecuencias consulte el libro Gráficas y tablas estadísticas en Excel 2013 paso a paso, citado en el material de estudio al final de esta unidad temática. 1- Se debe insertar en la tabla una columna que reciba el nombre de clases y se colocan los intervalos. Se hace haciendo clic derecho en la columna frecuencia absoluta, buscar insertar y seleccionar desplazar hacia la derecha, dar aceptar: Límite Límite Clases Inferior Superior 56 67 78 89 100 111

67 78 89 100 111 122

56-67 67-78 78-89 89-100 100-111 111-122

Frecuencia Frecuencia Absoluta Absoluta Acumulada 4 4 3 7 4 11 8 19 5 24 6 30

Frecuencia Frecuencia Relativa Relativa Acumulada 13,33% 13,33% 10,00% 23,33% 13,33% 36,67% 26,67% 63,33% 16,67% 80,00% 20,00% 100,00%

2- Selecciona las columnas clases y frecuencia absoluta, ir al menú insertar, seleccionar gráfico de barras o columnas señalado en rojo y seleccionar el primer logotipo señalado en negro y dar aceptar:

Y se produce este gráfico: 21

Frecuencia Absoluta 10 8 6 4 2 0 56-67

67-78

78-89 89-100 100-111 111-122

3- Seleccionar en el título del gráfico para colocarle el nombre que se desee:

4- Para unir las barras como corresponde en un histograma se da clic derecho en las barras azules, se selecciona dar formato a serie de datos:

Al lado derecho en la opción Ancho del intervalo colocar 0%: 22

Y se obtiene:

5- Para crear las líneas que separen el gráfico se hace clic en el botón de la cruz, se seleccionar ejes y luego en la flecha desplegable más opciones:

Al costado derecho aparece los símbolos de relleno, pentágono y barras, seleccionar relleno y señala línea sólida y debajo seleccionar el color que se desee:

23

Y se obtendrá el histograma completo:

Látidos del corazón Vs Edad 9 8 7 6 5 4 3 2 1 0 56-67

67-78

78-89

89-100

100-111

111-122

Ejemplo 1.3.2 (Estado civil) Se requiere realizar la distribución de frecuencias y una gráfica de los siguientes datos:

24

1- Se realiza una tabla dinámica siguiendo las indicaciones del anterior ejemplo, colocando en FILA estado civil y en VALORES individuo configurando con “cuenta”: (Se le sugiere al estudiante realizar el ejercicio de generar la tabla dinámica)

Ahora se selecciona pega la tabla en otra celda, para esto se selecciona la tabla se da control+c, luego se da clic derecho y por último da clic en la opción pegado especial, sólo valores, así:

25

Y el resultado es este:

26

Estadística para el transporte

Módulo 1

Por último, se borra la parte que dice etiquetas de fila y en donde dice cuenta de individuo se coloca frecuencia absoluta:

Para calcular la frecuencia absoluta acumulada se copia la frecuencia absoluta en la primera categoría “casado” y para la segunda categoría” divorciado” se suma entre la frecuencia absoluta correspondiente (E12) y con la frecuencia absoluta acumulada anterior (F11) y se duplica esta última fórmula en las demás categorías (soltero y viudo):

27

Estadística para el transporte

Módulo 1

Para calcular el resto de frecuencias seguir las indicaciones del ejemplo anterior y finalmente se llega a la distribución de frecuencias:

Cómo la variable es cualitativa uno de los gráficos más apropiados es el diagrama circular o de sectores, para realizarlo se selecciona la variable y la frecuencia absoluta, se va al menú insertar y se busca el logotipo con el diagrama circular y se da clic en el que se desee realizar:

Se cambiar el título del gráfico a “Estado civil” como se hizo en el ejemplo anterior:

Estado Civil

Casado

Divorciado

Soltero

28

Viudo

Total general

Estadística para el transporte

Módulo 1

Este diagrama representa mejor los datos utilizando porcentajes o frecuencias relativas para hacerlo se selecciona la torta, se selecciona la cruz, se toma etiquetas de datos y allí la fecha despegable:

1 2

3

Y en el menú desplegable de la derecha señalar porcentaje y dejar de señalar valor:

Y da como resultado el diagrama circular:

29

Estadística para el transporte

Módulo 1

Estado Civil 12% 50%

12% 22%

4%

Casado

Divorciado

Soltero

Viudo

Total general

1.4 Ejercicios de reflexión Ejercicio 1.4.1 Observe esta base de datos:

Recuperado de https://exceltotal.com/tabla-de-frecuencias-en-excel/ Ejercicio 1.4.1. Con la anterior base datos realizar las distribuciones de frecuencias de las variables: (copiar manualmente la base de datos en Excel) a) País b) Ventas Ejercicio 1.4.2. Realizar los gráficos correspondientes de las dos variables anteriores Ejercicio 1.4.3. Interpretar brevemente los resultados de los datos anteriores utilizando las distribuciones de frecuencias y las gráficas. (Use porcentajes para el análisis estadístico de las variables) 1.5 Conclusiones

30

Estadística para el transporte

Módulo 1

Esta unidad temática permite adquirir los recursos para recolectar, organizar y representar los datos mediante las tablas de distribuciones de frecuencias y gráficos estadístico y por ende poder analizar correctamente los resultados en las investigaciones de índole académicas o empresariales.

2. Medidas descriptivas 2.1. Introducción En la anterior unidad temática se mostró el uso de las distribuciones de frecuencias como un método para ordenar y representar los datos. En esta unidad temática se mostrará las medidas descriptivas para resumir los datos, clasificadas en cinco características principales: -

Centralización Variabilidad o dispersión Posición o localización Forma Correlación

Se verán descriptivos tales como: -

Centro: media, mediana y moda Variabilidad: varianza, desviación estándar y coeficiente de variación Posición: mínimo, cuartiles y máximo Forma: curtorsis y asimetría de Fisher Correlación: covarianza, coeficiente de correlación de Pearson y regresión lineal simple

El objetivo principal de la unidad temática es que el estudiante, calcule las medidas descriptivas utilizando Excel e interprete lo que significan estos valores en una situación problema. Nota: es importante tener presente que las medidas descriptivas solamente tienen sentidos para las variables cuantitativas. 2.2.

Marco conceptual

2.2.1 ¿Cuáles son las medidas de tendencia central?

31

Estadística para el transporte

Módulo 1

Las medidas de tendencia central son indicadores que permiten comprender las características principales del centro de los datos. En esta sección se van estudiar las definiciones de la media, mediana y moda. La media aritmética de un conjunto de datos es el valor que se calcula al sumar los datos y dividir el total en el número de datos. (Triola, 2013)

𝑚𝑒𝑑𝑖𝑎 =

∑ 𝑥𝑖 𝑁

𝐷𝑜𝑛𝑑𝑒 𝑥𝑖 𝑒𝑠 𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑑𝑎𝑡𝑜 𝑦 𝑁 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 La mediana de un conjunto de datos, es el valor intermedio cuando los datos se ordenan en forma ascendente. (Triola, Mario, 2013, p.85). También es una medida de posición llamada cuartil 2, que se revisará en la siguiente sección. La moda en un conjunto de datos “es el valor que se presenta con mayor frecuencia”. (Triola, Mario, 2013, p.87). Ejemplo 2.2.1.1. Se tienen las edades promedias de un curso de estudiantes de estadística: 22, 30, 31, 54, 23, responder: a. ¿Cuál es la edad promedio? b. ¿Cuál es la mediada de las edades? c. ¿Cuál es la moda de las edades? Para resolver el ítem a, se ordena de forma ascendente los datos: 𝑥1 = 22, 𝑥2 = 23, 𝑥3 = 30, 𝑥4 = 31, 𝑥5 = 54 𝑚𝑒𝑑𝑖𝑎 =

∑ 𝑥𝑖 22 + 23 + 30 + 31 + 54 160 = = = 40 𝑁 5 5

Se tiene una edad promedio de 40 años. Para responder el ítem b, se toman los datos ordenados de forma ascendente 22 23 30 31 54 y se elimina el último con el primero, penúltimo con el segundo y así sucesivamente hasta que queda uno o dos datos en el centro, en este caso quedó un dato y entonces la mediana corresponde a 30. 32

Estadística para el transporte

Módulo 1

En los datos no hay ningún dato que se repita con mayor frecuencia por lo tanto no existe la moda.

2.2.2 ¿Cuáles son las medidas de variabilidad? La variabilidad en un conjunto de datos mide que tan dispersos están los datos con respecto a la media aritmética. Las principales medidas de variabilidad o dispersión son la varianza, desviación estándar y coeficiente de variación. En esta sección se dará una breve definición de estas medidas, para revisar su fórmula y aplicación dirigirse al ejemplo 2.3.1 de la sección 2.3, allí se explica las fórmulas en Excel. La desviación estándar de un conjunto de valores muéstrales (extraídos de una muestra se denota con 𝑠) o poblacionales (extraídos de una población 𝜎) “es la medida de variación de los datos con respecto a la media”. (Triola, Mario, 2013, p. 100). ∑(𝑥𝑖 − 𝑥)2 𝑠=√ 𝑛−1 ∑(𝑥𝑖 − 𝑥)2 𝜎=√ 𝑛 La varianza es la desviación estándar al cuadrado, existe varianza muestral denotada cómo 𝑠 2 y varianza poblacional denotada por 𝜎 2 . ∑(𝑥𝑖 − 𝑥)2 𝑠 = 𝑛−1 2

𝜎2 =

∑(𝑥𝑖 − 𝑥)2 𝑛

El coeficiente de variación mide el porcentaje de dispersión de los datos con respecto a la media. 𝑐𝑣𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 =

𝑠 ∗ 100% 𝑚𝑒𝑑𝑖𝑎

𝑐𝑣𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 =

𝜎 ∗ 100% 𝑚𝑒𝑑𝑖𝑎

2.2.3 ¿Cuáles son las medidas de posición?

33

Estadística para el transporte

Módulo 1

Las medidas de posición se encargan de dividir la distribución de los datos (ordenada de forma ascendente) en “n” parte iguales. Las principales medidas de posición son el mínimo, los cuartiles y el máximo. Los cuartiles dividen la distribución de los datos ordenada en cuatro partes iguales comenzando utilizando los tres valores siguientes: El primer cuartil (Q1 ) determina el valor correspondiente al 25% de los datos. El segundo cuartil (Q 2 ) determina el valor correspondiente al 50% de los datos, coincide con la mediana. El tercer cuartil (Q 3 ): determina el valor correspondiente al 75% de los datos. Para poder calcular el valor de los cuartiles se debe primero calcular la posición que ocupan los datos y tomar el dato que ocupa la k-ésima posición. Sea 𝑖 el número de cuartil que se quiere calcular y 𝑘 se calcula utilizando 𝑖. Puede suceder que las posiciones resulten ser un número entero o decimal, por lo tanto, se diferencian dos casos: 1. Si k es entero se elige la posición correspondiente al valor k, la fórmula queda: N Qk = i ( ) 4 Donde i = 1, 2, 3 2. Si k es decimal se hace: Qi =

(X [k] + X [k]+1 ) 2

Donde i = 1,2, 3 [k] indica la parte entera del decimal que se toma con el entero menor . En el caso del primer cuartil se hace k=N/4, el segundo cuartil k=N/2 y en el tercer cuartil se hace k=3N/4, donde N es el número total de los datos. Las fórmulas se aplican, como se muestra en el siguiente ejemplo. Ejemplo 2.2.3.1 Dado el siguiente conjunto de datos: 2; 5; 9; 3; 13; 10; 11; 6 ;7. ¿Cuál es el valor de los cuartiles? 1° ordenamos los datos de menor a mayor: 2; 3; 5; 6; 7; 9; 10; 11; 13 X1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 34

Estadística para el transporte

Módulo 1

n= 9 2° Se determina la posición que ocupa el primer cuartil (i=1) mediante la fórmula: k= 1(N/4)=9/4=2,25, cómo la posición es decimal se hace [k] = [2,25]=2 y [k] + 1 = 2 + 1 = 3 y se halla las posiciones X2 = 3 y X 3 = 5, luego : Q1 =

(X [k] + X [k]+1 ) (X 2 + X 3 ) (3 + 5) 8 = = = =4 2 2 2 2

3° Se determina la posición que ocupa el segundo cuartil (i=2) mediante la fórmula: k=2 (N/4)=2(9/4)=4,5, cómo la posición es decimal se hace [k] = [4,5]=4 y [k] + 1 = 4 + 1 = 5 y se halla las posiciones X4 = 6 y X 5 = 7, luego : (X [k] + X [k]+1 ) (X 4 + X 5 ) (6 + 7) 13 = = = = 6,5 2 2 2 2 3° Se determina la posición que ocupa el tercer cuartil (i=3) mediante la fórmula: k=3 (N/4)=3(9/4)=6,75, cómo la posición es decimal se hace [k] = [6,75]=6 y [k] + 1 = 6 + 1 = 7 y se halla las posiciones X6 = 6 y X 7 = 7, luego : Q2 =

Q2 =

(X [k] + X [k]+1 ) (X 6 + X 7 ) (9 + 10) 13 = = = = 9,5 2 2 2 2

Por último, se extrae el resumen de los cinco números: Mínimo (el dato con menor valor) 0% Primer Cuartil 25% Segundo cuartil - mediana 50% Tercer Cuartil 75% Máximo (el dato con el mayor valor) 100%

2 4 6,5 9,5 13

En el libro estadística para la administración y la economía, Newbold, P & Carson W & Thorne, B. (2013) define al resumen de los cinco números, así “el resumen de los cinco números se refiere a las cinco medidas descriptivas: mínimo, primer cuartil, mediana, tercer cuartil y máximo” p.49. 𝐦𝐢𝐧𝐢𝐦𝐨 < 𝐐𝟏 < 𝐦𝐞𝐝𝐢𝐚𝐧𝐚 < 𝐐𝟑 < 𝐦á𝐱𝐢𝐦𝐨 “En la práctica, rara vez se calcula estos valores para una muestra tan pequeña cómo n=9, los cuartiles se utilizan generalmente para describir grandes volúmenes de datos”, (Newbold, P& Carson W & Thorne, B., 2013, p49); sin embargo, el ejemplo anterior se hizo con el fin de explicar cómo se utilizan las fórmulas de los cuartiles. 35

Estadística para el transporte

Módulo 1

Antes de continuar es importante mencionar que si k es igual a un número entero por ejemplo si se toma los datos ya ordenados en forma ascendente: 60, 63, 65, 66, 70, 72, 75, 78, 81, 84, 88, 90 el número de datos es n= 12  

Al calcular el primer cuartil sería, k=12/4=3, entonces se encuentra en x3 para calcular el primer cuartil directamente y se tiene Q1 = x3 =65. Se deja al lector como ejercicio hallar el segundo y tercer cuartil.

2.2.4 ¿Cuáles son las Medidas de forma? Las medidas de forma son valores numéricos que permiten saber la forma gráfica que toma la distribución de frecuencias de los datos sin necesidad de realizar el grafico. En este módulo se van trabajar dos medidas de forma, la asimetría y la curtorsis, pero antes se va a definir el concepto de simetría en una distribución de frecuencias. Una distribución de frecuencias es simétrica si todas las frecuencias de derecha a izquierda tienden al centro de los datos como se muestra en la gráfica o si la media, la mediana y la moda son iguales.

Recuperado de https://goo.gl/MgGZ7D . Una distribución de frecuencias es asimétrica si las frecuencias descienden más lentamente hacia la derecha o la izquierda. La asimetría se puede medir como un valor numérico llamado coeficiente de asimetría de Fisher 𝐠 𝟏 . En este punto se debe mencionar dos clases de asimetrías: Asimetría positiva o a la derecha: se presenta si las distribuciones de frecuencias tienden a descender más lentamente por la derecha. El valor del coeficiente de asimetría es positivo, es decir g1 > 0.

36

Estadística para el transporte

Módulo 1

Recuperado de https://goo.gl/MgGZ7D Asimetría negativa o a la izquierda: se presenta si las distribuciones de frecuencias tienden a descender más lentamente por la izquierda. El valor del coeficiente de asimetría es negativo, es decir g1 < 0.

Recuperado de https://goo.gl/MgGZ7D Cuando se tienen que la distribución de frecuencia es simétrica el valor que toma el coeficiente de asimetría es 0, es decir g1 = 0. En resumen se tiene de la asimetría que: 37

Estadística para el transporte

Módulo 1

Recuperado de https://goo.gl/HtZ2B4 Como se observa en las gráficas la asimetría describe la distribución de la gráfica observada de forma horizontal, faltaría de forma vertical. Para este fin se definirá la curtorsis. Curtorsis: mide que grado de apuntamiento hacia arriba y hacia abajo, tiene la distribución de frecuencias con respecto a las medidas de tendencia central de los datos. Se simboliza con la letra K. Se definen tres distribuciones según su grado de curtorsis: Distribución leptocúrtica: es una distribución de frecuencia que presenta un alto grado de concentración alrededor de los datos centrales. K>0 Distribución mesocútica: es una distribución de frecuencias que presenta un grado de concentración medio alrededor de los datos centrales. K=0 Distribución platicúrtica: es una distribución de frecuencias que presenta un reducido grado de concentración alrededor de los datos centrales. Kopciones (seguir el color azul)

2° Archivo>opciones>complementos>herramientas para análisis>complementos de Excel> ir (guiarse del color de las letras)

44

Estadística para el transporte

Módulo 1

3° Seleccionar herramientas para el análisis y dar aceptar

4°El menú “análisis de datos”, se puede ver activo en datosGráfico>Gráfico de dispersión

48

Estadística para el transporte

Módulo 1

El resultado es este gráfico: ¿Cuántas veces ha sentidos taquicardia o fatiga este último mes? Y

3,5 3 2,5 2 1,5 1 0,5 0 0

2

4

6

8

10

12

14

16

3° colocar el cursor sobre los puntos azules, dar clic derecho y seleccionar agrega línea de tendencia.

49

Estadística para el transporte

Módulo 1

4° La recta de regresión es graficada, para cambiar de color a rojo se va formato de línea de tendencia, se elige el logotipo de pintura y en color se selecciona rojo:

5° Para hacer que aparezca la ecuación de la recta, en formato de línea de tendencia se elige el logotipo de barras y en la parte inferior señalar “presentar ecuación de la gráfica”:

50

Estadística para el transporte

Módulo 1

Se cambia el título del gráfico y se tiene:

Recta de regresión lineal X,Y 3,5 3 2,5 y = 0,1618x - 0,0632 2 1,5 1 0,5 0 0

2

4

6

8

10

12

14

16

6° Por último se va a colocar la etiqueta de los datos: se coloca sobre los puntos azules el cursor se da clic derecho y se elige “agregar etiquetas de los datos