ESTADISTICA I

Estadística I APUNTES DE ESTADÍSTICA I ESTOS APUNTES PERTENECEN A: ALEJANDRO VILLAFAÑA NEGRETE MATRICULA 9478 GRUPO 44

Views 185 Downloads 2 File size 3MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Estadística I

APUNTES DE ESTADÍSTICA I

ESTOS APUNTES PERTENECEN A: ALEJANDRO VILLAFAÑA NEGRETE MATRICULA 9478 GRUPO 441 LICENCIATURA EN MERCADOTECNIA

Estadística I

CAPITULO 1 INTRODUCCIÓN A LA ESTADÍSTICA ANTECEDENTES Puede decirse que la estadística nació con los primeros Estados, y ésa es precisamente la etimología de la palabra estadística que deriva del término latín status (estado). En efecto, desde la Antigüedad los estados necesitaron recopilar datos sobre sus respectivos dominios y con diversos propósitos: fiscal, militar, agrícola, etc. Aunque estas primitivas estadísticas no tenían una finalidad científica, proporcionaban información numérica útil para el estado, que a partir del conocimiento estadístico del pasado y del presente podía establecer hipótesis sobre el futuro que orientasen su acción política. La palabra estadística la acuño el profesor Gottfried Achenwall (17191772), siendo el Dr. E. A. W. Zimmerman quien introdujo el término en Inglaterra. Su uso lo divulgó Sir John Sinclair en su obra titulada “Statical Account of Scotland 1791-1799” (Informe estadístico sobre Escocia 17911799), la verdadera estadística científica comenzó en el siglo XVII con los trabajos de Pierre Simón Laplace (1749-1827) y de Carl Friedrich Gauss (17771855), quienes obtuvieron importantes resultados a partir de su estudio de la teoría de los errores y la probabilidad. A lo largo del siglo XIX, la estadística se consolidó como disciplina científica, herramienta auxiliar imprescindible para otras ciencias que facilitó importantes descubrimientos. Ya en el siglo XX, los métodos de inferencia estadística incorporaron la formulación matemática de las leyes de la probabilidad. DEFINICIÓN Con el fin de estudiar inteligentemente el tema de la estadística debemos, en primer lugar, comprender lo que el término significa: ESTADÍSTICA.- Es un conjunto de técnicas mediante las cuales se recopilan, organizan y analizan datos con el propósito de tomar decisiones. Es una ciencia que se sirve de conjuntos de datos para obtener, a partir de ellos, conclusiones basadas en el cálculo de probabilidades.

Las aplicaciones de la estadística en el mundo moderno son innumerables y está presente como herramienta auxiliar en todas las ramas de la ciencia, la industria y la economía. La estadística tiene un gran campo de aplicación en diversas áreas de estudio. Dentro de las aplicaciones típicas en el área administrativa económica podemos mencionar:  Pruebas de calidad  Administración de personal 2

Estadística I                   

Administración de recursos humanos Cotizaciones Pólizas de garantía Oportunidades de crédito Nivel de competencia Investigación de mercados Registros contables Análisis de proyectos de inversión Seguros de vida Accidentes de trabajo Presupuestos Desempleo Niveles de productividad Bolsa de valores Composición del sector industrial Auditorias Establecimiento de salarios Inventarios Predicciones en el nivel de ventas y demanda de productos. CLASIFICACIÓN DE LA ESTADÍSTICA La estadística se divide en dos áreas: descriptiva e inferencial. 1. Estadística descriptiva:

Incluye las técnicas y herramientas que nos permiten recolectar, organizar, ordenar y resumir un conjunto de datos. Estas técnicas pueden ser de índole distinta: gráficas tabulares o de cálculo. Algunas técnicas son: *Gráficas: Histogramas, polígonos, ojivas. * Tabulares: Distribuciones de frecuencia * Cálculo: Obtener medidas de tendencia central y variación. Ejemplos del uso de la aplicación de la estadística descriptiva:  Calcular el promedio de artículos en inventario por mes  Presentar gráficamente el comportamiento de ventas mensuales en una empresa  Determinar cuál de dos fábricas presenta una mayor variación en el número de artículos producidos diariamente  Calcular el salario medio de un grupo de trabajadores  Representar gráficamente como está segmentado el mercado de consumidores de acuerdo con marcas de refresco  Determinar cuál es la falla más frecuente que se presenta en un grupo de máquinas  Clasificar un grupo de trabajadores de acuerdo con: la edad, productividad, salarios, etc. 3

Estadística I

2. Estadística inferencial: Comprende aquellas técnicas que nos permiten obtener y deducir conclusiones acerca de una población basándose en resultados del estudio de una muestra, con la finalidad de tomar decisiones. Debido a que estas decisiones normalmente se toman en condiciones de incertidumbre se requiere el uso de conceptos de probabilidad. Algunas técnicas son:     

Distribución de muestreo Intervalos de confianza Pruebas de hipótesis Análisis de regresión y correlación Pruebas Xi cuadrada

Ejemplos de aplicación de la estadística inferencial:     

Se puede estimar la respuesta de los consumidores acerca de una campaña publicitaria Se puede predecir los porcentajes de votantes que registrará cada partido político en una elección Estimar cuantas de las declaraciones anuales de los contribuyentes contienen errores o datos falsos Predecir el % de artículos defectuosos que se encuentran en un embarque Encontrar si existe alguna relación entre la productividad de los trabajadores con respecto a una nueva política de trabajo

TAREA: DAR TRES EJEMPLOS DE APLICACIÓN DE LA ESTADÍSTICA DESCRIPTIVA Y DOS DE LA ESTADÍSTICA INFERENCIAL.

DESCRIPCIÓN Y RESUMEN DE DATOS Los datos estadísticos se obtienen mediante un proceso que comprende la observación o medición de conceptos como: ingresos anuales de una comunidad, calificaciones de exámenes, cantidad de café por sobre, resistencia a la ruptura de ciertos materiales, porcentaje de azúcar en cereales, etc. Tales conceptos reciben el nombre de variables, ya que producen valores que tienden a mostrar un cierto grado de diferencia al efectuar mediciones sucesivas.

4

Estadística I

Dependiendo de la naturaleza de los datos a medir, las variables se pueden clasificar de la siguiente manera:

Cualitativas Variables Continuas Cuantitativas Discretas Las variables cualitativas (o nominales) permiten arreglar los datos en categorías por ejemplo: contar cuantos profesores, ingenieros, administradores, contadores hay en un grupo de personas; determinar si un producto es de buena, mala o regular calidad; clasificar a los obreros como calificados o no calificados, etc. Las variables cuantitativas se determinan mediante valores numéricos por ejemplo: las ganancias anuales de una empresa, la producción diaria de petróleo, el tiempo requerido para rellenar un formulario gubernamental o el valor de un inventario. Las variables cuantitativas de dividen a su vez en dos tipos: continuas y discretas. Se denominan continuas cuando pueden asumir cualquier valor dentro de un determinado intervalo, por ejemplo: . El peso de un producto . La temperatura del día . La altura de una persona . Los litros de gasolina vendidos en un día Las variables discretas por el contrario, sólo pueden asumir ciertos valores dentro de un intervalo, es decir números enteros, por ejemplo: . Número de latas en una caja . Número de máquinas en reparación . Número de pedidos al día . Cantidad de facturas en un archivero . Número de clientes de una compañía . Número de piezas defectuosas producidas por una máquina

TAREA: PROPORCIONAR 5 EJEMPLOS DE VARIABLE CUALITATIVA, 5 DE VARIABLE CUANTITATIVA DISCRETA Y 5 DE VARIABLE CUANTITATIVA CONTINUA.

5

Estadística I

CAPITULO 2

ESCALAS DE MEDICIÓN Una escala de medición nos permite realizar la medición y clasificación de los datos a estudiar y está directamente relacionada con el tipo de variable a medir. Existen cuatro tipos de escala de medición: 1. Nominal 2. Ordinal 3. De intervalo 4. De razón 1.- Escala nominal.- Representa el nivel mínimo de medición y se utiliza para variables de tipo cualitativo y consiste en categorizar solamente el tipo de dato en algún grupo o con algún nombre.

Por ejemplo:

1 2 3 4

Variable.- Marca de zapato deportivo Marca Nike Adidas New Balance Concord

Número de pares 12 50 45 15

Otros ejemplos: Sexo (masculino, femenino), religión (católico, protestante, testigo, etc.)

2.- Escala ordinal.- Permite además de categorizar los datos, darles un orden de acuerdo con el grado en el que posean determinado atributo. Por ejemplo: Variable.- Calidad de un producto 1 2 3

Calidad

Número de productos

Excelente Buena Regular

56 30 20

6

Estadística I

Otros ejemplos: Nivel socioeconómico (bajo, medio, alto); complexión (delgada, media, gruesa). 3.- Escala de intervalo.- Se utiliza para variables de tipo cuantitativo y permite además de darle un orden, medir numéricamente las diferencias que existen entre los datos. Es importante mencionar que no tiene un cero absoluto, es decir, que sí una variable tiene el valor de cero no indica que haya ausencia de la característica medida.

Por ejemplo: Variable.- La edad en años cumplidos Edad

Número de personas

*

1 2 3 4

0 -10 11-20 21-30 Más de 30

25 30 48 5

(*) En este caso 0 años no significa que no tengan edad, sino que no han cumplido aún un año (Cero Relativo). Otros ejemplos: La temperatura del día (00 no indica que no haya temperatura), calificación de desempeño del empleado (0 no indica que no exista desempeño, sino tal vez un mal desempeño), saldo promedio de una tarjeta de crédito (0 no significa que no tenga saldo).

4.- Escala de razón.- Tiene las propiedades de una escala por intervalos, con la excepción de que si posee un cero absoluto, es decir, el cero indica ausencia total de la característica medida. Por ejemplo: Variable.- Número de artículos defectuosos en embarques Número de defectuosos

1 2 3 4

0-20 21-40 41-60 Más de 60

artículos

Cantidad de embarques

10 5 1 0

Otros ejemplos: Velocidad de un automóvil, cantidad de cafeína en un producto, número de de cajas de cigarrillos en exhibición.

7

Estadística I DISTRIBUCIONES DE FRECUENCIA Es una tabla de resumen en la cual se agrupan en clases o categorías los posibles valores de una variable y se registra el número de observaciones (frecuencia) que corresponde a cada clase. Las variables pueden ser cualitativas (nominales) o cuantitativas (numéricas), y si son cuantitativas, las clases de la distribución pueden ser de punto o de intervalo. Ejemplos: Variable Cualitativa Sexo (clase o categoría)

Número de alumnos (frecuencia)

Masculino Femenino Total

25 15 40

Variable Cuantitativa Distribución de punto Edad (Clase)

Número de alumnos (frecuencia)

18 19 20 21 22 23 Total

4 10 5 1 10 10 40

Variable Cuantitativa Distribución por intervalo De extremo cerrado Edad (clase)

18-20 21-23 Total

Número de alumnos (frecuencia)

19 21 40

Variable Cuantitativa Distribución por intervalo De extremo abierto Edad (clase)

Menos de 20 20 o más Total

Número de alumnos (frecuencia)

14 26 40

8

Estadística I

CONSTRUCCIÓN DE UNA DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALO Una distribución de frecuencias se puede definir como: La tabulaciòn, o el registro por marcas, del número de veces que se presenta una cierta medición de una característica, dentro de la muestra o población que se está examinando. Para ejemplificar el procedimiento de construcción se tomará el siguiente ejemplo: La siguiente es una lista de los salarios diarios a destajo para los 30 obreros que laboran en una fábrica.

24 28 31 32 25

28 24 28 32 28

30 31 28 28 27

33 26 25 26 27

26 29 26 24 29

30 30 26 32 30

Procedimiento: 1.- Calcular el rango: RANGO= DATO MAYOR – DATO MENOR (A este procedimiento también se le conoce como Amplitud, Gama o Recorrido, que es la medida más simple de dispersión). RANGO= 33 – 24 = 9 2.- Determinar el número de clases con la fórmula siguiente, redondeando a un valor entero que no sea menos a 4 ni mayor a 15: Número de clases =

Número de datos

# Clases = (30)1/2 = 5.47 -> 5 Criterio de redondeo > ó = 0.5 hacia arriba y < 0.5 hacia abajo 3.- Determinar el intervalo de clase: Intervalo= (Rango + 1) / Número de clases Intervalo= (9+1) = 2 5 El resultado se debe redondear según la resolución de datos, si son enteros a enteros, si tienen un decimal a un decimal, etc. 4.- Construir la tabla de distribución, anotando para cada clase el límite inferior, superior y frecuencia (número de datos que incluye). En algunos casos se debe agregar una clase más a las calculadas para que todos los datos estén en alguna clase (sucede generalmente cuando el intervalo fue redondeado hacia abajo en el paso anterior)

9

Estadística I

Número de clase

Salario Limite inferior

Salario Limite superior

Frecuencia

1 2 3 4 5 Total

24 26 28 30 32

25 27 29 31 33

5 7 8 6 4 30

FRECUENCIA RELATIVA Y ACUMULADA Clase

Limite inferior

1 2 3 4 5

Limite superior

24 26 28 30 32

25 27 29 31 33

Frecuencia absoluta

Frecuencia relativa

Frecuencia acumulada

Frecuencia relativa acumulada

5 7 8 6 4

16.7 % 23.3% 26.7% 20.0% 13.3%

5 12 20 26 30

16.7% 40.0% 66.7% 86.7% 100%

Marca de clase

25 27 29 31 33

(Nota: Marca de clase: Xc= Limite inferior + Intervalo) 2

TAREA: LOS DATOS QUE SE DAN A CONTINUACIÓN CORRESPONDEN A LA LONGITUD MEDIA EN PIES PARA UNA MUESTRA DE 23 LANCHAS PESQUERAS:

66 93 69 73 57

65 66 61 77 56

96 96 51 89 55

80 75 84 69 78

71 61 58

CONSTRUYA UNA DISTRIBUCIÓN DE FRECUENCIAS COMPLETA PARA EL PROBLEMA

10

Estadística I

¿Población o Muestra? Cuando no es posible trabajar con todos los datos de la población es necesario trabajar con una muestra representativa. Los expertos en estadística recogen datos de una muestra y utilizan esa información para hacer inferencias sobre la población que representa esa muestra. Así, una población es un todo y una muestra es una fracción o segmento de ese todo. La estadística reclama una muestra lo más grande posible a fin de asegurar la máxima protección. Como resultado, el tamaño de la muestra apropiado para un análisis, no se decide sobre la base de un cálculo estadístico fijo, sino que por lo general hay que tomar en cuenta dos factores: 1. El aspecto económico; o sea, ¿cuánto costará tomar cada lectura? 2. La exactitud estadística que se requiere; es decir, ¿qué error se puede permitir en la determinación de los valores de las medidas de dispersión y de tendencia central de la distribución?. Por lo tanto, se debe buscar una compensación entre los aspectos económicos y estadístico. Un profesionista capaz es aquel que puede llevar a la práctica los conocimientos de la estadística, la lectura de la información y el cálculo de los datos obtenidos, para con ello permitir que la toma de decisiones sea más eficiente y la probabilidad de error disminuya. La experiencia que se tenga del proceso de que se trate y el sentido común del personal interesado, juega un papel importante en estas decisiones. Heriberto Romo muestra una tabla muy práctica con margen de error de +/- 5%, para determinar tamaños de muestra: Tamaño del universo Tamaño de la muestra 10 20 50 100 200 500 1000 2000 5000 10 000 100 000 1 000 000 50 000 000

10 19 44 79 131 216 275 319 353 366 378 380 380

Fuente: Galindo Càceres Jesús (Coord.) “Técnicas de investigación en Sociedad, Cultura y comunicación” México Ed. Pearson 1988, 528 pp

11

Estadística I

CAPITULO 3 REPRESENTACIONES GRÁFICAS. Gráficas para variables cualitativas. Gráfica de barras.- Se anotan sobre uno de los ejes las categorías y sobre el otro eje la frecuencia (conteo) dibujando una barra para cada categoría.

Ejemplos: Profesión (clase) Médico Contador Administrador Ingeniero Abogado Total

Número de Personas (frecuencia) 25 10 40 50 25 150

% de Personas 16.7 6.7 26.7 33.3 16.7

Grados

Grados acumulados

60° 24° 96° 120° 60°

60° 84° 180° 300° 360°

100.1

12

Estadística I Histograma 60 50 Frecuencia

50 40 40 25

30

25

20 10 10 0

Médico

Contador

Administrador

Ingeniero

Abogado

25

No de personas

10

No de personas

40

No de personas

50

No de personas

25

No de personas Profesión

Gráfica de Pastel (Pay).- La circunferencia es dividida de acuerdo con el % de frecuencia (frecuencia relativa) que corresponda a cada categoría sobre la base de 360° de la circunferencia.

Abogado. 16.70%

Médico. 16.70% Contador. 6.70%

Ingeniero. 33.30%

Médico

Contador

Administrador. 26.70%

Administrador

Ingeniero

Abogado

13

Estadística I

TAREA: Construya una distribución de frecuencias para los alumnos de su grupo por género (hombres y mujeres) y represéntelos gráficamente. Construya la distribución de frecuencias y las gráficas para la pregunta 7 del problema 6 de los ejercicios de la página 19 y 20. GRÁFICAS PARA VARIABLES CUANTITATIVAS. Histograma.- El histograma es la forma más común para la presentación de datos clasificados. Es una gráfica a base de barras sin espacios intermedios de una distribución de frecuencias. Se construye fabricando sobre el eje horizontal los límites inferiores de clase y sobre el eje vertical la frecuencia absoluta o frecuencia relativa. La escala vertical o eje Y generalmente comienza en cero, mientras que el eje X o la escala horizontal puede iniciarse con cualquier número adecuado que convenga como punto de partida para iniciar las clases. Histograma de frecuencia absoluta

No de obreros

9

8

8 7

7 6

6

5

5

4

4 3 2 1 0 salario salario salario

24

26

26

28

28

30

30

32

32

34

5 7 8 6

salario

4

salario salarios

14

Estadística I

Histograma de frecuencia relativa 30.00%

26.70% 23.30%

% de obreros

25.00%

20%

20.00%

16.70% 13.30%

15.00% 10.00% 5.00% 0.00%

24 salario

26

26

28

28

30

30

32

32

34

16.70% 23.30%

salario

26.70%

salario

20%

salario

13.30%

salario Salario

No de obreros

Polígono de Frecuencia.- Es una gráfica de líneas de una distribución de frecuencia, en el eje horizontal se anota las marcas de clase y en el eje vertical la frecuencia absoluta o relativa. (El polígono de frecuencia también puede formarse colocando un punto sobre la mitad de la cúspide de cada rectángulo del histograma y luego uniendo dichos puntos por medio de una línea). Representan curvas útiles para describir los datos. 10 8 6 4 2 0

8

7

6

5

0

0 23

4 0

23 25

25 27

27 29

29 31

31 33

33 35

Salario

Los polígonos poseen ciertas ventajas: 1. El polígono de frecuencias es más sencillo que su histograma correspondiente. 2. Bosqueja con más claridad un perfil del patrón de datos.

15

Estadística I 3. El polígono se vuelve cada vez más suave y parecido a una curva conforme aumentemos el número de clases y el número de observaciones. Un polígono como el que se acaba de describir (suavizado mediante el aumento de datos y de clases puntuales) se conoce como curva de frecuencia. Los histogramas y los polígonos de frecuencia son similares Ojiva.- Es una gráfica de líneas de la frecuencia acumulada, sobre el eje horizontal se anota los límites inferiores de clase y sobre el eje vertical la frecuencia acumulada o relativa acumulada. (Muchas de éstas tienen el aspecto de una “S”). Nos permite ver cuántas observaciones están por encima de ciertos valores, en lugar de hacer un mero registro del número de elementos que hay dentro de los intervalos. Ojiva porcentual (frecuencia relativa acumulada) 120% 100%

100% 87%

% de Obreros

80%

76% 76% 76% 76% 76% 76% 76% 66.70%

60% 52% 52% 52% 52% 52% 40%

40.00%

20%

17%

0%

0% 0

24

0.00% 26

28

29

30

31

32

34

-20% Salario

Uso de ojiva (interpolación) ¿Qué porcentaje de trabajadores ganan menos de $29? R= 52% ¿Qué porcentaje de trabajadores ganan más de $31? R= 100-76=24%

16

Estadística I

TAREA: Resuelve los siguientes ejercicios.

1.- Del problema de las lanchas pesqueras: aa)) Construya las gráficas de histogramas, polígonos y ojivas. bb)) Usando la ojiva ¿cuántas de las lanchas de la muestra mide menos de 75 pies? cc)) Si un artículo del reglamento para construcción de las lanchas especifica que por lo menos el 20% debe medir más de 90 pies, usando la ojiva responda si se está cumpliendo con esta disposición. 2.- A continuación se muestra un registro de un superintendente sobre el tiempo muerto en minutos sobre una muestra de los turnos de operación: 60 80 113 102 110

72 66 121 116 99

126 101 93 114 139

110 75 87 107 108

91 93 119 113 128

115 129 111 119 84

112 105 97 100 99

aa)) Construya una tabla de distribución de frecuencia absoluta, relativa, acumulada, relativa acumulada y marca de clase. bb)) Dibuje los histogramas, polígonos y ojivas. 3.- Los registros de una empresa sobre el número de trabajadores que han llegado tarde diariamente durante el último mes se reportan a continuación: 2 0 4 15 18

3 11 10 12 16

12 5 2 0 12

8 7 7 3 6

15 5 9 7 8

2 9 11 9 3

aa)) Construya una tabla de distribución de frecuencia absoluta, relativa, acumulada, relativa acumulada y marca de clase. bb)) Dibuje los histogramas, polígonos y ojivas.

17

Estadística I 4.- De los registros escolares sobre el porcentaje de alumnos que reprueban su primer examen se tomó una muestra aleatoria de 40 grupos de diversas licenciaturas y los resultados fueron: 20 3 10 12

5 8 12 16

12 9 25 18

8 12 12 14

6 4 16 13

9 15 24 32

15 23 18 20

35 14 10 26

20 11 6 14

6 5 3 18

aa)) Construya una tabla de distribución de frecuencia absoluta, relativa, acumulada, relativa acumulada y marca de clase. bb)) Dibuje los histogramas, polígonos y ojivas para frecuencias absolutas. 5.- Los registros de tránsito sobre el número de accidentes automovilísticos en la ciudad durante las primeras 6 semanas de este año indican lo siguiente:

1ª semana 2ª semana 3ª semana 4ª semana 5ª semana 6ª semana

5

Número de accidentes por día. 22 12 16 40

10

8

22

8

16

14

8

11

6

14

10

8

9

14

12

4

18

14

13

21

17

28

8

26

14

5

30

26

35

12

16

18

7

18

26

34

15

aa)) Construya una tabla de distribución de frecuencia absoluta, relativa, acumulada, relativa acumulada y marca de clase. bb)) Dibuje los histogramas, polígonos y ojivas solo de frecuencias relativas. 6.- Se realizó una encuesta para conocer la opinión de la gente sobre algunos de los temas que ha tratado el actual gobierno, algunas de las preguntas fueron: 11.. 22.. 33.. 44..

Edad. Sexo: M (asculino) F (emenino). Ingreso mensual. ¿Cómo considera que el gobierno manejó el asunto de la liquidación del SME? (1) Bien

(2) Regular

(3) Mal

18

Estadística I 55.. ¿Está de acuerdo que será bueno para el país el grabar las medicinas con el IVA? (1) Si

(2) No

66.. ¿Está de acuerdo con la legalización de autos chocolates? (1) Si

(2) No

77.. ¿Cómo califica el desempeño del gobierno de Felipe Calderón? (1) Excelente

(2) Bueno

(3) Regular

(4) Malo

De las encuestas se tomó una muestra de 35 personas con la siguiente información. Pregunta Persona

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

1 Edad

25 42 18 26 48 52 40 36 21 36 42 58 19 26 32 18 42 47 45 32 22 26 29 40 35 36 22 28 16

2 Sexo

M M M F M M M F M F F F F M F M F M M M M M F F M F F F F

3 Ingreso

3400 5200 2300 3600 5800 6800 12500 8450 4150 6850 8900 2680 4600 5800 11000 3240 8600 2450 2600 8500 3200 2800 1600 2400 4650 3220 1450 3620 1100

4 SME

2 2 3 1 2 2 2 3 1 1 1 3 2 3 1 1 1 1 2 2 2 3 3 1 1 2 3 3 2

5 Medicina

6 Legalización

2 1 2 2 2 2 2 2 1 2 1 1 2 2 2 2 2 2 2 1 2 2 2 2 2 1 1 2 2

2 1 1 1 2 2 2 2 1 2 1 2 1 2 2 1 1 1 2 2 2 2 2 1 2 2 1 2 2

7 Calif.

3 2 2 1 2 2 3 4 3 4 4 1 1 2 2 2 1 3 2 2 2 2 2 2 1 1 2 2 3 19

Estadística I 30 31 32 33 34 35 aa)) bb)) cc)) dd)) ee))

35 M 3680 1 2 2 1 42 M 5700 2 2 1 4 48 F 6800 2 1 2 2 65 F 1850 3 2 2 1 52 M 7400 1 2 2 3 32 M 3650 1 2 1 2 Realiza una distribución de frecuencias para cada pregunta. Identifica para cada pregunta el tipo de variable y la escala de medición que se usa. Construye una gráfica de pastel para la pregunta 2. Construye un histograma de frecuencia relativa para la pregunta 3. Construye una ojiva de frecuencia relativa para la pregunta 1.

El análisis exploratorio de datos Es una técnica que permite revisar muchos datos y resumirlos con rapidez usando algo tan sencillo como la aritmética básica y unos cuantos diagramas simples. Una de las técnicas más útiles es: La gráfica de tallo y hoja. Ejemplo: Calificaciones en el primer examen parcial: 79 78 78 67 76 87 85 73 99 84 72 66 57 94 84 72 51 48 61 82 93 100 89 72 Para producir una gráfica de tallo y hoja: 1. Hacer una lista vertical de los tallos 2. Dibujar una línea vertical a la derecha de los tallos 3. Listar las hojas 4. Ordenar las hojas en cada renglón 5. Girar en 900 la gráfica, obteniéndose algo que se parece a los histogramas.

TAREA: Hacer el diagrama de tallo y hoja de los problemas 2 y 3 de la página 17

20

Estadística I

CAPITULO 4 MEDIDAS DE TENDENCIA CENTRAL (MTC) El objetivo de las medidas de tendencia central es calcular un valor que sea representativo del grupo de datos bajo estudio. ¿Por qué se les llama de tendencia central? Porque el valor calculado es muy similar (tiende) a los valores que estarían en medio (parte central) del grupo de datos ordenados.  Las medidas de centralización o de tendencia central son valores que tienden a situarse en el centro de un conjunto de datos ordenados según su magnitud.  Para usos industriales, las dos medidas de tendencia central más utilizadas con la media y la mediana. Principales MTC: a. Media simple b. Media aritmética (promedio) c. Mediana d. Moda ¿Cómo se calculan las MTC? Dependiendo como se tengan los datos que se van a procesar: 1) Datos sin agrupar: Se calculan a partir de los valores individuales de los datos, es decir, se debe conocer cada uno de los valores. 2) Datos agrupados: Se calculan a partir de una tabla de distribución de frecuencias (resumen), es decir, los datos ya han sido procesados previamente en una distribución y no se cuenta con los valores individuales.

1) CALCULO DE MTC PARA DATOS SIN AGRUPAR a) Media simple: La media simple es el guarismo intermedio entre la observaciòn menor y la mayor. Por definición: Media simple= Observaciòn mayor + Observaciòn menor 2 b) Media aritmética (o promedio): Es la medida de localización más frecuentemente utilizada, especialmente en el campo de la comprobación de hipótesis estadísticas. Fórmulas:

  N i ( población) x

21

Estadística I

x x  n i (muestra )

  media aritmética de población . x  media aritmética de una muestra .  xi  Sumatoria de valores x1  x2   N  número de datos en la población . n  número de datos en la muestra . c) Mediana: La mediana es el valor que ocupa el valor central de toda la distribución de frecuencias (es el valor que divide a la distribución por la mitad). Esto es, la mitad de los casos caen por debajo de la mediana y la otra mitad se ubica por encima de ella. La mediana es una medida de tendencia central propia de los niveles de medición ordinal, por intervalos y de razón. Primeramente se deben ordenar los datos (en forma ascendente o descendente) y después se ubica el valor que esté exactamente en la parte central de la lista ordenada. Puede ser que existan dos valores centrales, en cuyo caso se debe calcular un promedio entre ellos. d) Moda. Se define como el dato que más se repite en el grupo, es decir, el de mayor frecuencia. Si solo existe un valor de moda, se dice que los datos tienen una distribución UNIMODAL, si hay dos valores distintos de moda, entonces es BIMODAL y si hay más de dos será MULTIMODAL (o POLIMODAL), También pueden existir casos donde no haya moda. Ejemplo: Calcule las MTC en datos sin agrupar para las horas extra laboradas a la semana por una muestra de 16 empleados tomados de una empresa, cuyos registros fueron: 2 2.5 3 4 2.5 2 2.5 3 3 1.5 2 3.5 1.5 1 2.5 2.5

TAREA: Resuelve los siguientes ejercicios. 1. Calcule las medidas de tendencia central del problema los salarios diarios a destajo para los 30 obreros de la página 9. 2. Calcule las medidas de tendencia central del problema de las lanchas pesqueras de la página 10.

22

Estadística I 2) CALCULO DE MTC PARA DATOS AGRUPADOS. aa)) Media Aritmética.

f X     i fi ci ( población )   fi X ci   x (muestra) f i  fi  frecuencia absoluta de cada clase. Xci  marca de cada clase.

bb)) Mediana.

Med  L inf

med

 2 f i  f aA   fc 

 (I ) 

Linf med  Límite Inferior de clase mediana . f aA  Frecuencia acumulada de la clase anterior a la mediana. f c  Frecuencia absoluta de la clase mediana .

I  Intervalo de clase. Clase Mediana  primer clase cuya frecuencia acumulda sea mayor o igual a la mitad de los datos.

23

Estadística I cc)) Moda.

Mod  Linf L inf

mod

mod





d1 d1  d 2

( I )

 Límite Inferior de clase Modal .

d 1  diferencia entre la frecuencia absoluta de la clase Modal y la anterior .

d 2  diferencia entre la frecuencia absoluta de la clase Modal y la siguiente. I  Intervalo de clase. Clase Modal  clase con mayor frecuencia absoluta más datos 

TAREA: 1. Calcule las MTC para el problema de los salarios en datos agrupados: Clase 1 2 3 4 5

L inf 24 26 28 30 32

L sup 25 27 29 31 33

f 5 7 8 6 4

fa 5 12 20* 26 30

Xc 25 27 29 31 33

2. Calcule las MTC para el problema 4 de los registros escolares sobre el porcentaje de alumnos que reprueban su primer examen en datos agrupados de la página 18. 3. Calcule las MTC para el problema 5 de los registros de tránsito sobre el número de accidentes automovilísticos en datos agrupados de la página 18.

24

Estadística I

CAPITULO 5 PERCENTILES Un percentil es una medida que señala los valores, no necesariamente en una localización central. Un percentil da información acerca de cómo se distribuyen los valores sobre el intervalo, desde el menor hasta el mayor. Para valores que no tienen muchos valores repetidos el p-ésimo (se dice “peésimo”) percentil divide los datos en dos partes. Más o menos el p por ciento de los elementos tienen valores menores que el p-ésimo percentil. Aproximadamente el (100 –p) por ciento de los elementos tienen valores mayores que el p-ésimo percentil. Este percentil se define como sigue: Percentil El p-ésimo percentil es un valor tal que por lo menos un p por ciento de los elementos tienen dicho valor o menos y, al menos (100 –p) por ciento de los elementos tienen este valor o más. Cálculo del p-ésimo percentil 1. Ordenar los datos de manera ascendente 2. Calcular un índice i i = (p/100) n En donde p es el percentil de interés y n es la cantidad de elementos. 3. (a) Si i no es entero, se redondea. El valor entero inmediato mayor que i indica la posición del p-ésimo percentil (b) Si i sí es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados en los lugares i e i+1. Ejemplo: 1. Determinar el 85º. percentil de los siguientes datos: 2210 2255 2350 2380 2390 2420 2440 2450 2550 2630 2825 2. De los mismos datos calcule el 50º. percentil CUARTILES Con frecuencia se dividen los datos en cuatro partes, cada una con aproximadamente la cuarta parte (25% de los elementos). A los puntos de división se les llama cuartiles y se definen como sigue: Q1 = Primer cuartil ó 25% percentil Q2 = Segundo cuartil ó 50% percentil (mediana) Q3 = Tercer cuartil ó 75% percentil Ejemplo: 1. Determinar el segundo cuartil (o la mediana) de los siguientes datos: 2210 2255 2350 2380 2390 2420 2440 2450 2550 2630 2825 2. Determinar de los mismos datos Q1 y Q3. 3. De los problemas 2 y 3 de la página 17 determine los valores de Q1, Q2 y Q3.

25

Estadística I DETECCIÓN DE VALORES ATÍPICOS A veces un conjunto de datos tiene uno o más elementos con valores demasiado grandes o demasiado pequeños. A los valores extremos como éstos se les llama valores atípicos. Las personas con experiencia en estadística, toman sus precauciones al identificar los valores atípicos y los revisan uno a uno cuidadosamente. Un valor atípico puede ser un elemento para el cual se haya anotado su valor en forma errónea. También puede ser uno que por error se incluyó en el conjunto de datos y debe eliminarse. El diagrama de caja (blox-pot) es un gráfico a través del cual podemos representar los datos cuartilicos. Es una forma relativamente reciente para resumir en una gráfica los datos y detectar valores atípicos. La base del trazo de un diagrama de caja es el cálculo de la mediana y los cuartiles Q1 y Q3. También se usa el rango intercuartil (RIC= Q3 - Q1). 1. Se traza un rectángulo con los extremos en el primer y tercer cuartil. Este rectángulo contiene el 50% intermedio de los datos. 2. En la caja se traza una recta vertical en el lugar de la mediana. Así, la línea de la mediana divide los datos en dos partes iguales. 3. Se ubican los datos mediante el rango intercuartil, RIC= Q3 - Q1. Los límites en el diagrama de caja están a 1.5 RIC debajo de Q1 y a 1.5 RIC arriba de Q3. Se considera que los datos fuera de estos límites son valores atípicos. 4. Se trazan líneas punteadas que se llaman bigotes de la caja, desde los extremos de ésta hasta los valores mínimo y máximo dentro de los límites. 5. Por último se marcan con un asterisco (*) las localizaciones de los valores atípicos.

TAREA: 1. Se tiene una muestra con los siguientes valores: 27, 25, 20, 15, 30, 34, 28, 15. Trace el diagrama de caja. 2. Trace el diagrama de caja para los siguientes datos: 5, 15, 18, 10, 8, 12, 16, 10 y 6. 3. Un conjunto de datos tiene un primer cuartil de 42 y un tercero de 50. Calcule los límites inferior y superior. ¿Se debe considerar atípico un valor de dato 65?

26

Estadística I

CAPÍTULO 6 MEDIDAS DE VARIACIÓN (DISPERSIÓN) El objetivo de las medidas de variación es determinar que tanta similitud o diferencia (variación) existe entre los datos bajo estudio. Las medidas de dispersión dan idea de la separación de los datos numéricos alrededor de un valor medio. Las dos medidas de dispersión de mayor utilidad son la desviación estándar y la amplitud (“range”). Las medidas de variación se calculan en base al valor de la media aritmética y entre las principales podemos mencionar: a) Desviación media (DM) b) Varianza y desviación estándar ( o típica) c) Coeficiente de variación 1) DATOS SIN AGRUPAR a) Desviación media.Es un promedio de las diferencias absolutas que existe entre cada dato del grupo con respecto a su media aritmética. M  Xi DM   N ( población) x X i DM   n (muestra)

M  Xi  Diferencia absoluta ( positiva) entre la media y cada dato. b) Varianza y desviación estándar.Son las medidas de variación más importantes en estadística y valoran la diferencia al cuadrado que existe entre cada dato y la media, para eliminar los efectos que ocasionan datos extremosos (valores que son muy altos o muy bajos con respecto al resto del grupo). La desviación estándar o típica es el promedio de desviación de las puntuaciones con respecto a la media. La varianza es la desviación estándar elevada al cuadrado.

 M  Xi 2 2   N ( población ) Varianza

 x  X i 2 s 2   n 1 ( muestra )

27

Estadística I

   2 ( población ) Desviación Estándar o Típica

s

s 2 ( muestra )

c) Coeficiente de variación.Es útil para comparar la variación de dos grupos de datos cuyos valores sean de distinta naturaleza. Se expresa como un porcentaje de la magnitud de la desviación estándar con respecto a su propia media aritmética.

100 Cv  sx 100 Cv 

 M

( población) (muestra)

Ejemplo: Determine las medidas de variación en datos sin agrupar para el problema de las horas extra.

x  2.44 Xi

2 2.5 3 1.5 2.5 2 1.5 1 3 2.5 2 2.5 4 3 3.5 2.5 ∑

x  Xi

0.44 0.06 0.56 0.94 0.06 0.44 0.94 1.44 0.56 0.06 0.44 0.06 1.56 0.56 1.06 0.06 9.24

x  Xi

2

0.1936 0.0036 0.3136 0.8836 0.0036 0.1936 0.8836 2.0736 0.3136 0.0036 0.1936 0.0036 2.4336 0.3136 1.1236 0.0036 8.9376

28

Estadística I

DM  

x  Xi n



9 . 24 16

 0 . 5775 hrs

2

x  Xi s   n 1  2

8 . 9376 15

 0 . 5958 hrs 2 (var)

s

0 .5958  0 . 7719 hrs ( DE )

Cv 

s x

100  

0 . 7719 2 . 44

100   31 .63 %

2) DATOS AGRUPADOS a) Desviación media

 fi M  Xci  DM   fi ( población )   fi x  Xci  DM   fi ( muestra )  fi  frecuencia absoluta de cada clase.

Xci  Marca de cada clase. b) Varianza y desviación estándar.



2

 fi  M  Xci 2    ( población )  fi

Varianza

 fi x  Xci   ( muestra ) s2    fi 1 2

29

Estadística I

   2 ( población) Desviación estándar

s  s 2 ( muestra )

c) Coeficiente de variación.

100  ( población ) Cv  sx 100  ( muestra ) Cv 

 M

Ejemplo: Salarios (datos agrupados). L inf L sup f Xc M  Xci Clase 1 2 3 4 5 Total

24 26 28 30 32

25 27 29 31 33

5 7 8 6 4

25 27 29 31 33

3.8 1.8 0.2 2.2 4.2

30

f M  Xci  19 12.6 1.6 13.2 16.8 63.2

M  Xci 2 14.44 3.24 0.04 4.84 17.64

fi M  Xci 

2

72.2 22.68 0.32 29.04 70.56 194.8

  $28.80 ( datos agrupados previament e calculada ) DM  6330.2  $2.11  2  19430.8  6.49 pesos 2    2  6.49  $2.55 Cv  M 100   282..5580 100   8.85%

30

Estadística I

TAREA: 1. El departamento de transito de la ciudad de Irapuato está preocupado por la velocidad a la que los conductores manejan en un tramo de la carretera principal. Los datos de la velocidad de 45 conductores en Km / hr son los siguientes: 15 32 45 46 42 39 68 47 18 31 48 49 56 52 39 48 69 61 44 42 38 52 55 58 62 58 48 56 58 48 47 52 37 64 29 55 38 29 62 49 69 18 61 55 49 Calcule: a. Las medidas de tendencia central y de dispersión de los datos no agrupados b. Las medidas de tendencia central y de dispersión de los datos agrupados c. El departamento de transporte informa que a nivel nacional, no más del 10% de los conductores excede 55 Km / hr ¿Se comportan los conductores del municipio de Irapuato de acuerdo con las afirmaciones del Departamento de Transporte acerca de los patrones de manejo? 2. El administrador de un hospital ordenó un estudio del tiempo que un paciente debe esperar antes de ser tratado por el personal de la sala de urgencias. Los datos que se presentan a continuación fueron tomados durante un día normal: Tiempo de espera (minutos) 12 26 13 16 21 7 20 14 24 25 11 27 17 15 16 29 18 5 25 13 a) Calcule las medidas de tendencia central de los datos sin agrupar b) Calcule las medidas de variación de los datos agrupados c) A partir de una ojiva, establezca cuánto tiempo debe suponerse que el 75% de los pacientes aguarden en la sala de espera.

31

Estadística I ASIMETRÍA Y LA CURTOSIS Las medidas de distribución nos permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representación gráfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la información. Su utilidad radica en la posibilidad de identificar las características de la distribución sin necesidad de generar el gráfico. Sus principales medidas son la Asimetría y la Curtosis. 1. Asimetría Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (Media aritmética). La asimetría presenta tres estados diferentes, cada uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje de asimetría.

Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran por encima del valor de la media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la media. 2. Curtosis Cuando medidos la curtosis de una distribución, estamos midiendo qué tan puntiaguda es. Es un indicador de lo plana o picuda que es una curva. Mide cuan 'puntiaguda' es una distribución respecto de un estándar. Este estándar es una forma acampanada denominada 'normal', y corresponde a una curva de gran importancia en Estadística. Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).

32

Estadística I

CAPITULO 7

PROBABILIDAD Jacob Bernoulli (1654-1705), Abraham de Moivre (1667-1754), el reverendo Thomas Bayes (1702-1761) y Joseph Lagrange (1736-1813) desarrollaron fórmulas y técnicas para el cálculo de la probabilidad. En el siglo XIX, Pierre Simón, marqués de Laplace (1749-1827), unificó todas estas ideas y compiló la primera teoría general de probabilidad. La teoría de la probabilidad fuè aplicada con éxito en las mesas de juego y, lo que es más importante a la resolución de problemas sociales y económicos. Históricamente se han desarrollado tres enfoques para definir y calcular la probabilidad: a) Clásico (axiomático) b) Frecuencia relativa c) Subjetivo

Enfoque clásico.La probabilidad se determina de la siguiente manera: Si existen N(A) resultados que son favorables a un evento de un total de N(S) resultados posibles, y todos los resultados son igualmente probables y mutuamente excluyentes, entonces la probabilidad de que ocurra el evento (A) está dada por:

P ( A) 

N ( A) N (S )

Se dice que dos resultados son mutuamente excluyentes si no pueden ocurrir simultáneamente, es decir; que al ocurrir uno de ellos automáticamente la ocurrencia del otro se anula.

33

Estadística I Ejemplos de probabilidad clásica: 1. Lanzar una moneda.

P sol  

1 2

 0 .5  50 %

Favorable que caiga sol. 2. Lanzar un dado.

Favorable que caigan 3 puntos.

P 3 ptos   16  0.1667  16.67%

Probabilidad favorable que caigan más de 4 puntos.

PMás puntos  62  0.3333  33.33% 3. Lanzar dos dados. Probabilidad de que caigan 3 puntos. Dado A: 6 resultados. Dado B: 6 resultados. 6*6=36

P 3 puntos  

2 36

 0.05  5.55 %

34

Estadística I

4. ¿Cuál es el número más probable que salga? 1

2

3

4

5

6

1

1,1

1,2

1,3

1,4

1,5

1,6

2

2,1

2,2

2,3

2,4

2,5

2,6

3

3,1

3,2

3,3

3,4

3,5

3,6

4

4,1

4,2

4,3

4,4

4,5

4,6

5

5,1

5,2

5,3

5,4

5,5

5,6

6

6,1

6,2

6,3

6,4

6,5

6,6

El número 7. 6 36

P 7  

 0.166  16.67%

5. Si se lanzan 3 monedas ¿cuál es la probabilidad de que caigan 2 soles? 1 2 3

A A A

A A S

A S S

A S A

S S S

S S A

S A A

S A S

P 2 soles   83  0.375  37 .5%

35

Estadística I

FRECUENCIA RELATIVA. La probabilidad se determina con base en la proporción de veces que se registra un resultado favorable a un evento de un total de observaciones registradas. No hay implícita ninguna suposición previa de igualdad de probabilidades.

Ejemplo: A continuación se muestra una distribución de frecuencias para las comisiones mensuales que obtuvieron un grupo de 300 vendedores. Comisión Mensual 0-5,000 >5,000-10,000 >10,000-15,000 >15,000-20,000 >20,000

No. de vendedores 15 25 35 125 100 300

Determine la probabilidad de que al elegir un vendedor, este obtenga una comisión: aa)) Mayor a $10,000. bb)) Mayor a $20,000. cc)) De $10,000 ó Menor

P comisión  10 ,000  

260 300

 0 .8667  86 .67 %

P comisión  20 ,000  

100 300

 0 .3333  33 .33 %

P comisión  10 ,000  

40 300

 0 .1333  13 .33 %

SUBJETIVO. La probabilidad esta determinada por el grado de confianza que una persona tiene en que un evento en particular ocurra, basándose en la evidencia que tiene disponible. (Es ampliamente usado).

36

Estadística I

EXPRESIONES DE VALORES DE PROBABILIDAD. La probabilidad es un valor que varia en un rango de 0 á 1 (0 á 100%). Si el valor es cero esto indica que es imposible que el evento ocurra, pero si es uno indica que el evento es seguro que ocurra.

0  P A  1 La probabilidad de que un evento ocurra más la probabilidad de que no ocurra debe ser igual a uno. (100%)

P  A   P  A'   1

P A   1  P A ' P A '  1  P A  P(A)= Probabilidad de que ocurra “A”. P (A’)= Probabilidad de que no ocurra “A”.

REGLAS DE PROBABILIDAD PARA COMBINACIÓN DE EVENTOS. Regla de la suma (adición). Cuando se quiere calcular la probabilidad de que un evento (A) u otro (B) ó ambos (A y B) ocurran entonces se aplica la regla de la suma, en la cual se pueden dar dos casos dependiendo si los eventos son ó no mutuamente excluyentes.

P A ó B   P A  P B   P AB  Eventos No mutuamente excluyente s. P A ó B   P A  P B  Eventos mutuamente excluyente s.

Ejemplo:

1 2 3 4 5

Grupo Hombre Hombre Hombre Mujer Mujer

Edad 30 años 32 40 45 20 37

Estadística I

aa)) ¿Probabilidad de que sean mujeres ó mayores de 30 años?

 P mujer   P  30   P mujer y  30  

2 5

 35 

1 5



4 5

 0 .8  80 %

bb))

 P  30 

1 5



1 5





2 5

  P  30  ó  40     A B 

P  40  0 .4 

 40 % 

cc)) Sea hombre ó tenga >35 años.

 P Hombre   P  35 años   P Hombre, 35 años    35  53  25 

4 5

80%  dd)) Sea mujer ó >40 años.

 Pmujer  P 40 años  Pmujer, 40 años   52  53  15 

4 5

80% ee)) Sea un hombre >40 años.

 PHombre,  40 años 

40%

2 5

ff)) Sea hombre ó mujer.

 P  Hombre   P mujer   53 

2 5



5 5

100% 

gg)) Tenga >20 años y