Muestreo y estadística descriptiva Emigdio Z.Flores López 2019 Instituto Tecnologico de Tijuana Contenido I 1. Intro
Views 86 Downloads 2 File size 710KB
Muestreo y estadística descriptiva Emigdio Z.Flores López 2019
Instituto Tecnologico de Tijuana
Contenido I
1. Introducción
2. Muestreo
3. Resumen estadís co
4. Resúmenes gráficos
1
62
Introducción
Introducción
Generalidades
· En la probabilidad se razona a par r de la población a la muestra. · En la estadís ca, el razonamiento parte de la muestra para llegar al conocimiento de toda la población.
3
62
Introducción
Métodos estadís cos - idea básica Ejemplo Considere una máquina que hace varillas de acero para su uso en disposi vos óp cos de almacenamiento. La especificación del diámetro de las varillas es 0.45 ± 0.02 cm. En la úl ma hora, la máquina ha hecho mil varillas. El ingeniero que supervisa la calidad quiere saber cuántas de estas varillas sa sfacen la especificación. En este contexto, toma una muestra aleatoria de 50 varillas, las mide y encuentra que 46 de éstas (92 %) sa sfacen la especificación del diámetro.
4
62
Introducción
Métodos estadís cos - idea básica Ejemplo Considere una máquina que hace varillas de acero para su uso en disposi vos óp cos de almacenamiento. La especificación del diámetro de las varillas es 0.45 ± 0.02 cm. En la úl ma hora, la máquina ha hecho mil varillas. El ingeniero que supervisa la calidad quiere saber cuántas de estas varillas sa sfacen la especificación. En este contexto, toma una muestra aleatoria de 50 varillas, las mide y encuentra que 46 de éstas (92 %) sa sfacen la especificación del diámetro. 1. El ingeniero necesita calcular la magnitud de la diferencia probable entre las proporciones de la muestra y de la población. ¿Qué tan grande es una diferencia pica para esta clase de muestra? 2. Después de que ha observado que 92 % de las varillas de la muestra estaba bien, indicará los porcentajes de las varillas aceptables en la población como un intervalo de la forma 92 % ± x %, donde x es un número calculado para tener una confianza razonable de que los porcentajes reales de la población están en este intervalo. ¿Cómo se debe calcular x? 3. Por úl mo, quiere estar muy seguro de que el porcentaje de varillas buenas es de al menos 90 %; en otro caso detendrá el proceso para recalibrarlo. ¿Qué seguridad puede tener de que al menos 90 % de las mil varillas está bien? 4
62
Muestreo
Muestreo
Generalidades
· Una población representa la colección completa de elementos o resultados de la información buscada. · Una muestra cons tuye un subconjunto de una población, que con ene elementos o resultados que realmente se observan. · Una muestra aleatoria simple de tamaño n es una muestra elegida por un método en el que cada colección de n elementos de la población ene la misma probabilidad de formar la muestra, de la misma manera que en una lotería.
6
62
Muestreo
Ejemplo
Una maestra de educación sica quiere estudiar los niveles de condición sica de los estudiantes en su universidad. Hay 20000 estudiantes inscritos y desea tomar una muestra de tamaño 100 para hacerles una prueba de sus condiciones sicas. Ob ene una lista de todos los estudiantes, numerada del 1 al 20000. Usa un generador de números aleatorios de la computadora que genera 100 enteros aleatorios entre el total de números y después invita a los 100 estudiantes, a quienes corresponden dichos números, a que par cipen en el estudio. ¿Ésta es una muestra aleatoria simple?
7
62
Muestreo
Ejemplo
Una maestra de educación sica quiere estudiar los niveles de condición sica de los estudiantes en su universidad. Hay 20000 estudiantes inscritos y desea tomar una muestra de tamaño 100 para hacerles una prueba de sus condiciones sicas. Ob ene una lista de todos los estudiantes, numerada del 1 al 20000. Usa un generador de números aleatorios de la computadora que genera 100 enteros aleatorios entre el total de números y después invita a los 100 estudiantes, a quienes corresponden dichos números, a que par cipen en el estudio. ¿Ésta es una muestra aleatoria simple? Solución Sí, ésta es una muestra aleatoria simple.
7
62
Muestreo
Ejemplo
Una ingeniero que supervisa la calidad quiere inspeccionar rollos de papel tapiz para obtener información acerca de la tasa de fallas que ene la imprenta. Decide tomar una muestra de 50 rollos de la producción de un día. Cada hora durante cinco horas, toma los diez úl mos rollos producidos y cuenta el número de fallas de cada uno. ¿Ésta es una muestra aleatoria simple?
8
62
Muestreo
Ejemplo
Una ingeniero que supervisa la calidad quiere inspeccionar rollos de papel tapiz para obtener información acerca de la tasa de fallas que ene la imprenta. Decide tomar una muestra de 50 rollos de la producción de un día. Cada hora durante cinco horas, toma los diez úl mos rollos producidos y cuenta el número de fallas de cada uno. ¿Ésta es una muestra aleatoria simple? Solución No. No todo subconjunto de 50 rollos de papel tapiz ene la misma probabilidad de pertenecer a la muestra.
8
62
Figura 1: Tres gráficas de valores observados contra el orden en que se hicieron.
9
62
Muestreo
Tipos de poblaciones
· Población tangible. Este po de poblaciones son siempre finitas. Después de que se muestrea un elemento, el tamaño de población disminuye en 1. En principio, uno podría en algunos casos regresar el elemento muestreado a la población, con oportunidad de muestrearlo nuevamente, pero esto rara vez se hace en la prác ca. Estas poblaciones constan de elementos sicos reales: estudiantes de una universidad, bloques de concreto de una pila, pernos de una remesa, etc. · Población conceptual. Una muestra aleatoria simple puede consis r de valores obtenidos en un proceso en condiciones experimentales idén cas. En este caso, la muestra proviene de una población que consta de todos los valores posibles que se han observado.
10
62
Muestreo
Ejemplo
Un geólogo pesa una roca varias veces en una balanza analí ca. Cada vez, la balanza da una lectura ligeramente diferente. ¿Bajo qué condiciones se pueden considerar estas lecturas como una muestra aleatoria simple? ¿Cuál es la población?
11
62
Muestreo
Ejemplo
Un geólogo pesa una roca varias veces en una balanza analí ca. Cada vez, la balanza da una lectura ligeramente diferente. ¿Bajo qué condiciones se pueden considerar estas lecturas como una muestra aleatoria simple? ¿Cuál es la población? Solución Si las caracterís cas sicas de la balanza permanecen iguales cada vez que se pesa, se puede considerar que las mediciones se hacen bajo condiciones idén cas, entonces las lecturas se pueden considerar como una muestra aleatoria simple. La población es conceptual. Consta de todas las lecturas que la balanza en principio podría producir.
11
62
Muestreo
Independencia
· Los elementos en una muestra son independientes si el conocimiento de algunos de los valores de los elementos no ayuda a predecir los valores de los otros. · Los elementos en una muestra aleatoria simple se pueden tratar como independientes en muchos casos que se encuentran en la prác ca. Ocurre una excepción cuando la población es finita y la muestra consiste de una parte importante (más de 5 %) de la población.
12
62
Muestreo
Procedimientos de muestreo
1. Probabilis co · Aleatorio con y sin remplazo. Es aquel en que el proceso de selección de la muestra garan za que todas las muestras posibles por obtener de la población pueden tener la misma probabilidad de ser elegidas.
13
62
Muestreo
Procedimientos de muestreo
1. Probabilis co · Aleatorio con y sin remplazo. Es aquel en que el proceso de selección de la muestra garan za que todas las muestras posibles por obtener de la población pueden tener la misma probabilidad de ser elegidas. · Por conglomerados. La población se divide en áreas que se llaman conglomerados, cada uno de estos sera lo mas heterogéneo posible internamente y lo mas homogéneo entre si.
13
62
Muestreo
Procedimientos de muestreo
1. Probabilis co · Aleatorio con y sin remplazo. Es aquel en que el proceso de selección de la muestra garan za que todas las muestras posibles por obtener de la población pueden tener la misma probabilidad de ser elegidas. · Por conglomerados. La población se divide en áreas que se llaman conglomerados, cada uno de estos sera lo mas heterogéneo posible internamente y lo mas homogéneo entre si. · Estra ficado. La población se divide en estratos homogéneos internamente y lo mas heterogéneos externamente entre si.
13
62
Muestreo
Procedimientos de muestreo
1. Probabilis co · Aleatorio con y sin remplazo. Es aquel en que el proceso de selección de la muestra garan za que todas las muestras posibles por obtener de la población pueden tener la misma probabilidad de ser elegidas. · Por conglomerados. La población se divide en áreas que se llaman conglomerados, cada uno de estos sera lo mas heterogéneo posible internamente y lo mas homogéneo entre si. · Estra ficado. La población se divide en estratos homogéneos internamente y lo mas heterogéneos externamente entre si. · Sistemá co. En este caso se divide la población en subconjuntos de tamaño n; a con nuación, se toma al azar un elemento del primer grupo que ocupa el lugar k y el resto de los elementos de la muestra ocupan los lugares: N N k + , k + 2 , k, . . . (1) n n
13
62
Muestreo
Procedimientos de muestreo
1. Probabilis co · Aleatorio con y sin remplazo. Es aquel en que el proceso de selección de la muestra garan za que todas las muestras posibles por obtener de la población pueden tener la misma probabilidad de ser elegidas. · Por conglomerados. La población se divide en áreas que se llaman conglomerados, cada uno de estos sera lo mas heterogéneo posible internamente y lo mas homogéneo entre si. · Estra ficado. La población se divide en estratos homogéneos internamente y lo mas heterogéneos externamente entre si. · Sistemá co. En este caso se divide la población en subconjuntos de tamaño n; a con nuación, se toma al azar un elemento del primer grupo que ocupa el lugar k y el resto de los elementos de la muestra ocupan los lugares: N N k + , k + 2 , k, . . . (1) n n
2. Intencional
13
62
Muestreo
Tipos de experimentos
1. Una-muestra. Hay sólo una población de interés y se extrae únicamente una muestra de ésta. 2. Muestras-mul ples. Hay dos o más poblaciones de interés y se toma una muestra de cada población. 3. Factoriales. En muchos experimentos de muestras-múl ples, las poblaciones se dis nguen entre sí al cambiar uno o más factores que pueden afectar el resultado.
14
62
Muestreo
Tipos de datos 1. Numérico o cuan ta vo. 2. Categóricos o cuali vos. Ejemplo Muestra 1 2 3 4 5
Par de torsion (kN· m) 165 237 222 255 194
Posición de falla Soldadura Viga Viga Viga Soldadura
¿Qué datos son numéricos y cuáles categóricos?
15
62
Muestreo
Tipos de datos 1. Numérico o cuan ta vo. 2. Categóricos o cuali vos. Ejemplo Muestra 1 2 3 4 5
Par de torsion (kN· m) 165 237 222 255 194
Posición de falla Soldadura Viga Viga Viga Soldadura
¿Qué datos son numéricos y cuáles categóricos? Solución Los pares de torsión, en la columna de en medio, son datos numéricos. Las posiciones de la falla, en la columna de la derecha, son datos categóricos. 15
62
Muestreo– Ejercicios
Ejercicio 1 Cada uno de los siguientes procesos implica el muestreo de una población. Defina la población y diga si es tangible o conceptual. a) Se recibe una remesa de pernos de un distribuidor. Para verificar si la remesa es aceptable respecto de la fuerza de corte, un ingeniero selecciona diez pernos, uno tras otro, del recipiente para probarlos. b) La resistencia de cierto resistor se mide cinco veces con el mismo óhmetro. c) Un estudiante de posgrado que se especializa en ciencia ambiental forma parte de un equipo de estudio que está evaluando el riesgo para la salud humana de cierto contaminante presente en el agua de la llave en su pueblo. Una parte del proceso de evaluación implica calcular la can dad de empo que las personas que viven en ese pueblo está en contacto con el agua de la llave. El estudiante convence a los residentes del pueblo para que lleven una agenda mensual, detallando la can dad de empo que están en contacto con el agua de la llave día con día. d) Se hacen ocho soldaduras con el mismo proceso y se mide la fuerza en cada una. 16
62
Muestreo– Ejercicios
Ejercicio 2
Verdadero o falso: a) Una muestra aleatoria simple garan za que refleja exactamente a la población de la que se extrajo. b) Una muestra aleatoria simple está libre de cualquier tendencia sistémica en diferir de la población de la que se extrajo.
17
62
Muestreo– Ejercicios
Ejercicio 3
Se ha usado durante mucho empo un proceso para la fabricación de botellas de plás co y se sabe que 10 % de éstas se encuentra defectuoso. Se está probando un nuevo proceso que, se supone, reduce la proporción de defectos. En una muestra aleatoria simple de 100 botellas producidas con el nuevo proceso, diez estaban defectuosas. a) Uno de los ingenieros sugiere que la prueba demuestra que el nuevo proceso no es mejor que el proceso anterior, ya que la proporción de defectos es la misma. ¿Es ésta una conclusión jus ficada? Explique. b) Suponga que hubieran sido solamente nueve las botellas defectuosas de la muestra de 100. ¿Esto habría probado que el nuevo proceso es mejor? Explique. c) ¿Qué resultado presenta pruebas más evidentes de que el nuevo proceso es mejor: encontrar nueve botellas defectuosas en la muestra o encontrar dos botellas defectuosas en la muestra?
18
62
Resumen estadís co
Resumen estadís co
Media muestral o media aritmé ca
Sea X1 , . . . , Xn una muestra. La media muestral es X=
20
n 1∑ Xi n i=1
(2)
62
Resumen estadís co
Ejemplo
Una muestra aleatoria simple de cinco hombres se elige de entre una gran población de hombres y se mide su estatura. Las cinco cifras de estatura (en pulgadas) son 65.51, 72.30, 68.31, 67.05 y 70.68. Encuentre la media muestral.
21
62
Resumen estadís co
Ejemplo
Una muestra aleatoria simple de cinco hombres se elige de entre una gran población de hombres y se mide su estatura. Las cinco cifras de estatura (en pulgadas) son 65.51, 72.30, 68.31, 67.05 y 70.68. Encuentre la media muestral. Solución Usamos la ecuación 2. La media muestral es X=
1 (65.51 + 72.30 + 68.31 + 67.05 + 70.68) = 68.77 pulgadas 5
21
62
Resumen estadís co
Varianza muestral y desviación estándar muestral
Sea X1 , . . . , Xn una muestra. La varianza muestral es la can dad s2 =
n 1 ∑ (Xi − X)2 n − 1 i=1
Sea X1 , . . . , Xn una muestra. La desviación estándar es la can dad v u n u 1 ∑ s=t (Xi − X)2 n − 1 i=1
22
(3)
(4)
62
Resumen estadís co
Ejemplo
Encuentre la varianza muestral y la desviación estándar muestral para los datos de las estaturas del ejemplo anterior.
23
62
Resumen estadís co
Ejemplo
Encuentre la varianza muestral y la desviación estándar muestral para los datos de las estaturas del ejemplo anterior. Solución Primero se calculará la varianza muestral usando la ecuación 3. La media muestral es X = 68.77. La varianza muestral es, por lo tanto s2 =
1 [(65.51−68.77)2 +(72.30−68.77)2 +(68.31−68.77)2 +(67.05−68.77)2 +(70.68−68.77)2 ] = 7.47665 4
La desviación estándar muestral es la raíz cuadrada de la varianza muestral: √ s = 7.47665 = 2.73
23
62
Resumen estadís co
Datos a picos
A veces una muestra puede contener algunos puntos que son mucho más grandes o pequeños que el resto. Estos puntos se llaman datos a picos.
Figura 2: Conjunto de datos que con ene un dato a pico.
24
62
Resumen estadís co
Mediana muestral
Si n números están ordenados del más pequeño al más grande: · Si n es impar, la mediana muestral es el número en la posición
n+1 2
· Si n es par, la mediana muestral representa el promedio de los números en las posiciones n + 1. 2
25
n 2
y
62
Resumen estadís co
Ejemplo
Encuentre la mediana muestral para los datos de la estatura en el ejemplo anterior.
26
62
Resumen estadís co
Ejemplo
Encuentre la mediana muestral para los datos de la estatura en el ejemplo anterior. Solución Las cifras de los cinco casos de estatura, en orden creciente, son 65.51, 67.05, 68.31, 70.68, 72.30. La mediana muestral es el número de en medio, que es 68.31.
Figura 3: Cuando una muestra con ene datos a picos, la mediana podría ser más representa va de la muestra que la media.
26
62
Resumen estadís co
Moda y rango
· Moda. La moda muestral es el valor que ene más frecuencia en una muestra. Si algunos valores enen una frecuencia igual, cada uno representa una moda. · Rango. El rango es la diferencia entre los valores más grandes y más pequeños en una muestra.
27
62
Resumen estadís co
Ejemplo
En el ar culo “Evalua on of Low-Temperature Proper es of HMA Mixtures” (P. Sebaaly, A. Lake y J. Epps, en Journal of Transporta on Engineering, 2002:578-583) se midieron los siguientes valores de la tensión de fractura (en megapascales) para una muestra de 24 mezclas de asfalto mezclado caliente (HMA). 30 223
75 232
79 232
80 236
80 240
105 242
126 245
138 247
149 254
179 274
179 384
191 470
Encuentre las modas y el rango para la muestra.
28
62
Resumen estadís co
Ejemplo
En el ar culo “Evalua on of Low-Temperature Proper es of HMA Mixtures” (P. Sebaaly, A. Lake y J. Epps, en Journal of Transporta on Engineering, 2002:578-583) se midieron los siguientes valores de la tensión de fractura (en megapascales) para una muestra de 24 mezclas de asfalto mezclado caliente (HMA). 30 223
75 232
79 232
80 236
80 240
105 242
126 245
138 247
149 254
179 274
179 384
191 470
Encuentre las modas y el rango para la muestra. Solución Hay tres modas: 80, 179 y 232. Cada uno de estos valores aparece dos veces y ningún otro valor aparece más de una vez. El rango es 470 − 30 = 440.
28
62
Resumen estadís co
Cuar les
La mediana divide la muestra a la mitad. Los cuar les la dividen tanto como sea posible en cuartos.
29
62
Resumen estadís co
Percen les
El p-ésimo percen l de una muestra, para un número p entre 0 y 100, divide a la muestra tanto como sea posible, el p % de los valores de la muestra es menor que el p-ésimo percen l y el (100 - p) % son mayores.
30
62
Resumen estadís co
Estadís ca descrip va
El resumen estadís co de datos se conoce como estadís ca descrip va porque describe los datos.
31
62
Resumen estadís co
Estadís ca muestral y parámetros poblacionales
· Un resumen numérico de una muestra se llama estadís co. · Un resumen numérico de una población se llama parámetro. · Con frecuencia los estadís cos se usan para es mar los parámetros.
32
62
Resumen estadís co– Ejercicios
Ejercicio 4
Verdadero o falso: para cualquier lista de números, la mitad de ellos estará debajo de la media.
33
62
Resumen estadís co– Ejercicios
Ejercicio 5
¿Es la media de la muestra siempre igual a uno de los valores que está en la muestra? Si es así, explique por qué. Si no, dé un ejemplo.
34
62
Resumen estadís co– Ejercicios
Ejercicio 6
Encuentre un tamaño de la muestra para el cual la mediana siempre sea igual a uno de los valores en la muestra.
35
62
Resumen estadís co– Ejercicios
Ejercicio 7
En una compañía, cada trabajador recibió un aumento de 5 %. ¿Cómo afecta esto la media de los sueldos? ¿Y la desviación estándar de los sueldos?
36
62
Resumen estadís co– Ejercicios
Ejercicio 8
Una clase de estadís ca con 40 estudiantes realizó una prueba. El puntaje posible más alto era de cuatro puntos. Diez estudiantes obtuvieron cuatro puntos, 12 lograron tres puntos, ocho alcanzaron dos puntos, seis se beneficiaron con un punto y cuatro obtuvieron cero puntos. Calcule la media, la mediana y la desviación estándar de los puntajes.
37
62
Resumen estadís co– Ejercicios
Ejercicio 9
En otra clase de estadís ca, el número total de estudiantes no se conoce. En esta clase, 25 % obtuvo cuatro puntos, 30 % alcanzó tres puntos, 20 % se benefició con dos puntos, 15 % logró un punto y 10 % resultó con cero puntos. a) ¿Es posible calcular la media de los puntajes para esta clase? Si es así, calcúlela. Si no, explique por qué. b) ¿Es posible calcular la mediana de los puntajes para esta clase? Si es así, calcúlela. Si no, explique por qué. c) ¿Es posible calcular la desviación estándar de la muestra de los puntajes para esta clase? Si es así, calcúlela. Si no, explique por qué.
38
62
Resumen estadís co– Ejercicios
Ejercicio 10
¿Por qué nadie habla del cuarto cuar l? ¿O lo hacen?
39
62
Resúmenes gráficos
Resúmenes gráficos
Diagramas de tallo y hoja
La media, mediana y la desviación estándar son resúmenes numéricos de una muestra o de una población. Los resúmenes gráficos también se usan para ayudar a visualizar una lista de números. Una gráfica de tallos y hojas cons tuye una manera simple de resumir un conjunto de datos.
41
62
Resúmenes gráficos
Ejemplo
Tabla 1: Duración (en minutos) de los periodos de inac vidad del géiser Old Faithful
42 55 68 75 80 84
45 55 69 75 80 84
49 56 70 76 80 85
50 56 71 76 81 86
51 57 72 76 82 86
51 58 73 76 82 86
51 60 73 76 82 88
51 66 74 79 83 90
53 67 75 79 83 91
53 67 75 80 84 93
Cada elemento de la muestra se divide en dos partes: un tallo, que consta de uno o dos dígitos que están en el extremo izquierdo, y la hoja, que consta del siguiente dígito significa vo.
42
62
Resúmenes gráficos
Ejemplo (cont...)
En los datos del géiser, el tallo es el dígito de las decenas y las hojas, una unidad. Cada renglón del diagrama de tallos y hojas con ene todos los elementos de la muestra con un tallo dado. El diagrama de tallos y hojas es una forma compacta de representar los datos. Stem 4 5 6 7 8 9
Leaf 259 0111133556678 067789 01233455556666699 000012223344456668 013
43
62
Resúmenes gráficos
Ejemplo (MINITAB) Stem-and-leaf of HiAltitude Leaf Unit = 1.0 4 19 (14) 29 15 8 7 4 4 3 1 1
0 0 0 0 0 1 1 1 1 1 2 2
N = 62
1111 222222223333333 44445555555555 66666666777777 8889999 0 233 7 89 3 44
62
Resúmenes gráficos
Diagramas de puntos
Un diagrama de puntos es un gráfico que se puede usar para tener una impresión aproximada de la forma de una muestra. Es ú l cuando el tamaño de la muestra no es demasiado grande y cuando la muestra con ene algunos valores repe dos.
Figura 4: Diagrama de puntos para los datos del géiser.
Para cada valor de la muestra se dibuja una columna ver cal de puntos, con el número de puntos de la columna igual al número que aparece el valor en la muestra.
45
62
Resúmenes gráficos
Histogramas Un histograma es una gráfica que da una idea de la “forma” de una muestra, indicando las regiones donde los puntos de la muestra están concentrados y las regiones donde son escasos. Tabla 2: Tabla de frecuencias para las emisiones EP de 62 vehículos conducidos a mayor al tud
Intervalo de clase (g/gal) 1-