Recursos para El Aprendizaje Efectivo de

Recursos para el Aprendizaje Efectivo de la ESTADÍSTICA y la PROBABILIDAD RAEEP Ejemplos y Ejercicios resueltos Lic. G

Views 58 Downloads 0 File size 5MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Recursos para el Aprendizaje Efectivo de la

ESTADÍSTICA y la PROBABILIDAD RAEEP

Ejemplos y Ejercicios resueltos Lic. Gabriel Leandro, MBA

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad

www.auladeeconomia.com/raeep.html

2

Tabla de contenidos INTRODUCCIÓN A LA ESTADÍSTICA

3

PRESENTACIÓN DE LA INFORMACIÓN ESTADÍSTICA

13

ANÁLISIS DESCRIPTIVO DE LA INFORMACIÓN ESTADÍSTICA

19

DISTRIBUCIONES DE FRECUENCIAS

65

INTRODUCCIÓN A LAS PROBABILIDAD

84

DISTRIBUCIONES DE PROBABILIDAD DE VARIABLE DISCRETA

103

DISTRIBUCIONES DE PROBABILIDAD DE VARIABLE CONTINUA

143

ESTIMACIÓN POR INTERVALOS

170

MUESTREO

192

PRUEBAS DE HIPÓTESIS

209

PRUEBAS DE HIPÓTESIS PARA LA DIFERENCIA DE DOS MEDIAS O PROPORCIONES POBLACIONALES

236

CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE

267

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

3

1

.

Introducción a la estadística OBJETIVOS: Al concluir el capítulo, será capaz de:  Explicar el concepto de estadística y sus funciones principales  Reconocer la diferencia entre estadística descriptiva e inferencial  Identificar las fases básicas de una investigación estadística  Conocer las escalas de medición de las variables estadísticas

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

4

Ejercicio de revisión

Clasifique las siguientes variables como cualitativas o cuantitativas, y en caso de ser cuantitativas señale si son discretas o continuas: 1. Marca de un refresco producido en el país. Cualitativa 2. Grado académico de un profesional. Cualitativa 3. Ingreso mensual familiar. Cuantitativa continua 4. Número de hijos. Cuantitativa discreta 5. Talla de una camiseta (pequeña, mediana, grande). Cualitativa 6. Número de la talla de un pantalón (10, 12, etc.). Cuantitativa discreta 7. Tiempo de espera en una fila para recibir un servicio. Cuantitativa continua 8. Ciudad de residencia. Cualitativa 9. Calidad de un producto (sin defectos, con defectos menores o con defectos mayores). Cualitativa 10. Peso de un paquete de harina. Cuantitativa continua 11. Nombre del principio activo de un medicamento. Cualitativa 12. Número de personas en una fila. Cuantitativa discreta 13. Cantidad de energía eléctrica consumida por mes en una empresa. Cuantitativa continua 14. Número de artículos defectuosos por línea de ensamble. Cuantitativa discreta 15. Consumo de calorías por día. Cuantitativa continua

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

5

Ejercicio de revisión

El encargado de recursos humanos de una empresa va a realizar un estudio de clima organizacional. Para ello va a aplicar un cuestionario a todos los funcionarios que actualmente laboran en la empresa y les va a pedir que den su opinión con respecto a la comunicación dentro de la empresa, el liderazgo de los gerentes, las relaciones interpersonales, entre otros aspectos. Con respecto a esta situación indique: 1. ¿Cuál es la unidad estadística? Un funcionario actual de la empresa 2. ¿Cuál puede ser un ejemplo de una característica o variable cuantitativa que pueda interesar en este estudio? Antigüedad (años de laborar para la empresa) 3. ¿Cuál puede ser un ejemplo de una característica o variable cualitativa que pueda interesar en este estudio? Opinión sobre las relaciones interpersonales 4. ¿Cuál es la población? Conjunto de funcionarios actuales de la empresa

Ejemplo

Un funcionario de un banco desea hacer una evaluación de cliente interno, es decir, una evaluación de ciertos servicios que los distintos departamentos del banco se prestan entre sí. Con ese fin ha elaborado un cuestionario, el cual, por el nivel de sus contenidos deberá ser aplicado al personal que ocupa puestos de jefatura. El banco posee 5.000 empleados, pero solo 350 ocupan puestos de jefatura. Con base en la información anterior, determine: 1. ¿Cuál es la unidad estadística? 2. ¿Cuál puede ser un ejemplo de una característica o variable cuantitativa que pueda interesar en este estudio? 3. ¿Cuál puede ser un ejemplo de una característica o variable cualitativa que pueda interesar en este estudio? 4. ¿Cuál es la población? 5. ¿Vale la pena emplear una muestra o es mejor aplicar el cuestionario a toda la población? 6. Suponga que se aplica el cuestionario a la población, ¿habría error a la hora de hacer la estimación de los parámetros investigados? 7. ¿Cuál podría ser un posible sesgo?

Solución

1. Dado que el cuestionario solo debe ser aplicado a los puestos de jefatura, entonces la unidad estadística no corresponde a un empleado del banco, sino a un empleado que ocupe un puesto de jefatura en el periodo en el cual se va a realizar el estudio. 2. Una característica o variable cuantitativa que pueda interesar en este estudio puede ser el tiempo que tiene el funcionario de laborar para el

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

6

3.

4.

5.

6.

7.

Ejercicio de revisión

banco, o el número de empleados que tiene como subordinados, entre muchas otras posibles respuestas. Una característica o variable cualitativa que pueda interesar en este estudio puede ser la valoración que hace del servicio que presta otro departamento (calificándolo como muy bueno, bueno, regular, malo o muy malo), o el departamento para el cual labora el funcionario que contesta el cuestionario, entro muchas otras respuestas posibles. Dada la definición que se hizo en la pregunta 1 de la unidad de estudio, la población correspondería al conjunto de empleados que ocupen puestos de jefatura en el periodo en el cual se va a realizar el estudio. Una población está compuesta por 350 personas no es demasiado grande, por lo que podría emplearse la población. Sin embargo puede ser que las oficinas se encuentren distribuidas a lo largo de todo el país, y que por aspectos de costo y tiempo sea mejor emplear una muestra. Si se aplica el cuestionario a la población, entonces no habrá error de muestreo a la hora de hacer la estimación de los parámetros investigados. Este error aparece solo cuando se utiliza una muestra en el estudio. Existen muchos posibles sesgos, pero uno muy frecuente es el diseño inadecuado del cuestionario. Por ejemplo, que contenga preguntas mal redactadas, que sugieran la respuesta, etc.

Un investigador está interesado en conocer el impacto de las relaciones entre padres e hijos sobre el desempeño académico de los niños en edad escolar. Para realizar su estudio ha diseñado un cuestionario que desea aplicar a una muestra de niños en varias escuelas de la ciudad capital durante el año 2013. Con respecto a esta situación indique: 1. ¿Cuál es la unidad estadística? La unidad estadística es un niño en edad escolar matriculado en una escuela de la ciudad capital durante el año 2013. 2. ¿Cuál puede ser un ejemplo de una característica o variable cuantitativa que pueda interesar en este estudio? Variables cuantitativas: edad, calificaciones, horas de estudio con los padres, horas de actividades recreativas realizadas con los padres, etc. 3. ¿Cuál puede ser un ejemplo de una característica o variable cualitativa que pueda interesar en este estudio? Variables cualitativas: zona o barrio de residencia, nivel socio económico de la familia, sexo, etc. 4. ¿Cuál es la población? Es el conjunto de niños en edad escolar matriculados en una escuela de la ciudad capital durante el año 2013. 5. ¿Vale la pena emplear una muestra o es mejor aplicar el cuestionario a toda la población?

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

7 Dado que la población estaría compuesta por muchos miles de niños, entonces para incurrir en menor costo y concluir el estudio en menos tiempo sería mejor emplear una muestra, además de poder estudiar con más detalle cada caso. 6. ¿Cuáles ventajas y desventajas tendría realizar el estudio empleando una muestra no aleatoria? Ventajas: - Un muestreo por conveniencia posiblemente dé menores costos y menor tiempo. - Un muestreo a juicio podría revelar información de casos de interés particular para el investigador. - Un muestreo voluntario podría incluir familias con mucha disposición a brindar la información. Desventajas: - En el muestreo no aleatorio es difícil obtener muestras representativas de toda la población, por lo que luego no se podrían generalizar las conclusiones al resto de la población. 7. ¿Cuáles ventajas y desventajas tendría realizar el estudio empleando una muestra aleatoria? Ventajas: - La muestra aleatoria evita los sesgos de selección, o sea, la muestra no está influida por el criterio del investigador ni su conveniencia. - La muestra podría ser representativa de la población permitiendo la inferencia, o sea, generalizar los resultados a toda la población. Desventajas: - Mayor costo, más tiempo en la realización del estudio y la negativa de algunas unidades de estudio. 8. Dé un ejemplo de un posible sesgo que podría presentarse en un estudio de este tipo. Posibles causas pueden de sesgos pueden ser: - Inadecuada selección de la muestra, que refleje solo ciertos estratos de la sociedad. - Aplicación del cuestionario en horarios o sitios inapropiados. - Las variables del estudio son complejas y podría ser muy difícil definirlas y medirlas.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

8

Ejercicio de revisión

Clasifique las siguientes fuentes de información como primarias o secundarias: 1. Artículo de un periódico sobre el crecimiento de las exportaciones del país.  Fuente secundaria 2. Reporte del instituto de estadística del país sobre la evolución del desempleo a nivel nacional.  Fuente primaria 3. Informe del Fondo Monetario Internacional sobre las tasas de inflación de los países de América Latina.  Fuente secundaria 4. Estado de pérdidas y ganancias de una compañía entregado a sus accionistas.  Fuente primaria 5. Folleto de la Organización Panamericana de la Salud sobre la prevalencia de las enfermedades cardiovasculares en los países de América Latina.  Fuente secundaria 6. Artículo de una revista científica en que un investigador presenta los hallazgos que obtuvo sobre la salud bucodental de una comunidad rural del país.  Fuente primaria 7. Anuario estadístico del Banco Interamericano de Desarrollo sobre la infraestructura vial en los países de América Latina.  Fuente secundaria 8. Anuario estadístico del Ministerio de Hacienda sobre la recaudación fiscal.  Fuente primaria 9. Reporte sobre el control de la calidad de una línea de producción.  Fuente primaria 10. Informe sobre las mercaderías en existencia de una tienda.  Fuente primaria

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

9

Ejercicio de revisión

Clasifique las siguientes variables según su nivel de medición (nominal, ordinal, de intervalo o de razón): 1. Marca de un refresco producido en el país.  Nominal 2. Grado académico de un profesional.  Ordinal 3. Ingreso mensual familiar.  De razón 4. Número de hijos.  De razón 5. Talla de una camiseta (pequeña, mediana, grande).  Ordinal 6. Número de la talla de un pantalón (10, 12, etc.).  De intervalo 7. Tiempo de espera en una fila para recibir un servicio.  De razón 8. Ciudad de residencia.  Nominal 9. Calidad de un producto (sin defectos, con defectos menores o con defectos mayores).  Ordinal 10. Peso de un paquete de harina.  De razón

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

10 Examen del capítulo: En cada caso seleccione la opción que mejor contesta cada pregunta (las respuestas a los ejercicios se encuentran en la página de internet del texto: ): 1. La estadística es un conjunto de ___________ aplicadas a la recolección, descripción y análisis de datos, los cuales constituyen evidencia numérica para la toma de decisiones en condiciones de __________. La opción que mejor completa la frase anterior: ( a ) sistemas; incertidumbre ( b ) métodos y teorías; incertidumbre ( c ) métodos y teorías; certidumbre ( d ) métodos y teorías; riesgo 2. Una _____________ es una parte representativa de la población que se selecciona para ser estudiada ya que la población es demasiado grande para ser estudiada en su totalidad. La opción que mejor completa la frase anterior es: ( a ) Característica ( b ) Muestra ( c ) Observación ( d ) Población 3. Considere el siguiente concepto: "unidad de interés en el campo bajo estudio, sobre la cual recae la observación y de la cual se derivan los datos para el análisis". Esto corresponde al concepto de: ( a ) Unidad estadística ( b ) Característica ( c ) Muestra ( d ) Población 4. De las siguientes, no es una razón para trabajar con muestras en vez de la población es: ( a ) La población se destruye al estudiarla ( b ) El costo de estudiar la población es muy alto ( c ) La población es muy grande ( d ) Ninguna de las anteriores 5. Con respecto a la variable “estatura” es falso que: ( a ) Se mide en una escala de razón ( b ) Es una variable cuantitativa discreta, pues la gente siempre la da como un número entero ( c ) No se puede medir en una escala ordinal, o sea, como grande, mediano, pequeño ( d ) No es una característica de la unidad estadística 6. Un ingeniero debe estimar si las varillas de construcción que la compañía ha comprado satisfacen los requerimientos establecidos en cuanto al diámetro de las mismas. Para ello se formula lo siguiente: A. La unidad estadística es el diámetro de las varillas, pues es lo que le interesa saber. B. Dado que se han comprado miles de varillas, lo mejor será tomar una muestra de al menos la mitad de las varillas para tener una muestra representativa. De las anteriores, con toda certeza, son correctas: ( a ) Ambas afirmaciones ( b ) Solo la afirmación A ( c ) Solo la afirmación B ( d ) Ninguna de las afirmaciones

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

11 7. Considere las dos siguientes afirmaciones: A. En algunos casos es necesario emplear una muestra porque la población se destruiría al estudiarla. B. La principal razón para estudiar una muestra en vez de la población es reducir los costos. Con respecto a las dos afirmaciones anteriores, es correcto que: ( a ) Ambas son verdaderas ( b ) Solo A es verdadera ( c ) Solo B es verdadera ( d ) Ambas son falsas 8. Un ingeniero requiere determinar si los tiempos que duran los operarios en realizar una actividad se ajustan a los parámetros establecidos por la compañía. Para ello se formula lo siguiente: A. La unidad estadística es el tiempo promedio, pues es lo que le interesa saber. B. Dado que se han contratado cientos de operarios, lo mejor será tomar una muestra de al menos el 80% de los operarios para tener una muestra representativa. De las anteriores, son correctas con toda certeza: ( a ) Ambas afirmaciones ( b ) Solo la afirmación A ( c ) Solo la afirmación B ( d ) Ninguna de las afirmaciones 9. Un ingeniero requiere determinar si los tiempos que duran los operarios en realizar una actividad se ajustan a los parámetros establecidos por la compañía. La característica “tiempo de realización de la actividad” es una variable que se mide en una escala: ( a ) De razón ( b ) Ordinal ( c ) De intervalo ( d ) Nominal 10. Un ingeniero requiere determinar si los tiempos que duran los operarios en realizar una actividad se ajustan a los parámetros establecidos por la compañía. Si la característica “grado académico del operario” se evalúa como “Primaria incompleta, primaria completa, secundaria incompleta, secundaria completa”, entonces la variable se mide en una escala: ( a ) De razón ( b ) Ordinal ( c ) De intervalo ( d ) Nominal 11. El gerente de un centro de llamadas desea evaluar el desempeño del sistema y para ello decide basarse en los tiempos de espera de los clientes para ser atendidos (medido en segundos) y el grado de satisfacción que los clientes manifiesten al recibir el servicio (valorado como bueno, regular o malo). La semana anterior tomó una muestra de 12 llamadas por día de lunes a miércoles. Los siguientes son los tiempos de las muestras tomadas de lunes a miércoles: Número de muestra (tiempo en segundos) 1 2 3 4 5 6 7 8 9 13 15 15 16 16 16 16 17 17 12 15 15 16 16 15 16 18 15 30 40 45 45 50 50 45 35 60 Las preguntas de la 11 a la 17 se basan en la información anterior.

10 19 20 50

11 11 30 80

12 21 40 100

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

12 Una variable medida en escala nominal puede ser: ( a ) Tiempo de espera ( b ) Nombre del agente de servicio que atendió ( c ) Grado de satisfacción del cliente ( d ) Número de llamadas hechas por el cliente 12. Con base en la información de la pregunta 11, una variable medida en escala ordinal puede ser: ( a ) Tiempo de espera ( b ) Nombre del agente de servicio que atendió ( c ) Grado de satisfacción del cliente ( d ) Número de llamadas hechas por el cliente 13. Con base en la información de la pregunta 11, una variable medida en escala de razón puede ser: ( a ) Tiempo de espera ( b ) Nombre del agente de servicio que atendió ( c ) Grado de satisfacción del cliente ( d ) Ninguna de las anteriores 14. Con base en la información de la pregunta 11, una variable cualitativa puede ser: ( a ) Tiempo de espera ( b ) Número de llamadas atendidas por día ( c ) Grado de satisfacción del cliente ( d ) Número de llamadas hechas por el cliente 15. Con base en la información de la pregunta 11, una variable continua puede ser: ( a ) Tiempo de espera ( b ) Número de llamadas atendidas ( c ) Grado de satisfacción del cliente ( d ) Número de llamadas hechas por el cliente 16. Con base en la información de la pregunta 11, una variable discreta puede ser: ( a ) Tiempo de espera ( b ) Nombre del agente de servicio que atendió ( c ) Grado de satisfacción del cliente ( d ) Ninguna de las anteriores 17. Con base en la información de la pregunta 11, considere las dos siguientes afirmaciones: A. Si el centro de llamadas tiene un sistema que registra los tiempos de todas las llamadas, es mejor hacer un censo. B. Dado que son muchas las llamadas, es necesario tomar una muestra muy grande. Con respecto a las dos afirmaciones anteriores, es correcto con toda certeza que: ( a ) Ambas son verdaderas ( b ) Solo A es verdadera ( c ) Solo B es verdadera ( d ) Ambas son falsas

Respuestas a los ejercicios de selección múltiple: 1. b 5. b 9. a 13. a 17. b

2. b 6. d 10. b 14. c

3. a 7. a 11. b 15. a

4. d 8. d 12. c 16. d

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

13

2

.

Presentación de la información estadística OBJETIVOS: Al concluir el capítulo, será capaz de:  Identificar las formas principales de presentar la información estadística.  Presentar apropiadamente la información estadística en un formato textual.  Elaborar cuadros estadísticos.  Construir gráficos adecuados según el tipo de datos.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

14

Ejercicio de revisión

Con base en los datos proporcionados elabore un cuadro estadístico completo que incluya todas las partes de un cuadro: Considere la siguiente información que se obtuvo del estudio “Comportamiento Clínico y Epidemiológico de las Infecciones Nosocomiales en la Unidad de Cuidados Intensivos Neonatales del Hospital Dr. Oscar Danilo Rosales Argüello”. “Al momento de su egreso fallecieron 61.4% de los recién nacidos. De ellos el 67.4% fue por enterobacter y 16.2 por pseudomonas aeruginosa. Un 31.4% de los recién nacidos fue dado de alta y abandonaron el centro hospitalario un 7.2% en muy malas condiciones”. El proyecto fue elaborado por la Dra. Juana María Membreño Sequeira en el período comprendido de octubre 2002 a enero 2004 y fue publicado en http://www.minsa.gob.ni/enfermeria/PDF/327.pdf en marzo de 2004.

Hospital Dr. Oscar Danilo Rosales Argüello, Unidad de Cuidados Intensivos Neonatales, Comportamiento Clínico y Epidemiológico de las Infecciones Nosocomiales Octubre 2002 a enero 2004 Condición de egreso Fallecidos al egresar Por enterobacter Por pseudomonas aeruginosa Por otras infecciones Dados de alta Abandonan en malas condiciones Total

% 41.38% 9.95% 10.07% 31.40% 7.20% 100.00%

Fuente: Membreño Sequeira, Juana María (2004). Comportamiento Clínico y Epidemiológico de las Infecciones Nosocomiales en la Unidad de Cuidados Intensivos Neonatales del Hospital Dr. Oscar Danilo Rosales Argüello, Recuperado de http://www.minsa.gob.ni/enfermeria/PDF/327.pdf

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

15

Ejercicio de revisión

Indique qué tipo de gráfico emplearía para presentar los siguientes datos. Explique en cada caso: a. Porcentaje de niños de un año vacunados contra el sarampión para los países de América Central en el 2009.  Barras horizontales b. Porcentaje de niños de un año vacunados contra el sarampión para Costa Rica y Panamá del año 2000 al 2009.  Barras verticales comparativas c. Tasa de prevalencia del VIH entre la población de 15 a 49 años de edad por sexo para Costa Rica en el 2009.  Gráfica circular d. Relación entre el porcentaje de cobertura de atención prenatal y la razón de mortalidad materna por cada 100.000 nacidos vivos para 10 países de América Latina en el 2006.  Gráfica de dispersión

Examen del capítulo: En cada caso seleccione la opción que mejor contesta cada pregunta (las respuestas a los ejercicios se encuentran en la página de internet del texto: ). 1. Si se quiere representar la composición de un todo, el tipo de gráfico adecuado para representar esos datos es: ( a ) Gráfica de barras horizontales ( b ) Gráfica de barras verticales ( c ) Gráfica circular ( d ) Pictograma 2. Si se tiene una serie cronológica, el tipo de gráfico adecuado para representarla es: ( a ) Gráfica de barras horizontales ( b ) Gráfica de barras verticales ( c ) Histograma ( d ) Diagrama de dispersión 3. Si se tiene una serie cualitativa, el tipo de gráfico adecuado para representarla es: ( a ) Gráfico circular ( b ) Gráfico lineal ( c ) Gráfico de barras verticales ( d ) Gráfico de barras horizontales

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

16 4. ¿Qué tipo de gráfico utilizaría para representar el porcentaje de niños de un año vacunados contra el sarampión para los países de América Central en el 2009? ( a ) Gráfico circular ( b ) Gráfico lineal ( c ) Gráfico de barras verticales ( d ) Gráfico de barras horizontales 5. ¿Qué tipo de gráfico utilizaría para representar el porcentaje de niños de un año vacunados contra el sarampión para Costa Rica y Panamá del año 2000 al 2009? ( a ) Gráfico de barras horizontales comparativas ( b ) Gráfico de barras horizontales compuestas ( c ) Gráfico de barras verticales comparativas ( d ) Gráfico de barras verticales compuestas 6. ¿Qué tipo de gráfico utilizaría para representar la distribución porcentual del número de personas afectadas por el VIH entre la población de 15 a 49 años de edad por sexo para Costa Rica en el 2009? ( a ) Gráfico circular ( b ) Gráfico lineal ( c ) Gráfico de barras verticales ( d ) Gráfico de barras horizontales 7. ¿Qué tipo de gráfico utilizaría para representar la relación entre el porcentaje de cobertura de atención prenatal y la razón de mortalidad materna por cada 100.000 nacidos vivos para 10 países de América Latina en el 2006? ( a ) Gráfico circular ( b ) Diagrama de dispersión ( c ) Pictograma ( d ) Gráfico de barras horizontales 8. Si usted va a representar las exportaciones anuales de un país en el periodo 2009 – 2011, ¿cuál tipo de gráfico es más apropiado? ( a ) Gráfico circular ( b ) Gráfico lineal ( c ) Gráfico de barras verticales de doble dirección ( d ) Gráfico de barras horizontales 9. Si usted va a representar las exportaciones anuales de un país en el 2011 clasificadas por tipo de producto, ¿cuál tipo de gráfico es más apropiado? ( a ) Gráfico circular ( b ) Gráfico lineal ( c ) Gráfico de barras verticales de doble dirección ( d ) Gráfico de barras horizontales 10. Si usted va a representar las exportaciones anuales de un país en el periodo 2009 – 2011 por tipo de producto, ¿cuál tipo de gráfico es más apropiado? ( a ) Gráfico de barras horizontales comparativas ( b ) Gráfico de barras horizontales compuestas ( c ) Gráfico de barras verticales comparativas ( d ) Gráfica de dispersión

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

17

11. ¿Qué tipo de gráfico utilizaría para representar el monto de las ventas (en dólares) de una empresa por tipo de producto para el año 2012? ( a ) Gráfico circular ( b ) Gráfico lineal ( c ) Gráfico de barras verticales ( d ) Gráfico de barras horizontales 12. ¿Qué tipo de gráfico utilizaría para representar el monto de las ventas (en dólares) de una empresa por año del 2007 al 2012? ( a ) Gráfico circular ( b ) Barra 100% ( c ) Gráfico de barras verticales ( d ) Gráfico de barras horizontales 13. ¿Qué tipo de gráfico utilizaría para representar la distribución porcentual de las ventas de una empresa por tipo de producto para el año 2012? ( a ) Gráfico circular ( b ) Gráfico lineal ( c ) Gráfico de barras verticales ( d ) Gráfico de barras horizontales 14. ¿Qué tipo de gráfico utilizaría para representar la distribución porcentual de las ventas de una empresa por tipo de producto y según tipo de cliente para el año 2012? ( a ) Gráfico de barras horizontales comparativas ( b ) Barra 100% ( c ) Gráfico de barras verticales compuestas ( d ) Gráfico de barras horizontales compuestas 15. ¿Qué tipo de gráfico utilizaría para comparar el monto de las ventas de una empresa (en miles $) por tipo de producto y según tipo de cliente para el año 2012? ( a ) Gráfico de barras horizontales comparativas ( b ) Barra 100% ( c ) Gráfico de barras verticales compuestas ( d ) Gráfico de barras horizontales compuestas 16. ¿Qué tipo de gráfico utilizaría para comparar el monto de las ventas de una empresa (en miles $) por tipo de producto para el periodo 2007 al 2012? ( a ) Gráfico de barras horizontales comparativas ( b ) Gráfico de barras verticales comparativas ( c ) Gráfico de barras verticales compuestas ( d ) Gráfico de barras horizontales compuestas 17. El gerente de un centro de llamadas desea evaluar el desempeño de los agentes de servicio y para ello decide basarse en los tiempos de espera de los clientes para ser atendidos (medido en segundos) y el grado de satisfacción que los clientes manifiesten al recibir el servicio (valorado como bueno, regular o malo). La semana anterior tomó una muestra de 12 llamadas por día de lunes a miércoles y 20 llamadas el jueves y el viernes. Los siguientes son los tiempos de las muestras tomadas de lunes a miércoles. El lunes y el martes se tomaron tiempos de llamadas atendidas y el miércoles solo de llamadas no atendidas:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

18

Día Lunes Martes Miércoles

1 13 12 30

2 15 15 40

3 15 15 45

Número de muestra (tiempo en segundos) 4 5 6 7 8 9 16 16 16 16 17 17 16 16 15 16 18 15 45 50 50 45 35 60

10 19 20 50

11 11 30 80

12 21 40 100

El tipo de gráfico apropiado para representar la distribución porcentual de las llamadas según el agente que contestó es: ( a ) Gráfico lineal ( b ) Gráfico de barras verticales ( c ) Gráficos de barras horizontales ( d ) Gráfico circular 18. Con base en los datos de la pregunta 17, el tipo de gráfico apropiado para representar el número de llamadas recibidas por mes durante los últimos 12 meses es: ( a ) Gráfico lineal ( b ) Diagrama de dispersión ( c ) Gráficos de barras horizontales ( d ) Barra 100%

Respuestas a los ejercicios de opción múltiple: 1. c 5. c 9. d 13. a 17. d

2. b 6. a 10. c 14. d 18. a

3. d 7. b 11. d 15. a

4. d 8. b 12. c 16. b

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

19

3

.

Análisis descriptivo de la información estadística OBJETIVOS: Al concluir el capítulo, será capaz de:  Reconocer la importancia y utilidad de las medidas de posición central.  Calcular e interpretar las principales medidas de posición en datos no agrupados.  Calcular e interpretar las principales medidas de variabilidad en datos no agrupados.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

20

Ejemplo

Suponga que se tienen los siguientes datos correspondientes a las ventas mensuales que ha realizado un vendedor durante los últimos siete meses (en millones de dólares): 20, 33, 42, 40, 19, 23, 28 Calcule la media aritmética.

Solución

El cálculo de la media sería: x

20  33  42  40  19  23  28  29,29 7

Según ese resultado, sus ventas mensuales promedio son de 29,29 millones de dólares.

Ejercicio de revisión

Con base en el siguiente conjunto de datos: 40, 50, 65, 85, 75, 90, 60, 60, 60, 75 Calcule la media aritmética. x

40  50  65  85  75  90  60  60  60  75  66 10

Uso de Excel y Minitab para el cálculo de la media aritmética

Ejemplo

Utilice Excel y Minitab para resolver el ejercicio: Suponga que se tienen los siguientes datos correspondientes a las ventas mensuales que ha realizado un vendedor durante los últimos siete meses (en millones de dólares): 20, 33, 42, 40, 19, 23, 28 Calcule la media aritmética.

Solución

En Excel, se introducen los datos, bien sea en una fila o una columna. En este caso los datos se encuentran en el rango de celdas de A1 hasta A7:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

21

Luego se elige una celda para determinar el resultado, por ejemplo la celda B8, y en ella se ingresa la siguiente función de Excel: =PROMEDIO(A1:A7) Luego se presiona Enter (o Intro) y se obtiene el resultado de 29,29, aproximadamente:

En Minitab, se introducen los datos en una columna, por ejemplo la columna C1:

Luego se da clic en el menú Estadísticas, se elige Estadística básica y ahí selecciona Mostrar estadísticas descriptivas. Ahí completa el cuadro de diálogo seleccionando la variable, que en este caso se encuentra en la columna C1:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

22

Luego en el botón Estadísticas selecciona la Media:

Luego de dar clic en Aceptar en cada cuadro, se obtiene el resultado en la ventana Sesión:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

23

Ejemplo

Suponga que una empresa posee quince vendedores de un determinado producto. Cuatro de los vendedores lograron vender 50 unidades, 6 vendieron 40 unidades, tres vendieron 35 unidades y 2 vendieron 20 unidades. ¿Cuál es el número de unidades promedio de cada vendedor?

Solución

Dado que existen valores repetidos, entonces se aplica la fórmula: k

x

x i 1

fi

i

n



4  50  6  40  3  35  2  20  39 15

Es decir, el número de unidades promedio vendidas por cada vendedor es de 39 unidades.

Ejercicio de revisión

En un muelle hay 20 contenedores que pesan 15 toneladas cada uno, 25 que pesan 20 toneladas cada uno y 10 que pesan 25 toneladas cada uno. ¿Cuál es el peso promedio de los contenedores? k

x

x f i

i 1

n

i



15  20  20  25  25  10  19,09 55

El peso promedio de los contenedores es 19,09 toneladas.

Ejemplo

Una empresa obtiene distintos márgenes de utilidad según los diferentes productos que vende. Suponiendo que vende 3 productos diferentes A, B y C, de acuerdo con los siguientes datos: Volumen de ventas Producto

Margen de utilidad

(en millones de dólares)

A

20%

200

B

30%

100

C

40%

60 Total:

$ 360

¿Cuál es el margen de utilidad promedio?

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

24

Solución

Para responder a esta pregunta es necesario calcular la media ponderada, ya que el volumen de ventas de cada producto es distinto, y eso afecta al promedio. El cálculo debe ser el siguiente: k

x

x w i 1 k

i

i

w i 1



20%  200  30%  100  40%  60  26.11% 360

i

El margen de utilidad promedio es de 26,11%. Obsérvese que los pesos ( wi ) corresponde a las ventas de cada producto, y entonces se divide entre el total de ventas.

Ejercicio de revisión

En un curso universitario se realizan tres exámenes. El segundo examen tiene un valor que es el doble del primero y el tercer examen tiene un valor que es el triple del segundo. Si un estudiante obtiene una nota de 8 en el primer examen, un 9 en el segundo y un 6 en el tercero (todas estas notas están en una escala de 0 a 10), calcule su calificación promedio. k

x

x w i 1 k

i

i

w i 1



8 1  9  2  6  6  6,88 1 2  6

i

La calificación promedio es de 6,88.

Ejemplo

El precio de un cierto producto se incrementó un 5,5% durante 1999, un 7,4% durante el 2000, un 3,7% en el 2001, un 9,85% en el 2002 y un 10% en el 2003. ¿Cuál ha sido el incremento promedio en el precio de ese producto?

Solución

Para responder a la pregunta conviene ordenar la información de la manera siguiente: Año

Incremento porcentual

En forma decimal

1999

5,50%

1,055

2000

7,40%

1,074

2001

3,70%

1,037

2002

9,85%

1,0985

2003

10,00%

1,10

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

25

Aplicando la fórmula de la media geométrica:

Mg  n x1  x2  ...  xn  5 1,055  1,074  1,037  1,0985  1,10  1,0726 Esto quiere decir que el incremento promedio del precio es de 7,26%.

Ejercicio de revisión

Un país tuvo una tasa de inflación de 5% durante el año 2009, un 4% en 2010, un 6% en 2011 y 3% en 2012. ¿Cuál es la tasa de inflación promedio en estos 4 años? Para responder a la pregunta conviene ordenar la información de la manera siguiente: Año

Incremento porcentual

En forma decimal

2009

5%

0.05

2010

4%

0.04

2011

6%

0.06

2012

3%

0.03

Aplicando la fórmula de la media geométrica:

Mg  n x1  x2  ...  xn  4 1,05  1,04  1,06  1,03  1,0449 Esto quiere decir que la inflación promedio es de 4,49%.

Uso de Excel y Minitab para calcular la media geométrica

Ejemplo

Utilice Excel y Minitab para calcular la media geométrica del conjunto de datos siguiente: 1,055 - 1,074 - 1,037 - 1,0985 - 1,10

Solución

En Excel, primero se introducen los datos en una fila o columna, por ejemplo, en la columna A, en el rango de celdas de A1 hasta A5:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

26

Luego, en la celda en la cual se desea el resultado, se introduce la siguiente función: =MEDIA.GEOM(A1:A5) Y así se obtiene el resultado de 1,0726. En Minitab, primero se introducen los datos en una columna, por ejemplo, en la columna C1:

Luego, en el menú Calc, se selecciona Calculadora y se completa el cuadro de diálogo:

Es necesario indicar dónde se desea almacenar el resultado, en este caso en la columna C2. Luego en el campo Expresión se indica la siguiente

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

27 función: GMEAN(C1) Y así se obtiene el resultado de 1,0726 en la hoja de trabajo de Minitab, y no en la ventana Sesión.

Ejemplo

Con base en los siguientes conjuntos de datos, obtenga la moda: Conjunto 1: 12, 14, 14, 15, 18, 18, 18, 22, 25 Conjunto 2: 12, 14, 14, 14, 15, 18, 18, 18, 22, 25 Conjunto 3: 12, 14, 15, 18, 22, 25 Conjunto 4: 12, 14, 14, 15, 18, 18, 18, 22, 2500

Solución

1. El dato que más veces aparece es el 18, por tanto la moda es 18. 2. El dato que más veces aparece es el 14 y el 18, por tanto la moda es 14 y 18. Este es un conjunto bimodal. 3. No tiene moda. 4. El dato que más veces aparece es el 18, por tanto la moda es 18. Observe que el valor extremo 2500 no afectó el resultado, pues el conjunto 1 y el 4 son iguales excepto por ese valor.

Ejercicio de revisión

Con base en el siguiente conjunto de datos: 40, 50, 65, 85, 75, 90, 60, 60, 60, 75 Calcule la moda o modo. La moda es 60, el dato más frecuente o más repetido.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

28

Ejemplo

Sean los siguientes datos, 5, 12, 7, 8, 10, 6, y 9, los años de servicios de un grupo de trabajadores. ¿Cuál es la mediana?

Solución

Lo primero que se hace es ordenar los datos en forma creciente o decreciente: 5, 6, 7, 8, 9, 10, 12 Dado que se tienen 7 datos, una cantidad impar de datos, se aplica la formula: PMed 

N 1 7 1  4 2 2

Ese resultado indica que la mediana será el cuarto dato de la serie, es decir, la mediana será 8, Med = 8.

Ejemplo

Sean los siguientes datos, 5, 12, 7, 8, 11, 10, 6, y 9, los años de servicios de un grupo de trabajadores. ¿Cuál es la mediana?

Solución

Lo primero que se hace es ordenar los datos en forma creciente o decreciente: 5, 6, 7, 8, 9, 10, 11, 12 Dado que se tienen 8 datos, una cantidad par de datos, se aplica la formula: PMed 

N 1 8 1   4.5 2 2

Ese resultado indica que la mediana estará entre el cuarto y el quinto dato de la serie, y por tanto será necesario calcular el punto medio entre 8 y 9, es decir, la mediana será (8+9)/2, Med = 8.5.

Ejercicio de revisión

Con base en los siguientes conjuntos de datos: Conjunto 1: 40, 50, 65, 85, 75, 90, 60, 60, 60, 75 Conjunto 2: 85, 110, 125, 130, 90, 100, 140 Calcule la mediana en cada caso. Conjunto 1: 40, 50, 60, 60, 60, 65, 75, 75, 85, 90

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

29 PMed 

N  1 10  1   5,5 2 2

Med 

60  65  62,5 2

Conjunto 2: 85, 90, 100, 110, 125, 130, 140 PMed 

N 1 7 1  4 2 2

Med = 110

Ejemplo

Suponga que se tienen tres conjuntos de datos y para cada uno de ellos se conoce la media, mediana y moda:  Conjunto 1: Media: 20, Mediana: 20, Moda: 20  Conjunto 2: Media: 30, Mediana: 40, Moda: 50  Conjunto 3: Media: 120, Mediana: 80, Moda: 70 ¿Cuál de los tres conjuntos presenta distribución simétrica, distribución asimétrica positiva y distribución asimétrica negativa?

Solución

El primer conjunto presenta una distribución simétrica, pues la media, la moda y la mediana son todas iguales. El segundo conjunto muestra una distribución asimétrica negativa, dado que la media es menor que la mediana, y a su vez, la mediana es menor que la moda. El tercer conjunto muestra una distribución asimétrica positiva, pues la media es mayor que la mediana, y la mediana es mayor que la moda.

Ejemplo

A continuación se presentan tres conjuntos de datos. En cada caso, calcule la media aritmética, la mediana y la moda del siguiente conjunto de datos: Conjunto 1: 12, 13, 14, 14, 15, 15, 15, 16, 16, 16, 16, 16, 17, 17, 17, 18, 18, 19, 20 Conjunto 2: 12, 13, 14, 15, 15, 16, 16, 17, 17, 17, 18, 18, 18, 19, 19, 19, 19, 19, 20, 20, 20

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

30 Conjunto 3: 12, 12, 12, 13, 13, 13, 13, 13, 14, 14, 14, 15, 15, 16, 16, 17, 17, 18, 19, 20 Además en cada caso, construya una gráfica (histograma) para representar a este conjunto de datos. Observe la gráfica y la relación entre la media, la mediana y la moda. ¿Qué puede decirse de la simetría o asimetría de cada conjunto?

Solución

Conjunto 1: Media = 16 Mediana = 16 Moda = 16 La media, la mediana y la moda son iguales, lo que indica una distribución simétrica, lo cual se observa claramente en la gráfica siguiente.

5

Frecuencia

4

3

2

1

0

12

14

16 C1

18

20

Conjunto 2: Media = 17,19 Mediana = 18 Moda = 19 La media es menor que la mediana, y a su vez la mediana es menor que la moda, lo que indica una distribución asimétrica negativa, lo cual se observa claramente en la gráfica siguiente.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

31

5

Frecuencia

4

3

2

1

0

12

14

16 C2

18

20

Conjunto 3: Media = 14,8 Mediana = 14 Moda = 13 La media es mayor que la mediana, y a su vez la mediana es mayor que la moda, lo que indica una distribución asimétrica positiva, lo cual se observa claramente en la gráfica siguiente.

5

Frecuencia

4

3

2

1

0

12

14

16 C3

18

20

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

32

Ejercicio de revisión

Con base en el siguiente conjunto de datos: 40, 50, 65, 85, 75, 90, 60, 60, 60, 75 Determine qué tipo de simetría o asimetría se presenta. Se calcula la moda, la mediana y el promedio: Moda = 60 Mediana = 62.5 Media = 66 Dado que la media es mayor que la mediana y, a su vez, la mediana mayor que la moda, entonces se presenta una asimetría positiva o hacia la derecha.

Ejemplo

El número de unidades de un cierto producto vendidas por 10 vendedores el mes pasado son: 120, 100, 20, 70, 100, 140, 120,150, 100, 40 Determine el primer cuartil, el tercer cuartil, el decil 4 y el 80º percentil.

Solución

Primer cuartil: Paso 1: El primer paso es ordenar la serie de datos: 20, 40, 70, 100, 100, 100, 120, 120, 140, 150 Paso 2: El primer cuartil equivale al percentil 25, por lo que m = 25 y se tienen 10 datos, por lo que n = 10. Entonces se sustituye en la fórmula: m 25 n  1  100 10  1  2,75 Pm  100

Paso 3: La fórmula anterior no da el valor del percentil, sino que da la posición del percentil 25. Hay que buscar el dato en la posición 2,75. Como no se tiene un valor en la posición 2,75, quiere decir que el valor del percentil va a estar entre el segundo valor y el tercero, entonces se realiza una interpolación. Esto es, se toma el segundo dato en la serie ordenada, que es 40, y se le suma el producto de la parte decimal del resultado de la fórmula, que es 0,75 por la diferencia entre el segundo y el tercer dato, que es 70 – 40 = 30. O sea, el percentil equivale a: Q1 = P25 = 40 + 0,75 * 30 = 62,5

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

33 Tercer cuartil: Paso 1: El primer paso es ordenar la serie de datos: 20, 40, 70, 100, 100, 100, 120, 120, 140, 150 Paso 2: El tercer cuartil equivale al percentil 75, por lo que m = 75 y se tienen 10 datos, por lo que n = 10. Entonces se sustituye en la fórmula: m 75 n  1  100 10  1  8,25 Pm  100

Paso 3: La fórmula anterior no da el valor del percentil, sino que da la posición del percentil 75. Hay que buscar el dato en la posición 8,25. Como no se tiene un valor en la posición 8,25, quiere decir que el valor del percentil va a estar entre el octavo valor y el noveno, entonces se realiza una interpolación. Esto es, se toma el octavo dato en la serie ordenada, que es 120, y se le suma el producto de la parte decimal del resultado de la fórmula, que es 0,25 por la diferencia entre el octavo y el noveno dato, que es 140 – 120 = 20. O sea, el percentil equivale a: Q3 = P75 = 120 + 0,25 * 20 = 125 Decil 4: Paso 1: El primer paso es ordenar la serie de datos: 20, 40, 70, 100, 100, 100, 120, 120, 140, 150 Paso 2: El decil 4 equivale al percentil 40, por lo que m = 40 y se tienen 10 datos, por lo que n = 10. Entonces se sustituye en la fórmula: m 40 n  1  100 10  1  4,4 Pm  100

Paso 3: La fórmula anterior no da el valor del percentil, sino que da la posición del percentil 40. Hay que buscar el dato en la posición 4,4. Como no se tiene un valor en la posición 4,4, quiere decir que el valor del percentil va a estar entre el cuarto valor y el quinto, entonces se realiza una interpolación. Esto es, se toma el cuarto dato en la serie ordenada, que es 100, y se le suma el producto de la parte decimal del resultado de la fórmula, que es 0,4 por la diferencia entre el cuarto y el quinto dato, que es 100 – 100 = 0. O sea, el percentil equivale a: D4 = P40 = 100 + 0,4 * 0 = 100 Percentil 80: Paso 1: El primer paso es ordenar la serie de datos: 20, 40, 70, 100, 100, 100, 120, 120, 140, 150 Paso 2: Se desea calcular el percentil 80, por lo que m = 80 y se tienen 10 datos, por lo que n = 10. Entonces se sustituye en la fórmula:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

34

m 80 n  1  100 10  1  8,8 Pm  100

Paso 3: La fórmula anterior no da el valor del percentil, sino que da la posición del percentil 80. Hay que buscar el dato en la posición 8,8. Como no se tiene un valor en la posición 8,8, quiere decir que el valor del percentil va a estar entre el octavo valor y el noveno, entonces se realiza una interpolación. Esto es, se toma el octavo dato en la serie ordenada, que es 120, y se le suma el producto de la parte decimal del resultado de la fórmula, que es 0,8 por la diferencia entre el octavo y el noveno dato, que es 140 – 120 = 20. O sea, el percentil equivale a: P80 = 120 + 0,8 * 20 = 136

Ejercicio de revisión

Con base en el siguiente conjunto de datos: 40, 50, 65, 85, 75, 90, 60, 60, 60, 75 Calcule el primer cuartil, el tercer cuartil, el decil 4, el quintil 3 y el percentil 65.

Primer cuartil: Paso 1: El primer paso es ordenar la serie de datos: 40, 50, 60, 60, 60, 65, 75, 75, 85, 90 Paso 2: Se desea calcular el primer cuartil, que equivale al percentil 25, por lo que m = 25 y se tienen 10 datos, por lo que n = 10. Entonces se sustituye en la fórmula: m 25 n  1  100 10  1  2,75 Pm  100

Paso 3: La fórmula anterior no da el valor del percentil, sino que da la posición del percentil 25. Hay que buscar el dato en la posición 2,75. Como no se tiene un valor en la posición 2,75, quiere decir que el valor del percentil va a estar entre el segundo valor y el tercero, entonces se realiza una interpolación. Esto es, se toma el segundo dato en la serie ordenada, que es 50, y se le suma el producto de la parte decimal del resultado de la fórmula, que es 0,75 por la diferencia entre el segundo y el tercer dato, que es 60 – 50 = 10. O sea, el percentil equivale a: P25 = 50 + 0,75 * 10 = 57,5 Tercer cuartil: Paso 1: El primer paso es ordenar la serie de datos:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

35 40, 50, 60, 60, 60, 65, 75, 75, 85, 90 Paso 2: Se desea calcular el tercer cuartil, que equivale al percentil 75, por lo que m = 75 y se tienen 10 datos, por lo que n = 10. Entonces se sustituye en la fórmula: m 75 n  1  100 10  1  8,25 Pm  100

Paso 3: Se toma el octavo dato en la serie ordenada, que es 75, y se le suma el producto de la parte decimal del resultado de la fórmula, que es 0,25 por la diferencia entre el octavo y el noveno dato, que es 85 – 75 = 10. O sea, el percentil equivale a: P75 = 75 + 0,25 * 10 = 77,5 Decil 4: Paso 1: El primer paso es ordenar la serie de datos: 40, 50, 60, 60, 60, 65, 75, 75, 85, 90 Paso 2: Se desea calcular el decil 4, que equivale al percentil 40, por lo que m = 40 y se tienen 10 datos, por lo que n = 10. Entonces se sustituye en la fórmula: m 40 n  1  100 10  1  4,4 Pm  100

Paso 3: Se aplica: P40 = 60 + 0,4 * 0 = 60 Quintil 3: Paso 1: El primer paso es ordenar la serie de datos: 40, 50, 60, 60, 60, 65, 75, 75, 85, 90 Paso 2: Se desea calcular el quintil 3, que equivale al percentil 30, por lo que m = 30 y se tienen 10 datos, por lo que n = 10. Entonces se sustituye en la fórmula: m 30 n  1  100 10  1  3,3 Pm  100

Paso 3: Se aplica: P30 = 60 + 0,3 * 0 = 60 Percentil 65: Paso 1: El primer paso es ordenar la serie de datos: 40, 50, 60, 60, 60, 65, 75, 75, 85, 90

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

36

Paso 2: Se desea calcular el percentil 65, por lo que m = 65 y se tienen 10 datos, por lo que n = 10. Entonces se sustituye en la fórmula: m 65 n  1  100 10  1  7,15 Pm  100

Paso 3: Se aplica: P65 = 75 + 0,15 * 0 = 75

Uso de Excel y Minitab para el cálculo de percentiles

Ejemplo

Utilice Excel y Minitab para resolver el ejercicio: El número de unidades de un cierto producto vendidas por 10 vendedores el mes pasado son: 20, 40, 70, 100, 100, 100, 120, 120, 140, 150 Determine el primer cuartil, el tercer cuartil y el 80º percentil.

Solución

En Excel, primero se introducen los datos en una fila o columna, por ejemplo, en la columna A, en el rango de celdas de A1 hasta A10:

Para obtener el primer cuartil, en la celda en la cual se desea el resultado, se introduce la siguiente función: =CUARTIL(A1:A10;1) En la función, dentro del paréntesis, primero se indica el rango de datos, y luego (generalmente separado por punto y coma) se indica el número del cuartil, que en este caso es 1. Y así se obtiene el resultado de 77,5. Este resultado cambia con respecto al anterior, calculado manualmente, porque se está empleando un algoritmo distinto para el cálculo del cuartil. Esto mismo sucederá en los cálculos siguientes.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

37

Para obtener el tercer cuartil, en la celda en la cual se desea el resultado, se introduce la siguiente función: =CUARTIL(A1:A10;3) En la función, dentro del paréntesis, primero se indica el rango de datos, y luego (generalmente separado por punto y coma) se indica el número del cuartil, que en este caso es 3. Y así se obtiene el resultado de 120. Para obtener el percentil 80, en la celda en la cual se desea el resultado, se introduce la siguiente función: =PERCENTIL(A1:A10;0,80) En la función, dentro del paréntesis, primero se indica el rango de datos, y luego (generalmente separado por punto y coma) se indica el número del percentil, pero indicado en forma decimal, que en este caso es 0,80. Y así se obtiene el resultado de 124. En Minitab, primero se introducen los datos en una columna, por ejemplo, en la columna C1:

Luego se da clic en el menú Estadísticas, se elige Estadística básica y ahí selecciona Mostrar estadísticas descriptivas. Ahí completa el cuadro de diálogo seleccionando la variable, que en este caso se encuentra en la columna C1:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

38

Luego en el botón Estadísticas selecciona primer cuartil y tercer cuartil. Luego de dar clic en Aceptar en cada cuadro, se obtiene el resultado en la ventana Sesión:

Este resultado cambia con respecto al anterior, calculado manualmente y al obtenido en Excel, porque se está empleando un algoritmo distinto para el cálculo del cuartil. Para obtener el percentil se da clic en el menú Calc y se selecciona Calculadora. Ahí se completa el cuadro de diálogo siguiente:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

39

Se debe indicar en cuál columna se almacenará el resultado, por ejemplo en la columna C2. Luego en expresión debe seleccionarse la función: PERCENTILE(número.probabilidad) En esta función número corresponde a la columna que almacena los datos, en este caso C1, y probabilidad es el número del percentil expresado en forma decimal, que sería 0,80: PERCENTILE(C1.0,80) Observe que los datos de entrada de la función se separan por medio de un punto. Luego se da clic en Aceptar y el resultado se obtiene en la hoja de trabajo, no en la sesión. Según Minitab el percentil 80 es 136.

Ejemplo

Se tiene un conjunto de datos con respecto al cual se conoce la siguiente información: Primer cuartil: 20 Tercer cuartil: 36 Mediana: 30 Mínimo: 8 Máximo: 42 Construya la gráfica de caja.

Solución

La gráfica de caja puede construir horizontal o vertical. En este caso se va a hacer horizontal, por lo que se construye un eje horizontal. Luego se realizan los siguientes pasos:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

40

Paso 1: Determinar los cuartiles. La caja queda delimitada por el primer cuartil que es 20 y el tercer cuartil que es 36. En este caso ya están calculados, pero de otro modo habría que calcularlos, por lo que se dibuja la caja, la cual inicial en el primer cuartil y finaliza en el tercer cuartil:

Paso 2: Determinar la mediana. En este caso ya está calculada la mediana. Si no, se calcula. Entonces se traza la línea que representa la mediana, la cual es 30.

Paso 3: Determinación de los bigotes. Se calculan los valores a y b: a = Q1 – 1,5 (Q3 – Q1) = 20 - 1,5 (36 - 20) = -4 b = Q3 + 1,5 (Q3 – Q1) = 36 + 1,5 (36 - 20) = 60 Si el valor de a es menor que el mínimo, entonces el bigote izquierdo llega hasta el mínimo, pero si a fuera mayor que el mínimo, entonces el bigote izquierdo llega hasta a. En este caso, como a = -4 y el mínimo es 8, entonces el bigote izquierdo llegará hasta 8. Si el valor de b es mayor que el máximo, entonces el bigote derecho llega hasta el máximo, pero si b fuera menor que el máximo, entonces el bigote derecho llega hasta b. En este caso, como b = 60 y el máximo es 42 entonces el bigote derecho llegará hasta 42. Finalmente se traza el brazo o bigote izquierdo, el cual parte de la caja hasta el punto mínimo, que es 8, y se traza el brazo o bigote derecho, el cual parte de la caja hasta el punto máximo, que es 42. No hay valores atípicos en este caso.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

41

Mín 8

0

Ejemplo

10

Q1 20

20

Med Q3 Máx 30 36 42

30

40

50

Se tiene el siguiente conjunto de datos: 24, 25, 26, 28, 29, 30, 30, 30, 31, 31, 32, 35, 40 Construya la gráfica de caja usando Minitab.

Solución

Paso 1: Determinar los cuartiles. Se calculan los dos cuartiles: Q1 = 27 Q3 = 31,5 La caja queda delimitada por el primer cuartil que es 27 y el tercer cuartil que es 31,5, por lo que se dibuja la caja, la cual inicial en el primer cuartil y finaliza en el tercer cuartil:

Paso 2: Determinar la mediana. Se calcula la mediana, la cual es 30. Entonces se traza la línea que representa la mediana, la cual es 30.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

42 Paso 3: Determinación de los bigotes. Se calculan los valores a y b: a = Q1 – 1,5 (Q3 – Q1) = 27 - 1,5 (31,5 - 27) = 20,25 b = Q3 + 1,5 (Q3 – Q1) = 31,5 + 1,5 (31,5 - 27) = 38,25 Si el valor de a es menor que el mínimo, entonces el bigote izquierdo llega hasta el mínimo, pero si a fuera mayor que el mínimo, entonces el bigote izquierdo llega hasta a. En este caso, como a = 20,25 y el mínimo es 24, entonces el bigote izquierdo llegará hasta 24. Si el valor de b es mayor que el máximo, entonces el bigote derecho llega hasta el máximo, pero si b fuera menor que el máximo, entonces el bigote derecho llega hasta b. En este caso, como b = 38,25 y el máximo es 40, entonces el bigote derecho llegará hasta 38,25 y el valor de 40 se marcará con un asterisco, pues se considera como valor atípico.

Uso de Minitab para construir una gráfica de caja

Ejemplo

Se tiene el siguiente conjunto de datos: 20, 24, 25, 26, 28, 29, 30, 30, 30, 31, 31, 32, 35, 40, 45 Construya la gráfica de caja usando Minitab.

Solución

Para realizar este ejercicio en Minitab se requiere introducir los datos en una columna de la hoja de trabajo, por ejemplo en la columna C1. Luego se da clic al menú Grafica y se elige Gráfica de caja. En el cuadro se escoge Una Y Simple, y se da clic en Aceptar. En el cuadro de diálogo que aparece se selecciona la columna que contiene los datos, que en este caso es la columna C1, y se da clic en Aceptar. Se obtiene la gráfica siguiente:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

43

Gráfica de caja de C1 45

40

C1

35

30

25

20

Como se observa, Minitab hace la gráfica vertical y no horizontal como se expuso en el ejemplo anterior, sin embargo representa los mismos datos.

Ejercicio de revisión

Con base en el siguiente conjunto de datos: 40, 50, 65, 85, 75, 90, 60, 60, 60, 75 Construya la gráfica de caja. Gráfica de caja de C1 90

80

C1

70

60

50

40

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

44

Ejemplo

Se tiene el siguiente conjunto de datos: 15, 24, 26, 28, 29, 30, 30, 30, 31, 31, 32, 35 Construya la gráfica de caja usando Minitab e identifique la presencia de valores atípicos.

Solución

Para realizar este ejercicio en Minitab se requiere introducir los datos en una columna de la hoja de trabajo, por ejemplo en la columna C1. Luego se da clic al menú Grafica y se elige Gráfica de caja. En el cuadro se escoge Una Y Simple, y se da clic en Aceptar. En el cuadro de diálogo que aparece se selecciona la columna que contiene los datos, que en este caso es la columna C1, y se da clic en Aceptar. Se obtiene la gráfica siguiente: Gráfica de caja de C1 35

C1

30

25

20

15

Minitab ha dibujado la gráfica, pero ha colocado en la parte inferior un asterisco, el cual representa un valor atípico, o sea, un valor muy grande o muy pequeño con respecto a los demás datos del conjunto.

Ejemplo

Se tiene el siguiente conjunto de datos: 15, 24, 26, 28, 29, 30, 30, 30, 31, 31, 32, 35 Calcule, usando Minitab, el primer cuartil, el tercer cuartil y el rango intercuartil.

Solución

Para realizar este ejercicio en Minitab se requiere introducir los datos en una columna de la hoja de trabajo, por ejemplo en la columna C1. Luego se da clic al menú Estadísticas y se elige Mostrar estadísticas descriptivas. En el cuadro de diálogo se selecciona la variable, en este caso en la columna C1, y en el botón estadísticas se marca primer cuartil, tercer cuartil y rango intercuartil, y se da clic en Aceptar.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

45 El resultado se obtiene en la ventana Sesión, e indica que el primer cuartil es 26,5, el tercer cuartil 31, y el rango intercuartil (RIC = IQR) es 4,5, que es la diferencia Q3 – Q1 = 31 – 26,5 = 4,5.

Ejercicio de revisión

Con base en el siguiente conjunto de datos: 40, 50, 65, 85, 75, 90, 60, 60, 60, 75 Calcule el rango intercuartil y la desviación cuartil. Q1 = 57.5 Q3 = 77.5 RIC = Q3 – Q1 = 77.5 – 57.5 = 20 Q = 20/2 = 10

Ejemplo

Se tiene dos conjuntos de datos, el primero corresponde a la estatura de 8 futbolistas, y el segundo corresponde a la estatura de 6 basquetbolistas: Futbolistas: 1.83, 1.73, 1.75, 1.69, 1.94, 1.83, 1.81, 2.01 Basquetbolistas: 2.01, 2.15, 1.90, 2.28, 1.83, 2.15 Utilice Minitab para elaborar una gráfica de caja para cada conjunto de datos.

Solución

Primero que todo se introducen los datos en la hoja de trabajo, cada conjunto en una columna distinta, en este caso C1 para los futbolistas y C2 para los basquetbolistas. Luego se da clic en el menú Gráfica y se elige Gráfica de caja. En el cuadro de diálogo se selecciona Múltiples Y. Después se seleccionan las dos variables y se da clic en Aceptar. Gráfica de caja de C1. C2 2,3 2,2

Datos

2,1 2,0 1,9 1,8 1,7 C1

C2

Al comparar las dos gráficas, se observa que las estaturas de los futbolistas

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

46 tienden a ser menores que las de los basquetbolistas, y que el tercer cuartil de los primeros es, apenas, un poco superior que el primer cuartil de los segundos. Además, las estaturas de los futbolistas tienden a ser bastante simétricas, tal vez con una ligera asimetría positiva, pues la mediana está apenas un poco abajo de la mitad de la caja y el bigote superior es más largo que el inferior. Al contrario, las estaturas de los basquetbolistas presentan una cierta asimetría negativa, pues la mediana está más arriba de la mitad de la caja, a pesar de que el bigote superior es más largo que el inferior.

Ejemplo

Suponga que se tienen los dos siguientes conjuntos de cinco datos: Conjunto A: 1, 2, 3, 7, 10 Conjunto B: 1, 9, 9, 10, 10 Se desea calcular el rango de este conjunto de datos.

Solución

Para el conjunto A el máximo es 10 y el mínimo es 1, por lo que su rango o amplitud será: Rango = 10 – 1 = 9 Para el conjunto B el máximo también es 10 y el mínimo también es 1, por lo que su rango o amplitud será: Rango = 10 – 1 = 9 En este ejemplo se ilustra qué tan limitado es el rango como medida de la variabilidad, pues en el conjunto todos los datos son muy similares entre sí, excepto uno de ellos, sin embargo el rango es igual que el del conjunto A, el cual sí presenta mayor variabilidad.

Ejercicio de revisión

Con base en el siguiente conjunto de datos: 40, 50, 65, 85, 75, 90, 60, 60, 60, 75 Calcule el rango o recorrido. Solución: Máximo = 90 Mínimo = 40 Rango = 90 – 40 = 50

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

47

Ejemplo

Suponga que se tiene el siguiente conjunto de cinco datos: 1, 1, 3, 10, 10 y se desea calcular la varianza y la desviación estándar de dicha muestra.

Solución

a. Si se emplea la fórmula de la varianza para una muestra, es necesario calcular la media aritmética primero: n

x

x i 1

i



n

1  1  3  10  10 25  5 5 5

b. Luego se calcula la diferencia entre cada dato y la media, resultados que luego serán elevados al cuadrado:

x

xx

x  x 2

1

1 – 5 = –4

(–4)² = 16

1

1 – 5 = –4

(–4)² = 16

3

3 – 5 = –2

(–2)² = 4

10

10 – 5 = 5

(5)² = 25

10

10 – 5 = 5

(5)² = 25

Suma:

 (x  x)

2

=

86

c. Finalmente se aplica la fórmula: n

s2 

 (x

i

i 1

 x )2 

n 1

86  21.5 5 1

La varianza es 21.5. Si se desea conocer la desviación estándar, entonces lo más práctico es sacar la raíz cuadrada de la varianza: n

s

(x i 1

i

 x )2

n 1



s2 

21.5  4.64

La desviación estándar es aproximadamente 4.64. Esta medida mide el grado de dispersión o variabilidad de los datos alrededor de su media. Mientras más grande sea este valor, indica mayor dispersión.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

48

Ejercicio de revisión

Con base en el siguiente conjunto de datos: 40, 50, 65, 85, 75, 90, 60, 60, 60, 75 Calcule la varianza y la desviación estándar.

Solución: a. Si se emplea la fórmula de la varianza para una muestra, es necesario calcular la media aritmética primero: n

x

x i 1

n

i



40  50  65  85  75  90  60  60  60  75  66 10

b. Luego se calcula la diferencia entre cada dato y la media, resultados que luego serán elevados al cuadrado:

x

xx

x  x 2

40

40 – 66

(-26)2 = 676

50

50 – 66

(-16) 2 = 256

65

65 – 66

(-1) 2 = 1

85

85 – 66

192 = 361

75

75 – 66

92 = 81

90

90 – 66

242 = 576

60

60 – 66

(-6) 2 = 36

60

60 – 66

(-6) 2 = 36

60

60 – 66

(-6) 2 = 36

75

75 – 66

92 = 81

Suma:

 (x  x)

2

=

2140

c. Finalmente se aplica la fórmula: n

s2 

 (x i 1

i

 x )2

n 1



2140  237.78 10  1

La varianza es 237.78. Si se desea conocer la desviación estándar, entonces lo más práctico es sacar la raíz cuadrada de la varianza:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

49 n

s

 (x i 1

i

 x )2

n 1



s2 

237.78  15.42

La desviación estándar es aproximadamente 15.42.

Uso de Excel y Minitab para calcular la desviación estándar y la varianza

Ejemplo

Utilice Excel y Minitab para resolver el ejercicio: Suponga que se tiene el siguiente conjunto de cinco datos: 1, 1, 3, 10, 10 y se desea calcular la varianza y la desviación estándar de dicha muestra.

Solución

En Excel, primero se introducen los datos en una fila o columna, por ejemplo, en la columna A, en el rango de celdas de A1 hasta A5:

Para obtener la varianza, en la celda en la cual se desea el resultado, se introduce la siguiente función: =VAR(A1:A5) Y así se obtiene el resultado de 21,5. Para obtener la desviación estándar, en la celda en la cual se desea el resultado, se introduce la siguiente función: =DESVEST(A1:A5) Y así se obtiene el resultado de 4,64. En Minitab, primero se introducen los datos en una columna, por ejemplo, en la columna C1:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

50

Luego se da clic en el menú Estadísticas, se elige Estadística básica y ahí selecciona Mostrar estadísticas descriptivas. Ahí completa el cuadro de diálogo seleccionando la variable, que en este caso se encuentra en la columna C1:

Luego en el botón Estadísticas selecciona la varianza y la desviación estándar:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

51

Luego de dar clic en Aceptar en cada cuadro, se obtiene el resultado en la ventana Sesión:

Ejemplo

De acuerdo con datos de un estudio, el gasto destinado a salud en el hogar en el país tiene una media de $600 anuales y una desviación estándar de $30. De acuerdo con la regla empírica, ¿por lo menos que porcentaje de los hogares tendrá un gasto destinado a salud entre $510 y $690?

Solución

Se tiene una media de $600 con una desviación estándar de $30, y el intervalo dado está entre $510 y $690. Para aplicar la regla empírica es necesario saber cuántas veces se ha sumado y restado la desviación estándar al promedio. Esto puede obtenerse fácilmente porque se sabe que cada límite se obtuvo a partir de   k , así que, tomando el límite inferior de 510 (y por eso va con signo menos):

600  k * 30  510 Ahora se despeja esa ecuación:

 k * 30  510  600 k  90 /  30 k 3 Si se hubiera tomado el límite superior de 690 se habría obtenido el mismo resultado de k = 3. Sabiendo que k = 3, según la regla empírica, el porcentaje de los hogares que tendrá un gasto destinado a salud entre $510 y $690 será aproximadamente del 99,7%.

Ejemplo

De acuerdo con datos de un estudio, el gasto destinado a salud en el hogar en el país tiene una media de $600 anuales y una desviación estándar de $30. a. De acuerdo con el teorema de Chebyshev, ¿por lo menos que porcentaje de los hogares tendrá un gasto destinado a salud entre $525 y $675?

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

52

Solución

Se tiene una media de $600 con una desviación estándar de $30, y el intervalo dado está entre $525 y $675. Para aplicar el teorema de Chebyshev es necesario saber cuántas veces se ha sumado y restado la desviación estándar al promedio. Esto puede obtenerse fácilmente porque se sabe que cada límite se obtuvo a partir de   k , así que, tomando el límite inferior de 525 (y por eso va con signo menos):

600  k * 30  525 Ahora se despeja esa ecuación:

 k * 30  525  600 k  75 /  30 k  2,5 Si se hubiera tomado el límite superior de 675 se habría obtenido el mismo resultado de k = 2,5. Sabiendo que k = 3, según el teorema de Chebyshev, se aplica la fórmula sustituyendo k = 2,5:

1

1 1 1  1  1  0,84 2 2 6,25 k 2,5

Así, el porcentaje de los hogares que tendrá un gasto destinado a salud entre $525 y $675 será al menos 84%.

Ejercicio de revisión

Las botellas de agua envasadas en un proceso de llenado tienen una media de 501 ml con una desviación estándar de 2 ml. a. Si no se conoce si la distribución es simétrica o asimétrica, ¿qué porcentaje de las botellas podrían tener entre 497 ml y 505 ml de agua? b. ¿Cómo cambia su respuesta anterior si se sabe que la distribución del contenido de agua en las botellas se distribuye normalmente? Solución: Media = 501 ml Desviación estándar = 2 ml a. Si no se conoce si la distribución es simétrica o asimétrica, ¿qué porcentaje de las botellas podrían tener entre 497 ml y 505 ml de agua? Si se aplica el Teorema de Chebychev, debido a que no se conoce la forma de la distribución, entonces es necesario conocer el valor de k, para lo cual se sustituye en la expresión   k , tomando el valor 505 (igual se puede hacer con el valor 497):

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

53

  k  505 501  k  2  505 2k  505  501 2k  4 k  4/2 k2 Sabiendo que k = 2, entonces se aplica el teorema.

1

1 1 1  1  2  1   0,75 2 4 k 2

El porcentaje de las botellas podrían tener entre 497 ml y 505 ml de agua es al menos de 75%.

b. ¿Cómo cambia su respuesta anterior si se sabe que la distribución del contenido de agua en las botellas se distribuye normalmente? Si se sabe que la distribución del contenido de agua en las botellas se distribuye normalmente, entonces se aplica la regla empírica. Conociendo que k = 2, entonces el porcentaje de las botellas podrían tener entre 497 ml y 505 ml de agua es aproximadamente 95.4%.

Ejemplo

Se sabe que los recién nacidos varones de una ciudad tienen un peso medio de 3.450 gramos, con una desviación estándar de 75 gramos, mientras que los recién nacidos varones de una zona rural tienen un peso medio de 3.350 gramos con una desviación estándar de 100 gramos. Una madre residente de esa ciudad acaba de tener un niño con un peso de 3.475 gramos y otra madre residente de la zona rural dada acaba de tener un niño con un peso de 3.450 gramos, ¿cuál de los dos niños tiene, en términos relativos, un peso mayor?

Solución

En el caso de la ciudad se tiene que la media () es 3.450 gramos, la desviación estándar () es 75 gramos y el peso del recién nacido (x) es 3.475 gramos, por lo que el puntaje estandarizado será: z

x





3475  3450  0,33 75

En el caso de la zona rural se tiene que la media () es 3.350 gramos, la desviación estándar () es 100 gramos y el peso del recién nacido (x) es 3.450 gramos, por lo que el puntaje estandarizado será:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

54

z

x





3450  3350 1 100

El puntaje estandarizado para el niño de zona rural es mayor que para el niño de la ciudad, por lo que, en términos relativos, tiene un peso mayor.

Ejercicio de revisión

Suponga que el gasto promedio anual en salud de cada habitante de Argentina es de $742 con una desviación estándar de $250, mientras que en Chile se destinan, en promedio, $947 en salud al año, con una desviación estándar de $358. Si una persona en Argentina gastó este año $850 en salud, mientras que otra persona en Chile gastó $1050 en salud, ¿cuál de los dos gastó más en términos relativos?

Solución: En términos absolutos, la persona en Chile gastó más, pero en términos relativos se requiere el cálculo de puntajes estandarizados. En el caso de la persona en Argentina se tiene que la media () es $742, la desviación estándar () es $250 y el gasto de la persona (x) es 850, por lo que el puntaje estandarizado será: z

x





850  742  0,43 250

En el caso de la persona en Chile se tiene que la media () es $947, la desviación estándar () es $358 y el gasto de la persona (x) es 1050, por lo que el puntaje estandarizado será: z

x





1050  947  0,29 358

El puntaje estandarizado para la persona en Argentina es mayor que para la que está en Chile.

Ejemplo

En el caso del conjunto de datos anterior, se calculó una media de 5 y una desviación estándar de 4.64, calcule el coeficiente de variación.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

55

Solución

Dado que se calculó una media de 5 y una desviación estándar de 4.64, entonces el coeficiente de variación es: CV 

Ejercicio de revisión

s 4.64  100   100  92.74% x 5

Con base en el siguiente conjunto de datos: 40, 50, 65, 85, 75, 90, 60, 60, 60, 75 Calcule el coeficiente de variación.

Solución: Se calcula primero la desviación estándar y la media aritmética: Desviación estándar (s) = 15.42 Media aritmética ( x ) = 66 Luego se calcula el coeficiente de variación: CV 

s 15.42  100   100  23.36% x 66

Uso de Excel y Minitab para calcular el coeficiente de variación

Ejemplo

Utilice Minitab para resolver el ejercicio: Suponga que se tiene el siguiente conjunto de cinco datos: 1, 1, 3, 10, 10 y se desea calcular el coeficiente de variación de dicha muestra.

Solución

En Minitab, primero se introducen los datos en una columna, por ejemplo, en la columna C1:

Luego se da clic en el menú Estadísticas, se elige Estadística básica y ahí

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

56 selecciona Mostrar estadísticas descriptivas. Ahí completa el cuadro de diálogo seleccionando la variable, que en este caso se encuentra en la columna C1:

Luego en el botón Estadísticas selecciona el coeficiente de variación. Después de dar clic en Aceptar en cada cuadro, se obtiene el resultado en la ventana Sesión:

Uso de Excel y Minitab para calcular medidas descriptivas

Ejemplo

Se tiene el siguiente conjunto de datos: 24, 24, 25, 25, 25, 25, 25, 26, 26, 26, 27, 27, 28, 29, 30 Utilice la herramienta de análisis de datos de Excel para obtener las principales estadísticas descriptivas de este conjunto de datos.

Solución

Lo primero es introducir los datos en la hoja de Excel. Lo más conveniente es agregarlos todos en una misma columna, que en este caso va de la celda A1 hasta la celda A15. Luego se da clic a la pestaña Datos y en la sección Análisis se elige el botón Análisis de datos. Ahora elige Estadística descriptiva. Ahora hay

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

57 que completar el cuadro de diálogo.

En rango de entrada se indica el rango de datos, por lo que se seleccionan las celdas de la A1 hasta la A15. Después marca la opción Resumen de estadísticas y da clic en Aceptar. Excel genera una serie de medidas estadísticas de uso común, como se muestra a continuación.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

58

Ejemplo

Se tiene el siguiente conjunto de datos: 24, 24, 25, 25, 25, 25, 25, 26, 26, 26, 27, 27, 28, 29, 30 Utilice el resumen gráfico de Minitab para obtener las principales estadísticas descriptivas de este conjunto de datos.

Solución

El primer paso es digitar estos datos en una columna de la hoja de trabajo de Minitab, por ejemplo, en la columna C1. Luego se da clic en el menú Estadísticas, se selecciona Estadística básica y ahí se elige Resumen gráfico.

En el cuadro de diálogo se selecciona la variable en la columna C1 y se da clic en Aceptar. Minitab despliega una ventana con un histograma con ajuste a la curva normal y una gráfica de caja. Además un cuadro con varias medidas descriptivas y otros datos que se estudiarán más adelante en este texto.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

59 Resumen para C1 P rueba de normalidad de A nderson-Darling A -cuadrado V alor P

24

25

26

27

28

29

30

0,64 0,078

M edia Desv .Est. V arianza A simetría Kurtosis N

26,133 1,767 3,124 0,932550 0,217419 15

M ínimo 1er cuartil M ediana 3er cuartil M áximo

24,000 25,000 26,000 27,000 30,000

Interv alo de confianza de 95% para la media 25,155

27,112

Interv alo de confianza de 95% para la mediana 25,000

27,000

Interv alo de confianza de 95% para la desv iación estándar

Intervalos de confianza de 95%

1,294

2,787

Media

Mediana 25,0

25,5

26,0

26,5

27,0

Examen del capítulo: En cada caso seleccione la opción que mejor contesta cada pregunta. (las respuestas a los ejercicios se encuentran en la página de internet del texto: ). 1. En el conjunto de valores 3, 4, 5, 6, 4, 7, 8, 4, 6, 9, 10, la mediana es: (a)4 (b)7 ( c ) 5,5 (d)6 2. La media aritmética del siguiente conjunto de datos 7, 20, 13, 14, 6, 9, 1 es: ( a ) 70 ( b ) 20 ( c ) 14 ( d ) 10 3. La moda del siguiente conjunto de datos 7, 7, 20, 20, 13, 14, 13, 6, 9, 13, 6 es: (a)7 ( b ) 20 ( c ) 13 (d)6 4. La media aritmética del siguiente conjunto de datos 7, 8, 20, 20, 13, 14, 12, 6, 9, 10, 6 es: ( a ) 20 ( b ) 10 ( c ) 13 ( d ) 11,36 5. La mediana del siguiente conjunto de datos 7, 8, 20, 20, 13, 14, 12, 6, 9, 10, 6 es: ( a ) 20 ( b ) 10 ( c ) 13 ( d ) 11,36 6. La moda del siguiente conjunto de datos 7, 8, 20, 20, 13, 14, 12, 6, 9, 20, 6 es: ( a ) 20 ( b ) 10 ( c ) 13 ( d ) 11,36

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

60 7. El primer cuartil del siguiente conjunto de datos 7, 8, 20, 20, 13, 14, 12, 6, 9, 10, 6 es: (a)7 ( b ) 20 ( c ) 13 (d)6 8. El tercer cuartil del siguiente conjunto de datos 7, 8, 20, 20, 13, 14, 12, 6, 9, 10, 6 es: ( a ) 14 ( b ) 20 ( c ) 13 ( d ) 17 9. El percentil 30 del siguiente conjunto de datos 7, 8, 20, 20, 13, 14, 12, 6, 9, 10, 6 es: ( a ) 7,6 ( b ) 10 (c)7 (d)6 10. El percentil 70 del siguiente conjunto de datos 7, 8, 20, 20, 13, 14, 12, 6, 9, 10, 6 es: (a)7 ( b ) 20 ( c ) 13,4 (d)6 11. La desviación estándar del siguiente conjunto de datos 7, 8, 20, 20, 13, 14, 12, 6, 9, 10, 6 es: ( a ) 25,45 ( b ) 5,05 ( c ) 1,52 ( d ) 44,4 12. La varianza del siguiente conjunto de datos 7, 8, 20, 20, 13, 14, 12, 6, 9, 10, 6 es: ( a ) 25,45 ( b ) 5,05 ( c ) 1,52 ( d ) 44,4 13. Si en una muestra, la media es igual a la moda y a la mediana, entonces se concluye que: A. Los datos son iguales B. La desviación estándar es cero Con respecto a las dos afirmaciones anteriores, es correcto que con toda certeza: ( a ) Ambas son verdaderas ( b ) Solo A es verdadera ( c ) Solo B es verdadera ( d ) Ambas son falsas 14. Si dos valores en un grupo de datos ocurren más a menudo que otros cualesquiera, la distribución de los datos será ___________. La opción que mejor completa la frase anterior es: ( a ) Simétrica ( b ) Bimodal ( c ) Asimétrica positiva ( d ) Asimétrica negativa 15. Considere las dos siguientes afirmaciones: A. Los valores extremos en un conjunto de datos influyen profundamente en la mediana. B. Para un arreglo de datos con 50 observaciones, la mediana será el valor de la vigésima quinta observación en el arreglo. Con respecto a las dos afirmaciones anteriores, es correcto que: ( a ) Ambas son verdaderas ( b ) Solo A es verdadera ( c ) Solo B es verdadera ( d ) Ambas son falsas

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

61 16. Considere las dos siguientes afirmaciones: A. Cuando la población tiene sesgo negativo o positivo, a menudo es preferible utilizar la mediana como la mejor medida de localización, pues siempre se encuentra entre la media y la moda. B. Cuando una distribución es simétrica y tiene una moda, el punto más alto en la curva es la mediana y la media. Con respecto a las dos afirmaciones anteriores, es correcto que: ( a ) Ambas son verdaderas ( b ) Solo A es verdadera ( c ) Solo B es verdadera ( d ) Ambas son falsas 17. ¿Cuál de los siguientes enunciados no es una ventaja del uso de la mediana? ( a ) Los valores extremos afectan a la mediana menos intensamente que a la media ( b ) La mediana es fácil de entender ( c ) Una mediana puede calcularse para descripciones cualitativas ( d ) Ninguna de las anteriores 18. Considere las dos siguientes afirmaciones: A. Las medidas de tendencia central en un conjunto de datos se refieren al grado de dispersión de las observaciones. B. La diferencia entre las observaciones más grandes y las más pequeñas en un conjunto de datos se llama media geométrica. Con respecto a las dos afirmaciones anteriores, es correcto que: ( a ) Ambas son verdaderas ( b ) Solo A es verdadera ( c ) Solo B es verdadera ( d ) Ambas son falsas 19. Considere las dos siguientes afirmaciones: A. La desviación estándar se mide en las mismas unidades que las observaciones en el conjunto de datos. B. Una desventaja del uso del rango para medir la dispersión consiste en que ignora la naturaleza de las variaciones entre la mayor parte de las observaciones. Con respecto a las dos afirmaciones anteriores, es correcto que: ( a ) Ambas son verdaderas ( b ) Solo A es verdadera ( c ) Solo B es verdadera ( d ) Ambas son falsas 20. Si un grupo de datos tiene tan sólo una moda y el valor de la moda es menor que el de la media, podremos llegar a la conclusión de que la gráfica de la distribución es: ( a ) Simétrica ( b ) Sesgada a la izquierda ( c ) Sesgada ala derecha ( d ) Platicúrtica 21. ¿Cuál de los siguientes enunciados NO es correcto? ( a ) Algunos conjuntos de datos no tienen media. ( b ) En los cálculos de la media influyen los valores extremos de datos. ( c ) Una media ponderada ha de emplearse cuando es necesario tener en cuenta la importancia de cada valor. ( d ) Todos estos enunciados son correctos.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

62 22. ¿Cuál de los siguientes enunciados es el primer paso en el cálculo de la mediana de un conjunto de datos? ( a ) Obtener el promedio de los dos valores de la mitad en un conjunto de datos. ( b ) Ordenar los datos en un arreglo. ( c ) Determinar los pesos relativos de los valores de los datos por orden de importancia. ( d ) Ninguno de los anteriores. 23. ¿Cuál de los siguientes casos es un ejemplo de una medida relativa de dispersión? ( a ) Desviación estándar ( b ) Varianza ( c ) Coeficiente de variación ( d ) Las opciones a y b pero no c 24. Si p es el mayor de tres enteros consecutivos, entonces el promedio de los tres números es: (a)p (b)p–1 (c)p–3 ( d ) 3p – 1 25. La edad promedio de un grupo de 5 amigos es 17,4 años. Si se incorpora al grupo un amigo de 18 años, la edad promedio de nuevo grupo es: ( a ) 17,5 años ( b ) 17,7 años ( c ) 21 años ( d ) 20,4 años 26. El gerente de un centro de llamadas desea evaluar el desempeño de los agentes de servicio y para ello decide basarse en los tiempos de espera de los clientes para ser atendidos (medido en segundos) y el grado de satisfacción que los clientes manifiesten al recibir el servicio (valorado como bueno, regular o malo). La semana anterior tomó una muestra de 12 llamadas por día de lunes a miércoles y 20 llamadas el jueves y el viernes. Los siguientes son los tiempos de las muestras tomadas de lunes a miércoles. El lunes y el martes se tomaron tiempos de llamadas atendidas y el miércoles solo de llamadas no atendidas:

Día Lunes Martes Miércoles

1 13 12 30

2 15 15 40

3 15 15 45

Número de muestra (tiempo en segundos) 4 5 6 7 8 9 16 16 16 16 17 17 16 16 15 16 18 15 45 50 50 45 35 60

10 19 20 50

11 11 30 80

12 21 40 100

Las preguntas de la 26 a la 43 se basan en la información anterior. La distribución de los tiempos de las llamadas del día lunes es: ( a ) Simétrica ( b ) Asimétrica positiva ( c ) Asimétrica negativa ( d ) Asimétrica hacia la derecha 27. La distribución de los tiempos de las llamadas del día martes es: ( a ) Simétrica ( b ) Asimétrica positiva ( c ) Asimétrica negativa ( d ) Ninguna de las anteriores 28. El tiempo medio de espera de los clientes de la muestra del día martes es, en segundos: ( a ) 15 ( b ) 19 ( c ) 16 ( d ) Ninguna de las anteriores

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

63

29. La mediana del tiempo de espera de los clientes de la muestra del día martes es, en segundos: ( a ) 15 ( b ) 19 ( c ) 16 ( d ) Ninguna de las anteriores 30. La moda del tiempo de espera de los clientes de la muestra del día lunes es, en segundos: ( a ) 15 ( b ) 15,5 ( c ) 16 ( d ) Ninguna de las anteriores 31. Con respecto a los datos del día miércoles es verdadero que: ( a ) La distribución es asimétrica a la izquierda ( b ) No se presentan valores extremos ( c ) La distribución es bimodal ( d ) Todas las anteriores son verdaderas 32. El cuartil 1 de los tiempos de espera del día lunes es, en segundos: ( a ) 15,5 ( b ) 15 ( c ) 16 ( d ) 3,25 33. El cuartil 3 de los tiempos de espera del día martes es, en segundos: ( a ) 18,75 ( b ) 19,5 ( c ) 9,75 ( d ) 37,5 34. El percentil 80 de los tiempos de espera del día miércoles es, en segundos: ( a ) 62 ( b ) 68 ( c ) 10,4 ( d ) Ninguna de las anteriores 35. La varianza de los tiempos de espera del día miércoles es, aproximadamente, en segundos2: ( a ) 19,6 ( b ) 384,09 ( c ) 13,75 ( d ) 189,06 36. La desviación estándar de los tiempos de espera del día martes es, en segundos: ( a ) 5,5 (b)8 ( c ) 64 ( d ) Ninguna de las anteriores 37. El coeficiente de variación de los tiempos de espera del lunes es: ( a ) 15,99% ( b ) 2,55 ( c ) 6,25% ( d ) Ninguna de las anteriores 38. Con relación a la variabilidad relativa de los tiempos de espera es verdadero que el día cuyos tiempos tienen una dispersión relativa más baja es: ( a ) Lunes ( b ) Martes ( c ) Miércoles ( d ) Falta información para determinarlo 39. El decil 4 de los tiempos de espera del día lunes es, en segundos: ( a ) 5,2 ( b ) 15 ( c ) 16 ( d ) Ninguna de las anteriores

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

64 40. Si el primer cuartil para los tiempos de espera del día viernes es de 14,6 segundos, entonces es falso que: ( a ) Un 25% de los clientes de ese día esperaron 14,6 segundos o menos ( b ) Un 75% de los clientes de ese día esperaron 14,6 segundos o más ( c ) Un cliente que esperó 12 segundos esperó poco con respecto a los demás ( d ) Ninguna de las anteriores 41. Si la mediana para los tiempos de espera del día viernes es de 19,8 segundos, entonces es falso, con toda certeza, que: ( a ) Un 50% de los clientes de ese día esperaron 19,8 segundos o menos ( b ) El tiempo de espera promedio de ese día fue de 19,8 segundos ( c ) La mayoría de los clientes esperaron más de 19,8 segundos ( d ) Ninguna de las anteriores 42. Si la media para los tiempos de espera del día viernes es de 21,3 segundos, entonces es verdadero que: ( a ) La mitad de los clientes esperaron 21,3 segundos o menos ( b ) Un 50% de los clientes de ese día esperaron 21,3 segundos o más ( c ) El tiempo más frecuente fue 21,3 segundos ( d ) Todas las anteriores son falsas 43. Si la media para los tiempos de espera es de 21,3 segundos y la desviación estándar para los tiempos de espera del día viernes es de 7,6 segundos, entonces es verdadero que: ( a ) Los tiempos de espera tuvieron una variabilidad de 7,6 segundos con relación a su media ( b ) Aproximadamente un 68,3% de los clientes esperaron entre 13,7 y 28,9 segundos ( c ) Aproximadamente un 95,4% de los clientes esperaron entre 6,1 y 36,5 segundos ( d ) Todas las anteriores son verdaderas

Respuestas a ejercicios de selección múltiple: 1. d 6. a 11. b 16. a 21. a 26. a 31. c 36. b 41. d

2. d 7. a 12. a 17. d 22. b 27. b 32. b 37. a 42. d

3. c 8. a 13. d 18. d 23. c 28. b 33. b 38. a 43. d

4. d 9. a 14. b 19. a 24. b 29. c 34. b 39. c

5. b 10. c 15. d 20. b 25. a 30. c 35. b 40. d

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

65

4

.

Distribuciones de frecuencias OBJETIVOS: Al concluir el capítulo, será capaz de:  Construir la tabla de una distribución de frecuencias.  Representar gráficamente los datos provenientes de una distribución de frecuencias.  Calcular e interpretar las principales medidas de posición en datos agrupados.  Calcular e interpretar las principales medidas de variabilidad en datos agrupados.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

66

Distribuciones de frecuencias Ejercicio de revisión

Suponga que se tienen los siguientes datos relacionados con el tiempo de espera de los usuarios de un servicio (en minutos): 12, 16, 8, 22, 14, 12, 13, 19, 17, 10, 21, 25, 23, 18, 14, 9, 14, 16, 10, 12, 15, 16, 16, 17, 12, 11, 11, 19, 20, 15 Determine cuáles serían los límites reales si se desea construir la tabla de la distribución de frecuencias empleando 6 clases. Solución: – Determinación del rango o amplitud total: Esto consiste en encontrar la diferencia entre el dato más alto y el más bajo. En este caso: Dato mayor: 25 Dato menor: 8 Rango = dato mayor menos dato menor = 25 – 8 = 17 – Selección del intervalo de clase (c): Si se desean 6 clases, entonces se divide el rango entre 6: 17 ÷ 6 = 2.83 – Determinación de los límites de clase: Los límites reales serán los que se emplearán en el cálculo de los puntos medios y los demás cálculos posteriores. Ejemplo: Límites reales 7,5 – 10,5 10,5 – 13,5 13,5 – 16,5 16,5 – 19,5 19,5 – 22,5 22,5 – 25,5

Ejercicio de revisión

Suponga que se tienen los siguientes datos relacionados con el tiempo de espera de los usuarios de un servicio (en minutos): 12, 16, 8, 22, 14, 12, 13, 19, 17, 10, 21, 25, 23, 18, 14, 9, 14, 16, 10, 12, 15, 16, 16, 17, 12, 11, 11, 19, 20, 15

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

67

Si los siguientes son los límites reales, determine las frecuencias absolutas de cada clase: Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Frecuencia absoluta

Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Frecuencia absoluta 4 7 9 5 3 2 30

30

Solución:

Ejercicio de revisión

Suponga que se tienen los siguientes datos relacionados con el tiempo de espera de los usuarios de un servicio (en minutos), determine los puntos medios de cada clase: Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5

Puntos medios

Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5

Puntos medios 9 12 15 18 21 24

Solución:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

68

Ejercicio de revisión

Suponga que se tienen los siguientes datos relacionados con el tiempo de espera de los usuarios de un servicio (en minutos), determine las frecuencias relativas de cada clase: Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Frecuencia absoluta

Frecuencia relativa

30

100.00%

Frecuencia absoluta 4 7 9 5 3 2 30

Frecuencia relativa 13.33% 23.33% 30.00% 16.67% 10.00% 6.67% 100.00%

Solución:

Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Ejercicio de revisión

Suponga que se tienen los siguientes datos relacionados con el tiempo de espera de los usuarios de un servicio (en minutos), determine las frecuencias absolutas acumuladas a menos de y a más de de cada clase: Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Frecuencia absoluta 4 7 9 5 3 2 30

Frecuencia acumulada a menos de a más de

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

69 Solución:

Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Ejercicio de revisión

Frecuencia absoluta 4 7 9 5 3 2 30

Frecuencia acumulada a menos de a más de 4 30 11 26 20 19 25 10 28 5 30 2 -

Suponga que se tienen los siguientes datos relacionados con el tiempo de espera de los usuarios de un servicio (en minutos), determine las frecuencias relativa acumuladas a menos de y a más de de cada clase: Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Frecuencia relativa 13,33% 23,33% 30,00% 16,67% 10,00% 6,67% 30

Frecuencia acumulada a menos de a más de

Frecuencia relativa 13,33% 23,33% 30,00% 16,67% 10,00% 6,67% 30

Frecuencia acumulada a menos de a más de 13.33% 100.00% 26.67% 86.67% 56.67% 63.33% 83.33% 33.33% 93.33% 16.67% 100.00% 6.67% -

Solución:

Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

70

Uso de Excel y Minitab para construir histogramas

Ejemplo

Se tiene la edad de 30 personas en la tabla siguiente: 19 41 28

25 36 24

32 32 22

40 18 27

21 50 35

28 48 26

56 25 43

27 33 34

31 35 43

29 26 39

Utilice Excel y Minitab para construir un histograma que represente dichos datos.

Solución

En Excel, primero se introducen los datos en una columna (o una fila). En este caso se introducen los datos en el rango de celdas A1 hasta A30. En otro rango de celdas se introducen los límites de las clases. Solo es necesario indicar los límites superiores de las clases, que en este caso serían 22.5, 27.5, 32.5, 37.5, 42.5, 47.5, 52.5 y 57.5. Estos límites se introducirán en este caso en las celdas de B1 hasta B8. Luego se da clic en la pestaña Datos, y se selecciona Análisis de datos. Si no aparece el botón de Análisis de datos, se puede instalar dando clic al botón de Office (en la esquina superior izquierda del programa), y en el menú se da clic en Opciones de Excel. Ahí se elige en el menú de la izquierda se da clic en Complementos, y en los complementos de aplicaciones inactivas se elige Herramientas para análisis. Después se da clic en el botón Ir que se haya en la parte inferior del cuadro de diálogo, y en la lista de complementos disponibles se marca Herramientas para análisis y después se presiona Aceptar). Ahora al dar clic en el botón de Análisis de datos, en la lista se elige Histograma y se completa el cuadro de diálogo siguiente:

En rango de entrada se indican los datos de la serie a graficar, que en este

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

71 caso están en las celdas de A1 hasta A30. En rango de clases se indican los límites, los cuales están en las celdas de B1 hasta B8. Luego hay que marcar la opción Crear gráfico, y se da clic en Aceptar. Excel genera una tabla y un gráfico como el siguiente:

En Minitab, primero se introducen los datos en la hoja de trabajo. Luego se da clic en el menú Gráfica y se elige Histograma. En el cuadro de diálogo se selecciona la opción Simple. Después, en el cuadro se selecciona como variables de gráficas la columna C1 y se da clic en Aceptar: Histograma de C1 7 6

Frecuencia

5 4 3 2 1 0

20

25

30

35

40

45

50

55

C1

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

72

Ejercicio de revisión

Suponga que se tienen los siguientes datos relacionados con el tiempo de espera de los usuarios de un servicio (en minutos), construya un histograma para esta variable: Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Frecuencia absoluta 4 7 9 5 3 2 30

Solución:

Frecuencia absoluta 10 9 8 7 6 5 4 3 2 1 0 9

Ejemplo

12

15

18

21

24

Considere la siguiente distribución de frecuencias: Límites reales

17,5 – 22,5 22,5 – 27,5 27,5 – 32,5 32,5 – 37,5 37,5 – 42,5 42,5 – 47,5 47,5 – 52,5 52,5 – 57,5

Puntos medios

xi 20 25 30 35 40 45 50 55 Total

Frecuencia absoluta f i

Frecuencia relativa

4 5 8 5 3 2 2 1 30

13,33% 16,67% 26,67% 16,67% 10,00% 6,67% 6,67% 3,33% 100,00%

fr  fi n

Frecuencia relativa acumulada “menos de”

13,33% 30,00% 56,67% 73,33% 83,33% 90,00% 96,67% 100,00%

Calcule la moda.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

73

Solución

La clase modal es la tercera clase, cuyos límites reales son 27,5 – 32,5, su límite inferior real es 27,5, su intervalo de clase es 5 (límite superior menos límite inferior = 32,5 – 27,5 = 5) y su frecuencia absoluta es 8. La clase pre modal (22,5 – 27,5) tiene frecuencia 5 (por tanto d1 = 8 – 5 = 3) y la pos modal (32,5 – 37,5) tiene frecuencia también de 5 (por tanto d2 = 8 – 5 = 3). El cálculo es:

M o  Li  c

d1 (8  5)  27.5  5  30 d1  d 2 (8  5)  (8  5)

La moda es 30.

Ejercicio de revisión

Suponga que se tienen los siguientes datos relacionados con el tiempo de espera de los usuarios de un servicio (en minutos), calcule la moda: Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Frecuencia absoluta 4 7 9 5 3 2 30

Solución: La clase modal es la tercera clase, cuyos límites reales son 13,5 – 16,5, su límite inferior real es 13,5, su intervalo de clase es 3 (límite superior menos límite inferior = 16,5 – 13,5 = 5) y su frecuencia absoluta es 9. La clase pre modal (10,5 – 13,5) tiene frecuencia 7, por tanto el valor de d1 es d1 = 9 – 7 = 2 y la postmodal (16,5 – 19,5) tiene frecuencia también de 5, por tanto d2 = 9 – 5 = 4. El cálculo es:

M o  Li  c

d1 (9  7)  13.5  3  14.5 d1  d 2 (9  7)  (9  5)

La moda es 14.5.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

74

Ejemplo

Considere la siguiente distribución de frecuencias: Puntos medios

Límites reales

17,5 – 22,5 22,5 – 27,5 27,5 – 32,5 32,5 – 37,5 37,5 – 42,5 42,5 – 47,5 47,5 – 52,5 52,5 – 57,5

xi 20 25 30 35 40 45 50 55 Total

Frecuencia absoluta f i

Frecuencia relativa

4 5 8 5 3 2 2 1 30

13,33% 16,67% 26,67% 16,67% 10,00% 6,67% 6,67% 3,33% 100,00%

fr  fi n

Frecuencia relativa acumulada “menos de”

13,33% 30,00% 56,67% 73,33% 83,33% 90,00% 96,67% 100,00%

Calcule la mediana.

Solución

Se tiene que n = 30, por tanto n/2 = 30/2 = 15, lo que quiere decir que la clase mediana será la tercer clase, ya que su frecuencia acumulada menos de es 17, que es la que apenas supera a 15. El límite inferior de la clase es 27,5, el intervalo de la clase es 5, la frecuencia acumulada de la clase pre mediana es 9 y la frecuencia de la clase mediana es 8. Aplicando la fórmula:  n  Fi 1    30  9  2     27,5  5  6  31,25 Med  Li  c  27,5  5 2 fi 8    8     

La mediana es 31,25.

Ejercicio de revisión

Suponga que se tienen los siguientes datos relacionados con el tiempo de espera de los usuarios de un servicio (en minutos), calcule la mediana: Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Frecuencia absoluta 4 7 9 5 3 2 30

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

75 Solución: Se calcula la frecuencia absoluta acumulada (F): Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Frecuencia absoluta 4 7 9 5 3 2 30

F 4 11 20 25 28 30 -

Se tiene que n = 30, por tanto n/2 = 30/2 = 15, lo que quiere decir que la clase mediana será la tercer clase, ya que su frecuencia acumulada menos de es 20, que es la que apenas supera a 15. El límite inferior de la clase es 13,5, el intervalo de la clase es 3, la frecuencia acumulada de la clase pre mediana es 11 y la frecuencia de la clase mediana es 9. Aplicando la fórmula:  n  Fi 1    30  11   13,5  3 2   14,83 Med  Li  c  2 fi 9        

La mediana es 14.83.

Ejemplo

Considere la siguiente distribución de frecuencias: Límites reales

17,5 – 22,5 22,5 – 27,5 27,5 – 32,5 32,5 – 37,5 37,5 – 42,5 42,5 – 47,5 47,5 – 52,5 52,5 – 57,5

Puntos medios

xi 20 25 30 35 40 45 50 55 Total

Frecuencia absoluta f i

Frecuencia relativa

4 5 8 5 3 2 2 1 30

13,33% 16,67% 26,67% 16,67% 10,00% 6,67% 6,67% 3,33% 100,00%

fr  fi n

Frecuencia relativa acumulada “menos de”

13,33% 30,00% 56,67% 73,33% 83,33% 90,00% 96,67% 100,00%

Calcule la media aritmética.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

76

Solución

Para el cálculo es útil el empleo de una tabla auxiliar: Puntos medios xi 20 25 30 35 40 45 50 55 Total

Frecuencia absoluta fi 4 5 8 5 3 2 2 1 30

xifi 80 125 240 175 120 90 100 55 985

Aplicando la fórmula: k

x

x i 1

n

i

fi



985  32,83 30

La media es 32,83.

Ejercicio de revisión

Suponga que se tienen los siguientes datos relacionados con el tiempo de espera de los usuarios de un servicio (en minutos), calcule la media: Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Frecuencia absoluta 4 7 9 5 3 2 30

Solución: Para el cálculo es útil el empleo de una tabla auxiliar: Puntos medios xi 9 12 15 18 21 24 Total

Frecuencia absoluta fi 4 7 9 5 3 2 30

xifi 36 84 135 90 63 48 456

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

77 Aplicando la fórmula: k

x

x i 1

n

i

fi



456  15.2 30

La media es 15.2.

Ejemplo

Considere la siguiente distribución de frecuencias: Límites reales

17,5 – 22,5 22,5 – 27,5 27,5 – 32,5 32,5 – 37,5 37,5 – 42,5 42,5 – 47,5 47,5 – 52,5 52,5 – 57,5

Puntos medios

xi 20 25 30 35 40 45 50 55 Total

Frecuencia absoluta f i

Frecuencia relativa

4 5 8 5 3 2 2 1 30

13,33% 16,67% 26,67% 16,67% 10,00% 6,67% 6,67% 3,33% 100,00%

fr  fi n

Frecuencia relativa acumulada “menos de”

13,33% 30,00% 56,67% 73,33% 83,33% 90,00% 96,67% 100,00%

Calcule el tercer cuartil.

Solución

El cálculo es muy similar al de la mediana. El tercer cuartil equivale al percentil 75, por lo tanto se puede buscar en la columna de la frecuencia relativa acumulada a menos de aquel valor que es el primero en exceder 75%. Esto se da en quinta clase, por lo que el límite inferior de la clase es 37.5, el intervalo de la clase es 5, la frecuencia acumulada de la clase previa es 22 y la frecuencia de la clase es 3. Aplicando la fórmula:

 mn  75 x30  Fi 1    22  100 100   37,5  5  Q3  P75  Li  c  fi 3         0,5  37,5  5   38,33 3 La tercer cuartil es 38,33.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

78

Ejercicio de revisión

Suponga que se tienen los siguientes datos relacionados con el tiempo de espera de los usuarios de un servicio (en minutos), calcule el primer cuartil y el percentil 70: Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Frecuencia absoluta 4 7 9 5 3 2 30

Solución: Se completa la tabla:

Límites reales

Frecuencia absoluta

7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

fi 4 7 9 5 3 2 30

Frecuencia absoluta acumulada fi 

4 11 20 25 28 30

Frecuencia relativa

fr  fi n

13.33% 23.33% 30.00% 16.67% 10.00% 6.67% 100,00%

Frecuencia relativa acumulada “menos de”

13.33% 36.67% 66.67% 83.33% 93.33% 100.00%

El tercer cuartil equivale al percentil 75, por lo tanto se puede buscar en la columna de la frecuencia relativa acumulada a menos de aquel valor que es el primero en exceder 75%. Esto se da en cuarta clase, por lo que el límite inferior de la clase es 16.5, el intervalo de la clase es 3, la frecuencia acumulada de la clase previa es 20 y la frecuencia de la clase es 5. Aplicando la fórmula:  mn  75 x30  Fi 1    20  100 100   16,5  3   18 Q3  P75  Li  c  fi 5        

La tercer cuartil es 18.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

79

Ejemplo

Considere la siguiente distribución de frecuencias: Puntos medios

Límites reales

xi

17,5 – 22,5 22,5 – 27,5 27,5 – 32,5 32,5 – 37,5 37,5 – 42,5 42,5 – 47,5 47,5 – 52,5 52,5 – 57,5

Frecuencia absoluta f i

Frecuencia relativa

4 5 8 5 3 2 2 1 30

13,33% 16,67% 26,67% 16,67% 10,00% 6,67% 6,67% 3,33% 100,00%

20 25 30 35 40 45 50 55 Total

Frecuencia relativa acumulada “menos de”

fr  fi n

13,33% 30,00% 56,67% 73,33% 83,33% 90,00% 96,67% 100,00%

Calcule la varianza y la desviación estándar.

Solución

Se supondrá que los datos corresponden a una muestra y se usará la segunda fórmula de las señaladas anteriormente. También es útil construir una tabla auxiliar. La media se calculó anteriormente y es de 32.83. Puntos medios x i 20 25 30 35 40 45 50 55

Frecuencia absoluta f i 4 5 8 5 3 2 2 1 30

( xi  x )

( xi  x ) 2

( xi  x ) 2 f i

–12,83 –7,83 –2,83 2,17 7,17 12,17 17,17 22,17

164,69 61,36 8,03 4,69 51,36 148,03 294,69 491,36 Total

658,78 306,81 64,22 23,47 154,08 296,06 589,39 491,36 2584,17

Aplicando la fórmula: n

s2 

 (x i 1

i

 x )2 fi

n 1



2584,17  89,11 30  1

La varianza es de 89,11. Para calcular la desviación estándar se saca la raíz cuadrada al resultado anterior:

s  s 2  89,11  9,44

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

80

Ejercicio de revisión

Suponga que se tienen los siguientes datos relacionados con el tiempo de espera de los usuarios de un servicio (en minutos), calcule la varianza y la desviación estándar: Límites reales 7,5 - 10,5 10,5 - 13,5 13,5 - 16,5 16,5 - 19,5 19,5 - 22,5 22,5 - 25,5 Total

Frecuencia absoluta 4 7 9 5 3 2 30

Solución: Se supondrá que los datos corresponden a una muestra y se usará la segunda fórmula de las señaladas anteriormente. También es útil construir una tabla auxiliar siguiente. La media se calculó anteriormente y es de 15.2. Puntos medios x i 9 12 15 18 21 24

Frecuencia absoluta f i 4 7 9 5 3 2 30

( xi  x )

( xi  x ) 2

( xi  x ) 2 f i

-6.2 -3.2 -0.2 2.8 5.8 8.8

38.44 10.24 0.04 7.84 33.64 77.44 Total

153.76 71.68 0.36 39.2 100.92 154.88 520.8

Aplicando la fórmula: n

s2 

 (x i 1

i

 x )2 fi

n 1



520.8  17.96 30  1

La varianza es de 17.96. Para calcular la desviación estándar se saca la raíz cuadrada al resultado anterior:

s  s 2  17.96  4.24

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

81 Examen del capítulo: En cada caso seleccione la opción que mejor contesta cada pregunta. (las respuestas a los ejercicios se encuentran en la página de internet del texto: ). 1. Considere el siguiente gráfico:

Con respecto a esta gráfica es falso con toda certeza que: ( a ) La variable X es cuantitativa continua ( b ) La gráfica es un polígono de frecuencias ( c ) Los datos corresponden a una población ( d ) La gráfica corresponde a un histograma 2. Con relación a la gráfica de la pregunta 1, es verdadero que: ( a ) El intervalo de clase es 12,5 ( b ) El valor de n es 32 ( c ) El punto medio de la segunda clase es 24 ( d ) El límite superior de la cuarta clase es 38 3. Con relación a la gráfica de la pregunta 1, es verdadero que: ( a ) La frecuencia relativa acumulada de la cuarta clase es 0,78125 ( b ) La frecuencia relativa de la sexta clase es 2/30 pues hasta ahí se acumulan 30 datos ( c ) El punto medio de la segunda clase es 24 ( d ) La frecuencia absoluta acumulada de la tercera clase es 8 4. Suponga que la variable X de la gráfica de la pregunta 1 corresponde al tiempo, en segundos, entre la llegada de dos autos consecutivos a un peaje en una autopista durante periodo aleatoriamente seleccionado. Con respecto a esta afirmación es falso con toda certeza que: ( a ) Los datos no son confiables pues la muestra es muy pequeña ( b ) El 56,25% de los tiempos entre la llegada de dos autos es de 33,5 segundos ( c ) La mayoría de los tiempos registrados se da entre 26,5 y 33,5 segundos ( d ) Los tiempos de llegada entre dos autos sucesivos nunca son mayores a 54,5 segundos 5. Considere el gráfico de la pregunta 1, la media aritmética es: ( a ) 33,5 ( b ) 31,97 ( c ) 1023 ( d ) Ninguna de las anteriores

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

82 6. Considere el gráfico de la pregunta 1, la mediana es: ( a ) 26,5 ( b ) 28,83 ( c ) 31,75 ( d ) Ninguna de las anteriores 7. Considere el gráfico de la pregunta 1, la moda es, redondeando a dos decimales: ( a ) 31,17 ( b ) 30 ( c ) 26,5 ( d ) Ninguna de las anteriores 8. Considere el gráfico de la pregunta 1, el primer cuartil es, redondeando a dos decimales: ( a ) 24,17 ( b ) 22,30 ( c ) 31,75 ( d ) Ninguna de las anteriores 9. Considere el gráfico de la pregunta 1, el percentil 95 es: ( a ) 48,9 ( b ) 30,4 ( c ) 47,59 ( d ) Ninguna de las anteriores 10. Considere las dos siguientes afirmaciones: A. Si quisiéramos unir los puntos medios de barras consecutivas en un histograma de frecuencia con una serie de líneas, estaríamos graficando un polígono de frecuencias. B. Por lo regular, los estadísticos consideran que una distribución de frecuencia es incompleta si tiene menos de 20 clases. Con respecto a las dos afirmaciones anteriores, es correcto que: ( a ) Ambas son verdaderas ( b ) Solo A es verdadera ( c ) Solo B es verdadera ( d ) Ambas son falsas 11. El gerente de un centro de llamadas desea evaluar el desempeño de los agentes de servicio y para ello decide basarse en los tiempos de espera de los clientes para ser atendidos (medido en segundos) y el grado de satisfacción que los clientes manifiesten al recibir el servicio (valorado como bueno, regular o malo). La semana anterior tomó una muestra de 12 llamadas por día de lunes a miércoles y 20 llamadas el jueves y el viernes. La siguiente tabla corresponde a las frecuencias de los tiempos de espera de los clientes para la muestra de llamadas atendidas durante el día jueves. Las preguntas de la 11 a la 22 se basan en esta tabla. El punto medio de la tercera clase es: ( a ) 20,5 ( c ) 20

Límites reales 10,5 – 14,5 14,5 – 18,5 18,5 – 22,5 22,5 – 26,5 26,5 – 30,5

Frecuencia 2 4 8 5 1

( b ) 19 a 22 ( d ) Ninguna de las anteriores

12. La frecuencia porcentual de la cuarta clase es: ( a ) 25% ( b ) 30% ( c ) 95% ( d ) 5% 13. La frecuencia absoluta acumulada a menos de de la segunda clase es: (a)4 (b)6 ( c ) 18 ( d ) 30%

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

83 14. La frecuencia relativa acumulada a más de de la tercera clase es: ( a ) 14 ( b ) 40% ( c ) 0,70 ( d ) Ninguna de las anteriores 15. La frecuencia absoluta acumulada a menos de correspondiente a la tercera clase significa que: ( a ) 14 clientes esperaron 18,5 segundos o más ( b ) 14 clientes esperaron 18,5 segundos o menos ( c ) 14 clientes esperaron 14,5 segundos o más ( d ) Ninguna de las anteriores 16. La gráfica apropiada para representar las frecuencias absolutas relacionadas con sus puntos medios se llama: ( a ) Gráfico de barras horizontales ( b ) Polígono de frecuencias ( c ) Ojiva a menos de ( d ) Diagrama de frecuencias acumuladas 17. El tiempo medio de espera de los clientes de la muestra del día jueves es, en segundos: ( a ) 20,5 ( b ) 20,3 ( c ) 18,5 ( d ) Ninguna de las anteriores 18. La mediana del tiempo de espera de la muestra del día jueves es, en segundos: ( a ) 20,5 ( b ) 20,3 ( c ) 18,5 ( d ) Ninguna de las anteriores 19. La desviación estándar del tiempo de espera de la muestra del día jueves es, en segundos: ( a ) 4,2 ( b ) 17,64 ( c ) 1,21 ( d ) Ninguna de las anteriores 20. El primer cuartil del tiempo de espera de la muestra del día jueves es, en segundos: ( a ) 17,5 ( b ) 16,5 ( c ) 21,5 ( d ) Ninguna de las anteriores 21. El percentil 78 del tiempo de espera de la muestra del día jueves es, en segundos: ( a ) 23,78 ( b ) 19,78 ( c ) 22,88 ( d ) Ninguna de las anteriores 22. Con respecto al tercer cuartil para los tiempos de espera del día jueves es verdadero que: ( a ) Un 25% de los clientes de ese día esperaron 23,3 segundos o menos ( b ) Un 75% de los clientes de ese día esperaron 23,3 segundos o menos ( c ) Un 25% de los clientes de ese día esperaron 22,5 segundos o menos ( d ) Un 75% de los clientes de ese día esperaron 22,5 segundos o menos Respuestas a los ejercicios de selección múltiple: 1. b 2. b 3. a 6. c 7. a 8. a 11. a 12. a 13. b 16. b 17. b 18. a 21. a 22. b

4. b 9. a 14. c 19. a

5. b 10. b 15. c 20. a

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

84

5

.

Introducción a las probabilidad OBJETIVOS: Al concluir el capítulo, será capaz de: 1. Reconocer la importancia y uso del concepto de probabilidad 2. Aplicar conceptos básicos de conteo 3. Calcular probabilidades empleando la definición clásica de probabilidad 4. Aplicar los principales teoremas y axiomas de probabilidad

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

85

Ejemplo

Si usted invita a 8 personas a comer y hay una mesa con 8 sillas, ¿de cuántas formas distintas pueden sentarse a la mesa?

Solución

La primer persona que se sienta dispone de 8 posibilidades, la segunda de sólo 7 (ya que la primera ya se sentó), la tercera tiene 6 posibilidades, la cuarta 5 y así sucesivamente. Por tanto se pueden sentar de: 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 = 40320 formas distintas

Ejercicio de revisión

1. Un restaurante ofrece las siguientes opciones para almorzar: • • •

Tres tipos de plato fuerte: pollo, res, chuleta Dos tipos de refrescos: frutas, cola Dos tipos de postre: flan, helado

¿Cuántas órdenes distintas pueden efectuarse? 2. Si una contraseña para retirar dinero de un cajero automático se compone de 4 dígitos. ¿Cuántas contraseñas distintas son posibles? Solución: 1. Se aplica el principio de multiplicación de conteo: # órdenes = 3 x 2 x 2 = 12 2. Cada dígito de la contraseña posee 10 dígitos posibles, por tanto aplicando el principio de multiplicación de conteo: # contraseñas = 10 x 10 x 10 x 10 = 10.000

Ejemplo

Calcule el factorial de 5.

Solución

El factorial de 5 es: 5! = 5  4  3  2  1 = 120

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

86

Ejercicio de revisión

Calcule el factorial de los siguientes números: 1. 2. 3. 4. 5. 6. 7.

5! = 6! = 10! = 0! = 1! = 70! = 20! =

Solución: 1. 2. 3. 4. 5. 6. 7.

5! = 5 x 4 x 3 x 2 x 1 = 120 6! = 6 x 5 x 4 x 3 x 2 x 1 = 720 10! = 10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 = 3.628.800 0! = 1 1! = 1 70! = 1.197857E+100 (usando Excel) 20! = 2.432902E+18 (usando Excel)

Ejemplo

Use Excel y Minitab para calcular el factorial de 5.

Solución

En Excel se emplea la función FACT, la cual tiene la siguiente sintaxis: =FACT(número) Donde "número" indica la celda donde se halla el número del cual se desea calcular el factorial, o bien, simplemente se escribe dicho número. Entonces, en este caso se digita en la celda en que se desea obtener el resultado la función: =FACT(5) Y así se obtiene el resultado 120. En Minitab se requiere dar clic al menú Calc y elegir Calculadora. En el cuadro de diálogo se debe completar la columna de la hoja de trabajo en la cual se desea almacenar el resultado, por ejemplo, la columna C1. Luego en expresión se emplea la función FACTORIAL, la cual emplea la sintaxis: FACTORIAL(número de elementos) Donde "número de elementos" es el número del cual se desea obtener el factorial, o bien, la columna en la que se hallan esos números. En este caso, si se indica solo el número, entonces la función quedaría:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

87

FACTORIAL(5) Después se da clic en Aceptar y el resultado 120 se obtiene en la hoja de trabajo en la celda que se haya indicado.

Ejemplo

Calcule el número de permutaciones de 5 elementos tomados de 3 en 3.

Solución

Se tiene que n = 5 y r = 3: P(5,3) 

Ejercicio de revisión

5! 5! 120    60 (5  3) ! 2! 2

Calcule las siguientes permutaciones: 1. P(8, 5) = 2. P(6, 0) = 3. P(10, 1) = 4. P(5, 5) = 5. P(300, 1) = 6. P(200, 2) = 7. P(n, n) = 8. P(n, 1) = 9. P(n, 0) = 10. P(n, n – 1) = Solución: 1. 2. 3. 4. 5. 6.

P(8, 5) = 6720 P(6, 0) = 1 P(10, 1) = 10 P(5, 5) = 120 P(300, 1) = 300 P(200, 2) = 39800 n! n! 7. P(n, n) =   n! ( n  n) ! 0 ! n! n (n  1) ! 8. P(n, 1) =  n (n  1) ! (n  1) ! n! n! 9. P(n, 0) =  1 (n  0) ! n ! n! n! 10. P(n, n – 1) =   n! (n  (n  1)) ! 1!

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

88

Ejemplo

Use Excel y Minitab para calcular el número de permutaciones de 5 elementos tomados de 3 en 3.

Solución

En Excel se emplea la función PERMUTACIONES, la cual tiene la siguiente sintaxis: =PERMUTACIONES(número; tamaño) Donde "número" indica la celda donde se halla el valor de n, o bien, simplemente se escribe dicho valor de n. Luego "tamaño" es la celda en la cual se haya el valor de r o simplemente el valor de r. Entonces, en este caso se digita en la celda en que se desea obtener el resultado la función: =PERMUTACIONES(5; 3) Y así se obtiene el resultado 60. En Minitab se requiere dar clic al menú Calc y elegir Calculadora. En el cuadro de diálogo se debe completar la columna de la hoja de trabajo en la cual se desea almacenar el resultado, por ejemplo, la columna C1. Luego en expresión se emplea la función PERMUTATIONS, la cual emplea la sintaxis: PERMUTATIONS(número de elementos.número para elegir) Donde "número de elementos" es el valor de n, o bien, la columna en la que se halla el valor de n. Luego, "número para elegir" es el valor de r, o la columna en la que se encuentra el valor de r. En este caso, si se indican solo los números, entonces la función quedaría: PERMUTATIONS(5.3) Después se da clic en Aceptar y el resultado 60 se obtiene en la hoja de trabajo en la celda que se haya indicado.

Ejemplo

Calcule el número de combinaciones de 5 elementos tomados de 3 en 3.

Solución

Se tiene que n = 5 y r = 3: C (5,3) 

5! 5! 120    10 3! (5  3) ! 3! 2! 6  2

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

89

Ejercicio de revisión

Calcule las siguientes probabilidades: 1. C(8, 5) = 2. C(6, 0) = 3. C(10, 1) = 4. C(5, 5) = 5. C(300, 1) = 6. C(200, 2) = 7. C(n, n) = 8. C(n, 1) = 9. C(n, 0) = 10. C(n, n – 1) = Resuelva los siguientes ejercicios: 1. ¿Cuántas directivas de tres miembros (presidente, secretario y tesorero) se pueden formar de un grupo de 8 personas elegibles? 2. ¿Cuántos comités de tres miembros se pueden formar de un grupo de 8 personas elegibles? 3. ¿Cuántos comités de tres estudiantes y dos profesores se pueden formar si hay un grupo de 10 estudiantes y 5 profesores elegibles? Solución: 1. 2. 3. 4. 5. 6.

C(8, 5) = 56 C(6, 0) = 1 C(10, 1) = 10 C(5, 5) = 1 C(300, 1) = 300 C(200, 2) = 19900 n! n! 7. C(n, n) =  1 n !(n  n) ! n!0! n! n(n  1)! 8. C(n, 1) =  n 1!(n  1) ! 1  (n  1)! n! n! 9. C(n, 0) =  1 0!(n  0) ! 1  n ! n! n(n  1) ! 10. C(n, n – 1) =  n (n  1) !(n  (n  1))! (n  1)!1! Resuelva los siguientes ejercicios: 1. ¿Cuántas directivas de tres miembros (presidente, secretario y tesorero) se pueden formar de un grupo de 8 personas elegibles? En el caso de las directivas, los puestos implican que el orden es importante, por tanto se calculan permutaciones. Entonces n = 8, r = 3: P(8, 3) = 336

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

90

2. ¿Cuántos comités de tres miembros se pueden formar de un grupo de 8 personas elegibles? En el caso de los comités, al no haber puestos, el orden no es importante, por tanto se calculan combinaciones. Entonces n = 8, r = 3: C(8, 3) = 56 3. ¿Cuántos comités de tres estudiantes y dos profesores se pueden formar si hay un grupo de 10 estudiantes y 5 profesores elegibles? Se emplean combinaciones y se calcula por separado para los estudiantes y los profesores: C(10, 3) = 120 C(5, 2) = 10 Luego se aplica el principio de multiplicación: # comités = 120 x 10 = 1200

Ejemplo

Use Excel y Minitab para calcular el número de combinaciones de 5 elementos tomados de 3 en 3.

Solución

En Excel se emplea la función COMBINAT, la cual tiene la siguiente sintaxis: =COMBINAT(número; tamaño) Donde "número" indica la celda donde se halla el valor de n, o bien, simplemente se escribe dicho valor de n. Luego "tamaño" es la celda en la cual se haya el valor de r o simplemente el valor de r. Entonces, en este caso se digita en la celda en que se desea obtener el resultado la función: =COMBINAT(5; 3) Y así se obtiene el resultado 10. En Minitab se requiere dar clic al menú Calc y elegir Calculadora. En el cuadro de diálogo se debe completar la columna de la hoja de trabajo en la cual se desea almacenar el resultado, por ejemplo, la columna C1. Luego en expresión se emplea la función COMBINATIONS, la cual emplea la sintaxis: COMBINATIONS(número de elementos.número para elegir) Donde "número de elementos" es el valor de n, o bien, la columna en la

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

91 que se halla el valor de n. Luego, "número para elegir" es el valor de r, o la columna en la que se encuentra el valor de r. En este caso, si se indican solo los números, entonces la función quedaría: COMBINATIONS(5.3) Después se da clic en Aceptar y el resultado 10 se obtiene en la hoja de trabajo en la celda que se haya indicado.

Ejemplo

Suponga que en un grupo de 10 bolas hay 5 de color rojo, 3 azules y dos blancas, ¿cuántas permutaciones son posibles?

Solución

Aplicando la fórmula de permutaciones con elementos repetidos: n! 10! 3628800 3628800     2520 n R ! n A ! n B ! 5! 3! 2! 120  6  2 1440

Ejemplo

¿Cuál es la probabilidad de que al tirar un dado perfecto se obtenga un número par mayor que 2?

Solución

Se define el evento A como obtener un número par mayor de 2. Al tirar el dado los seis lados tienen igual posibilidad de quedar hacia arriba. Los números pares mayores que 2 son 4 y 6, por lo tanto: P( A) 

Ejercicio de revisión

a 2   0,3333 N 6

Se lanzan dos dados y se suman los puntos. Si X es la suma de los puntos, calcule las siguientes probabilidades: 1. 2. 3. 4. 5. 6.

P(X = 3) = P(X = 6) = P(X = 7) = P(X = 11) = P(X = 12) = P(X = 15) =

Solución: Cada dado tiene 6 posibles resultados, por lo que el número total de posibles resultados es 6 x 6 = 36: 1. P(X = 3) = 2/36

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

92 2. 3. 4. 5. 6.

P(X = 6) = 5/36 P(X = 7) = 6/36 P(X = 11) = 2/36 P(X = 12) = 1/36 P(X = 15) = 0

Ejemplo

En un lote de 3.000 piezas producidas en una máquina se encontraron 96 defectuosas. Calcule la probabilidad de piezas defectuosas de esa máquina.

Solución

Si d es el evento obtener una pieza defectuosa, entonces su frecuencia es 96, lo que da la probabilidad: P( d ) 

Ejercicio de revisión

96  0,0320 3.000

En una ciudad en la que habitan 5.000 personas, se sabe que 2.700 son mujeres. Si se selecciona una persona al azar, ¿cuál es la probabilidad de que sea mujer? Solución: P( M ) 

Ejercicio de revisión

2.700  0,54 5.000

En cada caso, indique cuál enfoque se emplearía para determinar la probabilidad de que el evento dado ocurra: a. Ganar en un juego de ruleta. b. Enfermar de cáncer de piel. c. Que un nuevo producto desarrollado por una compañía sea un éxito. d. Que la realización de un proyecto dure más de lo esperado. e. Que una computadora nueva falle en un plazo de tres años o menos. Solución: a. Enfoque objetivo o clásico b. Frecuencias relativas c. Frecuencias relativas d. Enfoque subjetivo e. Frecuencias relativas

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

93

Ejemplo

En una bodega hay 400 televisores (T), 100 videograbadoras (V), 200 cámaras fotográficas (F) y 300 computadoras (C). Si se selecciona un aparato al azar, ¿cuál es la probabilidad de que sea un televisor o una computadora?

Solución

Dado que los eventos televisor (T) y computadora (C) son excluyentes se calcula cada probabilidad por separado y se suman ambas probabilidades. Además, en la bodega hay un total de 1000 aparatos: P(T o C ) 

Ejercicio de revisión

400 300 700    0,7 1000 1000 1000

Suponga que se tiene un grupo de 40 ingenieros que se agrupan por carrera y por sexo según la tabla. Suponga que ninguno ha estudiado dos carreras. Si se selecciona al azar un profesional, ¿cuál es la probabilidad de que sea ingeniero civil o ingeniero industrial? Industrial Masculino 8 Femenino 7 Total 15

Civil 6 2 8

Electrónica 6 4 10

Otras 6 1 7

Total 26 14 40

Solución: P(C o I ) 

8 15 23    0,575 40 40 40

Ejemplo

En una bodega hay 400 televisores (T), 100 videograbadoras (V), 200 cámaras fotográficas (F) y 300 computadoras (C). Si se selecciona un aparato al azar, ¿cuál es la probabilidad de que sea un televisor o una computadora o una cámara fotográfica?

Solución

Dado que los eventos televisor (T), computadora (C) y cámara fotográfica (F) son excluyentes se calcula cada probabilidad por separado y se suman ambas probabilidades. Además, en la bodega hay un total de 1000 aparatos: P(T o C o F ) 

400 300 200 900     0,9 1000 1000 1000 1000

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

94

Ejemplo

En una bodega hay 400 televisores (T), 100 videograbadoras (V), 200 cámaras fotográficas (F) y 300 computadoras (C). Además, se tienen algunos datos sobre su nivel de calidad, como perfectos (P) o con defectos (D), según la tabla:

P D Total

T 350 50 400

Tipo de aparato V F 80 150 20 50 100 200

C 270 30 300

Total 850 150 1000

Si se selecciona un aparato al azar, ¿cuál es la probabilidad de que sea un televisor o que tenga defectos?

Solución

En la bodega hay un total de 1000 aparatos. Dado que los eventos televisor (T) y que el aparato tenga defectos (D) no son excluyentes se calcula cada probabilidad por separado y se suman ambas probabilidades, pero también se resta la probabilidad de que ocurran a la vez: P(T o D) 

Ejercicio de revisión

400 150 50 500     0,5 1000 1000 1000 1000

Suponga que se tiene un grupo de 40 ingenieros que se agrupan por carrera y por sexo según la tabla. Suponga que ninguno ha estudiado dos carreras. Si se selecciona al azar un profesional, ¿cuál es la probabilidad de que sea ingeniero civil o mujer? Industrial Masculino 8 Femenino 7 Total 15

Civil 6 2 8

Electrónica 6 4 10

Otras 6 1 7

Total 26 14 40

Solución: P(C o M ) 

8 14 2 20     0,5 40 40 40 40

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

95

Ejemplo

En una bodega hay 400 televisores (T), 100 videograbadoras (V), 200 cámaras fotográficas (F) y 300 computadoras (C). Además, se tienen algunos datos sobre su nivel de calidad, como perfectos (P) o con defectos (D), según la tabla:

P D Total

T 350 50 400

Tipo de aparato V F 80 150 20 50 100 200

C 270 30 300

Total 850 150 1000

Si se selecciona un aparato al azar, ¿cuál es la probabilidad de que tenga defectos?

Solución

Dado que solo hay dos niveles de calidad, perfecto (P) o con defectos (D), entonces podrían considerarse como eventos complementarios, por lo que la probabilidad de que tenga defectos es igual a uno menos la probabilidad de que esté perfecto: P( D)  1 

Ejercicio de revisión

850 150  1000 1000

Suponga que se tiene un grupo de 40 ingenieros que se agrupan por carrera y por sexo según la tabla. Suponga que ninguno ha estudiado dos carreras. Si se selecciona al azar un profesional, ¿cuál es la probabilidad de que no sea ingeniero civil? Industrial Masculino 8 Femenino 7 Total 15

Civil 6 2 8

Electrónica 6 4 10

P( D)  1 

8 32   0.8 40 40

Otras 6 1 7

Total 26 14 40

Solución:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

96

Ejemplo

En una bodega hay 400 televisores (T), 100 videograbadoras (V), 200 cámaras fotográficas (F) y 300 computadoras (C). Además, se tienen algunos datos sobre su nivel de calidad, como perfectos (P) o con defectos (D), según la tabla:

P D Total

Tipo de aparato V F 80 150 20 50 100 200

T 350 50 400

C 270 30 300

Total 850 150 1000

Si se selecciona un televisor al azar, ¿cuál es la probabilidad de que tenga defectos?

Solución

Aplicando la definición de probabilidad condicional:

P( D / T ) 

P( DT ) P(T )

Se calcula la probabilidad de que sea televisor y tenga defectos: P(DT) = 50/1000 Y se divide entre la probabilidad de que sea un televisor:

P( D / T ) 

Ejercicio de revisión

P( DT ) 50 / 1000 50   P(T ) 400 / 1000 400

Suponga que se tiene un grupo de 40 ingenieros que se agrupan por carrera y por sexo según la tabla. Suponga que ninguno ha estudiado dos carreras. Si se selecciona al azar un profesional y se sabe que debe ser mujer, ¿cuál es la probabilidad de que sea ingeniero civil?

Masculino Femenino Total

Industrial 8 7 15

Civil 6 2 8

Electrónica 6 4 10

Otras 6 1 7

Total 26 14 40

Solución:

P(C / M ) 

P(CM ) 2 / 40 2    0.14 P( M ) 14 / 40 14

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

97

Ejemplo

Se tiene una caja con 10 bolas de colores: 6 bolas rojas y 4 bolas azules. Se seleccionarán dos bolas al azar: 1. ¿Cuál es la probabilidad de que la primera bola sea roja y la segunda azul, si la primera bola se regresa a la caja antes de sacar la segunda? 2. ¿Cuál es la probabilidad de que la primera bola sea roja y la segunda azul, si la primera bola no se regresa a la caja antes de sacar la segunda?

Solución

Dado que los eventos televisor (T), computadora (C) y cámara fotográfica (F) son excluyentes se calcula cada probabilidad por separado y se suman ambas probabilidades. Además, en la bodega hay un total de 1000 aparatos: P(T o C o F ) 

Ejercicio de revisión

400 300 200 900     0,9 1000 1000 1000 1000

Suponga que se tiene un grupo de 40 ingenieros que se agrupan por carrera y por sexo según la tabla. Suponga que ninguno ha estudiado dos carreras. Si se selecciona al azar un profesional, ¿cuál es la probabilidad de que sea ingeniero civil o ingeniero industrial? Industrial Masculino 8 Femenino 7 Total 15

Civil 6 2 8

Electrónica 6 4 10

Otras 6 1 7

Total 26 14 40

Solución: P(C o I ) 

8 15 23    0,575 40 40 40

Ejemplo

Si la probabilidad de que un día cualquiera B1 haya venido a la universidad es del 50% y la probabilidad de que Marta haya viajado con él es del 30%; la probabilidad de que B2 haya venido a la universidad es del 30% y la de que Marta haya venido con él es del 25% y la probabilidad de que B3 haya venido a la universidad es del 20% y la de que Marta haya venido con él es del 15%. ¿Cuál es la probabilidad de que si Marta vino a clases haya viajado con B2?

Solución

Calculando primero P(A):

P( A)   P( Bi ) P( A / Bi )  0.5  0.3  0.3  0.25  0.2  0.15  0.255

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

98 Y luego aplicando el teorema de Bayes: P( B2 / A) 

P( B2 ) P( A / B2 ) 0.3  0.25   0.2941 P( A) 0.255

Examen del capítulo: En cada caso seleccione la opción que mejor contesta cada pregunta (las respuestas a los ejercicios se encuentran en la página de internet del texto: ). 1. Se tiene un grupo de n libros. El número de diferentes órdenes posibles de los n libros en una mesa no equivale a: ( a ) P(n, n) ( b ) n! ( c ) C(n, n) ( d ) Ninguna de las anteriores 2. Se tiene un grupo de n libros, suponga que los n libros se van a conformar en grupos de 3 libros (suponiendo que n > 3). El número de diferentes grupos con distinto orden, equivale a: ( a ) P(n, 3) ( b ) n! / 3! ( c ) C(n, 3) ( d ) P(n, n – 3) 3. Se tiene un grupo de n libros, suponga que se desea saber el número de diferentes agrupaciones sin importar el orden de tres libros de los n libros del grupo (n > 3). Ese número equivale a: ( a ) P(n, 3) ( b ) n! / 3! ( c ) C(n, 3) ( d ) C(n, n – 3) 4. Se tiene un grupo de 5 personas. El número de diferentes disposiciones posibles de los asientos para este conjunto de 5 individuos que se van a sentar en 5 sillas no equivale a: ( a ) P(5, 5) ( b ) 5! ( c ) C(5, 5) ( d ) Ninguna de las anteriores 5. Se tiene un grupo de 5 personas, suponga que solo se van a sentar 3 de los 5 individuos. El número de diferentes disposiciones posibles de los asientos para este conjunto de 3 individuos, considerando que pueden ser elegidos 3 cualesquiera de los 5, equivale a: ( a ) P(5, 2) ( b ) 5! / 2! ( c ) C(5, 3) ( d ) Ninguna de las anteriores 6. Se tiene un grupo de 5 personas, suponga que se desea saber el número de diferentes agrupaciones de tres de los cinco miembros del grupo. Ese número equivale a: ( a ) P(5, 2) ( b ) 5! / 2! ( c ) C(5, 3) ( d ) Ninguna de las anteriores 7. Suponga que se tiene un grupo de 40 ingenieros que se agrupan por carrera y por sexo según la tabla:

Masculino Femenino

Industrial 8 7

Civil 6 2

Electrónica 6 4

Otras 6 1

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

99 La probabilidad de que un ingeniero aleatoriamente seleccionado sea una mujer o que haya estudiado ingeniería industrial (o ambos) es: ( a ) 11/20 ( b ) 29/40 ( c ) 7/40 ( d ) 210/1600 8. Con respecto a los datos del ejercicio 7, la probabilidad de seleccionar al azar un ingeniero que sea hombre o sea ingeniero civil, pero no ambos, es: ( a ) 11/20 ( b ) 34/40 ( c ) 28/40 ( d ) Ninguna de las anteriores 9. Con respecto a los datos del ejercicio 7, la probabilidad condicional de seleccionar al azar un ingeniero en electrónica dado que sea mujer es: ( a ) 2/7 ( b ) 14/40 ( c ) 4/40 ( d ) 8/4 10. Con respecto a los datos del ejercicio 7, al calcular la probabilidad de seleccionar al azar un ingeniero industrial y la probabilidad de seleccionar un ingeniero que sea hombre, se concluye que los eventos, ser ingeniero industrial y ser de sexo masculino son: ( a ) mutuamente excluyentes y dependientes ( b ) dependientes pero no mutuamente excluyentes ( c ) mutuamente excluyentes e independientes ( d ) ni mutuamente excluyentes ni dependientes 11. Se sabe que la caja A contiene un sobre con un billete de un dólar y otro sobre con un billete de $10. La caja B contiene 2 sobres, cada uno con un billete de $10. Se elige aleatoriamente una caja y de ella se selecciona un sobre. Si en el primer paso se selecciona la caja A, la probabilidad de que en el segundo paso se seleccione un sobre con un billete de $10 es: ( a ) 1/2 ( b ) 1/10 (c)1 ( d ) Ninguna de las anteriores 12. Con base en los datos de la pregunta 8, si en el segundo paso se selecciona un sobre con un billete de $10, la probabilidad de que ese sobre provenga de la caja A es: ( a ) 1/3 ( b ) 1/4 ( c ) 1/2 ( d ) Ninguna de las anteriores 13. Un evento que no se puede descomponer en dos o más eventos se llama: ( a ) evento simple ( b ) espacio muestral ( c ) evento compuesto ( d ) probabilidad 14. Para dos eventos complementarios A y B, es verdadero que: ( a ) 0 ≤ P(A) + P(B) ≤ 1 ( b ) P(A o B) < 1 ( c ) P(A) = 1 + P(B) ( d ) P(A y B) = 1 15. Un ejemplo de la aplicación del enfoque de probabilidad de frecuencias relativas se da al determinar: ( a ) La probabilidad de que haya recesión el próximo año ( b ) La probabilidad de obtener un 6 al lanzar un dado ( c ) La probabilidad de que en un proceso se obtenga una pieza defectuosa ( d ) La probabilidad de ganar el premio mayor de la lotería

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

100 16. Al calcular C(n, n) se obtiene: (a)1 (c)0

(b)n ( d ) Ninguna de las anteriores

17. La proporción global de artículos no defectuosos en un proceso de producción continua es de 0,80. La probabilidad de obtener al azar dos artículos defectuosos consecutivamente es: ( a ) 0,04 ( b ) 0,64 ( c ) 0,96 ( d ) 0,4 18. En una caja hay 10 bolas rojas, 7 bolas azules y 8 bolas verdes. La probabilidad de seleccionar al azar una bola roja no equivale a: ( a ) 1 – 8/25 – 7/25 ( b ) 8/25 – 7/25 – 1 ( c ) 2/5 ( d ) 10/25 19. En una caja hay 10 bolas rojas, 7 bolas azules y 8 bolas verdes. La probabilidad de seleccionar al azar una bola verde primero y una bola roja después, en un muestreo sin reemplazo, equivale a: ( a ) 8/25 x 9/24 ( b ) 8/25 x 10/24 ( c ) 10/25 x 8/25 ( d ) 8/25 + 10/24 20. En una caja hay 10 bolas rojas, 7 bolas azules y 8 bolas verdes. La probabilidad de seleccionar al azar una bola verde primero y una bola roja después, en un muestreo con reemplazo, equivale a: ( a ) 8/25 x 9/24 ( b ) 8/25 x 10/24 ( c ) 10/25 x 8/25 ( d ) Ninguna de las anteriores 21. En una caja hay 10 bolas rojas, 7 bolas azules y 8 bolas verdes. La probabilidad de seleccionar al azar una bola verde o una bola roja, equivale a: ( a ) 8/25 x 9/24 ( b ) 8/25 + 10/24 ( c ) 10/25 x 8/25 ( d ) 10/25 + 8/25 22. En una caja hay 10 bolas rojas, 8 bolas azules y 7 bolas verdes. La probabilidad de seleccionar al azar una bola que no sea verde equivale a: ( a ) –2/5 – 8/25 + 1 ( b ) –17/25 + 1 ( c ) 18/25 ( d ) 10/25 + 7/25 23. En una caja hay 10 bolas rojas, 7 bolas azules y 8 bolas verdes. La probabilidad de seleccionar al azar una bola verde primero y otra bola verde después, en un muestreo sin reemplazo, equivale a: ( a ) 8/25 x 8/24 ( b ) 8/25 x 7/24 ( c ) 8/25 x 8/25 ( d ) 8/25 + 7/24 24. Si la probabilidad de que una familia tenga un hijo varón es de 0,45. Si la familia tiene 3 hijos, entonces la probabilidad de que los tres hijos sean varones es de: ( a ) 0,45 ( b ) 0,0911 ( c ) 1,35 ( d ) 0,1664 25. Si la probabilidad de que una familia tenga un hijo varón es de 0,45. Si la familia tiene 3 hijos, entonces la probabilidad de que tenga dos hijos varones es de: ( a ) 0,45 ( b ) 0,1113 ( c ) 0,3341 ( d ) 1,45

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

101 26. Si la probabilidad de que una familia tenga un hijo varón es de 0,45. Si la familia tiene 3 hijos, entonces la probabilidad de que los dos primeros hijos sean varones es de: ( a ) 0,2025 ( b ) 0,45 ( c ) 0,1135 ( d ) 0,90 27. Si la probabilidad de que una familia tenga un hijo varón es de 0,45. Si la familia tiene 3 hijos, entonces la probabilidad de que solo tenga un hijo varón es de: ( a ) 0,1361 ( b ) 0,4083 ( c ) 1,55 ( d ) 0,3025 28. Si la probabilidad de que una familia tenga un hijo varón es de 0,45. Si la familia tiene 3 hijos, entonces la probabilidad de que ninguno de los hijos sea varón es de: ( a ) 0,1361 ( b ) 0,1663 ( c ) 1,65 ( d ) 0,55 29. En una caja hay bolas rojas, bolas azules y bolas verdes. La probabilidad de seleccionar al azar una bola verde primero y una bola roja después, en un muestreo sin reemplazo, equivale a: ( a ) P(V) x P(R) ( b ) P(V) x P(R/V) ( c ) P(V) + P(R) ( d ) P(V) x (1 – P(R)) 30. En una caja hay bolas rojas, bolas azules y bolas verdes. La probabilidad de seleccionar al azar una bola que sea verde o bola roja, no equivale a: ( a ) P(V) + P(R) – P(VR) ( b ) 1 – P(A) ( c ) P(V) + P(R) ( d ) P(V) x P(R) 31. Considere la siguiente información: “En una encuesta aplicada a 700 hogares a nivel nacional, de los cuales la mitad tienen actualmente acceso al servicio de telefonía celular, se obtuvieron los siguientes datos: ante la apertura en el mercado de telecomunicaciones, el 68% los usuarios actuales de telefonía celular estaría dispuesto a cambiar de operador. Entre la población que aun no posee celular, solo un 38% optará por el operador actual, mientras que el resto escogerá un nuevo proveedor de servicio”. Con base en los datos anteriores, la probabilidad de seleccionar un hogar al azar de los 700 estudiados que sea un usuario actual de telefonía celular y que desee mantener ese servicio con el proveedor actual es: ( a ) 0,16 ( b ) 0,32 ( c ) 112 ( d ) 0,68 32. Utilizando la misma información del ejercicio 31, la probabilidad de seleccionar un hogar al azar de los 700 estudiados que no sea un usuario actual de telefonía celular y que desee contratar para ese servicio al proveedor actual es: ( a ) 0,38 ( b ) 0,19 ( c ) 0,62 ( d ) 0,31 33. Utilizando la misma información del ejercicio 31, la probabilidad de seleccionar un hogar al azar de los 700 estudiados que no sea un usuario actual de telefonía celular es: ( a ) 0,31 ( b ) 0,38 ( c ) 0,62 ( d ) 0,5 34. Utilizando la misma información del ejercicio 31, la probabilidad de seleccionar un hogar al azar de los 700 estudiados que estaría no dispuesto a contratar a un nuevo proveedor de telefonía celular distinto del actual es: ( a ) 0,62 ( b ) 0,68 ( c ) 1,3 ( d ) 0,65

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

102 35. El 56% de los habitantes del país se conectan a internet con regularidad y 53% de los hogares tienen computadora. La probabilidad de seleccionar al azar a dos personas y que ambas utilicen internet con regularidad es: ( a ) 0,1936 ( b ) 0,2809 ( c ) 0,3136 ( d ) 1,12 36. El 56% de los habitantes del país se conectan a internet con regularidad y 53% de los hogares tienen computadora. La probabilidad de seleccionar al azar dos hogares, tal que el primero tenga computadora y el segundo no, es: ( a ) 0,2209 ( b ) 0,2809 ( c ) 0,2491 ( d ) 0,3136 37. El 56% de los habitantes del país se conectan a internet con regularidad y 53% de los hogares tienen computadora. La probabilidad de seleccionar al azar un hogar, tal que tenga computadora o que al menos uno de sus miembros utilice internet con regularidad es: ( a ) 1,09 ( b ) 0,2968 ( c ) 0,06 ( d ) Falta información 38. Un ejemplo de la aplicación del enfoque subjetivo de probabilidad se da al determinar: ( a ) La probabilidad de que internet colapse dentro de 10 años ( b ) La probabilidad de ganar $10.000 en un casino ( c ) La probabilidad de que en un proceso se obtenga una pieza defectuosa todos los días ( d ) La probabilidad de seleccionar al azar una persona que haya nacido en la misma fecha 39. Un evento que no se puede descomponer en dos o más eventos se llama: ( a ) evento simple ( b ) espacio muestral ( c ) evento compuesto ( d ) probabilidad 40. Para dos eventos excluyentes A y B, es falso con toda certeza que: ( a ) 0 ≤ P(A) + P(B) ≤ 1 ( b ) P(A o B) = 1 ( c ) P(A) = 1 – P(B) ( d ) P(A y B) = 1

Respuestas a las preguntas de selección múltiple: 1. c 6. c 11. a 16. a 21. d 26. a 31. a 36. c

2. a 7. a 12. a 17. a 22. c 27. b 32. b 37. d

3. c 8. a 13. a 18. b 23. b 28. b 33. d 38. a

4. c 9. a 14. a 19. b 24. b 29. b 34. d 39. a

5. b 10. d 15. c 20. c 25. c 30. d 35. c 40. d

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

103

6

.

Distribuciones de probabilidad de variable discreta OBJETIVOS: Al concluir el capítulo, será capaz de: 1. Calcular la media y la varianza de una distribución de probabilidad 2. Resolver problemas empleando la distribución binomial 3. Resolver problemas empleando la distribución hipergeométrica 4. Resolver problemas empleando la distribución de Poisson 5. Resolver problemas empleando la distribución multinomial 6. Resolver problemas empleando la distribución geométrica

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

104

Ejemplo

Suponga que se lanza al aire una moneda dos veces para ver si cae “cara” (evento A) o “cruz” (evento B). Construya la tabla de la distribución de probabilidad.

Solución

En este caso existen 4 resultados posibles, cada uno con las siguientes probabilidades: Evento AA AB BA BB Total

Probabilidad 0,25 0,25 0,25 0,25 1,00

La tabla anterior es la distribución de probabilidad para el experimento “lanzar al aire una moneda dos veces”.

Ejemplo

Suponga que se está efectuando el siguiente juego de dados: el jugador hace una apuesta y lanza los dos dados. Si la suma de los puntos es 7 u 11, gana el monto apostado. Pero si sale cualquier otra suma, pierde el monto apostado. Construya la distribución de probabilidad para la suma de los puntos de los dos dados y la distribución de probabilidad para los resultados del juego.

Solución

En este caso existen resultados posibles, cada uno con las siguientes probabilidades: Evento 2 3 4 5 6 7 8 9 10 11 12 Total

Sumas 1+1 1 + 2, 2 + 1 1 + 3, 2 + 2, 3 + 1 1 + 4, 2 + 3, 3 + 2, 4 + 1 1 + 5, 2 + 4, 3 + 3, 4 + 2, 5 + 1 1 + 6, 2 + 5, 3 + 4, 4 + 3, 5 + 2, 6 + 1 2 + 6, 3 + 5, 4 + 4, 5 + 3, 6 + 2 3 + 6, 4 + 5, 5 + 4, 6 + 3 4 + 6, 5 + 5, 6 + 4 5 + 6, 6 + 5 6+6 -

Probabilidad 1/12 2/12 3/12 4/12 5/12 6/12 5/12 4/12 3/12 2/12 1/12 1,00

La tabla anterior es la distribución de probabilidad para el experimento “lanzar al aire una moneda dos veces”.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

105

Ejercicio de revisión

En cada uno de los siguientes casos construya la tabla de la distribución de frecuencias: 1. Una rifa consta de 100 números a un precio de $20 cada uno. El premio es de $1000 (premio único) y el jugador compra un número. 2. Una rifa consta de 100 números a un precio de $20 cada uno. El premio es de $1000 (premio único) y el jugador compra dos números. 3. En una caja hay 10 bolas, 2 son azules, 3 son verdes y 5 son rojas. Se saca una bola y si la bola es azul se ganan cero puntos, si es verde se gana un punto y si es roja se ganan dos puntos. 4. En una caja hay 10 bolas, 2 son azules, 3 son verdes y 5 son rojas. Se sacan dos bolas y se suman los puntos sabiendo que si la bola es azul se ganan cero puntos, si es verde se gana un punto y si es roja se ganan dos puntos. Solución: 1. Los posibles resultados son ganar la rifa o perder: Resultado ($) Ganar = 980 Perder = -20 Total

Probabilidad 1/100 99/100 100/100 = 1

2. Los posibles resultados son ganar la rifa o perder: Resultado ($) Ganar = 960 Perder = -40 Total

Probabilidad 2/100 98/100 100/100 = 1

3. Los posibles resultados son cero puntos (bola azul), un punto (bola verde) y dos puntos (bola roja): Resultado 0 1 2 Total

Probabilidad 2/10 3/10 5/10 10/10 = 1

4. Los posibles resultados al sacar una bola son son cero puntos (bola azul), un punto (bola verde) y dos puntos (bola roja): Bola 1 Azul Azul

Bola 2 Azul Verde

Puntos 0+0 0+1

Resultado 0 1

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

106 Azul Verde Verde Verde Roja Roja Roja

Roja Azul Verde Roja Azul Verde Roja

0+2 1+0 1+1 1+2 2+0 2+1 2+2

2 1 2 3 2 3 4

Pero hay que considerar que los colores no están distribuidos en igual cantidad, sino que la probabilidad de una bola azul es 2/10, la de una bola verde es 3/10 y de una bola roja es 5/10, por tanto los resultados anteriores no son igualmente probables: Bola 1 Azul Azul Azul Verde Verde Verde Roja Roja Roja

Bola 2 Azul Verde Roja Azul Verde Roja Azul Verde Roja

Resultado 0 1 2 1 2 3 2 3 4

Probabilidad 2/10 x 2/10 = 4/100 2/10 x 3/10 = 6/100 2/10 x 5/10 = 10/100 3/10 x 2/10 = 6/100 3/10 x 3/10 = 9/100 3/10 x 5/10 = 15/100 5/10 x 2/10 = 10/100 5/10 x 3/10 = 15/100 5/10 x 5/10 = 25/100

Resumiendo los resultados: Resultado 0 1 2 3 4

Ejemplo

Cálculo 4/100 6/100 + 6/100 10/100 + 9/100 + 10/100 15/100 + 15/100 25/100 Total

Calcule la media y la desviación estándar de la demanda semanal de cierto artículo en una ferretería. Los datos de demanda y su probabilidad de ocurrencia se dan en la tabla. Unidades vendidas xi Probabilidad P(xi)

Solución

Probabilidad 4/100 12/100 29/100 30/100 25/100 100/100 = 1

30 0,20

35 0,28

40 0,30

45 0,15

50 0,07

La media o valor esperado es:

E ( X )     xi P ( xi )  30  0.2  35  0.28  40  0.30  45  0.15  50  0.07  38.05

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

107

Y la varianza es:

 2   ( xi   ) 2 P( xi )  0.2(30  38.05)²  0.28(35  38.05)² 0.30(40  38.05)²  0.15(45  38.05)²  0.07(50  38.05)²  33.95 La desviación estándar es la raíz cuadrada de la varianza:

   ²  33.95  5.83

Ejercicio de revisión

En cada uno de los siguientes casos, a partir de la tabla de la distribución de frecuencias, calcule el valor esperado (media) y la desviación estándar: 1. Una rifa consta de 100 números a un precio de $20 cada uno. El premio es de $1000 (premio único) y el jugador compra un número. 2. Una rifa consta de 100 números a un precio de $20 cada uno. El premio es de $1000 (premio único) y el jugador compra dos números. 3. En una caja hay 10 bolas, 2 son azules, 3 son verdes y 5 son rojas. Se saca una bola y si la bola es azul se ganan cero puntos, si es verde se gana un punto y si es roja se ganan dos puntos. 4. En una caja hay 10 bolas, 2 son azules, 3 son verdes y 5 son rojas. Se sacan dos bolas y se suman los puntos sabiendo que si la bola es azul se ganan cero puntos, si es verde se gana un punto y si es roja se ganan dos puntos. Solución: 1. La distribución de probabilidad es: Resultado ($) 980 -20 Total

Probabilidad 1/100 99/100 100/100 = 1

La media o valor esperado es:

E ( X )     xi P ( xi )  980  1 / 100  20  99 / 100  10 Y la varianza es:

 2   ( xi   ) 2 P( xi )  1 / 100  (980  10)²  99 / 100  (20  10)²  9900

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

108

La desviación estándar es la raíz cuadrada de la varianza:

   ²  9900  99.50 2. La distribución de probabilidad es: Resultado ($) 960 -40 Total

Probabilidad 2/100 98/100 100/100 = 1

La media o valor esperado es:

E ( X )     xi P ( xi )  960  2 / 100  40  98 / 100  20 Y la varianza es:

 2   ( xi   ) 2 P( xi )  2 / 100  (960  20)²  98 / 100  (40  20)²  19600 La desviación estándar es la raíz cuadrada de la varianza:

   ²  19600  140 3. La distribución de probabilidad es: Resultado 0 1 2 Total

Probabilidad 2/10 3/10 5/10 10/10 = 1

La media o valor esperado es:

E ( X )     xi P ( xi )  0  2 / 10  1  3 / 10  2  5 / 10  1.3 Y la varianza es:

 2   ( xi   ) 2 P ( xi )  2 / 10  (0  1.3)²  3 / 10  (1  1.3)²  5 / 10  (2  1.3)²  0.61 La desviación estándar es la raíz cuadrada de la varianza:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

109

   ²  0.61  0.78 4. La distribución de probabilidad es: Resultado 0 1 2 3 4

Probabilidad 4/100 12/100 29/100 30/100 25/100 100/100 = 1

La media o valor esperado es:

E ( X )     x i P ( xi )  0  4 / 100  1  12 / 100  2  29 / 100  3  30 / 100  4  25 / 100  2.6 Y la varianza es:

 2   ( xi   ) 2 P ( xi )  4 / 100  (0  2.6)²  12 / 100  (1  2.6)²  29 / 100  (2  2.6)²  30 / 100  (3  2.6)²  25 / 100  (4  2.6)²  1.22 La desviación estándar es la raíz cuadrada de la varianza:

   ²  1.22  1.10

Ejemplo

Un vendedor de un producto sabe, por su experiencia, que logra la venta en el 30% de los clientes que visita, porcentaje que ha permanecido constante a lo largo del tiempo. Cada cliente no tiene contacto con los demás. El vendedor desea saber la probabilidad de que si visita 8 clientes, a) logre vender en exactamente 3 casos. b) logre vender en por lo menos 3 casos. c) logre vender en menos de 6 casos. d) no logre vender en a lo más 5 casos. e) no logre en más de 7 casos.

Solución

a) Se tiene que se realizan 8 intentos de vender el producto, por lo que se tiene que n = 8. Además, se desea saber la probabilidad de lograr 3 ventas, o sea que x = 3. En este caso se define éxito como lograr la venta, por tanto p = 0,30.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

110

La probabilidad de fracaso es q = 1 – p = 1 – 0,30 = 0,70. Así, sustituyendo en la fórmula de probabilidad: P( X  3) 

8! (0,30) 3 (0,70) 83  0.2541 3!(8  3) !

b) En este caso se requiere que x ≥ 3, lo que significa que nos interesa que 3 o más clientes compren el producto, por lo que buscamos: P( x  3)  P( X  3)  P( X  4)  P( X  5)  P( X  6)  P( X  7)  P( X  8)

Esto implicaría emplear la fórmula anterior 6 veces y luego sumar los resultados. Una opción que lleva un poco menos de trabajo es calcular lo que no nos interesa, o sea que 0 clientes, o 1 cliente o 2 clientes compren el producto, y luego restar esos valores de uno, que es la probabilidad total. O sea, se puede recurrir a la regla de la complementación para encontrar la probabilidad de x ≥ 3: P( x  3)  1  P( X  0)  P( X  1)  P( X  2)

Aplicando la fórmula o la tabla de probabilidades binomiales, se tiene: P(x ≥ 3) = 1 – 0,0576 – 0,1977 – 0,2965 = 0,4482 c) En este caso se requiere que x < 6, es decir, nos interesa la probabilidad de que de 0 a 5 clientes compren el producto: P(x < 6) = P(x ≤ 5) Obsérvese que no se incluye al 6 mismo, pues se indica menos de 6, así se calculan las probabilidades para los valores entre 0 y 5: P(x ≤ 5) = P(x = 0) + P(x = 1) + P(x = 2) + P(x = 3) + P(x = 4) + P(x = 5) = 0,0576 + 0,1977 + 0,2965 + 0,2541 + 0,1361 + 0,0468 = 0.9887 d) Se desea determinar la probabilidad de que a lo más 5 clientes no realicen la compra. Aquí se considera éxito no lograr la venta, así que p = 0,70 y q = 0,30. Entonces, se debe calcular: P(x  5) = P(x = 0) + P(x = 1) + P(x = 2) + P(x = 3) + P(x = 4) + P(x = 5) = 0,0001 + 0,0012 + 0,0100 + 0,0467 + 0,1361 + 0,2541 = 0,4482 e) Se desea determinar la probabilidad de que más de 7 clientes no compren el

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

111 producto (p = 0,70). Es decir, solo interesa que x = 8: P(x = 8) = 0,0576

Ejemplo

Se sabe que la probabilidad de que un cierto tipo de calentador falle ante un sobrecalentamiento es de 15%, calcule la probabilidad de que entre 6 de tales calentadores: a) fallen entre 2 y 4 b) no fallen como máximo 3

Solución

a) Se tiene que n = 6 y que éxito es fallar, así que p = 0,15 y q = 0,85: P(2 ≤ X ≤ 5) = P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5) Se calcula cada una por separado: P(X = 2) = C(6, 2) (0,15)2 (0,85)6  2 = 0,1762 P(X = 3) = C(6, 3) (0,15)3 (0,85)6  3 = 0,0415 P(X = 4) = C(6, 4) (0,15)4 (0,85)6  4 = 0,0055 P(X = 5) = C(6, 5) (0,15)5 (0,85)6  5 = 0,0004 Entonces se suman los resultados anteriores: = 0,1762 + 0,0415 + 0,0055 + 0,0004 = 0,2235 b) Si éxito es no fallar, entonces p = 0,85 y q = 0,15: P(X ≤ 3) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) Se calcula cada una por separado: P(X = 0) = C(6, 0) (0,85)0 (0,85)6  0 = 0,0000 P(X = 1) = C(6, 1) (0,85)1 (0,85)6  1 = 0,0004 P(X = 2) = C(6, 2) (0,85)2 (0,85)6  2 = 0,0055 P(X = 3) = C(6, 3) (0,85)3 (0,85)6  3 = 0,0415 Entonces se suman los resultados anteriores: = 0,0000 + 0,0004 + 0,0055 + 0,0415 = 0,0473

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

112

Ejercicio de revisión

Según un estudio aproximadamente tres de cada diez computadoras portátiles falla en un plazo de 3 años o menos. De una muestra de 10 computadoras portátiles calcule la probabilidad de que, en tres años o menos: a. Fallen exactamente 4 computadoras. b. Fallen menos de 3 computadoras. c. Fallen como mínimo 8 computadoras. d. No fallen a lo sumo 7 computadoras. e. No fallen entre 3 y 5 computadoras. Solución: a. Se tiene n = 10 y x = 4. En este caso se define éxito como que falle la computadora, por tanto p = 3/10 = 0,30. La probabilidad de fracaso es q = 1 – p = 1 – 0,30 = 0,70. Así, sustituyendo en la fórmula de probabilidad: P( X  4) 

10! (0,30) 4 (0,70)104  0.2001 4!(10  4) !

b. Se tiene n = 10 y x < 3. En este caso se define éxito como que falle la computadora, por tanto p = 3/10 = 0,30. La probabilidad de fracaso es q = 1 – p = 1 – 0,30 = 0,70. Así, sustituyendo en la fórmula de probabilidad: P( X  3)  P( x  0)  P( x  1)  P( x  2)  0.0282  0.1211  0.2335  0.3828

c. Se tiene n = 10 y x  8. En este caso se define éxito como que falle la computadora, por tanto p = 3/10 = 0,30. La probabilidad de fracaso es q = 1 – p = 1 – 0,30 = 0,70. Así, sustituyendo en la fórmula de probabilidad: P( X  8)  P( x  8)  P( x  9)  P( x  10)  0.0014  0.0001  0.0000  0.0016

d. Se tiene n = 10 y x  7. En este caso se define éxito como que no falle la computadora, por tanto p = 7/10 = 0,70. La probabilidad de fracaso es q = 1 – p = 1 – 0,70 = 0,30. Así, sustituyendo en la fórmula de probabilidad: P ( X  7)  1  P ( x  7)  1  ( P( x  8)  P( x  9)  P( x  10))  1  (0.2335  0.1211  0.0282)  1  0.3828  0.6172

e. Se tiene n = 10 y 3  x  5. En este caso se define éxito como que no

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

113 falle la computadora, por tanto p = 7/10 = 0,70. La probabilidad de fracaso es q = 1 – p = 1 – 0,70 = 0,30. Así, sustituyendo en la fórmula de probabilidad: P(3  X  5)  P( x  3)  P( x  4)  P( x  5)  0.0090  0.0368  0.1029  0.1487

Uso de Excel y Minitab para la distribución binomial

Ejemplo

Según un estudio, de las muertes de motociclistas en el 2005, el 42% no tenían el casco puesto en el accidente. Calcule, usando Excel y Minitab, la probabilidad de que de una muestra de 12 accidentes ocurridos ese año y seleccionados aleatoriamente: a. En exactamente 5 de ellos el motociclista no tenía puesto el casco en el accidente. b. En menos de 5 de ellos el motociclista no tenía puesto el casco en el accidente.

Solución

Se tiene que n = 12, el éxito es que no llevara el casco, entonces p = 0,42 y q = 0,58. a. Lo que se desea calcular es: P(X = 5) = Entonces, en Excel se emplea la función DISTR.BINOM, cuya sintaxis es: =DISTR.BINOM(núm_éxito;ensayos;prob_éxito;acumulado) Así en este caso, se completa la función en la celda en la que se desea el resultado como: =DISTR.BINOM(5;12;0,42;0) Se indicó acumulado como 0, para calcular el valor exacto y no el acumulado. El resultado es 0,2285. b. Lo que se desea calcular es: P(X < 5) = P(X  4) Entonces, en Excel se emplea la función DISTR.BINOM, cuya sintaxis es:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

114 =DISTR.BINOM(núm_éxito;ensayos;prob_éxito;acumulado) Así en este caso, se completa la función en la celda en la que se desea el resultado como: =DISTR.BINOM(4;12;0,42;1) Se indicó acumulado como 1, para calcular el valor acumulado. El resultado es 0,3825.

En Minitab, se tiene los mismos datos, o sea, que n = 12, el éxito es que no llevara el casco, entonces p = 0,42 y q = 0,58. a. Lo que se desea calcular es: P(X = 5) = Entonces, se da clic en el menú Calc, luego en Distribuciones de probabilidad, y ahí se elige Binomial. Se completa el cuadro de diálogo:

Se selecciona probabilidad para que calcule el valor exacto del número de eventos. El número de ensayos es n y la probabilidad del evento es p. El número establecido de éxitos se puede dar como una columna, y en ese caso de debe elegir columna de entrada, o se puede digitar en el cuadro, en cuyo caso es constante de entrada, que es lo que se muestra en la ilustración anterior. Luego se da clic en Aceptar y se obtiene el resultado 0,2285 en la ventana Sesión. b. Lo que se desea calcular es: P(X < 5) = P(X  4)

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

115

Entonces, se da clic en el menú Calc, luego en Distribuciones de probabilidad, y ahí se elige Binomial. Se completa el cuadro de diálogo:

Se selecciona probabilidad acumulada para que calcule el valor acumulado desde x = 0 hasta el número establecido de éxitos. El número de ensayos es n y la probabilidad del evento es p. El número establecido de éxitos se puede dar como una columna, y en ese caso de debe elegir columna de entrada, o se puede digitar en el cuadro, en cuyo caso es constante de entrada, que es lo que se muestra en la ilustración anterior. Luego se da clic en Aceptar y se obtiene el resultado 0,3825 en la ventana Sesión. También, se puede hacer uso del menú Gráfica, donde se selecciona Gráfica de distribución de probabilidad. En el cuadro de diálogo se selecciona la opción que dice Ver probabilidad.

En el cuadro de diálogo se selecciona en la lista la distribución binomial y se introduce el dato del número de ensayos y la probabilidad de éxito:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

116

Posteriormente se da clic en la pestaña Área sombreada. Aquí se elige definir el área sombreada por valor X y como en este caso se desea saber la probabilidad de que x = 4, entonces se selecciona Cola izquierda y se escribe el valor de x en el espacio que aparece:

Al dar clic en Aceptar, Minitab crea un gráfico que indica el valor de la probabilidad:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

117

Gráfica de distribución Binomial. n=12. p=0,42

0,25

Probabilidad

0,20

0,15

0,10

0,05

0,3825

0,00

Ejemplo

4

X

10

Se tiene un lote de 50 teléfonos celulares y se sabe que 4 de ellos se dañaron durante el embarque. Se va a tomar una muestra sin reemplazo de 10 de estos aparatos y se desea saber la probabilidad de que: a) Exactamente un teléfono salga defectuoso. b) Por lo menos dos teléfonos salgan defectuosos. c) Como mínimo 7 teléfonos salgan buenas.

Solución

a) En este caso éxito es que un teléfono salga defectuoso, por tanto se tienen 4 éxitos en la población, o sea, a = 4 defectuosos, N = 50 y n = 10, y se busca la probabilidad de que en la muestra haya uno defectuoso, es decir, x = 1, por tanto:

C ( N  a, n  X ) C ( a, X ) C ( N , n) C 50  4,10  1C 4,1 C 46, 9C 4,1 P( X  1)   C 50,10 C 50,10 1101716330  4   0,4290 10272278170 P ( X / N , a, n) 

b) La probabilidad de que por lo menos dos teléfonos salgan defectuosos se puede calcular como: P(X  2) = P(X = 2) + P(X = 3) + ... + P(X = 10) Lo anterior lleva aplicar la fórmula de la distribución hipergeométrica 9 veces, por lo que es más rápido calcular del modo siguiente, usando el principio de complementariedad:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

118 P( X  2)  1  P( X  0)  P( X  1)  1

C 50  4,10  0C 4, 0 C 50  4,10  1C 4,1  C 50,10 C 50,10

 1  0,3968  0,4290  0,1742

c) Se define éxito como que un teléfono salga bueno, así que a = 46 buenos, por tanto: P( X  7buenos )  P( x  7)  P( x  8)  P( x  9)  P( x  10) C 50  46,10  7 C 46,7  C 4,3C 46,7    0,0208 C 50,10 C 50,10  C 50  46,10  8C 46,8 C 4,2 C 46,2  P( x  8)    0,1524 C 50,10  C 50,10  C 50  46,10  9 C 46,9  C 4,1C 46,9  P ( x  9)    0,4290 C 50,10  C 50,10  C 50  46,10  10 C 46,10  C 4,0 C 46,10  P( x  10)    0,3968 C 50,10  C 50,10  P ( x  7) 

P( x  7)  0,0208  0,1524  0,4290  0,3968  0,9991

Ejemplo

Para evaluar la calidad de los materiales de construcción comprados, el departamento de compras realiza muestreos con cierta frecuencia. Hay un material que se recibe en lotes de 30 unidades. Frecuentemente cada lote tiene 2 unidades con defectos. Aleatoriamente se seleccionan muestras sin reemplazo de 4 unidades y se rechaza el lote completo si se encuentra una o más unidades defectuosas. Determine la probabilidad de aceptación del lote.

Solución

Dado que se realiza un muestreo sin reemplazo, entonces corresponde a un experimento hipergeométrico. En la población hay 2 defectuosos, o sea, se tiene que a = 3, el tamaño de la población es 30, N = 30 y se toma una muestra de tamaño 4, n = 4. Para que el lote sea aceptado, en la muestra debe haber cero defectuosos, o sea, x = 0, por lo tanto la probabilidad de aceptación del lote corresponde a P(x = 0):

P ( X / N , a, n) 

P( X  0) 

C ( N  a, n  X ) C ( a, X ) C ( N , n)

C 30  2,4  0C 2, 0 20475  1   0,7471 C 30,4 27405

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

119

Ejercicio de revisión

Si de un lote de 200 comprimidos de un medicamento se sabe que hay 10 que no satisfacen las especificaciones. Si se toma una muestra de 9 de esos comprimidos, determine la probabilidad de que: a. Exactamente 2 de ellos no satisfagan las especificaciones. b. A lo sumo 2 no satisfagan las especificaciones. c. Al menos 8 satisfagan las especificaciones. Solución: a. En este caso se tienen 10 éxitos en la población, o sea, a = 10, N = 200, n = 9, x = 2, por tanto:

P ( X / N , a, n) 

P( X  2) 

C ( N  a, n  X ) C ( a, X ) C ( N , n)

C 200  10, 9  2C 10,2  0.0607 C 200,9

b. En este caso a = 10, N = 200, n = 9, x  2, por tanto: P( X  2)  P( x  0)  P( x  1)  P( x  2)  0.6241  0.3086  0.0607  0.9930

c. En este caso a = 190, N = 200, n = 9, x  8, por tanto: P( X  8)  P( x  8)  P( x  9)  0.3086  0.6241  0.9330

Ejemplo

Se sabe que en un lote de 70 comprimidos para la fiebre hay 8 que no satisfacen las especificaciones solicitadas. Calcule la probabilidad de que en una muestra de 5 de esos comprimidos haya exactamente 2 comprimidos que no satisfagan la especificación: a) usando la fórmula de la distribución hipergeométrica , b) usando la binomial como aproximación y compare los valores.

Solución

a) Se considera éxito si un comprimido no satisface la especificación, por lo que a = 8, N = 70 y n = 5: P( X  2) 

C 70  8, 5  2C 8, 2  0,0875 C 70, 5

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

120

b) Se puede resolver usando la binomial como aproximación porque N/10 = 70/10 = 7 > n. Con una población de tamaño 70, n puede llegar a valer hasta 7 y se puede seguir usando la aproximación por la binomial. Para usar la binomial se necesita tener la probabilidad poblacional p: p = a/N = 8/70 = 0,11 Aplicando la fórmula de la binomial con n = 5 y p = 0,11 se obtiene: P( X  2)  C (5,2)(0,11) 2 (0,89) 52  0,0853

La diferencia entre el valor real y el valor aproximado es apenas de: 0,0875 – 0,0853 = 0,0022

Uso de Excel y Minitab para la distribución hipergeométrica

Ejemplo

En un lote de 200 frascos de un medicamento se sabe que 8 frascos no satisfacen las especificaciones de calidad establecidas para dicho fármaco. Calcule, usando Excel y Minitab, la probabilidad de que de una muestra aleatoria de 12 frascos exactamente 3 de ellos no satisfagan las especificaciones.

Solución

Se tiene que una población N = 200 frascos, a = 8 éxitos (el éxito sería que no satisfaga la especificación), una muestra n = 12 frascos, y se pregunta la probabilidad de que 3 no satisfagan la especificación, o sea, que lo que se desea calcular es: P(X = 3) = Entonces, en Excel se emplea la función DISTR.HIPERGEOM, cuya sintaxis es: =DISTR.BINOM(muestra_éxito;núm_de_muestra;población_éxito;núm_de_p oblación) Los argumentos de la función anterior son: muestra_éxito: número establecido de éxitos (x) núm_de_muestra: tamaño de muestra (n) población_éxito: número de éxitos en la población (a) núm_de_población: tamaño de la población (N) Así en este caso, se completa la función en la celda en la que se desea el

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

121 resultado como: =DISTR.HIPERGEOM(3;12;8;200) El resultado es 0,0074.

En Minitab, se tiene los mismos datos, una población N = 200 frascos, a = 8 éxitos (el éxito sería que no satisfaga la especificación), una muestra n = 12 frascos, y se pregunta la probabilidad de que 3 no satisfagan la especificación, o sea, que lo que se desea calcular es: P(X = 3) = Entonces, se da clic en el menú Calc, luego en Distribuciones de probabilidad, y ahí se elige Hipergeométrica. Se completa el cuadro de diálogo:

Se selecciona probabilidad para que calcule el valor exacto del número de eventos y se completan los datos tal como se muestra en la imagen. Luego se da clic en Aceptar y se obtiene el resultado 0,0074 en la ventana Sesión. También, se puede hacer uso del menú Gráfica, donde se selecciona Gráfica de distribución de probabilidad. En el cuadro de diálogo se selecciona la opción que dice Ver probabilidad.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

122

En el cuadro de diálogo se selecciona en la lista la distribución hipergeométrica y se introduce el dato del tamaño de población, del número de éxitos en la población y del tamaño de la muestra:

Posteriormente se da clic en la pestaña Área sombreada. Aquí se elige definir el área sombreada por valor X y como en este caso se desea saber la probabilidad de que x = 3, entonces se selecciona Centro y se escribe el valor de x en los dos espacios que aparecen:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

123

Al dar clic en Aceptar, Minitab crea un gráfico que indica el valor de la probabilidad: Gráfica de distribución

Hipergeométrico. N=200. M=8. n=12 0,6

Probabilidad

0,5 0,4 0,3 0,2 0,1 0,0

Ejemplo

0,007406 0

X

3

A una oficina de un banco llegan, en promedio, 3 clientes por hora a solicitar un crédito. Calcule la probabilidad de que: a) en una hora aleatoriamente seleccionada lleguen exactamente 5 clientes. b) en una hora aleatoriamente seleccionada lleguen 5 o más clientes. c) en 5 horas de comportamiento similar lleguen entre 14 y 17 clientes.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

124

Solución

a) Se tiene que la llegada de clientes al banco es de 3 por hora en promedio, por lo que λ = 3 clientes/hora, entonces la probabilidad de que lleguen exactamente 5 clientes es:

x e 

35 e 3 P( X  5)    0,1008 X! 5! b) Se sabe que la tasa de llegada de clientes al banco es de 3 por hora en promedio, por lo que λ = 3 clientes/hora, entonces la probabilidad de que lleguen más de 5 clientes es: P(X  5) = P(X = 5) + P(X = 6) + P(X = 7) + P(X = 8) + P(X = 9) + ... Para calcular este resultado es mejor determinar la probabilidad complementaria: P(X  5) = 1 – P(X < 5) P(X  5) = 1 – P(X = 0) – P(X = 1) – P(X = 2) – P(X = 3) – P(X = 4) Entonces se calcula cada probabilidad por separado:

P( X  0)  P( X  1)  P ( X  2)  P( X  3)  P ( X  4) 

x e 

30 e 3   0,0498 X! 0!

 x e 

31 e 3   01494 X! 1!

 x e  X!

 x e  X!

 x e  X!



3 2 e 3  0,2240 2!



33 e 3  02240 3!



3 4 e 3  0,1680 4!

Luego se resta cada resultado de uno: P(X  5) = 1 – 0,0498 – 0,1494 – 0,2240 – 0,2240 – 0,1680 = 0,1847 c) Aquí el período de interés es de 5 horas, por lo que λ = 5  3 = 15 clientes/período de 5 horas, entonces se calcula la probabilidad de que lleguen entre 14 y 17 clientes: P(14 ≤ x ≤ 17) = P(X = 14) + P(X = 15) + P(X = 16) + P(X = 17) = 0,1024 + 0,1024 + 0,0960 + 0,0847 = 0,3856

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

125

Ejercicio de revisión

Un promedio de 15 personas por hora ingresa un parque zoológico. Si se selecciona una hora cualquiera, calcule la probabilidad de que: a. Ingresen entre 12 y 15 personas. b. Ingresen menos de 8 personas. c. Ingresen más de 10 personas. Solución: a. Se tiene λ = 15 personas/hora, y 12  x  15:

P(12  X  15)  P( X  12)  P( X  13)  P( X  15) P( X  12)  P( X  13)  P( X  14) 

 x e  X!

 x e  X!

 x e  X!

 x e 



1512 e 15  0,0829 12!



1513 e 15  0,0956 13!



1514 e 15  0,1024 14!

1515 e 15  0,1024 X! 15! P(12  X  15)  0.3833 P( X  15) 



b. Se tiene λ = 15 personas/hora, y x < 8: P( X  8)  P( X  0)  P( X  1)  P( X  2)  P( X  3)  P( X  4)  P( X  5)  P( X  6)  P( X  7)  0.0000  0.0000  0.0000  0.0002  0.0006  0.0019  0.0048  0.0104  0.0180

c. Se tiene λ = 15 personas/hora, y x > 10: P( X  10)  P( X  11)  P( X  12)  P( X  13)  P( X  14)  ... P( X  10)  1  P( X  10)  1  ( P( X  0)  P( X  1)  P( X  2)  P( X  3)  P( X  4)  P( X  5)  P( X  6)  P( X  7)  P( X  8)  P( X  9)  P( X  10))  1  (0.0000  0.0000  0.0000  0.0002  0.0006  0.0019  0.0048  0.0104  0.0194  0.0324  0.0486  0.1185

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

126

Uso de Excel y Minitab para la distribución de Poisson

Ejemplo

A una clínica llega un promedio de 5 pacientes cada hora. Calcule, usando Excel y Minitab, la probabilidad de que en una hora seleccionada en forma aleatoria lleguen exactamente 3 pacientes.

Solución

Se tiene que una media de 5 pacientes por hora y se pregunta la probabilidad de que lleguen 3 por hora, o sea, que lo que se desea calcular es: P(X = 3) = Entonces, en Excel se emplea la función POISSON, cuya sintaxis es: =POISSON(x;media;acumulado) Los argumentos de la función anterior son: x: número establecido de éxitos (x) media: promedio () acumulado: 0 si no es acumulado o 1 si es acumulado Así en este caso, se completa la función en la celda en la que se desea el resultado como: =POISSON(3;5;0) El resultado es 0,1404.

En Minitab, con base en los datos dados, una media de 5 pacientes por hora y se pregunta la probabilidad de que lleguen 3 por hora, o sea, que lo que se desea calcular es: P(X = 3) = Entonces, se da clic en el menú Calc, luego en Distribuciones de probabilidad, y ahí se elige Poisson. Se completa el cuadro de diálogo:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

127

Se selecciona probabilidad para que calcule el valor exacto del número de eventos y se completan los datos tal como se muestra en la imagen. Luego se da clic en Aceptar y se obtiene el resultado 0,1404 en la ventana Sesión. También, se puede hacer uso del menú Gráfica, donde se selecciona Gráfica de distribución de probabilidad. En el cuadro de diálogo se selecciona la opción que dice Ver probabilidad.

En el cuadro de diálogo se selecciona en la lista la distribución Poisson y se introduce el dato de la media:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

128

Posteriormente se da clic en la pestaña Área sombreada. Aquí se elige definir el área sombreada por valor X y como en este caso se desea saber la probabilidad de que x = 3, entonces se selecciona Centro y se escribe el valor de x en los dos espacios que aparecen:

Al dar clic en Aceptar, Minitab crea un gráfico que indica el valor de la probabilidad:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

129

Gráfica de distribución Poisson. Media=5

0,20

Probabilidad

0,15

0,1404

0,10

0,05

0,00

0

3

X

13

Ejemplo

En un proceso de manufactura de papel se encuentra un defecto por cada 1.000 metros producidos. Calcule la probabilidad de que en una muestra aleatoria de 10.000 metros de papel se encuentren 8 defectos.

Solución

Tal como se presenta, este es esencialmente un problema de la distribución binomial, en el cual se tiene una muestra n = 10.000 metros de papel y la probabilidad de éxito (metro de papel con defectos) es p = 1/1000 = 0,001. Debido a que n > 20, que p  0,05 y np = 10.000  0,001 = 10  10 se puede usar la aproximación por la Poisson. Entonces se determina la media λ = np = 10.000  0,001 = 10, entonces: P(x = 8) =

x e  X!



10 8 e 10  0,112599 8!

Si este problema se hubiera resuelto empleando la distribución binomial, se tendría n = 10.000, con p = 1/1000 = 0,001, q = 1 – 0,001 = 0,999, entonces: P(x = 8) = C(10.000, 8) (0,001)8 (0,999)1000  8 = 0,112622 Se observa claramente que los resultados son sumamente próximos.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

130

Ejemplo

En la tabla se da la distribución de probabilidad del número de delfines (x) que se encuentran por cada cierta área de mar luego de un derrame de petróleo de un barco. Si se sabe que esta variable sigue una distribución de Poisson, muestre que: λ = σ2 X P(x)

Solución

0 0,2465

1 0,3452

2 0,2417

3 0,1128

4 0,0395

5 0,0111

6 0,0032

Con base en los datos de la tabla se obtiene primero el valor esperado: E(x) = 0 * 0,2465 + 1 * 0,3452 + 2 * 0,2417 + 3 * 0,1128 + 4 * 0,0395 + 5 * 0,0111 + 6 * 0,0032 = 1,39 Luego se calcula la varianza: σ2 = (x – E(x))2 P(x) = (0 – 1,3997)2 * 0,2465 + ... + (6 – 1,3997)2 * 0,0032 = 1,39 Por lo que queda claro que si λ = 1,39, entonces σ2 = 1,39. Queda comprobado que λ = σ2.

Ejemplo

Los audífonos fabricados por una empresa son sometidos a un control de calidad en el cual se clasifican como perfectos, con defectos secundarios o con defectos mayores. Generalmente el 85% de los audífonos se clasifican como perfectos, el 10% con defectos secundarios y un 5% con defectos mayores. En una muestra de 8 audífonos se quiere saber la probabilidad de que haya 5 perfectos, 2 con defectos secundarios y uno con defectos mayores.

Solución

Primeramente se plantean los datos del problema: Perfectos: p1 = 0,85 Con defectos secundarios: p2 = 0,10 Con defectos mayores: p3 = 0,05 Se tiene que x1 = 5, x2 = 2 y que x3 = 1, por lo que n = 5 + 2+ 1 = 8. Entonces, se sustituye en la fórmula: P( x1 = 5, x2  2, x3  1) 

8! (0,85) 5 (0,10) 2 (0,05)1  0,0372 5! 2! 1!

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

131

Ejemplo

En una encuesta de intención de voto se obtuvo que el candidato A obtendría el 35% de los votos, el candidato C el 45% y el candidato B el restante 20%. Si se toma una muestra de 10 personas, ¿cuál es la probabilidad de que la mitad deseen votar por el candidato A, dos quintas partes por el candidato B y el resto por C?

Solución

Primeramente se plantean los datos del problema: Candidato A: p1 = P(A) = 0,35 Candidato B: p2 = P(B) = 0,20 Candidato C: p3 = P(C) = 0,45 Se tiene que x1 = 5, x2 = 4 y que x3 = 1, por lo que n = 5 + 4+ 1 = 10. Entonces, se sustituye en la fórmula: P( x1 = 5, x2  4, x3  1) 

Ejercicio de revisión

10! (0,35) 5 (0,20) 4 (0,45)1  0,0048 5! 4! 1!

Un equipo de futbol gana el 40% de los partidos que juega, empata el 25% y pierde el resto de los encuentros. Suponiendo que se mantienen estas proporciones, calcule la probabilidad de que en los próximos 6 partidos: a. Gane 3 veces, empate 2 y pierda 1 juego. b. Gane o empate 4 partidos y pierda los otros dos. Solución: a. Primeramente se plantean los datos del problema: Gana: p1 = P(G) = 0,40 Empata: p2 = P(E) = 0,25 Pierde: p3 = P(P) = 1 - 0.40 - 0.25 = 0,35 Se tiene que x1 = 3, x2 = 2 y que x3 = 1, por lo que n = 3 + 2+ 1 = 6. Entonces, se sustituye en la fórmula: P( x1 = 3, x2  2, x3  1) 

6! (0,40) 3 (0,25) 2 (0,35)1  0,084 3! 2! 1!

b. Se convierte en un problema binomial, con p = 0.40 + 0.25 = 0.65, y q = 0.35, n = 6 y x = 4, entonces: P( X  4) 

6! (0,65) 4 (0,35) 64  0.3280 4!(6  4) !

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

132

Ejemplo

Una empresa de televisión por cable pone a disposición de sus clientes un número telefónico para proveer soporte en caso de que haya problemas con el servicio. Sin embargo la central telefónica pasa ocupada el 90% del tiempo, por lo que los clientes deben hacer más de intento para que su llamada sea contestada. ¿Cuál es la probabilidad de que la llamada de un cliente sea contestada en su tercer intento?

Solución

En este problema se busca la probabilidad de que la llamada ingrese, pero si la central telefónica pasa ocupada el 90% del tiempo, esta probabilidad es de solo 10%. Esa es la probabilidad de éxito p = 0,10. Sustituyendo en la fórmula de la distribución geométrica: P( x  3)  0,10(1  0,10) 31  0,10(0,90) 2  0,081

Ejemplo

En un establecimiento de producción de lana se sabe que el 40% de los animales poseen algún tipo de lunar que produce fibras pigmentadas, las cuales reducen el valor del producto. Si se empiezan a examinar los animales, ¿cuál es la probabilidad de que la quinta oveja inspeccionada sea la primera en poseer algún tipo de lunar que produzca fibras pigmentadas?

Solución

Si la primera oveja que posee algún tipo de lunar que produzca fibras pigmentadas es la quinta (x = 5), quiere decir que las primeras 7 no poseen este tipo de lunares (x – 1 = 4). La probabilidad de obtener una oveja con este tipo de lunares es p = 0,40, por tanto, aplicando la fórmula: P( x  5)  0,40(1  0,40) 51  0,40(0,60) 4  0,0518

Ejercicio de revisión

Un basquetbolista encesta el 60% de los tiros libres que lanza. Calcule la probabilidad de que: a. El primer tiro que enceste sea el tercero. b. El primer tiro que falle sea el cuarto. c. Si el jugador lanza 6 veces, ¿cuál es la probabilidad de que enceste en exactamente tres ocasiones? Solución: a. La probabilidad de éxito p = 0,60 y x = 3, P( x  3)  0,60(1  0,60) 31  0,096

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

133 b. La probabilidad de éxito p = 0,40 y x = 4, P( x  4)  0,40(1  0,40) 41  0,0864

c. Se convierte en un problema binomial (el número de intentos es fijo), con p = 0.6 y q = 0.40, n = 6 y x = 3, entonces: P( X  3) 

6! (0,60) 3 (0,40) 63  0.2765 3!(6  3) !

Uso de Minitab para la distribución geométrica

Ejemplo

El 10% de las llamadas que ingresan al centro de servicio telefónico de una empresa son para reportar averías. Calcule, usando Minitab, la probabilidad de que la primera llamada que ingresa para reportar averías sea la tercera.

Solución

Se tiene que una probabilidad de éxito p = 0.10 y se pregunta la probabilidad de que la primera llamada que ingresa para reportar averías sea la tercera, o sea, que lo que se desea calcular es: P(X = 3) = En Minitab, se da clic en el menú Calc, luego en Distribuciones de probabilidad, y ahí se elige Geométrica. Se completa el cuadro de diálogo:

Se selecciona probabilidad para que calcule el valor exacto del número de eventos y se completan los datos tal como se muestra en la imagen. Luego se da clic en Aceptar y se obtiene el resultado 0,081 en la ventana Sesión.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

134

También, se puede hacer uso del menú Gráfica, donde se selecciona Gráfica de distribución de probabilidad. En el cuadro de diálogo se selecciona la opción que dice Ver probabilidad.

En el cuadro de diálogo se selecciona en la lista la distribución geométrica y se introduce el dato de la probabilidad de éxito:

Posteriormente se da clic en la pestaña Área sombreada. Aquí se elige definir el área sombreada por valor X y como en este caso se desea saber la probabilidad de que x = 3, entonces se selecciona Centro y se escribe el valor de x en los dos espacios que aparecen:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

135

Al dar clic en Aceptar, Minitab crea un gráfico que indica el valor de la probabilidad: Gráfica de distribución Geométrico. p=0,1

0,10 0,081

Probabilidad

0,08 0,06

0,04

0,02 0,00

1 3

51 X

X = número total de pruebas.

Examen del capítulo: En cada caso seleccione la opción que mejor contesta cada pregunta (las respuestas a los ejercicios se encuentran en la página de internet del texto: ). 1. La distribución de probabilidad que se aplica en un experimento de acuerdo con un proceso de Bernoulli y tiene más de dos resultados posibles se llama: ( a ) Binomial ( b ) Hipergeométrica ( c ) Multinomial ( d ) Poisson

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

136 2. La distribución de probabilidad que representa el número de resultados que ocurren en un intervalo de tiempo dado o en un área o volumen específico se llama: ( a ) Binomial ( b ) Hipergeométrica ( c ) Multinomial ( d ) Poisson 3. La distribución de probabilidad que se emplea en una sucesión de pruebas y se quiere saber el número de la prueba en que ocurre el primer éxito se llama: ( a ) Binomial ( b ) Hipergeométrica ( c ) Geométrica ( d ) Poisson 4. La distribución de probabilidad que se emplea en una situación similar a un proceso de Bernoulli, pero con un muestreo sin reemplazo, se llama: ( a ) Binomial ( b ) Hipergeométrica ( c ) Geométrica ( d ) Poisson 5. A continuación se muestra la función de distribución de probabilidad para el número de accidentes por día que se presentan en una fábrica (nunca se presentan más de 4 accidentes). X P(x)

0 0,40

1 0,30

2

3 0,10

4 0,05

¿Cuál es la probabilidad de que se presente en un día cualquiera dos o más accidentes? ( a ) 0,85 ( b ) 0,15 ( c ) 0,30 ( d ) Ninguna de las anteriores 6. Con base en la tabla del ejercicio 4, en el largo plazo, el número esperado de accidentes diarios en esa fábrica es de: ( a ) 0,8 (b)2 ( c ) 1,1 ( d ) Ninguna de las anteriores 7. Con base en la tabla del ejercicio 4, la desviación estándar de la distribución de probabilidad es: ( a ) 1,18 ( b ) 0,1215 ( c ) 1,39 ( d ) 3,68 8. A continuación se muestra la función de distribución de probabilidad para el número de accidentes por día que se presentan en una fábrica (nunca se presentan más de 4 accidentes). X P(x)

0 0,30

1

2 0,20

3 0,10

4 0,02

¿Cuál es la probabilidad de que se presente en un día cualquiera dos o menos accidentes? ( a ) 0,78 ( b ) 0,88 (c)1 ( d ) Ninguna de las anteriores 9. Con base en la tabla del ejercicio 8, en el largo plazo, el número esperado de accidentes diarios en esa fábrica es de: (a)0 ( b ) 1,6 (c)2 ( d ) 1,16

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

137 10. Con base en la tabla del ejercicio 8, la desviación estándar de la distribución de probabilidad es: ( a ) 1,05 ( b ) 1,08 ( c ) 1,03 ( d ) Ninguna de las anteriores 11. Las acciones de la empresa A tienen una probabilidad de 0,7 de devolver una ganancia de $200. También tienen una probabilidad de 0,3 de tener una pérdida de $600. En el largo plazo, ¿cuál es la mejor opción de las siguientes que se puede hacer para maximizar su beneficio, y por qué? ( a ) Invertir en las acciones porque hay una mayor probabilidad de ganar dinero que perder dinero. ( b ) No invertir en las acciones debido a la cantidad de dinero por cada pérdida es mayor que el monto en dólares para cada ganancia. ( c ) Invertir en las acciones porque la inversión tiene un valor esperado positivo. ( d ) No invertir en las acciones debido a que el valor esperado es una pérdida. 12. Las acciones de la empresa A tienen una probabilidad de 0,7 de devolver una ganancia de $200. También tienen una probabilidad de 0,3 de tener una pérdida de $600. Las acciones de la empresa B tienen una probabilidad de 0,3 de devolver una ganancia de $600 y una probabilidad de 0,7 de tener una pérdida de $200. En el largo plazo, usando la desviación estándar como medida del riesgo, es cierto que: ( a ) Las acciones de la empresa A son más riesgosas que las acciones de la empresa B ( b ) Las acciones de la empresa A son menos riesgosas que las acciones de la empresa B ( c ) Las acciones de la empresa A son igualmente riesgosas que las acciones de la empresa B ( d ) Falta información para determinar la desviación estándar 13. Si usted toma una muestra de 15 artículos con reemplazo, para conocer si se presentan unidades con algún defecto, entonces se emplea la distribución: ( a ) Binomial ( b ) Hipergeométrica ( c ) Multinomial ( d ) Geométrica 14. En un proceso de producción se genera una unidad defectuosa por cada 10 unidades producidas. Si usted desea saber la probabilidad de que, en un muestra de 20 unidades sin reemplazo, se presenten 2 defectuosas, debería emplear la distribución: ( a ) Binomial ( b ) Hipergeométrica ( c ) Multinomial ( d ) Ninguna de las anteriores 15. La tasa media de llegadas de vehículos a un peaje es de 10 por minuto. Si usted desea saber la probabilidad de que en una hora seleccionada aleatoriamente lleguen menos de 50 vehículos, entonces usaría: ( a ) Binomial ( b ) Exponencial ( c ) Poisson ( d ) Normal 16. La tasa media de llegadas de vehículos a un peaje es de 15 por minuto. Si usted desea saber la probabilidad de que pasen 4 minutos entre la llegada de dos vehículos en una hora seleccionada aleatoriamente, entonces usaría: ( a ) Binomial ( b ) Exponencial ( c ) Poisson ( d ) Normal

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

138 17. Si se sabe que, en un problema binomial, la probabilidad de éxito es 0.60, en 10 ensayos, la probabilidad de obtener exactamente 4 fracasos es, aproximadamente: ( a ) 0,1115 ( b ) 0,5630 ( c ) 0,2508 ( d ) Ninguna de las anteriores 18. Si se sabe que, en un problema hipergeométrico, hay 5 éxitos en una población de 12 unidades, en una muestra de 4 unidades la probabilidad de obtener exactamente 3 fracasos es, aproximadamente: ( a ) 0,1414 ( b ) 0,6465 ( c ) 0,3535 ( d ) Ninguna de las anteriores 19. Si se sabe que, en un problema geométrico, la probabilidad de éxito es 0.1, entonces la probabilidad de que el primer éxito sea el tercero es, aproximadamente: ( a ) 0,919 ( b ) 0,271 ( c ) 0,081 ( d ) Ninguna de las anteriores 20. Si se sabe que, en un problema hipergeométrico, hay 7 éxitos en una población es de 10 unidades, en una muestra de 4 unidades la probabilidad de obtener al menos 3 fracasos es, aproximadamente: ( a ) 0,7381 ( b ) 0,9762 ( c ) 0,0333 ( d ) 0,2381 21. Si se sabe que, en un problema hipergeométrico, hay 4 éxitos en una población es de 9 unidades, en una muestra de 4 unidades la probabilidad de obtener a lo sumo 2 fracasos es, aproximadamente. ( a ) 0,1667 ( b ) 0,3571 ( c ) 0,6429 ( d ) 0,8333 22. Si se sabe que x sigue una distribución de Poisson con media igual a 3, la probabilidad de x sea mayor que 2 es: ( a ) 0,4232 ( b ) 0,8009 ( c ) 0,5768 ( d ) Ninguna de las anteriores 23. Si se sabe que x sigue una distribución de Poisson con media igual a 5, la probabilidad de x sea cuando mucho 1 es: ( a ) 0,9933 ( b ) 0,0337 ( c ) 0,0404 ( d ) Ninguna de las anteriores 24. Si los resultados del análisis de un producto pueden ser bueno, regular o malo, y se conoce que las probabilidades de dichos resultados son 0.6, 0.3 y 0.1, respectivamente, entonces en una muestra de 5 unidades, la probabilidad de que una de ellas sea clasificada como regular, 1 como mala y 3 como buenas es: ( a ) 0,0036 ( b ) 0,0324 ( c ) 0,1296 ( d ) Ninguna de las anteriores 25. Si los resultados del análisis de un producto pueden ser bueno, regular o malo, y se conoce que las probabilidades de dichos resultados son 0.6, 0.3 y 0.1, respectivamente, entonces en una muestra de 5 unidades, la probabilidad de que 4 de ellas sean clasificadas como buenas es: ( a ) 0,9222 ( b ) 0,7408 ( c ) 0,2592 ( d ) Ninguna de las anteriores

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

139

26. Si se sabe que, en un problema binomial, la probabilidad de éxito es 0.60, en 10 ensayos, la cantidad esperada de fracasos es: ( a ) 0,0016 (b)6 (c)4 ( d ) Ninguna de las anteriores 27. Si usted controla la calidad de las piezas compradas a un proveedor y desea calcular la probabilidad de que en un muestreo sin reemplazo se rechace el lote por contener más de 3 piezas defectuosas, entonces se emplea la distribución: ( a ) Binomial ( b ) Hipergeométrica ( c ) Multinomial ( d ) Geométrica 28. Se tiene un cargamento de 60 alarmas contra robo el cual contiene 9 defectuosas. La probabilidad de que salgan exactamente 2 defectuosas en una muestra de 5 alarmas es: ( a ) 0,8627 ( b ) 0,1886 ( c ) 0,1373 ( d ) Ninguna de las anteriores 29. Un fabricante de medicamentos sostiene que cierta medicina cura una enfermedad para la sangre en el 80% de los casos. Para verificarlo los inspectores del gobierno utilizan una muestra de 100 individuos y deciden aceptar la afirmación si se curan por lo menos 75 de ellos. La probabilidad de que lo que dice sea rechazado, si efectivamente la probabilidad de curación es del 80%, es: ( a ) 0,9162 ( b ) 0.0838 ( c ) 0,4567 ( d ) Ninguna de las anteriores 30. En un proceso de manufactura se sabe que la probabilidad de obtener una pieza defectuosa es de 2%. ¿Cuál es la probabilidad de que la octava pieza inspeccionada sea la primera defectuosa? ( a ) 0,9826 ( b ) 0,9800 ( c ) 0,0174 ( d ) Ninguna de las anteriores 31. Un fabricante sabe que cierto tipo de refrigeradores tienen una probabilidad de 0,8 de clasificarse como aceptable, una probabilidad de 0,15 de ser clasificados como con defectos secundarios y de 0,05 de ser clasificados como con defectos mayores. Si se revisan seis refrigeradores, escogidos al azar, la probabilidad de que tres sean aceptables, 2 tengan defectos menores y 1 tenga defecto mayor es: ( a ) 0,9654 ( b ) 0,7645 ( c ) 0,0346 ( d ) Ninguna de las anteriores 32. Una empresa de mercadeo por internet tiene una promoción por e–mail que produce una respuesta de 15%. Si se hace un envío de dicha promoción a 10 clientes (independientes), la probabilidad de que nadie responda es: ( a ) 0,0000 ( b ) 0,8031 ( c ) 0,1969 ( d ) Ninguna de las anteriores 33. Una empresa de mercadeo por internet tiene una promoción por e–mail que produce una respuesta de 15%. Si se hace un envío de dicha promoción a 10 clientes (independientes), la probabilidad de que exactamente dos personas respondan es: ( a ) 0,0000 ( b ) 0,8241 ( c ) 0,2759 ( d ) Ninguna de las anteriores

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

140

34. Una empresa de mercadeo por internet tiene una promoción por e–mail que produce una respuesta de 15%. Si se hace un envío de dicha promoción a 10 clientes (independientes), la probabilidad de que más de la mitad respondan es: ( a ) 0,0000 ( b ) 0,9986 ( c ) 0,0014 ( d ) Ninguna de las anteriores 35. Una empresa de mercadeo por internet tiene una promoción por e–mail que produce una respuesta de 15%. Si se hace un envío de dicha promoción a 10 clientes (independientes), la probabilidad de que más de 4 no respondan es: ( a ) 0,0099 ( b ) 0,0014 ( c ) 0,9986 ( d ) Ninguna de las anteriores 36. Considere la siguiente información: “En una encuesta aplicada a 700 hogares a nivel nacional, de los cuales la mitad tienen actualmente acceso al servicio de telefonía celular, se obtuvieron los siguientes datos: ante la apertura en el mercado de telecomunicaciones, el 68% los usuarios actuales de telefonía celular estaría dispuesto a cambiar de operador. Entre la población que aun no posee celular, solo un 38% optará por el operador actual, mientras que el resto escogerá un nuevo proveedor de servicio”. Si se toma una muestra de 6 hogares que ya poseen servicio celular, la probabilidad de que todos conserven el operador actual es: ( a ) 0,0011 ( b ) 0,0989 ( c ) 0,0030 ( d ) 0,0568 37. Utilizando la misma información del ejercicio 36, si se toma una muestra de 6 hogares que ya poseen servicio celular, la probabilidad de que 2 o menos hogares cambien su proveedor actual de telefonía celular es: ( a ) 0,0011 ( b ) 0,0875 ( c ) 0,7064 ( d ) 0,1527 38. Utilizando la misma información del ejercicio 36, si se toma una muestra de 6 hogares que aun poseen servicio celular, la probabilidad de que 4 o más hogares utilicen el proveedor actual en el mercado de telefonía celular es: ( a ) 0,7064 ( b ) 0,1202 ( c ) 0,3201 ( d ) 0,1527 39. Utilizando la misma información del ejercicio 36, si se toma una muestra de 6 hogares que aun poseen servicio celular, la probabilidad de que 4 o más hogares utilicen el proveedor actual en el mercado de telefonía celular es: ( a ) 0,7064 ( b ) 0,1202 ( c ) 0,3201 ( d ) 0,1527 40. El jefe de un departamento de recursos humanos de una empresa grande, estudia con frecuencia el grado de satisfacción de los trabajadores dentro de la empresa, y ha encontrado que 4 de cada 20 empleados se siente insatisfecho con su salario. Esta proporción se ha mantenido constante durante mucho tiempo. Si se seleccionan aleatoriamente 8 personas, la probabilidad de que exactamente 3 de ellas se sientan insatisfechas con su salario es: ( a ) 0,7064 ( b ) 0,1202 ( c ) 0,3201 ( d ) 0,1468

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

141 41. Es un proceso de Bernoulli es falso que: ( a ) Existen solamente dos resultados posibles en cada ensayo ( b ) La probabilidad de un éxito permanece constante en todos los intentos. ( c ) Todos los intentos repetidos son independientes. ( d ) Ninguna de las anteriores 42. La probabilidad de que cierto componente falle ante una carga axial específica es de 5%. La probabilidad de que entre 16 de tales componentes fallen entre 2 y 5: ( a ) 0,1891 ( b ) 0,8109 ( c ) 0,95 ( d ) Ninguna de las anteriores 43. Con respecto a las láminas de zinc esmaltadas que se emplearán en el techo de un edificio nuevo, se sabe que el 95% no tienen defecto alguno, que el 4% tienen, en promedio, un defecto menor en el esmalte por cada dos metros cuadrados de lámina, y el resto poseen huecos u otros defectos mayores, y por tanto serán devueltas al proveedor. La probabilidad de que al seleccionar una muestra aleatoria de 8 láminas haya que devolver a lo sumo una lámina es: ( a ) 0,9926 ( b ) 0,0027 ( c ) 0,0074 ( d ) Ninguna de las anteriores 44. En relación a la misma situación de la pregunta 43, la probabilidad de que al seleccionar una muestra aleatoria de 10 láminas haya al menos 8 en perfecto estado es: ( a ) 0,0861 ( b) 0,9238 ( c ) 0,0115 ( d ) Ninguna de las anteriores 45. En relación a la misma situación de la pregunta 43, si se selecciona una lámina al azar correspondiente a las que tienen un defecto en el esmalte, entonces la probabilidad de que posea una superficie continua de 1,5 metros cuadrados sin defecto alguno es: ( a ) 0,5276 ( b ) 0,3679 ( c ) 0,4724 ( d ) Ninguna de las anteriores 46. En relación a la misma situación de la pregunta 43, si un empleado está inspeccionando las láminas, entonces la probabilidad de que la primera lámina con defectos en el esmalte sea la sexta es: ( a ) 0,0340 ( b ) 0,0326 ( c ) 0,0311 ( d ) Ninguna de las anteriores 47. En relación a la misma situación de la pregunta 43, suponga que se han comprado 100 láminas. Si se toma una muestra aleatoria sin reemplazo de 6 láminas, la probabilidad de que exactamente 5 estén en perfecto estado es: ( a ) 0,2430 ( b ) 0,2709 ( c ) 0,2649 ( d ) Ninguna de las anteriores 48. En relación a la misma situación de la pregunta 43, si se toma una muestra aleatoria de 8 láminas, la probabilidad de que 6 estén en perfecto estado, que una tenga un defecto en el esmalte y otra un defecto mayor es: ( a ) 0,0261 ( b ) 0,0138 ( c ) 0,0315 ( d ) Ninguna de las anteriores

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

142 49. En una distribución binomial se cuenta la probabilidad de obtener un número establecidos de éxitos cuando: ( a ) el número de intentos es constante pero la probabilidad de fracaso no ( b ) el número de intentos no es constante ni la probabilidad de fracaso ( c ) el número de intentos es constante y la probabilidad de fracaso también ( d ) el número de intentos no es constante pero la probabilidad de fracaso sí 50. Considere las dos siguientes afirmaciones: A. En una distribución de Poisson es verdadero que E(X) = V(X) = λ = σ2 B. Cuando n es relativamente grande y p pequeña, las probabilidades binomiales a menudo se aproximan por medio de la distribución de Poisson. Con respecto a las dos afirmaciones anteriores, es correcto que: ( a ) Son verdaderas ambas ( b ) Solo B es verdadera ( c ) Son falsas ambas ( d ) Solo A es verdadera

Respuestas a preguntas de selección única: 1. a 6. c 11. d 16. b 21. c 26. c 31. c 36. a 41. d 46. b

2. d 7. a 12. c 17. c 22. c 27. b 32. c 37. b 42. a 47. a

3. c 8. b 13. a 18. c 23. c 28. c 33. c 38. d 43. c 48. d

4. b 9. d 14. b 19. c 24. c 29. b 34. c 39. d 44. c 49. c

5. c 10. c 15. c 20. c 25. c 30. c 35. c 40. d 45. c 50. a

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

143

7

.

Distribuciones de probabilidad de variable continua OBJETIVOS: Al concluir el capítulo, será capaz de: 1. Resolver problemas empleando la distribución normal 2. Resolver problemas empleando la distribución exponencial

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

144

Ejemplo

Se desea saber el valor de las siguientes probabilidades: a) P(z  1,46) = b) P(z  1,46) = c) P(z  –1,46) = d) P(z  –1,46) = e) P(1,03  z  1,46) =

Solución

a) La tabla de la curva normal estándar (Apéndice 6) solo da probabilidades para valores acumulados hasta el número buscado, en otras palabras, la probabilidad de que la variable z sea menor o igual que cierto valor. Entonces, si se busca la probabilidad de que z sea menor o igual que 1,46, la tabla va a dar directamente el resultado. Se desea conocer P(z  1,46), entonces en la tabla se busca el entero y el primer decimal, o sea, 1,4, en la primera columna, y luego el segundo decimal, en este caso 6, se busca en la primera fila, tal como se ilustra a continuación:

El número que aparece donde se cruza esa fila con esa columna es el valor de la probabilidad, que en este caso es 0,9279. b) Tal como se señaló anteriormente, la tabla de la distribución normal estándar del Apéndice 6 solo da la probabilidad de que la variable z sea menor o igual que cierto valor, pero en este caso se busca la probabilidad de que z sea mayor que 1,46. Gráficamente este problema se vería del modo siguiente:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

145

La tabla daría el área en blanco, no el área sombreada, pero sabiendo que el área total bajo la curva es igual a 1, entonces se puede calcular: P(z  1,46) = 1 – P(z  1,46) De la tabla se obtiene que P(z  1,46) = 0,9279, por lo que: P(z  1,46) = 1 – P(z  1,46) = 1 – 0,9279 = 0,0721 c) Como se señaló en los casos anteriores, la tabla de la distribución normal estándar (Apéndice 6) da la probabilidad de que la variable z sea menor o igual que cierto valor positivo, pero en este caso se busca la probabilidad de que z sea menor que –1,46. Gráficamente este problema se vería del modo siguiente:

Dado que la curva es simétrica, entonces la tabla daría el área en blanco, no el área sombreada, pero sabiendo que el área total bajo la curva es igual a 1, entonces se puede calcular: P(z  –1,46) = 1 – P(z  1,46) De la tabla se obtiene que P(z  1,46) = 0,9279, por lo que: P(z  –1,46) = 1 – P(z  1,46) = 1 – 0,9279 = 0,0721 d) Nuevamente sabemos que la tabla de la distribución normal estándar (Apéndice 6) da la probabilidad de que la variable z sea menor o igual que cierto valor positivo, pero en este caso se busca la probabilidad de que z sea mayor que –1,46. Gráficamente este problema se vería del modo siguiente:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

146

Dado que la curva es simétrica, entonces la tabla daría el área sombreada, entonces se puede calcular: P(z  –1,46) = P(z  1,46) De la tabla se obtiene que P(z  1,46) = 0,9279, por lo que: P(z  –1,46) = P(z  1,46) = 0,9279 e) Este problema se vería en forma gráfica del modo siguiente:

La tabla da el área acumulada hasta 1,46 y da el área acumulada hasta 1,03, por que podría calcularse cada una por separado y luego restar los resultados: P(1,03  z  1,46) = P(z  1,46) = P(z  1,03) = De la tabla se obtiene: = 0,9279 – 0,8485 = 0,0794

Ejercicio de revisión

Calcule el valor de las siguientes probabilidades: a) P(z  2,38) = b) P(z  3,01) = c) P(z  –0,96) = d) P(z  –2,81) = e) P(-0,19  z  2,71) = Solución: a) P(z  2,38) = 0.9913 b) P(z  3,01) = 0.9987 c) P(z  –0,96) = 0.1685 d) P(z  –2,81) = 0.0025 e) P(-0,19  z  2,71) = 0.9966 - 0.4247 = 0.5719

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

147

Ejemplo

La cantidad de refresco envasada por una empresa está normalmente distribuido con una media de un litro (1000 ml) y tiene desviación estándar de 30 ml. Calcule las probabilidades de que una botella aleatoriamente seleccionada tenga una cantidad de refresco: a) De menos de 1010 ml. b) Mayor de 1050 ml. c) Por lo menos de 990 ml. d) Como máximo de 1090 ml. e) Entre 980 y 1040 ml. f) ¿Cuál es el valor máximo del 20% de las botellas con menor cantidad de líquido? g) ¿Cuál es el valor mínimo del 40% de las botellas con mayor cantidad de líquido?

Solución

Se tiene µ = 1000 y σ = 30, y los valores de la probabilidad de z se obtienen de la tabla. a) La probabilidad que se busca es P(x  1010). Para las distribuciones continuas menor o igual es lo mismo que estrictamente menor. Lo primero que se hace es aplicar la fórmula de estandarización para convertir x en z: 1010  1000   P( x  1010)  P z    P( z  0,33) 30  

Para obtener dicha área se aplica la tabla de distribución normal estándar (Apéndice 6), de donde se obtiene: P(Z  0,33) = 0,6293 b) Se busca la probabilidad P(x  1050). Aplicando la fórmula de estandarización y la tabla normal estándar: 1050  1000   P( x  1050)  P z   30    P( z  1,67)  1  0,9525  0,0475

c) Se busca la probabilidad P(x  990). Siguiendo los pasos señalados: 990  1000   P( x  990)  P z   30    P( z  0,33)  0,6293

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

148 d) Se requiere encontrar P(x  1090), entonces: 1090  1000   P( x  1090)  P z   30    P( z  3)  0,9987

e) En este caso la probabilidad buscada es P(980  x  1040), por lo que a cada valor se aplica la fórmula de estandarización y luego la tabla normal estándar:

P(980  x  1040) 1040  1000   9.80  1000  P z  30 30    P(0,67  z  1,33)  P( z  1,33)  P( z  0,67)  0,9082  (1  0,7486)  0,9082  0,2514  0,6568 f) El valor máximo del 20% de las botellas con menor cantidad de líquido se encuentra al lado izquierdo de la curva, en el cual los valores de z son negativos, por estar a la izquierda de z = 0 (µ = 0). Gráficamente el problema queda representado del modo siguiente:

Al buscar en la tabla el valor de z que corresponde a una probabilidad máxima de 0,20 se encuentra en la tabla del Apéndice 6 que solo aparecen valores positivos, y no negativos, pero esto no es problema dado que la curva es simétrica. También se observa que los valores de probabilidad de la tabla son iguales o mayores que 0,5, y no menores, por lo que el valor de 0,20 no va a aparecer, así que se busca su complemento 1 – 0,20 = 0,80. De ese modo se busca el valor de probabilidad (no de z) más cercano a 0,80:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

149

Véase que el valor de probabilidad de 0,7995 es el más cercano a 0,80, por lo que en la primera columna se obtiene el entero y el primer decimal del valor de z, y en la primera fila el segundo decimal. Así, se obtiene que z = 0,84, pero se dijo que este valor debía ser negativo por encontrase del lado izquierdo de la gráfica, así que z = –0,84. Ahora se sustituye y se despeja el valor de x de la fórmula de z: z

x



x  1000 30 x  0,84 * 30  1000 x  974,8  0,84 

Esto indica que 974,8 ml es el valor máximo del 20% de las botellas con menor cantidad de líquido. g) El valor mínimo del 40% de las botellas con mayor cantidad de líquido se encuentra al lado derecho de la curva, en el cual los valores de z son positivos, por estar a la derecha de z = 0 (µ = 0). Gráficamente el problema queda representado del modo siguiente:

Se observa que los valores de probabilidad de la tabla de la distribución

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

150 normal estándar (Apéndice 6) son iguales o mayores que 0,5, y no menores que 0,5, por lo que el valor de 0,40 no va a aparecer, así que se debe buscar su complemento 1 – 0,40 = 0,60. De ese modo se busca el valor de probabilidad (no de z) más cercano a 0,60:

Véase que el valor de probabilidad de 0,5987 es el más cercano a 0,60, por lo que en la primera columna se obtiene el entero y el primer decimal del valor de z, y en la primera fila el segundo decimal. Así, se obtiene que z = 0,25. Ahora se sustituye y se despeja el valor de x de la fórmula de z: z

x



x  1000 30 x  0,25 * 30  1000 x  1007,5 0,25 

Esto indica que 1007,5 ml es el mínimo del 40% de las botellas con mayor cantidad de líquido.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

151

Ejemplo

Un profesional dura por las mañanas un promedio de 26 minutos para llegar a su oficina. Se puede suponer razonablemente que la distribución del tiempo de los viajes es aproximadamente normal. La desviación estándar es de 3,5 minutos. a. ¿De cuánto es la probabilidad de que llegue tarde a una reunión programada para 8:50 a.m. si ese día salió de su casa a las 8:35? b. ¿Cuántas veces de las 120 que viajó el último semestre llegó a tiempo, si debe estar en su oficina a las 9:00 a.m. y acostumbra salir de su casa a las 8:30? c. Encuentre el tiempo máximo que le tomó el 62% de los viajes más rápidos.

Solución

Se tiene que µ = 26 minutos y σ = 3,5 minutos. a. Si salió de su casa a las 8:35 y la reunión es a las 8:50 llegará tarde si el viaje el toma más de los 15 minutos con que cuenta. P(llegar tarde) = P(x  15) = P(Z  –3,14) = 0,9992

b. Si sale a las 8:30 y tiene que estar en la oficina a las 9 cuenta con 30 minutos para llegar. P(llegar a tiempo) = P(x  30) = P(Z  1,14) = 0,8729 De esta forma, el número de veces que llegó a tiempo = 120  0,8729 = 104,75. Por tanto, llegará a tiempo entre 104 y 105 veces de las 120 del semestre. c. Los viajes más rápidos son los que toman menos tiempo, por lo tanto, el área es el 62% del lado izquierdo.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

152 Usando la fórmula de estandarización:

x  26  0,31* 3,5  27,09 De ese modo se tiene que 27,09 minutos es el tiempo máximo que toma el 62% de los viajes más rápidos.

Ejercicio de revisión

Un biólogo ha determinado que el peso promedio de los alevines de cierta especie de tilapia se distribuye normalmente con media de 30 gramos a los 120 días de cultivo y una desviación estándar de 4,5 gramos. Calcule la probabilidad de que al seleccionar una de estas tilapias al azar tenga un peso: a) Mayor que 34 gramos   30,   4,5 34  30   P( x  34)  P z    P( z  0,89)  1  0,8133  0,1867 4,5  

b) Menor que 32 gramos   30,   4,5 32  30   P( x  34)  P z    P( z  0,44)  0,6700 4,5  

c) Como máximo 26,8 gramos   30,   4,5 26,8  30   P( x  26,8)  P z    P( z  0,71)  1  0,7612  0,2488 4,5  

d) ¿Sobre qué valor se encuentra el 78% de los peces de mayor peso? z = -0,78 x z



x  30 4,5 x  0,78 * 4,5  30  0,78 

x  26,49

e) ¿Cuál es el valor más alto sobre el que se encuentra el 35% de los peces con menor peso? z = -0,39

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

153 z

x



x  30 4,5 x  0,39 * 4,5  30  0,39 

x  28,24

Ejemplo

Se conoce que el nivel de colesterol en sangre en una población adulta entre 50 y 60 años se distribuye normalmente con una media de 180 mg/100 ml de sangre y que la desviación estándar es de 30 mg/100 ml. Calcule, usando Excel y Minitab, la probabilidad de que uno de esos adultos entre 50 y 60 años tenga un nivel inferior a 200 mg/100 ml de sangre.

Solución

En Excel: Se tiene que una media de 180 mg/100ml con una desviación estándar de 30 mg/100ml, y se pregunta la probabilidad de que tenga un nivel inferior a 200 mg/100 ml, o sea, que lo que se desea calcular es: P(X < 200) = Entonces, en Excel se emplea la función DISTR.NORM, cuya sintaxis es: = DISTR.NORM(x;media;desv_estándar;acum) Los argumentos de la función anterior son: x: número establecido de la variable (x) media: promedio () desv_estándar: desviación estándar () acumulado: 0 si no es acumulado o 1 si es acumulado Así en este caso, se completa la función en la celda en la que se desea el resultado (se indica al final 1 para que dé el resultado acumulado): =DISTR.NORM(200;180;30;1) El resultado es 0,7475.

En Minitab: Se tiene que una media de 180 mg/100ml con una desviación estándar de 30 mg/100ml, y se pregunta la probabilidad de que tenga un nivel inferior a 200 mg/100 ml, o sea, que lo que se desea calcular es: P(X < 200) = En Minitab, se da clic en el menú Calc, luego en Distribuciones de

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

154 probabilidad, y ahí se elige Normal. Se completa el cuadro de diálogo:

Se selecciona probabilidad acumulada para que calcule el valor de que x sea menor que 200 y se completan los datos tal como se muestra en la imagen. Luego se da clic en Aceptar y se obtiene el resultado 0,7475 en la ventana Sesión. También, se puede hacer uso del menú Gráfica, donde se selecciona Gráfica de distribución de probabilidad. En el cuadro de diálogo se selecciona la opción que dice Ver probabilidad.

En el cuadro de diálogo se selecciona en la lista la distribución normal y se introduce el dato de la media y la desviación estándar:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

155

Posteriormente se da clic en la pestaña Área sombreada. Aquí se elige definir el área sombreada por valor X y como en este caso se desea saber la probabilidad de que x  200, entonces se selecciona Cola izquierda y se escribe el valor de x en el espacio que aparece:

Al dar clic en Aceptar, Minitab crea un gráfico que indica el valor de la probabilidad:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

156

Gráfica de distribución

Normal. Media=180. Desv.Est.=30 0,014 0,012

Densidad

0,010 0,008 0,7475 0,006 0,004 0,002 0,000

180 X

200

Ejemplo

Si el peso promedio de un hombre adulto es 74,8 kilogramos con una desviación estándar de 8 kilogramos. Si las medidas se distribuyen según una distribución normal, calcule, usando Excel y Minitab, el peso que separa el 15% de los hombres adultos con menor peso.

Solución

En Excel: Se tiene que una media de 74,5 Kg. con una desviación estándar de 8 Kg., y se pregunta el peso que separa el 15% de los hombres adultos con menor peso. Entonces, en Excel se emplea la función DISTR.NORM.INV, cuya sintaxis es: = DISTR.NORM.INV(probabilidad;media;desv_estándar) Los argumentos de la función anterior son: probabilidad: valor de probabilidad o percentil dado media: promedio () desv_estándar: desviación estándar () Así en este caso, se completa la función en la celda en la que se desea el resultado: =DISTR.NORM.INV(0,15;74,5;8) El resultado es 66,21 Kg. En Minitab: Se tiene que una media de 180 mg/100ml con una desviación estándar de 30 mg/100ml, y se pregunta la probabilidad de que tenga un nivel inferior a 200 mg/100 ml, o sea, que lo que se desea calcular es: P(X < 200) =

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

157

En Minitab, se da clic en el menú Calc, luego en Distribuciones de probabilidad, y ahí se elige Normal. Se completa el cuadro de diálogo:

Se selecciona probabilidad acumulada inversa para que devuelva el valor de la variable en vez de calcular la probabilidad y se completan los datos tal como se muestra en la imagen. Luego se da clic en Aceptar y se obtiene el resultado 66,21 Kg. en la ventana Sesión. También, se puede hacer uso del menú Gráfica, donde se selecciona Gráfica de distribución de probabilidad. En el cuadro de diálogo se selecciona la opción que dice Ver probabilidad.

En el cuadro de diálogo se selecciona en la lista la distribución normal y se introduce el dato de la media y la desviación estándar:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

158

Posteriormente se da clic en la pestaña Área sombreada. Aquí se elige definir el área sombreada por Probabilidad y como en este caso se el problema se refiere a los de menor peso, entonces se selecciona Cola izquierda y dado que se requiere saber el valor de x entonces se digita la probabilidad de 0,15 en el espacio que aparece:

Al dar clic en Aceptar, Minitab crea un gráfico que indica el valor de la variable x en el eje horizontal:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

159

Gráfica de distribución

Normal. Media=74,5. Desv.Est.=8 0,05

Densidad

0,04

0,03

0,02

0,01

0,15

0,00

Ejemplo

66,21

74,5 X

Un ingeniero de sistemas cree que el 30% de las empresas estarían dispuestas a actualizar el sistema operativo de sus equipos de cómputo a la nueva versión que va a ser lanzada al mercado dentro de poco tiempo. De acuerdo con ese dato, calcule la probabilidad de que de una muestra de 80 empresas: a) entre 25 y 35 actualicen su sistema operativo. b) por lo menos 20 actualicen su sistema operativo. c) menos de 60 no actualicen su sistema operativo.

Solución

Este es un problema de distribución binomial, pero que por tener n > 20 se resuelve por aproximación. En este caso no se puede aplicar la Poisson porque p > 5%, por lo tanto se resuelve usando la normal como aproximación. Al aplicarse la normal se debe realizar una corrección por continuidad debido a que se está resolviendo un problema de variable discreta con una distribución de variable continua, para lo cual se restará 0,5 y se sumará 0,5 a los valores de x en el cálculo de la probabilidad, tal como se explicará más adelante. a) La probabilidad de que las empresas actualicen su sistema operativo es de 30%, por lo tanto: µ = np = 80  0,3 = 24 σ=

npq  80  0,3  0,7  4,10

Se requiere calcular:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

160 P(25  x  35) = Ahora se va a aplicar la corrección por continuidad, que es de media unidad (0,5) hacia atrás y media unidad (0,5) hacia delante en el intervalo: P(25 – 0,5  x  35 + 0,5) = P(24,5  x  35,5) = Tomando los valores de  = 24 y  = 4,10, se aplica el cálculo por la curva normal: 24,5  24  0,12 4,10 35,5  24 z2   2,80 4,10 z1 

Entonces: P(25  x  35) = P(24,5  x  35,5) = P(0,12  z  2,80) Aplicando la tabla de la curva normal estándar (Apéndice 6): = 0,9974 – 0,5478 = 0,4496 Si se utiliza Minitab para hacer el cálculo con la distribución binomial con valores de n = 80 y p = 0,3, se obtiene una probabilidad de 0,4419, lo cual indica que la aproximación por la normal tiene un resultado bastante cercano. b) En este segundo caso se quiere calcular: P(x  20) Al aplicar la corrección por continuidad se recomienda poner los valores en un intervalo, en este caso desde 20 hasta 80, ya que el tamaño de muestra es 80, y luego corregir: P(x  20) = P(19,5  x  80,5) Luego se estandariza: 19,5  24  1,10 4,10 80,5  24 z2   13,78 4,10 z1 

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

161 Calculando con la distribución normal: P(x  20) = P(19,5  x  80,5) = P(–1,10  z  13,78) = P(z  13,78) – P(z  –1,10) = 1,0000 – 0,1357 = 0,8643 c) En este caso éxito es que las empresas no deseen actualizar su sistema operativo, por lo que p = 0,70. Entonces: µ = np = 80  0,7 = 56 σ=

npq  80  0,7  0,3  4,10

Luego se tiene que se busca: P(x < 60) Primero se expresa como el problema equivalente pero empleando el signo  en vez de 20 y p > 5%, es falso que: ( a ) se puede emplear la normal para aproximar la binomial ( b ) los resultados de la binomial y la normal son iguales ( c ) los resultados de la binomial y la normal convergen con forme n tiende a infinito ( d ) efectuar el cálculo usando la distribución binomial lleva más trabajo

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

169 Respuestas a los ejercicios de selección múltiple: 1. c 6. c 11. a 16. b 21. b

2. c 7. a 12. a 17. b

3. c 8. b 13. a 18. a

4. c 9. c 14. c 19. b

5. c 10. b 15. b 20. b

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

170

8

.

Estimación por intervalos OBJETIVOS: Al concluir el capítulo, será capaz de: 1. Explicar el concepto de inferencia estadística. 2. Explicar el teorema del límite central. 3. Calcular intervalos de confianza para la media poblacional. 4. Calcular intervalos de confianza para la proporción poblacional.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

171

Ejemplo

El nivel de glucosa en la sangre de una cierta población compuesta por 5000 miembros tiene una desviación estándar de 29 mg/dl. Se toma una muestra de 40 personas, ¿cuál es el factor de corrección y el error estándar de la media?

Solución

El factor de corrección es: N  n 5000  40   0,9922 N 1 5000  1

Si la desviación estándar σ = 29, entonces el error estándar de la media es:

x 





n

29 40

 4,59

y aplicando el factor de corrección:

x 

Ejercicio de revisión

 n



N n 29 5000  40    4,57 N 1 5000  1 40

La prueba de admisión de una universidad tiene una desviación estándar de 250 puntos. Si se toma una muestra de 60 estudiantes que han aplicado la prueba, ¿cuál es el error estándar? ¿Cómo cambia el resultado anterior si se sabe que un total de 6000 estudiantes han realizado la prueba? Solución: Si la desviación estándar σ = 250, n =60, entonces el error estándar de la media es:

x 

 n



250  32.27 60

y aplicando el factor de corrección:

x 

 n



N  n 250 6000  60    32.12 N 1 6000  1 60

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

172

Ejemplo

Durante una semana se toma una muestra aleatoria de 50 empleados de una empresa, y se obtiene un salario promedio de $206. Se conoce que la desviación estándar poblacional de $40. Determine los intervalos de confianza del 95% para la media de los salarios de esta empresa.

Solución

Se tiene que n = 50, x = $206, σ = 40 y una confianza 1 – α = 0,95. Dado que la confianza es: 1 – α = 0,95, entonces α = 0,05, o sea, que se tendría α/2 = 0,025, por lo que 1 – α/2 = 1 – 0,025 = 0,975. Como n  30 y σ conocida, se debe usar z. De la tabla de la distribución normal estándar z con α/2 equivale a z = 1,96. Luego se sustituye en la fórmula del intervalo de confianza cuando n  30 y σ conocida: x  Z  / n

 206  1,96  40 / 50 Para obtener el límite inferior se resta:

Li  206  1,96  40 / 50  194,91 Y para obtener el límite superior se suma:

Ls  206  1,96  40 / 50  217,09 En conclusión, se tiene una confianza de 95% de que la media de los salarios de esta empresa se encuentra entre $194,91 y $217,09.

Ejercicio de revisión

En una muestra de 50 hectáreas tomadas al azar de diferentes fincas productoras de papa se obtiene un rendimiento promedio de 40 toneladas por hectárea al emplear un cierto tipo de abono orgánico. Se conoce, por un estudio previo, que la desviación estándar poblacional es de 8 toneladas/ha. Obtenga un intervalo de confianza del 95% para la media del rendimiento de papa por hectárea. Solución: Se tiene que n = 50, x = 40, σ = 8 y una confianza 1 – α = 0,95. Dado que la confianza es: 1 – α = 0,95, entonces α = 0,05, o sea, que se tendría α/2 = 0,025, por lo que 1 – α/2 = 1 – 0,025 = 0,975. Como n  30 y σ conocida, se debe usar z. De la tabla de la distribución normal estándar z con α/2 equivale a z = 1,96.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

173

Luego se sustituye en la fórmula del intervalo de confianza cuando n  30 y σ conocida: x  Z  / n

 40  1,96  8 / 50 Para obtener el límite inferior se resta:

Li  40  1,96  8 / 50  37.78 Y para obtener el límite superior se suma:

Ls  40  1,96  8 / 50  42.22 En conclusión, se tiene una confianza de 95% de que la media del rendimiento de papa por hectárea se encuentra entre 37.78 y 42.22 ton/ha.

Uso de Excel y Minitab para calcular intervalos de confianza

Ejemplo

Utilice Excel y Minitab para resolver el problema: Durante una semana se toma una muestra aleatoria de 50 empleados de una empresa, y se obtiene un salario promedio de $206. Se conoce que la desviación estándar poblacional de $40. Determine los intervalos de confianza del 95% para la media de los salarios de esta empresa.

Solución

Se tiene que n = 50, x = $206, σ = 40 y una confianza: 1 – α = 0,95. En Excel se emplea la función INTERVALO.CONFIANZA, la cual da el error máximo de estimación, o sea, el resultado de calcular z   / n , por lo que luego es necesario tomar el promedio obtenido en la muestra y restar y sumar el valor dado por la función para obtener los límites de confianza inferior y superior, respectivamente. La función tiene la siguiente sintaxis: =INTERVALO.CONFIANZA(alfa;desv_estándar;tamaño) Los argumentos de la función anterior son: alfa: es el valor  dado desv_estándar: es la desviación estándar ( o s) tamaño: es el tamaño de muestra (n) Luego se sustituyen los valores:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

174

=INTERVALO.CONFIANZA(0,05;40;50) Así se obtiene el valor 11,09. Para obtener el límite inferior se resta: = 206  11,09 = 194,91 Y para obtener el límite superior se suma: = 206 + 11,09 = 217,09 En conclusión, se tiene una confianza de que la media de los salarios de esta empresa se encuentra entre $194,91 y $217,09. En Minitab se da clic en el menú Estadística, se elige Estadística básica y luego se selecciona Z de 1 muestra. Ahí se completa el cuadro de diálogo siguiente:

Se marca la opción de datos resumidos y se completan los datos tal como se muestra en la imagen. En el botón Opciones se indica el nivel de confianza, que en este caso es 95%. La opción Hipótesis alterna debe dejarse como "no es igual a". Luego se da clic en Aceptar y el resultado se obtiene en la ventana Sesión:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

175

En la salida en la ventana Sesión se observa IC de 95%, que corresponde al intervalo de confianza del 95%, y que este es 194,91 a 217,09.

Ejemplo

Se sabe que el tiempo que toma completar una prueba psicométrica tiene una varianza de 225 minutos. Una muestra de 20 estudiantes es sometida a la prueba obteniéndose una media de 71 minutos. Obtenga los límites de confianza del 99% para el tiempo medio en que se completa dicha prueba.

Solución

Se tiene que n = 20, x = 71 minutos, σ = 15 minutos (la raíz cuadrada de 225, que es la varianza) y una confianza: 1 – α = 0,99. Dado que la confianza es: 1 – α = 0,99, entonces α/2 = 0,005. Como n < 30 y σ conocida, se debe usar z. De la tabla de la distribución normal estándar z con α/2 equivale a z = 2,58. Luego se sustituye en la fórmula del intervalo de confianza cuando n < 30 y σ conocida: x  Z  / n

 71  2,58  15 / 20 Para obtener el límite inferior se resta:

Li  71  2,58  15 / 20  62,36 Y para obtener el límite superior se suma:

Ls  71  2,58  15 / 20  79,64 En conclusión, se tiene una confianza de 99% de que el tiempo de terminación de la prueba se encuentra entre 62,36 y 79,64 minutos.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

176

Ejercicio de revisión

Se desea estimar el consumo promedio de leche de los habitantes de un pueblo rural. En una muestra de 15 pobladores se obtuvo un consumo medio por día de 288 ml y se conoce que la desviación estándar es de 52 ml. Determine los intervalos de confianza del 90% para el verdadero promedio del consumo diario de leche de esta población. Solución: Se tiene que n = 15, x = 288 ml, σ = 52 ml y una confianza: 1 – α = 0,90. Dado que la confianza es: 1 – α = 0,90, entonces α/2 = 0,05. Como n < 30 y σ conocida, se debe usar z. De la tabla de la distribución normal estándar z con α/2 equivale a z = 1,645. Luego se sustituye en la fórmula del intervalo de confianza cuando n < 30 y σ conocida: x  Z  / n

 288  1,645  52 / 15 Para obtener el límite inferior se resta:

Li  288  1,645  52 / 15  265.91 Y para obtener el límite superior se suma:

Ls  288  1,645  52 / 15  310.09 En conclusión, se tiene una confianza de 90% de que el promedio del consumo diario de leche de esta población se encuentra entre 265.91 y 310.09 ml.

Ejemplo

En una muestra de 42 personas que se han sometido a un trasplante de corazón se ha obtenido un tiempo medio de sobrevivencia (en años) de 5,25 años con una desviación estándar muestral de 1,75 años. Hallar un intervalo de confianza del 95 por ciento para el promedio de vida de todas las personas que se han sometido a un trasplante de corazón.

Solución

Se tiene que n = 42 personas, x = 5,25 años, s = 1,75 años y una confianza: 1 – α = 0,95. Dado que la confianza es: 1 – α = 0,95, entonces α/2 = 0,025. Como n  30 y σ desconocida se debe usar z. De la tabla de la distribución normal estándar z con α/2 equivale a z = 1,96. Luego se sustituye en la fórmula del intervalo de confianza cuando n  30

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

177 y σ desconocida: x  zs/ n

 5,25  1,96  1,75 / 42 Para obtener el límite inferior se resta:

Li  5,25  1,96  1,75 / 42  4,72 Y para obtener el límite superior se suma:

Ls  5,25  1,96  1,75 / 42  5,78 En conclusión, se tiene una confianza de 95% de que el promedio de vida de todas las personas que se han sometido a un trasplante de corazón se encuentra entre 4,72 y 5,78 años.

Ejercicio de revisión

Una empresa productora de harina de trigo empaca paquetes que deben contener un kilogramo de producto. En una muestra de 60 paquetes se obtuvo un peso medio de 992 gramos y una desviación estándar muestral de 44 gramos. Calcule los intervalos de confianza del 98% para el peso medio de los paquetes de harina. Solución: Se tiene que n = 60 paquetes, x = 992 gramos, s = 44 gramos y una confianza: 1 – α = 0,98. Dado que la confianza es: 1 – α = 0,98, entonces α/2 = 0,01. Como n  30 y σ desconocida se debe usar z. De la tabla de la distribución normal estándar z con α/2 equivale a z = 2,33. Luego se sustituye en la fórmula del intervalo de confianza cuando n  30 y σ desconocida: x  zs/ n

 992  2,33  44 / 60 Para obtener el límite inferior se resta:

Li  992  2,33  44 / 60  978,76 Y para obtener el límite superior se suma:

Ls  992  2,33  44 / 60  1005,26

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

178

En conclusión, se tiene una confianza de 98% de que el peso medio de los paquetes de harina se encuentra entre 978,76 y 1005,26 gramos.

Ejemplo

El ciclo medio de vida de una muestra aleatoria de 12 focos es de 2000 horas, con una desviación estándar muestral de 200 horas. Se supone que la vida media de los focos se distribuye normalmente. Determine los intervalos de confianza del 95% para la vida media de los focos.

Solución

Se tiene que n = 10, x = 2000, s = 200 y una confianza: 1 – α = 0,95. Dado que la confianza es: 1 – α = 0,95, como n < 30 y σ desconocida, se debe usar t. Después se busca en la tabla de la distribución t de Student, con una significancia de 0,05, con dos colas y grados de libertad gl = n  1 = 10  1 = 9, el valor de t equivale a t = 2,262. Luego se sustituye en la fórmula del intervalo de confianza cuando n  30 y σ desconocida:

x ts/ n

 2000  2,262  200 / 10 Para obtener el límite inferior se resta:

Li  2000  2,262  200 / 8  1856,94 Y para obtener el límite superior se suma:

Ls  2000  2,262  200 / 8  2143,06 En conclusión, se tiene una confianza de 95% de que la vida media de los focos se encuentra entre 1856,94 y 2143,06 horas.

Ejercicio de revisión

En una encuesta aplicada a 25 personas residentes de la ciudad capital se encontró que, por semana, dedicaban un promedio de 4,8 horas a la lectura, tanto de libros, revistas, periódicos y otros materiales. Se conoce que la desviación estándar muestral es de 3,5 horas/semana. Determine los intervalos de confianza del 99% para el número de horas promedio que las personas dedican a la lectura.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

179 Solución: Se tiene que n = 25, x = 4,8, s = 3,5 y una confianza: 1 – α = 0,99. Dado que la confianza es: 1 – α = 0,99, n < 30 y σ desconocida, se debe usar t. Después se busca en la tabla de la distribución t de Student, con una significancia de 0,01, con dos colas y grados de libertad gl = n  1 = 25  1 = 24, el valor de t equivale a t = 2,797. Luego se sustituye en la fórmula del intervalo de confianza cuando n  30 y σ desconocida:

x ts/ n

 4,8  2,797  3,5 / 24 Para obtener el límite inferior se resta:

Li  4,8  2,797  3,5 / 24  2,80 Y para obtener el límite superior se suma:

Ls  4,8  2,797  3,5 / 24  6,80 En conclusión, se tiene una confianza de 99% de que el número de horas promedio que las personas dedican a la lectura se encuentra entre 2,80 y 6,80 horas.

Uso de Minitab para calcular intervalos de confianza usando la distribución t

Ejemplo

Utilice Minitab para resolver el problema: El ciclo medio de vida de una muestra aleatoria de 12 focos es de 2000 horas, con una desviación estándar muestral de 200 horas. Se supone que la vida media de los focos se distribuye normalmente. Determine los intervalos de confianza del 95% para la vida media de los focos.

Solución

Se tiene que n = 10, x = 2000, s = 200 y una confianza: 1 – α = 0,95. En Minitab se da clic en el menú Estadística, se elige Estadística básica y luego se selecciona t de 1 muestra. Ahí se completa el cuadro de diálogo siguiente:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

180

Se marca la opción de datos resumidos y se completan los datos tal como se muestra en la imagen. En el botón Opciones se indica el nivel de confianza, que en este caso es 95%. La opción Hipótesis alterna debe dejarse como "no es igual a". Luego se da clic en Aceptar y el resultado se obtiene en la ventana Sesión:

En la salida en la ventana Sesión se observa IC de 95%, que corresponde al intervalo de confianza del 95%, y que este es 1856,9 a 2143,1.

Ejemplo

Se sabe que 20 fusibles que fueron sometidos a una sobrecarga del 20% se fundieron en un tiempo promedio de 10,63 minutos, con desviación estándar de 2,48 minutos. a) Si se utiliza x = 10,63 como estimación puntual de la media de tiempo poblacional, ¿de cuánto es el error máximo si se desea con una confianza del 95%? b) Determine un intervalo de confianza del 95% para el promedio verdadero del tiempo de fusión.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

181

Solución

Se tiene que n = 20, x = 10,63 minutos, s = 2,48 minutos y una confianza: 1 – α = 0,95. a) Dado que la confianza es: 1 – α = 0,95, entonces α/2 = 0,025. Como n < 30 y σ desconocida se debe usar t en vez de Z, con gl = 20 – 1 = 19. De la tabla t con α/2 = 0,025 y gl = 19, se obtiene tα/2 = 2,093. De ahí el error: E = tα/2s/ n = 2,093  2,48/ 20 = 1,16 minutos. Se puede afirmar con una confianza del 95% que la media de la muestra se aparta de la media poblacional a lo sumo en 1,16 minutos. b) Si se supone que la población de donde se tomó la muestra es normal, el intervalo de confianza está dado por x  t / 2  s / n porque n < 30 y σ desconocida. En la parte (a) ya se obtuvo el valor del error de la estimación por lo que el intervalo es 1.16, por lo que los intervalos estarán dados por 10,63 ± 1,16, de donde se obtiene 10,63 – 1.16 = 9,47 y 10,63 + 1,16 = 11,79. Así se puede concluir que: P(9,47 < µ < 11,79) = 0,95 Es decir, 95 de cada 100 promedios calculados con muestras de 20 elementos tendrán un valor de entre 9,47 y 11,79 minutos. ¿Qué pasaría si se supiera que la población no es normal? Entonces se aplican los intervalos dados por x  k  s / n , donde la confianza está dada por 1 – 1/k2. Es decir: 1 – 1/k2 = 0,95 Despejando k: 1/k2 = 0,05 1/ 0,05 = 20 = k2 k = 4,472 Calculando los límites:

x  k  s / n  10,63  4,472  2,48

 8,15 20  10,63  2,48   13,11

Entonces: P(8,15 < µ < 13,11) = 0,95

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

182

Ejemplo

Se toma una muestra de 500 varones adultos y se encuentra que 156 son fumadores. Encuentre los límites de confianza del 99% para la proporción de fumadores varones.

Solución

Se tiene que x = 156 fumadores de una muestra de n = 500 varones adultos, así que la proporción muestral p sería: p = x/n = 156/500 = 0,312 por lo que q = 1 – p = 1 – 0,312 = 0,688. La confianza del 99%, es decir, 1 – α = 0,99, α = 0,01, α/2 = 0,005, así que de la tabla se obtiene z = 2,58, según la distribución normal. Calculando el intervalo con p = 0,312, q = 0,688, z = 2,58 y n = 500: pz

0,2586 0,312  0,688 500 =  0,3653

pq n = 0,312  2,58

Se tiene una confianza del 99% de que la proporción de fumadores está entre 25,86% y 36,53%.

Ejemplo

El departamento de ventas de una empresa sostiene que se entregan en la fecha fijada con el cliente el 95% de los pedidos. Si al revisar las fechas de entrega de 200 órdenes se encontró que 184 fueron entregadas a tiempo, con los datos de la muestra encuéntrese un intervalo del 95% de confianza para la proporción verdadera de pedidos entregados a tiempo. Debe señalarse el error de la estimación.

Solución

Se pide el intervalo para la proporción poblacional p  z pq n con una confianza del 95%, es decir, 1 – α = 0,95, α = 0,05, α/2 = 0,025, así que de la tabla se obtiene z = 1,96, según la distribución normal. Además se tiene que x = 184 entregas a tiempo de una muestra de n = 200 entregas, así que la proporción muestral p sería: p = x/n = 184/200 = 0,92 por lo que q = 1 – p = 1 – 0,92 = 0,08. Calculando el intervalo con p = 0,92, q = 0,08, z = 1,96 y n = 200: pz

pq n = 0,92  1,96

0,92  0,08 200 = 0,92  0,038

El error es 0,038 y el intervalo queda:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

183

P(0,882  p  0,958) = 0,95 Es decir, se tiene una confianza de 95% de que la proporción de pedidos entregados a tiempo se encuentra entre 88,2% y 95,8%.

Ejercicio de revisión

Una empresa desea lanzar un nuevo servicio por internet al mercado y para ello requiere conocer la proporción de hogares de la zona que posee acceso a internet. En una muestra 120 hogares, 70 indicaron que poseían algún tipo de conexión a la red. Determine los intervalos de confianza del 99% para la proporción de hogares de la zona con acceso a internet. Solución: Se pide el intervalo para la proporción poblacional p  z pq n con una confianza del 99%, es decir, 1 – α = 0,99, α = 0,01, α/2 = 0,005, así que de la tabla se obtiene z = 2,58, según la distribución normal. Además se tiene que x = 70, n = 120, entonces la proporción muestral p sería: p = x/n = 70/120 = 0,5833 por lo que q = 1 – p = 1 – 0,5833 = 0,4167. Calculando el intervalo: pz

pq n = 0,5833  2,58

0,5833  0,4167 120

Los límites son Li = 0,4672 y Ls = 69,94. Es decir, se tiene una confianza de 99% de que la proporción de hogares de la zona con acceso a internet se encuentra entre 46,72% y 69,94%.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

184

Uso de Minitab para calcular intervalos de confianza para proporciones

Ejemplo

En una muestra de 1000 adultos y se encuentra que 198 estarán de acuerdo con la despenalización de la marihuana. Encuentre los límites de confianza del 99% para la proporción de adultos que apoyarían la despenalización de la marihuana.

Solución

Se tiene que x = 198 eventos de una muestra de n = 1000 adultos, así que en el menú Estadísticas / Estadística básica / 1 Proporción se completa el cuadro, seleccionando la opción Datos resumidos con 198 eventos y 1000 ensayos:

Luego en el botón Opciones se indica el nivel de confianza del 99% y se debe marcar la opción que dice Utilice la prueba y el intervalo basado en la distribución normal:

El resultado se obtiene en la ventana Sesión. Se concluye que se tiene una confianza del 99% de que la proporción de adultos que está de acuerdo con la despenalización de la marihuana está entre 16,55% y 23,05%.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

185 Examen del capítulo: En cada caso seleccione la opción que mejor contesta cada pregunta (las respuestas a los ejercicios se encuentran en la página de internet del texto: ). 1. Un ejemplo de inferencia estadística es: (a) Elaborar gráficas para un conjunto de datos muestrales (b) Calcular la media de la muestra (c) Estimar un parámetro poblacional a partir de datos muestrales (d) Calcular la media de una variable a partir de datos poblacionales 2. Un valor que describe una población se denomina: (a) Parámetro (b) Estadístico (c) Estimador (c) Observación 3. Luis está tratando de estimar el gasto promedio en alimentación de las familias de su país. Para resolver este problema se puede: (a) Entrevistar a todas y cada una de las familias del país (b) Seleccionar algunas familias "modelo" según el criterio de Luis (c) Seleccionar una muestra aleatoria de familias de todo el país (d) Seleccionar una muestra de familias cercanas al lugar donde Luis vive 4. De los siguientes, no es un ejemplo de un parámetro: (a) Media  (c) Desviación estándar s (b) Proporción P (d) Varianza 2 5. Un buen estimador debe ser insesgado, lo cual consiste en: (a) El valor esperado del estadístico es igual al valor del parámetro que se estima (b) Se utiliza toda la información proporcionada por la muestra en lo que se refiere al parámetro (c) La distribución del estimador está concentrada alrededor del parámetro (d) La precisión del estimador será mayor para tamaños de muestra grandes 6. Un buen estimador debe ser consistente, lo cual consiste en: (a) El valor esperado del estadístico es igual al valor del parámetro que se estima (b) Se utiliza toda la información proporcionada por la muestra en lo que se refiere al parámetro (c) La distribución del estimador está concentrada alrededor del parámetro (d) La precisión del estimador será mayor para tamaños de muestra grandes 7. Un buen estimador debe ser de varianza mínima, lo cual consiste en: (a) El valor esperado del estadístico es igual al valor del parámetro que se estima (b) Se utiliza toda la información proporcionada por la muestra en lo que se refiere al parámetro (c) La distribución del estimador está concentrada alrededor del parámetro (d) La precisión del estimador será mayor para tamaños de muestra grandes

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

186 8. Si se toman muestras aleatorias de n elementos de una población y se calculan los promedios es de esperar que: (a) El valor en cada caso sea igual a valor poblacional (b) Los valores de las medias no sean todos iguales (c) Los valores de las medias sean todos iguales (d) La diferencia entre una media y otra no se atribuya al azar 9. Si se toman muestras aleatorias de n elementos de una población, se calculan los promedios, se ponen los promedios muestrales en una tabla de frecuencia y se hace un histograma es de esperar que el gráfico: (a) Se parezca a una curva normal solo si la población original es normal (b) Se parezca a una curva normal aun cuando la población original no sea normal (c) No se parezca a una curva normal, excepto por casualidad (d) Se parezca a la distribución original de los datos de la población 10. El error estándar consiste en: (a) La media de los errores muestrales (b) La desviación estándar de los errores de muestreo (c) La media de los datos estandarizados (d) La desviación estándar de las medias muestrales 11. Se sabe que una variable x tiene una desviación estándar de 10. Si se toma una muestra de 16 unidades, entonces el error estándar equivale a: (a) 2,5 (b) 4 (c) 0,625 (d) Ninguna de las anteriores 12. Se sabe que una variable x tiene una desviación estándar de 10. Si se toma una muestra de 16 unidades de una población de 70, entonces el error estándar equivale a: (a) 2,5 (b) 2,21 (c) 0,5529 (d) Ninguna de las anteriores 13. La diferencia en, valor absoluto, entre el valor de la media muestral y la media poblacional se conoce como: (a) Error estándar (b) Error de la estimación (c) Error absoluto medio (d) Ninguna de las anteriores 14. Cuando se utiliza la media muestral como estimación de la media poblacional µ, la probabilidad de que esta estimación no falle es: (a) La media poblacional (b) El error estándar (c) El error estimado (d) El nivel de confianza 15. Se desea estimar la media poblacional de una variable x cuya desviación estándar poblacional es de 5 unidades. En una muestra de tamaño 45 se obtiene una media de 63 unidades, entonces el valor de z necesario para obtener los intervalos de confianza del 95% es: (a) 1,645 (b) 0,95 (c) 1,96 (d) 2,58

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

187 16. Se desea estimar la media poblacional de una variable x cuya desviación estándar poblacional es de 5 unidades. En una muestra de tamaño 45 se obtiene una media de 63 unidades, entonces el al obtener los intervalos de confianza del 95%, el límite inferior es: (a) 61,77 (b) 61,54 (c) 64,46 (d) Ninguna de las anteriores 17. Se desea estimar la media poblacional de una variable x cuya desviación estándar poblacional es de 5 unidades. En una muestra de tamaño 45 se obtiene una media de 63 unidades, entonces el al obtener los intervalos de confianza del 95%, se concluye que: (a) Con una confianza del 95% la media poblacional es 63 unidades (b) Con una confianza del 95% la media poblacional está entre 61,77 y 64,23 unidades (c) Con una confianza del 95% la media poblacional es mayor que 61,77 unidades (d) Con una confianza del 95% la media poblacional está entre 61,54 y 64,46 unidades 18. Se desea estimar la media poblacional de una variable x cuya desviación estándar poblacional es de 15 unidades. En una muestra de tamaño 200 se obtiene una media de 87 unidades, entonces al obtener los intervalos de confianza del 90%, el límite superior es: (a) 87 (b) 85,26 (c) 88,74 (d) Ninguna de las anteriores 19. Se desea estimar la media poblacional de una variable x distribuida normalmente cuya desviación estándar poblacional es de 20 unidades. En una muestra de tamaño 12 se obtiene una media de 125 unidades, al obtener los intervalos de confianza del 99%, un investigador realizó las siguientes dos afirmaciones: A. Se debe usar un valor de z de 2,58. B. El límite inferior es 107,07. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 20. Se desea estimar la media poblacional de una variable x distribuida normalmente. En una muestra de tamaño 12 se obtiene una media de 125 unidades y una desviación estándar de 20 unidades, al obtener los intervalos de confianza del 99%, un investigador realizó las siguientes dos afirmaciones: A. Se debe usar un valor de t de 3,11. B. El límite superior es 142,93. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

188 21. Se desea estimar la media poblacional de una variable x distribuida normalmente. En una muestra de tamaño 20 se obtiene una media de 3200 unidades y una desviación estándar de 450 unidades, al obtener los intervalos de confianza del 95%, un investigador realizó las siguientes dos afirmaciones: A. Se debe obtener el valor de t con 21 grados de libertad. B. Los límites de confianza son 2989,39 y 3410,61 unidades. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 22. Se desea estimar la media poblacional de una variable x. En una muestra de tamaño 80 se obtiene una media de 30 unidades y una desviación estándar de 4,5 unidades, al obtener los intervalos de confianza del 99%, un investigador realizó las siguientes dos afirmaciones: A. Se debe usar un valor de z de 2,58. B. El valor de la media poblacional es superior a 28,70. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 23. Al estimar la media poblacional de una variable x, en una muestra de tamaño 50 se obtiene una media de 1500 unidades y una desviación estándar de 250 unidades. Al obtener los intervalos de confianza del 95%, es verdadero que: (a) Con certeza la media está entre 1430,70 y 1569,30 (b) Con una confianza del 95% la media poblacional es mayor que 1430,70 unidades (c) Con una confianza del 95% la media poblacional está alrededor de 1500 unidades (d) Con una confianza del 95% la media poblacional está entre 1430,70 y 1569,30 unidades 24. Al estimar la media poblacional de una variable x, en una muestra de tamaño 500 se obtiene una media de 2150 unidades y una desviación estándar de 600 unidades. Al obtener los intervalos de confianza del 90% se obtuvo como límite inferior 2105,86 y como límite superior 2194,14, entonces es verdadero que: (a) La media está entre 2105,86 y 2194,14 (b) Con una confianza del 90% la media poblacional es menor que 2194,14 unidades (c) La media poblacional será mayor que 2194,14 con una probabilidad de 5% (d) La media poblacional estará entre 2105,86 y 2194,14 unidades en 90 de cada 100 muestras 25. Si x es el número de veces que ha ocurrido un evento en una muestra n pruebas, entonces el cociente x/n representa: (a) La proporción poblacional (b) La proporción muestral (c) La probabilidad de fracaso (d) Ninguna de las anteriores

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

189 26. Se desea estimar una proporción poblacional de una cierta variable. En una muestra de tamaño 120 se obtiene un conteo de 90 eventos. Al obtener los intervalos de confianza del 99%, un investigador realizó las siguientes dos afirmaciones: A. Se debe usar un valor de z de 2,58. B. No se pueden calcular los intervalos porque no se tiene la desviación estándar. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 27. Se desea estimar una proporción poblacional de una cierta variable. En una muestra de tamaño 120 se obtiene un conteo de 90 eventos. Al obtener los intervalos de confianza del 99%, un investigador realizó las siguientes dos afirmaciones: A. La proporción muestral es 0,75. B. Los intervalos de confianza del 99% son 0,6482 y 0,8518. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 28. Se desea estimar una proporción poblacional de una cierta variable. En una muestra de tamaño 12 se obtiene un conteo de 5 eventos. Al obtener los intervalos de confianza del 90%, un investigador realizó las siguientes dos afirmaciones: A. Se emplea un valor de t con 11 grados de libertad. B. El límite superior es de 65,08. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 29. Se desea estimar una proporción poblacional de una cierta variable. En una muestra de tamaño 1200 se obtiene un conteo de 750 eventos. Al obtener los intervalos de confianza del 95%, un investigador realizó las siguientes dos afirmaciones: A. La proporción poblacional es 62,5%. B. El límite inferior es de 59,76%. Con respecto a las dos afirmaciones anteriores, es incorrecto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

190 30. Se desea estimar el peso promedio de las galletas que se elaboran en una fábrica. En una muestra de tamaño 1100 paquetes de galletas se obtiene una media de 195 gramos con una desviación estándar de 45 gramos. La empresa ha especificado que el peso de cada paquete de galletas debe ser 200 gramos. Al obtener los intervalos de confianza del 95%, el encargado del control del proceso realizó las siguientes dos afirmaciones: A. No hay problema con el peso de las galletas, el 95% de las galletas tiene un peso de 195 grs. B. El peso especificado de 200 gramos está fuera del intervalo de confianza del 95%. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 31. Se desea estimar el peso promedio de las galletas que se elaboran en una fábrica. En una muestra de tamaño 10 paquetes de galletas se obtienen los siguientes pesos (en gramos): 190

210

201

196

197

185

176

208

200

191

La empresa ha especificado que el peso de cada paquete de galletas debe ser 200 gramos. Al obtener los intervalos de confianza del 95%, el encargado del control del proceso realizó las siguientes dos afirmaciones: A. El 95% de las galletas tiene un peso entre 188,01 y 202,79 gramos. B. El peso especificado de 200 gramos está dentro del intervalo de confianza del 95%. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 32. Se desea estimar el peso promedio de las galletas que se elaboran en una fábrica. Se sabe que el peso medio de los paquetes de galletas se distribuye normalmente y que tiene una desviación estándar de 15 gramos. En una muestra de tamaño 10 paquetes de galletas se obtienen los siguientes pesos (en gramos): 190

210

201

196

197

185

176

208

200

191

La empresa ha especificado que el peso de cada paquete de galletas debe ser 200 gramos. Al obtener los intervalos de confianza del 95%, el encargado del control del proceso realizó las siguientes dos afirmaciones: A. El 95% de las galletas tiene un peso entre 186,10 y 204,70 gramos. B. El peso especificado de 200 gramos está fuera del intervalo de confianza del 95%. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

191 33. Se desea estimar proporción de las galletas que se elaboran en una fábrica cuyo peso está por debajo de la especificación. En una muestra de tamaño 10 paquetes de galletas se obtienen los siguientes pesos (en gramos): 190

210

201

196

197

185

176

208

200

191

La empresa ha especificado que el peso de cada paquete de galletas debe ser 200 gramos. Al obtener los intervalos de confianza del 95%, el encargado del control del proceso realizó las siguientes dos afirmaciones: A. El límite superior del 95% es un peso de 90,36 gramos. B. Con una confianza del 95% entre 29,6% y 90,4% de las galletas pesan menos de 200 grs. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 34. En un periódico se presentan los resultados de una encuesta aplicada a una muestra aleatoria de 1200 adultos, de los cuales 610 indicaron que la labor del gobierno es buena o muy buena. El estudio se hizo con una confianza del 95%. Según el autor del artículo la mayoría de los ciudadanos consideran que la labor del gobierno es buena o muy buena. Con respecto a esa afirmación del autor del artículo un crítico realizó la siguiente aseveración: "El autor se ha equivocado, ya que, 1. Con una confianza del 95% la proporción de ciudadanos de ciudadanos que aprueban la gestión del gobierno podría estar entre 48% y 53,6%, con lo cual es muy probable que el porcentaje de ciudadanos que están de acuerdo con la gestión del gobierno sea inferior al 50%". Con respecto a esta situación es correcto que: (a) El autor está en lo correcto y el crítico está equivocado (b) El autor está equivocado y el crítico también (c) El autor está equivocado y el crítico está en lo correcto (d) Falta información para indicar quién está equivocado y quién no

Respuestas a los ejercicios de selección única: 1. c 6. d 11. a 16. b 21. d 26. b 31. a

2. a 7. c 12. b 17. d 22. b 27. a 32. b

3. c 8. b 13. b 18. c 23. d 28. d 33. d

4. c 9. b 14. d 19. b 24. d 29. b 34. c

5. a 10. d 15. c 20. a 25. b 30. c

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

192

9

.

Muestreo OBJETIVOS: Al concluir el capítulo, será capaz de: 1. Explicar la importancia y necesidad de trabajar con muestras para conocer información sobre la población 2. Describir algunas aplicaciones empresariales del muestreo 3. Calcular el tamaño de muestra necesario para estimar la media poblacional y proporción poblacional 4. Describir las principales técnicas de muestreo probabilístico

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

193

Ejemplo

Suponga que se desea estimar el gasto promedio diario que realizan los turistas estadounidenses cuando visitan el país. Por un estudio anterior se sabe que esta variable tiene una desviación estándar de $46,6. Además, se desea que la estimación tenga un error máximo de $10 y con una confianza del 95%. ¿Qué tamaño de muestra se necesita?

Solución

Con base en los datos anteriores, se tiene que para el nivel de confianza del 95% corresponde un valor de z de 1,96. Así que se plantea: Desviación estándar de la población: σ = $46,6 Precisión deseada o nivel máximo de error permitido: E = $10 Valor de z correspondiente al nivel de confianza del 95%: z = 1,96 Sustituyendo los valores en la fórmula:

  z   46,6  1,96  n     83,42  84 10  E    2

2

Generalmente cuando se determine el tamaño de muestra se va a redondear hacia arriba. De acuerdo con el resultado anterior, se requiere una muestra de 84 turistas estadounidenses para efectuar una estimación del gasto promedio diario en el país con una confianza del 95% y con una discrepancia máxima entre el valor estimado y el valor real de $10.

Ejercicio de revisión

Se desea estimar el salario promedio de los operarios industriales del país. Se conoce que la desviación estándar de estos salarios es de $236. Se requiere una estimación con un error máximo de $50 y una confianza del 99%. ¿De qué tamaño debe ser la muestra? Solución: Se plantea: Desviación estándar de la población: σ = $236 Precisión deseada o nivel máximo de error permitido: E = $50 Valor de z correspondiente al nivel de confianza del 99%: z = 2,58 Sustituyendo los valores en la fórmula:

   z   236  2,58  n     148,29  149 50  E    2

2

Se requiere una muestra de 149 operarios.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

194

Ejemplo

Una empresa posee un total de 800 camiones que se emplean para repartir sus productos a nivel nacional. Se desea estimar mediante una muestra aleatoria de los camiones para determinar la cantidad de kilómetros recorridos mensualmente. Por otro estudio realizado hace un tiempo, se conoce que esta variable tiene una desviación estándar de 380 kilómetros. La estimación debe tener un error máximo de 30 kilómetros y una confianza del 95%. ¿Qué tamaño de muestra se necesita?

Solución

Dado que la población es finita, entonces la determinación del tamaño de muestra se efectuará en dos etapas. Primero se calculará el tamaño de muestra como si la población fuera infinita. Luego se aplicará el factor de corrección para poblaciones finitas. Con base en los datos anteriores, se tiene que para el nivel de confianza del 95% corresponde un valor de z de 1,96. Así que se plantea: Desviación estándar de la población: σ = 380 km. Precisión deseada o nivel máximo de error permitido: E = 30 km. Valor de z correspondiente al nivel de confianza del 95%: z = 1,96 Tamaño de la población: 800 camiones Sustituyendo los valores en la fórmula:

  z   380  1,96  n     616,36  617  E   30  2

2

Ahora se aplica el factor de corrección tomando n0 = 617 y N = 800: n

n0 617   348,34  349 n0 617 1  1 800 N

De acuerdo con el resultado anterior, se requiere una muestra de 349 camiones para estimar la cantidad de kilómetros recorridos mensualmente con una confianza del 95% y con un error máximo de 30 km.

Ejercicio de revisión

El departamento de compras de una empresa grande desea estimar qué porcentaje de sus 600 proveedores ha actualizado su información, pues el mes pasado se envió una solicitud a todos los proveedores enviando un formulario para mantener actualizados todos los datos. ¿De qué tamaño debe ser la muestra si se quiere una confianza en la estimación del 95% y que el error no exceda el 5%?

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

195 Solución: Los datos del problema son: Precisión deseada o nivel máximo de error permitido: E = 0,05 Valor de z correspondiente al nivel de confianza del 95%: z = 1,96 Aproximación de la proporción poblacional: p = 0,5 Tamaño de la población: 600 proveedores Sustituyendo los valores en la fórmula: 2

2

 1,96  z n  p(1  p)   0,5(1  0,5)   384,16  385 E  0,05  Ahora se aplica el factor de corrección tomando n = 385 y N = 600: n

n 1

n N



385  234,20  235 385 1 600

Ejemplo

Un fabricante de impresoras desea estimar la cantidad promedio semanal de hojas de papel que se imprimen en distintas oficinas públicas del país. Por un estudio anterior se sabe que esta variable tiene una desviación estándar de 200 hojas. Además, se desea que la estimación tenga un error máximo de 100 hojas y con una confianza del 95%. ¿Qué tamaño de muestra se necesita?

Solución

Con base en los datos anteriores, se plantea: Desviación estándar de la población: σ = 200 hojas Precisión deseada o nivel máximo de error permitido: E = 100 hojas Nivel de confianza: 95% Aplicando los valores en Minitab:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

196

El software genera en resultado en Sesión:

De acuerdo con el resultado anterior, se requiere una muestra de 16 oficinas para efectuar la estimación con una confianza del 95% y con una discrepancia máxima entre el valor estimado y el valor real de 100 hojas.

Ejemplo

Una compañía desea conocer el porcentaje de consumidores de ingresos medios y altos que estarían dispuestos a efectuar compras por internet en el transcurso de los próximos 6 meses. No se conoce ninguna estimación previa de este valor y se desea que la estimación tenga un error máximo de 3% y una confianza del 99%. ¿Qué tamaño de muestra se necesita?

Solución

Con base en los datos anteriores, se tiene que para el nivel de confianza del 99% corresponde un valor de z de 2,58. Además, como no se tiene una estimación de p, se empleará el valor de 0,5. Entonces se plantea: Precisión deseada o nivel máximo de error permitido: E = 0,03

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

197 Valor de z correspondiente al nivel de confianza del 99%: z = 2,58 Aproximación de la proporción poblacional: p = 0,5 Sustituyendo los valores en la fórmula: 2

2

 2,58  z n  p(1  p)   0,5(1  0,5)   1.849 E  0,03  Es decir, es necesaria una muestra de 1.849 personas de ingresos medios y altos para efectuar una estimación del porcentaje de consumidores que estarían dispuestos a efectuar compras por internet en el transcurso de los próximos 6 meses, estimación que se realizará con una confianza del 99% y con un error máximo de 3%.

Ejercicio de revisión

Un candidato político requiere una estimación del porcentaje de electores que votaría por él en las próximas elecciones presidenciales. Desea que el error no exceda el 2,8% y una confianza del 95%. ¿Cuál debe ser el tamaño de la muestra? Solución: Se plantea: Precisión deseada o nivel máximo de error permitido: E = 0,028 Valor de z correspondiente al nivel de confianza del 95%: z = 1,96 Aproximación de la proporción poblacional: P = 0,5 Sustituyendo los valores en la fórmula: 2

2

 1,96  z n  p(1  p)   0,5(1  0,5)   1225 E  0,028 

Ejemplo

Una empresa desea conocer la proporción de sus empleados que estarían de acuerdo en un nuevo programa de beneficios. La compañía tiene un total de 350 colaboradores y quiere hacer la estimación con un error máximo de 5% y una confianza del 95%. Se estima, por un estudio piloto, que esta proporción podría ser del 40%. ¿Qué tamaño de muestra se necesita?

Solución

Dado que la población es finita, entonces la determinación del tamaño de muestra se efectuará en dos etapas. Primero se calculará el tamaño de muestra como si la población fuera infinita. Luego se aplicará el factor de corrección para poblaciones finitas.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

198

Con base en los datos anteriores, se tiene que para el nivel de confianza del 95% corresponde un valor de z de 1,96. Los datos del problema son: Precisión deseada o nivel máximo de error permitido: E = 0,05 Valor de z correspondiente al nivel de confianza del 95%: z = 1,96 Aproximación de la proporción poblacional: p = 0,4 Tamaño de la población: 350 empleados Sustituyendo los valores en la fórmula: 2

2

 1,96  z n  p(1  p)   0,4(1  0,4)   368,79  369 E  0,05  Ahora se aplica el factor de corrección tomando n0 = 369 y N = 350: n

n0 369   179,58  180 n0 369 1 1 350 N

Es necesaria una muestra de 180 empleados para tener una estimación de la proporción de empleados que estarían de acuerdo en un nuevo programa de beneficios con una confianza del 95% y con un error máximo del 5%.

Ejercicio de revisión

Un investigador está investigando la prevalencia de diabetes en adultos mayores de 30 años en una población de 2000 personas. Desea un nivel de confianza de 95% y un error máximo de 3,5% en su estimación. ¿De qué tamaño debe ser su muestra? Solución: Los datos del problema son: Precisión deseada o nivel máximo de error permitido: E = 0,035 Valor de z correspondiente al nivel de confianza del 95%: z = 1,96 Aproximación de la proporción poblacional: p = 0,5 Tamaño de la población: 2000 personas Sustituyendo los valores en la fórmula: 2

2

 1,96  z n  p(1  p)   0,5(1  0,5)   784 E  0,035  Ahora se aplica el factor de corrección tomando n = 784 y N = 2000:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

199

n

n 1

n N



784  563,21  564 784 1 2000

Ejemplo

Un auditor desea verificar si todos los cheques emitidos en una compañía satisfacían los requerimientos de control establecidos por la gerencia. Durante el mes pasado se emitieron 81 cheques y la muestra debe contener 10 cheques. ¿Cuáles cheques se seleccionarían si se aplica un muestreo simple al azar y usando la tabla de números aleatorios anterior (tome como punto inicial la primera columna y segundo renglón de la tabla)?

Solución

Para seleccionar la muestra de 10 cheques de acuerdo con un muestreo simple al azar, se toman 10 números aleatorios. De acuerdo con lo establecido en el ejercicio, el punto inicial sería el número 37273. Como solo se extendieron 98 cheques, que es un número de 2 dígitos, entonces se requieren 10 números de 2 cifras entre 1 y 81. En la tabla dada estos número serían 37, 14, 01, 25, 50, 23, 52, 53, 55 y 36 (note que el 93 está fuera del rango requerido). Ahora se buscan los cheques con los 10 números seleccionados y el auditor realiza su verificación.

Ejemplo

Utilice Excel para generar una muestra simple al azar de 5 unidades de una población total de 20 unidades.

Solución

Tal como se ha mencionado en el muestreo es necesario generar números aleatorios. Las funciones ALEATORIO y ALEATORIO.ENTRE se pueden emplear para generar números aleatorios para realizar el muestreo. Utilice Excel para generar números aleatorios para seleccionar una muestra de tamaño 5 de una población total de tamaño 20. Para resolver este ejercicio se va a emplear la función ALEATORIO.ENTRE la cual genera números aleatorios entre dos valores, un límite inferior y otro superior, que en este caso serían 1 y 20, respectivamente, pues se desea obtener números al azar entre 1 y 20, porque la población es de tamaño 20. En una celda de la hoja de Excel, por ejemplo, la celda A1 introduce la función: = ALEATORIO.ENTRE(1;20)

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

200

Y presiona la tecla Intro (Enter). Como se quiere una muestra de tamaño 5, entonces se copia la fórmula 5 veces:

En este caso se seleccionarían, según la imagen, los elementos 2, 16, 6, 3 y 5 de la población para conformar la muestra.

Ejemplo

Una empresa tiene 700 empleados y se desea tomar una muestra de 20 de ellos para aplicar un cuestionario sobre la opinión de los colaboradores sobre los resultados obtenidos luego de la implementación de un nuevo sistema informático. ¿Cómo se seleccionarían los miembros de la muestra si se emplea el muestreo aleatorio sistemático?

Solución

Para poder seleccionar la muestra es necesario que previamente se haya preparado una lista con los nombres de los 700 empleados, la cual servirá de marco muestral. Como la población es de 700 personas, N = 700, y se tomará una muestra de 20 empleados, n = 20, entonces:

k

N 700   35 n 20

Luego se busca el punto de inicio. Para esto se busca un número aleatorio entre 1 y 35. Suponga que se ha empleado una tabla de números aleatorios y que se ha obtenido el 8. Entonces, se selecciona al octavo empleado de la lista. Ese sería el primer integrante de la muestra. Para obtener el segundo elemento en la muestra, al 8 se le suma la constante k, es decir, se le suma 35, por lo que el segundo miembro de la muestra será el número 43 de la lista, pues 8 + 35 = 43.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

201

De manera similar se obtendrá el tercer elemento en la muestra. A 43 se le suma la constante k, de modo que se seleccionará al empleado número 78 de la lista, ya que 43 + 35 = 78. Del mismo modo se seleccionarán los siguientes miembros de la muestra: Elemento de la muestra 1 2 3 4 5 6 7 8 9 10

Elemento seleccionado de la población 8 8 + 35 = 43 43 + 35 = 78 78 + 35 = 113 113 + 35 = 148 148 + 35 = 183 183 + 35 = 218 218 + 35 = 253 253 + 35 = 288 288 + 35 = 323

Elemento de la muestra 11 12 13 14 15 16 17 18 19 20

Elemento seleccionado de la población 323 + 35 = 358 358 + 35 = 393 393 + 35 =428 428 + 35 = 463 463 + 35 = 498 498 + 35 = 533 533 + 35 = 568 568 + 35 = 603 603 + 35 = 638 638 + 35 = 673

De ese modo vemos como se ha seleccionado a los 20 miembros de la muestra. Luego se buscan los nombres respectivos en la lista y se aplica el cuestionario a cada uno de ellos.

Ejemplo

Los empleados de una empresa se pueden dividir en estratos por su antigüedad de laborar en la compañía. Del total de 1.000 empleados, hay 200 empleados con menos de 5 años de trabajar para la compañía, hay 500 con una antigüedad de 5 años o más pero menos de 10 años en la empresa, y 300 con una antigüedad de 10 o más años. Se va a seleccionar una muestra de 50 empleados para conocer la opinión de los empleados sobre la posibilidad de implementar la modalidad del teletrabajo en la empresa. ¿Cuántos empleados deben seleccionarse de cada estrato?

Solución

Para establecer cuántos empleados deben seleccionarse de cada uno de los estratos establecidos, si se emplea la afijación proporcional, primero se debe determinar la frecuencia relativa de cada uno de los estratos en la población:

Estrato 1 2 3

Antigüedad Menos de 5 años De 5 a 10 años 10 años o más Total

Número de empleados 200 500 300 1.000

Frecuencia relativa 0,20 0,50 0,30 1,00

Muestra por estrato 10 25 15 50

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

202 Tal como se observa en la tabla, para obtener la frecuencia relativa de cada estrato se divide el número de elementos del estrato entre el total de la población: Estrato 1: 200/1.000 = 0,20 Estrato 2: 500/1.000 = 0,50 Estrato 3: 300/1.000 = 0,30 Observe que la suma de las frecuencias relativas debe ser exactamente uno. Luego para determinar el número de empleados que se incluirán en la muestra por cada estrato se multiplica cada frecuencia relativa por el tamaño de muestra, que en este caso es 50: Estrato 1: 0,20 x 50 = 10 Estrato 2: 0,50 x 50 = 25 Estrato 3: 0,30 x 50 = 15 La suma de los tamaños de muestra por estrato debe ser igual al tamaño de la muestra total, que en este caso es 50. Podemos decir que se requiere incluir en la muestra a 10 empleados con una antigüedad de menos de 5 años, a 25 con una antigüedad de más de 5 años pero menos de 10 años en la empresa, y a 15 con una antigüedad de 10 o más años de laborar para la empresa.

Ejemplo

En un proyecto de investigación se desea conocer el grado de satisfacción laboral de los profesores universitarios del país. Se requiere una muestra total de 300 profesores, pero no se posee una lista de todos los profesores de las universidades del país. ¿Cómo podría obtenerse la muestra en este estudio?

Solución

Dado que ya está establecido el tamaño de la muestra, el problema consiste en seleccionar los 300 miembros de la muestra. Como no se cuenta con un marco muestral, podría emplearse el muestreo por conglomerados. Para ello se toma una lista de las universidades del país. Cada universidad será una unidad primaria, es decir, se seleccionará una muestra aleatoria de varias universidades, para luego tomar una muestra de profesores de cada una de ellas. Cada muestra de profesores se puede obtener por muestreo simple al azar o muestreo sistemático.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

203 Examen del capítulo: En cada caso seleccione la opción que mejor contesta cada pregunta (las respuestas a los ejercicios se encuentran en la página de internet del texto: ). 1. La unidad estadística es: (a) Una porción o parte de la población de interés (b) La unidad de interés en un estudio estadístico (c) La unidad básica en términos de la cual se aplica una técnica de muestreo (d) La unidad que proporciona los datos relacionados con la unidad de estudio 2. La unidad de información en un estudio es: (a) Una porción o parte de la población de interés (b) La unidad de interés en un estudio estadístico (c) La unidad básica en términos de la cual se aplica una técnica de muestreo (d) La unidad que proporciona los datos relacionados con la unidad de estudio 3. La unidad de muestreo es: (a) Una porción o parte de la población de interés (b) La unidad de interés en un estudio estadístico (c) La unidad básica en términos de la cual se aplica una técnica de muestreo (d) La unidad que proporciona los datos relacionados con la unidad de estudio 4. Un banco está estudiando el nivel de satisfacción de los clientes con sus servicios y para tal fin realizará un estudio por muestreo. Al respecto el investigador a cargo expresó que: A. La unidad de estudio y la unidad de información son las mismas en este caso. B. La unidad de muestreo es un cliente del banco. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 5. Una trabajadora social desea investigar algunos aspectos relacionados con la calidad de vida de los adultos mayores que residen en hogares de ancianos. Para tal fin selecciona una muestra aleatoria y visita varios hogares de ancianos para valorar si dichas organizaciones poseen planes e infraestructura adecuados. Al respecto la trabajadora social considera que: A. La unidad de información corresponde a los ancianos que residen en el hogar visitado. B. La unidad de muestreo corresponde al director del hogar visitado. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 6. Una nutricionista está investigando la calidad de la nutrición que reciben los niños de una escuela. Para este fin selecciona una muestra aleatoria y visita los hogares de los niños y entrevista a sus padres. Con relación a esta situación la nutricionista considera que: A. La unidad de información corresponde a los niños de la escuela. B. La unidad de muestreo corresponde a los padres de cada uno de los niños seleccionados.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

204

Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 7. Una nutricionista está investigando la calidad de la nutrición que reciben los niños de una escuela. Para este fin selecciona una muestra aleatoria y visita los hogares de los niños y entrevista a sus padres. Con relación a esta situación la nutricionista considera que: A. El marco muestra es una lista de todos los niños de la escuela. B. La unidad de estudio corresponde a los padres de cada uno de los niños seleccionados. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 8. Una nutricionista está investigando la calidad de la nutrición que reciben los niños de una escuela. Para este fin selecciona una muestra aleatoria y visita los hogares de los niños y entrevista a sus padres. Con relación a esta situación la nutricionista considera que es necesario emplear una muestra porque: A. Visitar todos los hogares de todos los niños de la escuela requiere demasiado tiempo. B. El estudio de la variable en cuestión implica la destrucción de la unidad de interés. Con respecto a las dos afirmaciones anteriores, es incorrecto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 9. De las siguientes, no es una razón para trabajar con muestras: (a) Se mejora la calidad de la información recopilada (b) Se reducen los costos (c) En ocasiones la población se destruye al ser observada (d) Se eliminan el riesgo de definir mal la población 10. Una fábrica de fusibles prueba la calidad de su producto terminado. El ingeniero a cargo afirma que es estrictamente necesario emplear un muestreo porque: (a) Estudiar la población requeriría demasiado tiempo (b) Estudiar la muestra es más barato (c) La prueba del producto es destructiva (d) La población es infinita 11. Una ___________ es una colección de todos los elementos de un grupo. Una colección de algunos de esos elementos es una ___________. Las opciones que mejor completan la frase anterior son: (a) muestra, población (b) población, muestra por conveniencia (c) población, muestra aleatoria (d) población, muestra

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

205 12. Con respecto al tamaño de la muestra es verdadero que: (a) Depende del tamaño de la población (b) El nivel de confianza en la estimación no es importante (c) La variabilidad de la característica que se estima influye fuertemente (d) Ninguna de las anteriores 13. Con respecto al tamaño de muestra un investigador realizó las siguientes dos afirmaciones: A. El costo es determinante del tamaño de muestra, aunque no esté en la fórmula. B. El nivel de precisión se refiere al nivel de error permitido en la estimación. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 14. Con respecto al uso de muestras un investigador realizó las siguientes dos afirmaciones: A. Toda investigación estadística requiere la utilización del muestreo. B. Cuando se estudia la población completa, se dice que se realiza un censo. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (d) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 15. Se desea estimar la media poblacional de una variable x. Se conoce que la desviación estándar es de 87 unidades. Se requiere una confianza en la estimación del 90% y que el error no sea mayor que 20 unidades. Entonces, el tamaño de muestra requerido es: (a) 520 (b) 73 (c) 52 (d) Ninguna de las anteriores 16. Se desea estimar la media poblacional de una variable x. Se conoce que la desviación estándar es de 87 unidades y que la población está compuesta por 200 unidades. Se requiere una confianza en la estimación del 95% y que el error no sea mayor que 15 unidades. Entonces, el tamaño de muestra requerido es: (a) 130 (b) 92 (c) 79 (d) Ninguna de las anteriores 17. Se desea estimar una proporción poblacional para una cierta variable. Se cuenta con una estimación previa del 20%. Se requiere una confianza en la estimación del 95% y que el error no sea mayor que 5%. Entonces, el tamaño de muestra requerido es: (a) 174 (b) 246 (c) 385 (d) Ninguna de las anteriores 18. Se desea estimar una proporción poblacional para una cierta variable. Se requiere una confianza en la estimación del 99% y que el error no sea mayor que 3,5%. Entonces, el tamaño de muestra requerido es: (a) 1105 (b) 1355 (d) 867 (d) Ninguna de las anteriores 19. Se desea estimar una proporción poblacional para una cierta variable. La población tiene un tamaño de 220 individuos. Se requiere una confianza en la estimación del 90% y que el error no sea mayor que 3%. Entonces, el tamaño de muestra requerido es: (a) 171 (b) 752 (c) 457 (d) 149

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

206

20. En un estudio por muestreo se desea estimar la talla promedio de las 400 mujeres que laboran en una empresa. Por un estudio previo se sabe que la desviación estándar es de 22 cm y se ha establecido una precisión de 5 cm con una confianza del 99%. Entonces, el tamaño de muestra requerido es, en número de mujeres: (a) 98 (b) 129 (c) 105 (d) 84 21. En un estudio por muestreo se desea estimar la proporción de las 400 mujeres que laboran en una empresa que poseen hijos menores de 10 años. Se ha establecido una precisión de 5% con una confianza del 95%. Entonces, el tamaño de muestra requerido es, en número de mujeres: (a) 385 (b) 271 (c) 162 (d) 197 22. Un noticiero en la televisión decide realizar una encuesta sobre la calidad de la educación en el país. Los televidentes que desean participar llaman a un número telefónico y votan por la opción que consideran más apropiada. Durante el noticiero votaron 5.500 personas, y el 75% considera que la educación del país debe mejorarse. El tipo de muestreo empleado por este noticiero es: (a) Aleatorio (b) Por conveniencia (c) Voluntario (d) De juicio 23. Un noticiero en la televisión decide realizar una encuesta sobre la calidad de la educación en el país. Los televidentes que desean participar llaman a un número telefónico y votan por la opción que consideran más apropiada. Durante el noticiero votaron 5.500 personas, y el 75% considera que la educación del país debe mejorarse. Con respecto a este muestreo es falso que: (a) Es una muestra representativa por ser muy grande (b) Se presenta un posible sesgo de selección (c) Es un muestreo no aleatorio (d) La muestra no es representativa a pesar de su tamaño 24. La principal ventaja de un muestreo aleatorio es que: (a) Elimina los sesgos de selección (b) Permite la cuantificación y control del error de muestreo (c) Reduce los costos del estudio (d) Emplea muestras de menor tamaño 25. La discrepancia, debida al azar, entre la estimación de una característica obtenida a través de una muestra y su verdadero valor en la población corresponde al concepto de: (a) Sesgo de selección (b) Error de muestreo (c) Sesgo de medición (d) Aleatoriedad

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

207 26. El error sistemático, no debido al azar, y que ocasiona que diferencias entre el valor estimado a través de la muestra y el valor verdadero corresponde al concepto de: (a) Sesgo (b) Error de muestreo (c) Variabilidad (d) No aleatoriedad 27. Un gerente está haciendo un estudio de mercado. Ha seleccionado una muestra aleatoria de 385 consumidores, pero hubo 50 de ellos que no contestaron el cuestionario. Esta situación: (a) No es problema porque la mayoría sí lo contestaron (b) Es un problema porque el tamaño de la muestra efectivamente tomada es menor (c) Es un problema, pero se resuelve sustituyendo los valores faltantes por sus valores esperados (d) No es un problema porque no fue causado intencionalmente por el investigador 28. Con respecto al muestreo un investigador realizó las siguientes dos afirmaciones: A. La selección de la técnica apropiada no es tan importante como la determinación del tamaño de la muestra para lograr una muestra representativa. B. La existencia de un marco muestral bien definido es clave para seleccionar la técnica de muestreo. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 29. El departamento de recursos humanos de una empresa va a efectuar un estudio por muestreo sobre la satisfacción de los empleados. La empresa tiene 2500 empleados y el tamaño de la muestra es de 250 empleados. El encargado tomó una lista de todos los funcionarios de la empresa y con ayuda de un software obtuvo 250 números aleatorios, los cuales empleó para seleccionar a los empleados que conformarían la muestra. En esta situación el tiempo de muestreo empleado es: (a) Muestreo sistemático (b) Muestreo simple al azar (c) Muestreo estratificado (d) Muestreo por conglomerados 30. El departamento de recursos humanos de una empresa va a efectuar un estudio por muestreo sobre la satisfacción de los empleados. La empresa tiene 2500 empleados y el tamaño de la muestra es de 250 empleados. El encargado calculo un valor k = 2500/250 = 10, entonces tomó una lista de todos los funcionarios de la empresa, con ayuda de un software obtuvo un número aleatorio entre uno y diez, y a ese número empezó a sumar 10 una y otra vez hasta completar 250 números, los cuales empleó para seleccionar a los empleados que conformarían la muestra. En esta situación el tiempo de muestreo empleado es: (a) Muestreo sistemático (b) Muestreo simple al azar (c) Muestreo estratificado (d) Muestreo por conglomerados

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

208 31. El departamento de recursos humanos de una empresa va a efectuar un estudio por muestreo sobre la satisfacción de los empleados. La empresa tiene 2500 empleados y el tamaño de la muestra es de 250 empleados. El encargado dividió la empresa en sus distintos departamentos, por considerar que los empleados en cada uno de ellos tienden a ser más homogéneos entre sí con respecto a la variable estudiada. Luego tomó una muestra de cada uno de estos subgrupos, de modo que la muestra total resultante refleje en forma proporcional la cantidad de empleados que hay en cada departamento. En esta situación el tiempo de muestreo empleado es: (a) Muestreo sistemático (b) Muestreo simple al azar (c) Muestreo estratificado (d) Muestreo por conglomerados 32. Con respecto a una muestra sea representativa de una población es correcto que: (a) Basta con que sea del tamaño apropiado (b) Debe ser obtenida al azar sin importar su tamaño (c) Debe al menos el 20% de la población (d) Ninguna de las anteriores

Respuesta a ejercicios de selección única: 1. b 6. c 11. d 16. c 21. d 26. a 31. c

2. d 7. b 12. c 17. b 22. c 27. b 32. d

3. c 8. d 13. a 18. b 23. a 28. d

4. a 9. d 14. d 19. a 24. b 29. b

5. c 10. c 15. c 20. a 25. b 30. a

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

209

10

.

Pruebas de hipótesis OBJETIVOS: Al concluir el capítulo, será capaz de: 1. Plantear las hipótesis nula y alternativa en problemas de decisión con respecto a la media o la proporción poblacional 2. Identificar los posibles errores que se pueden cometer al tomar decisiones con base en muestras 3. Describir los pasos del procedimiento de prueba de hipótesis 4. Calcular los estadísticos de prueba adecuados según el tipo de problema 5. Tomar decisiones con base en el procedimiento de prueba de hipótesis

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

210

Ejemplo

Se sabe por estudios previos que los recién nacidos de cierta población tienen una talla promedio de 49,5 cm. Una enfermera estudió un grupo de 40 recién nacidos, y obtuvo una media de 53,4 cm. La enfermera desea saber si estos resultados apoyan los estudios previos. ¿Cuáles serían sus hipótesis nula y alternativa?

Solución

En esta situación la enfermera tiene un valor poblacional establecido, que es que los recién nacidos miden, en promedio, una talla de 49,5 cm. Por tanto, su hipótesis nula será: H0: La talla media de los recién nacidos es 49,5 cm. Pero los datos recopilados sugieren que este promedio podría ser mayor que 49,5 cm, por lo que, de descartar la hipótesis nula anterior, se aceptaría la hipótesis alternativa: H1: La talla media de los recién nacidos es mayor que 49,5 cm. Generalmente las hipótesis se expresan en términos de símbolos: H0:  = 49,5 H1:  > 49,5

Ejemplo

En cada uno de los siguientes casos plantee la hipótesis nula y la alternativa: 1. Un cierto material viene en cajas de peso promedio 17 libras y desviación estándar 0,4 libras. Se recibe un cargamento grande y se tiene la sospecha de que el peso promedio de las cajas es inferior al usual. Para verificar la sospecha se toma una muestra al azar de 86 cajas y se pesan, obteniéndose un promedio de 16,5 libras. ¿Se puede afirmar que efectivamente el peso de las cajas es inferior al acostumbrado? 2. En una granja bastante grande se producen pollos. Según los estándares establecidos, el peso medio de los pollos debe ser de 4,2 Kg. con varianza 1,96. Se desea determinar si es cierta la queja de un grupo de clientes de que el peso medio ha disminuido durante las últimas semanas. Para verificar tal afirmación se contrata un ingeniero avícola, el cual toma una muestra de 65 pollos, y encuentra un peso medio de 3,86 Kg. ¿Significa esto que efectivamente el peso medio es inferior al usual? 3. De acuerdo con datos de un estudio realizado en un país europeo la edad promedio de diagnóstico del cáncer de próstata es 75 años. Un investigador nacional considera que en nuestro país esa edad de diagnóstico es menor. Se tomó una muestra de 80 casos diagnosticados y encontró una edad promedio de 69 años con una desviación estándar

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

211 muestral de 9 años. ¿Qué puede concluirse con base en estos datos? 4. Según un estudio los niños de los estratos socio económicos medios y altos inician alguna práctica de cuidado de su salud buco dental a los 15,6 meses. En una muestra de 35 niños de familias de estratos bajos se encontró una edad media de inicio de la higiene bucal a los 18,2 meses, con una desviación estándar de 8,5 meses. ¿Puede considerarse que la edad de los niños de familias de estratos bajos es mayor que 15,6 meses?

Solución

1. En esta situación se indica que el peso promedio de las cajas en que viene el material es 17 libras, por tanto se querrá verificar que se satisface esta especificación, de manera que la hipótesis nula será que el peso promedio es 17 libras. Por otro lado, en la muestra de 86 cajas se obtuvo un peso promedio inferior, lo cual también sugiere la pregunta, entonces la hipótesis nula será que la media es inferior a 17 libras. En resumen: H0:  = 17 H1:  < 17 2. De acuerdo con este problema existe un estándar de 4,2 Kg. en promedio por animal, por lo que la hipótesis nula es que el promedio sea igual a 4,2 Kg. En la muestra se encuentra un peso medio inferior a 4,2 Kg., de modo que la hipótesis nula es que el peso medio es inferior: H0:  = 4,2 H1:  < 4,2 3. De acuerdo con los datos la edad promedio de diagnóstico del cáncer de próstata es 75 años, de manera que se plantea la hipótesis nula de que el promedio es igual a 75. En la muestra se obtiene una edad promedio menor que 75, así que la hipótesis alternativa sería que la media es menor que 75 años: H0:  = 75 H1:  < 75 4. Según el estudio la media es 15,6 meses, de modo que la hipótesis nula será que la media es igual a 15,6. En la muestra se obtuvo un valor más alto, de manera que la hipótesis alternativa será que la media es mayor que 15,6: H0:  = 15,6 H1:  > 15,6

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

212

Ejercicio de revisión

Un ingeniero está estudiando la vida útil de distintos proyectos construidos con cierto tipo de pavimento. Se sabe que los camiones pesados producen un daño elevado y que reducen la vida útil de las vías. Se realiza un estudio para saber qué proporción de los camiones llevan una carga excesiva. En el caso de los camiones de 3 ejes se cuenta con un estudio previo en el que se indica que el 10% de estos vehículos portaban un peso superior al permitido. En una muestra de 40 de estos camiones, se encontró que 6 de ellos portaba una carga excesiva. ¿Cuáles es la hipótesis nula y cuáles es la hipótesis alternativa de este problema? Solución: Con base en el estudio previo se puede plantear la hipótesos nula de que el 10% de estos vehículos portaban un peso superior al permitido, o sea, que la proporción P = 0,10. Tomando la muestra de 40, de los cuales 6 portaban una carga excesiva, es decir una proporción p = 6/40 = 0.15, resultado que es mayor que el 10% del estudio previo, por tanto, podría plantearse la hipótesis alternativa de que la proporción de camiones que cargan sobrepeso es mayor que 10%. En resumen: H0: P = 0,10 H1: P > 0,10

Ejemplo

Un empresario es el único distribuidor de electrodomésticos y productos tecnológicos de su zona. Leyó en un medio que hasta un 74% de los internautas ha realizado alguna compra por internet en el transcurso de los últimos 3 meses. Para comprobar si en su zona esta proporción es similar a la publicada, aplicó un cuestionario a una muestra de 50 personas que fueran residentes de la zona y que usaran internet regularmente, y les preguntó si habían realizado compras en línea en el último trimestre. La encuesta reveló que 30 internautas de la zona han realizado compras por internet en ese periodo. O sea, que solo el 60% de los entrevistados respondió afirmativamente. ¿Cuál sería la hipótesis nula y alternativa en este caso?

Solución

El empresario desea probar que si es cierto que el 74% de los usuarios de internet han realizado compras por internet en el último trimestre, por tanto, su hipótesis nula será: H0: La proporción de usuarios que internet que ha realizado compras por internet es igual a 74%. Pero los datos recopilados indican que ese porcentaje podría ser menor, por lo que, de descartar la hipótesis nula anterior, se aceptaría la hipótesis alternativa:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

213

H1: La proporción de usuarios que internet que ha realizado compras por internet es menor que 74%. Generalmente las hipótesis se expresan en términos de símbolos: H0: P = 0,74 H1: P < 0,74

Ejemplo

Una empresa fabrica bombillos. Cada bombillo tiene una vida esperada de 1000 horas, pero algunos clientes se han quejado de que los bombillos se queman antes de las 1000 horas. La gerencia decide tomar una muestra y probar la hipótesis nula de que los bombillos tienen una vida media de 1000 horas, contra la hipótesis alterna de que la vida media de los bombillos es menor que dicha especificación. ¿Cómo podrían darse y qué significan los errores tipo I y tipo II en esta situación?

Solución

En esta situación los errores tipo I y tipo II podrían darse si la muestra no representa bien a la población. Esto puede darse de los modos siguientes: 1. El proceso de producción de la empresa está bien controlado, y la vida media de los bombillos es 1000 horas, pero en la muestra usada en la prueba de hipótesis se seleccionaron, por cuestión del azar, muchos bombillos con una vida media inferior a 1000 horas, por lo que se rechazó la hipótesis nula de que la vida media de los bombillos es 1000 horas, a pesar de que era verdadera. Este es el error tipo I. Este error llevaría a la empresa a tratar de mejorar su producción innecesariamente, lo cual le generaría costos adicionales. 2. El proceso de producción de la empresa no está bien controlado, por lo que, efectivamente, la vida media de los bombillos es inferior a 1000 horas, como lo han indicado los clientes que se han quejado, pero en la muestra, por cuestión del azar, se seleccionaron muchos bombillos con una media cercana a 1000 horas, por lo que no se rechazó la hipótesis nula, a pesar de que era falsa. Este es el error tipo II. Este error llevaría a la empresa a no mejorar una producción que sí requiere mejoras, por lo cual sus clientes podrían dejar de comprar sus productos.

Ejercicio de revisión

Una empresa realiza un estudio de mercado en una muestra de 150 consumidores y se plantea probar la hipótesis de que al menos el 30% de ellos compraría su producto. ¿Cuáles serían las hipótesis nula y alternativa? ¿En qué consistirían los errores tipo I y tipo II?

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

214 Solución: La hipótesis nula es el valor límite que se desea probar de 30%, o sea, que la proporción P = 0,30. Dado que se cree que al menos el 30% compraría el producto, entonces la hipótesis alternativa sería P > 30%. En resumen: H0: P = 0,30 H1: P > 0,30 En esta situación los errores tipo I y tipo II podrían darse de los modos siguientes: 1. Si la demanda del producto efectivamente fuera 30% de los consumidores, pero se comete el error tipo I, entonces se rechaza esa hipótesis siendo verdadera (acepta la hipótesis alternativa), y por tanto la empresa hace planes agresivos considerando que la demanda es mayor, pero va a vender menos. 2. Si se comete el error tipo II, la empresa acepta la hipótesis nula de que la demanda es 30%, pero esto es falso y la demanda es mayor, entonces hace planes conservadores, lo que no le permitirá aprovechar un oportunidad de negocio que es mayor.

Ejemplo

Una empresa fabrica bombillos. Cada bombillo tiene una vida esperada de 1000 horas, pero algunos clientes se han quejado de que los bombillos se queman antes de las 1000 horas. La gerencia decide tomar una muestra de 50 bombillos y desea probar que los bombillos tienen una vida media de 1000 horas. La media obtenida a partir de la muestra es de 970 horas. Se conoce que la desviación estándar es 60 horas. Determine, a un nivel de significación del 5%, si la media poblacional de estos bombillos es efectivamente de 1000 horas.

Solución

Paso 1. Plantear las hipótesis. Toda prueba inicia planteando las hipótesis. La hipótesis nula se plantea como H0: μ = μo, donde μo es el valor a probar (en este caso 1000 horas), y la hipótesis alternativa podría ser como alguna de las siguientes: H1: μ > μo H1: μ < μo H1: μ ≠ μo La hipótesis alternativa se formula dependiendo del valor obtenido en la muestra o de lo que se desee plantear como hipótesis alternativa. Es decir, si en vez de querer saber si μ > μo o μ < μo, se desea simplemente saber si μ ≠ μo. En este ejemplo se desea probar que la media verdadera es de 1000 horas

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

215 (μo = 1000), por lo tanto la hipótesis nula es: H0: μ = 1000 Como x (valor muestral que “representa” a μ) es igual a 970, que es un valor menor que 1000, entonces la hipótesis alternativa lógica sería que la media es menor que 1000, o sea, H1: μ < 1000. En resumen se tiene que las hipótesis son: H0: μ = 1000 H1: μ < 1000 Paso 2. Especificar el nivel de significación α (la probabilidad de cometer el error tipo I) con que se desea trabajar. Los valores usualmente usados son 5% y 1%. Si se escoge una probabilidad de error tipo I muy pequeña esto hace que la probabilidad de error tipo II sería muy grande. En el ejemplo se especifica un valor de α de 0,05. Paso 3. Se usa el estadístico de prueba apropiado. En el caso de la media, dependiendo del tamaño de la muestra y si se conoce o no la desviación estándar poblacional, se usa:

zc 

zc 

tc 

x

/ n x s/ n x s/ n

con n  30 con σ conocida o con n < 30 y σ conocida

con n  30 con σ desconocida

con n < 30 y σ desconocida

A este valor se le llamará “z calculada” o “t calculada”, según el caso. En el ejemplo se tiene n > 30 y σ conocida, pues n = 50 y σ = 60 horas, por lo que se calcula z (según el problema se tiene que x = 970 y de la hipótesis nula se obtiene que  = 1000):

zc 

x

/ n



970  1000 60 / 50

 3,54

Paso 4. Se especifica un criterio de aceptación o rechazo de la hipótesis nula según el estadístico de prueba usado en el paso anterior. En las hipótesis para la media el criterio es: Prueba de una cola: Cuando se plantea la hipótesis alternativa como H1: μ > μ0

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

216

Prueba de una cola: Cuando se plantea la hipótesis alternativa como H1: μ < μ0

Prueba de dos colas: Cuando se plantea la hipótesis alternativa como H1: μ ≠ μ0

Puede observarse que cuando la hipótesis alternativa se ha planteado como H1: μ < μ0 o como H1: μ < μ0, entonces se dice que la prueba es de una cola, y la zona de aceptación queda definida por el valor de 1  . Cuando la hipótesis alternativa se ha planteado como H1: μ ≠ μ0, entonces se dice que la prueba es de dos colas, y la zona de aceptación queda definida por el valor de 1  /2. El valor de Zα o de tα se obtiene de la tabla respectiva con una probabilidad igual a 1   en el caso de Z y α en el caso de t en las pruebas de una cola y con una probabilidad igual a 1  /2 en el caso de Z y α/2 en el caso de t en las pruebas de dos colas. A este valor de z se le llamará “z tabular” o “z de la tabla” (por ser obtenida de la tabla de la distribución normal), o en el caso de t, “t de la tabla”. Puede establecerse la regla siguiente en términos de z: 

Si z c  z t se rechaza la hipótesis nula Ho y se acepta la hipótesis alternativa H1.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

217 

Si z c  z t se mantiene la hipótesis nula Ho.

En términos de t sería:  

Si t c  t t se rechaza la hipótesis nula Ho y se acepta la hipótesis alternativa H1. Si t c  t t se mantiene la hipótesis nula Ho.

En el ejemplo que se está desarrollando, la prueba es de una cola, porque H1: μ < 1000, por lo tanto se tiene la cola izquierda (porque la hipótesis alternativa es de menor). De la tabla normal (Apéndice 6) con α = 0,05, se obtiene Zt = –1,645. Como |Zc| = 3,54 > |Zt| = 1,645, entonces Zc cae en zona de rechazo de la H0. Paso 5. Se acepta o se rechaza la H0 y se toma la decisión. En este ejemplo se rechaza la hipótesis nula H0. Es decir, se rechaza que μ = 1000 y se acepta la H1: μ  1000. La conclusión es que a un nivel de significación del 5% se rechaza la hipótesis nula de que la vida media de los bombillos es de 1000 horas y se considera que existe evidencia estadística para aceptar la hipótesis alternativa de que la vida útil de los focos es menor de 1000 horas.

Ejercicio de revisión

Una institución del gobierno periódicamente verifica que las empresas y los comercios no realicen prácticas abusivas contra los consumidores. Recientemente ha verificado una muestra de 200 latas de atún cuya etiqueta indica que contienen 130 grs. como peso escurrido. El promedio en la muestra fue 112 grs. como peso escurrido Por un estudio anterior se conoce que la desviación estándar es 20,5 grs. ¿Constituyen estos datos muestrales evidencia suficiente para considerar que las latas de atún poseen un peso escurrido inferior al ofrecido? Use un nivel de significancia de 5%. Solución: Paso 1. Plantear las hipótesis. Se quiere verificar el dato que aparece en la etiqueta: H0: μ = 130 Como x = 112, que es un valor menor que 130, entonces la hipótesis alternativa sería H1: μ < 130. En resumen se tiene que las hipótesis son:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

218 H0: μ = 130 H1: μ < 130 Paso 2. Especificar el nivel de significación α (la probabilidad de cometer el error tipo I) con que se desea trabajar. En el ejercicio se especifica un valor de α de 0,05. Paso 3. Se usa el estadístico de prueba apropiado. Dado que el tamaño de la muestra n = 200, que es mayor que 30, y se conoce la desviación estándar poblacional, se usa:

zc 

x

/ n

con n  30 y con σ conocida

En este ejercicio se tiene n = 200, σ = 20,5, x = 112 y  = 130: zc 

x 112  130   12,42  / n 20,5 / 200

Paso 4. Se planteó la hipótesis alternativa H1: μ < 130, entonces se dice que la prueba es de una cola, y la zona de aceptación queda definida por el valor de 1   = 1 - 0,05 = 0,95. El valor de Zα se obtiene de la tabla de la distribución normal estándar: Zα = 1.645 Entonces, z c  z t , se rechaza la hipótesis nula Ho y se acepta la hipótesis alternativa H1. Paso 5. Se rechaza la H0, es decir, se rechaza que μ = 130 y se acepta la H1: μ  130. La conclusión es que a un nivel de significación del 5% se rechaza la hipótesis nula de que el contenido medio de las latas es 130 gramos y se considera que existe evidencia estadística para aceptar la hipótesis alternativa de que el contenido es menor que 130 gramos.

Ejemplo

Una muestra aleatoria de frascos de mantequilla de maní presentaron pesos de (en gramos): 252, 251, 249, 253, 250, 255, 248, 258 La empresa ha tratado de ajustar el proceso de llenado para que cada frasco contenga 250 gramos. Verifique, a un nivel de significación del 5% si ese valor esperado se mantiene sin cambio.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

219

Solución

Se tiene que hay un peso especificado para los frascos de mantequilla de maní de 250 gramos, por lo que μ0 = 250 y además n = 8. De los datos de la muestra se obtiene una media x = 252 y una desviación estándar s = 3,3. Como la media muestral x que “representa” a la media poblacional μ es mayor que μ0, entonces se planteará una hipótesis alternativa de μ > μ0. Paso 1. Planteamiento de las hipótesis: H0: μ = 250 H1: μ > 250 Paso 2. Como n < 30 y σ desconocida, se calcula tc: tc 

x s/ n



252  250 3,3 / 8

 1,72

Paso 3. De la tabla, con una cola, para un nivel de significancia α = 0,05 y grados de libertad gl = n – 1 = 8 – 1 = 7, se obtiene tα = 1,895. Paso 4. Como t c  t t , se acepta H0 con α = 0,05. Paso 5. Se concluye que no hay evidencia suficiente para considerar que el peso promedio de los frascos de mantequilla de maní es mayor que 250 gramos.

Ejercicio de revisión

Una compañía de tarjetas de crédito desea probar si el saldo promedio de sus clientes es superior a $500. En una muestra de 15 tarjetahabientes se obtuvo un saldo promedio de $535 con una desviación estándar de $215. ¿Qué puede concluirse a un nivel de significación del 5%? Solución: Se quiere probar si la media es superior a $500, por lo que μ0 = 500 y además n = 15. De los datos de la muestra se obtiene una media x = 535 y una desviación estándar s = 215. Como la media muestral x es mayor que μ0, entonces se planteará una hipótesis alternativa de μ > μ0. Paso 1. Planteamiento de las hipótesis: H0: μ = 500 H1: μ > 500 Paso 2. Como n < 30 y σ desconocida, se calcula tc:

tc 

x   535  500   0,63 s / n 215 / 15

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

220

Paso 3. De la tabla, con una cola, para un nivel de significancia α = 0,05 y grados de libertad gl = n – 1 = 15 – 1 = 14, se obtiene tα = 1,761. Paso 4. Como t c  t t , se acepta H0 con α = 0,05. Paso 5. Se concluye que al nivel de significancia del 5% no hay evidencia suficiente para considerar que el saldo promedio de sus clientes es superior a $500.

Ejemplo

Pruebe la aseveración de que la proporción de adultos que realizaron algún tipo de ejercicio físico al menos una vez durante la semana pasada es menor de 20%, si se tomó una muestra de 1.200 personas, de los cuales 215 dicen que realizaron actividad física la semana pasada. Use α = 0.01.

Solución

Hay que distinguir claramente que en los problemas de pruebas de hipótesis relacionados con proporciones no aparece una variable métrica, es decir, no aparece un promedio que se pueda medir en centímetros, gramos, dólares, minutos u otra unidad de medida. En este caso el problema se relaciona con un porcentaje supuesto de adultos que realizaron ejercicio físico y el conteo de esas personas en la muestra. En todos los casos de pruebas de hipótesis sobre una proporción se va a presentar esta situación, no hay una variable medible y se presentan datos de una variable que se obtiene por conteo y que se relaciona con respecto a un total poblacional o muestral (una proporción). Una vez que se tiene bien definida la naturaleza del problema, entonces se siguen los mismos 5 pasos expuestos para el caso de las pruebas de hipótesis sobre la media poblacional. Paso 1. Planteamiento de las hipótesis: El problema señala que se desea probar si el 20% de los adultos realizaron ejercicio físico al menos una vez durante la semana pasada, por lo que la hipótesis nula será: H0: P = 0,20 Por otro lado, los datos muestrales indican que de los 1200 adultos encuestados, 215 realizaron ejercicio físico la semana pasada, por lo que se tendría una proporción muestral equivalente a: p = 215 / 1200 = 0,1792 Este dato muestral sugiere que la proporción de adultos que realizaron ejercicio físico es menor que 0,20, por lo que las hipótesis se plantearían como: H0: P = 0,20

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

221 H1: P < 0,20 Paso 2. El problema indica que la prueba debe realizar a un nivel de significancia de un 1%. Paso 3. Como el problema es una prueba de una proporción se calcula zc:

z

x  nP 215  1200  0,20  = –1,80 nPQ 1200  0,20  0,80

De la tabla de la curva normal, para un nivel de significancia α = 0,01, con una cola, o sea, una confianza de 0,99, se obtiene zα = –2,33. Paso 4. Como z c  z t , se acepta H0 con α = 0,01. Paso 5. Se concluye que no se tiene evidencia estadística suficiente para rechazar la hipótesis de que la proporción de adultos que realizaron ejercicio físico al menos una vez durante la semana pasada es menor que 20%, a un nivel de significación del 1%.

Ejercicio de revisión

Un laboratorio farmacéutico considera que uno de sus fármacos alcanza en el 80% de los casos su máxima absorción en un plazo de 2 horas. En una muestra de 120 personas se obtuvo el resultado esperado en 80 casos. ¿Puede sostenerse la afirmación de la empresa a un nivel de significancia del 95%? Solución: Paso 1. Planteamiento de las hipótesis: El problema señala que se desea probar si el 20% de los adultos realizaron ejercicio físico al menos una vez durante la semana pasada, por lo que la hipótesis nula será: H0: P = 0,20 Por otro lado, los datos muestrales indican que de los 1200 adultos encuestados, 215 realizaron ejercicio físico la semana pasada, por lo que se tendría una proporción muestral equivalente a: p = 215 / 1200 = 0,1792 Este dato muestral sugiere que la proporción de adultos que realizaron ejercicio físico es menor que 0,20, por lo que las hipótesis se plantearían como: H0: P = 0,20 H1: P < 0,20 Paso 2. El problema indica que la prueba debe realizar a un nivel de

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

222 significancia de un 1%. Paso 3. Como el problema es una prueba de una proporción se calcula zc:

z

x  nP 215  1200  0,20  = –1,80 nPQ 1200  0,20  0,80

De la tabla de la curva normal, para un nivel de significancia α = 0,01, con una cola, o sea, una confianza de 0,99, se obtiene zα = –2,33. Paso 4. Como z c  z t , se acepta H0 con α = 0,01. Paso 5. Se concluye que no se tiene evidencia estadística suficiente para rechazar la hipótesis de que la proporción de adultos que realizaron ejercicio físico al menos una vez durante la semana pasada es menor que 20%, a un nivel de significación del 1%.

Ejemplo

Una empresa fabrica bombillos. Cada bombillo tiene una vida esperada de 1000 horas, pero algunos clientes se han quejado de que los bombillos se queman antes de las 1000 horas. La gerencia decide tomar una muestra de 50 bombillos y desea probar que los bombillos tienen una vida media de 1000 horas. La media obtenida a partir de la muestra es de 970 horas. Se conoce que la desviación estándar es 60 horas. Utilice Minitab para determinar, a un nivel de significación del 5%, si la media poblacional de estos bombillos es efectivamente de 1000 horas.

Solución

Como en cualquier prueba de hipótesis, se inicia por plantear las hipótesis. Tal como se expuso anteriormente, las hipótesis son: H0: μ = 1000 H1: μ < 1000 Luego se especifica el nivel de significación α. En este ejemplo se especifica un valor de α de 0,05. Después se selecciona el estadístico de prueba apropiado. En este ejemplo se tiene n > 30 y σ conocida, pues n = 50 y σ = 60 horas, por lo que se calcula z. Así, en Minitab se debe dar clic en el menú Estadísticas, luego en el submenú Estadística básica, y ahí se elige la opción Z de 1 Muestra. Ahora se completa el cuadro de diálogo siguiente:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

223

Se selecciona Muestras en columnas cuando se tiene la serie original de datos muestrales, pero en este caso ya se tiene calculada la media muestral, por lo que se escoge Datos resumidos, y se digita el tamaño de la muestra y la media muestral. Debe marcarse la casilla Realizar prueba de hipótesis, pues de otro modo Minitab solo dará el intervalo de confianza. En la celda se digita la media poblacional indicada en la hipótesis nula. Luego debe darse clic en el botón Opciones, pues es ahí donde se indica el nivel de significancia y se selecciona la hipótesis alternativa:

Dado que el nivel de significancia de este ejercicio es 5%, entonces el nivel de confianza será de 95%. En la opción de hipótesis alterna se elige la que dice menor que, pues la hipótesis alternativa indicada anteriormente fue H1: μ < 1000. Luego se da clic en Aceptar, y nuevamente clic en Aceptar, y se obtiene la siguiente salida en la ventana Sesión de Minitab:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

224

Puede verse que Minitab indica que el valor del estadístico de prueba Zc es –3,54, que coincide con el valor calculado anteriormente en este capítulo. De la tabla de la curva normal, o bien, del mismo Minitab se calcula el valor Zt, que es –1,645, por lo que Zc cae en zona de rechazo de la H0. Además, observe que Minitab calculó el valor P, que en este caso es 0,000, un valor inferior al nivel de significancia del 5%, por lo que se rechazaría la hipótesis nula. Por cualquiera de los dos criterios (z o valor P), la conclusión es la misma, que a un nivel de significación del 5% se rechaza la hipótesis nula de que la vida media de los bombillos es de 1000 horas y se considera que existe evidencia estadística para aceptar la hipótesis alternativa de que la vida útil de los bombillos es menor de 1000 horas.

Ejemplo

Pruebe la aseveración de que la proporción de adultos que realizaron algún tipo de ejercicio físico al menos una vez durante la semana pasada es menor de 20%, si se tomó una muestra de 1.200 personas, de los cuales 215 dicen que realizaron actividad física la semana pasada. Use α = 0.01.

Solución

Las hipótesis se plantearían como (pues este ejemplo ya se explicó anteriormente en este capítulo): H0: P = 0,20 H1: P < 0,20 El problema indica que la prueba debe realizar a un nivel de significancia de un 1%. Como el problema es una prueba de una proporción, entonces la opción del menú Estadísticas > Estadística básica que se emplea es 1 Proporción. Se debe completar el cuadro de diálogo siguiente:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

225

Se selecciona Muestras en columnas cuando se tiene la serie original de datos muestrales, pero en este caso ya se tiene calculada la cantidad de eventos o éxitos de la muestra, por lo que se escoge Datos resumidos, y se digita el número de eventos, que en este caso es 215, y el tamaño de la muestra o número de ensayos, que es 1200 en este caso. Debe marcarse la casilla Realizar prueba de hipótesis, pues de otro modo Minitab solo dará el intervalo de confianza. En la celda se digita la proporción hipotética, que es la proporción indicada en la hipótesis nula. Luego debe darse clic en el botón Opciones, pues es ahí donde se indica el nivel de significancia y se selecciona la hipótesis alternativa:

En este caso, como se indicó un nivel de significancia del 1%, entonces se digita el nivel de confianza del 99%. En la hipótesis alternativa se había establecido que era H1: P < 0,20, por lo que se elige menor que, y finalmente se marca la casilla Utilice la prueba y el intervalo basado en la distribución normal, pues así Minitab va a utilizar la aproximación normal para la distribución binomial para calcular la prueba de hipótesis y el intervalo de confianza, tal como se expuso en ese capítulo en la teoría relacionada con las pruebas de hipótesis sobre la proporción. Finalmente se da clic en Aceptar, y luego en Aceptar, y en la ventana Sesión de Minitab se obtiene el resultado siguiente:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

226

En esta ventana se observa que Minitab ha calculado el valor del estadístico de prueba z, que es –1,80, y el valor P, que es 0,071. Por cualquiera de los dos criterios se acepta la hipótesis nula (ya que de la tabla de la curva normal, para un nivel de significancia α = 0,01, con una cola, o sea, una confianza de 0,99, se obtiene zα = –2,33, o bien, el valor P de 0,071 es mayor que el de significancia α = 0,01. Se concluye que no se tiene evidencia estadística suficiente para rechazar la hipótesis de que la proporción de adultos que realizaron ejercicio físico durante la semana pasada es menor que 20%, a un nivel de significación del 1%.

Ejemplo

La nueva directora de desarrollo de sistemas de una empresa consideró que el tiempo medio de 28 días para resolver los requerimientos de sus usuarios era demasiado. Ante esta situación optó por implementar una serie de cambios para acelerar el proceso. Seis meses después, en una muestra de 27 nuevos requerimientos se obtuvo que el tiempo promedio para resolverlos fue de 26,9 días, con una desviación estándar de 8 días. Sin embargo, algunos empleados se han quejado, y piensan que los cambios más bien retrasan el proceso. Utilizando un 1% de significancia, evalué si el tiempo medio para resolver los requerimientos de los usuarios ha cambiado.

Solución

Se inicia por plantear las hipótesis. Se desea probar que el tiempo medio para resolver los requerimientos de los usuarios es de 28 días, por lo que esa será la hipótesis nula. Por otro lado, la evidencia muestral indica que dicho tiempo se ha disminuido, pero algunos empleados opinan lo contrario, por lo que se podría plantear la hipótesis alternativa como que el tiempo medio es diferente de 28 días. En resumen, las hipótesis son: H0: μ = 28 H1: μ ≠ 28 Luego se especifica el nivel de significación α. En este ejemplo se especifica un valor de α de 0,01. Después se selecciona el estadístico de prueba apropiado. Se tiene n < 30 y que la desviación estándar poblacional σ es desconocida, por lo que se calculará el intervalo de confianza usando t. Tomando una media muestral

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

227 x  26,9 días, n = 27, s = 8 y α = 0,01 (t con dos colas y 26 grados de

libertad es 2,779), por lo que el intervalo de confianza será:

x  t  s / n  26,9  2,779  8

22,62 27    31,18

La media planteada en la hipótesis nula es μ = 28 días, valor que se encuentra dentro del intervalo de confianza calculado, por lo que no podría rechazarse la hipótesis nula. Si se calculara el estadístico t se obtendría:

tc 

x s/ n



26,9  28 8 / 27

 0,714

Ese valor calculado de t es inferior que el valor crítico de 2,779, confirmando que la hipótesis nula se acepta. Usando Minitab se obtendría un valor P = 0,481, mayor que el nivel de significancia, por lo que se acepta la hipótesis nula. Por cualquiera de los criterios se llega a la misma conclusión, de que se acepta la hipótesis nula, por lo que no hay evidencia suficiente para concluir que los tiempos medios para resolver los requerimientos de los usuarios haya cambiado.

Examen del capítulo: En cada caso seleccione la opción que mejor contesta cada pregunta (las respuestas a los ejercicios se encuentran en la página de internet del texto: ). 1. Cuando se debe decidir, con base en evidencia experimental, si una afirmación hecha acerca de un parámetro es falsa o verdadera, es necesario realizar: (a) Una estimación por intervalos (b) Una prueba de hipótesis (c) Un análisis de correlación (d) Un estudio por muestreo 2. Una __________ es una afirmación acerca de un __________ de una o más poblaciones y que está sujeta a verificación. La opción que mejor completa la frase anterior es: (a) hipótesis; parámetro (b) prueba de hipótesis; estimador (c) prueba de hipótesis; parámetro (d) hipótesis; estimador

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

228 3. Una prueba de hipótesis es un procedimiento basado en evidencia de la __________ y la teoría __________ para determinar si la hipótesis es una afirmación razonable. La opción que mejor completa la frase anterior es: (a) población; estadística (b) muestra; de probabilidades (c) probabilidad; de muestreo (d) población; de probabilidades 4. En una prueba de hipótesis: A. La hipótesis alternativa es cualquier hipótesis que se desea probar. B. La hipótesis nula es la hipótesis que se acepta cuando la hipótesis nula es rechazada. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 5. Un investigador desea probar la hipótesis de que la media de una determinada variable x es igual a 500. En una muestra obtuvo una media de 350, entonces debe: (a) rechazar la hipótesis nula porque la diferencia con respecto a la media muestral es muy grande (b) rechazar la hipótesis nula porque la media muestral es menor que la media hipotética (c) aceptar la hipótesis nula porque la diferencia encontrada es muy pequeña (d) ninguna de las anteriores 6. El nivel de significancia es la probabilidad de: (a) rechazar la hipótesis nula cuando es falsa (b) rechazar la hipótesis nula cuando es verdadera (c) aceptar la hipótesis nula cuando es falsa (d) aceptar la hipótesis nula cuando es verdadera 7. El error tipo II se comete cuando se: (a) rechaza la hipótesis nula cuando es falsa (b) rechaza la hipótesis nula cuando es verdadera (c) acepta la hipótesis nula cuando es falsa (d) acepta la hipótesis nula cuando es verdadera 8. El error tipo I se comete cuando se: (a) rechaza la hipótesis nula cuando es falsa (b) rechaza la hipótesis nula cuando es verdadera (c) acepta la hipótesis nula cuando es falsa (d) acepta la hipótesis nula cuando es verdadera 9. El gerente de una empresa espera que el 60% de sus clientes actuales estén dispuestos a efectuar compras a través de internet. Para comprobar esta afirmación se efectúa una encuesta entre una muestra de clientes, en la cual se encuentra que solo el 40% de los clientes efectuarían compras por internet. Según los estudios financieros de la empresa, se requiere que al menos el 60% de los clientes actuales realicen compras en línea para que valga la pena implementar dicha modalidad de negocios. Con respecto a esta situación se han realizado dos afirmaciones:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

229

A. Cometer el error tipo I significaría perder una buena oportunidad de negocios. B. Cometer el error tipo II significaría enfrentarse a pérdidas económicas en un sistema que no es rentable. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 10. Un candidato de un partido político considera que al menos el 40% de los electores tienen una opinión favorable acerca de sus planteamientos y, por tanto, votarían por él en las próximas elecciones. Para comprobar si su expectativa es acertada, decidió efectuar una encuesta entre un grupo de 200 electores, de los cuales 70 dijeron tener simpatía por este candidato. Las elecciones se ganan con al menos el 40% de los votos y el candidato participará solo si posee posibilidades de contar con al menos el 40% de los votos. Con respecto a esta situación se han realizado dos afirmaciones: A. Cometer el error tipo II significaría no participar en una elección que pudo haber ganado. B. Cometer el error tipo I significaría gastar muchos recursos en propaganda en una elección que no ganaría. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 11. Las autoridades sanitarias consideran que los recién nacidos procedentes de zonas rurales deberían pesar al menos 2500 gramos al nacer, en promedio. De presentarse una media inferior, valdría la pena implementar un programa para la mejora de la atención prenatal en las zonas rurales. Se decide hacer un estudio por muestreo para valorar esta decisión. Con respecto a esta situación se han realizado dos afirmaciones: A. Cometer el error tipo II significaría un deterioro de las condiciones de salud de una población. B. Cometer el error tipo I significaría destinar recursos a un programa innecesario. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 12. Con respecto al nivel de significancia usado en las pruebas de hipótesis se han realizado dos afirmaciones: A. Generalmente es de 1% o de 5%. B. Representa la posibilidad de aceptar una hipótesis incorrecta. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

230 13. Un contrato laboral exige los operarios realicen una producción diaria no menor de 50 unidades. Una muestra de 150 días de producción revela una media de 47,3 unidades, con una desviación estándar de 5,7 unidades, ¿se cumple con la disposición del contrato? En este problema la hipótesis nula es: (a) La producción media diaria es de 50 unidades. (b) La producción media diaria es menor que 50 unidades. (c) La producción media diaria es de 47,3 unidades. (d) La producción media diaria es mayor que 50 unidades. 14. Un contrato laboral exige los operarios realicen una producción diaria no menor de 50 unidades. Una muestra de 150 días de producción revela una media de 47,3 unidades, con una desviación estándar de 5,7 unidades, ¿se cumple con la disposición del contrato? En este problema la hipótesis alternativa es: (a) La producción media diaria es de 47,3 unidades. (b) La producción media diaria es menor que 50 unidades. (c) La producción media diaria es de 47,3 unidades. (d) La producción media diaria es mayor que 47,3 unidades. 15. En un colegio se estima que, cuando mucho, 25% de los estudiantes se traslada a clases en bicicleta. ¿Parecería esta ser una estimación válida si, en una muestra aleatoria de 180 estudiantes, se encuentra que 60 utilizan este transporte? En este problema la hipótesis nula es: (a) Una proporción de 33,33% de los estudiantes se traslada en bicicleta a clases. (b) Una proporción de 25% de los estudiantes se traslada en bicicleta a clases. (c) Una media de 25% de los estudiantes se traslada en bicicleta a clases. (d) Una proporción mayor que 25% de los estudiantes se traslada en bicicleta a clases. 16. En un colegio se estima que, cuando mucho, 25% de los estudiantes se traslada a clases en bicicleta. ¿Parecería esta ser una estimación válida si, en una muestra aleatoria de 180 estudiantes, se encuentra que 60 utilizan este transporte? En este problema la hipótesis alternativa es: (a) Una proporción de 33,33% de los estudiantes se traslada en bicicleta a clases. (b) Una proporción menor que 33,33% de los estudiantes se traslada en bicicleta a clases. (c) Una media mayor de 25% de los estudiantes se traslada en bicicleta a clases. (d) Una proporción mayor que 25% de los estudiantes se traslada en bicicleta a clases. 17. Con respecto al procedimiento de prueba de hipótesis se han realizado dos afirmaciones: A. La prueba de hipótesis solo indica si la hipótesis es apoyada o no por los datos disponibles. B. Cuando no se rechaza la hipótesis nula, no se dice que sea verdadera, sino que probablemente es verdadera. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

231

18. Con respecto al valor P (que ofrecen la mayoría de los programas de computación como parte de la prueba de hipótesis) se han realizado dos afirmaciones: A. El valor P es la probabilidad de obtener un valor muestral más extremo que el observado cuando la hipótesis nula es falsa. B. El valor P es el menor nivel de significación al que se puede rechazar la hipótesis nula cuando sea verdadera. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 19. Si al realizar una prueba de hipótesis sobre una media de una población, se cuenta con datos de una muestra de 58 observaciones y se conoce el valor de la desviación estándar poblacional, entonces se emplea como estadístico de prueba: x x (a) zc  (b) zc  / n s/ n x  nP x (c) tc  (d) z  nPQ s/ n 20. Si al realizar una prueba de hipótesis sobre una media de una población, se cuenta con datos de una muestra de 17 observaciones y se conoce el valor de la desviación estándar poblacional, entonces se emplea como estadístico de prueba: x x (a) zc  (b) zc  / n s/ n x  nP x (c) tc  (d) z  nPQ s/ n 21. Si al realizar una prueba de hipótesis sobre una media de una población, se cuenta con datos de una muestra de 17 observaciones y no se conoce el valor de la desviación estándar poblacional, entonces se emplea como estadístico de prueba: x x (a) zc  (b) zc  / n s/ n x  nP x (c) tc  (d) z  nPQ s/ n 22. Si al realizar una prueba de hipótesis sobre una media de una población, se cuenta con datos de una muestra de 90 observaciones y no se conoce el valor de la desviación estándar poblacional, entonces se emplea como estadístico de prueba: x x (a) zc  (b) zc  / n s/ n x  nP x (c) tc  (d) z  nPQ s/ n

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

232 23. Si al realizar una prueba de hipótesis sobre una media de una población, se dice que la prueba es de dos colas, entonces es verdadero que la hipótesis alternativa puede ser (donde μ0 es el valor hipotético de la media poblacional): (a) H1: μ > μ0 (b) H1: μ < μ0 (c) H1: μ ≠ μ0 (d) H1: μ = μ0 24. Si al realizar una prueba de hipótesis sobre una media de una población, se sabe que no se rechazó la hipótesis nula, entonces puede ser verdadero que: (a) zc  zt (b) tc  tt (c) tc  tt

(d) Ninguna de las anteriores

25. Si al realizar una prueba de hipótesis sobre una media de una población, se sabe que se rechazó la hipótesis nula, entonces puede ser verdadero que: (a) z c  z t (b) t c  t t (c) z c  z t

(d) Ninguna de las anteriores

26. Si al realizar una prueba de hipótesis sobre una media de una población, se sabe que se rechazó la hipótesis nula, entonces puede ser verdadero que: (a) z c  z t (b) valor P <  (c) tc  tt

(d) valor P > 

27. Si se realiza una prueba de hipótesis de dos colas, con un nivel de significancia del 5%, entonces el valor z crítico es: (a) 2,00 (b) 1,645 (c) 1,28 (d) 1,96 28. Si se realiza una prueba de hipótesis de dos colas, con un tamaño de muestra de 10 observaciones y un nivel de significancia del 5%, entonces el valor t crítico es: (a) 1,96 (b) 2,262 (c) 1,833 (d) 2,228 29. Observe la gráfica:

Con respecto a la gráfica anterior, es falso que: (a) Si zc es –2,56, se rechaza la hipótesis nula. (b) Si zc es –1,88, se acepta la hipótesis nula. (c) Si zc es –3,02, el valor P es menor que el nivel de significancia. (d) Si |zc| es 2,33, se rechaza la hipótesis nula.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

233 30. Observe la gráfica:

Con respecto a la gráfica anterior, es falso que: (a) La prueba es de una cola. (b) El nivel de significancia es 1%. (c) La hipótesis nula puede ser H1: μ < 50. (d) Ninguna de las anteriores. 31. De acuerdo con el Instituto de Estadística y Censos, un hogar típico en nuestro país tiene 3,13 miembros. Una muestra de 25 hogares del área metropolitana presenta un número medio de 2,86 miembros. La desviación estándar de esta muestra era de 1,2 residentes. A un nivel de significancia del 5%, ¿es razonable concluir que el número medio de residentes de esta ciudad es igual a la media nacional? Para este problema, la hipótesis nula es: (a) H0: μ = 2,86 (b) H0: μ = 3,13 (c) H0: μ < 3,13 (d) H0: μ = 1,2 32. De acuerdo con el Instituto de Estadística y Censos, un hogar típico en nuestro país tiene 3,13 miembros. Una muestra de 25 hogares del área metropolitana presenta un número medio de 2,86 miembros. La desviación estándar de esta muestra era de 1,2 residentes. A un nivel de significancia del 5%, ¿es razonable concluir que el número medio de residentes de esta ciudad es igual a la media nacional? Para este problema, la hipótesis alternativa es: (a) H1: μ = 2,86 (b) H1: μ = 3,13 (c) H1: μ < 3,13 (d) H1: μ > 2,86 33. De acuerdo con el Instituto de Estadística y Censos, un hogar típico en nuestro país tiene 3,13 miembros. Una muestra de 25 hogares del área metropolitana presenta un número medio de 2,86 miembros. La desviación estándar de esta muestra era de 1,2 residentes. A un nivel de significancia del 5%, ¿es razonable concluir que el número medio de residentes de esta ciudad es igual a la media nacional? Para este problema, es cierto que: (a) Debe calcularse z porque el tamaño de muestra es menor que 30 y se desconoce σ (b) Debe calcularse z porque el tamaño de muestra es menor que 30 y se conoce σ (c) Debe calcularse t porque el tamaño de muestra es menor que 30 y se desconoce σ (d) Debe calcularse t porque el tamaño de muestra es menor que 30 y se conoce σ 34. De acuerdo con el Instituto de Estadística y Censos, un hogar típico en nuestro país tiene 3,13 miembros. Una muestra de 25 hogares del área metropolitana presenta un número medio de 2,86 miembros. La desviación estándar de esta muestra era de 1,2 residentes. A un nivel de significancia del 5%, ¿es razonable concluir que el número medio de residentes de esta ciudad es igual a la media nacional?

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

234 Para este problema, es cierto que: (a) Es una prueba de una cola porque en la hipótesis nula se emplea el signo < (b) Es una prueba de una cola porque en la hipótesis alternativa se emplea el signo < (c) Es una prueba de una cola porque en la hipótesis alternativa se emplea el signo ≠ (d) Es una prueba de dos colas porque en la hipótesis alternativa se emplea el signo < 35. De acuerdo con el Instituto de Estadística y Censos, un hogar típico en nuestro país tiene 3,13 miembros. Una muestra de 25 hogares del área metropolitana presenta un número medio de 2,86 miembros. La desviación estándar de esta muestra era de 1,2 residentes. A un nivel de significancia del 5%, ¿es razonable concluir que el número medio de residentes de esta ciudad es igual a la media nacional? Para este problema, el valor del estadístico de prueba es: (a) z = –1,13 (b) t = –1,13 (c) t = 1,711 (d) Ninguna de las anteriores 36. De acuerdo con el Instituto de Estadística y Censos, un hogar típico en nuestro país tiene 3,13 miembros. Una muestra de 25 hogares del área metropolitana presenta un número medio de 2,86 miembros. La desviación estándar de esta muestra era de 1,2 residentes. A un nivel de significancia del 5%, ¿es razonable concluir que el número medio de residentes de esta ciudad es igual a la media nacional? Para este problema, al calcular el valor tabular crítico para hacer la prueba es cierto que: (a) Los grados de libertad son 25 (b) Los grados de libertad son 24 (c) Los grados de libertad son 26 (d) No se necesita determinar los grados de libertad 37. De acuerdo con el Instituto de Estadística y Censos, un hogar típico en nuestro país tiene 3,13 miembros. Una muestra de 25 hogares del área metropolitana presenta un número medio de 2,86 miembros. La desviación estándar de esta muestra era de 1,2 residentes. A un nivel de significancia del 5%, ¿es razonable concluir que el número medio de residentes de esta ciudad es igual a la media nacional? Para este problema, el valor tabular crítico para hacer la prueba es: (a) z = –1,645 (b) t = 1,711 (c) t = –1,711 (d) t = 2,064 38. De acuerdo con el Instituto de Estadística y Censos, un hogar típico en nuestro país tiene 3,13 miembros. Una muestra de 25 hogares del área metropolitana presenta un número medio de 2,86 miembros. La desviación estándar de esta muestra era de 1,2 residentes. A un nivel de significancia del 5%, ¿es razonable concluir que el número medio de residentes de esta ciudad es igual a la media nacional? Para este problema, al hacer la prueba es verdadero que: (a) Se acepta la hipótesis nula porque tc < tt (b) Se acepta la hipótesis nula porque |tc| < |tt| (c) Se rechaza la hipótesis nula porque tc > tt (d) Se acepta la hipótesis nula porque |zc|< |zt|

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

235 39. De acuerdo con el Instituto de Estadística y Censos, un hogar típico en nuestro país tiene 3,13 miembros. Una muestra de 25 hogares del área metropolitana presenta un número medio de 2,86 miembros. La desviación estándar de esta muestra era de 1,2 residentes. A un nivel de significancia del 5%, ¿es razonable concluir que el número medio de residentes de esta ciudad es igual a la media nacional? Para este problema, al hacer la prueba se puede concluir, con respecto al tamaño medio de los hogares del área metropolitana, que: (a) El tamaño medio es 2,86 miembros (b) El tamaño medio es 3,13 miembros (c) No hay evidencia suficiente para decir que el tamaño medio es menor que 3,13 miembros (d) Hay evidencia suficiente para decir que el tamaño medio es menor que 3,13 miembros

Respuestas a los ejercicios de selección única: 1. b 6. b 11. a 16. d 21. c 26. b 31. b 36. b

2. a 7. c 12. a 17. a 22. b 27. d 32. c 37. c

3. b 8. a 13. a 18. d 23. c 28. b 33. d 38. b

4. c 9. a 14. b 19. a 24. c 29. d 34. b 39. c

5. d 10. c 15. b 20. a 25. a 30. d 35. b

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

236

11

.

Pruebas de hipótesis para la diferencia de dos medias o proporciones poblacionales OBJETIVOS: Al concluir el capítulo, será capaz de: 1. Identificar los distintos tipos de problemas para la diferencia de dos medias poblacionales 2. Aplicar el procedimiento de prueba de hipótesis para problemas de medias de dos poblaciones independientes con distintos tamaños de muestra 3. Aplicar el procedimiento de prueba de hipótesis para problemas de medias con datos apareados 4. Aplicar el procedimiento de prueba de hipótesis para problemas de diferencia de dos proporciones

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

237

Ejemplo

Una empresa posee operaciones en dos países distintos y en cada país posee una planta de producción. En uno de los países se tienen 2000 empleados y en el otro 3000. En ambas plantas se realizan los mismos procesos, pero se ha observado que, según algunos datos muestrales, la productividad de los operarios tiende a ser mayor en uno de los países que en el otro. Los datos recopilados se muestran en la tabla (la media y la desviación estándar se expresan en número de unidades producidas correctamente por hora): Tamaño de muestra n 40 50

Planta de producción En el país 1 En el país 2

Desviación estándar  3,1 4,2

Media x 22 31

Determine, a un nivel de significación del 5%, si se presenta diferencia entre los dos promedios.

Solución

Se tiene que n1 = 40, n2 = 50, x1 = 22, x 2 = 31, σ1 = 3,1 y σ2 = 4,2. El ejercicio busca determinar si existe diferencia, por lo que se tendrá que probar si δ = 0. Además, se indica que α = 0,05. Entonces, se plantea la hipótesis nula como: H0: μ1 – μ2 = 0 Como x1 = 22 < x 2 = 31, entonces se formula la hipótesis alternativa como: H1: μ1 – μ2 < 0 Se usa Z porque aunque las desviaciones estándar poblacionales son desconocidas, se tienen muestras grandes (n ≥ 30):

z

( x1  x 2 )  



2 1

n1





2 2

n2



(22  31)  0 3,12 4,2 2  40 50

 11,69

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

238 De la tabla normal con un nivel de significación del 5% se obtiene Zα = 1,645. El valor de Z calculado con la fórmula es menor que el Zα por lo tanto cae en la zona de rechazo de la hipótesis nula. Se concluye que se rechaza Ho con α = 0,05. Se puede decir que existe evidencia suficiente para creer que la productividad en el primer país es menor que en el segundo.

Ejemplo

Un vendedor de equipo tecnológico quiere determinar si hay diferencias en el consumo de este tipo de productos por parte de entre los profesionales en ciencias económicas y profesionales en ingeniería, pues ha tenido muy buena experiencia vendiendo equipos para el primer profesional mencionado. Seleccionó una muestra al azar de 80 profesionales en ciencias económicas y 70 ingenieros, encontrando que los primeros gastaron un promedio de $1.250 en productos tecnológicos durante el último año, con una desviación estándar de $400. Los ingenieros gastaron en promedio $980, con una desviación estándar de $620. ¿Existe diferencia significativa, al 1% de significancia entre ambas poblaciones?

Solución

En esta situación se tienen los datos para los dos grupos de profesionales, las cuales se pueden resumir del modo siguiente:

Grupo Tamaño de muestra Promedio Desviación estándar

1 Ciencias económicas 80 $1.250 $400

2 Ingeniería 70 $980 $620

Se plantean la hipótesis nula como la igual de las dos medias, o sea, que la diferencia es cero: H0: μ1 – μ2 = 0 También podrían plantearse la hipótesis nula como: H0: μ1 = μ2 De acuerdo con la evidencia de la muestra, el promedio para los profesionales en ciencias económicas es mayor, por lo que la hipótesis alternativa podría plantearse como: H1: μ1 > μ2 Así, las hipótesis serían: H0: μ1 = μ2

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

239 H1: μ1 > μ2 Dado que se cuenta con tamaños de muestra superiores a 30 unidades, y se conocen las desviaciones estándares poblacionales, entonces se aplica el estadístico de prueba z:

z

( x1  x 2 )  

 12 n1



 22 n2



(1250  980)  0 400 2 620 2  80 70

 3,12

La prueba se realiza a un nivel de significancia del 1%, por lo que de la tabla de la curva normal estándar se obtiene zt = 2,33. Dado que el valor crítico | zc | = 3,12 es mayor que | zt | = 2,33, entonces se rechaza la hipótesis nula. Se concluye que a un nivel de significancia del 1% existe evidencia suficiente para considerar que el consumo de productos tecnológicos por parte de entre los profesionales en ciencias económicas es mayor que el de los profesionales en ingeniería.

Ejercicio de revisión

Un analista de inversiones requiere asesorar a un cliente con respecto a los riesgos de invertir en las acciones de dos compañías distintas llamadas MuchMoney y VeryRich. Para ello toma una muestra de 40 variaciones diarias en los precios de MuchMoney y obtiene un promedio de $2,8 con una desviación estándar de $1,2; y una muestra de 50 variaciones diarias de los precios de VeryRich, las cuales dan una media de $3,5 con una desviación estándar de $1,8. ¿Es esta evidencia suficiente para considerar que el comportamiento de ambas acciones es el mismo o son diferentes? Solución: Se tiene que n1 = 40, n2 = 50, x1 = 2,8, x 2 = 3,5, σ1 = 1,2 y σ2 = 1,8. El ejercicio busca determinar si existe diferencia, por lo que se tendrá que probar si δ = 0. Se tomará α = 0,05. Entonces, se plantea la hipótesis nula como: H0: μ1 – μ2 = 0 Como x1 = 2,8 < x 2 = 3,5, entonces se formula la hipótesis alternativa como: H1: μ1 – μ2 < 0 Se usa Z porque aunque las desviaciones estándar poblacionales son

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

240 desconocidas, se tienen muestras grandes (n ≥ 30):

z

( x1  x 2 )  



2 1

n1





2 2

n2



(2,8  3,5)  0 1,2 2 1,8 2  40 50

 2,20

De la tabla normal con un nivel de significación del 5% se obtiene Zα = 1,645. El valor de Z calculado con la fórmula es, en valor absoluto, mayor que el Zα por lo tanto cae en la zona de rechazo de la hipótesis nula. Se concluye que se rechaza Ho con α = 0,05. Se puede decir que existe evidencia suficiente para creer que el comportamiento de ambas acciones no es el mismo.

Uso de Minitab para realizar la prueba de dos medias

Ejemplo

Utilice Minitab para resolver el problema: Un vendedor de equipo tecnológico quiere determinar si hay diferencias en el consumo de este tipo de productos por parte de entre los profesionales en ciencias económicas y profesionales en ingeniería, pues ha tenido muy buena experiencia vendiendo equipos para el primer profesional mencionado. Seleccionó una muestra al azar de 80 profesionales en ciencias económicas y 70 ingenieros, encontrando que los primeros gastaron un promedio de $1.250 en productos tecnológicos durante el último año, con una desviación estándar de $400. Los ingenieros gastaron en promedio $980, con una desviación estándar de $620. ¿Existe diferencia significativa, al 1% de significancia entre ambas poblaciones?

Solución

En esta situación se tienen los datos para los dos grupos de profesionales, las cuales se pueden resumir del modo siguiente:

Grupo Tamaño de muestra Promedio Desviación estándar

1 Ciencias económicas 80 $1.250 $400

2 Ingeniería 70 $980 $620

Se plantean la hipótesis nula y la hipótesis alternativa: H0: μ1 = μ2 H1: μ1 > μ2 Dado que se cuenta con tamaños de muestra superiores a 30 unidades, y se conocen las desviaciones estándares poblacionales, entonces se aplica el estadístico de prueba z, pero en Minitab no aparece en el menú Estadísticas

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

241 / Estadística básica una prueba "z de 2 muestras", sino que solo aparece "t de 2 muestras". Sin embargo, la distribución normal y la distribución t convergen conforme se incrementa el tamaño de la muestra, por lo que usando el menú "t de 2 muestras" se obtendrán resultados bastante aproximados. Entonces, se da clic al menú Estadísticas, luego Estadística básica y se selecciona t de 2 muestras, y se completa el cuadro de diálogo siguiente:

En el cuadro anterior se marcó la opción datos resumidos, pues ya se cuenta con los cálculos de la media y la desviación estándar en cada caso. En el botón opciones se indica el nivel de confianza, que en este caso sería de 99%, pues la significancia es de 1%. La diferencia de la prueba es cero, ya que se prueba la hipótesis nula de que ambas medias son iguales. Y la hipótesis alternativa corresponde a que la primera media es mayor que la segunda, por lo que se indica "mayor que":

Después se da clic en Aceptar, y luego Aceptar en el primer cuadro de diálogo, y en la ventana Sesión se obtiene:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

242

Se observa el valor de T = 3,12, que en este caso es igual al valor calculado de z, y además se cuenta con el valor P = 0,001. Por cualquiera de los dos criterios se rechaza la hipótesis nula.

Ejemplo

Una empresa desea capacitar en gestión de proyectos a todos sus profesionales. Una muestra de 15 empleados realizó la capacitación y efectuaron la prueba para obtener la certificación en dicho tema. De los 15 colaboradores que hicieron, 9 la realizaron en modalidad presencial (asistiendo a clases) y 6 la efectuaron en línea (a través de internet). La tabla muestra los resultados obtenidos en la prueba final de cada curso. Presencial En línea

79 70

88 80

54 72

81 52

73 70

56 61

79

64

58

El departamento de recursos humanos desea saber si una modalidad de estudio es más efectiva que la otra. Utilice un nivel de significación del 5%.

Solución

Se tienen los datos: Modalidad presencial: n1 = 9, x1 = 70,2, s1 = 12,5 Modalidad en línea: n2 = 6, x 2 = 67,50, s2 = 9,71 Además, α = 0,05. Como no se especifica el valor de la diferencia, puede suponerse que va a ser cero, por lo que δ = 0. Además como x1 > x 2 , se plantean las hipótesis como: H0: μ1 – μ2 = 0 H1: μ1 – μ2 > 0 También, podrían plantearse las hipótesis como:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

243 H0: μ1 = μ2 H1: μ1 > μ2 Debido a que las desviaciones estándar poblacionales son desconocidas y se tienen muestras pequeñas (n < 30) se usa t. Para esto se supone que las poblaciones son normales y que σ1 = σ2. Se calcula: 2 2 (n1  1) s12  (n2  1) s 22 (9  1)12,5  (6  1)9,71     132,42 n1  n2  2 962 2

Luego se calcula t:

t

( x1  x 2 )  



2

n1





2



n2

(70,2  67,5)  0 132,42 132,42  9 6

 0,45

Aplicando la distribución t: gl = n1 + n2 –2 = 9 + 6 – 2 = 13 Entonces de la tabla con α = 0,05, se obtiene tα = 1,771. El valor de t calculado con la fórmula es menor que el tα, por lo tanto, cae en la zona de aceptación de la hipótesis nula. Se acepta Ho con α = 0,05. Se puede decir que la diferencia entre los promedios de ambas modalidades de estudio no es estadísticamente significativa.

Ejemplo

Los datos corresponden a los tiempos, en minutos, requeridos por una muestra de empleados de dos departamentos distintos de una empresa en un simulacro de evacuación de las instalaciones, esto como parte de la preparación que se realiza ante eventuales situaciones de emergencia, como terremotos o incendios. Depto. 1 Depto. 2

5 4

3 2

4 5

1 4

3 6

4 3

9 2

2

Se desea saber a un nivel de significación del 5% si la diferencia de los tiempos promedio de los dos grupos es significativa.

Solución

Se tienen los datos: n1 = 8, x1 = 3,875, s1 = 2,416, n2 = 7, x 2 = 3,714, s2 = 1,496, α = 0,05. Como no se especifica el valor de la diferencia, puede suponerse que va a ser cero, por lo que δ = 0. Además como x1 > x 2 , se plantean las hipótesis como: H0: μ1 = μ2

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

244 H1: μ1 > μ2 Debido a que las desviaciones estándar poblacionales son desconocidas y se tienen muestras pequeñas (n < 30) se usa t. Para esto se supone que las poblaciones de los tiempos son normales y que σ1 = σ2. Se calcula: 2 2 (n1  1) s12  (n2  1) s 22 (8  1)2,416  (7  1)1,496     4,176 n1  n2  2 872 2

Luego se calcula t:

t

( x1  x 2 )  

2 n1



2 n2



(3,875  3,714)  0 4,176 4,176  8 7

 0,152

Aplicando la distribución t: gl = n1 + n2 –2 = 8 + 7 – 2 = 13 Entonces tα = 1,771 de la tabla con α = 0,05. El valor de t calculado con la fórmula es menor que el tα, por lo tanto, cae en la zona de aceptación de la hipótesis nula. Se acepta Ho con α = 0,05. Se puede decir que la diferencia entre los promedios de los tiempos de evacuación de los dos departamentos no es estadísticamente significativa.

Ejercicio de revisión

Un investigador desea determinar si la tasa de mortalidad anestésica se ha incrementado en los hospitales del país durante el último año. Toma una muestra de 15 casos de pacientes anestesiados durante este último mes, de los cuales fallecieron por anestesia dos de ellos, y una muestra de 13 casos de pacientes anestesiados para el mismo mes del año pasado, y los registros indican que falleció solamente uno. ¿Son estos datos evidencia suficiente para concluir que la mortalidad anestésica se ha incrementado? Use un nivel de significancia del 1%. Solución: Se cuenta con la siguiente información: Último mes este año: p1 = 2/15 = 0,1333 Mismo mes año anterior: p2 = 1/13 = 0,0769 Entonces se calcula p:

p

p1  p 2 2 1   0,1071 n1  n2 15  13

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

245

q = 1 – 0,1071 = 0,8929 Se plantean las hipótesis: Ho: p1 = p2 H1: p1 > p2 Luego se calcula z:

zc 

p1  p 2 1 1 pq   n1 n2

  



0,1333  0,0769 1 1 0,1071  0,8929    15 13 

 0,4814

De la tabla se obtiene Zα/2 = 2,33. El valor de Zc cae en la zona de aceptación de H0, por lo tanto se acepta H0 con α = 0,01. La diferencia no es estadísticamente significativa, es decir, estos datos no apoyan la afirmación de que la tasa de mortalidad anestésica se ha incrementado en los hospitales del país durante el último año.

Uso de Minitab para realizar la prueba de dos medias con n pequeña

Ejemplo

Utilice Minitab para resolver el problema: Los datos corresponden a los tiempos, en minutos, requeridos por una muestra de empleados de dos departamentos distintos de una empresa en un simulacro de evacuación de las instalaciones, esto como parte de la preparación que se realiza ante eventuales situaciones de emergencia, como terremotos o incendios. Depto. 1 Depto. 2

5 4

3 2

4 5

1 4

3 6

4 3

9 2

2

Se desea saber a un nivel de significación del 5% si la diferencia de los tiempos promedio de los dos grupos es significativa.

Solución

Primero que todo se introducen los datos en columnas de la hoja de trabajo de Minitab:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

246

Resulta útil calcular cada una de las medias, para saber que x1 = 3,875 y que x 2 = 3,714, y se plantean las hipótesis como: H0: μ1 = μ2 H1: μ1 > μ2 Debido a que las desviaciones estándar poblacionales son desconocidas y se tienen muestras pequeñas (n < 30) se usa t. Para esto se da clic en el menú Estadísticas / Estadística básica / t de 2 muestras, y se completa el cuadro de diálogo siguiente:

En el cuadro de diálogo anterior se marca la opción de Muestras en diferentes columnas, pues los datos de cada departamento se introdujeron en una columna separada. Además es necesario marcar la casilla Asumir varianza iguales. Luego en el botón opciones se indica el nivel de confianza, que sería de 95%, la diferencia de la prueba, que es cero, y el signo de la hipótesis alternativa, que es mayor que:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

247

Al dar clic en Aceptar se obtiene en la ventana Sesión la solución siguiente:

Se observa que el valor calculado de t es 0,15, menor que el tα, por lo tanto, cae en la zona de aceptación de la hipótesis nula. O bien, se usa el valor P = 0,441. Se acepta Ho con α = 0,05. Se puede decir que la diferencia entre los promedios de los tiempos de evacuación de los dos departamentos no es estadísticamente significativa.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

248

Ejemplo

Los empleados de un departamento de una empresa han realizado un simulacro de evacuación de las instalaciones, esto como parte de la preparación que se realiza ante eventuales situaciones de emergencia, como terremotos o incendios, y se obtuvo, en una muestra de 8 empleados un tiempo medio de evacuación de 5,25 minutos. Se considera que ese tiempo es muy alto, por lo que se implementa un plan para informar al personal sobre los planes de emergencias de la empresa. Luego de estas medidas se vuelve a realizar el simulacro, y los mismos 8 empleados promedian 4,5 minutos. La tabla muestra los tiempos antes y después de las medidas implementadas. Aunque se presenta una mejora, existe la duda de si esa diferencia es significativa estadísticamente. Antes Después

7 5

4 3

5 5

3 4

4 6

5 4

10 6

4 3

Se desea saber a un nivel de significación del 5% si la diferencia de los tiempos promedio es significativa.

Solución

Primero se calculan las diferencias, di, entre el "antes" y el "después" para cada una de las observaciones, o sea, se resta el dato "antes" menos el dato "después": Antes Después Diferencia

7 5 2

4 3 1

5 5 0

3 4 -1

4 6 -2

5 4 1

10 6 4

4 3 1

Con estas diferencias se calcula la media de las diferencias y su desviación estándar: x d = 0,75 sd = 1,832

Se plantean las hipótesis: Ho: μd = 0 H1: μd > 0 Se calcula t:

t

xd sd

n



0,75 1,832

8

 1,158

Se tienen gl = n –1 = 8 – 1 = 7, con α = 0,05, con una cola, por lo que, de la tabla, tα = 1,895. El valor de t calculado es menor que el tα, por lo tanto, cae en la zona de aceptación de la hipótesis nula. Se rechaza Ho con α = 0,05. Se puede decir que las medidas implementadas no han sido efectivas.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

249

Ejemplo

La tabla muestra las cantidades producidas por hora elaboradas por 8 operarios antes de recibir un entrenamiento y las cantidades producidas luego de la misma. Antes Después

8 6

8 10

9 7

6 11

9 9

7 12

12 14

12 8

Pruebe la afirmación de que la capacitación ha sido efectiva, al nivel de significancia de 0,05.

Solución

Primero se calculan las diferencias, di: 2, –2, –2, –5, 0, –5, –2, 4. Con estas diferencias se calcula: x d = –0,75 y sd = 3,33. Se plantean las hipótesis: Ho: μd = 0 H1: μd < 0 Se calcula t:

t

xd sd

n



 0,75 3,33

8

 0,637

Se tienen gl = n –1 = 8 – 1 = 7, con α = 0,05, por lo que, de la tabla de la distribución t se obtiene tα = 1,895. El valor de t calculado, en valor absoluto, es menor que el tα, por lo tanto, cae en la zona de aceptación de la hipótesis nula. Se acepta Ho con α = 0,05. Se puede decir que no hay evidencia estadística suficiente para concluir que el entrenamiento ha sido efectivo.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

250

Ejercicio de revisión

Un ingeniero desea probar la hipótesis de que los neumáticos para automóviles fabricados en el país son de tanta calidad como los importados. Con este fin toma una muestra de 7 vehículos los cuales serán acelerados hasta 100 km/h y luego serán frenados en seco y en cada caso se medirá la distancia de frenado. La prueba será aplicada a los mismos 7 vehículos, primero con los neumáticos nacionales y luego con los importados. Después de realizar las pruebas se obtuvieron los siguientes datos (distancias de frenado en metros): Automóvil Neumático nacional Neumático importado

1 142 140

2 138 139

3 144 142

4 146 139

5 150 141

6 137 137

7 141 135

Pruebe la hipótesis al 5% de significancia. Solución: Primero se calculan las diferencias, di: 2, –1, 2, 7, 9, 0, 6. Con estas diferencias se calcula: x d = 3,57 y sd = 3,78. Se plantean las hipótesis: Ho: μd = 0 H1: μd > 0 Se calcula t:

t

xd sd

n



3,57  2,5 3,78 7

Se tienen gl = n –1 = 7 – 1 = 6, con α = 0,05, por lo que, de la tabla de la distribución t se obtiene tα = 1,943. El valor de t calculado, en valor absoluto, es mayor que el tα, por lo tanto, cae en la zona de rechazo de la hipótesis nula. Se rechaza Ho con α = 0,05. Se puede decir que hay evidencia estadística suficiente para concluir que la distancia de frenado de los neumáticos para automóviles fabricados en el país es mayor que la de los importados.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

251

Uso de Minitab para realizar la prueba con observaciones pareadas

Ejemplo

Utilice Minitab para resolver el siguiente problema. La tabla muestra las cantidades producidas por hora elaboradas por 8 operarios antes de recibir un entrenamiento y las cantidades producidas luego de la misma. Antes Después

8 6

8 10

9 7

6 11

9 9

7 12

12 14

12 8

Pruebe la afirmación al nivel de 0,05, de que la capacitación ha sido efectiva.

Solución

En Minitab lo primero que se realiza es la introducción de los datos en dos columnas distintas de la hoja de trabajo:

Se plantean las hipótesis: Ho: μd = 0 H1: μd < 0 Para esto se da clic en el menú Estadísticas / Estadística básica / t pareada, y se completa el cuadro de diálogo siguiente, indicando en Muestras en columnas las columnas en que se hallan los datos:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

252

En el botón Opciones se indica la diferencia de la prueba, que en este caso es cero, y el signo de la prueba, que es el menor que de la hipótesis alternativa:

Luego se da clic en Aceptar y Minitab da el resultado en la ventana Sesión:

En esta salida se observa el valor de t calculado de -0,64, que es necesario comparar con el valor t tabular. También se puede hacer la prueba empleando el valor P = 0,272. En cualquier caso, se acepta Ho con α = 0,05. Se puede decir que no hay evidencia estadística suficiente para concluir que el entrenamiento ha sido efectivo.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

253

Ejemplo

Un investigador en el área de tecnología quiere determinar si hay diferencias en el uso de las redes sociales en internet entre hombres y mujeres. Para este fin toma una muestra de 40 hombres y 50 mujeres, y obtuvo que de ellos 28 hombres empleaban a diario al menos una de estas redes y 25 mujeres también usaban a diario al menos una de las redes. Con base en esos datos y a un nivel de significancia de 5%, ¿puede concluirse que existe diferencia significativa entre hombres y mujeres e n cuanto a su frecuencia de uso de las redes sociales en internet?

Solución

Se cuenta con la siguiente información: Hombres: p1 = 28/40 = 0,70 Mujeres: p2 = 25/50 = 0,50 Se plantean las hipótesis: Ho: p1 = p2 H1: p1 > p2 Primero se calculan p y q:

p1  p 2 28  25   0,59 n1  n2 40  50

p

q = 1 – 0,5889 = 0,41 Luego se calcula z: z

p1  p 2 1 1  pq    n1 n2 



0,70  0,50 1   1 0,59  0,41    40 50 

 1,92

De la tabla se obtiene Zα/2 = 1,96. Como puede verse en el gráfico, el valor de Zc cae en la zona de aceptación de H0, por lo tanto se acepta H0 con α = 0,05. La diferencia no es estadísticamente significativa. La proporción de hombres que emplea a diario las redes sociales en internet no es significativamente diferente de la proporción de mujeres que realizan esta actividad.

Ejemplo

En un lote de 500 piezas fabricadas esta semana en una línea de ensamblado se obtuvieron 18 con defectos. En otro lote de 400 piezas tomadas de otra línea de ensamblado se obtuvieron 25 defectuosas. Determine si las líneas producen la misma proporción de piezas con defectos, al nivel de significación de 5%.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

254

Solución

Se cuenta con la siguiente información: p1 = 18/500 = 0,036 p2 = 25/400 = 0,0625 Entonces se calcula p:

p

p1  p 2 18  25   0,0478 n1  n2 500  400 q = 1 – 0,0478 = 0,9522

Se plantean las hipótesis: Ho: p1 = p2 H1: p1 ≠ p2 Luego se calcula z: zc 

p1  p 2 1 1 pq   n1 n2

  



0,036  0,0625 1   1 0,0478  0,9522    500 400 

 1,852

De la tabla se obtiene Zα/2 = 1,96. El valor de Zc cae en la zona de aceptación de H0, por lo tanto se acepta H0 con α = 0,05. La diferencia no es estadísticamente significativa. La proporción de piezas con defectos mayores es igual en las dos líneas de ensamble.

Ejercicio de revisión

Un investigador cree que las mujeres emplean la tarjeta de crédito más que los hombres. Para probar su hipótesis toma una muestra de 90 mujeres y encuentra que 64 de ellas emplea regularmente la tarjeta de crédito. Por otro lado, una muestra de 120 hombres arrojó que 76 empleaban la tarjeta de crédito con regularidad. ¿Tiene razón el investigador? Utilice un nivel de significancia del 1%. Solución: Se cuenta con la siguiente información: Mujeres: p1 = 64/90 = 0,7111 Hombres: p2 = 76/120 = 0,6333 Entonces se calcula p:

p

p1  p 2 64  76   0,6667 n1  n2 90  120

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

255 q = 1 – 0,6667 = 0,3333 Se plantean las hipótesis: Ho: p1 = p2 H1: p1 > p2 Luego se calcula z:

zc 

p1  p 2 1 1  pq    n1 n2 



0,7111  0,6333 1   1 0,6667  0,3333    90 120 

 1,18

De la tabla se obtiene Zα/2 = 2,33. El valor de Zc cae en la zona de aceptación de H0, por lo tanto se acepta H0 con α = 0,01. La diferencia no es estadísticamente significativa, es decir, no apoya la afirmación de que las mujeres emplean la tarjeta de crédito más que los hombres.

Uso de Minitab para la prueba de dos proporciones

Ejemplo

Utilice Minitab para resolver el problema siguiente: En un lote de 500 piezas fabricadas esta semana en una línea de ensamblado se obtuvieron 18 con defectos. En otro lote de 400 piezas tomadas de otra línea de ensamblado se obtuvieron 25 defectuosas. Determine si las líneas producen la misma proporción de piezas con defectos, al nivel de significación de 5%.

Solución

Se cuenta con la siguiente información: p1 = 18/500 = 0,036 p2 = 25/400 = 0,0625 Entonces, se plantean las hipótesis: Ho: p1 = p2 H1: p1 ≠ p2 Ahora se da clic en el menú Estadísticas / Estadística básica / 2 proporciones, y se completa el cuadro de diálogo siguiente, indicando en Datos resumidos los valores correspondientes:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

256

Luego en el botón Opciones se indica el nivel de confianza, el signo de la prueba (mayor, menor o diferente en la hipótesis alternativa) y se debe marcar la casilla Utilice el cálculo agrupado de p para la prueba:

Después se da clic en Aceptar y la salida se obtiene en la ventana sesión:

Se observa el valor de z de -1,85, que cae en la zona de aceptación de H0, o bien, se emplear el valor P = 0,064, que es mayor que el nivel de significancia de 0,05. Por lo tanto, se acepta concluye que la diferencia en la proporción de piezas con defectos mayores no es estadísticamente significativa.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

257

Examen del capítulo: En cada caso seleccione la opción que mejor contesta cada pregunta (las respuestas a los ejercicios se encuentran en la página de internet del texto: ). 1. Considere la siguiente situación: El gerente de producción de una fábrica considera que los operarios que realizan tareas repetitivas son más productivos cuando oyen música empleando algún aparato con audífonos. El gerente de producción de otra empresa no cree que la música genere ese efecto positivo. Para determinar quién tiene la razón se tomó una muestra de empleados de la primera empresa, que oyen música, y se midió su productividad. También se tomó una muestra de empleados de la segunda empresa, que no oyen música, y se midió la productividad empleando los mismos métodos que en la primera empresa. En un problema como este, la hipótesis nula se podría expresar como, si μ1 es la productividad media en la primera empresa y μ2 es la productividad media en la segunda empresa: (a) H1: μ1 = μ2 (b) H0: μ1 > μ2 (c) H0: μ1 - μ2 = 0 (d) H0: μ1  μ2 2. Considere la siguiente situación: El gerente de producción de una fábrica considera que los operarios que realizan tareas repetitivas son más productivos cuando oyen música empleando algún aparato con audífonos. El gerente de producción de otra empresa no cree que la música genere ese efecto positivo. Para determinar quién tiene la razón se tomó una muestra de empleados de la primera empresa, que oyen música, y se midió su productividad. También se tomó una muestra de empleados de la segunda empresa, que no oyen música, y se midió la productividad empleando los mismos métodos que en la primera empresa. En un problema como este, la hipótesis alternativa se podría expresar como, si μ1 es la productividad media en la primera empresa y μ2 es la productividad media en la segunda empresa: (a) H0: μ1 > μ2 (b) H1: μ1 - μ2 > 0 (c) H1: μ1 = μ2 (d) H1: μ1  μ2 3. Considere la siguiente situación: El gerente de producción de una fábrica considera que los operarios que realizan tareas repetitivas son más productivos cuando oyen música empleando algún aparato con audífonos. El gerente de producción de otra empresa no cree que la música genere ese efecto positivo. Para determinar quién tiene la razón se tomó una muestra de empleados de la primera empresa, que oyen música, y se midió su productividad. También se tomó una muestra de empleados de la segunda empresa, que no oyen música, y se midió la productividad empleando los mismos métodos que en la primera empresa. En este problema, si las muestras son grandes y las varianzas poblacionales conocidas, se emplea el siguiente estadístico de prueba: xd ( x  x2 )   (a) t  1 (b) t  2 2 sd n    n1 n2 (c) z 

p1  p 2 1 1 pq   n1 n2

  

(d) z 

( x1  x 2 )  

 12 n1



 22 n2

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

258 4. Considere la siguiente situación: El gerente de producción de una fábrica considera que los operarios que realizan tareas repetitivas son más productivos cuando oyen música empleando algún aparato con audífonos. El gerente de producción de otra empresa no cree que la música genere ese efecto positivo. Para determinar quién tiene la razón se tomó una muestra de empleados de la primera empresa, que oyen música, y se midió su productividad. También se tomó una muestra de empleados de la segunda empresa, que no oyen música, y se midió la productividad empleando los mismos métodos que en la primera empresa. En este problema, si las muestras son pequeñas y las varianzas poblacionales desconocidas, se emplea el siguiente estadístico de prueba: xd ( x  x2 )   (a) t  1 (b) t  sd n 2 2  n1 n2 (c) z 

p1  p 2 1 1  pq    n1 n2 

(d) z 

( x1  x 2 )  

 12 n1



 22 n2

5. Considere la siguiente situación: El gerente de producción de una fábrica considera que los operarios que realizan tareas repetitivas son más productivos cuando oyen música empleando algún aparato con audífonos. El gerente de producción de otra empresa no cree que la música genere ese efecto positivo. Para determinar quién tiene la razón se tomó una muestra de 50 empleados de la primera empresa y se obtuvo una productividad media de 40 unidades elaboradas por hora por operario. Se tomó una muestra de 60 empleados de la segunda empresa y se obtuvo una productividad media de 36 unidades elaboradas por hora. Se conoce que las desviaciones estándar poblacionales son de 8 y 12 unidades por hora para la primera y la segunda empresa, respectivamente. Con base en estos datos se puede calcular el estadístico de prueba: (a) z = 2,09 (b) z = 1,96 (c) t = 2,09 (d) Ninguna de las anteriores 6. Considere la siguiente situación: El gerente de producción de una fábrica considera que los operarios que realizan tareas repetitivas son más productivos cuando oyen música empleando algún aparato con audífonos. El gerente de producción de otra empresa no cree que la música genere ese efecto positivo. Para determinar quién tiene la razón se tomó una muestra de 50 empleados de la primera empresa y se obtuvo una productividad media de 40 unidades elaboradas por hora por operario. Se tomó una muestra de 60 empleados de la segunda empresa y se obtuvo una productividad media de 36 unidades elaboradas por hora. Se conoce que las desviaciones estándar poblacionales son de 8 y 12 unidades por hora para la primera y la segunda empresa, respectivamente. En este problema, el valor crítico o tabular para hacer la prueba es, al 5% de significancia: (a) z = 2,09 (b) z = 1,645 (c) t = 1,96 (d) Ninguna de las anteriores 7. Considere la siguiente situación: El gerente de producción de una fábrica considera que los operarios que realizan tareas repetitivas son más productivos cuando oyen música empleando algún aparato con audífonos. El gerente de producción de otra empresa no cree que la música genere ese efecto positivo. Para determinar quién tiene la razón se tomó una muestra de 50 empleados de la primera empresa y se obtuvo una productividad media de 40 unidades elaboradas por hora por operario. Se tomó una muestra de 60 empleados de la segunda

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

259 empresa y se obtuvo una productividad media de 36 unidades elaboradas por hora. Se conoce que las desviaciones estándar poblacionales son de 8 y 12 unidades por hora para la primera y la segunda empresa, respectivamente. En este problema, es correcto que, al 5% de significancia: (a) Se rechaza la hipótesis alternativa porque |zc| > |zt| (b) Se acepta la hipótesis nula porque |zc| > |zt| (c) Se rechaza la hipótesis nula porque |zc| > |zt| (d) Ninguna de las anteriores 8. Considere la siguiente situación: El gerente de producción de una fábrica considera que los operarios que realizan tareas repetitivas son más productivos cuando oyen música empleando algún aparato con audífonos. El gerente de producción de otra empresa no cree que la música genere ese efecto positivo. Para determinar quién tiene la razón se tomó una muestra de 50 empleados de la primera empresa y se obtuvo una productividad media de 40 unidades elaboradas por hora por operario. Se tomó una muestra de 60 empleados de la segunda empresa y se obtuvo una productividad media de 36 unidades elaboradas por hora. Se conoce que las desviaciones estándar poblacionales son de 8 y 12 unidades por hora para la primera y la segunda empresa, respectivamente. Al realizar la prueba de hipótesis el gerente de la primera empresa indica que "hay evidencia muestral suficiente para considerar que la música sí tiene efecto positivo sobre la productividad", y el gerente de la segunda empresa expresa que "la evidencia muestral señala que la diferencia entre las productividades medias entre las dos empresas es significativa". Con respecto a estas dos afirmaciones, es correcto que, al 5% de significancia: (a) Ambas son verdaderas (b) Ambas son falsas (c) Solo el primer gerente tiene razón (d) Solo el segundo gerente tiene razón 9. Considere la siguiente situación: El gerente de producción de una fábrica considera que los operarios que realizan tareas repetitivas son más productivos cuando oyen música empleando algún aparato con audífonos. El gerente de producción de otra empresa no cree que la música genere ese efecto positivo. Para determinar quién tiene la razón se tomó una muestra de 10 empleados de la primera empresa y se obtuvo una productividad media de 40 unidades elaboradas por hora por operario. Se tomó una muestra de 15 empleados de la segunda empresa y se obtuvo una productividad media de 36 unidades elaboradas por hora. Se conoce que las desviaciones estándar poblacionales son de 8 y 12 unidades por hora para la primera y la segunda empresa, respectivamente. Con base en estos datos se puede calcular el estadístico de prueba: (a) t = 2,09 (b) z = 2,09 (c) t = 0,92 (d) Ninguna de las anteriores 10. Considere la siguiente situación: El gerente de producción de una fábrica considera que los operarios que realizan tareas repetitivas son más productivos cuando oyen música empleando algún aparato con audífonos. El gerente de producción de otra empresa no cree que la música genere ese efecto positivo. Para determinar quién tiene la razón se tomó una muestra de 10 empleados de la primera empresa y se obtuvo una productividad media de 40 unidades elaboradas por hora por operario. Se tomó una muestra de 15 empleados de la segunda empresa y se obtuvo una productividad media de 36 unidades elaboradas por hora. Se conoce que las desviaciones estándar poblacionales son de 8 y 12 unidades por hora para la

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

260 primera y la segunda empresa, respectivamente. En este problema, el valor crítico o tabular para hacer la prueba es, al 5% de significancia: (a) t = 1,714 (b) z = 1,96 (c) t = 1,645 (d) Ninguna de las anteriores 11. Considere la siguiente situación: El gerente de producción de una fábrica considera que los operarios que realizan tareas repetitivas son más productivos cuando oyen música empleando algún aparato con audífonos. El gerente de producción de otra empresa no cree que la música genere ese efecto positivo. Para determinar quién tiene la razón se tomó una muestra de 10 empleados de la primera empresa y se obtuvo una productividad media de 40 unidades elaboradas por hora por operario. Se tomó una muestra de 15 empleados de la segunda empresa y se obtuvo una productividad media de 36 unidades elaboradas por hora. Se conoce que las desviaciones estándar poblacionales son de 8 y 12 unidades por hora para la primera y la segunda empresa, respectivamente. En este problema, es correcto que, al 5% de significancia: (a) Se acepta la hipótesis alternativa porque |tc| < |tt| (b) Se acepta la hipótesis nula porque |tc| < |tt| (c) Se rechaza la hipótesis nula porque |tc| < |tt| (d) Ninguna de las anteriores 12. Con respecto a los problemas cuando n1 o n2, o ambas, son menores de 30 y se desconocen las varianzas poblacionales, se afirma que: A. Se usa el estadístico z  ( x1  x 2 )   

 12



 22

n1 n2 B. Se usa el estadístico t si se puede suponer que las poblaciones son normales y que σ1 = σ2 = σ.

Con respecto a estas dos afirmaciones, es correcto que: (a) Ambas son verdaderas (b) Ambas son falsas (c) Solo la afirmación A es verdadera (d) Solo la afirmación B es verdadera 13. Con respecto a los problemas cuando n1 o n2, o ambas, son menores de 30 y se desconocen las varianzas poblacionales, se afirma que: (n  1) s12  (n2  1) s 22 A. Se calcula la varianza como  2  1 n1  n2  2 B. Los grados de libertad son gl = n1 + n2 – 2. Con respecto a estas dos afirmaciones, es correcto que: (a) Ambas son verdaderas (b) Ambas son falsas (c) Solo la afirmación A es verdadera (d) Solo la afirmación B es verdadera 14. Este mes se ha estrenado una nueva película de dibujos animados en los cines del país. Se desea saber si los adultos y los niños valoran de igual manera la película. Por lo tanto, se pidió a una muestra de adultos evaluar la película en una escala de 0 a 10, donde 0 es el mínimo y 10 el máximo. Lo mismo se aplicó a una muestra de niños. Los resultados obtenidos fueron: Adultos Niños

8 9

5 10

6 7

4 8

5 9

6 6

7 8

3 6

8

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

261 En este problema, la hipótesis nula se podría expresar como, si μ1 es la evaluación media de los adultos y μ2 es la evaluación media de los niños: (a) H1: μ1 = μ2 (b) H0: μ1 > μ2 (c) H0: μ1 - μ2 = 0 (d) H0: μ1  μ2 15. Este mes se ha estrenado una nueva película de dibujos animados en los cines del país. Se desea saber si los adultos y los niños valoran de igual manera la película. Por lo tanto, se pidió a una muestra de adultos evaluar la película en una escala de 0 a 10, donde 0 es el mínimo y 10 el máximo. Lo mismo se aplicó a una muestra de niños. Los resultados obtenidos fueron: Adultos Niños

8 9

5 10

6 7

4 8

5 9

6 6

7 8

3 6

8

En este problema, la hipótesis alternativa se podría expresar como, si μ1 es la evaluación media de los adultos y μ2 es la evaluación media de los niños: (a) H1: μ1 < μ2 (b) H1: μ1 = μ2 (c) H0: μ1 - μ2 < 0 (d) H1: μ1  μ2 16. Este mes se ha estrenado una nueva película de dibujos animados en los cines del país. Se desea saber si los adultos y los niños valoran de igual manera la película. Por lo tanto, se pidió a una muestra de adultos evaluar la película en una escala de 0 a 10, donde 0 es el mínimo y 10 el máximo. Lo mismo se aplicó a una muestra de niños. Los resultados obtenidos fueron: Adultos Niños

8 9

5 10

6 7

4 8

5 9

6 6

7 8

3 6

8

En este problema, se puede calcular el estadístico de prueba: (a) |z| = 3,32 (b) t = 1,771 (c) t = -3,32 (d) Ninguna de las anteriores 17. Este mes se ha estrenado una nueva película de dibujos animados en los cines del país. Se desea saber si los adultos y los niños valoran de igual manera la película. Por lo tanto, se pidió a una muestra de adultos evaluar la película en una escala de 0 a 10, donde 0 es el mínimo y 10 el máximo. Lo mismo se aplicó a una muestra de niños. Los resultados obtenidos fueron: Adultos Niños

8 9

5 10

6 7

4 8

5 9

6 6

7 8

3 6

8

En este problema, se puede calcular el valor crítico o tabular, al 5% de significancia: (a) z = -1,645 (b) t = -1,753 (c) t = -1,746 (d) Ninguna de las anteriores 18. Este mes se ha estrenado una nueva película de dibujos animados en los cines del país. Se desea saber si los adultos y los niños valoran de igual manera la película. Por lo tanto, se pidió a una muestra de adultos evaluar la película en una escala de 0 a 10, donde 0 es el mínimo y 10 el máximo. Lo mismo se aplicó a una muestra de niños.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

262 Los resultados obtenidos fueron: Adultos Niños

8 9

5 10

6 7

4 8

5 9

6 6

7 8

3 6

8

En este problema, es correcto que, al 5% de significancia: (a) Se rechaza la hipótesis alternativa porque |tc| > |tt| (b) Se acepta la hipótesis nula porque |tc| > |tt| (c) Se rechaza la hipótesis nula porque |tc| > |tt| (d) Ninguna de las anteriores 19. Un instituto que trabaja en la investigación de riesgos analizó el tiempo que las personas duran en cruzar una calle cuando hablan por teléfono celular o envían mensajes de texto y cuando no lo hacen, pues se considera que distraerse puede incrementar la probabilidad de ser atropellado. Se seleccionó una calle y una muestra de 10 personas hicieron la prueba de cruzar la calle usando su celular y luego volvieron a hacer la prueba sin emplear ese dispositivo. Los resultados obtenidos son los siguientes (tiempo en segundos para cruzar la calle): Persona Usando celular Sin usar celular

1 6 5

2 8 6

3 10 7

4 9 6

5 7 5

6 12 8

7 8 7

8 9 7

9 15 12

10 9 8

En este problema se puede plantear la hipótesis nula, donde μd es la media de las diferencias entre los tiempos con y sin uso del celular: (a) Ho: μd = 0 (b) Ho: μd  0 (c) H1: μd = 0 (d) Ninguna de las anteriores 20. Un instituto que trabaja en la investigación de riesgos analizó el tiempo que las personas duran en cruzar una calle cuando hablan por teléfono celular o envían mensajes de texto y cuando no lo hacen, pues se considera que distraerse puede incrementar la probabilidad de ser atropellado. Se seleccionó una calle y una muestra de 10 personas hicieron la prueba de cruzar la calle usando su celular y luego volvieron a hacer la prueba sin emplear ese dispositivo. Los resultados obtenidos son los siguientes (tiempo en segundos para cruzar la calle): Persona Usando celular Sin usar celular

1 6 5

2 8 6

3 10 7

4 9 6

5 7 5

6 12 8

7 8 7

8 9 7

9 15 12

10 9 8

En este problema no se puede plantear la hipótesis alternativa del modo siguiente, donde μ d es la media de las diferencias entre los tiempos con y sin uso del celular: (a) H1: μd < 0 (b) H1: μd  0 (c) H1: μd > 0 (d) Ninguna de las anteriores 21. Un instituto que trabaja en la investigación de riesgos analizó el tiempo que las personas duran en cruzar una calle cuando hablan por teléfono celular o envían mensajes de texto y cuando no lo hacen, pues se considera que distraerse puede incrementar la probabilidad de ser atropellado. Se seleccionó una calle y una muestra de 10 personas hicieron la prueba de cruzar la calle usando su celular y luego volvieron a hacer la prueba sin emplear ese dispositivo.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

263 Los resultados obtenidos son los siguientes (tiempo en segundos para cruzar la calle): Persona Usando celular Sin usar celular

1 6 5

2 8 6

3 10 7

4 9 6

5 7 5

6 12 8

7 8 7

8 9 7

9 15 12

10 9 8

La desviación estándar de las diferencias es: (a) 1,033 (b) 1,067 (c) 2,2 (d) Ninguna de las anteriores 22. Un instituto que trabaja en la investigación de riesgos analizó el tiempo que las personas duran en cruzar una calle cuando hablan por teléfono celular o envían mensajes de texto y cuando no lo hacen, pues se considera que distraerse puede incrementar la probabilidad de ser atropellado. Se seleccionó una calle y una muestra de 10 personas hicieron la prueba de cruzar la calle usando su celular y luego volvieron a hacer la prueba sin emplear ese dispositivo. Los resultados obtenidos son los siguientes (tiempo en segundos para cruzar la calle): Persona Usando celular Sin usar celular

1 6 5

2 8 6

3 10 7

4 9 6

5 7 5

6 12 8

7 8 7

8 9 7

9 15 12

10 9 8

En este problema se emplea el siguiente estadístico de prueba: (a) z = 6,74 (b) t = 2,12 (c) t = 6,74 (d) Ninguna de las anteriores 23. Un instituto que trabaja en la investigación de riesgos analizó el tiempo que las personas duran en cruzar una calle cuando hablan por teléfono celular o envían mensajes de texto y cuando no lo hacen, pues se considera que distraerse puede incrementar la probabilidad de ser atropellado. Se seleccionó una calle y una muestra de 10 personas hicieron la prueba de cruzar la calle usando su celular y luego volvieron a hacer la prueba sin emplear ese dispositivo. Los resultados obtenidos son los siguientes (tiempo en segundos para cruzar la calle): Persona Usando celular Sin usar celular

1 6 5

2 8 6

3 10 7

4 9 6

5 7 5

6 12 8

7 8 7

8 9 7

9 15 12

10 9 8

En este problema, es correcto que, al 5% de significancia: (a) Se rechaza la hipótesis alternativa porque |tc| > |tt| (b) Se acepta la hipótesis nula porque |tc| > |tt| (c) Se rechaza la hipótesis nula porque |tc| > |tt| (d) Ninguna de las anteriores 24. Un instituto que trabaja en la investigación de riesgos analizó el tiempo que las personas duran en cruzar una calle cuando hablan por teléfono celular o envían mensajes de texto y cuando no lo hacen, pues se considera que distraerse puede incrementar la probabilidad de ser atropellado. Se seleccionó una calle y una muestra de 10 personas hicieron la prueba de cruzar la calle usando su celular y luego volvieron a hacer la prueba sin emplear ese dispositivo. Los resultados obtenidos son los siguientes (tiempo en segundos para cruzar la calle):

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

264 Persona Usando celular Sin usar celular

1 6 5

2 8 6

3 10 7

4 9 6

5 7 5

6 12 8

7 8 7

8 9 7

9 15 12

10 9 8

En este problema, se puede concluir que, al 5% de significancia: (a) No existe diferencia significativa entre los tiempos promedio de los peatones que cruzan la calle usando el teléfono celular y los que no lo hacen. (b) Los tiempos promedio de los peatones que cruzan la calle usando el teléfono celular y los que no lo hacen son iguales. (c) Los tiempos promedio de los peatones que cruzan la calle usando el teléfono celular son menores que los tiempos de los que no lo hacen. (d) Ninguna de las anteriores 25. Un fabricante de teléfonos celulares líder en el mercado ha anunciado que pronto lanzará un nuevo modelo de su principal producto. La empresa realizó un estudio en el que descubrió que, en una muestra de 70 usuarios actuales de sus productos, que 20 comprarían el nuevo modelo en la misma semana del lanzamiento. En una muestra de 50 consumidores que no son usuarios de sus productos, 10 comprarían el nuevo modelo en la misma semana del lanzamiento. ¿Constituyen estos datos evidencia suficiente para considerar que los usuarios actuales tienen mayor disposición para comprar el nuevo modelo? En este problema, la hipótesis nula se puede plantear como: (a) H1: P1 = P2 (b) H0: P1 > P2 (c) H0: P1 - P2 = 0 (d) H0: P1  P2 26. Un fabricante de teléfonos celulares líder en el mercado ha anunciado que pronto lanzará un nuevo modelo de su principal producto. La empresa realizó un estudio en el que descubrió que, en una muestra de 70 usuarios actuales de sus productos, que 20 comprarían el nuevo modelo en la misma semana del lanzamiento. En una muestra de 50 consumidores que no son usuarios de sus productos, 10 comprarían el nuevo modelo en la misma semana del lanzamiento. ¿Constituyen estos datos evidencia suficiente para considerar que los usuarios actuales tienen mayor disposición para comprar el nuevo modelo? En este problema, si P1 es la proporción de usuarios actuales que comprarían el nuevo modelo en la semana del lanzamiento y P2 es la proporción de no usuarios actuales que comprarían el nuevo modelo en la semana del lanzamiento, la hipótesis alternativa se puede plantear como: (a) H1: P1 = P2 (c) H1: P1 - P2 < 0

(b) H1: P1 > P2 (d) H1: P1  P2

27. Un fabricante de teléfonos celulares líder en el mercado ha anunciado que pronto lanzará un nuevo modelo de su principal producto. La empresa realizó un estudio en el que descubrió que, en una muestra de 70 usuarios actuales de sus productos, que 20 comprarían el nuevo modelo en la misma semana del lanzamiento. En una muestra de 50 consumidores que no son usuarios de sus productos, 10 comprarían el nuevo modelo en la misma semana del lanzamiento. ¿Constituyen estos datos evidencia suficiente para considerar que los usuarios actuales tienen mayor disposición para comprar el nuevo modelo?

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

265 En este problema, si las muestras son grandes, se emplea el siguiente estadístico de prueba: xd ( x  x2 )   (a) t  1 (b) t  2 2 sd n    n1 n2 (c) z 

p1  p 2 1 1  pq    n1 n2 

(d) z 

( x1  x 2 )  

 12 n1



 22 n2

28. Un fabricante de teléfonos celulares líder en el mercado ha anunciado que pronto lanzará un nuevo modelo de su principal producto. La empresa realizó un estudio en el que descubrió que, en una muestra de 70 usuarios actuales de sus productos, que 20 comprarían el nuevo modelo en la misma semana del lanzamiento. En una muestra de 50 consumidores que no son usuarios de sus productos, 10 comprarían el nuevo modelo en la misma semana del lanzamiento. ¿Constituyen estos datos evidencia suficiente para considerar que los usuarios actuales tienen mayor disposición para comprar el nuevo modelo? En este problema se emplea el siguiente estadístico de prueba: (a) z = 1,07 (b) z = 1,96 (c) z = 1,10 (d) Ninguna de las anteriores 29. Un fabricante de teléfonos celulares líder en el mercado ha anunciado que pronto lanzará un nuevo modelo de su principal producto. La empresa realizó un estudio en el que descubrió que, en una muestra de 70 usuarios actuales de sus productos, que 20 comprarían el nuevo modelo en la misma semana del lanzamiento. En una muestra de 50 consumidores que no son usuarios de sus productos, 10 comprarían el nuevo modelo en la misma semana del lanzamiento. ¿Constituyen estos datos evidencia suficiente para considerar que los usuarios actuales tienen mayor disposición para comprar el nuevo modelo? En este problema el cálculo agrupado de p da por resultado: (a) 0,25 (b) 0,2429 (c) 0,4857 (d) Ninguna de las anteriores 30. Un fabricante de teléfonos celulares líder en el mercado ha anunciado que pronto lanzará un nuevo modelo de su principal producto. La empresa realizó un estudio en el que descubrió que, en una muestra de 70 usuarios actuales de sus productos, que 20 comprarían el nuevo modelo en la misma semana del lanzamiento. En una muestra de 50 consumidores que no son usuarios de sus productos, 10 comprarían el nuevo modelo en la misma semana del lanzamiento. ¿Constituyen estos datos evidencia suficiente para considerar que los usuarios actuales tienen mayor disposición para comprar el nuevo modelo? En este problema, al 1% de significancia, se puede concluir con respecto a la diferencia entre la proporción de clientes actuales que comprarían el nuevo modelo y la proporción de los que no son usuarios actuales que también comprarían el nuevo modelo que: (a) Existe diferencia significativa entre ambas proporciones. (b) Ambas proporciones son iguales. (c) La evidencia muestral no indica que haya diferencia significativa. (d) Ninguna de las anteriores

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

266 Respuestas a los ejercicios de selección única: 1. c 6. b 11. b 16. c 21. a 26. b

2. b 7. c 12. d 17. b 22. c 27. c

3. d 8. a 13. a 18. c 23. c 28. a

4. a 9. c 14. c 19. a 24. d 29. a

5. a 10. a 15. a 20. d 25. c 30. c

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

267

12

.

Correlación lineal y regresión lineal simple OBJETIVOS: Al concluir el capítulo, será capaz de: 1. Aplicar el concepto de correlación para analizar la relación dos variables 2. Calcular e interpretar el coeficiente de correlación lineal simple 3. Distinguir los conceptos de correlación y causalidad 4. Calcular e interpretar los coeficientes de la recta de regresión lineal simple 5. Calcular e interpretar el coeficiente de determinación 6. Emplear la ecuación de la recta de regresión para interpolar y extrapolar nuevos valores de las variables del modelo

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

268

Ejemplo

Un investigador desea analizar la relación entre el número de horas que un grupo de estudiantes dedica a prepararse para un examen de estadística y la nota que cada uno de ellos obtiene en dicha prueba. ¿Cuáles son las variables de este problema y cuáles son los datos que el investigador podría buscar?

Solución

En este caso el investigador analiza la relación entre las dos variables mencionadas, número de horas que un grupo de estudiantes dedica a prepararse para un examen de estadística (variable x) y la nota que cada uno de ellos obtiene en dicha prueba (variable y). El investigador debe tomar una muestra de estudiantes y registrar los valores de ambas variables. Suponga que los resultados de observar ocho estudiantes se resumen en la tabla (las notas están expresadas en una escala de 0 a 100): Número de estudiante 1 2 3 4 5 6 7 8

Horas de estudio (X) 21 15 15 9 12 18 6 12

Calificación en el examen (Y) 80 60 70 40 60 70 50 50



Ejemplo

Construya el diagrama de dispersión para los datos recopilados en el caso del investigador que analiza la relación entre el número de horas que un grupo de estudiantes dedica a prepararse para un examen de estadística y la nota que cada uno de ellos obtiene en dicha prueba. Número de estudiante 1 2 3 4 5 6 7 8

Solución

Horas de estudio (X) 21 15 15 9 12 18 6 12

Calificación en el examen (Y) 80 60 70 40 60 70 50 50

– Para construir el diagrama de dispersión se trazan primero los dos ejes cartesianos, y luego cada par de valores (x, y) se representa como un punto en el gráfico. En este caso, por ejemplo, el punto que se encuentra más arriba a la derecha representa al estudiante número 1, que estudió 21 horas para su

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

269 examen y obtuvo una calificación de 80 puntos. El punto que se encuentra más a la izquierda representa al estudiante número 7, que estudió solo 6 horas y obtuvo una nota de 50.

90

Calificación examen (Y)

80 70

60 50

40 30 20

10 0

0

5

10

15

20

25

Horas de estudio (X)

Ejercicio de revisión

En un estudio se desea determinar si existe relación entre el ingreso familiar mensual y los gastos mensuales en esparcimiento de las familias. La tabla muestra los datos para una muestra de 12 familias: Número de familia 1 2 3 4 5 6 7 8 9 10 11 12

Ingreso familiar mensual (X, en $) 500 1200 1800 2500 750 800 900 1000 400 650 825 750

Gasto mensual en esparcimiento (Y, en $) 60 100 150 300 50 30 80 75 25 60 95 60

Construya el diagrama de dispersión.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

270 Solución:

Gasto mensual en esparcimiento

350 300 250 200 150 100 50 0 0

500

1000

1500

2000

2500

3000

Ingreso familiar mensual

Ejemplo

Construya el diagrama de dispersión, usando Excel y Minitab, para los datos recopilados en el caso del investigador que analiza la relación entre el número de horas que un grupo de estudiantes dedica a prepararse para un examen de estadística y la nota que cada uno de ellos obtiene en dicha prueba. Número de estudiante 1 2 3 4 5 6 7 8

Solución

Horas de estudio (X) 21 15 15 9 12 18 6 12

Calificación en el examen (Y) 80 60 70 40 60 70 50 50

– En Excel se introducen los datos de X y Y cada uno en una columna separada:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

271

Luego se seleccionan los datos, se da clic en la pestaña Insertar, se selecciona en la sección Gráficos y se elige la primera opción de Dispersión:

Así, aparecerá en la hoja de Excel el gráfico construido: 100 80 60 40 20 0 0

5

10

15

20

25

En Minitab se introducen los datos de X y Y cada uno en una columna separada de la hoja de trabajo:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

272

Luego se da clic en el menú Gráfica, y se elige Dispersión. En el cuadro de diálogo se escoge la opción Simple y se completa el cuadro de diálogo siguiente:

Al dar clic en el botón Aceptar se obtiene el gráfico en una ventana separada en Minitab:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

273

Ejemplo

Calcule el coeficiente de correlación lineal de Pearson para los datos recopilados en el caso del investigador que analiza la relación entre el número de horas que un grupo de estudiantes dedica a prepararse para un examen de estadística y la nota que cada uno de ellos obtiene en dicha prueba. Número de estudiante 1 2 3 4 5 6 7 8

Solución

Horas de estudio (X) 21 15 15 9 12 18 6 12

Calificación en el examen (Y) 80 60 70 40 60 70 50 50

– Para el cálculo del coeficiente conviene preparar una tabla como la siguiente, en la cual se han agregado tres columnas más, una para los productos de cada valor de X por cada valor de Y, otra para calcular los cuadrados de cada valor de X, y una más para cada calcular los cuadrados de cada valor de Y. Al final se agregó una línea más para calcular las sumatorias de cada una de las columnas.

1 2 3 4 5 6 7 8

X

Y

21 15 15 9 12 18 6 12

80 60 70 40 60 70 50 50

XY

X2

Y2

Total 



Ahora se completan las tres columnas nuevas. La columna XY se completa multiplicando cada X por cada Y. Por ejemplo, se multiplica 21 por 80, y así obtiene 1680, después multiplica 15 por 60, que es 900, y así sucesivamente. La columna X2 se completa elevando al cuadrado cada valor de X. Por ejemplo, se eleva al cuadrado 21, y así obtiene 441, después eleva al cuadrado 15, que es 225, y así sucesivamente se completa la columna. La columna Y se completa elevando al cuadrado cada Y. Por ejemplo, se eleva 80 al cuadrado, y así obtiene 6400, después eleva al cuadrado 60, que es 3600, y así sucesivamente.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

274

1 2 3 4 5 6 7 8

X

Y

XY

X2

Y2

21 15 15 9 12 18 6 12

80 60 70 40 60 70 50 50

1680 900 1050 360 720 1260 300 600

441 225 225 81 144 324 36 144

6400 3600 4900 1600 3600 4900 2500 2500

Total 

Luego se calculan las sumatorias o totales de cada una de las columnas:

1 2 3 4 5 6 7 8 Total 

X

Y

XY

X2

Y2

21 15 15 9 12 18 6 12 108

80 60 70 40 60 70 50 50 480

1680 900 1050 360 720 1260 300 600 6870

441 225 225 81 144 324 36 144 1620

6400 3600 4900 1600 3600 4900 2500 2500 30000











X

Y

XY

X

2

Y2

Finalmente se sustituyen los valores en la fórmula del coeficiente de correlación lineal: r

N  XY  ( X )( Y )

( N  X 2  ( X ) 2 )( N  Y 2  ( Y ) 2 )

Los valores a sustituir son: N = 8, X = 108, Y = 480, XY = 6870, X2 = 1620, Y2 = 30000: r

8  6870  108  480 (8  1620  (108) 2 )(8  30000  (480) 2 )

r = 0,885 –

Ejercicio de

En un estudio se desea determinar si existe relación entre el ingreso familiar mensual y los gastos mensuales en esparcimiento de las familias. La tabla muestra los datos para una muestra de 12 familias:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

275

revisión

Número de familia 1 2 3 4 5 6 7 8 9 10 11 12

Ingreso familiar mensual (X, en $) 500 1200 1800 2500 750 800 900 1000 400 650 825 750

Gasto mensual en esparcimiento (Y, en $) 60 100 150 300 50 30 80 75 25 60 95 60

Calcule el coeficiente de correlación lineal de Pearson. Solución: Se construye la tabla de las sumatorias o totales de cada una de las columnas:

1 2 3 4 5 6 7 8 9 10 11 12 Total 

X

Y

XY

X2

Y2

500 1200 1800 2500 750 800 900 1000 400 650 825 750 12075

60 100 150 300 50 30 80 75 25 60 95 60 1085

30000 120000 270000 750000 37500 24000 72000 75000 10000 39000 78375 45000 1550875

250000 1440000 3240000 6250000 562500 640000 810000 1000000 160000 422500 680625 562500 16018125

3600 10000 22500 90000 2500 900 6400 5625 625 3600 9025 3600 158375





X

Y



XY



X2



Y2

Se sustituyen los valores en la fórmula del coeficiente de correlación lineal: r

N  XY  ( X )( Y )

( N  X 2  ( X ) 2 )( N  Y 2  ( Y ) 2 )

Los valores a sustituir son:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

276

r

12  1550875  12075  1085 (12  16018125  (12075) 2 )(12  158375  (1085) 2 )

r = 0,9509

Ejemplo

Calcule el coeficiente de correlación lineal de Pearson, usando Excel y Minitab, para los datos recopilados en el caso del investigador que analiza la relación entre el número de horas que un grupo de estudiantes dedica a prepararse para un examen de estadística y la nota que cada uno de ellos obtiene en dicha prueba. Número de estudiante 1 2 3 4 5 6 7 8

Solución

Horas de estudio (X) 21 15 15 9 12 18 6 12

Calificación en el examen (Y) 80 60 70 40 60 70 50 50

– En Excel se introducen los datos de X y Y cada uno en una columna separada:

Luego en una celda separada se introduce la función: =COEF.DE.CORREL(matriz1;matriz2) Como los valores de X se encuentran en el rango A2:A9, y los valores de Y se encuentran en el rango B2:B9, entonces la función se completa del modo siguiente: =COEF.DE.CORREL(A2:A9;B2:B9)

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

277

Al presionar la tecla Enter (o Intro) se obtiene el valor del coeficiente de correlación r = 0,885. En Minitab se introducen los datos de X y Y cada uno en una columna separada de la hoja de trabajo:

Luego se da clic en el menú Estadísticas, se selecciona Estadística básica y ahí se busca la opción Correlación. Se debe completar el siguiente cuadro de diálogo seleccionando las variables de la lista de la izquierda (debe dar doble clic sobre cada una):

Al dar clic en el botón Aceptar se obtiene el valor del coeficiente de correlación r = 0,885 en la ventana Sesión de Minitab:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

278

Ejemplo

Para el caso del investigador que desea analizar la relación entre el número de horas que un grupo de estudiantes dedica a prepararse para un examen de estadística y la nota que cada uno de ellos obtiene en dicha prueba. ¿Cuál sería el modelo que se podría plantear?

Solución

En este caso el investigador analiza la relación entre las dos variables mencionadas, número de horas que un grupo de estudiantes dedica a prepararse para un examen de estadística (variable x) y la nota que cada uno de ellos obtiene en dicha prueba (variable y). El investigador tomó una muestra de estudiantes y registró los valores de ambas variables y obtuvo un coeficiente de correlación lineal de Pearson de r = 0,885, que indica una correlación lineal directa y fuerte entre las dos variables. Conceptualmente es razonable considerar que la variable número de horas que un estudiante dedica a prepararse para un examen de estadística (variable x) pueda ser determinante de la nota que obtiene en dicha prueba (variable y), por lo que podría formularse un modelo lineal del tipo: y = a + bx donde y es la nota obtenida en el examen, y x es el número de horas dedicadas a la preparación para el examen. La constante a indicaría la nota que se obtendría si no se estudiara para el examen (cero horas de preparación) y la pendiente b indicaría lo que se esperaría que aumente la nota en el examen por cada hora adicional dedicada a la preparación para esta prueba. También podría expresarse: Nota = a + b * Horas de preparación

Ejemplo

Construya el modelo de regresión lineal para los datos recopilados en el caso del investigador que analiza la relación entre el número de horas que un grupo de estudiantes dedica a prepararse para un examen de estadística y la nota que cada uno de ellos obtiene en dicha prueba. Número de estudiante 1 2 3 4 5 6 7 8

Horas de estudio (X) 21 15 15 9 12 18 6 12

Calificación en el examen (Y) 80 60 70 40 60 70 50 50



Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

279

Solución

Las fórmulas de los coeficientes de la recta de regresión emplean los mismos datos utilizados en el cálculo del coeficiente de correlación lineal, por lo que se empleará la misma tabla que se construyó cuando se calculó r. Entonces los datos disponibles son los siguientes:

1 2 3 4 5 6 7 8 Total 

X

Y

XY

X2

Y2

21 15 15 9 12 18 6 12 108

80 60 70 40 60 70 50 50 480

1680 900 1050 360 720 1260 300 600 6870

441 225 225 81 144 324 36 144 1620

6400 3600 4900 1600 3600 4900 2500 2500 30000



X





Y

XY



X2



Y2

Primero se sustituyen los valores en la fórmula del coeficiente de pendiente:

b

N  XY  ( X )( Y ) N  X 2  ( X ) 2

b

8  6870  108  480 8  1620  (108) 2 b = 2,41

Después se sustituye en la fórmula de la constante a:

a a

Y  b  X N

N

480 108  2,41 8 8 a = 27,5

Así, el modelo de regresión es: y = 27,5 + 2,41x O bien, Nota= 27,5 + 2,41 * Número de horas de preparación.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

280

Ejercicio de revisión

En un estudio se desea determinar si existe relación entre el ingreso familiar mensual y los gastos mensuales en esparcimiento de las familias. La tabla muestra los datos para una muestra de 12 familias: Número de familia 1 2 3 4 5 6 7 8 9 10 11 12

Ingreso familiar mensual (X, en $) 500 1200 1800 2500 750 800 900 1000 400 650 825 750

Gasto mensual en esparcimiento (Y, en $) 60 100 150 300 50 30 80 75 25 60 95 60

Calcule la ecuación de regresión. Solución: Se construye la tabla:

1 2 3 4 5 6 7 8 9 10 11 12 Total 

X

Y

XY

X2

Y2

500 1200 1800 2500 750 800 900 1000 400 650 825 750 12075

60 100 150 300 50 30 80 75 25 60 95 60 1085

30000 120000 270000 750000 37500 24000 72000 75000 10000 39000 78375 45000 1550875

250000 1440000 3240000 6250000 562500 640000 810000 1000000 160000 422500 680625 562500 16018125

3600 10000 22500 90000 2500 900 6400 5625 625 3600 9025 3600 158375











X

Y

XY

X

2

Y2

Primero se sustituyen los valores en la fórmula del coeficiente de pendiente:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

281

b

b

N  XY  ( X )( Y ) N  X 2  ( X ) 2

12  1550875  12075  1085 12  16018125  (12075) 2 b = 0,1187

Después se sustituye en la fórmula de la constante a:

a a

Y  b  X N

N

1085 12075  0,1187 12 12 a = -29,03

Así, el modelo de regresión es: y = -29,03 + 0,1187x

Ejemplo

Construya, usando Excel y Minitab, el modelo de regresión lineal para los datos recopilados en el caso del investigador que analiza la relación entre el número de horas que un grupo de estudiantes dedica a prepararse para un examen de estadística y la nota que cada uno de ellos obtiene en dicha prueba. Número de estudiante 1 2 3 4 5 6 7 8

Solución

Horas de estudio (X) 21 15 15 9 12 18 6 12

Calificación en el examen (Y) 80 60 70 40 60 70 50 50

– En Excel se introducen los datos de X y Y cada uno en una columna separada:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

282

Luego en una celda separada se introduce la función: =INTERSECCION.EJE(conocido_y;conocido_x) Como los valores de X se encuentran en el rango A2:A9, y los valores de Y se encuentran en el rango B2:B9, entonces la función se completa del modo siguiente: =INTERSECCION.EJE(B2:B9;A2:A9) Al presionar la tecla Enter (o Intro) se obtiene el valor del coeficiente de intersección a = 27,5. Después, en otra celda se introduce la función: =PENDIENTE(conocido_y;conocido_x) Dado que los valores de X se encuentran en el rango A2:A9, y los valores de Y se encuentran en el rango B2:B9, entonces la función se completa del modo siguiente: =PENDIENTE(B2:B9;A2:A9) Al presionar la tecla Enter (o Intro) se obtiene el valor del coeficiente de pendiente b = 2,407  2,41. En Minitab se introducen los datos de X y Y cada uno en una columna separada de la hoja de trabajo:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

283

Luego se da clic en el menú Estadísticas, se selecciona Regresión y ahí se busca la opción Regresión. Se debe completar el siguiente cuadro de diálogo seleccionando la variable y como Respuesta y la variable x como Predictor:

Luego, en la ventana Sesión de Minitab se obtiene:

En la salida de Minitab aparece claramente la ecuación y otros datos sobre el análisis de regresión, principalmente en lo relacionado con la significancia estadística del modelo. A continuación, en este capítulo se expone el valor que Minitab llama R–cuad.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

284

Ejemplo

Para el caso del investigador que desea analizar la relación entre el número de horas que un grupo de estudiantes dedica a prepararse para un examen de estadística y la nota que cada uno de ellos obtiene en dicha prueba, y para el cual se conoce que el coeficiente de correlación lineal de Pearson es r = 0,885. Calcule e interprete el coeficiente de determinación R2.

Solución

Dado que ya se conoce que el coeficiente de correlación lineal de Pearson es r = 0,885, basta con elevar ese número al cuadrado para obtener el coeficiente de determinación R2: R2 = r2 = (0,885)2 = 0,7832 Este resultado quiere decir que el modelo de regresión planteado explica el 78,32% de la variabilidad de y, o sea, que la relación lineal entre la nota en el examen de estadística y el número de horas de preparación explica el 78,32% de la variabilidad de las notas. Este valor de R2 indicaría que es un modelo bastante bueno, pues posee un poder explicativo alto.

Ejercicio de revisión

En un estudio se desea determinar si existe relación entre el ingreso familiar mensual (X, en dólares) y los gastos mensuales en esparcimiento de las familias (Y, en dólares). La ecuación de regresión que se ha obtenido es Y = -29,0 + 0,119X y se obtuvo el coeficiente de correlación lineal de Pearson r = 0,951. Calcule el coeficiente de determinación. Solución: Dado que ya se conoce que el coeficiente de correlación lineal de Pearson es r = 0,951, basta con elevar ese número al cuadrado para obtener el coeficiente de determinación R2: R2 = r2 = (0,951)2 = 0,9044 Este resultado quiere decir que el modelo de regresión planteado explica el 90,44% de la variabilidad de y, o sea, que la relación lineal entre el ingreso familiar mensual (X, en dólares) y los gastos mensuales en esparcimiento de las familias (Y, en dólares) explica el 90,44% de la variabilidad de los gastos.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

285

Ejemplo

Para el caso del investigador que desea analizar la relación entre el número de horas que un grupo de estudiantes dedica a prepararse para un examen de estadística y la nota que cada uno de ellos obtiene en dicha prueba, en el cual se había obtenido el modelo y = 27,5 + 2,41x, donde y es la nota en el examen, y x es el número de horas de preparación para la prueba: a. Interpole la calificación de un estudiante que haya estudiado 13 horas. b. Extrapole la calificación de un estudiante que haya estudiado 25 horas.

Solución

a. En este primer ejercicio se habla de interpolación ya que el rango de valores observados de X, los cuales, si se observa en la tabla de datos de las dos variables, el menor valor de x fue 6 y el mayor 21, por lo que 13 se encuentra dentro del rango observado. Entonces, para hallar y se sustituye el valor x = 13 en la ecuación: y = 27,5 + 2,41x y = 27,5 + 2,41 * 13 y = 58,83 b. En este segundo ejercicio se habla de extrapolación ya que x = 13 se encuentra dentro del rango observado. Entonces, para hallar y se sustituye el valor x = 25 en la ecuación: y = 27,5 + 2,41x y = 27,5 + 2,41 * 25 y = 87,75 Lo anterior se ilustra en la gráfica siguiente:

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

286

Ejercicio de revisión

En un estudio se desea determinar si existe relación entre el ingreso familiar mensual (X, en dólares) y los gastos mensuales en esparcimiento de las familias (Y, en dólares). La ecuación de regresión que ha obtenido es Y = -29,0 + 0,119X. Las familias estudiadas tenían ingresos que varían entre $400 y $2500. a. Interpole el gasto mensual en esparcimiento para una familia con un ingreso mensual de $800. b. Extrapole el gasto mensual en esparcimiento para una familia con un ingreso mensual de $3000. Solución: a. Se sustituye el valor de X = 800 en la ecuación: Y = -29,0 + 0,119X Y = -29,0 + 0,119 ∙ 800 Y = 66,2 El modelo estima que el gasto mensual en esparcimiento para una familia con un ingreso mensual de $800 será de $66,2. b. Se sustituye el valor de X = 3000 en la ecuación: Y = -29,0 + 0,119X Y = -29,0 + 0,119 ∙ 3000 Y = 328 El modelo estima que el gasto mensual en esparcimiento para una familia con un ingreso mensual de $3000 será de $328.

Examen del capítulo: En cada caso seleccione la opción que mejor contesta cada pregunta (las respuestas a los ejercicios se encuentran en la página de internet del texto: ).

1. Si un investigador descubre que conforme aumenta el número de usuarios de Facebook que son casados, también aumenta el número de divorcios, entonces podría considerar que: (a) El mayor uso de Facebook podría ser causante del aumento en el número de divorcios. (b) Existe una relación causa – efecto entre las dos variables. (c) Estas dos variables podrían correlacionarse. (d) La relación entre las dos variables es fuerte y directa.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

287 2. Con relación a la determinación del grado de asociación estadística entre dos variables, un investigador efectuó las siguientes dos afirmaciones: A. Solo se trata de establecer la fuerza o intensidad de la relación. B. Se determina la naturaleza o dirección de la relación, pero no su intensidad. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 3. Con relación a la determinación del grado de asociación estadística entre dos variables, un investigador efectuó las siguientes dos afirmaciones: A. Una fuerte relación entre dos variables implica que exista causalidad. B. Una fuerte relación entre dos variables es condición necesaria de la existencia de causalidad entre ellas. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 4. Con relación a la determinación del grado de asociación estadística entre dos variables, un investigador efectuó las siguientes dos afirmaciones: A. Es posible encontrar un elevado coeficiente de correlación entre dos variables que no tienen relación alguna. B. Un alto coeficiente de correlación entre dos variables es espurio si éste se explica por la presencia de un tercer factor. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 5. Con relación a la determinación de la causalidad entre dos variables, sería falso que la variable x causa a la variable y, si: (a) El coeficiente de correlación entre x y y es cercano a –1. (b) Las variaciones en x en un periodo podrían asociarse con las variaciones de y en el periodo siguiente. (c) Cambios de mayor magnitud en x no se asocian con cambios mayores en y. (d) Existe teoría que respalda la relación causal entre x y y.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

288 6. Al observar la gráfica, podría afirmarse que es verdadero que: Y

X

(a) El coeficiente de correlación de Pearson entre x y y es cercano a –1. (b) El coeficiente de correlación de Pearson entre x y y es cercano a 1. (c) El coeficiente de correlación de Pearson entre x y y es cercano a 0. (d) El coeficiente de correlación de Pearson entre x y y es mayor que 1. 7. Al observar la gráfica, podría afirmarse que es verdadero que: Y

X

(a) La relación entre las variables x y y es fuerte e inversa. (b) La relación entre las variables x y y es débil e inversa. (c) La relación entre las variables x y y es fuerte y directa. (d) La relación entre las variables x y y es débil y directa.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

289 8. Al observar la gráfica, podría afirmarse que es verdadero que: Y

X

(a) El coeficiente de correlación de Pearson entre x y y es cercano a –1. (b) El coeficiente de correlación de Pearson entre x y y es cercano a 1. (c) El coeficiente de correlación de Pearson entre x y y es positivo y cercano a 0. (d) El coeficiente de correlación de Pearson entre x y y es negativo y cercano a 0. 9. Al observar la gráfica, podría afirmarse que es verdadero que: Y

X

(a) La relación entre las variables x y y es fuerte e inversa. (b) La relación entre las variables x y y es débil e inversa. (c) La relación entre las variables x y y es fuerte y directa. (d) La relación entre las variables x y y es débil y directa.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

290 10. Al observar la gráfica, podría afirmarse que es verdadero que: Y

X

(a) El coeficiente de correlación de Pearson entre x y y es cercano a –1. (b) El coeficiente de correlación de Pearson entre x y y es cercano a 1. (c) El coeficiente de correlación de Pearson entre x y y es positivo y cercano a 0. (d) El coeficiente de correlación de Pearson entre x y y es negativo y cercano a 0. 11. Al observar la gráfica, podría afirmarse que es verdadero que: Y

X

2

(a) La relación entre las variables x y y es fuerte e inversa. (b) La relación entre las variables x y y es débil e inversa. (c) La relación entre las variables x y y es fuerte y directa. (d) La relación entre las variables x y y es débil y directa.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

291 12. Al observar la gráfica, podría afirmarse que es verdadero que: Y

X

(a) El coeficiente de correlación de Pearson entre x y y es cercano a –1. (b) El coeficiente de correlación de Pearson entre x y y es cercano a 1. (c) El coeficiente de correlación de Pearson entre x y y es cercano a 0. (d) Ninguna de las anteriores. 13. Al observar la gráfica, podría afirmarse que es verdadero que: Y

X

(a) La relación entre las variables x y y es fuerte e inversa. (b) La relación entre las variables x y y es débil e inversa. (c) La relación entre las variables x y y es fuerte y directa. (d) No hay relación entre x y y. 14. Si al correlacionar la variable x y la variable y, se obtiene un coeficiente r = –0,87, puede afirmarse que: (a) La correlación entre x y y es directa y fuerte. (b) La asociación lineal entre x y y es directa y moderada. (c) Las variables x y y tienen una escasa correlación inversa. (d) Incrementos en x podrían asociarse sistemáticamente con disminuciones en y.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

292 15. Si al correlacionar la variable x y la variable y, se obtiene un coeficiente r = 0,16, puede afirmarse que: (a) La correlación entre x y y es directa y fuerte. (b) La asociación lineal entre x y y es directa y moderada. (c) Las variables x y y tienen una escasa correlación inversa. (d) Un aumento fuerte en x no podría asociarse sistemáticamente con un aumento en y. 16. Si se correlacionan las tasas de interés de los préstamos con la cantidad de viviendas vendidas por periodo, entonces se esperaría que el coeficiente de correlación entre estas dos variables sea: (a) Cercano a cero. (b) Positivo y cercano a uno. (c) Negativo. (d) Ninguna de las anteriores. 17. Si se correlaciona el ingreso disponible de un país con el nivel de consumo agregado, entonces se esperaría que el coeficiente de correlación entre estas dos variables sea: (a) Cercano a cero. (b) Positivo y cercano a uno. (c) Negativo. (d) Ninguna de las anteriores. 18. Suponga que se cuenta con los siguientes datos sobre dos variables x y y: X Y

11 61

15 68

18 73

22 78

14 69

18 71

17 74

24 76

Entonces el coeficiente de correlación lineal de Pearson equivale a: (a) 0,83 (b) 1,16 (c) 0,911 (d) Ninguna de las anteriores 19. Suponga que se cuenta con los siguientes datos sobre dos variables, la humedad relativa en distintas zonas, y el número de casos de neumonía que se presentaron en un determinado periodo: X Y

86 11

88 9

93 15

91 17

90 10

87 13

88 16

90 17

Entonces el coeficiente de correlación lineal de Pearson equivale a: (a) 0,456 (b) 0,208 (c) 0,637 (d) Ninguna de las anteriores 20. Suponga que se cuenta con los siguientes datos sobre dos variables, la humedad relativa en distintas zonas, y el número de casos de neumonía que se presentaron en un determinado periodo: Humedad relativa Casos de neumonía

86 11

88 9

93 15

91 17

90 10

87 13

88 16

90 17

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

293 Entonces puede concluirse que: (a) La correlación entre la humedad relativa y el número de casos de neumonía es alta (b) La humedad relativa es claro determinante del número de casos de neumonía (c) Los puntos del diagrama de dispersión estarán muy cercanos a una línea recta (d) Ninguna de las anteriores 21. Al observar la gráfica, donde la línea corresponde a la recta de regresión obtenida por el método de mínimos cuadrados, podría afirmarse que es falso que: Y

100 90 80 70 60 50 40 30 20 10 0 0

2

4

6

8

10

12

14

16

X

(a) El coeficiente de correlación de Pearson entre x y y es positivo. (b) La pendiente de la ecuación de regresión es positiva. (c) La suma de los cuadrados de los residuos es máxima. (d) El intercepto de la recta es cercano a 20. 22. Al observar la gráfica, donde la línea corresponde a la recta de regresión obtenida por el método de mínimos cuadrados, la variable x es el número semanal de unidades producidas en una fábrica y la variable y corresponde a los costos totales de producción, entonces es falso que: Y

100 90 80 70 60 50 40 30 20 10 0 0

2

4

6

8

10

12

14

16

X

(a) La pendiente de la recta es el costo incremental de una unidad producida. (b) La recta estima los costos totales de la fábrica a distintos niveles de producción. (c) La pendiente de la recta da el costo unitario de producción. (d) El intercepto de la recta equivale a los costos fijos de producción.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

294 23. Se ha establecido que la relación entre el número de años de experiencia de un vendedor (X) y los montos que logra vender por mes (Y, en miles de $) está dada por Y = 0,3 + 2X, entonces no es verdadero que: (a) Por cada año de experiencia se espera que sus ventas aumenten en $2 mil al mes. (b) Si tuviera cero experiencia, se esperaría que venda $0,3 mil. (c) Si tuviera dos años de experiencia, se esperaría que venda $4,6 millones. (d) Si tuviera un año de experiencia, se esperaría que venda $2,3 millones. 24. Se ha establecido que la relación entre el gasto en publicidad de una empresa (X) y los montos que logra vender por mes (Y, en millones de $), está dada por Y = 4,3 + 1,5X, entonces es verdadero que: (a) Si la empresa no gasta en publicidad, entonces sus ventas serían de $1,5 millones. (b) Si la empresa gasta $1 millón más en publicidad, se esperaría que sus ventas aumenten en $4,3 millones. (c) El coeficiente de correlación lineal entre el gasto en publicidad y las ventas de la empresa es positivo. (d) Ninguna de las anteriores. 25. Suponga que se cuenta con los siguientes datos sobre dos variables, la humedad relativa en distintas zonas, y el número de casos de neumonía que se presentaron en un determinado periodo: Humedad relativa Casos de neumonía

86 11

88 9

93 15

91 17

90 10

87 13

88 16

90 17

Entonces puede concluirse que: (a) La pendiente de la ecuación de regresión es –43,3. (b) La pendiente de la ecuación de regresión es 0,637. (c) La pendiente de la ecuación de regresión es 0,456. (d) Ninguna de las anteriores. 26. Suponga que se cuenta con los siguientes datos sobre dos variables x y y: X Y

11 61

15 68

18 73

22 78

14 69

18 71

17 74

24 76

Entonces la ecuación de regresión lineal, tomando a x como variable independiente, es: (a) y = 51,2 – 1,16x (b) y = –33,8 + 0,718x (c) y = 1,16x + 51,2 (d) Ninguna de las anteriores 27. Si al relacionar la variable x y la variable y, se obtiene un coeficiente R2 = 0,87, entonces es falso con certeza que: (a) La correlación entre x y y es fuerte. (b) El modelo lineal entre x y y explica el 93,3% de la variabilidad de y. (c) El modelo lineal entre x y y explica el 87% de la variabilidad de y. (d) El coeficiente de correlación lineal entre las dos variables 0,933.

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html

295 28. Al relacionar la variable x y la variable y, se obtiene un coeficiente R2 = 0,96. Un investigador efectuó las siguientes dos afirmaciones: A. El modelo lineal entre x y y no es un buen modelo, porque tiene escaso poder explicativo. B. El ajuste de la recta es muy bueno. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 29. Suponga que se cuenta con los siguientes datos sobre dos variables x y y: X Y

11 61

15 68

18 73

22 78

14 69

18 71

17 74

24 76

Un investigador efectuó las siguientes dos afirmaciones: A. Al realizar la extrapolación del valor x = 10, se obtiene y = 62,8. B. Al realizar la interpolación del valor x = 12, se obtiene y = 65,12. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera 30. Suponga que se cuenta con los siguientes datos sobre dos variables x y y: X Y

14 65

18 72

11 60

20 75

23 80

14 63

17 70

19 74

15 66

16 64

Un investigador efectuó las siguientes dos afirmaciones: A. Al realizar la extrapolación del valor x = 10, se obtiene y = 57. B. Al realizar la interpolación del valor x = 12, se obtiene y = 60,54. Con respecto a las dos afirmaciones anteriores, es correcto que: (a) Ambas son verdaderas (b) Solo A es verdadera (c) Ambas son falsas (d) Solo B es verdadera

Respuestas a los ejercicios de selección única: 1. c 6. b 11. b 16. c 21. c 26. c

2. c 7. c 12. c 17. b 22. c 27. b

3. d 8. c 13. d 18. c 23. c 28. d

4. a 9. d 14. d 19. a 24. c 29. c

5. c 10. a 15. d 20. d 25. b 30. a

Recursos para el Aprendizaje Efectivo de la Estadística y la Probabilidad www.auladeeconomia.com/raeep.html