MUESTREO

Descripción completa

Views 474 Downloads 9 File size 12MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

DPTO. MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA Y LA EMPRESA UNIVERSIDAD DE GRANADA

AMPLIACIÓN DE TÉCNICAS CUANTITATIVAS TEORÍA, EJERCICIOS Y PRÁCTICAS

1

2

INFORMACIÓN GENERAL (Exámenes, temario, bibliografía,...) . . . . . . . .

6

APUNTES: 1. Elementos del problema de muestreo. . . . . . . . . . . . . . . . . . . . . . . . 1.1 Definiciones básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Selección de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Fuentes de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Errores de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Errores de no muestreo. . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Métodos de recolección de datos. . . . . . . . . . . . . . . . . . . . . . . . 1.5 Diseño del cuestionario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Planificación de la encuesta. . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Razones para el uso del muestreo. . . . . . . . . . . . . . . . . . . . . . .

11 11 12 13 13 15 16 16 16 17

2. Muestreo aleatorio simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Muestreo aleatorio simple en poblaciones infinitas. . . . . . . . . . . . . . 2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 2.2.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 2.3 Muestreo aleatorio simple en poblaciones finitas. . . . . . . . . . . . . . . 2.3.1 Estimación de la media, proporción y total poblacionales. . . . . . . 2.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23 23 24 25 27 30

3. Muestreo aleatorio estratificado. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Selección de una muestra aleatoria estratificada. . . . . . . . . . . . . . . . 3.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 3.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . 3.4 Asignación de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Asignación óptima. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Asignación de Neyman. . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Asignación proporcional. . . . . . . . . . . . . . . . . . . . . . . . 3.5 Estratificación después de seleccionar la muestra. . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38 38 39 42 43 43 44 44 50 52

4. Muestreo con información auxiliar. . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Estimación de razón. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.2.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 4.3 Estimación de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 4.4 Estimación de diferencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.4.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .

63 63 64 65 68 69 70 71 72 72 74

18 19 19

3

Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Muestreo sistemático. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Selección de una muestra sistemática. Usos. Ventajas. . . . . . . . . . . . . 5.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

75 82 82 84 86

5.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . .

88

Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

6. Muestreo por conglomerados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Necesidad y ventajas del muestreo por conglomerados. . . . . . . . . . . . 6.2 Formación de los conglomerados. Conglomerados y estratos. . . . . . . . . 6.3 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 6.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

92 92 92 92 97 98

7. Estimación del tamaño de la población. . . . . . . . . . . . . . . . . . . . . . . 7.1 Muestreo directo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Muestreo inverso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Muestreo por cuadros. 7.3.1 Estimación de la densidad y tamaño de la población. . . . . . . . . 7.3.2 Muestreo por cuadros en el espacio temporal. . . . . . . . . . . . . 7.3.3 Cuadros cargados. . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

108 108 109

8. Indicadores estadísticos regionales. . . . . . . . . . . . . . . . . . . . . . . . . 8.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Medidas de desigualdad-concentración regional. . . . . . . . . . . . . . . . 8.2.1 Curva de Lorenz. Índice de Gini. . . . . . . . . . . . . . . . . . . . 8.2.2 Coeficiente de Theil. Índice de Theil. . . . . . . . . . . . . . . . . . 8.2.3 Desigualdad individual y colectiva. . . . . . . . . . . . . . . . . . . 8.3 Medidas de dispersión regional. . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Coeficiente de asociación geográfica de Florence. . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

117 117 117 117 119 123 126 126 128

9. Medidas de localización espacial. . . . . . . . . . . . . . . . . . . . . . . . . . 9.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Cocientes de localización y especialización. . . . . . . . . . . . . . . . . . . 9.3 Coeficientes de localización sectorial. . . . . . . . . . . . . . . . . . . . . . 9.4 Coeficientes de especialización regional. . . . . . . . . . . . . . . . . . . . . 9.5 Coeficientes de diversificación. . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

130 130 131 132 134 136 137

10. Contrastes χ 2 de Pearson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1 Contrastes χ 2 de bondad de ajuste. . . . . . . . . . . . . . . . . . . . . . 10.2 Contrastes χ 2 de independencia. . . . . . . . . . . . . . . . . . . . . . . . 10.3 Contrastes χ 2 de homogeneidad. . . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

143

110 112 112 114

143 147 150 152

11. Inferencia no paramétrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. . . . . . . . . . . 11.2 Contraste de Kolmogorov-Smirnov para 2 muestras. . . . . . . . . . . . . 11.3 Contraste de Mann-Whitney. . . . . . . . . . . . . . . . . . . . . . . . . . 11.4 Test de las rachas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.5 Test de los signos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.6 Test de Wilcoxon de los signos-rangos. . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

162 162 165 168 176 178 179 181

EJERCICIOS: Ejercicios del capítulo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

190 196 207 217 220 230 234 236 240 248

PRE-PRÁCTICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

259

PRÁCTICAS: Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Introducción al SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

276 279 286 293 311 317 320 327 330 333 337 351 366

FORMULARIOS Y TABLAS ESTADÍSTICAS . . . . . . . . . . . . . . . . .

381

5

INFORMACIÓN GENERAL Licenciatura: Economía Carácter: Obligatoria Créditos: 4,5 Periodo lectivo: Segundo curso. Segundo cuatrimestre. Departamento: Métodos Cuantitativos para la Economía y la Empresa

Objetivos de la Asignatura: o Completar los conocimientos previos de estadística con el estudio de nuevos conceptos en muestreo en poblaciones finitas, técnicas cuantitativas para el análisis regional e inferencia no paramétrica, dotando al alumno de las herramientas estadísticas e informáticas necesarias para poder abordar la resolución de supuestos prácticos. o La asignatura es de tipo teórico-práctico. Se considera fundamental la comprensión de los conceptos, la capacidad de elección del método en la resolución de los problemas prácticos que se planteen, la solución de dichos problemas mediante la hoja de cálculo Excel y el paquete estadístico SPSS, así como la interpretación de los resultados. o Una hora de clase a la semana será en el aula de informática donde se utilizarán los programas Excel y SPSS.

Sistema de Evaluación: • En cualquiera de las convocatorias de examen de esta asignatura se realizarán dos pruebas: una escrita (valorada en al menos el 60% de la calificación) y otra con ordenador (valorada como máximo en el 40% de la calificación), siendo necesario superar como mínimo un 35% en cada una para hacer media y en su caso aprobar la asignatura. En ambas pruebas los alumnos podrán utilizar el “formulario” (con todas las expresiones utilizadas en la asignatura) y las “tablas estadísticas”, dicha información se facilitará por internet y/o en la fotocopiadora del centro. También se permite el uso de calculadora no programable en la prueba escrita. • Los alumnos podrán ser evaluados mediante un examen previo a la convocatoria oficial de Junio. La superación de este examen o parte del mismo eximirá de la realización de todo el examen final (escrito y ordenador) o de alguna de las partes en esa convocatoria.

6

TEMARIO 1. Elementos del problema de muestreo. 1.1 Definiciones básicas. 1.2 Selección de la muestra. 1.3 Fuentes de error. 1.3.1 Errores de muestreo. 1.3.2 Errores de no muestreo. 1.4 Métodos de recolección de datos. 1.5 Diseño del cuestionario. 1.6 Planificación de la encuesta. 1.7 Razones para el uso del muestreo. 2. Muestreo aleatorio simple. 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. 2.2 Muestreo aleatorio simple en poblaciones infinitas. 2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. 2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 2.2.3 Determinación del tamaño muestral. 2.3 Muestreo aleatorio simple en poblaciones finitas. 2.3.1 Estimación de la media, proporción y total poblacionales. 2.3.2 Determinación del tamaño muestral. 3. Muestreo aleatorio estratificado. 3.1 Selección de una muestra aleatoria estratificada. 3.2 Estimación de la media, proporción y total poblacionales. 3.3 Determinación del tamaño muestral. 3.4 Asignación de la muestra. 3.4.1 Asignación óptima. 3.4.2 Asignación de Neyman. 3.4.3 Asignación proporcional. 3.5 Estratificación después de seleccionar la muestra. 4. Muestreo con información auxiliar. 4.1 Introducción. 4.2 Estimación de razón. 4.2.1 Estimación de la media y total poblacionales. 4.2.2 Determinación del tamaño muestral. 4.3 Estimación de regresión. 4.3.1 Estimación de la media y total poblacionales. 4.3.2 Determinación del tamaño muestral. 4.4 Estimación de diferencia. 4.4.1 Estimación de la media y total poblacionales. 4.4.2 Determinación del tamaño muestral. 5. Muestreo sistemático. 5.1 Selección de una muestra sistemática. Usos. Ventajas. 5.2 Estimación de la media, proporción y total poblacionales. 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas. 7

5.4 Determinación del tamaño muestral. 6. Muestreo por conglomerados. 6.1 Necesidad y ventajas del muestreo por conglomerados. 6.2 Formación de los conglomerados. Conglomerados y estratos. 6.3 Estimación de la media, proporción y total poblacionales. 6.4 Determinación del tamaño muestral. 7. Estimación del tamaño de la población. 7.1 Muestreo directo. 7.2 Muestreo inverso. 7.3 Muestreo por cuadros. 7.3.1 Estimación de la densidad y tamaño de la población. 7.3.2 Muestreo por cuadros en el espacio temporal. 7.3.3 Cuadros cargados. 8. Indicadores estadísticos regionales. 8.1 Introducción. 8.2 Medidas de desigualdad-concentración regional. 8.2.1 Curva de Lorenz. Índice de Gini. 8.2.2 Coeficiente de Theil. Índice de Theil. 8.2.3 Desigualdad individual y colectiva. 8.3 Medidas de dispersión regional. 8.4 Coeficiente de asociación geográfica de Florence. 9. Medidas de localización espacial. 9.1 Introducción. 9.2 Cocientes de localización y especialización. 9.3 Coeficientes de localización sectorial. 9.4 Coeficientes de especialización regional. 9.5 Coeficientes de diversificación. 10. Contrastes χ 2 de Pearson. 10.1 Contrastes χ 2 de bondad de ajuste. 10.2 Contrastes χ 2 de independencia. 10.3 Contrastes χ 2 de homogeneidad. 11. Inferencia no paramétrica. 11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. 11.2 Contraste de Kolmogorov-Smirnov para 2 muestras. 11.3 Contraste de Mann-Whitney. 11.4 Test de las rachas. 11.5 Test de los signos. 11.6 Test de Wilcoxon de los signos-rangos.

8

BIBLIOGRAFÍA SCHEAFFER, R.; MENDENHALL, W.; y OTT, L. (2006). Elementos de muestreo. International Thomson Editores. PALACIOS, F. y CALLEJÓN, J. (2004). Técnicas Cuantitativas para el Análisis Regional. Editorial Universidad de Granada. MANZANO, V.G.; ROJAS, A.J. y FERNÁNDEZ, J.S. (1996). Manual para Encuestadores. Ed. Ariel. MARTÍN-GUZMÁN, P. y MARTÍN PLIEGO, F. J. (1993). Curso básico de estadística económica. AC. Madrid. CASAS SÁNCHEZ, J.M. (1996). Inferencia Estadística para Economía y Administración de Empresas. Ed. Centro de Estudios Ramón Areces, S. A. LOHR, S.L. (1999). Muestreo: Diseño y Análisis. International Thomson Editores. SACHS, L. (1978). Estadística Aplicada. Ed. Labor s.a.

Información en la WEB: En el TABLON DOCENCIA de la página web de la Universidad se facilitará información a los alumnos sobre: ¾ Profesores que imparten la asignatura, despacho, correo electrónico, horario de tutorías... ¾ Programa de la asignatura ¾ Bibliografía ¾ Apuntes de clase ¾ Relaciones de ejercicios ¾ Prácticas de ordenador ¾ Sistema de evaluación ¾ Fechas de exámenes ¾ Calificaciones ¾ Revisión de exámenes ¾ Cualquier otra información que los profesores consideren importante.

9

10

1. Elementos del problema de muestreo. 1.1 Definiciones básicas. 1.2 Selección de la muestra. 1.3 Fuentes de error. 1.3.1 Errores de muestreo. 1.3.2 Errores de no muestreo. 1.4 Métodos de recolección de datos. 1.5 Diseño del cuestionario. 1.6 Planificación de la encuesta. 1.7 Razones para el uso del muestreo.

El objetivo fundamental de la estadística es hacer inferencia acerca de una población con base en la información contenida en una muestra representativa. La información obtenida de las encuestas por muestreo afecta a casi todos los aspectos de nuestra vida: IPC, audiencia de televisión, intención de voto,... Un área particular de actividad comercial que depende de las técnicas de muestreo es el análisis de mercados. Decisiones sobre qué producto comercializar, cuándo, dónde, cómo anunciarlo son frecuentemente tomadas sobre la base de la información de encuestas por muestreo. 1.1 Definiciones básicas En la actualidad, las encuestas y las muestras están presentes en nuestra vida diaria. Muchas nos dan información valiosa, pero otras están mal concebidas y aplicadas. Una muestra perfecta sería una versión a escala reducida de la población, que reflejaría cada una de las características de toda la población. Una buena muestra reproduce las características de interés que existen en la población de la manera más cercana posible. Para precisar el concepto de “buena muestra” necesitamos una serie de definiciones previas que ilustraremos apoyándonos en el siguiente ejemplo: supongamos que en cierta ciudad se quiere realizar una encuesta telefónica con el objetivo de conocer la proporción de votantes que apoyarán a un determinado candidato Un elemento de muestreo es un objeto en el que se toman las mediciones. En nuestro ejemplo un elemento de muestreo es un votante y la medición que se toma es si apoyará o no al candidato. La población objetivo es el conjunto de elementos que deseamos estudiar. La definición debe contener: ƒ

una descripción de los elementos que serán incluidos, y

ƒ

una especificación de las mediciones que se van a considerar. 11

Una muestra es un subconjunto de la población. El muestreo de la población deseada no es siempre posible, y el investigador tendrá que reunir información adicional a las preguntas de interés. Por ejemplo, en la encuesta sobre un candidato en una votación, la información disponible para el muestreo puede ser el censo de residentes en la ciudad, entonces debemos recolectar información acerca de si cada persona muestreada es un votante censado o no. La población muestreada es la colección de todos los elementos posibles que podrían seleccionarse para la muestra. Las unidades de muestreo son conjuntos (no solapados) de elementos de la población que cubren la población completa. Por ejemplo, podríamos querer estudiar a las personas, pero no tenemos una lista de los teléfonos de todos los individuos que pertenecen a la población objetivo. En vez de esto, las familias sirven como unidades de muestreo y los elementos son los individuos que viven en una familia. El marco de muestreo es la lista de las unidades de muestreo. Por ejemplo, para las encuestas telefónicas, el marco de muestreo puede ser una lista de todos los números de teléfono residenciales de la ciudad. Casi todos los marcos presentan inconvenientes: listas no actualizadas, algunos votantes pueden no aparecer en las listas,... Sin embargo, cabe esperar que la separación entre el marco y la población sea lo bastante pequeño como para permitir que se hagan inferencias acerca de la población basándose en una muestra obtenida del marco. 1.2 Selección de la muestra Si el muestreo se realiza de manera adecuada, con una muestra relativamente pequeña se puede llevar a cabo inferencias de una población arbitrariamente grande. La cantidad de información contenida en una muestra se controla por medio del número de datos muestrales y por el método usado para seleccionar los datos muestrales. Veamos algunos métodos: 1. Muestreo aleatorio simple. Es la forma más sencilla de realizar un muestreo. Consiste en seleccionar n unidades muestrales de tal manera que cualquier muestra de tamaño n tenga la misma probabilidad de ser elegida. Este tipo de muestreo es la base de otros diseños de muestreo. 2. Muestreo aleatorio estratificado. Supongamos que los habitantes de una ciudad se pueden dividir en grupos con diferentes opiniones sobre un determinado candidato. Obviamente nos interesa tener información de cada uno de esos grupos. Entonces se 12

divide a la población en esos grupos o estratos y se selecciona una muestra aleatoria simple de cada grupo. A la muestra resultante se le llama muestra aleatoria estratificada. 3. Muestreo por conglomerados. En una muestra por conglomerados, los elementos que componen una población se reúnen en unidades de muestreo de mayor tamaño, llamadas conglomerados. Para nuestra encuesta podemos muestrear familias en lugar de votantes individuales. En este caso las familias forman los conglomerados y los miembros de las familias son las unidades de muestreo. 4. Muestreo sistemático: Es un tipo de muestreo que muchas veces se utiliza como sustituto del muestreo aleatorio simple. Consiste en seleccionar un elemento al comienzo de una lista de la población y luego se selecciona cada un número fijo de posiciones el resto de elementos. 1.3 Fuentes de error 1.3.1 Errores de muestreo El error de muestreo es el que surge al considerar una muestra y no examinar toda la población. El error de muestreo puede ser controlado y medido mediante un diseño cuidadoso de la muestra. Nuestro objetivo a lo largo de la asignatura será conocer o investigar alguna característica de una población que, en principio, vamos a denotar por θ . Por ejemplo, estudiaremos la audiencia televisiva una determinada noche, la intención de voto de una región,.... Claramente la recogida de información sobre toda la población resultaría cara y lenta. Por ello es preferible utilizar un subconjunto pequeño de la población, la muestra. Denotando por θˆ a un estimador de la característica θ , definimos el error de estimación como error de estimación = θˆ - θ Dado que el estimador es una variable aleatoria, no podemos asegurar que siempre el estimador y θ están dentro de una distancia especificada B, pero podemos expresar que eso ocurre con una determinada probabilidad P  θˆ − θ ≤ B  = 1 − α  

,0 < α 30)

si Y → cualquier distribución (por el Teorema Central del Límite) cuando n → ∞ y−µ

σ



n

y−µ → N (0,1) S n

(en la práctica, para n>30)

un caso particular del anterior es cuando Y → B(1, p) , donde µ = p p− p ≈ pq n

p− p n pq n −1 n

=

p− p

→ N (0,1)

y= p

(en la práctica, para n>30)

pq n −1

Todo lo anterior puede resumirse diciendo que la media muestral (de variables numéricas, y , o dicotómicas, p ) sigue o se puede aproximar, si el tamaño de la muestra es suficientemente grande, por una distribución normal. De forma que podemos conocer la probabilidad de que dicha variable tome determinados valores, por ejemplo (tomando una de las anteriores expresiones de la media muestral tipificada, siendo válido lo que sigue también para las otras)     y−µ ≤ 1,96  = 0,95 P  −1,96 ≤ σ     n

o en un caso más general     y−µ P  − Zα ≤ ≤ Zα  = 1 − α σ 2 2     n α=nivel de significación

1-α=nivel de confianza

Para un nivel de confianza del 95% (el más habitual) se suele redondear el anterior valor 1,96≈2 De las probabilidades anteriores se puede hacer dos lecturas. La primera:

σ σ  σ    P  −2 ≤ y−µ ≤2  = 0,95 ⇒ P  y − µ ≤ 2  = 0,95 n n n  

21

En esta última expresión aparecen valores y expresiones fundamentales en las técnicas de estimación: 1-α=0,95= nivel de confianza del 95%. y − µ = error de estimación o diferencia entre la estimación que hacemos, y , y el verdadero

valor del parámetro que se quiere estimar, µ. 2

σ n

= cota o límite para el error de estimación, es el máximo error de estimación que se

puede estar cometiendo, con una confianza del 95%. En la práctica se estima por 2

S . n

La segunda lectura:

σ σ   Py −2 ≤ µ ≤ y+2  = 0,95 n n  expresa la confianza que tenemos de que el verdadero valor del parámetro µ se encuentre

σ σ   entre los extremos del intervalo  y − 2 ,y+2 . n n  Todo lo anterior se puede asegurar si el tamaño de la muestra es suficientemente grande, n>30. Pero qué ocurre si no es así. En ese caso la desigualdad de Tchebychev nos da la respuesta. La desigualdad de Tchebychev dice que si X es una variable aleatoria con media E ( X ) = µ y varianza V ( X ) = σ 2 , entonces P  X − µ ≤ kσ  ≥ 1 −

1 k2

Aplicando lo anterior, en particular, a la media muestral para k=2 se obtiene

σ  1  P y−µ ≤ 2  ≥ 1 − 4 = 0, 75 n  resultado parecido al que obteníamos anteriormente

σ   P y−µ ≤ 2  = 0,95 n  salvo que en este caso lo más que podemos asegurar es que la probabilidad de que y−µ ≤2

22

σ n

es mayor de 0,75.

2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.

Cuando estimamos el valor de un parámetro poblacional con el valor que ha presentado en una determinada muestra el estimador asociado, hacemos una estimación puntual. Si dicha estimación puntual se acompaña de un margen de error (límite para el error de estimación) y de una medida de la certidumbre que se tiene en tal estimación (nivel de confianza), hablamos de intervalo de confianza. Por ejemplo, utilizando muestras grandes, el intervalo de confianza para la media poblacional µ con un nivel de confianza del 95% es S S   ,y+2  y−2  n n  En ocasiones se quiere contrastar con los valores observados en una muestra la posibilidad de que el verdadero valor de un parámetro de la población sea un determinado valor, por ejemplo, se quiere contrastar la hipótesis nula H 0 : µ = µ0 con un nivel de significación del 5%. Lo anterior equivale a comprobar si 

µ0 ∈  y − 2 

S S  ,y+2  n n

en cuyo caso se aceptaría la hipótesis nula, rechazándose en caso contrario. 2.2.3 Determinación del tamaño muestral.

En ocasiones se fija de antemano el máximo error de estimación que estamos dispuestos a aceptar en una estimación, 2

σ n

= B . La cantidad de información necesaria para conseguir lo

anterior depende del tamaño de la muestra según la siguiente expresión 4

σ2 n

= B2 ⇒ n =

σ2 B2 4

=

σ2 D

, D=

B2 4

El caso de la proporción es análogo al de la media, teniendo en cuenta que σ 2 = pq n=

pq , D

D=

B2 4

Ejemplo 2.1. (ejercicio 13, relación tema 2) Un hipermercado desea estimar la proporción de

compras que los clientes pagan con su “Tarjeta de Compras”. Durante una semana observaron al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta. a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta.

23

b) ¿Cuantas compras deberían observarse para estimar, con un error inferior al 3%, la proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una muestra previa) c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta, cuántas compras deberíamos observar para asegurar que la anterior estimación se realiza con un error inferior al 3%. d) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos observa que el valor total de las compras hechas con la tarjeta fue de 5.600€ (siendo la cuasivarianza de los datos 625). Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado. Solución:

a) p=

1 n 35 = 0,175 yi = ∑ n i =1 200

n = 200

q = 1 − 0,175 = 0,825

V ( p) =

pq = 0, 000726 n −1

p ∈ (12,11% , 22,89% )

B = 2 V ( p ) = 0, 0539

b) B = 0, 03

B2 D= = 0, 000225 4

n=

pq = 641, 6 ≈ 642 D

c) B = 0, 03

D=

B2 = 0, 000225 4

p = q = 0,5

n=

pq = 1111,1 ≈ 1112 D

d)

n = 35

S 2 = 625

V ( y) =

y=

S 2 625 = = 17,8571 n 35

1 n 5600 yi = = 160€ ∑ n i =1 35 B = 2 V ( y ) = 8, 45€

„

2.3 Muestreo aleatorio simple en poblaciones finitas.

Suponemos que la población es finita, tiene N elementos, y además que la muestra se selecciona sin reemplazamiento (en caso contrario estaríamos ante el modelo del muestreo aleatorio simple en poblaciones infinitas con variables i.i.d.) 24

2.3.1 Estimación de la media, proporción y total poblacionales. (A) Estimación de la media poblacional.

Para estimar la media poblacional, µ, se utiliza la media muestral

1 n ∑ yi n i =1 Este estimador es insesgado y su varianza decrece conforme crece el tamaño de la muestra

µ=y=

( )

E y =µ

( )

V y =

σ2  N −n   n  N −1 

En este tipo de muestreo la cuasivarianza muestral no es un estimador insesgado de la varianza de la población E (S2 ) =

N σ2 N −1

 N −1 2  E S  =σ2 N  

De lo anterior se sigue que la varianza de la media muestral puede ser estimada insesgadamente por 2  N −1 2  1  N − n  S  N − n  V y = S   =     N  n  N −1  n  N 

( )

 S2  expresión igual a la del caso de poblaciones infinitas,  V ( y ) =  , salvo el coeficiente n  

 N −n   que se denomina coeficiente corrector para poblaciones finitas (c.p.f.).  N   N −n En la práctica el coeficiente c.p.f. suele despreciarse si   ≥ 0,95 o lo que es equivalente  N  si n ≤

1 N = 5% N . En muchos casos N no está claramente definido o se desconoce, pero si 20

 N −n N se supone suficientemente grande el c.p.f. se omite,   ≅ 1.  N  Para calcular el límite para el error de estimación , con un 95% de confianza, se halla 2 V ( y ) . Igual que en el caso de poblaciones infinitas, se habla de un nivel de confianza del

95% cuando trabajamos con el coeficiente 1,96≈2. Pero en algunos casos, según la desigualdad de Tchevychev, sólo se puede asegurar que este nivel es mayor de un 75%.

25

(B) Estimación del total poblacional.

Para estimar el total poblacional, τ, dado que µ =

τ =Ny=

N n

τ N

⇒ τ = N µ utilizaremos el estimador

n

y . ∑ i =1

i

Para hallar su varianza, recordemos las propiedades de la varianza V (kX ) = k 2V ( X ) V ( X + Y ) = V ( X ) + V (Y )

( X e Y incorreladas)

Varianza estimada de τ V (τ ) = V ( N y ) = N 2 V ( y ) = N 2

S2 N − n S2 = N ( N − n) n N n

Como en el caso de la media, el límite para el error de estimación con una confianza del 95% está dado por 2 V (τ ) . Valiendo comentarios análogos a los hechos anteriormente.

En lo sucesivo se dará el valor la varianza del estimador para los distintos tipos de muestreo, omitiéndose, para no repetirnos más, la referencia al límite para el error de estimación. Ejemplo 2.2. (ejercicio 1, relación tema 2) Un auditor examina las cuentas abiertas con

diferentes clientes de una empresa. Suponga que existen 1.000 cuentas de las cuales se examinan 300. La media muestral de las cuentas fue y = 1.040€ y la varianza muestral (“cuasivarianza”) es S2=45.000€2. Estime el promedio de la deuda y el total de la deuda por cobrar para las 1.000 cuentas abiertas con un intervalo de confianza al 95%. Solución:

V ( y) =

Sn2−1 N − n 45000 1000 − 300 = = 105 300 1000 n N

2 V ( y ) = 2 105 = 20, 49€

(1.040 ∓ 20, 49 ) = (1.019,51 , 1.060, 49 ) τ = N y = 1000 ×1040 = 1.040.000€ 2 V (τ ) = N 2 V ( y ) = 1000 × 20, 49 = 20.490€ (valor exacto 20.493,9)

(1.040.000 ∓ 20.490 ) = (1.019.510 , 1.060.490 )

„

(C) Estimación de la proporción poblacional.

Para estimar la proporción poblacional p , dado que se trata de una media usaremos la media muestral que tiene la siguiente notación en este caso 26

1 n ∑ yi , n i =1

p=

su varianza estimada, teniendo en cuenta que S 2 = V ( p) =

yi = 0, 1 n pq , es igual a n −1

S2 N − n pq N − n = n N n −1 N

Para estimar el total poblacional de una variable dicotómica usamos V (τ ) = V ( N p) = N 2 V ( p) = N ( N − n)

τ =Np

pq n −1

2 V (τ ) = N 2 V ( p )

Ejemplo 2.3. (ejercicio 2, relación tema 2) Se toma una muestra aleatoria simple de 100

estudiantes de un centro con 900 estudiantes para estimar •

La proporción que votarán a un determinado representante de centro.



La proporción de ellos que tienen algún tipo de trabajo. (i = 1,...,100) las respuestas del i-ésimo estudiante seleccionado ( yi = 0 cuando

Sean yi , zi

responden NO, yi = 1 cuando responden SI, análogamente para zi ). 100

yi = 70 ∑

Según la muestra

i =1

100

z = 25 ∑ i =1

i

Usando los datos de la muestra, estime p1 (proporción de estudiantes que votarán a un determinado representante) p2 (proporción y número de estudiantes con algún tipo de trabajo) y los límites para los errores de estimación correspondientes. Solución: 100

p1 = V ( p1 ) =

y ∑ i =1

i

100

100

= 0, 70 (70%)

p1 q1 N − n = 0, 0018855 n −1 N

2 V ( p1 ) = 0, 0868 (8, 68%)

τ 2 = N p 2 = 900 × 0, 25 = 225

p2 =

z ∑ i =1

i

100

V ( p2 ) =

= 0, 25 (25%)

p2 q2 N − n = 0, 0016835 n −1 N

2 V ( p 2 ) = 0, 0821 (8, 21%) 2 V (τ 2 ) = 900 × 0, 0821 = 73,89

„

2.3.2 Determinación del tamaño muestral.

El número de observaciones necesarias para estimar µ con un límite para el error de estimación de magnitud B se obtiene resolviendo 2 V ( y ) = B 27

( )

2 V ( y) = B ⇔ V y = V ( y) =

σ2 N −n n N −1

=D ⇒ n=

B2 =D 4

Nσ 2 ( N − 1) D + σ 2

Para estimar el total poblacional con un límite para el error de estimación B, dado que 2 V (τ ) = N 2 V ( y ) = B , se llega a la misma expresión de n pero con D =

B2 4N 2

En la práctica la varianza poblacional σ 2 es desconocida. Si disponemos de S 2 de un estudio anterior podemos obtener el valor de n sustituyendo en la anterior expresión σ 2 por S 2 , N −1 2   2 S .  aunque la estimación insesgada de σ es N   Si no se dispone de información previa para estimar la varianza podemos usar que en variables normales el rango de la muestra es aproximadamente cuatro veces su desviación típica

σ≅

R 4

⇔ σ2 ≅

R2 16

La proporción poblacional p es la media µ de una variable dicotómica ( B (1, p ) , E ( X ) = p , V ( X ) = pq ), luego el problema de determinar el tamaño muestral se hace de forma análoga sustituyendo σ 2 por pq, obteniéndose n=

Npq ( N − 1) D + pq

D=

B2 4

( proporcion)

D=

B2 4N 2

(total )

En la práctica p se desconoce. Una aproximación al mismo se obtiene reemplazándolo por el valor estimado p obtenido en encuestas preliminares. Si no se cuenta con información anterior, suponiendo p =

1 se obtiene un tamaño muestral conservador (mayor que el 2

requerido para obtener la cota del error de estimación prefijada). Ejemplo 2.4. (ejercicio 3, relación tema 2) Encuentre el tamaño de muestra necesario para

estimar el valor total de 1.000 cuentas por cobrar con un límite para el error de estimación de 10.000€. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las cuentas caen dentro del intervalo (600, 1.400).

28

Solución:

B2 10.0002 D= = = 25 4 N 2 4 ×1.0002

4σ ≅ 800 ⇒ σ ≅ 200 ⇒ σ 2 ≅ 40.000

Nσ 2 n= = 615, 62 ≈ 616 ( N − 1) D + σ 2

„

Si se realizan dos preguntas (o más) a cada elemento de la muestra, se calcularán los tamaños muestrales que satisfacen los límites para el error de estimación fijados para cada estimación y finalmente el mayor de los dos será el tamaño de la muestra que satisface ambos límites. Ejemplo 2.5. (ejercicio 4, relación tema 2) Los alumnos de TAM de una facultad con 3.000

estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que están a favor de hacer los exámenes en sábado con un límite para el error de estimación del 10%. La información previa disponible indica que el 60% preferían los exámenes en sábado. También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un error de estimación del 5%. Determínese el tamaño muestral que se requiere para estimar ambas proporciones con los límites de error especificados. Solución: p1 = proporción de estudiantes que prefieren los exámenes en sábado.

D1 = n1 =

B12 (0,10) 2 = = 0, 0025 4 4

Np1q1 3.000 × 0, 60 × 0, 40 = = 93, 05 ≈ 94 ( N − 1) D1 + p1q1 (2.999 × 0, 0025) + (0, 60 × 0, 40)

p2 = proporción de estudiantes que apoyan al equipo decanal.

D2 = n2 =

B22 (0, 05) 2 = = 0, 000625 4 4

Np2 q2 3.000 × 0,50 × 0,50 = = 353, 04 ≈ 354 ( N − 1) D2 + p2 q2 (2.999 × 0, 000625) + (0,50 × 0,50)

para cumplir con ambos objetivos habría que tomar n=354 con lo que el límite para el error de la estimación de p1 disminuiría (con un 95% de confianza) hasta: 2 V ( p1 ) = 2

p1 q1 N − n 0, 60 × 0, 40 3.000 − 354 =2 = 0, 0489 (≅ 4,9%) n −1 N 353 3.000

o bien la cota del error de estimación del 10% se tiene con un nivel de confianza mucho mayor 29



2

V ( p1 ) = 0,10 ⇒ Zα 0, 02445 = 0,10 ⇒ Zα = 4, 09 2

2

buscando en la tabla de la normal (o con ayuda de la hoja de cálculo Excel, ...) la probabilidad comprendida entre (-4,09 , 4,09) se obtiene 0,99995684, es decir, prácticamente del 100%. „

EJERCICIOS RESUELTOS 1. (Ejercicio 19, relación tema 2) Se selecciona una m.a.s. de 9 compras de clientes de un centro comercial para estimar el valor medio de las compras por cliente. VALOR en €

33,5 32

52

43

40

41

45

42,5

39

a) Obtener un intervalo de confianza para el valor medio de las compras. b) ¿Podemos aceptar que la compra media es de 45€? c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€? SOLUCIÓN:

a) µ = y = S2 =

33,5 + ... + 39 = 40,89 € 9

(

)

1 2 2 ( 33,5 − 40,89 ) + ... + ( 39 − 40,89 ) = 35, 67 9 −1

( )

V y =

S2 = 3,963 n

( )

B = 2 V y = 3,98 €

( 40,89 − 3,98 ; 40,89 + 3,98) = ( 36,91; 44,87 ) b) No, porque 45 ∉ ( 36,91; 44,87 )

σ2

S 2 35, 67 c) n = 2 ≅ 2 = = 35, 67 ≈ 36 compras B B 1 4 4 2. (Ejercicio 17, relación tema 2) Se han entrevistado 1.000 vecinos, elegidos aleatoriamente entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales. 655 manifestaron su opinión desfavorable. Estime la proporción de vecinos que están en contra de los nuevos impuestos y establezca el límite para el error de estimación. ¿Se puede afirmar que la mayoría de los habitantes están en contra?

30

SOLUCIÓN:

655 = 0, 655 ⇒ 1.000

p=

V ( p) =

p = 65,5%

pq 0, 655 × (1 − 0, 655) = = 0, 0002262012 n −1 999 2 V ( p ) = 0, 0301 ⇒ 3, 01%

(65,5% − 3, 01% , 65,5% + 3, 01%) = (62, 49% , 68,51%) p ∈ (62, 49% , 68,51%) ⇒

p > 50% ⇒ sí se puede afirmar que la mayoría de los

habitantes están en contra

3. (Ejercicio 18, relación tema 2) El Centro de Estadística desea estimar el salario medio de los trabajadores de los invernaderos de una región. Se decide clasificarlos en dos estratos, los que poseen contrato fijo y los que tienen un contrato temporal. El salario de los contratos fijos está comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los contratos temporales está comprendido entre 500 y 1.700 euros mensuales. ¿Cuál debe ser el tamaño muestral total y su asignación para que se estime el salario medio de los contratos fijos con un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior a 120€?` SOLUCIÓN:

Ri 2.200-1.200=1000 1.700-500=1.200 n1 =

n2 =

σ 12 D1

σ 22 D2

=

σ 12

=

σ 22

2 1

B 4

2 2

B 4

=

=

Ri ≈ σi 4 250 300

σ i2 62.500 90.000

62.500 62.500 = = 25 10.000 1002 4 4 90.000 90.000 = = 25 14.400 1202 4 4

n = n1 + n2 = 50

4. (Ejercicio 14, relación tema 2) Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000 préstamos hipotecarios. Existen razones para pensar que el préstamo hipotecario de menor cuantía es de algo más de 1200 euros, siendo de casi 11000

31

euros el de mayor cuantía. ¿cuál es el tamaño muestral necesario para estimar estos dos parámetros: -

la cuantía media de los prestamos cometiendo un error de estimación menor de 400 euros y

-

la proporción de préstamos pendientes de amortizar más de la mitad de la deuda cometiendo un error máximo del 5%?

SOLUCIÓN:

N = 2.000

R = 11.000 − 1.200 = 9.800 ⇒ σ ≅ D= n=

R = 2450 σ 2 ≅ 6.002.500 4

B 2 4002 = = 40.000 4 4

Nσ 2 = 139, 65 ≈ 140 ( N − 1) D + σ 2

B 2 0.052 = = 0, 000625 4 4 Npq n= = 333, 47 ≈ 334 ( N − 1) D + pq

D= p = q = 0,5

Para conseguir estimar los dos parámetros con los niveles de error especificados necesitamos un tamaño muestral igual al máximo de 140 y 334. n = 334 .

5. (Ejercicio 15, relación tema 2) Se desea estimar el salario medio de los empleados de una empresa y la proporción de empleados que apoyan a la actual directiva. La empresa tiene 110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros mensuales. ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido sea del 2%? SOLUCIÓN:

N = 110 R = 1.800 − 1.500 = 300 ⇒ σ ≅ D=

R = 75 σ 2 ≅ 5625 4

B 2 102 = = 25 4 4

Nσ 2 n= = 74,1 ≈ 75 ( N − 1) D + σ 2

D=

32

B 2 0.022 = = 0, 0001 4 4

p = q = 0,5

n=

Npq = 105, 4 ≈ 106 ( N − 1) D + pq

6. (Ejercicio 16, relación tema 2) Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en el registro mercantil. El número de bajas en el último año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule el límite para el error de estimación. b) Estime el número de empresas que usarían los servicios ofertados. Calcule el límite para el error de estimación. SOLUCIÓN:

a) N = 25 n=5 14 y = = 2,8 ⇒ τ = N y = 70 5 S2 12, 7 = 25 × 20 = 1270 V (τ ) = N ( N − n) n 5 B = 2 V (τ ) = 71, 2741 Nota: este apartado podrá resolverse de otra forma cuando estudiemos el muestreo por conglomerados. Véase ejercicio 10 de la relación del capítulo 6) b) p=

2 = 0, 4 ⇒ τ = N p = 10 5

V (τ ) = N ( N − n)

pq 0, 24 = 25 × 20 = 30 n −1 4

B = 2 V (τ ) = 10,9545

7. (Ejercicio 21, relación tema 2) El consumo medio de combustible de los taxis de una ciudad es 5.6 litros cada 100 Km. Puesto que se considera que el consumo es demasiado elevado, en 600 taxis se monta un dispositivo para disminuirlo. Pasado cierto tiempo se

33

toma una muestra aleatoria de 20 taxis, elegidos entre los 600 que colocaron el dispositivo. El consumo en litros de combustible por cada 100 Km. se recoge en la siguiente tabla Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo 1 5.4 6 6.3 11 3.6 16 5.4 2 5.5 7 5.4 12 6.7 17 4.8 3 6.9 8 5 13 5.2 18 4.7 4 3.9 9 4.5 14 5.1 19 5.8 5 4.5 10 4.4 15 5.4 20 6.2 a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo inferior a 5.6 litros/100 Km. b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error menor o igual que un 10%? SOLUCIÓN:

a) 15 de los 20 taxis no superan el consumo de 5’6 litros/100 Km, por tanto p=

15 = 0 '75 20

V ( p) =

pq N − n 0 '75 × 0 '25 580 = = 0 '00954 n −1 N 19 600

2 V ( p) = 0 '1953

( 0 '75 − 0 '1953 , 0 '75 + 0 '1953) = ( 0 '5547 , 0 '9453) b) B = 0 '10

D=

( 0 '10 )

n=

4

( 55'47% , 94 '53% )

2

= 0 '0025

Npq 600 × 0 '75 × 0 '25 = = 66 '77 ≈ 67 ( N − 1) D + pq ( 599 × 0 '0025 ) + ( 0 '75 × 0 ' 25 )

8. (ejercicio 1, práctica 2) Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada para estimar la cantidad total de deuda de las 100 cuentas abiertas. Los valores de la muestra para estas seis cuentas son los siguientes: Dinero adeudado (€) 35,50 32,00 43,00 41,00 44,00 42,50 Estime el total del dinero adeudado y establezca un límite para el error de estimación.

34

SOLUCIÓN:

yi

yi2 1260,25 1024,00 1849,00 1681,00 1936,00 1806,25

35,50 32,00 43,00 41,00 44,00 42,50 n

n

y = 238,00 ∑ y = 9556,50 ∑ i =1

i

i =1

τ =Ny=

2 i

N n

n

y = ∑ i =1

i

100 238=3966,6 6 2

S2 =

(

1 n ∑ yi − y n − 1 i =1

)

2

 n  yi  ∑ n

yi2 −  i =1  ∑ 1 2382  n = i =1 =  9556,50 −  = 23,1667 5 6  n −1

2 V (τ ) = 2 N ( N − n)

S2 23,1667 = 2 100(100 − 6) = 381, 02 n 6

Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se simplifican notablemente si utilizamos una calculadora científica de uso común. Estas calculadoras nos proporcionan los valores de un grupo de funciones estadísticas

∑x

2

∑x

x

σ n = sx

σ n = sx = desviación típica

σ n − 1 = Sx

de forma inmediata.

σ n − 1 = S x = cuasidesviación típica

9. (Ejercicio 16, relación tema 2) En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad. La ciudad tiene 5000 hogares, según la guía de teléfonos más reciente. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía. Al terminar la investigación de campo, de los 300 hogares muestreados, en 51 habita al menos una persona mayor de 65 años. Contraste la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años.

35

SOLUCIÓN: N=5000, n=300

p=

51 pq N − n = 0,17 q = 1 − p = 0,83 V ( p) = = 0, 00044359197 2 V ( p) = 0, 0421 300 n −1 N 25% ∉ (17% ∓ 4, 21% ) = (12, 79%, 21, 21% )

luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. 10. (Ejercicio 8, relación tema 2) El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un operador para terminar una tarea sencilla. El taller tiene 45 operadores. Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo. Los resultados obtenidos son los siguientes: Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3 ¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del taller para terminar dicha tarea es inferior a 6 minutos? SOLUCIÓN: (con las funciones del modo SD de la calculadora)

N=45, n=5

y=

1 n ∑ yi = 5, 26 n i =1

S2 =

(

1 n ∑ yi − y n − 1 i =1

)

2

= 2,563

S2 N − n = 0, 4556 2 V ( y ) = 1,35 INTERV . CONF .: ( 3,91 min ., 6, 61 min .) n N Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza, por tanto no V ( y) =

podemos aceptar esa hipótesis. 11. (Ejercicio 11, relación tema 2) Con objetivos benéficos, una asociación filantrópica ha solicitado firmas para una petición en 700 hojas. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las hojas se ha obtenido un número menor. Contando el número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los siguientes resultados: 50

50

∑ Y = 1.450; ∑ Y i =1

i

i

i =1

2

= 54.496

¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas recogidas para la petición? SOLUCIÓN: N=700, n=50 2

y=

36

1 n 1450 yi = = 29 ∑ 50 n i =1

 n  yi  ∑ n

yi2 −  i =1  ∑ n S 2 = i =1 = 254 n −1

τ = N y = 20.300

V (τ ) = N ( N − n)

S2 = 2.311.400 n

B = 2 V (τ ) = 3.040, 66

( 20.300 ∓ 3.040, 66 ) = (17.259,34 , 23.340, 66 ) Previsión más optimista: 23.340 ; previsión más pesimista: 17.259

37

3. Muestreo aleatorio estratificado. 3.1 3.2 3.3 3.4

Selección de una muestra aleatoria estratificada. Estimación de la media, proporción y total poblacionales. Determinación del tamaño muestral. Asignación de la muestra. 3.4.1 Asignación óptima. 3.4.2 Asignación de Neyman. 3.4.3 Asignación proporcional. 3.5 Estratificación después de seleccionar la muestra.

3.1 Selección de una muestra aleatoria estratificada.

Una muestra aleatoria estratificada se obtiene mediante la separación de los elementos de la población en conjuntos que no presenten intersección, llamados estratos, y la selección posterior de una muestra aleatoria simple en cada estrato. Los estratos deben formarse de manera que los elementos de cada estrato sean lo más homogéneos que se pueda entre sí (más homogéneos que el conjunto de la población) y las diferencias entre un estrato y otro sean las mayores posibles. Esta forma de construir los estratos conduce a muestras con poca variabilidad entre las mediciones que producirán pequeñas varianzas de los estimadores y por tanto menores límites para los errores de estimación que con otros diseños de la muestra. Otras ventajas adicionales que presenta este tipo de muestreo son las siguientes: ƒ

A veces los estratos se corresponden con zonas compactas bien definidas con lo que se reduce el coste (en tiempo y/o dinero) de la muestra.

ƒ

Además de las estimaciones para toda la población, este muestreo permite hacer estimaciones de los parámetros poblacionales para los estratos.

Antes de continuar fijemos la notación que va a utilizarse (a la izquierda para la población, a la derecha para la muestra):

L = número de estratos N = tamaño de la población

n = tamaño de la muestra

N i = tamaño del estrato

ni = tamaño de la muestra del estrato i

L

L

N = ∑ Ni

n = ∑ ni

µi = media poblacional del estrato i

y i = media muestral del estrato i

i =1

τ i = total poblacional del estrato i

38

i =1

σ i2 = varianza poblacional del estrato i

Si2 = varianza muestral del estrato i

pi = proporción poblacional del estrato i

p i = proporción muestral del estrato i

ci = coste de una observación del estrato i 3.2 Estimación de la media, proporción y total poblacionales.

En cada estrato se ha realizado un muestreo aleatorio simple, sabemos que en cada estrato L

N i y i es un estimador insesgado del total τ i , parece razonable estimar τ = ∑ τ i por i =1

L

τ

i =1

N

τ st = ∑ N i y i y la media poblacional µ =

mediante y st =

1 N

L

N y ∑ i =1

i

i

y st ≠ y en general ( y = media muestral de las n observaciones)

NOTA:

τ st ≠ τ en general ( τ = N y = estimador del total según un M.A.S.)

Varianza estimada de y st

1 L 2 1 L 2 Si2 N i − ni ( ) N V y Ni

=

∑ i i N2 ∑ N 2 i =1 ni N i i =1 (se obtiene aplicando las propiedades de la varianza mencionadas en el capítulo 2) V ( y st ) =

Varianza estimada de τ st

Si2 N i − ni V (τ st ) = N V ( y st ) = ∑ N ni N i i =1 L

2

2 i

En el caso de variables dicotómicas los estimadores de la proporción y total poblacionales así como sus varianzas toman valores similares a los anteriores salvo las diferencias de notación vistas en el capítulo anterior. Estimador de la proporción poblacional p

p st =

1 N

L

∑N i =1

i

pi

Varianza estimada de p st 1 L 2 1 L 2 p i q i N i − ni ( ) N V p Ni

= ∑ i ∑ i N 2 i =1 N 2 i =1 ni − 1 N i Estimador del total poblacional τ V ( p st ) =

L

τ st = N p st = ∑ Ni p i i =1

39

Varianza estimada de τ st L

V (τ st ) = N 2 V ( p st ) = ∑ N i2 i =1

p i q i N i − ni ni − 1 N i

Ejemplo 3.1. (Ejercicio 1, práctica 3) Se está interesado en determinar la audiencia de la

publicidad televisiva en una cadena local de un municipio, se decide realizar una encuesta por muestreo para estimar el número de horas por semana que se ve la televisión en las viviendas del municipio. Éste está formado por tres barrios con diferentes perfiles socio-culturales que afectan a la audiencia televisiva. Hay 210 hogares en el barrio A, 84 en el barrio B y 126 en el barrio C. La empresa publicitaria tiene tiempo y dinero suficientes como para entrevistar 30 hogares y decide seleccionar muestras aleatorias de tamaños: 15 del barrio A, 6 del barrio B, y 9 del barrio C. Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los resultados, con mediciones del tiempo que se ve la televisión en horas por semana, se muestran en la siguiente tabla: BARRIO A 26 34 36 32 38 39 29 37 38 35 41 28 41 37 29

BARRIO B 25 20 30 14 41 39

BARRIO C 22 14 17 15 11 21 14 20 24

Estime el tiempo medio que se ve la televisión, en horas por semana, para: a) Los hogares del barrio A. b) Los hogares del barrio B. c) Los hogares del barrio C. d) Todos los hogares Para todos los casos fije un límite para el error de estimación. Solución: en primer lugar se calculan las medias y varianzas muestrales en cada estrato

y1 = 34, 67 horas / semana

y 2 = 28,17 h / s

y 3 = 17,56 h / s S12 = 23, 24 S 22 = 112,57 S32 = 19, 28

y = 28, 23

S 2 = 92, 74

A partir de estos valores calculamos las varianzas de los estimadores de la media en cada estrato y los límites para los errores de dichas estimaciones N1 = 210 N 2 = 84 N 3 = 126 N = N1 + N 2 + N 3 = 420 n1 = 15 n2 = 6 n3 = 9 n = n1 + n2 + n3 = 30 40

V ( y1 ) =

S12 N1 − n1 = 1, 44 n1 N1

V ( y2 ) =

2 V ( y1 ) = 2, 40 h / s

S22 N 2 − n2 = 17, 42 n2 N 2

2 V ( y 2 ) = 8,35 h / s

V ( y3 ) =

S32 N 3 − n3 = 1,99 n3 N 3

2 V ( y 3 ) = 2,82 h / s

Para el conjunto de todos los hogares el estimador de la media es 1 3 ∑ Ni yi = 28, 23 h / s N i =1 y la varianza de este estimador la podemos calcular basándonos en las varianzas de los y st =

estimadores de la media en cada estrato mediante V ( y st ) =

1 N2

3

N V ( y ) = 1, 24 ∑ i =1

2 i

i

o, si se prefiere, utilizando 1 3 2 Si2 N i − ni Ni ∑ N 2 i =1 ni N i el error para la estimación de la media para todos los hogares está dado por V ( y st ) =

2 V ( y st ) = 2, 22 h / s

„

Ejemplo 3.2. (Ejercicio 2, práctica 3) En el caso anterior, también se desea saber qué

proporción de hogares ven un determinado programa, para decidir la conveniencia de insertar un anuncio en los intermedios del mismo. La respuesta a la pregunta de si ven dicho programa por los hogares de la muestra anterior se recoge a continuación: BARRIO A BARRIO B BARRIO C SI SI NO SI SI NO SI SI SI NO SI SI SI SI SI SI NO NO NO NO NO SI NO SI NO SI SI NO NO SI Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el programa. Solución: en primer lugar se calculan las proporciones muestrales en cada estrato

p1 =

7 = 0, 4667 15

p2 =

5 = 0,8333 6

p3 =

6 = 0, 6667 9

La estimación puntual de la proporción de hogares del municipio donde se ve el programa es 1 3 ∑ Ni pi = 0, 60 N i =1 la varianza y error de estimación asociados son p st =

1 3 2 p i q i N i − ni Ni = 0, 00748 ∑ N 2 i =1 ni − 1 N i y el intervalo de confianza expresado en porcentajes es V ( p st ) =

2 V ( p st ) = 0,173

41

( 60% ∓ 17,3% ) = ( 42, 7%, 77,3% )

„

3.3 Determinación del tamaño muestral.

El tamaño muestral para conseguir un límite para el error de estimación de la media, B, viene L

1 dado por 2 V ( y st ) = B donde V ( y st ) = 2 N

N ∑

2 i

i =1

σ i2 Ni − ni ni N i − 1

.

No podemos despejar el valor de todos los ni de una sola ecuación a menos que conozcamos la relación entre los ni y n . Hay diversas formas de asignar el tamaño muestral n en los diferentes estratos ni = nωi (problema de la asignación de la muestra que estudiaremos más adelante) , sustituyendo lo anterior en V ( y st ) se puede despejar n en función de los ωi obteniendo el tamaño muestral aproximado que se requiere para estimar µ con un límite para el error de estimación B (aproximado porque se hacen algunas modificaciones como N i − 1 ≅ N i , ... para resolver la anterior ecuación). N i2σ i2 ∑ L

n=

i =1

ωi

L

N 2D + ∑ N iσ i2 i =1

2

B D= 4

B2 y la misma expresión vale para el total tomando D = . 4N 2

Al igual que en el M.A.S. para poder usar la anterior ecuación necesitamos conocer las varianzas poblacionales de los estratos o valores aproximados de ellas, para lo cual se pueden usar las varianzas muestrales de un estudio previo o conocer la amplitud de variación de las observaciones dentro de cada estrato. En el caso de variables dicotómicas se obtiene una expresión similar, teniendo en cuenta que en este caso particular σ i2 = pi qi L

n=

N i2 pi qi

∑ω i =1

i

L

N 2D + ∑ N i pi qi i =1

D=

42

B2 B2 (para estimar p) y la misma expresión vale para el total tomando D = . 4 4N 2

3.4 Asignación de la muestra.

Hay diversas formas de asignar el tamaño muestral n en los distintos estratos. El objetivo del diseño de una encuesta por muestreo es proporcionar estimadores con varianza pequeña (por tanto, pequeño error de estimación) al menor coste posible. El mejor esquema de asignación está influido por: •

El número total de elementos en cada estrato.



La variabilidad de las observaciones en cada estrato.



El coste de obtener una observación en cada estrato.

3.4.1 Asignación óptima.

La asignación que minimiza el coste para un límite para el error de estimación fijado se denomina asignación óptima y está dada por N jσ j cj

ωj =

L

∑ i =1

N iσ i ci

sustituyendo los ω j en la expresión que obteníamos antes para n se tiene el tamaño total de la muestra según la asignación óptima L

n=

L

N i σ i ci ∑

Ni σ i ci



i =1

i =1

L

N 2D + ∑ N iσ i2 i =1

En el caso dicotómico las anteriores expresiones toman los valores p jq j cj

Nj

ωj =

L

∑N i =1

L

n=

N ∑ i =1

i

L

N ∑

pi qi ci

i

pi qi ci

i =1

i

pi qi ci

L

N 2D + ∑ N i pi qi i =1

En algunas ocasiones interesa encontrar la asignación que minimiza el error de estimación para un coste fijo de obtención de la muestra, en este caso la asignación óptima también es la respuesta y la elección de n viene dada por

43

n=

L Nσ C ∑ i i ci i =1 L

Nσ ∑ i

i =1

ci

i

donde C representa el coste total de obtención de la muestra (véase ejemplo 3.3). Análogamente para el caso dicotómico sustituyendo σ i =

pi qi .

3.4.2 Asignación de Neyman.

Cuando los costes de observación de cada estrato son los mismos, las expresiones de la asignación óptima se simplifican y transforman en: Caso numérico N jσ j

ωj =

L

∑Nσ i

i =1

i

(∑ N σ )

2

L

n=

i

i =1

i

L

N D+∑ N iσ i2 2

i =1

Caso dicotómico

ωj =

N j p jq j L

∑N i =1

(∑ N L

n=

i =1

i

i

pi qi

)

2

pi qi L

N 2D + ∑ N i pi qi i =1

A este tipo de asignación se le denomina de Neyman, que como acabamos de decir coincide con la asignación óptima cuando los costes de observación son iguales en todos los estratos. Las expresiones de esta asignación son más simples que las de la óptima y se utiliza aún cuando los costes de observación no son idénticos, a veces, sencillamente porque no se conocen. 3.4.3 Asignación proporcional.

Si además de los costes coincide el valor de las varianzas en cada uno de los estratos las expresiones de la asignación óptima se simplifican y reducen a

44

Caso numérico Nj

ωj =

N

L

n=

Nσ ∑ i

i =1

ND +

1 N

2 i

L

Nσ ∑ i

i =1

2 i

Caso dicotómico Nj

ωj =

N

L

n=

N pq ∑ i

i =1

ND +

1 N

i i

L

N pq ∑ i =1

i

i i

La asignación proporcional puede y suele utilizarse cuando las varianzas y costes de observación no son iguales para cada estrato, por la simplicidad de los cálculos y por las ventajas que presenta frente a los anteriores tipos de asignaciones: Cuando se utiliza la asignación proporcional el estimador y st coincide con la media muestral de toda la muestra, y st = y (análogamente para p st y el total). Cuando se toma más de una medición en cada unidad muestral para estimar más de un parámetro poblacional aparecen complicaciones en la asignación y determinación del tamaño muestral. En la práctica se usa la asignación proporcional cuando se observan varias variables porque usualmente está cercana al óptimo y si se usa la asignación óptima obtendríamos distintas asignaciones para cada variable que se mide. Con la asignación proporcional y tomando como n el máximo de los valores encontrados para cada estimación, estaremos utilizando estimadores, en muchos casos, con un límite para el error mucho más pequeño que el establecido. Aclarémoslo con un ejemplo. En la asignación óptima y en la de Neyman los ωi dependen de las varianzas y pueden ser distintos de una variable a otra 1ª estimación: n = 100 ω1 = 0,10 ⇒ n1 = 10 ω2 = 0,90 ⇒ n2 = 90 2ª estimación: n = 40 ω1 = 0,50 ⇒ n1 = 20 ω2 = 0,50 ⇒ n2 = 20

45

Aún tomando el mayor de los tamaños muestrales (100) y pasando la encuesta a 10 individuos del estrato 1 y 90 del estrato 2 no tenemos garantizado que se satisfaga el error de estimación fijado para la segunda estimación que necesita al menos 20 individuos de cada estrato. En la asignación proporcional no ocurre lo anterior pues los ω j =

Nj N

son iguales para todas

las variables al no depender de sus varianzas, así si en dos estimaciones para los niveles de error requeridos tenemos lo siguiente 1ª estimación: n = 100 ω1 = 0,30 ⇒ n1 = 30 ω2 = 0, 70 ⇒ n2 = 70 2ª estimación: n = 40 ω1 = 0,30 ⇒ n1 = 12 ω2 = 0, 70 ⇒ n2 = 28 tomando como n el máximo de los dos (o de los k si hay k variables que se observan), se tiene garantizado que se cumple con los límites para el error fijados para todas las estimaciones. Ejemplo 3.3 (Ejercicio 1, práctica 3) Continuando con el ejemplo 3.1

a) ¿Qué tipo de asignación se ha utilizado? Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un barrio que en otro. Se estima que el coste de una observación del barrio A es de 1€, 9€ para el barrio B y 4€ para el barrio C. b) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la semana que se ve la televisión en los hogares del municipio con un error inferior a 1 hora. (Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios). c) Supóngase que se tiene sólo 600€ para gastar en el estudio, determine el tamaño de la muestra y la asignación que minimizan el error de estimación. (Como en el apartado anterior, tómese los datos de la tabla como una muestra previa para estimar las varianzas de los estratos). Solución:

a) Podemos comprobar que se cumple que 15 210 = = 0,5 30 420

ni N i = n N

∀i

6 84 = = 0, 2 30 420

9 126 = = 0,3 30 420

luego la asignación utilizada ha sido la proporcional. b) Según los datos anteriores estimaremos las varianzas de cada estrato por 2

σ 1 = S12 = 23, 24 46

2

σ 2 = S22 = 112,56

2

σ 3 = S32 = 19, 28

D=

Ni

σi

ci

Niσ i ci

N iσ i ci

210 84 126 420

4,8208 10,6094 4,3909

1 3 2

1012,368 2673,5688 1106,5068 4792,4436

1012,368 297,0632 276,6267 1586,0579

N iσ i2

4880,4 9455,04 2429,28 16764,72

B2 1 = = 0, 25 4 4 3

n=

Nσ ∑ i =1

i

Ni σ i ci

3



ci

i

i =1

3

N 2D + ∑ N iσ i2

=

4792, 4436 × 1586, 0579 = 124,89 ( 4202 × 0, 25) + 16764, 72

i =1

N1σ 1 c ω1 = 3 1 = 0, 6383 N iσ i ∑ ci i =1

n1 = nω1 = 79, 71 ≈ 80

ω2 = 0,1873

n2 = nω2 = 23,39 ≈ 24

ω3 = 0,1744

n3 = nω3 = 21, 78 ≈ 22

n = 80 + 24 + 22 = 126

c) En el supuesto de que se disponga sólo de 600€ para realizar el estudio

n=

3 Nσ 600∑ i i ci i =1 3

Nσ ∑ i =1

i

i

ci

=

600 × 1586, 0679 = 198,57 4792, 4436

y los tamaños de la muestra en cada estrato están dados por la asignación óptima n1 = 0, 6383n = 126, 75 ≈ 126

n2 = 0,1873n = 37,19 ≈ 37 n = 126 + 37 + 34 = 197

n3 = 0,1744n = 34, 63 ≈ 34

o bien resolviendo la ecuación c1n1 + c2 n2 + c3 n3 = 600

donde ni = ωi n c1ω1n + c2ω2 n + c3ω3 n = 600 n=

600 600 = = 198,57 c1ω1 + c2ω2 + c3ω3 3, 0216

A partir de n se obtienen los ni = ωi n según la asignación óptima.

„

47

Ejemplo 3.4 (Ejercicio 2, práctica 3) Continuando con el ejemplo 3.2

a) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un error inferior al 5%. (Supóngase que se realiza la entrevista por teléfono y el coste de las observaciones es el mismo para todos los casos al no ser necesarios los traslados. Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios) b) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna información previa sobre la proporción de hogares donde se ve el programa. Solución: a)

Ni

pi

qi

N i pi qi

N i pi qi

210 84 126 420

0,4667 0,8333 0,6667

0,5333 0,1667 0,3333

52,2671 11,6685 27,9986 91,9342

104,7669 31,3075 59,3955 195,4699

B 2 0, 052 D= = = 0, 000625 4 4

(∑ N 3

n=

i

i =1

)

2

pi qi 3

N 2D + ∑ N i pi qi

=

195, 46992 = 188,98 ( 4202 × 0, 000625) + 91,9342

i =1

n1 = nω1 = n

N1 p1q1 3

∑N i =1

i

análogamente n2 = 30, 27 ≈ 31

= 188,98

pi qi

104, 7669 = 101, 29 ≈ 102 195, 4699

n3 = 57, 42 ≈ 58

⇒ n = 102 + 31 + 58 = 191

b) Ni 210 84 126 420

pi 0,5 0,5 0,5

qi 0,5 0,5 0,5

N i pi qi 52,5 21 31,5 105

L

n=

n1 = 204,878

N pq ∑ i =1

1 ND + N

i

i i

L

N pq ∑ i =1

i

i i

=

105

( 420 × 0, 000625) +

= 204,878

210 = 102, 439 ≈ 103 análogamente n2 = 40,98 ≈ 41 420 n = 103 + 41 + 62 = 206

48

105 420

n3 = 61, 46 ≈ 62 „

El muestreo estratificado no siempre conduce a un estimador con menor error de estimación, esto suele ocurrir cuando los estratos no incluyen datos homogéneos.

Esto es debido muchas veces a que predomina el deseo de obtener estimaciones en cada estrato (por ejemplo, en un estudio regional también se quieren obtener estimaciones a nivel provincial) frente al objetivo de minimizar los errores de los estimadores. Este problema queda bien ilustrado con el siguiente ejemplo. Ejemplo 3.5 (Ejercicio 1, relación tema 3) Un distribuidor de productos de limpieza desea

conocer el consumo por hogar durante un año de un determinado producto en una comarca formada por cuatro municipios. Para estimar de paso también el consumo en cada municipio decide usar muestreo estratificado tomando cada municipio como un estrato. Se sabe que el 20% de la población de la comarca vive en el municipio 1, el 30% en el municipio 2, el 25% en el municipio 3 y el 25% restante en el municipio 4. El distribuidor tiene medios suficientes para controlar y obtener datos sobre el consumo anual de 20 hogares. Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste del muestreo es el mismo en cada municipio, aplica asignación proporcional, la cual conduce a N1 = 20 × 0, 20 = 4 de forma similar n2 = 6 n3 = 5 n4 = 5 . N Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros). n1 = n

Estrato 1 470 510 500 550

y1 = 507,5 S12 = 1091, 67

Estrato 2 490 500 470 520 550 500 y 2 = 505 S 22 = 750

Estrato 3 540 480 500 470 470

Estrato 4 450 560 460 440 580

y 3 = 492 S32 = 870 y 4 = 498 S 42 = 4420

Estime el consumo anual medio por hogar y fije un límite para el error de estimación.

Solución:

y st =

1 N

N1 = 0, 20 N

4

4

i =1

i =1

∑ Ni yi = ∑

N2 = 0,30 N

N3 = 0, 25 N

N4 = 0, 25 N

Ni y i = ( 0, 20 × 507,5 ) + ( 0,30 × 505 ) + ( 0, 25 × 492 ) + ( 0, 25 × 498 ) = 500,5€ N

Obsérvese que cuando se utiliza la asignación proporcional y st = y , efectivamente y=

1 20 10010 yi = = 500,5€ ∑ 20 n i =1 49

En la siguiente expresión consideramos los c.p.f. en cada estrato iguales a la unidad 1 V ( y st ) = 2 N

4 2  Ni Si2 N i − ni N i2 Si2 = = N

 ∑ ∑ ∑ 2 ni N i ni i =1  N i =1 i =1 N 4

2 i

2

 Si2  =  ni

1091, 67      2 750  2 870  2 4420  =  0, 202  +  0,30  +  0, 25  +  0, 25  = 88, 29 4 6   5   5     2 V ( y st ) = 18, 79 € Supongamos que el distribuidor hubiera decidido tomar una muestra aleatoria simple de 20 hogares, los mismos 20 de la tabla anterior, entonces el estimador de la media es y=

1 20 ∑ yi = 500,5 € n i =1

que coincide con el estimador del muestreo estratificado por las razones mencionadas anteriormente, pero la varianza estimada y error de estimación asociados toman los valores (se omite el c.p.f.): S n2−1 = 1520, 79 V ( y) =

Sn2−1 N − n 1520, 79 = = 76, 04 20 n N 2 V ( y ) = 17, 44 €

Se observa que el error de estimación es menor en el caso del muestreo aleatorio simple, esto es debido a que el distribuidor no tuvo en cuenta que el consumo varía mucho dentro del cuarto municipio. Pudo haber obtenido un error menor si hubiera estratificado en base al tamaño de las familias u hogares, esto es, colocando los hogares pequeños en un estrato, los medianos en otro, ...

„

3.5 Estratificación después de seleccionar la muestra.

A veces no se sabe a qué estrato pertenece un dato hasta que no se observa (p.e. estratos según sexo y entrevista telefónica). Supóngase una muestra aleatoria simple de n personas para una encuesta. La muestra puede ser dividida en n1 masculinos y n2 femeninos después de que ha sido realizada. Entonces en lugar de usar y para estimar µ , podemos usar y st siempre que

Ni sea conocido para todo i. N

Obsérvese que en esta situación los ni son aleatorios, ya que varían de una muestra a otra aunque n sea fijo. Luego esto no es una muestra aleatoria estratificada en su pleno sentido,

50

pero si

Ni es conocido y ni ≥ 20 ∀i , entonces este método de estratificar después de la N

selección es casi tan exacto como el muestreo aleatorio estratificado con asignación proporcional. Si

Ni se desconoce o no se puede tener una buena aproximación de su valor, N

este método no debe usarse. Ejemplo 3.6 (Ejercicio 17, relación tema 3) En una ciudad se sabe que el 30% de los hogares

tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No eléctrica 40 2080 90 Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Dé un límite para el error de estimación. Solución: Ya que la proporción observada de facturas de hogares con calefacción eléctrica

(0,60=60/100) está muy alejada de la proporción verdadera (0,30), es conveniente la estratificación después de que se ha seleccionado la muestra aleatoria simple. Además el procedimiento se justifica pues tanto n1 como n2 superan 20. y1 = y st =

1 N

5730 = 95,5€ 60

2

2

i =1

i =1

∑ Ni y i = ∑

V ( y st ) =

1 N2

y2 =

2080 = 52€ 40

Ni y i = (0,30 × 95,5) + (0, 70 × 52) = 65, 05€ N 2

N i2 ∑ i =1

2 Si2 Ni − ni N2 S2 N − n = ∑ i2 i i i ni N i ni N i i =1 N

omitiendo el coeficiente corrector por poblaciones finitas se tiene 2  Ni N i2 Si2 ( )

= = V y st ∑ 2  ∑ ni i =1  N i =1 N 2

2

2 2  Si2   2 200  2 90  0,30 0, 70

= +      = 159, 225 60 40 n     i 

2 V ( y st ) =25,24€

„

A veces este método de estimación se utiliza para ajustar por no respuesta. Por ejemplo, si muchos de quienes no respondieron a una muestra aleatoria simple son varones, entonces la proporción de varones en la muestra va a ser pequeña, y se podría conseguir un estimador ajustado mediante la estratificación después del muestreo.

51

Así, en este ejemplo la baja representación en la muestra de facturas sin calefacción eléctrica y la alta de facturas con calefacción eléctrica conducen a una sobreestimación del valor medio de las facturas si se utiliza m.a.s. y no se ajusta la estimación de la media con la estraficación después de seleccionar la muestra:

y=

5730 + 2080 7810 = = 78,10€ 60 + 40 100

EJERCICIOS RESUELTOS 1. (Ejercicio 10, relación tema 3) De una ciudad con 350 casas, se sabe que 164 de ellas tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral Eléctrica 24 972 202,396 No eléctrica 36 463 96,721 a. Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad. Dé un límite para el error de estimación. b. Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas que no tienen calefacción eléctrica. Dé un límite para el error de estimación. SOLUCIÓN:

a. Ni

164 186 350

ni

24 36

Si2

yi

972 463

202,396 96,721

y st =

V ( y st ) =

Ni y i

1 N2

1 N L

L

∑N y i

i =1

N i2 ∑ i =1

159.408 86.118 245.526

i

=

0,854 0,806

245.526 = 701,50 350

Si2 N i − ni 268.624, 45 = = 2,19 ni N i 3502

2 2,19 = 2,96

52

N i − ni Ni

Si2 N i − ni N ni N i 193.699,13 74.925,32 268.624,45 2 i

b. y 2 = 463

V ( y2 ) =

S 22 N 2 − n2 96, 721 186 − 36 = = 2,17 n2 N 2 36 186

2 2,17 = 2,94 2. (Ejercicio 11, relación tema 3) Un analista de la opinión pública tiene un presupuesto de 20.000 euros para realizar una encuesta sobre el número medio de coches por hogar. Se sabe que de los 10.000 hogares de la ciudad, 9.000 tienen teléfono. Las entrevistas por teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado. Suponga que las varianzas en los estratos con y sin teléfono son iguales. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente? SOLUCIÓN:

n=

L Nσ C ∑ i i ci i =1 L

Nσ ∑ i =1

i

i

Ni 9.000 1.000 10.000

ci

=

L Nσ C ∑ i ci i =1 L

Nσ ∑ i

i =1

ci 10 30

=

ci

L N Cσ ∑ i ci i =1 L

σ∑ N i ci i =1

=

L N C∑ i ci i =1 L

N ∑ i =1

i

ci

=

20.000 × 3.028, 624 = 1784,81 33.937, 726

ωi

Ni ci

N i ci

2.846,05 182,574

28.460,5 2.846,05/3.028,624=0,9397 5.477,226 182,574/3.028,624=0,0603

3.028,624

33.937,726

1,0000

n1 = nω1 = 1.784,81× 0,9397 = 1677, 2 ≈ 1677 n2 = nω2 = 1.784,81× 0, 0603 = 107,59 ≈ 107 n = n1 + n2 = 1784

O bien c1n1 + c2 n2 = 20.000 c1ω1n + c2ω2 n = 20.000 9,397n + 1,809n = 11, 206n = 20.000 20.000 = 1.784,8 = n 11, 206 Y a partir de n se obtienen n1 y n2 como antes.

53

3. (Ejercicio 12, relación tema 3) Se desea conocer el número de fines de semana que las familias de una gran ciudad salen fuera de ella. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos, el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos. Se realizó un muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana que pasan fuera, obteniéndose los siguientes datos: Número de hijos ni

n

∑ yi

S i2

i =1

0-2 25 239 60’76 3-5 19 174 63’01 Mas de 5 16 78 78’24 Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y dar el límite de error de estimación. Omitir el corrector por población finita. SOLUCIÓN:

y1 = y st =

Si

1 N

239 = 9,56 25

L

L

i =1

i =1

∑ Ni y i = ∑

y2 =

174 = 9,16 19

y3 =

78 = 4,87 16

Ni y i = ( 0, 425 × 9,56 ) + ( 0,30 × 9,16 ) + ( 0, 275 × 4,87 ) = 8,15 N

N i − ni 1 = 1 ⇒ V ( y st ) = 2 Ni N

L

N i2 ∑ i =1

Si2 N i − ni 1 = 2 ni N i N

L

N i2 ∑ i =1

2

2 L L Si2 N2 S2  N i  Si = ∑ i2 i = ∑ =   ni i =1 N ni i =1  N  ni

60, 77    2 63, 01   2 78, 24  =  0, 4252  +  0,30  +  0, 275  = 1,107 25   19   16   2 1,107 = 2,1 4. (Ejercicio 6, relación tema 3) Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro barrios. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto. Los resultados se resumen en la tabla adjunta: Barrio 1 2 3 4 N i 240 190 350 220 ni 25 25 25 25 y i 3,5 3,6 3,9 3,8 S i 0,8 0,9 1,2 0,7 a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del nuevo servicio. b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuántos pertenecerían al barrio 3. (Suponga iguales los costes de observación) 54

SOLUCIÓN: a) L

N = ∑ N i = 1000

y st =

i =1

1 N

L

∑ Ni y i =3, 725 i =1

B = 2 V ( y st ) = 0,1973

b)

n3 = nω3 = 100

N 3σ 3

= 100

4

∑Nσ i =1

i

V ( y st ) =

1 N2

L

N i2 ∑ i =1

Si2 N i − ni = 0, 00973 ni N i

µ ∈ ( 3,5277 , 3,9223)

350 × 1, 2 = (240 × 0,8) + (190 × 0,9) + (350 × 1, 2) + (220 × 0, 7)

i

= 100 × 0, 4482 = 44,82 ≈ 45 5. (Ejercicio 20, relación tema 3) Una empresa especializada en seguros está pensando en ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad. Para ajustar sus tarifas desea estimar el gasto en pequeñas reparaciones de mantenimiento (objeto del seguro) de dichas empresas. Se clasifican las empresas en función de su tamaño. El número de empresas de cada tipo, el coste de obtención de esta información en cada empresa así como los valores mínimos, medios y máximos de un estudio similar hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados en euros) Tipo de Número de Costes de Gastos de reparación empresa empresas observación Mínimo Media Máximo A 100 16 400 500 600 B 500 9 240 300 360 C 700 4 70 100 130 Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación, ¿cuántas empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de estimación asociado? SOLUCIÓN:

La asignación que minimiza la cota del error de estimación para un coste fijo es la asignación óptima. Usamos que R≈4σ y por tanto estimamos que σ ≈ Ni

ci

100 16 500 9 700 4 600 = 16n1 + 9n2 + 4n3

ci 4 3 2

( ni = ωin )

Ri

σi

R . 4 N iσ i ci

ωi

600-400 50 360-240 30 130-70 15

1250 0’1087 5000 0’4348 5250 0’4565 11500 1 600 = 1’7392n + 3’9132n + 1’826n = 7’4784n 55

n = 600/7’4784 = 80’231 n1 = ω1n = 8’72 ≈ 8

n2 = ω2n = 34’88 ≈ 34 n3 = ω3n = 36’63 ≈ 36

C = (16×8) + (9×34) + (4×36) = 578 < 600

pero

C’ = (16×9) + (9×35) + (4×37) = 607 > 600 6. (Ejercicio 13, relación tema 3) En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante en ocio. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono del citado municipio. Después de obtenidos los datos se observa que sólo 100 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos Ni

HOMBRES 2.500

MUJERES 2.700

ni

100

400

yi

120

250

9.000 16.000 Si2 Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante muestreo aleatorio estratificado después de seleccionar la muestra. SOLUCIÓN: Ni ni

2.500 2.700 5.200

100 400 500

Si2

yi

120 250

Ni y i

9.000 16.000

y st = 1 V ( y st ) = 2 N

1 N

300.000 675.000 975.000

L

∑N y i =1

i

i

=

N i − ni Ni 0,96 0,85185

N i2

Si2 N i − ni ni N i 540.000.000 248.399.460 788.399.460

975.000 = 187,5 5.200

Si2 N i − ni 788.399.460

N = = 29,16 ∑ 5.2002 ni N i i =1 L

2 i

2 29,16 = 10,8

7. (Ejercicio 14, relación tema 3) En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar la proporción de individuos que ven un determinado programa de televisión. Se lleva a cabo la encuesta por teléfono mediante 56

una muestra aleatoria simple de 300 números de teléfono. Después de obtenidos los datos se observa que sólo 50 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES Encuestados 50 250 Ven el programa 12 130 Estime la proporción de la población que ven el programa de televisión y su cota de error, mediante muestreo aleatorio estratificado después de seleccionar la muestra. SOLUCIÓN:

12 = 0, 24 50

p1 = p st =

1 N

L

∑N i =1

L

i

pi = ∑ i =1

1 N2

130 = 0,52 q i = 1 − p i 250

Ni p i = ( 0,50 × 0, 24 ) + ( 0,50 × 0,52 ) = 0,38 ⇒ p st = 38% N Si

V ( p st ) =

p2 =

N i − ni =1 ⇒ Ni

p i q i N i − ni 1 = 2 ni − 1 N i N

2

L L pi qi N2 p q  Ni  pi qi = ∑ i2 i i = ∑ =   ni − 1 i =1 N ni − 1 i =1  N  ni − 1 i =1 i =1 0, 24 × 0, 76    2 0,52 × 0, 48  =  0,502  +  0,50  = 0, 0011812146 49 249     L

N i2 ∑

L

N i2 ∑

2 V ( p st ) = 0, 0687 ⇒ 6,87% 8. (Ejercicio 15, relación tema 3) Una corporación desea estimar el número total de horas perdidas debido a accidentes de sus empleados, en un determinado mes. Ya que los obreros, técnicos y administrativos tienen diferentes tasas de accidentes, la corporación decide usar muestreo estratificado, formando con cada grupo un estrato. Datos de años previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres grupos, y de datos actuales se obtienen los tamaños de los estratos. No habiendo diferencia entre los costes de observación de cada grupo, determine la mejor asignación para una muestra de 40 empleados. Obreros

Técnicos

Administrativos

Si2

36

25

9

Ni

132

92

27

57

SOLUCIÓN:

Ni 132

σ i ≈ Si 6

Niσ i 792

ωi 792

1.333

= 0,5941

460

= 0,3451 1.333 81 = 0, 0608 27 3 81 1.333 1.333 1 Donde se ha aplicado la asignación de Neyman al ser los costes de observación iguales: 92

5

N jσ j

ωj =

n1 = 40 × 0,5941 = 23,8 ≈ 24 n2 = 40 × 0,3451 = 13,8 ≈ 14

L

∑Nσ i

i =1

460

i

n3 = 40 × 0, 0608 = 2, 4 ≈ 2

n = 40

9. (Ejercicio 16, relación tema 3) Se dispone de la siguiente información sobre tamaños poblacionales de los estratos, costes de observación y estimaciones de las proporciones Tamaño del estrato Coste de observación Proporciones en % ESTRATO 1 5000 9 90 ESTRATO 2 2000 25 55 ESTRATO 3 3000 16 70 Determine la mejor asignación para una muestra de 200 observaciones. SOLUCIÓN:

Ni

ci

pi

qi

pi qi

ωi

Ni pi qi ci

5.000

3

0,90

0,10

0,3

500

500

2.000

5

0,55

0,45

0,4975

199

199

3.000

4

0,70

0,30

0,45826

343,695 1.042,695

Donde se ha aplicado la asignación óptima: Nj

ωj =

L

∑N i =1

i

1.042, 695

= 0, 4795

= 0,1909 1.042, 695 343, 695 = 0,3296 1.042, 695 1

p jq j

n1 = 200 × 0, 4795 = 95,9 ≈ 96

cj

n2 = 200 × 0,1909 = 38, 2 ≈ 38

pi qi ci

n3 = 200 × 0,3296 = 65,9 ≈ 66 n = 200

10. (Ejercicio 19, relación tema 3) La producción de piezas de una factoría se realiza en dos máquinas. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B. Se les pasó control de calidad a 200 piezas; 67 producidas por la máquina A y dos de ellas resultaron defectuosas; las 133 restantes procedían de la máquina B, siendo 6 de ellas defectuosas. Estimar la proporción de piezas defectuosas de la factoría y dar el límite de error de estimación. Omita el coeficiente corrector por población finita. 58

SOLUCIÓN:

p=

Estrato

Ni

ni

pi

A B

0.40 × N 0.60 × N N

67 133 200

2/67=0.030 6/133=0.045

pi qi ni − 1 0.000441 0.000326

1 ( ( 0.40 × N × 0.030 ) + ( 0.60 × N × 0.045) ) = ( ( 0.40 × 0.030 ) + ( 0.60 × 0.045) ) = 0.039 N

( )

(

( 3.9% )

)

1 0.402 × N 2 × 0.000441) + ( 0.602 × N 2 × 0.000326 ) = 2 ( N = ( 0.402 × 0.000441) + ( 0.602 × 0.000326 ) = 0.000188

V p =

(

)

B = 2 0.000188 = 0.0274

( 2.74% )

11. (Como ejercicio 3, relación tema 3) Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B. De entre los circuitos integrados muestreados de la operación A, 3 son defectuosos. De entre las piezas muestreadas de la operación B, 13 son defectuosas. Estime la proporción de los defectuosos en la población, y fije un límite para el error de estimación. SOLUCIÓN

p st =

1 N

L

L

i =1

i =1

∑ Ni pi = ∑

Ni 3   13   p i =  0, 60  +  0, 40  = 0,155 N 20   80  

(15,5% )

2

L L  Ni  pi qi p i q i N i − ni N i2 p i q i

N = ∑2 = ∑ = ∑   ni − 1 N i i =1 i =1 N ni − 1 i =1  N  ni − 1 2 0,15 × 0,85 2 0,1625 × 0,8375 = ( 0, 60 ) + ( 0, 40 ) = 0, 00267 19 79

1 V ( p st ) = 2 N

L

2 i

2 V ( p st ) = 0,103

(10,3% )

12. (Ejercicio 18, relación tema 3) Para la comercialización de un producto se le clasifica, atendiendo al calibre, en tres categorías: pequeña, mediana y grande. Un establecimiento dispone de 300 piezas pequeñas, 500 medianas y 200 piezas grandes. Para estimar el peso total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las categorías, resultando 59

Categoría Nº de piezas Peso en gramos Pequeña 5 12, 14, 12, 15, 12 Mediana 6 16, 22, 24, 20, 20, 18 Grande 4 30, 33, 31, 34 Considerando los anteriores datos como una muestra previa, obtenga el número de unidades que cada categoría debe aportar a la muestra para que el error en la estimación del peso total no supere el medio kilo. SOLUCIÓN:

Ni

Peso en gramos

(con las funciones del modo SD de la calculadora)

12, 14, 12, 15, 12

S1 = 1, 4142

S12 = 2

16, 22, 24, 20, 20, 18 S 2 = 2,8284

S22 = 8

30, 33, 31, 34

S32 = 3,3333

σi

S3 = 1,8257

σ

2 i

Niσ i

N iσ

ωj =

2 i

N jσ j

∑Nσ i =1

300 500 200

1,4142 2,8284 1,8257

2 8 3,3333

N = 1000

424,26 1414,2 365,14

600 4000 666,66

2203,6

5266,66 n=

1

(∑ N σ ) i =1

i

13, 79 ≈ 14 45,99 ≈ 46 11,87 ≈ 12 n = 72

2

i

L

i

N D+∑ N iσ 2

i

0,1925 0,6418 0,1657

L

B2 250.000 D= = = 0, 0625 2 4N 4.000.000

ni = 71, 66ωi

L

i =1

= 71, 66 2 i

13. (Ejercicio 3, relación tema 3) Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B. De entre los circuitos integrados muestreados de la operación A, 2 son defectuosos. De entre las piezas muestreadas de la operación B, 16 son defectuosas. a. Considerando únicamente la muestra aleatoria simple de 100 circuitos integrados, estime la proporción de los defectuosos en el lote, y establezca un límite para el error de estimación.

60

b. Estratifique la muestra, después de la selección, en circuitos integrados provenientes de la operación A y B, estime la proporción de los defectuosos en la población, y fije un límite para el error de estimación. c. ¿Qué respuesta encuentra más aceptable? ¿Por qué? SOLUCIÓN:

a. p =

pq 18 = 0, 001491 2 V ( p ) = 0, 0772 = 0,18 (18%) V ( p ) = n −1 100

b. p st =

1 N

L

L

i =1

i =1

∑ Ni pi = ∑ 1 V ( p st ) = 2 N

Ni 2   16   p i =  0, 60  +  0, 40  = 0,14 N 20   80  

( 7, 72% )

(14% ) 2

L L  Ni  pi qi p i q i N i − ni N i2 p i q i

N = ∑2 = ∑ = ∑   ni − 1 N i i =1 i =1 N ni − 1 i =1  N  ni − 1

= ( 0, 60 )

L

2

2 i

0,10 × 0,90 2 0, 20 × 0,80 + ( 0, 40 ) = 0, 00203 19 79 2 V ( p st ) = 0, 0901

( 9, 01% )

c. Aunque en el conjunto de la población hay más elementos que proceden de A (60%) que de B (40%), la muestra global no representa adecuadamente este hecho, predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el apartado a. la estimación esté sesgada hacia el valor de B ( p 2 = 0, 20 ) frente al de A ( p1 = 0,10 ). En el apartado b.

este hecho se corrige dando a p1 y p 2 las

ponderaciones 0,60 y 0,40 respectivamente para estimar p. 14. (Ejercicio 4, relación tema 3) Una cadena de restaurantes tiene 100 establecimientos en Madrid, 70 en Barcelona y 30 en Sevilla. La dirección está considerando añadir un nuevo producto en el menú. Para contrastar la posible demanda de este producto, lo introdujo en el menú de muestras aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de Sevilla. Usando los índice 1, 2 y 3 para designar Madrid, Barcelona y Sevilla, respectivamente, las medias y las desviaciones típicas muestrales del número de pedidos de este producto recibidos por restaurante en las tres ciudades durante una semana fueron: y1 = 21, 2

S1 = 12

y2 = 13,3

S 2 = 11

y3 = 26,1

S3 = 9

a. Estimar el número medio de pedidos semanales por restaurante para los restaurantes de la cadena. Dar un límite del error de estimación. 61

b. Determinar el tamaño muestral y la asignación para repetir el estudio anterior cometiendo un error inferior a 3 pedidos. SOLUCIÓN:

a. y st = V ( y st ) =

1 N

L

∑N y i

i =1

1 N2

L

i

N ∑ i =1

2 i

=

3834 = 19,17 pedidos / semana 200

Si2 N i − ni = 6, 2965 ni N i

2 V ( y st ) = 5, 02 pedidos / semana

b. Ni

σi

σ

2 i

Niσ i

N iσ

ωj =

2 i

N jσ j

∑Nσ i =1

100 70 30

12 11 9

144 121 81

N = 200

1200 770 270

14400 8470 2430

2240

25300 n=

2

i

L

i =1

62

i

N D+∑ N iσ 2

i

1

(∑ N σ ) i =1

i

0,5357 0,3438 0,1205

L

B2 9 D= = = 2, 25 4 4

ni = 43,52ωi

L

= 43,52 2 i

23,31 ≈ 24 14,96 ≈ 15 5, 24 ≈ 6 n = 45

4. Muestreo con información auxiliar. 4.1 Introducción. 4.2 Estimación de razón. 4.2.1 Estimación de la media y total poblacionales. 4.2.2 Determinación del tamaño muestral. 4.3 Estimación de regresión. 4.3.1 Estimación de la media y total poblacionales. 4.3.2 Determinación del tamaño muestral. 4.4 Estimación de diferencia. 4.4.1 Estimación de la media y total poblacionales. 4.4.2 Determinación del tamaño muestral.

4.1 Introducción.

Si entre dos variables existe una fuerte relación es posible utilizar la información auxiliar que de una de las variables se tenga, como puede ser la media o el total poblacional, para estimar la media o el total de la otra variable. Esta circunstancia es importante cuando se pretende estimar el total sin conocer el número de elementos de la población y sí el valor total de la variable que proporciona la información auxiliar Denotemos por Y → Variable bajo estudio X → Variable que proporciona la información auxiliar

Y supongamos que tenemos una muestra constituida por n pares:

(x1 , y1 ),..., ( x n , y n ) A través de los datos muestrales se puede estimar la relación existente entre ambas variables. Distintos diseños de muestreo pueden utilizarse con la estimación con información auxiliar. Aquí suponemos que el muestreo que se emplea es el aleatorio simple Ejemplo 4.1. Ya que existe una fuerte relación entre renta y ahorro, se puede estimar el valor

total de los ahorros de los empleados de una empresa si se conoce el valor total de las rentas de dichos empleados. Por ejemplo, si se estima que, por termino medio, el 10% de la renta se dedica al ahorro y si se conoce la renta total, el ahorro total se estima igual a la décima parte del total de la renta. Observemos que esto se puede llevar a cabo sin necesidad de conocer el número de empleados de la empresa.

„

Dependiendo de la relación entre las variables X e Y utilizaremos: •

Estimadores de razón ( y = bx ) 63



Estimadores de regresión ( y = a + bx )



Estimadores de diferencia ( y = a + x )

Cualquiera de estos estimadores sólo se debe utilizar si entre las dos variables existe una fuerte relación lineal positiva ( rxy >

1 ). 2

4.2 Estimación de razón

Dada una población de tamaño N en la que se consideran las variables X e Y , se define la razón como el cociente:

R=

τy τx

Es decir, la proporción del total de Y respecto del total de X . Puesto que τ y = Nµ y y

τ x = Nµ x , obtenemos R=

µY µX

De estas definiciones se deduce que

τ y = Rτ x µ y = Rµ x Por tanto, si se conocen los valores de la media y el total de la variable X , entonces para estimar la media y el total de Y sólo hay que estimar el valor de R (que notaremos como R = r ):

τˆy = rτ x µˆ y = r µ x Puesto que la razón R es el cociente entre las medias poblacionales, tomando una muestra aleatoria simple: ( y1 , x1 ),..., ( y n , x n ) , podemos estimar R tomando el cociente entre las medias muestrales:





64

ESTIMADOR DE LA RAZÓN:

VARIANZA ESTIMADA DE r :

1 n yi y n∑ i =1 r= = = x 1 n ∑ xi n i =1

n

∑y i =1 n

i

∑x i =1

i

1 n 1 S2  N − n  2 2 Vˆ (r ) = 2 r  S = , ∑ ( yi − rxi ) r n − 1 i =1 µ x n  N 

4.2.1 Estimación de la media y el total poblacionales

Hemos de suponer que entre X e Y existe una alta correlación lineal positiva y que el modelo lineal, donde X es la variable explicativa e Y la explicada, pasa por el origen,

( y = bx,

en este contexto se nota b = r dado su significado )

ESTIMADOR DE LA MEDIA:

µˆ y = rµ x



VARIANZA ESTIMADA DE µˆ y :

S r2  N − n  2 ˆ ˆ V (µˆ y ) = µ x V (r ) =   n  N 



ESTIMADOR DEL TOTAL:

τˆ y = rτ x



Observemos que no es necesario conocer el tamaño de la población N. •

VARIANZA ESTIMADA DE τˆ y :

τ x2 S r2  N − n  2 ˆ ˆ ˆ V (τ y ) = τ x V (r ) = 2   µx n  N 

Comentarios sobre el uso de estos estimadores:



Cuando N es desconocido y si estimamos que n ≤ 5% N (el tamaño poblacional es más de 20 veces el tamaño de la muestra), es decir que

N −n ≥ 0,95 , entonces N

N −n ≅ 1 . (Véase ejercicio resuelto 4) N •

De la relación µ x =

τx N

, conociendo dos de esos elementos se puede calcular el

tercero. •

A la hora de obtener Vˆ (τˆ y ) , si µ x es desconocida y no podemos utilizar la relación anterior entonces µ x ≅ x . Sin embargo, para estimar µˆ y necesitamos conocer el verdadero valor de µ x .



Son estimadores sesgados.



A la hora de estimar el total, aún conociendo el tamaño de la población, cuando existe una fuerte correlación entre las variables se comporta mejor el muestreo con información auxiliar (τˆ y = rτ x ) que el m.a.s (τˆ = Ny ) .

Ejemplo 4.2 (Ejercicio 2, relación tema 4, apartado (a))

Mediante una tasación previa se desea estimar la producción media y la producción total de los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada es de 65

3.840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les preguntó por la superficie plantada y se les tasó su producción. Los resultados fueron: Superficie Producción 3,7 12 4,3 14 4,1 11 5 15 5,5 16 3,8 12 8 24 5,1 15 5,7 18 6 20 3 8 7 20 5,4 16 4,4 14 5,5 18 5 15 5,9 18 5,6 17 5 15 7,2 22 Estime la producción media y total mediante los estimadores de razón y m.a.s., calcule sus respectivos límites para el error de estimación y compárelos. Solución

66

Y = " producción (toneladas, tm)" X = "superficie plantada (hectáreas, ha)" xi

yi

xi2

yi2

xi yi

3,7 4,3 4,1 5 5,5 3,8 8 5,1 5,7 6 3 7 5,4 4,4 5,5

12 14 11 15 16 12 24 15 18 20 8 20 16 14 18

13,69

144

44,4

18,49

196

60,2

16,81

121

45,1

25

225

75

30,25

256

88

14,44

144

45,6

64

576

192

26,01

225

76,5

32,49

324

102,6

36

400

120

9

64

24

49

400

140

29,16

256

86,4

19,36

196

61,6

30,25

324

99

5 5,9 5,6 5 7,2 105,2

TOTALES

15 18 17 15 22 320

25

225

75

34,81

324

106,2

31,36

289

95,2

25

225

75

51,84

484

158,4

581,96

5398

1770,2

Del enunciado y de la tabla anterior obtenemos

n = 20 n

∑ xi = 105, 2 i =1

n

∑ xi2 = 581,96

i =1

1 n 105, 2 xi = = 5, 26 ∑ 20 n i =1

y=

1 n 320 ∑ yi = 20 = 16 n i =1

(

n

∑ yi = 320

x=

sxy =

τ x = 3.840 ha

N = 750 socios

)(

i =1

sx2 = s 2y =

(

1 n ∑ xi − x n i =1

(

1 n ∑ yi − y n i =1

)

2

)

=

2

=

n

n

∑ yi2 = 5398

∑x y

i =1

i =1

i

i

= 1770, 2

2 1 n 2 581,96 xi − x = − 5, 262 = 1, 4304 ∑ 20 n i =1

2 1 n 2 5398 yi − y = − 162 = 13,9 ∑ n i =1 20

)

1 n 1 n 1770, 2 x − x y − y = xi yi − x y = − ( 5, 26 × 16 ) = 4,35 ∑ ∑ i i n i =1 n i =1 20

Si queremos calcular las cuasivarianzas, a partir de las varianzas se tiene:

S x2 =

n 2 20 sx = 1, 4304 = 1,5057 n −1 19

S y2 =

n 2 20 s y = 13,9 = 14, 6316 n −1 19

y hallando las raíces cuadradas obtenemos las desviaciones

(s , s ) x

y

y cuasidesviaciones

típicas ( S x , S y ) .

Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se simplifican notablemente si utilizamos una calculadora científica de uso común. Estas calculadoras nos proporcionan los valores de un grupo de funciones estadísticas

∑x

2

∑x

x

σ n = sx

σ n = sx = desviación típica

σ n − 1 = S x de forma inmediata. σ n − 1 = S x = cuasidesviación típica

  s 4,35 La relación entre las variables es alta  rxy = xy = = 0,9756  . Esto junto con la   sx s y 1,196 × 3, 728  

información auxiliar que disponemos de la variable X justifica el uso de estimadores de razón. Por otra parte, dado el contexto, es lógico que la relación pase por el origen (a 0 ha de superficie le corresponde una producción de 0 tm). 67

20

r=

∑y i =1 20

i

∑x i =1

=

320 = 3, 042 tm/ha 105, 2

i

τˆy = rτ x = 3, 042 × 3.840 = 11.680, 6 tm τ 3840 µ = x= = 5,12 ha / socio

x N 750 µˆ y = r µ x = 3, 042 × 5,12 = 15,57 tm/socio 2

Sr =

20 1 20 1  20 2 2 20 2 2 2 − = + − y rx y r x r xi yi ∑ ( i i ) n − 1  ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 i =1

S2  N − n  Vˆ ( µˆ y ) = r   = 0, 0344 n  N 



  =0, 706 

Bµ = 2 Vˆ ( µˆ y ) = 0,37 tm/socio

2 τ x2 Sr2  N − n  2 Sr  N − n  ˆ ˆ V (τ y ) = 2 =N   = 19.326, 75 µ x n  N  n  N 



Bτ = 2 Vˆ (τˆy ) = 278, 04 tm

o Bτ = 750 × Bµ = 750 × 0,37 = 277,5 tm (no coinciden los dos procedimientos por los errores de redondeo en el valor de Bµ ).

A continuación lo estimaremos utilizando muestro aleatorio simple. 320 y= = 16 tm / socio 20

S 2  N − n  14, 63  750 − 20  ˆ V y =  =   = 0, 712 20  750  n  N 

( )

Bµ = 2 0, 712 = 1, 69 tm / socio

τˆ = Ny = 750

320 = 12.000 tm 20

2 2 S  N −n 2 14,63  750 − 20  ˆ ˆ V (τ ) = N   = 750   = 400.539,47 20  750  n  N 

Bτ = 2 400.539, 47 = 1.265,76 tm o Bτ = 750 × Bµ

Observemos que el límite del error de estimación es mucho mayor que el cometido utilizando estimadores de razón. 4.2.2

„

Determinación del tamaño muestral

Tamaño muestral mínimo para que la estimación de la razón, la media y el total no supere una cota de error de magnitud B n= 68

Nσ r2 σ r2 + ND

donde para estimar: • • •

la razón:

B 2 µ x2 D= 4

la media:

B2 D= 4

el total:

B2 D= 4N 2

Comentarios:



σ r2 se estima utilizando una muestra previa (tamaño n' ): σˆ r2 = S r2 .



Si µ x es desconcocido, µˆ x2 = x 2

Ejemplo 4.3 (Ejercicio 2, relación tema 4, apartado (b))

Supongamos que queremos reducir el límite para el error de estimación (LEE) de la media a 0,25 tm/socio y el LEE del total no debe superar las 200 tm ¿a cuántos socios se les debe tasar su producción antes de realizar una nueva estimación? Solución

Nσ r2

MEDIA: n =

σ r2 + N Nσ r2

TOTAL: n =

σ r2 + N

B2 4N 2

2

B 4

=

=

750 × 0, 706 = 42,6 ≅ 43 socios  0, 252  0, 706 +  750 ×  4  

Nσ r2 750 × 0, 706 = = 37, 7 ≅ 38 socios 2 B  2002  2 σr + 0, 706 +   4N  4 × 750 

Necesitamos al menos 43 socios para cumplir con ambos niveles de error.

„

4.3 Estimación de regresión

El uso del estimador de razón es más efectivo cuando la relación entre las variables X e Y es lineal y pasa por el origen de coordenadas (en este caso proporciona estimadores insesgados). En caso de relación lineal que no pase por el origen de coordenadas es preferible utilizar estimadores de regresión. En el modelo lineal simple Y = a + bX , el método de mínimos cuadrados permite estimar a y b de la siguiente forma:

69

n

sxy S xy bˆ = 2 = 2 = sx Sx

∑ ( y − y )( x − x ) i

i =1

i

n

∑(x − x ) i =1

2

i

ˆ aˆ = y − bx

donde

4.3.1

S x2 =

1 n 2 ( xi − x ) ∑ n − 1 i =1

sx2 =

1 n 2 ( xi − x ) ; ∑ n i =1

S xy =

1 n ∑ ( xi − x )( yi − y ) n − 1 i =1

sxy =

1 n 1 n x − x y − y = ( )( ) ∑ i ∑ xi yi − x y i n i =1 n i =1

Estimación de la media y el total poblacionales

ˆ + bˆµ = y + bˆ ( µ − x ) µˆ yL = aˆ + bˆµ x = y − bx x x



ESTIMADOR DE LA MEDIA:



S2  N −n VARIANZA ESTIMADA DE µˆ yL : Vˆ (µˆ yL ) = L   n  N 

siendo S L2 la varianza residual en el modelo lineal simple:

( (

1 n S = ∑ yi − y + bˆ ( xi − x ) n − 2 i =1 2 L

))

2

2 n  2 sxy =  sy − 2 n − 2  sx

 n 2 s y (1 − rxy2 )  = 2 n − 



ESTIMADOR DEL TOTAL:

τˆ yL = Nµˆ yL



VARIANZA ESTIMADA DE τˆyL :

Vˆ (τˆ yL ) = N 2Vˆ (µˆ yL )

Comentario. En este caso para estimar el total es necesario conocer el tamaño de la población

N. No se puede estimar como τˆ yL = aˆ + bˆτ x ya que la recta de regresión no pasa por el punto



x

,τ y ) .

Ejemplo 4.4 (Ejercicio 3, relación tema 4, apartado (a))

Para un grupo de 1.000 pequeños establecimientos se desea realizar un estudio sobre las ventas diarias. Se tiene información de que, por término medio, el gasto en publicidad es de 5 euros. Se elige al azar una muestra de 18 establecimientos y se toman datos de su gasto en publicidad y ventas diarios. Los resultados son: Gastos Ventas 3,7 120 4,3 140 4,1 135 70

5 150 5,5 160 3,8 120 8 160 5,1 150 5,7 125 6 130 0 80 7 150 5,4 150 4,4 120 5,5 140 5 150 5,9 150 6,6 170 Estime el total de ventas diarias y la media utilizando estimadores de regresión. Obtenga el límite para el error de estimación. Solución

Denotamos Y = " ventas diaria (euros)";

X = " gastos diarios en publicidad (euros)"

Tal y como se explicó en la resolución del ejemplo 4.2 obtenemos: n = 18 establecimientos N = 1.000 establecimientos µ x = 5€ x = 5, 0556€ y = 138,889€ sx = 1, 6375 ⇒ sx2 = 2, 6814 n 2 s y = 20,314 ⇒ s y2 = 412, 654 S y2 = s y = 436,928 n −1 sxy = 27, 7284 La relación entre las variables es fuerte: rxy = 0,8336 .

(

µˆ yL = y + bˆ µ x − x

)

s 27, 7284 ↓ bˆ = xy2 = = 10,341 2, 6814 sx

µˆ yL = 138,314€ S L2 =

n −1 2 S y (1 − rxy2 ) = 141, 6 n−2 Bµ = 2 Vˆ ( µˆ yL ) = 5,56

τˆyL = N µˆ yL = 138.314€ S2  N − n  Vˆ ( µˆ yL ) = L   = 7, 73 n  N 

Bτ = N × Bµ = 1.000 × 5,56 = 5.560€

„

4.3.2 Determinación del tamaño muestral

Tamaño muestral mínimo necesario para que al estimar la media y el total poblacionales la cota de error no supere la magnitud B

71

n=

Nσ L2 σ L2 + ND

donde para estimar: •

la media: D =



el total:

D=

B2 4 B2 4N 2

σ L2 se estima utilizando una muestra previa (tamaño n' ): σˆ L2 = S L2 Ejemplo 4.5 (Ejercicio 3, relación tema 4, apartado (b))

Se quiere repetir el estudio anterior de forma que el error para la estimación del total no supere los 1.000 euros ¿cuál debe ser el tamaño muestral? Solución

n=

Nσ L2

σ L2 + N

2

B 4N 2

=

1000 ×141, 6 = 361, 6 ≅ 362 establecimientos.  10002  141, 6 +  1000  4 × 10002   „

4.4 Estimación de diferencia

El uso del estimador de diferencia tiene un buen comportamiento (cota de error más baja) cuando la relación entre las variables es lineal y la pendiente del modelo es uno.

(y = a+ x

ó

y = y + ( x − x) a = y − x = d

)

Comúnmente se emplea en procedimientos de auditoría.

4.4.1 Estimación de la media y el total poblacionales

µˆ yD = y + (µ x − x ) = µ x + d



ESTIMADOR DE LA MEDIA:



S2  N −n VARIANZA ESTIMADA DE µˆ yD : Vˆ (µˆ yD ) = D   n  N 

d = y−x

2 2 1 n 1 n ( ( ) ) ( y − x + d = d i − d ) , donde d i = y i − xi , por tanto S D2 es la ∑ ∑ i i n − 1 i =1 n − 1 i =1 cuasivarianza de los di .

S D2 =



72

ESTIMADOR DEL TOTAL:

τˆ yD = Nµˆ yD



VARIANZA ESTIMADA DE τˆYD : Vˆ (τˆ yD ) = N 2Vˆ (µˆ yD )

Ejemplo 4.6 (Ejercicio 4, relación tema 4, apartado (a))

Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario. Se tiene información de que los ingresos medios diarios son de 500 euros. Se elige al azar una muestra de 10 establecimientos y se toman datos de ingresos y gastos, obteniéndose: X=Ingresos Y=Gastos 470 405 650 585 710 650 300 240 475 410 505 435 610 550 380 320 540 480 520 460 Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo aleatorio simple, estimadores de razón, regresión y diferencia. Obtenga el LEE en cada caso. (Nota: en el enunciado de la relación de problemas sólo se pide mediante el estimador de diferencia) Solución

Y = "gasto diario (euros)" Denotamos  "  X = "ingresos diarios (euros)

Tal y como se explicó en la resolución del ejemplo 4.2 obtenemos: N = 200 establecimientos n = 10 establecimientos  x = 516€ y = 453,5€   sx = 115, 797 sx2 = 13.409 ⇒   s = 115, 738 s y2 = 13.395,3 ⇒  y  S 2 = 14883, 7  y  sxy = 13.396,5 La relación entre las variables es muy fuerte: rxy = 0,99958

µ x = 500€

rxy2 = 0,99916 .

MUESTREO ALEATORIO SIMPLE S y2 = 14883, 7

µˆ = y = 453,5€ 2 y

τˆ = Ny = 90.700€

ˆ µˆ ) = S  N − n  = 1.413,94 V(   n N 

ˆ µˆ ) = 75,20€ Bµ = 2 V(

Bτ = 200 × Bµ =15.040,97€

73

ESTIMADORES DE RAZÓN r=

y = 0,879 x 2

Sr =

τ x = 200µ x = 100.000

τˆy = rτ x = 87.900€

µˆ y = r µ x = 439,5€

n 1 n 1  n 2 2 n 2 2 y rx y r x r xi yi − = + − 2 ( ) ∑ i i n − 1  ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 i =1

S2  N − n  Vˆ ( µˆ y ) = r   = 21, 63 n  N 



  = 227, 717 

Bµ = 9,3€

Bτ = N × Bµ =1.860€ ESTIMADORES DE REGRESIÓN

(

µˆ yL = y + bˆ µ x − x

)

s 13.396,5 ↓ bˆ = xy2 = = 0,99907 13.409 sx µˆ yL = 437,515€ τˆyL = N µˆ yL = 87.503€ n −1 2 S y (1 − rxy2 ) = 14, 05 n−2 S2  N − n  Vˆ ( µˆ yL ) = L  ⇒  = 1,33 n  N  S L2 =

Bµ = 2,3104€

Bτ = NBµ = 462, 09€

ESTIMADORES DE DIFERENCIA

µˆ yD = µ x + d µˆ yD

↓ d = −62,5 = 437,5€

τˆyD = N µˆ yD = 87.500€

(con la calculadora hallamos σ n −1 sobre las diferencias di y lo elevamos al cuadrado)

(

1 n S = ∑ di − d n − 1 i =1 2 D

S2  N − n  Vˆ ( µˆ yD ) = D   = 1,1875 n  N 

)

2

= 12,5

Bµ = 2 Vˆ ( µˆ yD ) = 2,179

Bτ = NBµ = 435,8899

4.4.2 Determinación del tamaño muestral

Tamaño muestral mínimo necesario para que la estimación no supere un cota de error B al estimar la media y el total poblacionales n=

74

Nσ D2 σ D2 + ND

„

donde para estimar: • •

B2 la media: D = 4 el total:

B2 D= 4N 2

σ D2 se estima utilizando una muestra previa (tamaño n' ): σˆ D2 = S D2 Ejemplo 4.7 (Ejercicio 4, relación tema 4, apartado (b))

Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un error como máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral? Solución Nσ D2 200 × 12,5 n= = = 20 establecimientos 2 B 3002 2 σD + N 12,5 + 4N 2 4 × 200

„

EJERCICIOS RESUELTOS 1. (ejercicio 9, relación tema 4) En una población de 500 hogares, para la que es conocido que el gasto total general durante un año es de 15.000.000 €, se quiere estimar el gasto total en alimentación durante un año, para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona los siguientes valores anuales en €: Gasto en alimentación 12.500 15.000 10.000 17.500 Gasto general

24.000 31.000 20.000 36.000

Antes de calcular el estimador, ¿cree que es útil utilizar esta información auxiliar?, justifíquese. Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo de confianza. SOLUCIÓN (trabajaremos en cientos de euros) xi yi xi yi xi2 yi2 240 125 57.600 15.625 30.000 310 150 96.100 22.500 46.500 200 100 40.000 10.000 20.000 360 175 129.600 30.625 63.000 1110 550 323.300 78.750 159.500

75

n

N = 500 n = 4 r =

∑y i =1 n

i

∑x i =1

=

550 = 0, 4955 τ y = rτ x = 0, 4955 × 150.000 = 74.325 cientos de € 1110

i

τ y = 7.432.500 € 2

n 1 n 1  n 2 2 n 2  62, 2 2 S = y r x r xi yi  = + − = 20, 73 ( yi − rxi ) = ∑ ∑ ∑ ∑ i i  3 n − 1 i =1 n − 1  i =1 i =1 i =1  2 r

Sr2 = 1.285, 4667 2 V (τ y ) = 2.267,568 V (τ y ) = N ( N − n) n τ y ∈ ( 72.057, 432 ; 76.592,568 ) en cientos de € Para expresarlo en € hay que multiplicarlo por cien. 2. (Ejercicio 17, relación tema 4) Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio. El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del barrio. Sea x el número de personas en cada vivienda e y el número de habitaciones por vivienda. A partir de los datos siguientes: x = 9,1;

25

∑x

y = 2, 6;

i =1

2 i

= 2240;

25

∑y i =1

2 i

= 169;

25

∑x y i =1

i

i

= 522

Estime la razón personas/habitación en el barrio y establezca el límite para el error de estimación con una confianza del 95%. SOLUCIÓN (los papeles de las variables x e y deben permutarse en las expresiones del formulario) n

N = 275 n = 25 r =

∑x i =1 n

∑y

i =1 2

S r2 =

i

=

2 x = 3,5 pers./ hab. µ y2 ≅ y = 2, 62 = 6, 76 y

i

n 1 n 1  n 2 2 n 2  xi + r ∑ yi − 2r ∑ xi yi  = 27,34375 ( xi − ryi ) = ∑ ∑  n − 1 i =1 n − 1  i =1 i =1 i =1 

1 ( N − n) S r2 V (r ) = 2 = 0,1471 µy N n

2 V (r ) = 0, 767

3. (Ejercicio 12, relación tema 4) Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego constituida por 250 parcelas. Se seleccionan al azar 10 parcelas cuyo tamaño y metros cúbicos utilizados en riego aparecen en la siguiente tabla

76

m3

600

1800

750

900

1100

1400

950

700

1000

720

Hectáreas

50

150

60

70

100

120

80

60

90

60

Estime la media de m3 /hectárea que utiliza la comunidad de regantes y la cota del error de dicha estimación. SOLUCIÓN:

y = consumo de m3 litros de agua, X

x = tamaño de la parcela en hectáreas x2

Y 50 150 60 70 100 120 80 60 90 60 840

600 1800 750 900 1100 1400 950 700 1000 720 9920

2500 22500 3600 4900 10000 14400 6400 3600 8100 3600 79600

y2 360000 3240000 562500 810000 1210000 1960000 902500 490000 1000000 518400 11053400

xy 30000 270000 45000 63000 110000 168000 76000 42000 90000 43200 937200

n

r=

y ∑ i =1 n

i

x ∑ i =1

=

9920 = 11'81 m3 / hectarea 840

i

n 1 n 1  n 2 2 n 2  2

y + r

x − r

xi yi  = 2 ( yi − rxi ) = ∑ ∑ ∑ ∑ i i  n − 1 i =1 n − 1  i =1 i =1 i =1  1 = (11053400 + 11102297 '56 − 22136664 ) = 2114 '84 9

S r2 =

840 = 84 10 1 N − n Sr2 1 240 2114 '84 V (r ) = 2 = 2 = 0 '02877 µ x N n 84 250 10

µx = x =

2 V (r ) = 0 '3392

4. (Ejercicio 1, relación del tema 4) Se desea estimar el consumo mensual de una ciudad. Se sabe que los ingresos en dicha ciudad, vía declaración de la renta, ascienden a 1.502.530 euros mensuales. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen en esta tabla. Renta Consumo 1.702,44 1.204 1.339,56 1.000 981,06 800 2.537,04 1.800 1.519,85 1.200 3.080,19 2.600 77

1.502,53 1.080 1.702,87 1.240 1.402,36 1.000 1.803,04 1.400 2.053,46 1.484 3.005,06 2.000 Estime el consumo total mensual para todos los hogares de la ciudad mediante el estimador de razón. Obtenga el límite para el error de estimación. SOLUCIÓN: Denotemos por

Y = " consumo mensual" X = "ingresos mensuales" De la información muestral obtenemos n = 12 12

∑y i =1

i

= 16.808 euros

i

= 22.629,46 euros

12

∑x i =1

y como información auxiliar sabemos que τ x = 1.502.530 euros. s xy

Podemos comprobar que el coeficiente de correlación lineal es alto ( rxy =

sx s y

= 0,9677 ).

Esto junto con la información auxiliar nos permite utilizar muestreo con información auxiliar, en concreto utilizaremos estimadores de razón. 12

r =



yi



xi

i =1 12 i =1

= 0, 7427

τˆ y = r τ x = 1 .1 1 6 .0 0 2 , 0 7 €

τ2 S  N −n Vˆ (τˆY ) = x2 r  µ x n  N  2

↓ No conocemos N , pero en la ciudad hay muchos hogares, observando

12

∑ x < ( 5% τ ) i =1

N −n ≅1 N

↓ estimamos que n < ( 5% N ) ⇒ ↓ µ x = x = 1.885, 79€ 2

↓ Sr =

12 1 12 1  12 2 2 12 2 2 y rx y r x r xi yi − = + − 2 ∑ ( i i ) n − 1  ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 i =1

Vˆ (τˆY ) = 871.825.002, 67

78



  = 16.479, 7 

B = 2 Vˆ (τˆY ) = 59.053,37€

i

x

5 (Ejercicio 10, relación tema 4) Las diferencias entre ingresos y gastos, en 5 de las 250 oficinas que tiene abiertas una agencia de seguros, en el presente mes, han sido (en euros) 570 721 650 650 569 Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros, estime el total de ingresos y el límite para el error de estimación. SOLUCIÓN:

N=250, n=5, µ x = 12764 , X=gastos, Y=ingresos (con las funciones del modo SD de la calculadora) :

µ yD = µ x + d = 13396 € V (τ yD ) = N 2

d = 632

S D2 = 4095,5

τ yD = N µ yD = 3349000 €

N − n S D2 S2 = N ( N − n ) D = 50169875 € 2 N n n

2 V (τ yD ) = 14166,14 €

6. (Ejercicio 6, relación del tema 4) Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las ventas de televisores al final de un periodo de tres meses. Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses correspondiente al año anterior, ese total es de 128.200 €. Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la siguiente tabla: Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600 Usando un estimador de razón, estime el total de ganancias con un intervalo de confianza. SOLUCIÓN:

N=123, n=5, τ x = 128200 € , X=del año anterior, Y=del año actual (con las funciones del modo SD de la calculadora) : x = 882

5

∑ xi = 4410 i =1

y = 924

5

∑y i =1

i

= 4620

xi yi 335500 561600 2400000 1050600 372000

5

∑ xi2 = 4495700 i =1

5

∑y i =1

2 i

= 4961400 5

∑x y i =1

i

i

= 4719700

79

n

r=

y ∑ i

i =1 n

x ∑

2

y = 1, 047619 x

τ y = rτ x = 134304, 76 €

i

i =1

Sr =

=

5 1 5 1  5 2 2 5 2 2 y r x r xi yi + − 2 ( yi − rxi ) = ∑ ∑ ∑ ∑ i i n − 1 i =1 n − 1  i =1 i =1 i =1

V (τ y ) = N ( N − n )

Sr2 = 4761314, 071 n

  = 1640, 25 

2 V (τ y ) = 4364, 09

τ y ∈ (129940, 67 , 138668,85 ) 7. (Como ejercicio 7, relación del tema 4) Una agencia de publicidad está interesada en el efecto de una nueva campaña de promoción regional sobre las ventas totales de un producto en particular. Una muestra aleatoria simple de 5 tiendas es seleccionada de 452 tiendas regionales en las cuales se vende el producto. Los datos de las ventas trimestrales son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a la nueva campaña. Tienda Ventas antes de Ventas la campaña actuales 1 208 239 2 400 428 3 440 472 4 259 276 5 351 363 Usando los anteriores datos para estimar los parámetros necesarios, determine el tamaño de la muestra para estimar τˆY con un límite para el error de estimación de 2.000€, cuando se utiliza el estimador de razón. SOLUCIÓN:

N=452, n’=5, X=ventas antes, Y=ventas actuales (con las funciones del modo SD de la calculadora) : x = 331, 6

5

∑ xi = 1658 i =1

y = 355, 6

5

∑y i =1

i

= 1778

xi yi 49712 171200 207680 71484 127413

5

∑ xi2 = 587146 i =1

5

∑y i =1

2 i

= 671034 5

∑x y

5

r=

yi ∑ i =1 5

x ∑ i =1

80

i

=

y = 1, 072376 x

i =1

i

i

= 627489

2

Sr = D=

5 1 5 1  5 2 2 5 2 2 y rx y r x r xi yi − = + − 2 ∑ ( i i ) n '− 1  ∑ ∑ ∑ i i n '− 1 i =1 i =1 i =1 i =1

  = 109, 4775 

2 B2 = 4,8947 σ r = Sr2 = 109, 4775 2 4N

n=

Nσ r2 = 21,3 ≈ 22 ND + σ r2

81

5. Muestreo sistemático. 5.1 Selección de una muestra sistemática. Usos. Ventajas. 5.2 Estimación de la media, proporción y total poblacionales. 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas. 5.4 Determinación del tamaño muestral.

5.1 Selección de una muestra sistemática. Usos. Ventajas.

En el muestreo aleatorio simple, la selección de los elementos se efectúa con total aleatoriedad, todas las muestras posibles son igualmente probables y, para ello, se enumeran los N elementos de la población y después se seleccionan al azar los n elementos que han de formar la muestra. Esto, en general, complica el proceso de selección de la muestra. En el muestreo sistemático los elementos de la población se enumeran, o se ordenan. Una muestra sistemática de “1 en k” es la que se extrae de la siguiente forma: 1. Se selecciona aleatoriamente un elemento (llamado punto de inicio) de los primeros k elementos de la población. 2. Después se seleccionan cada k -ésimo elemento hasta conseguir una muestra de tamaño n . En general, k se toma como el número entero menor o igual que el cociente k≤

N : n

N n

Nos podemos encontrar con las siguientes situaciones: 1. k =

N entero. Entonces se obtienen exactamente n observaciones. n

Por ejemplo si N = 100 y n = 5 , entonces k = 20 y aún tomando la ultima observación del primer intervalo (20º), obtenemos 5 observaciones: 20º, 40º,…, 100º.

2.

N no es entero. Veámoslo con un ejemplo. n Por ejemplo si N = 103 y n = 5 , entonces

N = 20,6 y tomamos k = 20 . Según el n

punto inicial nos podemos encontrar con estas situaciones: a. Si elegimos, por ejemplo, el 2º como punto inicial, obtendríamos:

2º, 22º, 42º, 62º, 82º, ... 82

Al dividir la población en 5 intervalos de 20 elementos, sobran 3. Si no hay problema de coste podríamos elegir también el 102º y la muestra sería de tamaño 6. b. Si se elige, por ejemplo, la observación 18º como la inicial obtendríamos una

muestra de tamaño 5: 18º, 38º, 58º, 78º, 98º 3. N es desconocido. En este caso, la decisión sobre el valor de k se tomará de forma que se asegure el número mínimo deseado de elementos de la muestra. N se estima por defecto, así k será menor de lo necesario y, por tanto, el tamaño muestral será mayor o igual de lo requerido. Ventajas del muestreo sistemático frente al aleatorio simple: •

En la práctica el muestreo sistemático es más fácil de llevar a cabo y está expuesto a menos errores del encuestador. (En el m.a.s. se nos juntaría el trabajo si dos números aleatorios fueran consecutivos o muy próximos). Por ejemplo, sería difícil escoger una m.a.s. de 50 personas entre las que pasan por la esquina de una calle, porque no se conoce el tamaño poblacional N hasta que no pasen todas las personas; entonces seleccionaríamos n elementos al azar menores o iguales a N. Pero sí sería fácil, por ejemplo, coger 1 de cada 20 personas que pasen hasta completar la muestra ( n = 50 )



Frecuentemente con igual tamaño de muestra el muestreo sistemático proporciona más información que el muestreo aleatorio simple. Esto se debe a que la muestra

sistemática se extiende uniformemente a lo largo de toda la población, mientras que en el muestreo aleatorio simple puede ocurrir que un gran número de observaciones se concentre en una zona y descuide otras. Por ejemplo, supongamos que en una fábrica los primeros 500 tubos de escape se fabrican correctamente y los últimos 500 son defectuosos por un problema en la maquinaria. Una muestra aleatoria simple podría seleccionar un gran número o incluso todos del mismo grupo, dando una mala estimación de la proporción de defectuosos. El muestreo sistemático, en cambio, selecciona el mismo número de tubos de ambos grupos, dando una estimación mejor. En este caso, donde en cierta medida hay un orden en la población, el muestreo sistemático es mejor que el m.a.s.

83

Usos: Este tipo de muestreo es muy utilizado: en los planes de muestreo para el control de calidad dentro del proceso de fabricación, los auditores cuando se enfrentan a largas listas de

apuntes para comprobar y los investigadores de mercados cuando se enfrentan a personas en movimiento. 5.2 Estimación de la media, proporción y el total poblacionales 1 n ∑ yi+( j −1) k n j =1



ESTIMADOR DE LA MEDIA POBLACIONAL:

µˆ = ysy =



VARIANZA ESTIMADA DE y sy :

S2  N −n Vˆ ( y sy ) =   n  N 

Comentarios.

-

Si se desconoce el tamaño poblacional por su gran magnitud, entonces

-

Cuando N no es múltiplo exacto de n , el estimador es sesgado.

N −n ≅ 1. N

Como se puede observar la varianza estimada del estimador de la media es igual que en el muestreo aleatorio simple (véase 5.3 Comparación con el muestreo aleatorio simple). Esto no implica que las varianzas reales sean iguales: V (y) =

σ2 N −n n N −1

y

V ( y sy ) =

σ2 n

[1 + (n − 1)ρ ]

donde ρ = coeficiente de correlación entre los elementos de una muestra sistemática.

El tamaño poblacional se desconoce en muchas situaciones prácticas, en las que se sugiere el uso del muestreo sistemático. Cuando N es conocida, podemos estimar el total poblacional. •

ESTIMADOR DEL TOTAL POBLACIONAL:

τˆ = Ny sy



VARIANZA ESTIMADA DE τˆ :

S2  N −n Vˆ (τˆ ) = N 2Vˆ ( y sy ) = N 2   n  N 

Ejemplo 5.1 (Ejercicio 3, relación tema 5)

Los funcionarios de un museo están interesados en el número total de personas que visitaron el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades estuvo en exhibición. Puesto que el control de visitantes en el museo cada día es muy costoso, los 84

funcionarios decidieron obtener estos datos cada diez días. La información de esta muestra sistemática de 1 en 10 se resume en esta tabla Día 3 13 23

Nº personas que visitan el museo 160 350 225

173 290 18

18

i =1

i =1

∑ y i = 4.868;

2 ∑ y i = 1.321.450

Use estos datos para estimar el número total de personas que visitaron el museo durante el periodo especificado. Establezca un límite para el error de estimación. Solución

τˆ = Ny sy = 180

4.868 = 48.680 visitantes 18

2 2 S  N−n ˆ ˆ V (τ ) = N   n  N  ↓ N = 180 2  4868 )  ( 1.321.450 −    n  = 289, 79 ↓ S2 =  n −1 ˆ V (τˆ ) = 469.461,18

Bτ = 1.370,34

 

Como en el muestreo aleatorio simple, las propiedades del estimador de la proporción son análogas a las propiedades de la media muestral: •

ESTIMADOR DE LA PROPORCIÓN POBLACIONAL: pˆ sy =



VARIANZA ESTIMADA DE pˆ sy :

1 n ∑ yi+( j −1)k n j =1

Vˆ ( pˆ sy ) =

, yi = 0, 1

pˆ sy qˆ sy  N − n    n −1  N 

Notemos, de nuevo, que las varianzas estimadas son iguales a las del muestreo aleatorio simple. Esto no quiere decir que las varianzas reales lo sean. Ejemplo 5.2 (Ejercicio 2 (a), relación tema 5)

La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el permiso de conducir. Se instala un puesto de control en una carretera nacional y se detiene un conductor de cada siete. Use los datos de la tabla adjunta para estimar la proporción de 85

conductores que portan su licencia. Establezca un límite para el error de estimación. Suponga que 2.800 autos pasan por el puesto de verificación durante el periodo de muestreo. Automóvil 1 8 15

Respuesta 1 1 0

2794

1 400

∑ y i = 324

i =1

Solución

pˆ sy = y sy = Vˆ ( pˆ sy ) =

324 = 0,81 400

pˆ sy qˆ sy  N − n  0,81(1 − 0,81)  2.800 − 400   =   = 0,000330612 ⇒ B = 0,0364 400 − 1  2.800  n −1  N 

 

Si la estratificación de la población fuese ventajosa, el muestreo sistemático puede utilizarse dentro de cada estrato en lugar del m.a. simple, aplicándose las fórmulas del m.a. estratificado análogamente a como se han utilizado las del m.a. simple para aproximar el comportamiento del muestreo sistemático. 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas

Veamos bajo qué condiciones la varianza estimada de los estimadores en el muestreo sistemático se puede suponer igual a la del m.a. simple. Según las expresiones V (y) =

σ2 N −n n N −1

éstas serán similares cuando

σ V (y ) = [1 + (n − 1)ρ ] n 2

y

sy

N −n ≅ 1 y ρ ≅ 0 , pero en otros casos no. N −1

Distinguimos los siguientes casos: A. Población ordenada (ρ ≤ 0 )

Una población es ordenada cuando los elementos que la constituyen están ordenados de acuerdo con los valores, crecientes o decrecientes, de una determinada característica. En este caso es preferible el uso del muestreo sistemático, ya que la muestra se extiende uniformemente a lo largo de la población: 86

V ( y sy ) ≤ V ( y ) Por ejemplo, en una lista de cuentas por cobrar que estén ordenadas de mayor a menor cantidad, las estimaciones de una muestra sistemática tendrían en general una varianza menor que las de una muestra aleatoria simple (es posible que ésta última contenga solo cantidades grandes o cantidades pequeñas). Al utilizar las varianzas estimadas de los estimadores del m.a.s. en el m. sistemático conseguimos una estimación conservadora del error (mayor que el error real que cometemos en el m. sistemático). B. Población aleatoria (ρ ≅ 0 )

Se dice que una población es aleatoria cuando sus elementos están ordenados al azar. En este caso es indiferente el uso del muestreo aleatorio simple y el muestreo sistemático ya que

V ( y sy ) ≅ V ( y ) .

Por ejemplo, en una lista de estudiantes por orden alfabético, la estimación de sus calificaciones sería similar con ambos muestreos ya que las calificaciones no dependen del apellido del estudiante. C. Población periódica (ρ ≥ 0 )

Una población es periódica cuando los valores de la variable objeto de estudio tienen una variación cíclica. En este caso es preferible el muestreo aleatorio simple dado que V ( y sy ) > V ( y ) .

Por ejemplo: a. Supongamos que tenemos una lista en la que los nombres de mujeres y hombres se alternan. Una muestra sistemática con k par proporcionaría solo una lista de mujeres o de hombres. b. Ventas diarias de un supermercado con k = 7 Para evitar este problema, el investigador puede cambiar varias veces el punto de inicio aleatorio. Esto tiene el efecto de mezclar los elementos de la población y comportarse como una población aleatoria, en cuyo caso el uso de las expresiones del m.a.s. en el m. sistemático estaría justificado.

87

5.4 Determinación del tamaño muestral

El tamaño muestral requerido para estimar la media poblacional con un límite B para el error de estimación se obtiene despejando el tamaño muestral de la ecuación: 2 V ( ysy ) = B

Dado que el valor real de la varianza del estimador no es conocido, usaremos las expresiones del muestreo aleatorio simple. Lo anterior conduce a obtener muestras más grandes de las necesarias para poblaciones ordenadas y muestras más pequeñas para poblaciones periódicas (si no se mezclaran los elementos cambiando el punto de inicio). En poblaciones aleatorias no tendremos problemas. Tamaño muestral requerido para estimar µ y τ con un límite B para el error de estimación

n=

 B2  4 para estimar la media  con D =   B2  para estimar el total  4N 2

Nσ 2 ( N − 1) D + σ 2

Tamaño muestral requerido para estimar p y τ con un límite B para el error de estimación

n=

 B2 para estimar p  4  con D =   2  B para estimar el total  4N 2

Npq (N − 1)D + pq

Ejemplo 5.3 (Ejercicio 2 (b), relación tema 5)

En un nuevo control, la Guardia Civil de Tráfico espera que pasen unos 5.000 automóviles por el puesto de verificación. Determine el tamaño de muestra y k para estimar p con un error inferior al 2%. Solución p = 0,81

n=

q = 1 − p = 0,19

5.000 × 0,81× (1 − 0,81) Npq = = 1.176,97 ≅ 1.177 automóviles 2 B  0, 022  ( N − 1) + pq  (5.000 − 1)  + ( 0,81× (1 − 0,81) ) 4 4   k≤

88

N = 4, 25 n

Si tomáramos k=5 ⇒ n =

5000 5000 = 1000 . Tomando k=4 ⇒ n = = 1250 ≥ 1177 . 5 4

 

EJERCICIOS RESUELTOS 1. (Ejercicio 7, relación tema 5) La gerencia de una compañía privada con 2.000 empleados está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo (las respuestas a favor se han representado como 1) Empleado Respuesta muestreado 3 1 13 0 23 1 1993

1 200

∑y i =1

i

= 110

Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios). ¿Qué tipo de muestra sistemática deberá obtenerse? (indique n y k). SOLUCIÓN

110 0, 052 N = 2.000 p = = 0,55 q = 1 − p = 0, 45 D = = 0, 000625 200 4 Npq N n= = 330, 7 ≈ 331 k ≤ = 6, 04 ⇒ k = 6 ( N − 1) D + pq n 2. (Ejercicio 8, relación tema 5) Un auditor se enfrenta a una larga lista de 1.000 cuentas por cobrar de una empresa. El valor de cada una de estas cuentas no suele superar los 21.000 €. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a 1.000.000 € con una confianza del 95%. Para ello decide tomar una muestra sistemática de 1 en k . Determine el valor de k. SOLUCIÓN

21.0002 1.000.0002 = = = 250.000 27.562.500 D 42 4 × 1.0002 Nσ 2 N n= = 99,39 ≈ 100 k = = 10 2 ( N − 1) D + σ n

N = 1.000 R = 21.000 σ 2 ≅

89

3. (Ejercicio 5 (a), relación tema 5) La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años seleccionados sistemáticamente. Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad 1955 2.073.719 1.973.576 4.047.295 26,0 1960 2.179.708 2.078.142 4.257.850 23,7 1965 1.927.054 1.833.304 3.760.358 19,4 1970 1.915.378 1.816.008 3.731.386 18,4 1975 1.613.135 1.531.063 3.144.198 14,6 1980 1.852.616 1.759.642 3.612.258 15,9 Estime el número medio de varones nacidos por año para el periodo 1955-1980, y establezca un límite para el error de estimación. SOLUCIÓN 1 n 1 µˆ = ysy = ∑ yi = 11.561.610 = 1.926.935 n i =1 6

S2  N −n Vˆ ( y sy ) =   n  N  ↓ N = 26 años ↓ S 2 = 37.913.412.871,20

Vˆ ( y sy ) = 4.860.693.957,85 B = 139.437,35

4. (Como ejercicio 1, relación tema 5) La sección de control de calidad de una empresa usa el muestreo sistemático para estimar la cantidad media de llenado en latas de 33cl que salen de una línea de producción. Los datos de la tabla adjunta representan una muestra sistemática 1 en 300 de una producción diaria de 1800 latas. Cantidad de llenado en cl 33 32,5 33,5 33 32 31 Determine el tamaño de la muestra y k para estimar el contenido medio de las latas con un error de estimación inferior a 0,42 cl, considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios. SOLUCIÓN:

N=1800, n’=6, (con las funciones del modo SD de la calculadora) : S n2' −1 = 0,8 D= 90

B2 = 0, 0441 4

n=

Nσ 2 = 17,97 ≈ 18 ( N − 1) D + σ 2

k=

σ 2 = Sn2'−1

1800 = 100 18

5. (Ejercicio 9, relación tema 5) Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los funcionarios tomaron una muestra sistemática de 1 en 10, a partir de una lista en orden alfabético de los 650 miembros registrados, obteniendo que 47 estaban a favor de los cambios propuestos. Se quiere repetir el estudio anterior con un error de estimación inferior al 5%. Considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios, ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k). SOLUCIÓN:

N=650, n’=65, p = B = 0, 05 n=

47 = 0, 7231 65

q = 1 − 0, 7231 = 0, 2769

B2 D= = 0, 000625 4

Npq = 214,8 ≈ 215 ( N − 1) D + pq

k≤

650 = 3, 02 215

k =3

91

6. Muestreo por conglomerados. 6.1 6.2 6.3 6.4

Necesidad y ventajas del muestreo por conglomerados. Formación de los conglomerados. Conglomerados y estratos. Estimación de la media, proporción y total poblacionales. Determinación del tamaño muestral.

6.1 Necesidad y ventajas del muestreo por conglomerados.

Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de muestreo es una colección (o conglomerado) de elementos. El muestreo por conglomerados es útil para obtener información en las siguientes situaciones: ƒ

Es complicado disponer de una lista de los elementos de la población, mientras que es fácil lograr un marco que liste los conglomerados. (Alumnos que asisten a clase = elemento, aulas = conglomerados)

ƒ

El coste de obtención de las observaciones es menor debido al agrupamiento de los elementos.

6.2 Formación de los conglomerados. Conglomerados y estratos.

Lo primero que debemos hacer es especificar los conglomerados apropiados. Si los elementos dentro de un conglomerado presentan características similares, entonces tomar muchas observaciones dentro de un conglomerado sería un trabajo no productivo. Sin embargo, si los elementos de un conglomerado son diferentes entre sí, una muestra con pocos conglomerados recogería gran cantidad de información sobre un parámetro poblacional. Nótese que los estratos deben ser tan homogéneos como sea posible, pero un estrato debe diferir tanto como se pueda de otro con respecto a la característica que está siendo medida. Los conglomerados, por otro lado, deben ser tan heterogéneos dentro de ellos como sea posible y un conglomerado debe ser muy similar a otro para que el muestreo por conglomerados esté indicado. Una vez especificados los conglomerados, se selecciona una muestra aleatoria simple de conglomerados. 6.3 Estimación de la media, proporción y total poblacionales.

Vamos a utilizar la siguiente notación: N = conglomerados en la población.

n = conglomerados en la muestra.

92

mi = elementos en el conglomerado i yi = suma de las observaciones en el conglomerado i N

M = ∑ mi = elementos en la población (con frecuencia es desconocido) i =1

n

m = ∑m i = elementos en la muestra i =1

1 N mi = tamaño medio de los conglomerados de la población (con frecuencia es ∑ N i =1 desconocido). 1 n m = ∑m i = tamaño medio de los conglomerados de la muestra (se n i =1 M=

utililza para estimar M . (A) Estimación de la media.

El estimador de la media poblacional µ es la media y , n

1 n µ = y = ∑ yi = m i =1

∑y i =1 n

i

∑m i =1

i

La media y tiene la forma de un estimador de razón, por lo que la varianza estimada de y toma la forma de la varianza de un estimador de razón. V ( y) =

1 N − n Sc2 2 N n M

donde Sc2 =

(

1 n ∑ yi − ymi n − 1 i =1

)

2

( M puede ser estimado por m , si se desconoce) La varianza estimada es sesgada y sería un buen estimador de V ( y ) si n es grande ( n ≥ 20 ). El

sesgo

desaparece

cuando

los

tamaños

de

los

conglomerados

son

iguales

( m1 = m2 = ... = mN ) Notas:

• La expresión de V ( y ) =

1 N − n Sc2 no se suele simplificar pues como ocurre en el 2 N n M

ejercicio 4, relación del tema 6, a veces N no se conoce y en otras ocasiones como en este último ejemplo porque M es desconocido y M debe ser estimada por m . 93

• Si la variable que estamos estudiando es dicotómica, hablaremos de la proporción poblacional p y de la proporción muestral p . En este caso al número total de elementos en el conglomerado i que poseen la característica de interés se nota como ai en lugar de yi como es habitual en variables numéricas. Así tendremos que n

p= y=

∑a i =1 n

i

∑m i =1

i

Salvo esta diferencia en la notación, todo lo anteriormente expuesto para variables numéricas es válido para variables dicotómicas. (B) Estimación del total.

De la relación entre la media y el total poblacional µ =

τ M

se sigue que τ = M µ , siendo el

estimador del total poblacional τ

τ =My y la varianza estimada del mismo V (τ ) = M 2 V ( y ) = N ( N − n)

Sc2 n

(sea cual sea el valor de M no afecta a la varianza ni al error del estimador, aunque sí al valor del estimador del total) (C) Estimación del total cuando se desconoce el tamaño de la población.

Frecuentemente el número de elementos en la población no es conocido en problemas donde se aplica el muestreo por conglomerados. En ese caso no podemos utilizar el estimador del total τ = M y , debemos construir un estimador del total que no dependa de M . La cantidad yt =

1 n ∑ yi , es el promedio de los totales de los conglomerados de la muestra y por tanto un n i =1

estimador insesgado del promedio de los N totales de los conglomerados de la población. Por el mismo razonamiento empleado en el muestreo aleatorio simple, N y t es un estimador insesgado de la suma de los totales de todos los conglomerados, o equivalentemente del total poblacional τ .

94

En resumen

τ t = N yt St2 V (τ t ) = N V ( y t ) = N ( N − n) n 2

1 n N − n St2 , St2 = donde V ( y t ) = ∑ yi − y t n − 1 i =1 N n

(

)

2

Si existe una gran variación entre los tamaños de los conglomerados y además los tamaños están altamente correlacionados con los totales de los conglomerados, la varianza de N y t es generalmente mayor que la varianza de M y . Esto es debido a que el estimador N y t no usa la información proporcionada por los tamaños de los conglomerados y por ello puede ser menos preciso. Cuando los tamaños de los conglomerados son iguales los dos estimadores del total coinciden, además el estimador de la media, y , es un estimador insesgado de la media poblacional, µ , y también es insesgado el estimador de su varianza, V ( y ) (lo mismo se extiende al total).

Ejemplo 6.1 (como ejercicio 13, relación tema 6, pero con menos datos) En una urbanización

ciudad se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital, para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. Se extrae una muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la manzana Nº hogares interesados 1 8 2 2 7 2 3 9 3 4 6 3 5 5 3 a) Estime la proporción de hogares interesados en contratar el sistema de televisión digital. Calcule el límite para el error de estimación. b) Con un intervalo de confianza estime el número de hogares interesados en contratar dicho sistema. c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es 1500.

95

SOLUCIÓN Aunque en un caso de variables dicotómicas como éste se suele usar en los textos la

notación ai en lugar de yi , utilizaremos esta última para unificar la notación a emplear en el muestreo por conglomerados mi

yi

mi2

yi2

mi yi

8 7 9 6 5 35

2 2 3 3 3 13

64 49 81 36 25 255

4 4 9 9 9 35

16 14 27 18 15 90

n

p= y=

a)

∑y

i

i =1 n

∑m

(

∑ yi − ymi i =1 n

)

2

Sc2 =

n

i =1

i =1

m = 255 ∑

2 i

i =1

n

= ∑ yi2 − 2 y ∑ yi mi + y n

y = 35 ∑

13 = 0,3714 35

2 i

i =1

(

p = 37,14%

i

i =1

n

=

1 n ∑ yi − ymi n − 1 i =1

)

2

=

2

n

m = 3,3222 ∑ i =1

n

ym ∑ i

i =1

i

2 i

= 90

3,3222 = 0,8306 4

Ya que M es desconocido, M debe ser estimada por m m=

1 n 35 m i = = 7 hogares / manzana ∑ n i =1 5

V ( y) =

1 N − n Sc2 = 0, 003305 2 N n M

yt =

b)

1 n 13 yi = = 2, 6 ∑ n i =1 5

(y − y ) ∑ n

S = 2 t

i =1

i

t

n −1

2

2 V ( y ) = 0,115

τ t = N y t = 520 2

1 n 

y

yi  − ∑ ∑  n  i =1  = i =1 = 0,3 n −1 n

11,5%

2 i

V (τ t ) =

N ( N − n) St2 = 2.340 n

( 423, 25 , 616, 75 )

2 V (τ t ) = 96, 75

c)

τ = M y = 557,14 96

M=

1500 = 7,5 200

V ( y) =

1 N − n Sc2 = 0, 0028795 2 N n M

V (τ ) = M 2 V ( y ) = 6478,8

2 V (τ ) = 160,98

( 396,16 , 718,12 )

Como puede observarse, el límite para el error de estimación es más pequeño en b) que en c), debido a que los tamaños de los conglomerados no están altamente correlacionados con los totales de los conglomerados en este ejemplo ( rmy2 = 0, 08 ). En otras palabras, los tamaños de los conglomerados proporcionan poca información referente a los totales de los conglomerados. 6.4 Determinación del tamaño muestral.

Supongamos que los conglomerados ya están formados y vamos a seleccionar el número de conglomerados n para conseguir un determinado límite para el error de estimación B n= donde σ c2 se estima mediante Sc2 = B2 M D= 4

Nσ c2 ND + σ c2

(

1 n ∑ yi − ymi n − 1 i =1

2

para la estimación de la media y D =

)

2

de una muestra previa, siendo

B2 para la estimación del total. 4N 2

Habitualmente el tamaño promedio de los conglomerados de la población M no se conoce y tiene que estimarse por el tamaño medio m de los conglomerados de una muestra previa.

Cuando se utiliza N y t para estimar el total, el número de conglomerados en la muestra para obtener un determinado límite para el error de estimación B viene dado por n= D=

Nσ t2 ND + σ t2

1 n B2 2 2 S = y σ se estima mediante ∑ yi − y t t t n − 1 i =1 4N 2

(

2

)

2

de una estimación del rango de los valores de yi como σ t =

de una muestra previa (o a partir R2 ). 16

Ejemplo 6.2 Suponiendo que los datos del ejemplo 6.1 representan una muestra previa, cómo

debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un límite para el error de estimación del 1%.

97

SOLUCIÓN 2

B2 M 0, 012 × 7 2 = = 0, 001225 D= 4 4

1 n 35 M ≅ m = ∑m i = =7 n i =1 5

S = 0,8306 2 c

n=

Nσ c2 = 154, 4 ≈ 155 ND + σ c2

EJERCICIOS RESUELTOS 1. (Ejercicio 6, relación tema 6) Con motivo del cuarto centenario del Quijote, el Ministerio de Cultura desea estimar el número de libros comprados cada mes en una localidad. Se selecciona una localidad con 6.200 hogares agrupados en 700 manzanas de viviendas. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias, obteniéndose los siguientes resultados: manzana libros comprados cada mes por familia 1 1 2 1 0 3 2 1 0 1 2 2 1 0 2 2 0 0 1 3 3 2 1 1 1 1 0 2 1 2 2 2 4 1 1 0 2 1 0 3 Determine, usando los datos de la encuesta piloto, cuántas manzanas debe tener una nueva muestra si se quiere estimar los libros comprados cada mes con un error de estimación inferior a 140 unidades. SOLUCIÓN

mi

yi

10 8 11 7 36

13 9 15 8 45

mi2 yi2 mi yi 100 169 130 64 81 72 121 225 165 49 64 56 334 539 423 n

M = 6.200 N = 700

y=

∑y i =1 n

∑m i =1

σ c2 ≅ Sc2 =

(

1 n ∑ yi − ymi n − 1 i =1

)

n= 98

2

=

i

= 1, 25 D =

B2 = 0, 01 4N 2

i

n n 2 1  n 2  2 y y m y mi yi  = 1,125 + − 2 ∑ ∑ ∑ i i  n − 1  i =1 i =1 i =1 

Nσ c2 = 96,92 ≈ 97 ND + σ c2

2. (Ejercicio 2, relación tema 6 pero con menos datos) Una industria está considerando la revisión de su política de jubilación y quiere estimar la proporción de empleados que apoyan la nueva política. La industria consta de 57 plantas. Se selecciona una muestra aleatoria simple de 5 plantas y se obtienen las opiniones de los empleados en estas plantas a través de un cuestionario. Los resultados se presentan en esta tabla: Planta Nº empleados Nº empleados que apoyan la nueva política 1 51 42 2 62 53 3 49 40 4 73 45 5 101 63 a. Estime la proporción de empleados en la industria que apoyan la nueva política de jubilación y establezca un límite para el error de estimación. b. La industria modificó su política de jubilación después de obtener los resultados de la encuesta. Ahora se quiere estimar la proporción de empleados a favor de la política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 5% para el error de estimación? Use los datos anteriores para aproximar los resultados de la nueva encuesta. SOLUCIÓN: a) N = 57 n=5

mi

yi

51 62 49 73 101 336

42 53 40 45 63 243

mi2 2601 3844 2401 5329 10201 24376

yi2 1764 2809 1600 2025 3969 12167

mi yi 2142 3286 1960 3285 6363 17036

n

p=

∑y i =1 n

∑m i =1

Sc2 =

(

1 n ∑ yi − pmi n − 1 i =1

)

2

=

i

=

243 = 0, 7232 ⇒ p = 72,32% 336

i

n 2 n 1  n 2 

y p

y m p

mi2  = 68, 7 − + 2 ∑ ∑ ∑ i i i  n − 1  i =1 i =1 i =1 

2

 336  M ≈m =  = 4515,84  5  1 N − n Sc2 = 0, 00278 V ( p) = 2 N n M b) 2

2

2 V ( p) = 0,1054 ⇒ 10,54%

2

B2 M 0, 052 × 4515,84 = = 2,8224 D= 4 4

σ ≈S 2 c

2 c

Nσ c2 = 17, 06 ≈ 18 n= ND + σ c2

99

3. (Ejercicio 7, relación tema 6) Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde no existe una lista disponible de adultos residentes. Por esta razón para el diseño de la encuesta utiliza muestreo por conglomerados. Se divide la ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser considerado como un conglomerado. Los conglomerados son numerados del 1 al 415. El investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a cada hogar dentro de cada uno. Se seleccionan aleatoriamente 25 conglomerados y se realizan las entrevistas, obteniéndose estos datos: Conglomerado (i) Nº de residentes (mi) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

8 12 4 5 6 6 7 5 8 3 2 6 5 10 9 3 6 5 5 4 6 8 7 3 8 151 residentes

Ingreso total por conglomerado en € (yi) 96000 121000 42000 65000 52000 40000 75000 65000 45000 50000 85000 43000 54000 49000 53000 50000 32000 22000 45000 37000 51000 30000 39000 47000 41000 1329000 €

a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de estimación. b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de estimación, suponiendo que M es desconocido. c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de todos los residentes de la ciudad mediante un intervalo de confianza.

100

NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo, mi = 6 ∀i , supongamos conocido M = 6 × 415 = 2.490 ) y estime el total por los dos métodos

(

)

estudiados τ = M y τ t = N y t . Observe como coinciden las dos estimaciones así como la varianza del estimador y el límite para el error de estimación. d) Tomando los anteriores datos como una muestra previa, cómo debe tomarse la muestra en una encuesta futura para estimar el ingreso promedio por persona con un límite para el error de estimación de 500€. SOLUCIÓN: a) (este ejemplo no se puede resolver con una calculadora de 10 dígitos de forma exacta

por la dificultad de trabajar con cantidades muy grandes) n

µ=y=

∑y

i

i =1 n

∑m

(

∑ yi − ymi i =1 n

y − 2 y∑ y m + y ∑ m ) = ∑ i =1

2 i

n

m =8 ∑ 2 i

i =1

2

n

2

y = 96.000 ∑ i =1

1.329.000 = 8.801,32 € / residente 151

i

i =1

n

=

2

n

2 i

i =1

2

i

i

n

i =1

2 i

+ ... = 82.039.000.000

+ ... = 1.047

n

y m = ( 96.000 × 8 ) + ... = 8.403.000 ∑ i =1

i

Sc2 =

i

(

1 n ∑ yi − ymi n − 1 i =1

)

2

=

15.227.502.247 = 634.501.213, 40 24

Ya que M es desconocido, M debe ser estimada por m m=

1 n 151 m i = = 6, 04 residente / bloque ∑ n i =1 25

V ( y) =

1 N − n Sc2 = 653.785,19 2 N n M

2 V ( y ) = 1.617,14€

b) yt =

1 n 1.329.000 yi = = 53160 € / bloque ∑ n i =1 25

τ t = N y t = 22.061.400 € 101

(y − y ) ∑ n

i =1

i

2

t

2

1 n 1  y − ∑ yi  = 82.039.000.000 − (1.329.000) 2 = 11.389.360.000 = ∑ 25 n  i =1  i =1 n

2 i

(y − y ) N ( N − n) ∑ n

V (τ t ) =

i

i =1

2

t

n −1

n

2 V (τ t ) = 3.505.584, 04 €

= 3.072.279.860.000

c) N = 415

n = 25

M=

2500 = 6, 0241 415

Sc2 = 634.501.213, 40

V ( y) =

τ = M y = 22.003.311, 26€

1 N − n Sc2 = 657.240,9482 2 N n M

V (τ ) = M 2 V ( y ) = 4.107.755.926.250

2 V (τ ) = 4.053.519,92

(17.949.791,34€ , 26.056.831,18€ ) Como puede observarse el límite para el error de estimación es más pequeño en b) que en c) debido a que los tamaños de los conglomerados no están altamente correlacionados con los totales de los conglomerados en este ejemplo ( rmy2 = 0, 0919 ). En otras palabras, los tamaños de los conglomerados proporcionan poca información referente a los totales de los conglomerados. d) 2

S = 634.501.213, 40 2 c

B2 M 5002 × 6, 042 = = 2.280.100 D= 4 4

Nσ c2 = 166,58 ≈ 167 n= ND + σ c2 4. (Ejercicio 10, relación tema 6) Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una muestra de 10 de las 85 inscritas en el registro mercantil. El número de bajas en el último año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No 6 0 8 No 7 1 21 Si 8 0 4 No 9 4 35 No 10 6 92 Si

102

(a) Estime el número de bajas en el último año en las empresas del pueblo. Dé el límite del error de estimación. (b) Estime la proporción de empresas que usarían los servicios ofertados. Dé el límite del error de estimación. SOLUCIÓN: a) Se trata de un muestreo por conglomerados (cada empresa es un conglomerado) donde

no se conoce el número total de empleados para toda la población, por tanto para estimar el total consideraremos un muestreo aleatorio simple tomando como elementos muestrales las empresas. yi

(y − y )

1 2 9 0 2 0 1 0 4 6 25

2.25 0.25 42.25 6.25 0.25 6.25 2.25 6.25 2.25 12.25 80.5

i

2

t

25 τ t = 85 × 2.5 = 212.5 bajas = 2.5 bajas / empresa 10 80.5  85 − 10  8.94 St2 = = 8.94 ⇒ V ( y t ) =  = 0.7892157 ⇒ V (τ t ) = 852 V ( y t ) = 5702.08  9 85 10   yt =

Bτ = 2 5702.08 = 151.024 bajas

b) p= V ( p) =

4 = 0.40 (40%) 10

85 − 10 0.4 × 0.6 = 0.02353 85 10 − 1

B = 2 0.02353 = 0.3068 (30.68%)

5. (Como ejercicio 3, relación tema 6) Se diseña una encuesta económica para estimar la cantidad media gastada en servicios por hogar de una ciudad formada por 3.600 hogares. Se selecciona una muestra aleatoria de 3 barrios de la ciudad de un total de 60. Los entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados; los gastos totales se muestran en esta tabla: Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430

103

Estime la cantidad media de gastos en servicios por hogar en la ciudad y el límite para el error de estimación. SOLUCIÓN:

mi yi 121550 143400 153090 n

∑m y i =1

N = 60

n=3 n

i =1

i

= 418040

i

n

3600 = 60 60

M=

∑y

i

n

∑y

= 7030

i =1

∑ mi = 178 i =1

n

∑m i =1

2 i

= 10594

= 16501100

2 i

n

y=µ=

y ∑ i =1 n

∑ m i =1

2

Sc =

(

1 n ∑ yi − ymi n − 1 i =1

)

2

=

i

= 39, 49 €

i

n n 2 1  n 2 2 + − y y m y mi yi 2 ∑ i ∑ ∑ i n − 1  i =1 i =1 i =1

  = 2612,04 

1 N − n Sc2 = 0, 23 2 V ( y ) = 0, 96 € 2 N n M 6. (Como ejercicio 4, relación del tema 6) En un proceso de control del volumen envasado

V ( y) =

por una fábrica de bebidas se eligen 3 de los 40 paquetes envasados en una hora, cada uno de los cuales contiene 4 envases, y se mide el volumen que cada envase contiene. Las observaciones se presentan en la tabla adjunta: Paquete nº Volumen envasado en cl 1 33,5 32,5 31 34 2 32,5 32 33 32,5 3 30,5 33 33 33,5 Estime el volumen medio de los envases y la cota del error de estimación. SOLUCIÓN:

N=40, n=3,

mi 4 4 4

yi 131 130 130

mi yi 524 520 520 3

∑m y i

i =1

(con las funciones del modo SD de la calculadora) : M =m=4

3

∑m i =1

104

i

= 12

3

∑m i =1

2 i

= 48

i

= 1564

5

5

∑ yi = 391

y t = 130,33

∑y

i =1

2 i

i =1

= 50961

5

y=µ=

y ∑ i =1 5

∑ m i =1

2

Sc =

i

=

yt = 32,5833 cl m

i

(

1 3 ∑ yi − ymi n − 1 i =1

)

2

=

3 3 2 1  3 2 2 + − y y m y mi yi 2 ∑ i ∑ ∑ i n − 1  i =1 i =1 i =1

1 N − n Sc2 = 0, 006423 V ( y) = 2 N n M

  = 0,3333 

2 V ( y ) = 0,1603 cl

7. (Como ejercicio 1, relación del tema 6) Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria. Entonces decide usar muestreo por conglomerados, con cada industria como un conglomerado. El fabricante selecciona una muestra aleatoria simple de 5 de 100 industrias a las que da servicio. Los datos sobre coste total de reparaciones por industria y el número de sierras son: Industria Nº sierras Costo total de reparación para el mes pasado (€) 1 3 50 2 7 110 3 11 230 4 9 140 5 2 60 Estime el coste medio de reparación por sierra para el mes pasado y el límite para el error de estimación. SOLUCIÓN: N=100, n=5,

mi yi 150 770 2530 1260 120 n

∑m y i =1

i

i

= 4830

(con las funciones del modo SD de la calculadora) : M = m = 6, 4

n

∑ mi = 32 i =1

n

∑m i =1

2 i

= 264 105

n

n

∑ yi = 590

y t = 118

∑y

i =1

2 i

i =1

= 90700

5

y=µ=

y ∑ i =1 5

∑ m i =1

2

Sc =

i

=

yt = 18, 4375 € m

i

(

1 n ∑ yi − ymi n − 1 i =1

)

2

=

n n 2 1  n 2 2 y y m y mi yi + − 2 ∑ i ∑ ∑ i n − 1  i =1 i =1 i =1

1 N − n Sc2 = 2, 7116 V ( y) = 2 N n M

  = 584,57 

2 V ( y ) = 3, 2934 €

8. (Como ejercicio 5, relación del tema 6) Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A, en una elección estatal. Ya que la selección y entrevista de una muestra aleatoria simple de votantes registrados es muy costosa, se utiliza muestreo por conglomerados, con distritos como conglomerados. Se selecciona una muestra aleatoria de 5 distritos de un total de 495 que tiene el estado. El periódico quiere hacer la estimación el día de la elección, pero antes de que se haya hecho la cuenta final de los votos. Es por eso que los reporteros son enviados a los lugares de votación de cada distrito en la muestra, para obtener la información pertinente directamente de los votantes. Los resultados se muestran en esta tabla: Nº votantes Nº votantes A 1290 680 1170 631 840 475 1620 935 1381 472

Estime la proporción de votantes que apoyan al candidato A y el límite para el error de estimación. SOLUCIÓN:

N=495, n=5,

mi yi 877200 738270 399000 1514700 651832 n

∑m y i =1

106

i

i

= 4181002

(con las funciones del modo SD de la calculadora) : n

∑ mi = 6301

M = m = 1260, 2

i =1 n

∑y

y t = 638, 6

i =1

i

= 3193

n

∑m i =1 n

∑y i =1

= 8270161

2 i

2 i

= 2183195

5

p=µ=

y ∑ i =1 5

∑ m i =1

2

Sc =

i

=

yt = 0,506745 m

i

(

1 n ∑ yi − ymi n − 1 i =1

V ( p) =

( 50, 67% )

)

2

=

n n 2 1  n 2 2 y y m y mi yi + − 2 ∑ i ∑ ∑ i n − 1  i =1 i =1 i =1

1 N − n Sc2 = 0, 00216573 2 N n M

2 V ( y ) = 0, 0930748

  = 17372,505 

( 9,31% )

107

7. Estimación del tamaño de la población. 7.1 Muestreo directo. 7.2 Muestreo inverso. 7.3 Muestreo por cuadros. 7.3.1 Estimación de la densidad y tamaño de la población. 7.3.2 Muestreo por cuadros en el espacio temporal. 7.3.3 Cuadros cargados.

7.1 Estimación del tamaño de la población usando muestreo directo

En el muestreo directo se realizan los siguientes pasos: 1. Se selecciona una muestra aleatoria de tamaño t , se marcan y se devuelven a la población. 2. Posteriormente se selecciona una muestra aleatoria de tamaño n (tamaño fijado de antemano) de la misma población y se observa cuántos de ellos están marcados ( s =número de elementos marcados en esta 2ª muestra) Sea p = proporción de elementos marcados en la población, p =

t t , N= , pero p es N p

desconocido. Entonces estimamos p mediante la proporción muestral: pˆ =

s = proporción de elementos marcados en la 2ª muestra n

Por tanto,



ESTIMADOR DE N :

t t nt = Nˆ = = pˆ s / n s



VARIANZA ESTIMADA DE Nˆ :

t 2 n( n − s ) Vˆ Nˆ = s3

 n, t = constantes     s = aleatoria 

( )

Comentarios ƒ

s = número de elementos marcados en la 2ª muestra, ha de ser mayor que 0 para que

las fórmulas estén bien definidas. Si en la segunda muestra no aparece ningún elemento marcado, se aumenta el tamaño muestral. ƒ

Nˆ no es un estimador insesgado de N :

[ ]

(N − t) E Nˆ = N + N ≠N nt Cuanto mayor sean n y t menor será el sesgo N 108

(N − t) . nt

ƒ

Nˆ tiende a sobreestimar el valor real de N .

Ejemplo 7.1 (Ejercicio 1, relación tema 7)

Un club deportivo se interesa por el número de truchas de río en un arroyo. Durante un periodo de varios días se atrapan 100 truchas, se marcan y se devuelven al arroyo. Obsérvese que la muestra representa 100 peces diferentes, ya que cualquier pez atrapado que ya hubiera sido marcado se devolvía inmediatamente. Varias semanas después se atrapó una muestra de 120 peces y se observó el número de peces marcados. Supongamos que este número fue de 27 en la segunda muestra. Estime el tamaño total de la población de truchas y dé un límite de error de estimación. Solución

nt 120 ×100 = 444, 4 Nˆ = = s 27 t 2 n(n − s ) 1002 × 120(120 − 27) ˆ ˆ = = 5.669,87 V N = s3 273

( )

( )

B = 2 Vˆ Nˆ = 150, 60

 

7.2 Estimación del tamaño de la población usando muestreo inverso

La diferencia con el muestreo directo es que aquí el tamaño de la segunda muestra no está fijado (es aleatorio), lo que se fija es s = número de elementos marcados en la segunda muestra. Los pasos para realizar este método son: 1. Se selecciona una muestra inicial de t elementos, se marcan y se devuelven a la población. 2. Se selecciona una segunda muestra aleatoria hasta que se obtienen s elementos marcados (sea n el tamaño final de dicha muestra).



ESTIMADOR DE N :

t t nt = Nˆ = = pˆ s / n s



VARIANZA ESTIMADA DE Nˆ :

t 2 n( n − s ) Vˆ Nˆ = 2 s ( s + 1)

 t , s = constantes     n = aleatoria 

( )

Comentario. Nˆ es un estimador insesgado de N , por ello, si se pueden aplicar ambos tipos

de muestreo se prefiere el inverso.

109

Ejemplo 7.2 (Ejercicio 5, relación tema 7)

Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área geográfica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y liberadas. Toma una segunda muestra un mes después y decide continuar muestreando hasta que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas para obtener las 15 marcadas. Estime el tamaño total de la población de tortugas y establezca un límite de error de estimación. Solución

nt 160 ×100 = 1.066, 67 Nˆ = = 15 s t 2 n(n − s ) 1002 ×160(160 − 15) ˆ ˆ V N = 2 = = 64.444, 44 152 (15 + 1) s ( s + 1)

( )

( )

B = 2 Vˆ Nˆ = 507, 72

 

7.3.1 Estimación de la densidad y del tamaño de la población usando muestreo por cuadros

Con este método se estudia el tamaño de la población contenida en un área delimitada A conocida. Los pasos a seguir son: 1. Dividir a la población en N cuadros de igual área a . Sea mi = número de elementos en el cuadro i -ésimo

2. Tomar una muestra de n cuadros entre los N existentes. Se observa el número total de elementos que contiene la muestra: n

m = ∑ mi i =1

3. Calcular la densidad de elementos en la muestra (densidad muestral):

λˆ =

nº elementos en la muestra m = área de la muestra na

4. La densidad poblacional es

λ=

nº elementos en la población M M = = área de la población Na A

entonces M = Aλ . Por tanto:



110

ESTIMADOR DE LA DENSIDAD:

λˆ =

m na



VARIANZA ESTIMADA DE λˆ :

m 1 Vˆ (λˆ ) = 2 2 = λˆ na a n



ESTIMADOR DEL TAMAÑO POBLACIONAL:

m Mˆ = Aλˆ = A na



VARIANZA ESTIMADA DE Mˆ :

A2 m Vˆ ( Mˆ ) = A 2Vˆ (λˆ ) = 2 2 a n

Ejemplo 7.3 (Ejercicio 3, práctica 7)

La policía de Madrid está interesada en conocer el número de aficionados que se reunieron en torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Con este dato se puede conocer la cuantía de medios materiales y humanos (policía, protección civil, personal sanitario, etc.) necesaria para atender futuras concentraciones. Para estimar el número de aficionados se toma una fotografía aérea de la zona ocupada por éstos, tras lo cual se traza sobre ella una cuadrícula que divide el área total en 300 cuadros de 10 metros de lado cada uno. Posteriormente se numeran y se extrae una muestra aleatoria de 20 de estos cuadros; por último se cuenta el número de aficionados que hay en cada uno de los cuadros seleccionados, obteniéndose los resultados de la tabla: Nº del cuadro

Número de aficionados en el cuadro

Nº del cuadro

Número de aficionados en el cuadro

1

193

11

160

2

216

12

220

3

250

13

163

4

163

14

306

5

209

15

319

6

195

16

289

7

232

17

205

8

174

18

210

9

215

19

209

10

198

20

198

a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo de confianza. b) Estime el número total de aficionados concentrados en la plaza de Neptuno y obtenga su intervalo de confianza.

111

Solución: a) a = 10 × 10 = 100

λˆ =

m 4324 = = 2,162 na 20 ×100

λˆ 2,162 Vˆ (λˆ ) = = = 0, 001081 ⇒ B = 2 0, 001081 = 0, 066 na 2000 λ = 2,162 aficionados m 2

(2, 096 , 2, 228)

b) A = 300 × 100 = 30.000 m 2

Mˆ = Aλˆ = 30.000 × 2,162 = 64.860 aficionados

B = ABλ = 30.000 × 0, 066 = 1.980

(62.880 , 66.840)

 

7.3.2 Muestreo en el espacio temporal

En determinadas ocasiones podemos tomar los cuadros como intervalos temporales. Veámoslo con un ejemplo. Ejemplo 7.4 (Ejercicio 7, relación tema 7)

Se desea estimar el número total de personas que diariamente solicitan información en una oficina turística. Se observa que 114 personas solicitan información, durante 12 intervalos de 5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta la oficina. Estime el total de personas que visitan la oficina diariamente y calcule la cota del error de estimación. Solución A = 8 horas= 480 minutos

λ=

n =12 intervalos

114 = 1,9 personas / minuto 5 × 12

A2 m Vˆ ( Mˆ ) = 2 2 = 7.296 ⇒ B = 170,8 an

a = 5 minutos

m =114 personas

m Mˆ = A = 912 personas na  

7.3.3 Cuadros cargados

En este tipo de muestreo también se divide a la población en cuadros, pero el método se utiliza cuando después de hecha la división son muchos los cuadros que no contienen elementos y otros contienen pocos, es decir, la densidad de elementos por unidad de superficie es muy pequeña. Este tipo de muestreo se basa en la identificación de la presencia o ausencia de elementos en cada uno de los cuadros de la muestra. Un cuadro se dice cargado cuando contiene al menos un elemento objeto de estudio. 112

Los pasos a seguir son:

1. Se divide a la población en N cuadros de igual área a . 2. Se toma una muestra de n cuadros entre los N existentes. Se observa el número total de cuadros no cargados de la muestra, a este número de cuadros sin presencia de elementos se le designa por y . Es importante tener en cuenta que y no puede ser cero ni n ( 0 < y < n ). Si una vez observada la muestra y = 0 ó y = n , ampliaremos el tamaño muestral 3. La densidad poblacional se estima como 1

 y

λˆ = − ln   a n y su varianza como 1 n− y Vˆ (λˆ ) = 2 a ny Dado que M = Aλ obtenemos



ESTIMADOR DEL TAMAÑO POBLACIONAL:

A  y Mˆ = Aλˆ = − ln  a n



VARIANZA ESTIMADA DE Mˆ :

A2 n − y Vˆ ( Mˆ ) = 2 a ny

Ejemplo 7.5 (Ejercicio 4, práctica 7)

Se desea estimar el número total de autobuses que, entre las 6 y las 24 horas del domingo, circulan por un determinado punto kilométrico de una carretera. La observación se realiza mediante 40 intervalos, de 10 minutos cada uno, repartidos a lo largo del periodo en estudio. En 18 ocasiones, de las cuarenta que se estableció el control, no circuló por el punto en cuestión ningún autobús. Estimar el número total de autobuses que circularon entre las 6 y las 24 horas. Dar un límite de error de estimación. Solución

A = 24-6=18 horas=1.080 minutos y =18 intervalos sin autobuses

n = 40 intervalos

a =10 minutos

A  y 1.080  18  ln   = 86, 24 Mˆ = − ln   = − 10 a n  40 

A2 n − y 1.0802 40 − 18 Vˆ ( M ) = 2 = = 356, 4 ⇒ B = 37,8 102 40 ⋅18 a ny

 

113

EJERCICIOS RESUELTOS 1. (Ejercicio 6, relación tema 7) En una plantación de pinos de 200 acres, se va a estimar la densidad de árboles que presentan hongos parásitos. Se toma una muestra de 10 cuadros de 0,5 acres cada uno. Las diez parcelas muestreadas tuvieron una media de 2,8 árboles infectados por cuadro. a) Estime la densidad de árboles infectados y establezca un límite de error de estimación. b) Estime el total de árboles infectados en los 200 acres de la plantación y establezca un límite de error de estimación. SOLUCIÓN:

m 2,8 × 10 = = 5, 6 arb. infectados / acre ; a) λˆ = na 10 × 0,5

1 1 Vˆ (λˆ ) = λˆ = 5, 6 = 1,12 ⇒ B = 2,1 na 10 × 0,5 b) Mˆ = Aλˆ = 200 × 5, 6 = 1.120;

B = ABλ = 200 × 2,1 = 423,32

2. (Como ejercicio 12, relación tema 7) Se desea estimar el número de vehículos de un modelo determinado que el mes próximo utilizarán el aparcamiento de Puerta Real. Durante las 720 horas del mes se van a establecer 5 controles aleatorios de 1 hora de duración cada uno. Transcurrido el mes, se ha observado en los 5 controles los siguientes resultados: Control

Número de vehículos de ese modelo que usan el aparcamiento 1 0 2 1 3 2 4 0 5 3 Estime el número total de vehículos del modelo en estudio que utilizaron el aparcamiento. Dé el límite del error de estimación. SOLUCIÓN: A = 720 h a = 1 h n = 5 contr. m = 0 + 1 + 2 + 0 + 3 = 6 veh. m =

M = λ A = 1.2 × 720 = 864 veh.

114

6 m = 1.2 λ = = 1.2 veh./ h 5 a

( )

V M =

A2 λ = 124416 an

B = 2 124416 = 705.45 veh.

3. (Como ejercicio 9, relación tema 7) El hermano de un alumno de T.A.M. está pensando en abrir una farmacia de 24 horas. Para saber si los ingresos compensarían los gastos de esta inversión deciden observar un establecimiento similar. Este asiduo alumno de T.A.M. conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de clientes las 24 horas del día por lo que decide observar la afluencia de clientes en distintos periodos de igual duración, obteniendo los datos de la siguiente tabla clientes 10:00-10:30 15 14:00-14:30 13 18:00-18:30 18 22:00-22:30 8 02:00-02:30 2 06:00-06:30 4 Estime el número de clientes diarios de la farmacia observada y el correspondiente límite para el error de estimación. SOLUCIÓN:

A = 24h a = 0.5h N = 48 n = 6 m = 60 m = 10 M = λA =

( )

m A 2 λ A2 m A = 480 clientes V M = = 2 = 3840 a an an

( )

2 V M = 123,94 clientes

4. (Como ejercicio 13, relación tema 7) El ayuntamiento de Barcelona está interesado en conocer el número de aficionados que acudieron al aeropuerto para vitorear al equipo campeón. Para ello, dividieron la sala de espera, de dimensiones 100 metros de largo por 40 metros de ancho, en 100 cuadros de igual tamaño y seleccionaron 20, observando que el número de personas era 1.100. Estime el número total de asistentes y el límite para el error de estimación. SOLUCIÓN:

A = 4000 a = 40 N = 100 n = 20 m = 1100 m = 55 M = λA =

m A = 5500 a

( )

V M =

A 2 λ A2 m = 2 = 27500 an an

( )

2 V M = 331, 66

5. (Ejercicio 8, relación tema 7) Un alumno de A.T.C. desea estimar el número de alumnos que una determinada mañana han ido a la Facultad. Para ello se basa en que dicho día una conocida marca comercial ha repartido a primeras horas de la mañana en la entrada de la 115

Facultad 500 carpetas. En un intercambio de clase, sentado en un banco del pasillo, decide contar los alumnos que pasan hasta observar a 100 que portan la carpeta, para lo que fue necesario contar hasta 382 alumnos. Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la Facultad. SOLUCIÓN: muestreo inverso

t = 500 n = 382 s = 100 N=

t p

( )

=

V N =

nt = 1910 alumnos s t 2 n( n − s ) = 26664,35643 s 2 ( s + 1)

(1910 ∓ 326,58 )

116

( )

2 V N = 326,58 alumnos

8. Indicadores estadísticos regionales. 8.1 Introducción. 8.2 Medidas de desigualdad-concentración regional. 8.2.1 Curva de Lorenz. Índice de Gini. 8.2.2 Coeficiente de Theil. Índice de Theil. 8.2.3 Desigualdad individual y colectiva. 8.3 Medidas de dispersión regional. 8.4 Coeficiente de asociación geográfica de Florence.

8.1 Introducción

Consideremos una población dividida en N subpoblaciones (regiones o estratos). Los objetivos de este capítulo son: o estudiar medidas de desigualdad o concentración que indiquen si la magnitud total de

una

variable

económica

se

encuentra

repartida

equitativamente

entre

las

subpoblaciones o, por el contrario, existen desequilibrios en su reparto. o estudiar la asociación que pudiera existir entre dos variables económicas a causa de su

distribución entre las distintas subpoblaciones (Coeficiente de asociación geográfica de Florence). 8.2 Medidas de desigualdad-concentración regional

En esta sección se estudian medidas de desigualdad o concentración que indican si la magnitud total se encuentra repartida equitativamente entre las subpoblaciones o, por el contrario, existen desequilibrios en su reparto. Son medidas que, a partir de la distribución de frecuencias de la variable económica bajo estudio, realizan una representación gráfica mediante una curva poligonal (Curva de Lorenz), o bien, sintetizan en un solo valor la desigualdad existente en el reparto de la variable (Índice de Gini, coeficiente de Theil, índice deTheil, desigualdad individual y colectiva). 8.2.1 Curva de Lorenz. Índice de Gini.

(Ambas medidas ya se estudiaron en Técnicas Cuantitativas 1) Recordaremos lo más importante y lo ilustraremos con un ejemplo. N i son las frecuencias absolutas acumuladas. pi =

Ni es la frecuencia relativa acumulada. ( N =número total de datos) N

ui =son los totales acumulados.

117

qi =son los totales acumulados relativos.

La comparación entre los valores pi y qi nos informa sobre la concentración en el reparto. Estos valores se representan mediante la curva de Lorenz. Si el reparto fuese equitativo, coincidirían para todos los i.



En caso de equidistribución ( pi = qi

∀i ), la curva de Lorenz coincide con la bisectriz

del primer cuadrante.



En

caso

de

concentración

máxima

(todos

los

individuos

reciben

nada,

qi = 0, i = 1,..., k − 1 , salvo uno que recibe todo, qk = 1 ), la curva de Lorenz coincide

prácticamente con los catetos del triángulo determinado por los puntos (0,0), (1,0) y (1,1).



Para cuantificar la posición de la curva de Lorenz se define el índice de Gini como k −1

IG =

∑ ( pi − qi ) i =1

k −1

∑p i =1

k −1

= 1−

i

∑q i =1 k −1

i

∑p i =1

i



0 ≤ I G ≤ 1 . Si hay equidistribución I G = 0 . Si hay concentración máxima I G = 1 .



Este índice es invariante frente a cambios de escala pero no frente a cambios de origen.



No permite un análisis desagregado como los índices que estudiamos a continuación.

Ejemplo 8.0

Supongamos un país con 7 regiones. Tenemos datos sobre el valor añadido bruto (VAB) de cada una de ellas (en u.m.): VAB Regiones (u.m.) R1 2460,5 R2 619,0 R3 613,2 R4 1150,0 R5 1865,0 R6 437,1 R7 661,9 Calcule el índice de Gini y represente la curva de Lorenz.

118

VAB 437,1 613,2 619,0 661,9 1150,0 1865,0 2460,5 7806,7

qj

ui

437,1 1050,3 1669,3 2331,2 3481,2 5346,2 7806,7

nj

0,0560 0,1345 0,2138 0,2986 0,4459 0,6848 1,0000 2,8337

pj

Ni

1 1 1 1 1 1 1 7

1 2 3 4 5 6 7

0,1429 0,2857 0,4286 0,5714 0,7143 0,8571 1,0000 4,0000

k −1

IG = 1 −

∑q i =1 k −1

i

∑p i =1

= 1−

1,8337 = 0,3888 3

i

1 0,9 0,8 0,7

q

0,6 0,5 0,4 0,3 0,2 0,1 0 0

0,1429 0,2857 0,4286 0,5714 0,7143 0,8571 1,0000 p

8.2.2 Coeficiente de Theil. Índice de Theil. N

El coeficiente de Theil se basa en la entropía o medida del desorden, H N ( x) = −∑ xi ln xi , j =1

para cuantificar el parecido o la diferencia entre sí de los datos a analizar. Supongamos una población divida en N regiones o estratos distintos. Cada una de las regiones aporta un valor de una variable económica X, X ≥ 0 Regiones

Xi

xi

1

X1

x1

N

XN

xN

N

∑X j =1

i

1

119

Donde xi = proporciones de la variable respecto del total=

Xi N

∑X i =1

i

N

El coeficiente de Theil es, por definición,

T = ln N + ∑ xi ln xi i =1

Nota Si algún xi = 0 , por definición tomamos xi ln xi = 0 . Ejemplo 8.1

Supongamos un país con 7 regiones. Tenemos datos sobre el valor añadido bruto (VAB) de cada una de ellas (en u.m.): Xi Regiones VAB (u.m.) R1 2460,5 R2 619,0 R3 613,2 R4 1150,0 R5 1865,0 R6 437,1 R7 661,9 7806,7

xi

xi ln xi

0,315 0,079 0,079 0,147 0,239 0,056 0,085 1

-0,364 -0,201 -0,200 -0,282 -0,342 -0,161 -0,210 -1,760

el coeficiente de Theil es: T = ln 7 − 1, 760 = 0,1859 .

 

Propiedades N

1. Si existe equidistribución entonces −∑ xi ln xi = ln N y T = 0 i =1

N

2. Si existe concentración máxima entonces −∑ xi ln xi = 0 y T = ln N j =1

3. 0 ≤ T ≤ ln N (En el ejemplo 8.1, T es más cercano a 0 que a ln7=1,946, por tanto, está más cerca de la equidistribución que de la concentración máxima). 4. El coeficiente de Theil permite un análisis desagregado. Sea X = variable observada en las N regiones y x1 ,..., xN = valores porcentuales (proporciones) en cada región. Supongamos que X se agrupa en k grupos: G1 ,..., Gk , con N1 ,..., N k regiones en cada uno de ellos:

k

∑N g =1

Entonces 120

g

= N , xg =

∑x,

i∈Gg

i

g = 1,..., k

y Tg = ln N g + ∑ i∈Gg

xi  xi  ln   . xg  xg 

k  x T = ln N + ∑ xg ln  g N g =1  g

 k  + ∑ xg Tg  g =1

donde o

k  x ln N + ∑ xg ln  g N g =1  g

  representa la desigualdad entre grupos. Mide la disparidad 

entre grupos teniendo en cuenta el tamaño de cada grupo N g en relación al peso del grupo xg en la variable económica observada. k

o

∑x T g =1

g g

representa la desigualdad dentro de los grupos. Es la media de los

coeficientes de Theil de cada grupo ponderados por los pesos de cada grupo. Ejemplo 8.2

Realicemos un análisis desagregado con los datos del ejemplo 8.1. Supongamos que dividimos las regiones en dos grupos: Regiones grupo 1 R2 R3 R6 R7

xi

x( g =1)

Regiones grupo 2 R1 R4 R5

0,079 0,079 0,056 0,085 = ∑ xi =0, 299 i∈G1

xi

x( g = 2)

0,315 0,147 0,239 = ∑ xi =0, 701 i∈G2

Estudiamos la desigualdad dentro de cada uno de los grupos mediante el correspondiente coeficiente de Theil: Tg = ln N g + ∑ i∈Gg

donde

xi  xi  ln   xg  xg 

xi es el valor porcentual dentro del grupo. xg

121

xi

Regiones grupo 1 R2 R3 R6 R7

xi

x( g =1)

0,079 0,079 0,056 0,085 x( g =1) = 0,299

0,264 0,264 0,187 0,284

xi  xi  ln   xg  xg  -0,352 -0,352 -0,314 -0,358

1

-1,375

T1 = ln 4 − 1,375 = 0, 0113

xi

Regiones grupo 2 R1 R4 R5

xi

x( g = 2)

0,315 0,147 0,239 x( g = 2) = 0,701

0,449 0,210 0,341

xi  xi  ln   xg  xg  -0,359 -0,328 -0,367

1

-1,054

T2 = ln 3 − 1, 054 = 0, 0446

o Desigualdad entre grupos: 2  x   0, 299   0, 701  ln N + ∑ xg ln  g  = ln 7 + 0, 299 ln   + 0, 701ln  =    4   3  g =1  Ng  = 1,9459 − 0, 7755 − 1, 0192 = 0,1512

o Desigualdad dentro de los grupos: 2

∑x T g =1

g g

= 0, 299 ( 0, 0113) + 0, 701( 0, 0446 ) = 0, 0346

de esta forma: T = 0,1512 + 0, 0346 = 0,1858

En términos relativos: T 0,1512 0, 0346 = + = 0,8138 + 0,1862 = 1 0,1858 0,1858 0,1858

De la desigualdad existente en las siete regiones, el 81,38% es debido a la desigualdad entre grupos. Si tuviésemos que tomar medidas económicas para disminuir, aún más, la desigualdad, actuaríamos en esa dirección, tratando de limar las diferencias entre los dos grupos (esta es una de las ventajas del análisis desagregado, permite determinar el origen de las diferencias existentes entre las regiones).

122

 

Índice de Theil N

IT = ITHEIL

T = = ln N

ln N + ∑ xi ln xi i =1

ln N

N

= 1+

∑ x ln x i

i =1

i

ln N

Es evidente que 0 ≤ ITHEIL ≤ 1 , y este hecho facilita comparaciones. El 0 indica equidistribución y el 1 concentración máxima. Ejemplo 8.3

ITHEIL =

0,186 = 0, 0956 ln 7

Reparto cercano a la equidistribución.

 

8.2.3 Desigualdad individual y desigualdad colectiva

El objetivo en esta sección es medir la diferencia de un individuo (una región) con respecto al colectivo. Para una variable X , que solo toma valores positivos, se define la desigualdad individual de la región i-ésima respecto al colectivo como: di =

x − Xi x = − 1, i = 1,..., N Xi Xi

Es una medida adimensional. Indica la proporción en que el colectivo supera a la región iésima X i < x ⇔ la región i-ésima posee una desigualdad individual positiva X i > x ⇔ la región i-ésima posee una desigualdad individual negativa X i = x ⇔ la región i-ésima posee una desigualdad individual cero Ejemplo 8.4

Regiones R1 R2 R3 R4 R5 R6 R7

Xi VAB (u.m.) 2460,5 619 613,2 1150 1865 437,1 661,9 7806,7

di

-0,547 0,802 0,819 -0,030 -0,402 1,551 0,685 2,878

123

x=

7806, 7 = 1115, 243 7

 

Si se agregan las desigualdades individuales, ponderadas cada una de ellas por la frecuencia relativa de X i , se obtiene la desigualdad colectiva: N

D = ∑ di fi i =1

D aumenta cuando en la población existen mayores desequilibrios. Sin embargo, no existe

una cota superior para D ya que su máximo depende del tamaño de la población. Ejemplo 8.5

Con los datos del ejemplo 8.4: 7

D = ∑ di fi = i =1

1 7 2,878 di = = 0, 411 ∑ 7 i =1 7

(Realmente, por si sola no dice nada, pero la podemos comparar con el reparto de otra variable).

 

Esta medida permite un análisis desagregado. Denotemos por: N → Número de elementos en la población (regiones)

x → Media de todos los elementos de la población. k → Número de subpoblaciones o grupos.

N g → Número de elementos en el grupo g , g = 1,..., k xg → Media del grupo g Dg =

dg =



xg − X i

i∈Gg

x − xg xg

Xi

fi → Desigualdad colectiva en el grupo g

→ Desigualdad individual del grupo g en relación a todos los grupos (toda la

población). D , entonces, se puede calcular como suma de la desigualdad existente entre los grupos considerados más una media ponderada de las distintas desigualdades colectivas dentro de cada grupo o subpoblación:

D=

124

1 N

k

∑d g =1

g

Ng +

x N

k

∑D g =1

g

Ng xg

1 N

o

x N

o

k

∑d g =1

g

N g → Representa la desigualdad entre las subpoblaciones o grupos.

k

∑D g =1

g

Ng xg

→ Representa la desigualdad dentro de las subpoblaciones o grupos.

Tiene en cuenta el tamaño de cada grupo en relación a la media del grupo. Ejemplo 8.6

Regiones grupo 1 R2 R3 R6 R7 x1 =

i∈G1

x1 − xi 1 x −x 1 fi = ∑ 1 i = 0,106 = 0, 0265 xi 4 i∈G1 xi 4

x − x1 1115, 243 − 582,8 = = 0,9136 582,8 x1

Regiones grupo 2 R1 R4 R5 x2 =

VAB (u.m.) 2460,5 1150 1865 5475,5

x2 − xi xi

-0,258 0,587 -0,021 0,308

5475,5 = 1825,167 3

D2 = ∑ i∈G2

d2 =

-0,058 -0,050 0,333 -0,120 0,106

2331, 2 = 582,8 4

D1 = ∑

d1 =

VAB (u.m.) 619 613,2 437,1 661,9 2331,2

x1 − xi xi

x2 − xi 1 x −x 1 f i = ∑ 2 i = 0,308 = 0,1027 xi 3 i∈G2 xi 3

x − x2 1115, 243 − 1825,167 = = −0,389 1825,167 x2

Resumiendo:

x=

7806, 7 = 1115, 243 7

125

Grupos 1 2

Ng

xg

4 3

582,8 1825,167

Dg

dg

0,0265 0,1027

0,9136 -0,389

Dg

Ng xg

dg Ng

0,000182 0,000169 0,000351

3,6544 -1,167 2,4874

1   1115, 243  0, 000351 = 0,355 + 0, 056 = 0, 411 D =  2, 4874  +  7 7    0,355 0, 056 + = 0,8637 + 0,1363 = 1 0, 411 0, 411

En términos relativos,

La desigualdad es debida a la diferencia entre subpoblaciones o grupos.

 

8.3 Medidas de dispersión regional

En general, se puede utilizar cualquier medida de dispersión para estudiar las disparidades entre distintas regiones (estudian hasta qué punto la situación de las regiones puede ser considerada homogénea). Las más utilizadas son: o Varianza: V ( X ) =

1 N

N

∑( X i =1

i

− x)

2

o Varianza normalizada: VN ( X ) =

V (X ) 2 = ( coef. de variacion de Pearson ) 2 x

Estas medidas tienen el inconveniente de que a estructuras distintas (espaciadas o polarizadas), les pueden corresponder una misma dispersión. 8.4 Coeficiente de asociación geográfica de Florence

Con este coeficiente se cuantifica la relación que pueda existir entre dos variables X e Y , cuando se dispone de un valor de cada una de ellas en cada una de las N regiones consideradas para el estudio. Supuestos conocidos para cada una de las regiones el par ( X i , Yi ) , entonces la participación de cada valor de la variable sobre el total es: xi =

Xi

e yi =

N

∑X i =1

i

Yi N

∑Y i =1

i

 0 ≤ xi , yi ≤ 1   N  N  ∑ xi = ∑ yi = 1   i =1  i =1 

El coeficiente de asociación geográfica de Florence es: F = 1 −

126

1 N ∑ xi − yi 2 i =1

Sus propiedades son: 1. 0 ≤ F ≤ 1 2. En situación de igualdad, xi = yi , i = 1,..., N ⇒ F = 1 . 3. En situación de desigualdad máxima ⇒ F = 0. 4. A medida que aumenta la asociación entre las variables, el coeficiente también aumenta. Ejemplo 8.7 (Ejercicio 1, Relación Tema 8) Sabemos que en un año el PIB a precios de

mercado de los siguientes países fue: PIB (u.m.) Superficie (1000 km 2 ) Alemania 826,4 248,7 Bélgica 104,5 30,5 Dinamarca 76,4 43,1 España 216,2 504,8 Francia 674,8 544,0 Grecia 42,8 132,0 Holanda 165,3 41,2 Inglaterra 595,0 244,1 Irlanda 24,1 68,9 Italia 473,0 301,3 Luxemburgo 4,7 2,6 Portugal 27,3 92,1 Total 3230,5 2253,3 Determinar el índice de asociación geográfica de Florence del PIB respecto a la extensión superficial de cada país. PIB (u.m.)

2

Superficie (1000 km )

xi

yi

xi − yi

Alemania

826,4

248,7

0,2558

0,1104

0,1454

Bélgica

104,5

30,5

0,0323

0,0135

0,0188

76,4

43,1

0,0236

0,0191

0,0045

España

216,2

504,8

0,0669

0,2240

0,1571

Francia

674,8

544

0,2089

0,2414

0,0325

Grecia

42,8

132

0,0132

0,0586

0,0453

165,3

41,2

0,0512

0,0183

0,0329

Inglaterra

595

244,1

0,1842

0,1083

0,0759

Irlanda

24,1

68,9

0,0075

0,0306

0,0231

Italia

473

301,3

0,1464

0,1337

0,0127

Luxemburgo

4,7

2,6

0,0015

0,0012

0,0003

27,3

92,1

3230,5

2253,3

0,0085 1

0,0409 1

0,0324 0,5810

Dinamarca

Holanda

Portugal Total

F = 1−

1 12 1  xi − yi = 1 −  0,5810  = 0, 7095 ∑ 2 i =1 2 

 

127

EJERCICIOS RESUELTOS 1. (ejercicio 3, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 80 R2 15 R3 100 R4 50 Obtenga el índice de concentración de Theil e interprete su valor. Solución:

xi =

Xi

región

Xi N

∑X i =1

R1 R2 R3 R4 suma

80 15 100 50 245

ln xi

i

0,3265 0,0612 0,4082 0,2041 1,0000

N

T = ln N + ∑ xi ln xi = 0,1597

-1,1192 -2,7932 -0,8961 -1,5892

IT = ITHEIL =

i =1

xi ln xi -0,3655 -0,1710 -0,3658 -0,3243 -1,2266

T = 0,1152 ln N

2. (ejercicio 4, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB 80 R1 15 R2 R3 100 R4 50 Obtenga la desigualdad colectiva e interprete su valor. Solución:

x = 61,25

Región R1 R2 R3 R4 suma

N

N

i =1

i =1

D = ∑ di fi = ∑ di

128

di =

Xi 80 15 100 50 245

x −1 Xi -0,2344 3,0833 -0,3875 0,2250 2,6865

1 1 N 2, 6865 = ∑ di = = 0, 6716 4 4 i =1 4

3. (ejercicio 5, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país y el número de oficinas bancarias fue REGIONES PIB OFICINAS 80 350 R1 15 70 R2 R3 100 450 R4 50 250 Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB e interprete su valor. Solución: región

Xi

xi =

Yi

Xi

∑X i =1

R1 R2 R3 R4 suma

F = 1−

80 15 100 50 245

350 70 450 250 1120

yi =

N

i

0,3265 0,0612 0,4082 0,2041 1,0000

Yi N

∑Y i =1

i

0,3125 0,0625 0,4018 0,2232 1,0000

xi − yi 0,01403 0,00128 0,00638 0,01913 0,0408

1 N ∑ xi − yi = 0,97959 2 i =1

129

9. Medidas de localización espacial. 9.1 9.2 9.3 9.4 9.5

Introducción. Cocientes de localización y especialización. Coeficientes de localización sectorial. Coeficientes de especialización regional. Coeficientes de diversificación.

9.1 Introducción

Las medidas de localización espacial son indicadores que miden la actividad de distintos sectores económicos en un conjunto de regiones en referencia a una variable económica. Consideremos un conjunto de L sectores repartidos en N regiones. Dispondremos de una tabla de doble entrada con las regiones por filas y los sectores por columnas:

Región/Sector

S1

S2

SL

Yi i

R1

Y11

Y12

Y1L

Y1i

R2

Y21

Y22

Y2 L

Y2 i

RN

YN 1

YN 2

YNL

YN i

Yi j

Yi1

Yi 2

Yi L

Y

siendo Yij → valor de la variable en la región i del sector j, i = 1,..., N ;

j = 1,..., L

L

Yi i = ∑ Yij → suma de los valores de todos los sectores en la región i j =1 N

Yi j = ∑ Yij → suma de los valores de todas las regiones en el sector j i =1

N

L

N

L

i =1

j =1

i =1 j =1

Y = ∑ Yi i = ∑ Yi j = ∑∑ Yij → suma de los valores de todas las regiones y todos los

sectores.

Ejemplo 9.1 (lo usaremos a lo largo de todo el tema)

Sea Y = VAB al coste de los factores (u.m.)

130

Región/Sect Agricultura R1 282 R2 31 R3 117,9 R4 145,8 Total (Sect) 576,7

Industria 723,6 294,6 1.526,9 390,5 2.935,6

Servicios 1.454,9 287,6 2.497,6 42,7 4.282,8

Total (Reg) 2.460,5 613,2 4.142,4 579 7.795,1  

9.2 Cocientes de localización y especialización

Yij Yi j

→ participación de la región i en el sector j (cocientes de los valores de la columna j

sobre su total) Yi i → participación de la región i en la población (cocientes de los valores de la columna Y

marginal sobre su total) Yij Yi i

→ participación del sector j en la región i (cocientes de los valores de la fila i sobre su

total) Yi j Y

→ participación del sector j en la población (cocientes de los valores de la fila marginal

sobre su total) Se define el cociente de localización regional del sector j en la región i (cociente de especialización de la región i en el sector j) como:

Lij =

Yij / Yi i Yi j / Y

100 =

Yij / Yi j Yi i / Y

100

Interpretación de la primera igualdad: Es la relación que existe entre la participación del sector j en la región i y la participación del sector j en el total. (Localización del sector j).

Interpretación de la segunda igualdad: Es la relación que existe entre la participación de la región i en el sector j y la participación de la región i en el total. (Especialización de la región i)

Si Lij < 100 : o existe una menor actividad del sector j en la región i que en toda la población ó o existe una menor participación de la región i en el sector j que en toda la población

131

Si Lij > 100 : o existe una mayor actividad del sector j en la región i que en toda la población ó o existe una mayor participación de la región i en el sector j que en toda la población Ejemplo 9.2

Con los datos del ejemplo 9.1. L13 =

Y13 / Yi3 1.454,9 / 4.282,8 100 = 100 = 107, 64 2.460,5 / 7.795,1 Y1i / Y

El sector servicios está más localizado en la R1 que en toda la población ó la región R1 está más especializada en servicios que en el conjunto de todas las actividades. Los cocientes de localización (o especialización) para estos datos son: Región/Sect Agricultura Industria R1 154,916 78,091 R2 68,333 127,572 R3 38,471 97,878 R4 340,370 179,088 Por columnas se interpreta los cocientes de localización

Servicios 107,623 85,365 109,740 13,423 de los respectivos sectores: la

actividad agrícola está más asentada en la R4, la industrial en la R4 y los servicios en la R3. Por filas se interpreta los cocientes de especialización de cada región: La R1 está más especializada en agricultura, la R2 en industria, la R3 en servicios y la R4 en agricultura. NOTA: Obsérvese los datos originales en el enunciado del ejemplo 9.1 compárese con los anteriores comentarios y se entenderá que se refieren a la localización (o especialización) en términos relativos.

 

9.3 Coeficientes de localización sectorial

Para cada sector se puede definir una medida que permite conocer su localización en el conjunto de las regiones consideradas. Se trata de conocer si un sector concreto se distribuye por igual en todas las regiones, si sólo se encuentra localizado en una región o si ocurre alguna situación intermedia, siempre en relación al patrón global o medio (véase ejercicio resuelto 1). El coeficiente de localización del sector j-ésimo se define como: CL j =

Propiedades 1. 0 ≤ CL j ≤ 1 132

1 N Yij Yi i ∑ − , 2 i =1 Yi j Y

j = 1,..., L

2. CL j = 0 si la participación de la región i en el sector j es igual a la participación de la región i en el total, y eso ocurre en todas las regiones. Es decir, no existe concentración regional de la actividad j. El sector está presente en cada una de las regiones igual que todos los sectores en conjunto (véase ejercicio resuelto 1). 3. CL j = 1 si las diferencias entre los cocientes

Yij Yi j

y

Yi i son altamente significativas, la Y

presencia del sector j en cada una de las regiones es completamente distinta de la presencia de todos los sectores en conjunto (véase ejemplo 9.4). Este coeficiente caracteriza al sector i dentro del marco regional, pero no implica una nota definitoria en ninguna región en especial. Ejemplo 9.3

Calcule los coeficientes de localización sectorial para los siguientes datos (los mismos de los ejemplos anteriores) Agricultura Industria R1 282 723,6 R2 31 294,6 R3 117,9 1526,9 R4 145,8 390,5 Total (Sect) 576,7 2935,6 Agricultura Yi1 Yi i Yi1 − Yi1 Y Yi1 0,489 0,054 0,204 0,253 1

0,173 0,025 0,327 0,179 0,704

Servicios 1454,9 287,6 2497,6 42,7 4282,8

Industria Yi 2 Yi i Yi 2 − Yi 2 Y Yi 2 0,246 0,100 0,520 0,133 1

0,069 0,022 0,011 0,059 0,161

Total (Reg) 2460,5 613,2 4142,4 579 7795,1

Yi i Y 0,316 0,079 0,531 0,074 1

Servicios Yi 3 Yi i Yi 3 − Yi 3 Y Yi3 0,340 0,067 0,583 0,010 1

0,024 0,012 0,052 0,064 0,152

1 CLAg = 0, 704 = 0,352 2 1 CLInd = 0,161 = 0, 0805 2 1 CLServ = 0,152 = 0, 076 2

Existe una cierta concentración, aunque no muy alta en la agricultura. La concentración es débil en servicios e industria.

 

133

Ejemplo 9.4

Calcule los coeficientes de localización sectorial para los siguientes datos S1

S2

R1

0

1

R2

0

1

R3

1000

0

S1

S2

Yi i

Yi i / Y

R1

0

1

1

0,001

R2

0

1

1

0,001

R3

1000

0

1000

0.998

Yi j

1000

2

Y=1002

Yij / Yi j

S1

S2

R1

0

0,5

R2

0

0,5

R3

1

0

S1

S2

R1

0,001

0,499

R2

0,001

0,499

R3

0,002

0,998

Yij Yi j



Yi i Y

CL1 = 0, 002

CL2 = 0,998

9.4 Coeficientes de especialización regional

Para cada región se puede definir una medida que permita conocer su nivel de especialización en algún sector. Se trata de conocer si una región concreta está especializada en alguna actividad, en todas las actividades por igual o bien se da una situación intermedia, siempre en relación al patrón global o medio (véase ejercicio resuelto 1). Se define el coeficiente de especialización de la región i como: 134

CEi =

1 L Yij Yi j ∑ − , i = 1,..., N 2 j =1 Yi i Y

Propiedades 1. 0 ≤ CEi ≤ 1 2. CEi = 0 si en la región i está presente cada sector en la misma proporción que en el conjunto de la población. 3. CEi = 1 cuando existe un alto grado de especialización de la región i. Situación análoga a la de CL j = 1 pero referida a regiones en lugar de a sectores. Ejemplo 9.5

Región/Sect Agricultura R1 282 R2 31 R3 117,9 R4 145,8 Total (Sect) 576,7 Agricultura Yi j Y Y1 j Y1i Y1 j



Y1i

Yi j Y

Y2 j Y2 i Y2 j Y2 i



Yi j Y

Y3 j Y3i Y3 j Y3i



Yi j Y

Y4 j Y4 i Y4 j Y4 i



Yi j Y

Industria 723,6 294,6 1526,9 390,5 2935,6 Industria

Servicios 1454,9 287,6 2497,6 42,7 4282,8 Servicios

Total (Reg) 2460,5 613,2 4142,4 579 7795,1

0,074

0,377

0,549

1

0,115

0,294

0,591

1

0,041

0,083

0,042

0,165

0,051

0,480

0,469

1

0,023

0,104

0,080

0,208

0,028

0,369

0,603

1

0,046

0,008

0,054

0,107

0,252

0,674

0,074

1

0,178

0,298

0,476

0,951

R1

R2

R3

R4

135

1 1 CER1 = 0,165 = 0, 0825; CER2 = 0, 208 = 0,104; 2 2 1 1 CER3 = 0,107 = 0, 0535; CER4 = 0,951 = 0, 4755 2 2 La región más especializada es la R4.

 

9.5 Coeficientes de diversificación

Este coeficiente mide el grado de diversificación de las actividades de una región. El grado de diversificación máximo se alcanza cuando una magnitud económica considerada se distribuye uniformemente entre los distintos sectores.

Si una región tiene un bajo coeficiente de diversificación es porque su producción se concentra mucho en un determinado sector y por tanto dicha producción está poco diversificada. La diversificación de una región será mínima cuando una sola actividad esté presente en ella.

Para la región i-ésima, la varianza correspondiente a los valores Yi1 , Yi 2 ,..., YiL de la variable en los L sectores 1 L  1 L S = ∑ Yij2 −  ∑ Yij  L j =1  L j =1 

2

2 i

podría considerarse una medida de tal diversificación. Si existe diversificación máxima, es decir, todos los sectores tienen el mismo valor

(Y

ij

j = 1,..., L ) entonces

= cte,

2

L  L  1 L 1 L  S = 0 ⇒ ∑ Yij2 = 2  ∑ Yij  ⇒ L ∑ Yij2 =  ∑ Yij  L j =1 L  j =1  j =1  j =1 

2

2 i

Teniendo en cuenta esto, el coeficiente de diversificación de la región i se define como: 2

 L   ∑ Yij  Yi i2 j =1   = L CDi = , L 2 2 L∑ Yij L ∑ Yij j =1

y verifica

i = 1,..., N

j =1

1 1 ≤ CDi ≤ 1 , alcanzando si la diversificación es mínima y 1 si la diversificación L L

es máxima. Para normalizar este coeficiente entre cero y uno, se define CDi* =

136

L  1  CDi −  . L −1  L

Ejemplo 9.6 2

 3   ∑ Yij  2.460,52 j =1 CDR1 =  3  = = 0, 742 2 2 2 3 282 723, 6 1.454,9 + + 2 ( ) 3∑ Y1 j j =1

CDR 2 = 0, 735; CDR 3 = 0, 666; CDR 4 = 0, 636 CDR*1 = 0, 61; CDR* 2 = 0, 6025; CDR* 3 = 0, 499; CDR* 4 = 0, 454

La menos diversificada es la región R4.

 

EJERCICIOS RESUELTOS. 1. (ejercicio 4, relación tema 9) En un país, dividido administrativamente en tres regiones, el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción, Químicas y Alimentación. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles): Regiones Siderurgia

I

II

III

15

10

6

Construcción 165 110 66 Químicas

30

20

12

Alimentación 195 130 78 Calcule las diversas medidas de localización espacial e interprételas, justificando y apoyando los comentarios en los datos del enunciado. Solución:

(Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de las tablas.) datos REGION R1 R2 R3

S1 15 10 6

SECTOR S2 S3 165 30 110 20 66 12

S4 195 130 78

137

Participación de las regiones en cada sector y en la población total REGION R1 R2 R3

S1 0,4839 0,3226 0,1935

SECTOR S2 S3 0,4839 0,4839 0,3226 0,3226 0,1935 0,1935

S4 población 0,4839 0,4839 0,3226 0,3226 0,1935 0,1935

Participación de los sectores en cada región y en la población total REGION R1 R2 R3 población

SECTOR S2 S3 0,4074 0,0741 0,4074 0,0741 0,4074 0,0741 0,4074 0,0741

S1 0,0370 0,0370 0,0370 0,0370

S4 0,4815 0,4815 0,4815 0,4815

Cocientes de localización y especialización Lij SECTOR REGION R1 R2 R3

S1 100,00 100,00 100,00

S2 100,00 100,00 100,00

S3 100,00 100,00 100,00

S4 100,00 100,00 100,00

Coeficientes de localización sectorial SECTOR S2 S3

S1

CL j

0

0

S4 0

0

Coeficientes de especialización regional CEi REGION R1 R2 R3

0 0 0

Coeficientes de diversificación de cada región CDi CDi* REGION R1 R2 R3

0,6178 0,6178 0,6178

0,49 0,49 0,49

 

2. (ejercicio 3, relación tema 9) Se dispone de la siguiente información sobre número de ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades: Energía Alimentos Industrial textil Andalucía 10.000 65.000 20.000 Castilla La Mancha 3.000 18.000 14.000 Castilla León 19.000 30.000 8.000 Cataluña 15.000 60.000 90.000 a) Obtenga los coeficientes de localización de las distintas actividades. 138

b) Calcule los coeficientes de especialización para cada comunidad. Solución:

Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de las tablas. datos REGION R1 R2 R3 R4 Y.j

S1 10000 3000 19000 15000 47000

SECTOR S2 S3 Yi. 65000 20000 95000 18000 14000 35000 30000 8000 57000 60000 90000 165000 173000 132000 352000

Calculamos la participación de las regiones en cada sector población

Yij Yi j

y la participación en toda la

Yi i en la siguiente tabla Y participación región SECTOR REGION S1 S2 S3 población R1 0,2128 0,3757 0,1515 0,2699 R2 0,0638 0,1040 0,1061 0,0994 R3 0,4043 0,1734 0,0606 0,1619 R4 0,3191 0,3468 0,6818 0,4688 suma 1 1 1 1

Calculamos la participación de los sectores en cada región población

Yi j Y

Yij Yi i

y la participación en toda la

en la siguiente tabla participación sector SECTOR REGION S1 S2 S3 suma R1 0,1053 0,6842 0,2105 R2 0,0857 0,5143 0,4000 R3 0,3333 0,5263 0,1404 R4 0,0909 0,3636 0,5455 población 0,1335 0,4915 0,3750

1 1 1 1 1

A partir de la tabla de participación de las regiones calculamos las diferencias en valor Y Y absoluto ij − i i en la siguiente tabla. La suma de cada columna dividida por dos nos da Yi j Y el coeficiente de localización sectorial CL j =

REGION R1 R2 R3 R4 CLj

1 N Yij Yi i ∑ − , 2 i =1 Yi j Y

Coeficientes de localización sectorial SECTOR S1 S2 S3 0,0571 0,1058 0,0356 0,0046 0,2423 0,0115 0,1496 0,1219 0,2423 0,1219

j = 1,..., L

0,1184 0,0066 0,1013 0,2131 0,2197

139

A partir de la tabla de participación de los sectores calculamos las diferencias en valor Y Y absoluto ij − i j en la siguiente tabla. La suma de cada fila dividida por dos nos da el Yi i Y coeficiente de especialización regional CEi =

1 L Yij Yi j ∑ − , i = 1,..., N 2 j =1 Yi i Y

Coeficientes de especialización regional SECTOR REGION S1 S2 S3 R1 0,0283 0,1927 0,1645 R2 0,0478 0,0228 0,025 R3 0,1998 0,0348 0,2346 R4 0,0426 0,1278 0,1705

CEi 0,192733 0,047808 0,234649 0,170455

 

3. (ejercicio 5, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 15 225 195 Región Sur 6 90 78 Calcule los coeficientes de localización sectorial. Interprete los resultados Solución: REG./SEC. R1 R2

Yi j

S1 15 6

S2 225 90

S3 195 78

21

315

273

Yi i 435 174 609

Yij Yi j

S1 S2 S3 0,7143 0,7143 0,7143 0,2857 0,2857 0,2857 1 1 1

R1 R2 suma

Yij Yi j



Yi i Y

R1 R2

CL j =

Yi i Y

1 N Yij Yi i ∑ − 2 i =1 Yi j Y

S1

S2

0,7143 0,2857 1

S3

0 0

0 0

0 0

0

0

0

La participación de cada una de las regiones en el sector j, ( ∀j , CL j = 0 ) es igual a la participación de cada región en el conjunto de sectores. Cada sector se localiza en igual medida que todos ellos en conjunto. 140

4. (ejercicio 6, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 60 225 150 Región Sur 24 90 60 Calcule los coeficientes de especialización regional. Interprete los resultados Solución: REG./SEC. R1 R2

Yi j

S1 60 24

S2 225 90

S3 150 60

84

315

210

Yi i 435 174 609

Yij Yi i

S1 S2 S3 0,1379 0,5172 0,3448 0,1379 0,5172 0,3448

R1 R2

suma 1 1

Yi j Y Yij Yi i



0,1379 0,5172 0,3448

Yi j Y

R1 R2

1

CEi = S1

S2 0 0

S3 0 0

1 L Yij Yi j ∑ − 2 j =1 Yi i Y

0 0

0 0

La presencia de cada sector en la región i, ( ∀i , CEi = 0 ) es igual a la presencia de cada sector en el conjunto del país (todas las regiones). Cada región se especializa en la misma medida que el conjunto del país. 5. (ejercicio 7, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 90 300 195 Región Sur 36 120 78 Calcule los coeficientes de diversificación normalizados. Interprete los resultados Solución: REG./SEC. R1 R2

S1 90 36

S2 300 120

S3 195 78

Yi i2

Yi i 585 234

342225 54756

141

Yij2 R1 R2

L

S1

S2

S3

∑Y j =1

8100 1296

90000 14400

2 ij

CDi =

Yi i2 L

L∑ Y j =1

38025 136125 6084 21780

2 ij

CDi* =

0,838016529 0,838016529

L  1  CDi −  L −1  L 0,75702479 0,75702479

6. (ejercicio 8, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 90 0 0 Región Sur 30 30 30 Calcule los coeficientes de diversificación normalizados. Interprete los resultados Solución: REG./SEC. R1 R2

2 ij

Y

R1 R2

S1 90 30

S2 0 30

0 30

90 90

L

S1

S2

S3

∑Y j =1

8100 900

0 900

0 900

Yi i2

Yi i

S3

2 ij

8100 2700

CDi =

8100 8100

Yi i2 L

L∑ Y j =1

2 ij

CDi* =

0,333333333 1

L  1  CDi −  L −1  L 0 1

En la región norte (R1) el grado de diversificación es mínimo, CDi* = 0 , esto ocurre cuando una sola actividad, (S1=agricultura), está presente en ella. En la región sur (R2) el grado de diversificación es máximo, CDi* = 1 , esto ocurre cuando la actividad de la región se distribuye uniformemente entre los distintos sectores, (S1=S2=S3=30).

142

10. Contrastes

χ2

de Pearson.

10.1 Contrastes χ de bondad de ajuste. 10.2 Contrastes χ 2 de independencia. 10.3 Contrastes χ 2 de homogeneidad. 2

10.1 Contraste χ 2 de bondad de ajuste.

Este contraste se emplea para decidir si un conjunto de datos proviene de una distribución de probabilidad dada. Sea una muestra aleatoria de tamaño n procedente de una variable aleatoria (población) X dividida en k clases exhaustivas y mutuamente excluyentes: S1, S2, ..., Sk El contraste a realizar es: H0: X sigue una distribución de probabilidad conocida. ni=nº de observaciones en la clase i-ésima. Ei=npi=nº esperado de observaciones en la clase i-ésima bajo H0.

Definimos el estadístico: k

χ =∑ 2

i =1

( n − Ei ) i

2

Ei

Para hallar el valor del anterior estadístico es aconsejable disponer los cálculos en una tabla como sigue: ni

pi = P [ x ∈ Si ] bajo H 0

Ei = npi

( ni − Ei )

2

( ni − Ei )

2

Ei

S1

n1

p1

np1

( n1 − E1 )

2

( n1 − E1 )

2

E1

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Sk

nk

pk

npk

( nk − Ek )

n

1

n

2

( nk − Ek )

2

Ek

χ2

Se puede demostrar que bajo H0, χ 2 → χ k2−1 (NOTA: Habrá que restar un grado de libertad por cada parámetro de la población estimado. Véase ejemplo 10.3). Si existe una concordancia perfecta entre las frecuencias que se observan y las que se esperaban, el estadístico tendrá un valor cero, y no se puede rechazar H0, tampoco se rechaza 143

si las diferencias son pequeñas. Por otro lado, si el estadístico toma un valor grande es que hay discrepancia entre unas y otras frecuencias y habrá que rechazar H0. Fijado un nivel de significación α , rechazamos H0 si χ 2 > χ k2−1,1−α

Acepto H0

Rechazo H0

1−α α χ k2−1,1−α Ejemplo 10.1 (ejercicio 1, relación tema 10)



El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los cinco días de trabajo de la semana. En base a una muestra aleatoria de cuatro semanas completas de trabajo, se observaron los siguientes números de empleados que asistieron al consultorio: Lunes Martes Miércoles Jueves Viernes 49

35

32

39

45

¿Existe alguna razón para creer que el número de empleados que asisten al consultorio médico, no se encuentra distribuido de forma equitativa durante los días de trabajo de la semana?, ( α = 0.05 ). Solución

ni L M X J V

144

49 35 32 39 45 200

1 (distribución discreta uniforme) 5 H1: las frecuencias no son todas iguales.

H0: p1 = p2 = p3 = p4 = p5 =

pi

bajo H 0

1/5 1/5 1/5 1/5 1/5 1

Ei = npi

( ni − Ei )

40 40 40 40 40 200

81 25 64 1 25

2

( ni − Ei )

2

Ei

2,025 0,625 1,6 0,025 0,625 χ 2 = 4,9

χ k2−1,1−α = χ 4,2 0'95 = 9, 49 (4,9 5 ∀i . Si esto no ocurre tendríamos que combinar clases vecinas, pero por cada par de clases que se combinen hay que reducir en 1 los grados de libertad de la distribución del estadístico. Ejemplo 10.2 (ejercicio 2, relación tema 10)



En un cajero automático se ha observado una baja utilización del mismo. Con el fin de confirmar este hecho, se ha controlado el número de llegadas diarias al mismo, obteniéndose los siguientes resultados: Nº llegadas al cajero Nº de días 0 21 1 18 2 7 3 3 4 ó más 1 En base a esta información, ¿existe alguna razón para creer que el número de llegadas diarias es una variable de Poisson con parámetro 0,9? ( α = 0, 05 )

Solución

X=nº de llegadas al cajero/día. H0: X → P (0,9) En las tablas de la Poisson se buscan las probabilidades pi = P [ X = i ] i = 0,...,3

ni X =0 X =1 X =2 X =3 X ≥4

pi

21 18 7 3 1 50

p4 = P [ X ≥ 4]

bajo H 0

0,4066 0,3659 0,1647 0,0494 0,0134 1

Ei = npi

20,33 18,3 8,24 2,47 χ ( r −1)( c −1);1−α , se rechazaría la hipótesis nula de un

comportamiento homogéneo (igual) de los tres tipos de embalajes en la conservación de cítricos. 5. (ejercicio 15, relación tema 10) En una empresa constructora se ha observado el número de accidentes que ocurren durante 130 días, obteniéndose la siguiente distribución de frecuencias: Número de accidentes por día 0 1 2 3 ≥4

Número de días 69 42 15 4 0 130 Contraste la hipótesis de que el número de accidentes por día sigue una distribución de Poisson, utilizando un nivel de significación del 1%. Solución

x = 0, 646 , nos quedamos con un solo decimal para estimar λ = 0, 6 y buscar las

probabilidades pi bajo la hipótesis nula en las tablas de la distribución de Poisson.

CLASES 0 1 2 3 4 ó más

156

( ni − Ei )

2

( ni − Ei )

2

pi

Ei = npi

69 42 15 4 0

0,5488 0,3293 0,0988 0,0198 0,0034

71,3455 42,8073 12,8422 2,5684 0,4365

5,5014 0,6517 4,6561 2,0494 0,1906

0,0771 0,0152 0,3626 0,7979 0,4365

130

1

130

χ2 =

1,6894

ni

Ei

Tenemos que agrupar clases pues las frecuencias esperadas de las dos últimas clases son menores que 5.

CLASES 0 1 2 ó más

χ

2 1;0,99

( ni − Ei )

2

( ni − Ei )

2

pi

Ei = npi

69 42 19

0,5488 0,3293 0,1219

71,3455 42,8073 15,8472

5,5014 0,6517 9,9403

0,0771 0,0152 0,6273

130

1

130

χ2 =

0,7196

ni

Ei

= 6, 63 . 0,72 ( χ 6;2 0,95 = 12,59) , se rechazaría la hipótesis nula de que el número de ausencias es independiente de la edad con un nivel de significación del 5%. (Nota: utilizar este ejemplo para comentar la importancia e interpretación del nivel de significación) 7. (Ejercicio 17, relación tema 10) Se ha preguntado a 1000 conductores sobre su preferencia en relación a tres tipos de vehículos, obteniéndose Sexo/Vehículo monovolumen deportivo todo terreno hombres 250 275 225 mujeres 80 75 95 a) ¿Es independiente la preferencia de vehículo del hecho de ser hombre o mujer? b) En general, sin distinguir entre hombre y mujeres, ¿existe un mismo grado de preferencia entre los conductores por cada tipo de vehículo? Solución:

a) Tabla de contingencia SEXO * VEHICULO VEHICULO

SEXO

HOMBRE

Recuento

MUJER

Frecuencia esperada Recuento

MONOVOLUMEN 250

DEPORTIVO 275

247,5

262,5

240,0

750,0

80

75

95

250

82,5

87,5

80,0

250,0

330

350

320

1000

330,0

350,0

320,0

1000,0

Frecuencia esperada Recuento

Total

Frecuencia esperada Pruebas de chi-cuadrado

Chi-cuadrado de Pearson

Total TODO TERRENO 225

Valor 6,232(a)

gl 2

750

Sig. asintótica (bilateral) ,044

a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 80,00.

nij

hombres mujeres n• j

158

monovolumen deportivo todo terreno

ni•

250 80

275 75

225 95

750 250

330

350

320 1000

Eij =

ni• n• j

monovolumen deportivo

n hombres mujeres

(n

ij

− Eij )

247,5 82,5

monovolumen deportivo

hombres mujeres

χ

0,025 0,076

(n = ∑ ∑ r

262,5 87,5

240 80

2

Eij

2

todo terreno

c

ij

i =1 j =1

− Eij )

todo terreno

0,595 1,786

0,938 2,813

2

Eij

= 6,233 (la diferencia con SPSS es debida a redondeos)

χ (32 −1)(2−1);1−0,05 = χ 2;2 0,95 = 5,99

χ (32 −1)(2−1);1−0,01 = χ 2;2 0,99 = 9, 21

Se rechaza la hipótesis nula de independencia con un nivel de significación del 5% pero se acepta es misma hipótesis nula con un nivel de significación del 1%. Según la salida del SPSS la hipótesis nula se acepta para cualquier nivel de significación menor del 4,4% y se rechaza para niveles de significación mayores al 4,4%. b) VEHICULO MONOVOLUMEN

N observado 330

N esperado 333,3

Residual -3,3

350

333,3

16,7

320

333,3

-13,3

DEPORTIVO TODO TERRENO Total

1000

Estadísticos de contraste Chi-cuadrado(a)

VEHICULO 1,400

gl

2

Sig. asintót.

,497

a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 333,3.

ni

monovolumen deportivo Todo terreno

330 0,33333 333,3333 350 0,33333 333,3333 320 0,33333 333,3333 1000

χ

2 k −1,1−α



2 2, 0'90

Ei = npi

pi

1

1000

( ni − Ei )

2

11,11111 277,7778 177,7778

χ2 =

( ni − Ei )

2

Ei

0,03333333 0,83333333 0,53333333 1,4

= 4, 60 Incluso con un nivel de significación del 10% se acepta la hipótesis

nula de igual preferencia por cada tipo de vehículo. Según la salida del SPSS la hipótesis nula se acepta para cualquier nivel de significación menor del 49,7%. 8. (Ejercicio 18, relación tema 10) Se sabe que en un centro de Enseñanza Primaria, el 62% de los estudiantes de último curso dejan de estudiar, el 37% pasan a formación profesional y el 159

1% pasan a enseñanza secundaria. Se toma una muestra de 80 de estos estudiantes que finalizaron el año pasado. De ellos, 54 dejaron de estudiar, 17 se pasaron a formación profesional y nueve pasaron a enseñanza secundaria. ¿Concuerdan los datos muestrales con los estadísticos de años anteriores? ( α = 0, 05 ) Solución:

ni

CLASES LO DEJAN FP ESO

Ei = npi

pi

54 17 9 80

0,62 0,37 0,01 1

49,6 29,6 0,8 80

Tenemos que agrupar clases pues la frecuencia esperada de la última clase es menor que 5.

CLASES LO DEJAN FP-ESO

χ

2 1;0,95

ni

Ei = npi

pi

( ni − Ei )

2

54 26

0,62 0,38

49,6 30,4

19,36 19,36

80

1

80

χ2 =

( ni − Ei )

2

Ei

0,39032258 0,63684211 1,02716469

= 3,84 . 1,027 5 ).

Suponemos que tenemos una muestra de tamaño n. 1. Se ordenan los valores de la muestra de menor a mayor. 2. Se calcula la función de distribución real bajo H 0 : F0 ( x) = P [ X ≤ x ] 3. Se calcula la función de distribución empírica o muestral. Fn ( x ) =

162

nº observaciones ≤ x n

4. Se calcula el estadístico experimental Dexp = max F0 ( x ) − Fn ( x )

5. Fijado el nivel de significación α y conocido el nº de elementos en la muestra se obtiene un valor crítico en la tabla A.14 que denotaremos Dα . Se rechaza H 0 si Dexp > Dα .

Nota: Los valores críticos aproximados para tamaños grandes de la muestra son muy

conservativos cuando para ajustar una distribución normal haya que estimar la media y la varianza a partir de los valores muestrales. Ejemplo 11.1. (ejercicio 7, relación tema 11)



Con un nivel de significación del 5%, contraste la hipótesis de que los siguientes valores muestrales 12, 15, 14, 14, 13, 18, 14, 17, 12, 15, proceden de una distribución normal de media 14 y varianza 2,25. Solución

H 0 : F ( x) = N ( µ = 14; σ 2 = 2, 25) H1 : F ( x) ≠ N ( µ = 14; σ 2 = 2, 25)

Muestra ordenada 12

ni

Ni

F0 ( x) = P [ X ≤ x ]

Fn ( x)

F0 ( x) − Fn ( x)

2

2

0,0912

2/10=0,2

0,1088

13

1

3

0,2525

3/10=0,3

0,0475

14

3

6

0,5

0,6

0,1

15

2

8

0,7475

0,8

0.0525

17

1

9

0,977

0,9

0,077

18

1

10

0,9962

1

0,0038

n = 10

 12 − 14  F0 (12) = P [ X ≤ 12] = P  Z ≤  = P  Z ≤ −1,3 = 0, 0912 2, 25    13 − 14  F0 (13) = P [ X ≤ 13] = P  Z ≤  = P  Z ≤ −0, 6  = 0, 2525 2, 25   ...

163

 18 − 14  F0 (18) = P [ X ≤ 18] = P  Z ≤  = P  Z ≤ 2, 6  = 0,9962 2, 25   Para n=10 y α = 0, 05 el valor crítico Dα para el test de bondad de ajuste de K-S es Dα =0,409.

(D

exp

= 0,1088 ) < ( Dα = 0, 409 ) luego no existen motivos para rechazar la

hipótesis nula.



1 0,9 0,8 0,7 0,6 0,5

0,5-0,3=0,2

0,4 0,3 0,2 0,1 0 8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

Nota: Este gráfico ilustra cómo calcula SPSS las diferencias entre las funciones de distribución muestral y bajo H 0 . Aunque en la práctica sólo se calcula F0 ( xi ) − Fn ( xi ) , en distribuciones continuas habría que hallar también las diferencias F0 ( xi +1 ) − Fn ( xi ) para encontrar la máxima diferencia entre ambas funciones de distribución. Prueba de Kolmogorov-Smirnov para una muestra ejercicio11_7 10

N Media Desviación típica

Diferencias más extremas

Absoluta

,200

Positiva

,1088

Negativa

-,200

1,5

Z de Kolmogorov-Smirnov

,632

Sig. asintót. (bilateral)

,819

a La distribución de contraste es la Normal. b Especificado por el usuario

164

14

Parámetros normales(a,b)

23

Ejemplo 11.2 (ejercicio 8, relación tema 11)



Con nivel de significación 5% contraste la hipótesis de que los siguientes valores muestrales X

ni 0,45 2 0,55 3 1 0,6 2 0,75 1 0,8 4 0,85 2 0,88 1 5 n = 20 proceden de la distribución de probabilidad dada por 0  F0 =  x 2  1

x≤0

  0 ≤ x ≤ 1 x ≥ 1 

Solución

X

ni

Ni

Fn ( x)

F0 ( x)

Fn ( x) − F0 ( x)

0,45 0,55 0,6 0,75 0,8 0,85 0,88 1

2 3 1 2 1 4 2 5

2 5 6 8 9 13 15 20

2/20 5/20 6/20 8/20 9/20 13/20 15/20 1

0, 45 = 0, 2025 0,3025 0,36 0,5625 0,64 0,7225 0,7744 1

0.1025 0.0525 0,06 0,1625 0,19 0,0725 0,0244 0

n = 20 Para n=20 y α = 0, 05 Dα =0,294.

(D

exp

2

= 0,19 ) < ( Dα = 0, 294 ) luego acepto la hipótesis

nula.



11.2 Contraste de Kolmogorov-Smirnov para 2 muestras.

Este contraste trata de ver si 2 muestras aleatorias independientes provienen de la misma población o no. Este test de homogeneidad de K-S es el test más potente para comparar dos muestras independientes desde el punto de vista de si proceden de una misma población. Detecta todo tipo de diferencias en las distribuciones, en particular diferencias en la tendencia central (media, mediana), en la dispersión, en la asimetría y en el exceso, esto es, diferencias en las funciones de distribución. El contraste se basa en el estudio de las diferencias entre las funciones de distribución empíricas o muestrales de cada muestra.

165

Dadas dos muestras aleatorias e independientes, de tamaños n y m, cuyas funciones de distribución muestrales se designan por Fn1 ( x) y Fm2 ( x) , respectivamente, se pueden plantear los siguientes contrastes: Contraste bilateral:  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x) 

Contrastes unilaterales:  H 0 : Fn ( x) = Fm ( x)    (1)  H1 : Fn ( x) < Fm ( x) 

ó

 H 0 : Fn ( x) = Fm ( x)    (2)  H1 : Fn ( x) > Fm ( x) 

Pasos:

1. Se entremezclan y se ordenan los valores de las dos muestras de menor a mayor. 2. Se calcula cada una de las dos funciones empíricas (o funciones de distribución muestrales). 3. Se calcula la diferencia entre las dos funciones de distribución muestrales. Si Fn1 ( x) < Fm2 ( x) , ∀x , se plantea el test unilateral (1) Si Fn1 ( x) > Fm2 ( x) , ∀x , se plantea el test unilateral (2) Si las diferencias unas veces son positivas y otras negativas, se plantea el test bilateral. En cualquier caso el estadístico experimental es: Dexp = max Fn1 ( x) − Fm2 ( x) 4. Fijado el nivel de significación α y conocido el nº de elementos en cada muestra, se obtiene el valor crítico Dα , distinguiendo si n = m o n ≠ m y si el test es unilateral o bilateral. Se rechaza H 0 si Dexp > Dα . (Tablas A.18 y A.19) Ejemplo 11.3 (ejercicio 9, relación tema 11)



Con nivel de significación de 5%, contraste la hipótesis de que los siguientes valores muestrales proceden de una misma población. Muestra 1 Muestra 2

2 2

4 4

2 5

3 3

5 5

6 4

7 7

8 6

9 5

3 3

Solución

En primer lugar se ordenan de menor a mayor todas las observaciones muestrales. Se construyen las dos funciones de distribución empíricas. Las diferencias unas veces son positivas y otras negativas lo que invita a hacer un test bilateral.

166

Dexp

Muestras ordenadas 2 3 4 5 6 7 8 9 = 2 /10 = 0, 2

F101 ( x)

F102 ( x)

F101 ( x) − F102 ( x)

F101 ( x) − F102 ( x)

2/10 4/10 5/10 6/10 7/10 8/10 9/10 10/10

1/10 3/10 5/10 8/10 9/10 10/10 10/10 10/10

1/10 1/10 0 -2/10 -2/10 -2/10 -1/10 0

1/10 1/10 0 2/10 2/10 2/10 1/10 0

α = 0, 05 , n=m=10, Dα =

6 = 0, 6 , 10

Dexp < Dα , acepto la hipótesis nula de que las dos

muestras se han obtenido de la misma población.



Ejemplo 11.4 (ejercicio 2, relación tema 11)



Dos grupos de empleados de una empresa son sometidos a sendos programas de entrenamiento, siendo evaluada posteriormente, mediante un test que valora en una escala de 0 a 100, la mejora que se produce en el rendimiento de cada trabajador. Los resultados obtenidos son Grupo 1 50 83 45 63 72 56 65 47 66 35 14 57 90 25 15 74 Grupo 2 95 92 85 86 72 75 93 67 56 85 93 98 85 62 54 56 Comparar, utilizando el test de Kolmogorov-Smirnov, si los dos métodos producen la misma distribución de probabilidades sobre las puntuaciones resultantes. ( α = 0.05 ) Solución

Puntuación

F161 ( x)

F162 ( x)

F161 ( x) − F162 ( x) = F161 ( x) − F162 ( x)

14 15 25 35 45 47 50 54 56 57 62 63 65 66

1/16 2/16 3/16 4/16 5/16 6/16 7/16 7/16 8/16 9/16 9/16 10/16 11/16 12/16

0 0 0 0 0 0 0 1/16 3/16 3/16 4/16 4/16 4/16 4/16

1/16 2/16 3/16 4/16 5/16 6/16 7/16 6/16 5/16 6/16 5/16 6/16 7/16 8/16 167

67 72 74 75 83 85 86 90 92 93 95 98

5/16 6/16 6/16 7/16 7/16 10/16 11/16 11/16 12/16 14/16 15/16 16/16

12/16 13/16 14/16 14/16 15/16 15/16 15/16 1 1 1 1 1

7/16 7/16 8/16 7/16 8/16 5/16 4/16 5/16 4/16 2/16 1/16 0

F161 ( x) > F162 ( x) lo que sugiere un contraste unilateral. α = 0, 05 , n=m=16 Dα =

6 . 16

Dexp > Dα (no provienen de la misma población) los dos métodos no son iguales. El grupo 2 arroja puntuaciones mayores, o lo que es lo mismo F161 ( x) > F162 ( x) .



11.3 Contraste de Mann-Whitney.

La prueba de Mann-Whitney también permite contrastar si dos muestras independientes, han sido obtenidas de la misma población. Pero este contraste no necesita conocer la cuantificación de los elementos de las muestras, solo es necesario disponer de un orden entre dichos elementos. El test de rangos U de Mann y Whitney es la contrapartida no paramétrica del test t para la comparación de las medias de dos distribuciones continuas (test paramétrico). Para muestras pequeñas el contraste de K-S es más eficiente. Tomamos dos muestras independientes de tamaños n y m donde suponemos que n ≤ m . Se presupone que las distribuciones de las muestras que se han de comparar presentan la misma forma. El test U de Mann y Whitney examina la hipótesis alternativa. “La probabilidad de que una observación obtenida al azar de la primera población supere a una observación aleatoria de la segunda población es distinta de

1 ” 2

El test es sensible frente a diferencias de medianas, algo menos sensible frente a las diferencias de asimetría, e insensible frente a las diferencias de varianzas.

168

Se pueden plantear los siguientes contrastes: Contraste bilateral:  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x) 

Contrastes unilaterales:  H 0 : Fn ( x) = Fm ( x)    (1) H : F ( x ) < F ( x ) m  1 n 

 H 0 : Fn ( x) = Fm ( x)    (2) H : F ( x ) > F ( x ) m  1 n 

ó

Estos últimos cuando se observe que los valores de una muestra son en general mayores o menores que los de la otra. (Véase ejemplo 11.6) Pasos:

1. Mezclar los datos de ambas muestras en un solo conjunto y ordenar de menor a mayor. 2. El valor del estadístico U ( U 0 ) se obtiene mediante: Ui =

nº de veces que una observación de la muestra i precede a una observación de la muestra j, si coinciden dos valores tomamos 0.5, ( i = 1, 2 ,

j = 1, 2 ,

i ≠ j ).

O bien, Ui =

nº de veces que una observación de la muestra j es precedida por una observación de la muestra , si coinciden dos valores tomamos 0.5, ( i = 1, 2 , j = 1, 2 ,

i ≠ j ).

Ejemplo 1º muestra

9 11 15

n=3

2º muestra

6

m=4

Muestras ordenadas

8 11 13

6 8 9 11 11 13 15

Procedente de:

2º 2º 1º 1º



2º 1º

U1 = 0 + 0 + 1,5 + 2 = 3,5 U 2 = 2 + 2,5 + 4 = 8,5

Ejemplo 1º muestra

3

4

2

2º muestra

6

7

8

Muestras ordenadas Procedente de:

2

n=3 9

m=4

3

4

6

7

1º 1º



2º 2º

8

9





169

U1 = 3 + 3 + 3 + 3 = 12 U2 = 0 + 0 + 0 = 0 Como podemos observar, si 2 muestras proceden de la misma población, los datos tienden a entremezclarse. En caso contrario, los U i toman valores extremos. Otra forma de calcular los U i (aconsejable para muestras grandes) es así: Ordenar los datos de forma creciente y asociar a cada uno su rango o lugar dentro del conjunto (si hay repeticiones de valores, se asigna el rango medio) Ejemplo Muestras ordenadas Procedente de:

6 8 9 11 11 13 15 2º 2º 1º 1º

rangos



2º 1º

1 2 3 4,5 4,5 6 7

Sean R1 y R2 la suma de los rangos de la 1º y 2º muestra, entonces: n(n + 1) − R1 2 m(m + 1) U 2 = nm + − R2 2 U1 = nm +



U 2 = nm − U1 )

R1 = 3 + 4,5 + 7 = 14,5 ⇒ U1 = ( 3 × 4 ) +

3× 4 − 14,5 = 3,5 2

R2 = 1 + 2 + 4,5 + 6 = 13,5 ⇒ U 2 = ( 3 × 4 ) +

4×5 − 13,5 = 8,5 2

El estadístico es: U 0 = min (U1 , U 2 ) Nota: también lo podíamos haber definido con el máximo. 3. Como hemos visto, si los datos no proceden de la misma población, los U i toman valores extremos y por tanto U 0 tomará un valor pequeño. Luego rechazamos la hipótesis nula cuando U 0 tome valores pequeños, pero ¿cómo de pequeños?

Distinguimos casos: a)

n ≤ 20 y m ≤ 40

Se rechazará la hipótesis nula cuando el valor U0 sea igual o menor que el valor crítico Uα de las tablas 3.18 o 3.19 (nivel de significación α = 5% ). SPSS usa niveles de significación exactos, Dineen y Blakesley (1973). b)

En otro caso distinto al apartado a) se tendrá en cuenta que para tamaños

muestrales suficientemente grandes ( m + n > 60 , según algunos autores) se cumple la excelente aproximación.

170

 nm nm(n + m + 1)  U → N  ,  12  2  Calculo p = P [U ≤ U 0 / H 0 ] Para α fijo, rechazo H 0 si p ≤

α 2

(bilateral ) o

p ≤ α (unilateral ) .

Mann y Whitney consideran aceptable esta aproximación siempre que los tamaños muestrales no sean muy pequeños ( m ≥ 8, n ≥ 8 ). Nosotros utilizaremos las tablas 3.18 o 3.19 para los valores de m y n que aparecen en dichas tablas y esta aproximación normal cuando no aparezcan. En el caso de empates entre valores de ambas muestras el valor corregido de U (al asignar rangos medios) tiene una distribución distinta (Sachs, Estadística Aplicada, pag. 255). Ejemplo 11.5 (ejercicio 4, relación tema 11)



Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa, se obtuvo en sendas muestras de 5 y 4 meses, la cantidad de unidades producidas de un artículo concreto, el resultado se muestra a continuación: Taller 1 78

64 75 45 82

Taller 2 110

70 53 51

Utilizando el contraste de Mann-Whitney, comprobar si la productividad en los dos talleres es la misma (α = 0.05) . Solución

n=4 (taller 2) ≤ 20, m=5 (taller 1) ≤ 40 Muestras ordenadas 45 51 53 64 70 75 78 82 110

rango

Procede de:

1º 2º 2º 1º 2º 1º 1º 1º 2º 4×5 RT 2 (taller 2) = 2 + 3 + 5 + 9 = 19 ⇒ U T 2 = ( 4 × 5 ) + − 19 = 11 ⇒ U T 1 = ( 4 × 5 ) − U T 2 = 9 2 U 0 = min (11, 9 ) = 9 1 2 3 4 5 6 7 8 9

171

n = 4, m = 5, U α = 1 (tabla 3.19) (U 0 = 9) > (U α = 1) ⇒

los dos talleres producen lo

mismo.



Ejemplo 11.6 (ejercicio 5, relación tema 11)



Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 12 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 12 trabajadores también seleccionados al azar. El resultado de ambas fue No incentivos 67 78 69 67 56 57 78 79 56 43 45 65 Incentivos

78 98 67 87 79 65 76 87 57 76 77 78

Realice el contraste utilizando la prueba de Mann-Whitney (α = 0.05) . Solución

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Muestras ordenadas 43 45 56 56 57 57 65 65 67 67 67 69 76 76 77 78 78 78 78 79 79 87 87 98

Incentivos No No No No No Si No Si No No Si No Si Si Si No No Si Si No Si Si Si si m = n = 12

rango 1 2 3,5 3,5 5,5 5,5 7,5 7,5 10 10 10 12 13,5 13,5 15 17,5 17,5 17,5 17,5 20,5 20,5 22,5 22,5 24

RNO = 1 + 2 + 3,5 + 3,5 + 5,5 + 7,5 + 10 + 10 + 12 + 17,5 + 17,5 + 20,5 = 110,5 U NO = (12 × 12 ) + 172

12 ×13 − 110,5 = 111,5 ⇒ U SI = 144 − 111,5 = 32,5 2

U 0 = min (111,5; 32,5) = 32,5 En primer lugar vamos a contrastar la hipótesis nula de que los incentivos no tienen efecto sobre la producción frente a la alternativa de que sí lo tienen, es decir  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x) 

Para ello realizaremos un test bilateral ( α = 0.05 , tabla 3.19) U α = 37 ;

(U 0 = 32,5) < (U α = 37) ⇒ rechazo la hipótesis nula, por tanto, los incentivos

tienen efectos sobre la producción –sin especificar en qué sentido. En este caso que nos ocupa parece más plausible contrastar  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) > Fm ( x) 

Dado que suponemos que los incentivos van a tener un efecto positivo sobre la producción, es decir, los valores de la muestra con incentivos deberían ser mayores que los de la muestra sin incentivos y por tanto la función de distribución de la muestra con incentivos ( Fm ( x) ) menor que la función de distribución de la muestra sin incentivos ( Fn ( x) ) (Recuérdese lo que ocurría en el ejemplo 11.4 ). Para ello realizaremos un test unilateral ( α = 0.05 , tabla 3.18) U α = 42 ;

(U 0 = 32,5) < (U α = 42) ⇒ rechazo la hipótesis nula, por tanto, los incentivos

tienen efectos positivos sobre la producción. Dado que un test bilateral con α = 0.05 equivale a un test unilateral con α = 0.025 y en ese caso se había rechazado la hipótesis nula, con mayor razón se rechaza en este último test unilateral con α = 0.05 > 0.025 .



Ejemplo 11.6b (ejercicio 5, relación tema 11)



Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 25 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 25 trabajadores también seleccionados al azar. El resultado de ambas fue No incentivos

Incentivos

72 83 74 71 60 60 82 84 61 48 50 70 71 67 78 69 67 56 57 78 79 56 43 45 65 84 99 73 94 85 70 80 93 63 80 84 85 88 78 98 67 87 79 65 76 87 57 76 77 78 173

Realice el contraste utilizando la prueba de Mann-Whitney (α = 0.05) . Solución

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47

174

Muestras ordenadas 43 45 48 50 56 56 57 57 60 60 61 63 65 65 67 67 67 69 70 70 71 71 72 73 74 76 76 77 78 78 78 78 79 79 80 80 82 83 84 84 84 85 85 87 87 88 93

incentivos NO NO NO NO NO NO NO SI NO NO NO SI NO SI NO NO SI NO NO SI NO NO NO SI NO SI SI SI NO NO SI SI NO SI SI SI NO NO NO SI SI SI SI SI SI SI SI

rango 1 2 3 4 5.5 5.5 7.5 7.5 9.5 9.5 11 12 13.5 13.5 16 16 16 18 19.5 19.5 21.5 21.5 23 24 25 26.5 26.5 28 30.5 30.5 30.5 30.5 33.5 33.5 35.5 35.5 37 38 40 40 40 42.5 42.5 44.5 44.5 46 47

48 49 50

94 98 99

SI SI SI

n = m = 25

48 49 50

RNO = 442 RSI = 833 U NO = ( 25 × 25 ) +

25 × 26 − 442 = 508 ⇒ U SI = ( 25 × 25 ) − 508 = 117 2 U 0 = min (508;117) = 117

 25 × 25 25 × 25 × 51  U → N  ,  = N ( 312,5; 51,54 ) 12  2  117 − 312,5   p = P [U ≤ 117 / H 0 ] = P  Z ≤ = P [ Z ≤ −3, 79] = 0, 00007 51,54   Basándonos en los comentarios del ejemplo anterior, procede realizar un contraste unilateral  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) > Fm ( x) 

( p = 0, 00007 ) ≤ (α = 0, 05)

⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen

efectos positivos sobre la producción.

α = 0, 05

117

312,5

0.00007 También se hubiera rechazado la hipótesis nula con un contraste bilateral.  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x) 

( p = 0, 00007 ) ≤ 

α

 = 0, 025  ⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen 2 

efectos sobre la producción.

175

α =0,025 2

α

117

2

312,5

0.00007 ▄ 11.4 Test de las rachas.

El test de las rachas es un test no paramétrico que sirve para verificar la independencia o aleatoriedad del orden de los valores muestrales. Una racha es una sucesión de símbolos idénticos, a los que preceden o siguen otros símbolos. Así, por ejemplo, la serie de resultados CCC+CC++ obtenida al tirar n=8 veces una moneda, constituye R=4 rachas. No sólo en el caso de datos alternativos sino también tratándose de valores medidos puede hablarse de rachas: las medidas pueden agruparse en rachas de valores menores y rachas de valores mayores o iguales que la mediana. Para un valor dado de n, un R pequeño es indicio de que las observaciones iguales aparecen en forma aglomerada , mientras que un valor grande de R denota que las observaciones se suceden de una forma regular. La hipótesis nula H 0 dice que el orden de los valores es casual, esto es, que se trata de una muestra aleatoria, mientras que la hipótesis alternativa H A dice que la muestra no es aleatoria; o sea, que los valores muestrales no son independientes entre sí. En el caso unilateral a la H 0 se le contrapone la hipótesis H A1 : “efecto de aglomeración”, o bien la H A 2 : “los valores se suceden de una forma regular” Los valores críticos rinferior = ru y rsuperior = ro correspondientes a n1 y n2 ≤ 20 (donde n1 y n2 representan el número de veces que aparecen los dos elementos alternativos respectivamente, n1 + n2 = n ) pueden obtenerse de la tabla 4.40.

Para n1 o n2 > 20 el estadístico R se distribuye aproximadamente como una normal de media y varianza

µ=

2n1n2 +1 n1 + n2

( R = µ + zσ , donde z es normal tipificada). 176

σ2 =

2n1n2 (2n1n2 − n1 − n2 )

( n1 + n2 ) ( n1 + n2 − 1) 2

En el test bilateral se mantiene H 0 si ru < R < ro (para n1 y n2 ≤ 20 ) o − zα < z < zα (para 2

2

n1 o n2 > 20 ) y se rechaza en caso contrario. (Nota: utilizar ru y ro con límites inferiores y

superiores del

α 2

)

En el test unilateral H 0 se rechaza frente a H A1 tan pronto como R ≤ ru ( n1 y n2 ≤ 20 ) o z ≤ − zα ( n1 o n2 > 20 ). Se rechaza frente a H A 2 si

ro ≤ R ( n1 y n2 ≤ 20 ) o zα ≤ z

( n1 o n2 > 20 ). (Nota: utilizar ru y ro con límites inferiores y superiores del α %) También puede utilizarse el test de rachas para verificar si dos muestras independientes de tamaño similar proceden o no de una misma población (las n1 + n2 = n observaciones se ordenan en sentido creciente, indicando con dos símbolos a qué muestra pertenecen, si se obtiene un valor pequeño de R, se rechaza la hipótesis nula de igualdad de poblaciones). Ejemplo 11.7 (Ejercicio 14 , relación tema 11)



Se desea verificar la aleatoriedad de la siguiente serie de valores 18, 17, 18, 19, 20, 19, 19, 21, 18, 21, 22 ( α = 0,10 ). Solución

Me=19. Atendiendo a que sean mayores o iguales (M) o menores (m) que la mediana puede escribirse mmmMMMMMmMM. Esta serie, con n1 = 4(m) , n2 = 7( M ) y R = 4 es compatible al 10% con la hipótesis de aleatoriedad pues

( ru = 3) < ( R = 4 ) < ( ro = 9 ) (NOTA: Si hubiéramos considerado 19=m, entonces mmmmMmmMmMM , n1 = 7(m) , n2 = 4( M ) y R = 6 . Concluyendo de igual modo la compatibilidad con la hipótesis de

aleatoriedad.

( ru = 3) < ( R = 6 ) < ( ro = 9 ) Con α = 0, 05 ,

( ru = 2 ) < ( R = 4 o 6 )

( ro = no hay límite su p erior ) ,

se aceptaría la

hipótesis de aleatoriedad. )



Ejemplo 11.8 (Ejercicio 15, relación tema 11)



Supóngase dos muestras aleatorias independientes de tamaños n1 = 20, n2 = 20 que han proporcionado el siguiente número de rachas R = 15 . Contraste la hipótesis nula de igualdad de las poblaciones de procedencia. ( α = 0, 05 ) 177

Solución

Este contraste equivale a la verificación de la no aglomeración de las observaciones (únicamente un reducido número de rachas nos induciría a rechazar la hipótesis nula de igualdad de poblaciones). Es decir, un test de H A1 frente a H 0 , al nivel del 5%, unilateral, con ayuda de los extremos críticos inferiores del 5% de la tabla 4.40. ru = 15 y como para ( R = 15) ≤ (ru = 15) se rechaza la hipótesis nula a favor de H A1 , se acepta la hipótesis de aglomeración, lo que en este contexto implica que las muestras proceden de poblaciones distintas. Como los tamaños de las muestras se encuentran en el límite n1 = 20, n2 = 20 , vamos a resolver el problema mediante la aproximación normal

µ=

2n1n2 + 1 = 21 n1 + n2

σ2 = z=

2n1n2 (2n1n2 − n1 − n2 )

( n1 + n2 ) ( n1 + n2 − 1) 2

R−µ

σ

=

= 9, 7436 σ = 3,1215

15 − 21 = −1,92215 3,1215

( z = −1,92215) ≤ (− z0,05 = −1, 645) ⇒ llegándose al mismo resultado, se rechazaría la hipótesis de que las poblaciones son iguales.



11.5 Test de los signos.

Es un test no paramétrico dedicado a contrastar si dos muestras dependientes (apareadas, paralelas o ligadas) proceden de una misma distribución. Resulta especialmente útil cuando la medición cuantitativa no es posible. Este es un test no paramétrico rápido que sirve para contrastar las mismas hipótesis que el test de Wilcoxon que veremos a continuación. El nombre de este test se debe a que únicamente se consideran los signos de las diferencias entre observaciones. Se presupone que la variable aleatoria es continua. Al contrario que en el test de la t o en el de Wilcoxon, aquí no es necesario que todos los pares procedan de una misma población. Pueden pertenecer a poblaciones distintas en lo que se refiere, por ejemplo, a edad o sexo, etc. Lo esencial es que los resultados de cada par sean independientes entre sí. La hipótesis nula del test de los signos es: La media de las diferencias entre los pares ligados es igual a cero; se espera que aproximadamente la mitad de las diferencias tendrán el signo + y la otra mitad el signo − . Es 178

decir, con el test de los signos se contrasta la hipótesis de que la mediana de la distribución de las diferencias tiene el valor cero (la diferencia entre las dos medianas es cero, dicho de otra forma, elegida una pareja al azar la probabilidad de que el primer elemento supere al segundo es igual que la probabilidad de que el segundo supere al primero). La tabla 4.4 contiene los extremos de confianza, se rechazará la hipótesis nula cuando haya demasiadas (o demasiado pocas) diferencias del mismo signo, esto es, cuando se rebasen (por exceso o por defecto) los valores indicados en la tabla 4.4. Las diferencias nulas no se consideran; esto puede traer consigo una disminución del tamaño muestral. La probabilidad de obtener un número determinado de signos más o menos se deduce de la distribución binomial con p = q = con p = q =

1 . A partir de la tabla de probabilidades binomiales 2

1 se han determinado los valores de la tabla 4.4. 2

En la tabla 4.5 aparece sólo el extremo izquierdo (EI) de la región de aceptación de la hipótesis nula. El extremo derecho (ED) puede obtenerse mediante la fórmula ED = n − EI + 1 . Cuando no se disponga de tablas o cuando estas resulten insuficientes, y si las muestras de diferencias no son demasiado pequeñas ( n ≥ 30 ) -algunos autores consideran bueno a partir de

( n ≥ 25 ) -

la frecuencia observada del signo menos abundante se aproxima mediante una

normal de media y varianza

µ = np =

n 2

σ 2 = npq =

Ejemplo 11.9 (Ejercicio 16, relación tema 11)

n 4 ▼

Supóngase que analizamos 15 pares de valores mediante el test de los signos, caso bilateral, al nivel del 5%. Obtenemos 2 diferencias nulas y 13 no nulas, de ellas 11 positivas y 2 negativas. ¿Proceden las dos muestras ligadas de la misma población? Solución

De la tabla 4.4 obtenemos para n=13 los extremos 3 y 10. Los valores encontrados en nuestro caso caen fuera de los límites por lo que se rechaza la hipótesis nula y se acepta que ambas muestras proceden de poblaciones distintas.



11.6 Test de Wilcoxon de los signos-rangos.

Los test óptimos para la comparación de dos muestras dependientes (ligadas o paralelas) son: el test de la t de Student, si la distribución de las diferencias es normal, y el test de Wilcoxon 179

para diferencias entre pares, que utiliza signos y rangos, cuando las diferencias no siguen una distribución normal. Este último test puede aplicarse también cuando los datos vengan dados en forma de rangos. En comparación con el test de la t, el test de Wilcoxon requiere muchos menos cálculos y es casi igual de potente en el caso de diferencias normalmente distribuidas. Si el test lleva a rechazar H 0 significaría que las dos muestras proceden de poblaciones con distribuciones distintas. Prescindiendo de los pares cuyos dos valores sean iguales, para los n pares de valores restantes se formarán las diferencias entre las dos muestras paralelas di = xi1 − xi 2 A continuación se ordenan los valores absolutos d i de menor a mayor, asignándoles rangos: el menor de todos ellos tendrá el rango 1, y el mayor tendrá rango n. Caso de que se repitieran valores, se asignarían a cada uno de ellos el rango medio (como se hizo con los empates en el test de Mann-Whitney). Junto a cada número de rango se anota si la diferencia correspondiente tiene signo positivo o negativo. Se forma la suma de los números de rango positivos ( R+ ) y la de los rangos negativos ( R− ), que se comprueban con la fórmula R+ + R− =

n(n + 1) 2

(

)

Como estadístico se empleará la menor de las dos sumas de rangos R = min( R+ , R− ) . Se rechazará la hipótesis nula cuando el valor obtenido R se menor o igual que el valor crítico indicado en la tabla 4.2. Para n > 25 la distribución de estadístico R bajo la hipótesis nula es aproximadamente una normal de media y varianza:

µ=

n(n + 1) 4

σ2 =

n(n + 1)(2n + 1) 24

Ejemplo 11.10 (ejercicio 17, relación tema 11)



Un bioquímico quiere comparar dos métodos de determinación de la concentración de testosterona en la orina. Sean A y B dichos métodos. Para la comparación, bilateral y al nivel del 5%, dispone de 9 muestras de orina. No se sabe si la distribución de los valores es normal. Los valores vienen dados en miligramos contenidos en la orina de 24 horas. Muestra nº

180

1

2

3

4

5

6

7

8

9

A (mg/muestra)

0,47 1,02 0,33 0,70 0,94 0,85 0,39 0,52 0,47

B (mg/muestra)

0,41 1,00 0,46 0,61 0,84 0,87 0,36 0,52 0,51

Solución

Muestra nº

1

2

3

4

5

6

7

8

9

A (mg/muestra)

0,47

1,02

0,33

0,70

0,94

0,85

0,39

0,52

0,47

B (mg/muestra)

0,41

1,00

0,46

0,61

0,84

0,87

0,36

0,52

0,51

A − B= di

0,06

0,02

-0,13

0,09

0,10

-0,02

0,03

0

-0,04

5

1,5

8

6

7

1,5

3

(+) 6

(+) 7

Rango de los d i R+ = 22,5

(+) 5 (+) 1,5

R− = 13,5

(-) 8

comprobación

4

(+) 3 (-) 1,5

(-) 4

22,5+13,5=36=8(8+1)/2

n=8, pues hay una pareja donde la diferencia es cero. Buscando en la tabla 4.2 se tiene que R = 13,5 > 3 , por tanto no puede rechazarse la hipótesis nula.



EJERCICIOS RESUELTOS 1. (ejercicio 1, relación tema 11) A continuación se proporcionan los valores ordenados de una muestra aleatoria del número de respuestas correctas para un determinado test: 852, 875, 910, 933, 957, 963, 981, 998, 1007, 1010, 1015, 1018, 1023, 1035, 1048, 1063. En años anteriores el número de respuestas correctas estaba representado, de forma adecuada, por una N(985, 50). Con base en esta muestra, ¿existe razón para creer que ha ocurrido un cambio en la distribución de respuestas correctas? ( α = 0.05 ) SOLUCIÓN: muestra ordenada 852 875 910 933 957 963 981 998 1007 1010 1015 1018 1023 1035 1048 1063

ni

Ni 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

z -2,66 -2,20 -1,50 -1,04 -0,56 -0,44 -0,08 0,26 0,44 0,50 0,60 0,66 0,76 1,00 1,26 1,56

Fo(x) 0,0039 0,0139 0,0668 0,1492 0,2877 0,3300 0,4681 0,6026 0,6700 0,6915 0,7257 0,7454 0,7764 0,8413 0,8962 0,9406

Fn(x) 0,0625 0,1250 0,1875 0,2500 0,3125 0,3750 0,4375 0,5000 0,5625 0,6250 0,6875 0,7500 0,8125 0,8750 0,9375 1,0000

|Fo(x)-Fn(x)| 0,0586 0,1111 0,1207 0,1008 0,0248 0,0450 0,0306 0,1026 0,1075 0,0665 0,0382 0,0046 0,0361 0,0337 0,0413 0,0594

181

(D

exp

= 0,1207 ) < ( Dα = 0,327 ) luego no existen motivos para rechazar la hipótesis nula.

2. (ejercicio 3, relación tema 11) Contrastar a un nivel α = 0.1 si los datos siguientes proceden de una distribución Normal con media 10.84 y desviación típica 3.5: 10.5 8 15 12.1 4.1 12.1 8 10.5 16 12.1 SOLUCIÓN: muestra ordenada 4,1 8 10,5 12,1 15 16

ni

Ni 1 2 2 3 1 1

1 3 5 8 9 10

z -1,93 -0,81 -0,10 0,36 1,19 1,47

Fo(x) 0,0271 0,2086 0,4613 0,6406 0,8827 0,9298

Fn(x) |Fo(x)-Fn(x)| 0,1000 0,0729 0,3000 0,0914 0,5000 0,0387 0,8000 0,1594 0,9000 0,0173 1,0000 0,0702

α = 0,1 n = 10 ⇒ Dα = 0,369 . ( Dexp = 0,1594 ) < ( Dα = 0,369 ) luego no existen motivos para rechazar la hipótesis nula. 3. (ejercicio 10, relación tema 11) La duración en minutos de las 100 llamadas telefónicas recibidas durante un día en una empresa de seguros de automóviles se recoge en la siguiente tabla Duración en minutos

Número de llamadas

xi

ni

menos de 10 10-20 20-30 30-40 40-50 50-60

15 17 26 18 13 11

Contraste, con un nivel de significación del 5%, la hipótesis de que la duración de las llamadas recibidas sigue una distribución Normal con media 30 minutos y desviación típica 10 minutos. Utilice los contrastes de bondad de ajuste χ 2 y de Kolmogorov-Smirnov. SOLUCIÓN: Para hallar las siguientes probabilidades, bajo la hipótesis nula, tipificamos la variable X → N (30, 10) transformándola en una variable Z → N (0, 1)  x − 30 10 − 30  P [ x ≤ 10] = P  ≤ = F0 (−2) = 0, 0228 10   10 10 − 30 x − 30 20 − 30  P [10 < x ≤ 20] = P  < ≤ = P [ −2 < z ≤ −1] = F0 (−1) − F0 (−2) = 0,1587 − 0, 0228 = 0,1359 10 10   10  20 − 30 P [ 20 < x ≤ 30] = P  <  10  30 − 30 P [30 < x ≤ 40] = P  <  10

182

x − 30 30 − 30  ≤ = F0 (0) − F0 (−1) = 0,5 − 0,1587 = 0,3413 10 10  x − 30 40 − 30  ≤ = F0 (1) − F0 (0) = 0,8413 − 0,5 = 0,3413 10 10 

 40 − 30 x − 30 50 − 30  P [ 40 < x ≤ 50] = P  < ≤ = F0 (2) − F0 (1) = 0,9772 − 0,8413 = 0,1359 10 10   10

 x − 30 50 − 30  P [ x > 50] = P  > = 1 − F0 (2) = 1 − 0,9772 = 0, 0228 10   10

CLASES menos de 10 10-20 20-30 30-40 40-50 más de 50

ni

Ei = npi

pi

( ni − Ei )

2

15 17 26 18 13 11

0,0228 0,1359 0,3413 0,3413 0,1359 0,0228

2,28 13,59 34,13 34,13 13,59 2,28

161,8 11,6 66,1 260,2 0,35 76,04

100

1

100

χ2 =

( ni − Ei )

2

Ei

70,96 0,85 1,94 7,62 0,026 33,35 114,7

Como las frecuencias esperadas son menores que 5 en la primera y última clase, se agrupan éstas con las clases contiguas, obteniéndose

CLASES Menos de 20 20-30 30-40 Más de 40

ni

Ei = npi

pi

( ni − Ei )

2

32 26 18 24

0,1587 0,3413 0,3413 0,1587

15,87 34,13 34,13 15,87

260,2 66,1 260,2 66,1

100

1

100

χ2 =

( ni − Ei )

2

Ei 16,4 1,94 7,62 4,17

30,13

Buscamos en las tablas χ k2−1,1−α = χ 3,2 0'95 = 7,81 . Como 30,13>7,81 rechazamos la hipótesis nula de que la duración de las llamadas sigue una distribución Normal con media 30 y desviación típica 10. Contraste de Kolmogorov-Smirnov para bondad de ajuste muestra ordenada 0-10 10-20 20-30 30-40 40-50 50-60

ni

x 10 20 30 40 50 60

15 17 26 18 13 11

Ni

z

F0 ( x)

15 32 58 76 89 100

-2,00 -1,00 0,00 1,00 2,00 3,00

0,0228 0,1587 0,5000 0,8413 0,9772 0,9987

Fn ( x) | F0 ( x) − Fn ( x) | 0,15 0,32 0,58 0,76 0,89 1

0,1272

0,1613 0,0800 0,0813 0,0872 0,0013

Dexp = max F0 ( x ) − Fn ( x ) = 0,1613 1,3581 = 0,1358 100 Al igual que con el anterior procedimiento de contraste se rechaza H 0 dado que Dexp > DT

Buscando en las tablas, para un contraste bilateral, DT =

4. (ejercicio 11, relación tema 11) Las inversiones realizadas (en miles de €) por un grupo de 6 empresas en el mes pasado se recogen en la siguiente tabla: 183

Empresa E1 E2 E3 E4 E5 E6 Inversión 318 322 345 300 338 311 ¿Puede considerarse que siguen una distribución normal de media 320.000 de € y desviación típica 10.000 €? ( α = 0, 05 ) SOLUCION: muestra ordenada 300 311 318 322 338 345

ni

z=

Ni 1 1 1 1 1 1

1 2 3 4 5 6

x−µ

σ

F0 ( x)

Fn ( x)

0,0228 0,1841 0,4207 0,5793 0,9641 0,9938

0,1667 0,3333 0,5 0,6667 0,8333 1

-2,0000 -0,9000 -0,2000 0,2000 1,8000 2,5000

| F0 ( x) − Fn ( x) | 0,1439

0,1493 0,0793 0,0874 0,1307 0,0062

Dexp = max F0 ( x ) − Fn ( x ) = 0,1493 DT (0,05)bilateral = 0,519 Dexp < DT por tanto se acepta la hipótesis de que las inversiones de las empresas siguen una ley normal con la media y desviación típica indicadas. 5. (ejercicio 12, relación tema 11) Se observa durante 15 días los litros de cerveza de una determinada marca que se han vendido en un supermercado, obteniéndose las siguientes cantidades: 150 140 150 130 160 160 150 140 170 140 130 160 150 140 170 Contraste la hipótesis de que el número de litros vendidos se distribuye según una ley normal de media 150 litros y desviación típica 10 litros. ( α = 0,1 ). Utilice el contraste de bondad de ajuste de Kolmogorov-Smirnov. SOLUCIÓN: Muestra ordenada 130 140 150 160 170

ni

Ni 2 4 4 3 2

2 6 10 13 15

z=

x−µ

σ -2,00 -1,00 0,00 1,00 2,00

F0 ( x) 0,0228 0,1587 0,5000 0,8413 0,9772

 x − 150 130 − 150  P [ x ≤ 130] = P  ≤ = F0 (−2) = 0, 0228 10   10  x − 150 140 − 150  P [ x ≤ 140] = P  ≤ = F0 (−1) = 0,1587 10   10 184

Fn ( x) 0,1333 0,4000 0,6667 0,8667 1,0000

| F0 ( x) − Fn ( x) | 0,1106

0,2413 0,1667 0,0253 0,0228

 x − 150 150 − 150  P [ x ≤ 150] = P  ≤ = F0 (0) = 0,5 10   10  x − 150 160 − 150  P [ x ≤ 160] = P  ≤ = F0 (1) = 0,8413 10   10  x − 150 170 − 150  P [ x ≤ 170] = P  ≤ = F0 (2) = 0,9772 10   10 Dexp = max F0 ( x ) − Fn ( x ) = 0, 2413 Dado que Dexp < DT

DT (0,10)bilateral = 0,304

se acepta la hipótesis de que el número de litros vendidos se

distribuye según una ley normal de media 150 litros y desviación típica 10 litros. 6. (ejercicio 13, relación tema 11) Se ha observado la temperatura durante los días de una semana en la recepción de un hotel, obteniéndose 23,3º 17,6º 16,4º 20,9º 23,8º 23,3º 24,0º Contraste con un nivel de significación del 5% la hipótesis de que la muestra procede de una población normal con media 20º y desviación típica 2º. SOLUCION: muestra ordenada 16,4 17,6 20,9 23,3 23,8 24

ni 1 1 1 2 1 1

Ni 1 2 3 5 6 7

z -1,8000 -1,2000 0,4500 1,6500 1,9000 2,0000

Fo(x) 0,0359 0,1151 0,6736 0,9505 0,9713 0,9772

Fn(x) |Fo(x)-Fn(x)| 0,1429 0,1069 0,2857 0,1706 0,4286 0,2451 0,7143 0,2362 0,8571 0,1141 1 0,0228

 16.4 − 20  P [ x ≤ 16.4] = P  z ≤  = P [ z ≤ −1.8] = 0.0359 2  ... 24 − 20   P [ x ≤ 24] = P  z ≤ = P [ z ≤ 2] = 0.9772 2   Dexp = 0, 2451 n = 7 DT (0,05) bilateral = 0, 483 Dexp < DT , por tanto se acepta la hipótesis nula de que la muestra procede de una población normal. 7. (ejercicio 22, relación tema 11) Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa, se obtuvo en sendas muestras de 4 y 5 meses, la 185

cantidad de unidades producidas de un artículo concreto, el resultado se muestra a continuación: Taller 1

70

60 70 40

Taller 2

110 70 50 50 70

Utilizando el contraste de Kolmogorov-Smirnov comprobar si la productividad en los dos talleres es la misma. (α = 0.05) . SOLUCIÓN: muestras ordenadas

F41 ( x)

40 ¼=0,25 0 50 ¼=0,25 2/5=0,4 60 2/4=0,5 2/5=0,4 70 1 4/5=0,8 110 1 1

Dexp = max F41 ( x) − F52 ( x) =

F41 ( x) − F52 ( x)

F41 ( x) − F52 ( x)

F52 ( x)

1 = 0, 25 4

0,2500

0,2500 -0,1500 0,1000 0,2000 0,0000

0,1500 0,1000 0,2000 0,0000

4 = 0,8 5

DT (0,05)bilateral =

Se acepta que la productividad de los dos talleres de artesanía es la misma dado que Dexp < DT

8. (ejercicio 23, relación tema 11) Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 5 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 5 trabajadores también seleccionados al azar. El resultado de ambas fue No incentivos 70 80 Incentivos

70 70 60

80 100 70 90 80

Realice un contraste de Kolmogorov-Smirnov. ( α = 0.05 ) SOLUCIÓN: muestras ordenadas

F51 ( x)

F51 ( x) − F52 ( x)

F52 ( x)

60 1/5=0,2 0 70 4/5=0,8 1/5=0,2 80 1 3/5=0,6 90 1 4/5=0,8 100 1 1

Dexp = max F51 ( x) − F52 ( x) =

186

3 = 0, 6 5

F51 ( x) − F52 ( x)

1/5=0,2 3/5=0,6 2/5=0,4 1/5=0,2 0,0

DT (0,05)unilateral =

3 = 0, 6 5

1/5=0,2

3/5=0,6 2/5=0,4 1/5=0,2 0,0

Se acepta que los incentivos a la productividad no son efectivos dado que si Dexp ≤ DT unilateral no se rechaza la hipótesis nula de que las dos poblaciones (con incentivos y sin incentivos) tienen el mismo comportamiento. 9. (ejercicio 24, relación tema 11) Se realiza una encuesta entre 7 familias de un barrio para conocer la cantidad mensual (en euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago por visión”. Pasados tres meses se encuestan otras 7 familias. Los resultados aparecen en la siguiente tabla. Contraste la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado significativamente (utilice el contraste de Kolmogorov-Smirnov, α = 0, 05 ). Primera encuesta

30

20

0

50

40

30

30

Tres meses después

20

20

10

60

0

30

20

SOLUCIÓN: muestras ordenadas 0 10 20 30 40 50 60

F71 ( x) − F72 ( x)

F71 ( x)

F72 ( x)

1/7=0,1429 1/7=0,1429 2/7=0,2857 5/7=0,7143 6/7=0,8571 1 1

1/7=0,1429 2/7=0,2857 5/7=0,7143 6/7=0,8571 6/7=0,8571 6/7=0,8571 1

Dexp = max F71 ( x) − F72 ( x) =

3 =0,4286 7

0,0000 -1/7=-0,1429 -3/7=-0,4286 -1/7=-0,1429 0,0000 1/7=0,1429 0,0000

DT (0,05)bilateral =

F71 ( x) − F72 ( x) 0,0000 1/7=0,1429

3/7=0,4286 1/7=0,1429 0,0000 1/7=0,1429 0,0000

5 = 0, 7143 7

Se acepta la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado dado que Dexp < DT bilateral

187

188

EJERCICIOS

189

2. Muestreo Aleatorio Simple

1. Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. Suponga que existen 1.000 cuentas de las cuales se examinan 300. La media muestral de las cuentas fue y = 1.040€ y la varianza muestral (“cuasivarianza”) es S2=45.000€2. Estime el promedio de la deuda y el total de la deuda por cobrar para las 1.000 cuentas abiertas con un intervalo de confianza al 95%. Solución: µ ∈ (1.040 ∓ 20, 49 ) = (1.019,51 , 1.060, 49 )

τ ∈ (1.040.000 ∓ 20.490 ) = (1.019.510 , 1.060.490 ) 2. Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes para estimar •

La proporción que votarán a un determinado representante de centro.



La proporción de ellos que tienen algún tipo de trabajo. Sean yi , zi

(i = 1,...,100) las respuestas del i-ésimo estudiante seleccionado ( yi = 0

cuando responden NO, yi = 1 cuando responden SI, análogamente para zi ). Según la muestra

100

100

yi = 70 ∑

z = 25 ∑

i =1

i =1

i

Usando los datos de la muestra, estime p1 (proporción de estudiantes que votarán a un determinado representante) p2 (proporción y número de estudiantes con algún tipo de trabajo) y los límites para los errores de estimación correspondientes. 100

Solución p1 =

y ∑ i =1

i

100

100

= 0, 70 (70%)

p2 =

z ∑ i =1

i

100

= 0, 25 (25%)

2 V ( p1 ) = 0, 0868 (8, 68%)

2 V ( p 2 ) = 0, 0821 (8, 21%)

τ 2 = N p 2 = 900 × 0, 25 = 225

2 V (τ 2 ) = 900 × 0, 0821 = 73,89

3. Encuentre el tamaño de muestra necesario para estimar el valor total de 1.000 cuentas por cobrar con un límite para el error de estimación de 10.000€. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las cuentas caen dentro del intervalo (600, 1.400). Solución: n = 615, 62 ≈ 616

4. Los alumnos de TAM de una facultad con 3.000 estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que están a favor de hacer exámenes en 190

sábado con un límite para error de estimación del 10%. La información previa disponible indica que el 60% preferían los exámenes en sábado. También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un error máximo de estimación del 5%. Determinar el tamaño muestral que se requiere para estimar ambas proporciones con los límites de error especificados. Solución: n = 353,04 ≅ 354

5. Un dentista está interesado en la efectividad de una nueva pasta dental. Un grupo de 1.000 niños de escuela participó en el estudio. Los registros de un estudio anterior mostraron que había un promedio de 2,2 caries cada seis meses para el grupo. Después de un año de iniciado el estudio, el dentista muestreó 10 niños para determinar cuánto habían progresado con la nueva pasta dental. Usando los datos de la siguiente tabla: Número de caries en seis meses 1 0 2 4 3 2 4 3 5 2 6 0 7 3 8 4 9 1 10 1 ¿Se puede decir que la incidencia media de las caries ha disminuido? Niño

Solución: 2,2 ∈ (1,06, 2,94) ⇒ No

6. Un psicólogo desea estimar el tiempo de reacción medio para un estímulo en 200 pacientes de un hospital especializado en trastornos nerviosos. Una muestra aleatoria simple de 20 pacientes fue seleccionada, y fueron medidos sus tiempos de reacción, con los resultados siguientes: y = 2,1 segundos y S = 0,4 segundos. Estime la media poblacional y establezca un límite para el error de estimación. Solución: µˆ = 2,1; B = 0,1697

7. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad. La ciudad tiene 621 hogares, según la guía de teléfonos más reciente. Una muestra aleatoria simple de 60 hogares fue seleccionada de la guía. Al terminar la investigación de campo, de los 60 hogares muestreados, en 11 habita al menos una persona mayor de 65 años. Estime la proporción poblacional y establezca un límite para el error de estimación. 191

Solución: pˆ = 0,1833; B = 0,0958

8. El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un operador para terminar una tarea sencilla. El taller tiene 45 operadores. Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo. Los resultados obtenidos son los siguientes: Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3 ¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del taller para terminar dicha tarea es inferior a 6 minutos? Solución: INTERV . CONF .: ( 3,91 min ., 6, 61 min .) Valores mayores e igual a 6 minutos

pertenecen al intervalo de confianza, por tanto no podemos aceptar esa hipótesis. 9. Un investigador está interesado en estimar el número total de árboles mayores de un cierto tamaño específico en una plantación de 1.500 acres. Esta información se utiliza para estimar el volumen total de madera en la plantación. Una muestra aleatoria simple de 100 parcelas de 1 acre fue seleccionada, y cada parcela fue examinada en relación con el número de árboles de tamaño grande. La media muestral para las 100 parcelas de 1 acre fue y = 25,2 árboles, con una varianza muestral de S 2 = 136 . Estime el número total de árboles de tamaño grande en la plantación. Establezca un límite para el error de estimación. Solución: τˆ = 37.800; B = 3.379,9408

10. Usando los datos del ejercicio anterior, determine el tamaño de muestra requerido para estimar el número total de árboles grandes en la plantación, con un límite para el error de estimación de 1.500 árboles. Solución: n = 399,413 ≅ 400

11. Con objetivos benéficos, una asociación filantrópica ha solicitado firmas para una petición en 700 hojas. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las hojas se ha obtenido un número menor. Contando el número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los siguientes resultados: 50

50

∑ Y = 1.450; ∑ Y i =1

i

i =1

i

2

= 54.496

¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas recogidas para la petición? Solución:

( 20.300 ∓ 3.040, 66 ) = (17.259,34 , 23.340, 66 )

Previsión más optimista: 23.340 ; previsión más pesimista: 17.259

192

12. Una muestra aleatoria de 30 familias fue extraída de una zona de cierta ciudad que contiene 14.848 familias. El número de personas por familia en la muestra obtenida fue el siguiente: 5 6 3 3 2 3 3 3 4 4 3 2 7 4 3 5 4 4 3 3 4 3 3 1 2 4 3 4 2 4 Estimar el número total de personas en la zona, construyendo un intervalo de confianza al 95%. Solución: (44.842,09, 58.104,04 )

13. Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. Durante una semana observaron al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta. a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta. b) ¿Cuantas compras deberían observarse para estimar, con un error inferior al 3%, la proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una muestra previa) c) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos observa que el valor total de las compras hechas con la tarjeta fue de 5.600€ (siendo la cuasivarianza de los datos 625). Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado. Solución: a) p ∈ (12,11% , 22,89% ) . b) n =

c) y =

pq = 641, 6 ≈ 642 . D

1 n 5600 yi = = 160€ B = 2 V ( y ) = 8, 45€ ∑ 35 n i =1

14. Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000 préstamos hipotecarios. Existen razones para pensar que el préstamo hipotecario de menor cuantía es de algo más de 1200 euros, siendo de casi 11000 euros el de mayor cuantía. ¿cuál es el tamaño muestral necesario para estimar estos dos parámetros: -

la cuantía media de los prestamos cometiendo un error de estimación menor de 400

euros y -

la proporción de préstamos pendientes de amortizar más de la mitad de la deuda

cometiendo un error máximo del 5%? Solución: n = 139, 65 ≈ 140

n = 333, 47 ≈ 334

193

15. Se desea estimar el salario medio entre los empleados de una empresa y la proporción de empleados que apoyan a la actual directiva. La empresa tiene 110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros mensuales. ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido sea del 2%? Solución: n = 74,1 ≈ 75

n = 105, 4 ≈ 106

16. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en el registro mercantil. El número de bajas en el último año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule el límite para el error de estimación. b) Estime el número de empresas que usarían los servicios ofertados. Calcule el límite para el error de estimación. Solución: a) τ = N y = 70 B = 2 V (τ ) = 71, 2741

b) τ = N p = 10 B = 2 V (τ ) = 10,9545 17. Se han entrevistado 1.000 vecinos, elegidos aleatoriamente de entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales. 655 manifestaron su opinión desfavorable. Estime la proporción de vecinos que están en contra de los nuevos impuestos y establezca el límite para el error de estimación. ¿Se puede afirmar que la mayoría de los habitantes están en contra? Solución: p ∈ (62, 49% , 68,51%) ⇒ p > 50% ⇒ si se puede afirmar ... 18. El Centro de Estadística desea estimar el salario medio de los trabajadores de los

invernaderos de una región. Se decide clasificarlos en dos estratos, los que poseen contrato fijo y los que tienen un contrato temporal. El salario de los contratos fijos está comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los contratos temporales está comprendido entre 500 y 1.700 euros mensuales. ¿Cuál debe ser el tamaño muestral total y su asignación para que se estime el salario medio de los contratos fijos con 194

un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior a 120€? Solución: n1 = 25 n2 = 25 n = n1 + n2 = 50 19. Se selecciona una m.a.s. de 9 compras de clientes de un centro comercial para estimar el

valor medio de las compras por cliente. VALOR en €

33,5 32

52

43

40

41

45

42,5

39

a) Obtener un intervalo de confianza para el valor medio de las compras. b) ¿Podemos aceptar que la compra media es de 45€? c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€? Solución: a) ( 40,89 − 3,98 ; 40,89 + 3,98 ) = ( 36,91; 44,87 )

b) No porque 45 ∉ ( 36,91; 44,87 )

c) n = 35, 67 ≈ 36 compras

20. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad. La ciudad tiene 5000 hogares, según la guía de teléfonos más reciente. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía. Al terminar la investigación de campo, de los 300 hogares muestreados, en 51 habita al menos una persona mayor de 65 años. Contraste la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. Solución: 25% ∉ (17% ∓ 4, 21% ) = (12, 79%, 21, 21% ) luego se rechaza la hipótesis de

que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. 21. El consumo medio de combustible de los taxis de una ciudad es 5,6 litros cada 100 Km. Puesto que se considera que el consumo es demasiado elevado, en 600 taxis se monta un dispositivo para disminuirlo. Pasado cierto tiempo se toma una muestra aleatoria de 20 taxis, elegidos entre los 600 que colocaron el dispositivo. El consumo en litros de combustible por cada 100 Km se recoge en la siguiente tabla Taxi nºConsumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo 1 5,4 6 6,3 11 3,6 16 5,4 2 5,5 7 5,4 12 6,7 17 4,8 3 6,9 8 5 13 5,2 18 4,7 4 3,9 9 4,5 14 5,1 19 5,8 5 4,5 10 4,4 15 5,4 20 6,2 a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo inferior a 5,6 litros/100 Km. b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error menor o igual que un 10%? 195

Solución: (a) ( 55' 47%, 94 '53% ) (b) n = 66, 77 ≅ 67

3. Muestreo Aleatorio Estratificado

1. Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un año de un determinado producto en una comarca formada por cuatro municipios. Para estimar de paso también el consumo en cada municipio decide usar muestreo estratificado tomando cada municipio como un estrato. Se sabe que el 20% de la población de la comarca vive en el municipio 1, el 30% en el municipio 2, el 25% en el municipio 3 y el 25% restante en el municipio 4. El distribuidor tiene medios suficientes para controlar y obtener datos sobre el consumo anual de 20 hogares. Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste del muestreo es el mismo en cada municipio, aplica asignación proporcional, la cual conduce a N1 = 20 × 0, 20 = 4 de forma similar n2 = 6 n3 = 5 n4 = 5 . N Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros). n1 = n

Estrato 1

Estrato 2

Estrato 3

Estrato 4

470 510 500 550

490 500 470 520 550 500 y 2 = 505 S 22 = 750

540 480 500 470 470

450 560 460 440 580

y1 = 507,5 S12 = 1091, 67

y 3 = 492 S32 = 870 y 4 = 498 S 42 = 4420

Estime el consumo anual medio por hogar y fije un límite para el error de estimación. 4

Solución:

y st = ∑ i =1

Ni y i = 500,5€ N

2 V ( y st ) = 18, 79 €

2. Una gran empresa sabe que el 40% de las facturas que emite son al por mayor y el 60% al por menor. Sin embargo, identificar las facturas individuales sin consultar un archivo es complicado. Un auditor desea muestrear 100 de sus facturas para estimar el valor medio de las facturas de la empresa (Nota para estimar el total necesitaríamos conocer N). Una muestra aleatoria simple presentó 70 facturas al por mayor y 30 al por menor. Los datos 196

son separados en facturas al por mayor y al por menor después del muestreo, con los siguientes resultados en €: Por mayor

Por menor

Valor total facturas=36400€

Valor total facturas=8400€

n1 = 70

y1 = 520€ S1 = 210€

n2 = 30

y 2 = 280€ S 2 = 90€

Estime el valor medio de las facturas de la empresa, y fije un límite para el error de estimación. Solución:

yst = 376€; B = 28,14€

3. Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B. De entre los circuitos integrados muestreados de la operación A, 2 son defectuosos. De entre las piezas muestreadas de la operación B, 16 son defectuosas. a) Considerando únicamente la muestra aleatoria simple de 100 circuitos integrados, estime la proporción de los defectuosos en el lote, y establezca un límite para el error de estimación. b) Estratifique la muestra, después de la selección, en circuitos integrados provenientes de la operación A y B, estime la proporción de los defectuosos en la población, y fije un límite para el error de estimación. c) ¿Qué respuesta encuentra más aceptable? ¿Por qué? Solución:

a. p =

18 = 0,18 (18%) 100

b. p st =

1 N

L

L

i =1

i =1

∑ Ni pi = ∑

2 V ( p) = 0, 0772

( 7, 72% )

Ni 2   16   p i =  0, 60  +  0, 40  = 0,14 N 20   80   2 V ( p st ) = 0, 0901

(14% )

( 9, 01% )

c) Aunque en el conjunto de la población hay más elementos que proceden de A (60%) que de B (40%), la muestra global no representa adecuadamente este hecho, predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el apartado a. la estimación esté sesgada hacia el valor de B ( p 2 = 0, 20 ) frente al de A

197

( p1 = 0,10 ). En el apartado b.

este hecho se corrige dando a p1 y p 2 las

ponderaciones 0,60 y 0,40 respectivamente para estimar p. 4. Una cadena de restaurantes tiene 100 establecimientos en Madrid, 70 en Barcelona y 30 en Sevilla. La dirección está considerando añadir un nuevo producto en el menú. Para contrastar la posible demanda de este producto, lo introdujo en el menú de muestras aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de Sevilla. Usando los índice 1, 2 y 3 para designar Madrid, Barcelona y Sevilla, respectivamente, las medias y las desviaciones típicas muestrales del número de pedidos de este producto recibidos por restaurante en las tres ciudades durante una semana fueron: y1 = 21, 2

S1 = 12

y2 = 13,3

S 2 = 11

y3 = 26,1

S3 = 9

a) Estimar el número medio de pedidos semanales por restaurante para los restaurantes de la cadena. Dar un límite del error de estimación. b) Determinar el tamaño muestral y la asignación para repetir el estudio anterior cometiendo un error inferior a 3 pedidos. Solución:

a. y st =

L

1 N

∑N y i =1

i

i

=

3834 = 19,17 pedidos / semana 200

2 V ( y st ) = 5, 02 pedidos / semana

(∑ N σ )

2

L

b. D =

2

B 9 = = 2, 25 4 4

n=

i =1

i

i

L

N D+∑ N iσ 2

i =1

n1 = 23,31 ≈ 24 n2 = 14,96 ≈ 15

= 43,52 2 i

n3 = 5, 24 ≈ 6 n = 45

5. De las 1.395 universidades de Estados Unidos, 364 imparten estudios universitarios de dos años y 1.031 estudios universitarios de cuatro años. Se recogieron de manera independiente, una muestra aleatoria simple de 40 universidades con estudios de dos años y otra de 60 con estudios de 4 años. Las medias muestrales y las desviaciones típicas del número de estudiantes matriculados el pasado año en asignaturas de estadística aparecen a continuación. Carreras de 2 años Carreras de 4 años

198

Media

154,3

411,8

Desviación típica

87,3

219,9

a) Estimar el número total de estudiantes matriculados en asignaturas de estadísticas. Dar un límite de error de estimación. b) En el estudio del ejercicio anterior, se investigó también en qué proporción de las universidades la asignatura de estadística para economistas era impartida por miembros del departamento de economía. En la muestra se halló que en 7 de las universidades con carreras de dos años y en 13 de las que tienen carreras de cuatro años sucedía esto. Estimar la proporción de universidades en las que esta asignatura es impartida por profesores del departamento de economía. Dar un límite de error de estimación. Solución:

(a) τˆst = 480.731; B = 57.594,84 (b) pˆ st = 0,2058; B = 0,0826

6. Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro barrios. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto. Los resultados se resumen en la tabla adjunta: Barrio 1 2 3 4 N i 240 190 350 220 ni 25 25 25 25 y i 3,5 3,6 3,9 3,8 S i 0,8 0,9 1,2 0,7 a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del nuevo servicio. b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuántos pertenecerían al barrio 3. (Suponga iguales los costes de observación) Solución:

(a) yst = 3, 725; B = 0,1973; (3,5277 ; 3,9223) (b) n3 = 44,82 ≈ 45

7. Una universidad tiene 152 profesores ayudantes, 127 profesores asociados y 208 profesores titulares. Una reportera del periódico de los estudiantes quiere averiguar si los profesores están realmente en sus despachos durante las horas de tutorías. Decide investigar muestras de 40 profesores ayudantes, 40 asociados y 50 titulares. Algunos estudiantes voluntarios llamaron a la puerta de los profesores de la muestra durante sus horas de tutorías. Se halló que 31 de los profesores ayudantes, 29 de los asociados y 34 de los titulares se encontraban realmente en sus despachos. Hallar un intervalo de confianza para la proporción de profesores que permanecen en sus despachos durante las horas de tutorías. Solución:

pˆ st = 0,7214; B = 0,0685 199

8. Un auditor quiere estimar el valor medio de las facturas por cobrar de una compañía. La población se divide en cuatro estratos que contienen 500, 400, 300 y 200 facturas, respectivamente. Basándose en una experiencia previa, se estima que las desviaciones típicas en estos estratos son de 15, 20, 30 y 40 euros, respectivamente. Determinar el tamaño muestral y la asignación para estimar el valor medio de las facturas por cobrar cometiendo un error de como mucho 5 euros. Solución:

n1 = 18,59; n2 = 19,83; n3 = 22,31; n4 = 19,83; n = 80,55

9. Un ayuntamiento está interesado en ampliar las instalaciones de un centro de atención diurna para niños. Se va a realizar una encuesta para estimar la proporción de familias con niños que utilizarán las instalaciones ampliadas. Las familias están dividas en aquellas que en la actualidad usan las instalaciones y las que aún no la usan. Aproximadamente el 90% de los que usan las instalaciones y el 50% de los que no las usan van a utilizar las nuevas instalaciones. Los costos por efectuar la observación de un cliente actual es de 4€ y de 8€ para uno que no lo es. Registros existentes nos dan que existen 97 familias que en la actualidad utilizan las instalaciones y 145 que no lo hacen. a) Encuentre el tamaño muestral aproximado y la asignación necesaria para estimar la proporción poblacional con un límite de 0,05 para el error de estimación. b) Suponga que el costo total de muestreo se fija en 400 € . Elija el tamaño de la muestra y la asignación que minimiza la varianza del estimador para este costo fijo. Solución: (a) n1 = 47; n2 = 83; n = 130 (b) n1 = 22;

n2 = 39; n = 61

10. De una ciudad con 350 casas, se sabe que 164 de ellas tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral Eléctrica 24 972 202,396 No eléctrica 36 463 96,721 a) Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad. Dé un límite para el error de estimación. b) Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas que no tienen calefacción eléctrica. Dé un límite para el error de estimación. Solución:

a. y st = 701,50

2 2,19 = 2,96

b. y 2 = 463

2 2,17 = 2,94

11. Un analista de la opinión pública tiene un presupuesto de 20.000 euros para realizar una encuesta sobre el número medio de coches por hogar. Se sabe que de los 10.000 hogares de la ciudad, 9.000 tienen teléfono. Las entrevistas por teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado. Suponga 200

que las varianzas en los estratos con y sin teléfono son iguales. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente? n1 = 1677, 2 ≈ 1677 n2 = 107,59 ≈ 107 n = n1 + n2 = 1784 12. Se desea conocer el número de fines de semana que las familias de una gran ciudad salen Solución:

fuera de ella. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos, el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos. Se realizó un muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana que pasan fuera, obteniéndose los siguientes datos: Número de hijos ni

n

∑ yi

S i2

i =1

0-2 25 239 60’76 3-5 19 174 63’01 Mas de 5 16 78 78’24 Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y dar el límite de error de estimación. Omitir el corrector por población finita. Solución: y st = 8,15

2 1,107 = 2,1

13. En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante en ocio. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono del citado municipio. Después de obtenidos los datos se observa que sólo 100 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos Ni

HOMBRES 2.500

MUJERES 2.700

ni

100

400

yi

120

250

9.000 16.000 Si2 Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante muestreo aleatorio estratificado después de seleccionar la muestra. Solución:

y st = 187,5

2 29,16 = 10,8

14. En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar la proporción de individuos que ven un determinado programa de televisión. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 300 números de teléfono. Después de obtenidos los datos se observa que sólo 201

50 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES Encuestados 50 250 Ven el programa 12 130 Estime la proporción de la población que ven el programa de televisión y su cota de error, mediante muestreo aleatorio estratificado después de seleccionar la muestra. Solución:

p st = 0,38 ⇒ p st = 38%

2 V ( p st ) = 0, 0687 ⇒ 6,87%

15. Una corporación desea estimar el número total de horas perdidas debido a accidentes de sus empleados, en un determinado mes. Ya que los obreros, técnicos y administrativos tienen diferentes tasas de accidentes, la corporación decide usar muestreo estratificado, formando con cada grupo un estrato. Datos de años previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres grupos, y de datos actuales se obtienen los tamaños de los estratos. No habiendo diferencia entre los costes de observación de cada grupo, determine la mejor asignación para una muestra de 40 empleados. Obreros

Técnicos

Administrativos

Si2

36

25

9

Ni

132

92

27

Solución:

n1 = 40 × 0,5941 = 23,8 ≈ 24 n2 = 40 × 0,3451 = 13,8 ≈ 14 n3 = 40 × 0, 0608 = 2, 4 ≈ 2 16. Se dispone de la siguiente información sobre tamaños poblacionales de los estratos, costes de observación y estimaciones de las proporciones Tamaño del estrato Coste de observación Proporciones en % ESTRATO 1 5000 9 90 ESTRATO 2 2000 25 55 ESTRATO 3 3000 16 70 Determine la mejor asignación para una muestra de 200 observaciones. Solución:

n1 = 200 × 0, 4795 = 95,9 ≈ 96 n2 = 200 × 0,1909 = 38, 2 ≈ 38 n3 = 200 × 0,3296 = 65,9 ≈ 66 17. En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No eléctrica 40 2080 90

202

Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Dé un límite para el error de estimación. Solución:

y st =

1 N

2

2

Ni

∑N y =∑ N i =1

i

i

y i = 65, 05€

i =1

2 V ( y st ) = 25,24€

18. Para la comercialización de un producto se le clasifica, atendiendo al calibre, en tres categorías: pequeña, mediana y grande. Un establecimiento dispone de 300 piezas pequeñas, 500 medianas y 200 piezas grandes. Para estimar el peso total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las categorías, resultando Categoría Nº de piezas Peso en gramos Pequeña 5 12, 14, 12, 15, 12 Mediana 6 16, 22, 24, 20, 20, 18 Grande 4 30, 33, 31, 34 Considerando los anteriores datos como una muestra previa, obtenga el número de unidades que cada categoría debe aportar a la muestra para que el error en la estimación del peso total no supere el medio kilo. Solución:

(∑ N σ )

2

L

D=

B2 250.000 = = 0, 0625 2 4N 4.000.000

n=

i =1

i

L

i

N D+∑ N iσ 2

i =1

= 71, 66 2 i

n1 = 13, 79 ≈ 14 n2 = 45,99 ≈ 46 n3 = 11,87 ≈ 12 n = 72 19. La producción de piezas de una factoría se realiza en dos máquinas. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B. Se les pasó control de calidad a 200 piezas; 67 producidas por la máquina A y dos de ellas resultaron defectuosas; las 133 restantes procedían de la máquina B, siendo 6 de ellas defectuosas. Estime la proporción de piezas defectuosas de la factoría y dé el límite del error de estimación. Omita el coeficiente corrector por población finita. Solución:

pˆ = 3,9%;

B = 2,74%

20. Una empresa especializada en seguros está pensando en ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad. Para ajustar sus tarifas desea estimar el gasto de dichas empresas en pequeñas reparaciones de mantenimiento (objeto del seguro). Se clasifican las empresas en función de su tamaño. El número de empresas de cada tipo, el coste de obtención de esta información en cada empresa así como los valores mínimos, medios y máximos de un estudio similar hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados en euros) 203

Tipo de Número de Costes de Gastos de reparación empresa empresas observación Mínimo Media Máximo A 100 16 400 500 600 B 500 9 240 300 360 C 700 4 70 100 130 Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación, ¿cuántas empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de estimación asociado? Solución: n1 = 8; n 2 = 34; n3 = 36; n = 78 (8 x6 + 34 x9 + 36 x 4 = 578€)

21. En un centro escolar se quiere realizar una encuesta para conocer la proporción de padres que estarían dispuestos a participar en actividades. Se quiere estimar la proporción de padres tanto a nivel global como para cada grupo de edad de los alumnos por lo que se decide estratificar según la edad de los alumnos. A partir de la información proporcionada por la siguiente tabla, obtener el número óptimo de padres que, de cada estrato, hay que encuestar para que la proporción de participación de los padres con hijos de edades entre 6 y 8 años sea estimada con un error menor o igual al 10%. (Suponemos que cada padre tiene un solo hijo en el centro) Años

Alumnos matriculados 150 130 120 100

Porcentaje de participación en años anteriores 40% 30% 25% 20%

Coste de encuestar a un elemento 4 9 16 25

4-6 6-8 8-12 12-14 Sol. n = 200,3; n1 = 94,84 ≅ 95; n 2 = 51,27 ≅ 52; n3 = 33,53 ≅ 34; n 4 = 20,65 ≅ 21 ⇒ n = 202

22. El coste de transportar mercancías en avión depende del peso. Un determinado embarque de una fábrica consistía en las máquinas producidas por la citada fábrica a lo largo de las dos últimas semanas. Se decide estratificar basándose en las semanas, con el fin de observar si existe variación semanal en la cantidad producida. Las muestras aleatorias simples de los pesos (en kilos) de las máquinas transportadas en el embarque, para las dos semanas, mostraron las siguientes mediciones: Semana A Semana B

204

58,3

59,2

60,4

60,1

59,3

59,6

58,7

59,2

59,1

58,8

59,6

60,5

a. Estimar el peso total del embarque de maquinaria, sabiendo que el número total de máquinas producidas ha sido de 162 en la semana A y de 170 en la semana B. b. Obtenga un intervalo de confianza para el peso total del embarque de maquinaria. c. Determinar el tamaño de la muestra y su asignación, en el caso de que se quiera estimar el peso total del embarque, con un límite para el error de estimación de 50 kg. Las dispersiones en los pesos se suponen diferentes de una semana a otra. Considere las muestras anteriores como muestras previas para estimar los parámetros necesarios. Solución: (a) τˆ = 19.722,13

(b) (19.593'71, 19.850'56)

(c) n = 65,67; n1 = 34,37 ≅ 35; n 2 = 31,30 ≅ 32 ⇒ n = 67 23. Una cadena de almacenes está interesada en estimar la proporción de cuentas no cobradas. La cadena está formada por 4 almacenes, siendo el coste de muestreo igual para todos. Se usa muestreo aleatorio estratificado, con cada tienda como un estrato. Estrato I Estrato II Estrato III Estrato IV Nº cuentas por cobrar

N 1 = 65

N 2 = 42

N 3 = 93

N 4 = 25

Tamaño muestra

n1 = 14

n2 = 9

n3 = 21

n4 = 6

2

8

1

Nº cuentas no cobradas 4

a. Estime la proporción de cuentas no cobradas para la cadena y fije un límite para el error de estimación. b. Utilice los datos anteriores para determinar la asignación y el tamaño de la muestra necesarios para estimar la proporción de cuentas no cobradas, con un límite del error de estimación del 5%. Solución: (a) pˆ = 0,30; B = 0,1173

(b) n = 132,30; n1 = 38,35 ≅ 39; n 2 = 22,80 ≅ 23; n3 = 58,98 ≅ 59; n 4 = 12,17 ≅ 13 ⇒ n = 134 24. Una escuela desea estimar la calificación media que puede obtener en el examen final de matemáticas en este curso. Los estudiantes de la escuela se agrupan en tres estratos según el tipo de aprendizaje, clasificado como N=Normal, A=Avanzado, L=Lento. En el presente curso, la distribución de los alumnos según el tipo de aprendizaje es 50 normal, 30 avanzado y 20 lento, la calificación media de los estudiantes según el tipo de aprendizaje fue en el primer examen parcial: 75 para el normal, 89 para el avanzado y 70 para el lento, con unas cuasivarianzas de 80, 30 y 40 respectivamente. Para actualizar esta información, se tomó una muestra aleatoria de estudiantes, se les hizo el examen final de matemáticas y se obtuvieron las siguientes calificaciones (entre paréntesis, el tipo de aprendizaje de cada estudiante): 205

70(L) 88(A) 72(N) 85(N) 90(N) 82(A) 61(N) 92(N) 65(L) 87(A) 91(A) 81(N) 79(N) 63(L) 82(N) 75(N) 78(A) 71(L) 61(L) Se pide: a. Estime la calificación media en el examen final de matemáticas. De una medida del error de estimación. b. ¿Qué ocurre si no se tiene en cuenta el tipo de aprendizaje? Compare los resultados de ambos métodos de estimación, así como determine la ganancia en precisión. c. Se desea mejorar la estimación de la nota media del examen final en matemáticas, teniendo en cuenta más información. Usando estos resultados como muestra previa, qué tamaños muestrales en cada estrato son necesarios para un error máximo admisible de 2 puntos, utilizando asignación proporcional. d. Estime, con un intervalo de confianza, el número de estudiantes con aprendizaje normal que han superado los 80 puntos. Si se pudiera planificar de nuevo la muestra, ¿qué tamaño de muestra sería necesario para que esta misma estimación tuviera un error máximo admisible de 10 estudiantes? Solución: (a) µˆ = 78,59; B = 3, 21

(b) µˆ = 77,53; B = 4,25

(c) n = 36,31; n1 = 18,15 ≅ 19; n 2 = 10,89 ≅ 11; n3 = 7,26 ≅ 8 ⇒ n = 38 (d) (11,87, 43,69); n = 16,8 ≅ 17 25. Se desea estimar el salario medio de los empleados de una empresa. Se decide clasificarlos en dos estratos: los que tienen contrato fijo y los que poseen un contrato temporal. Los primeros son 143 y su salario varía entre 1500 y 2500 euros mensuales. Los contratos temporales son 320 y su salario está comprendido entre 700 y 1800 euros mensuales. ¿Cuál debe ser el tamaño de la muestra y su asignación para que al estimar el salario medio mensual el error de estimación sea inferior a 100 euros? Solución: Neyman n = 26,91

206

n1 = 7, 77 ≅ 8

n2 = 19,14 ≅ 20 ⇒ n = 28

4. Estimación de Razón, Regresión y Diferencia

1. Se desea estimar el consumo mensual de una ciudad. Se sabe que los ingresos en dicha ciudad, vía declaración de la renta, ascienden a 1.502.530 euros mensuales. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen en esta tabla. Renta Consumo 1.702,44 1.204 1.339,56 1.000 981,06 800 2.537,04 1.800 1.519,85 1.200 3.080,19 2.600 1.502,53 1.080 1.702,87 1.240 1.402,36 1.000 1.803,04 1.400 2.053,46 1.484 3.005,06 2.000 Estime el consumo total mensual para todos los hogares de la ciudad mediante el estimador de razón. De el LEE. Solución:

τˆy = 1.116.002, 07€; B = 59.053,37€

2. Mediante una tasación previa se desea estimar la producción media y la producción total de los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada es de 3.840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les preguntó por la superficie plantada y se les tasó su producción. Los resultados fueron: Superficie Producción 3,7 12 4,3 14 4,1 11 5 15 5,5 16 3,8 12 8 24 5,1 15 5,7 18 6 20 3 8 7 20 5,4 16 4,4 14 207

5,5 18 5 15 5,9 18 5,6 17 5 15 7,2 22 a) Estimar la producción media y total mediante los estimadores de razón y m.a.s. Dar sus respectivos LEE y compararlos. b) Supongamos que queremos reducir el LEE de la media a 0,25 toneladas y el LEE del total no debe superar las 200 toneladas ¿a cuántos socios se les debe tasar su producción antes de realizar una nueva estimación? Solución:

(a) razón : µˆ y = 15,57 tm; Bµ = 0,37 tm; τˆy = 11.680, 61 tm; Bτ = 278,14 tm m.a.s.: µˆ = y = 16 tm; Bµ = 1, 69 tm; τˆ = 12.000 tm; Bτ = 1.265, 76 tm (b) 43 socios para estimar la media, 38 socios para estimar el total, se toma el máximo n=43. 3. Para un grupo de 1.000 pequeños establecimientos se desea realizar un estudio sobre la media y el total de ventas diarias. Se tiene información de que, por término medio, el gasto en publicidad es de 5 euros. Se elige al azar una muestra de 18 establecimientos y se les toma dato de su gasto en publicidad diaria y sus ventas diarias. Los resultados son: Gastos Ventas 3,7 120 4,3 140 4,1 135 5 150 5,5 160 3,8 120 8 160 5,1 150 5,7 125 6 130 0 80 7 150 5,4 150 4,4 120 5,5 140 5 150 5,9 150 6,6 170 a) Estimar la media y el total de ventas diarias utilizando estimadores de regresión. Dar LEE.

208

b) Se quiere repetir el estudio anterior de forma que la estimación del total no supere los 1.000 euros ¿cuál debe ser el tamaño muestral? Solución: (a) µˆ yL = 138,31€; B µ = 5,56€; τˆ yL = 138.314,38€; Bτ = 5.559,76€

(b) n = 361,67 ≅ 362 establecimientos 4. Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario. Se tiene información de que los ingresos medios diarios son de 500 euros. Se elige al azar una muestra de 10 establecimientos y se toman datos de ingresos y gastos, obteniéndose: Ingresos Gastos 470 405 650 585 710 650 300 240 475 410 505 435 610 550 380 320 540 480 520 460 a) Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo aleatorio simple, estimadores de razón, regresión y diferencia. Obtenga el LEE en cada caso. b) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un error máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral? Solución: (a) Muestreo aleatorio simple

µˆ = y = 453,5€

τˆ = Ny = 90.700€

ˆ µˆ ) = 75,20€ Bµ = 2 V(

Bτ = 200 × Bµ =15.040,97€

Estimadores de razón

r=

y = 0,879 x

Bµ = 9,3€

τˆy = rτ x = 87.900€

µˆ y = r µ x = 439,5€

Bτ = 1.860,46€

Estimadores de regresión

µˆ yL = 437,515€ Bµ = 2,3104€

τˆyL = N µˆ yL = 87.503€ Bτ = NBµ = 462, 09€

Estimadores de diferencia

µˆ yD = 437,5€

τˆyD = N µˆ yD = 87.500€ 209

Bµ = 2 Vˆ ( µˆ yD ) = 2,179

Bτ = NBµ = 435,8899

(b) 20 establecimientos 5. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en alimentos sobre el ingreso por año, para las familias de una pequeña comunidad. Una muestra aleatoria de 14 familias fue seleccionada de entre 150. Los datos de la muestra se presentan en la siguiente tabla: Familia Ingreso Total Gasto en alimentos 1 25100 3800 2 32200 5100 3 29600 4200 4 35000 6200 5 34400 5800 6 26500 4100 7 28700 3900 8 28200 3600 9 34600 3800 10 32700 4100 11 31500 4500 12 30600 5100 13 27700 4200 14 28500 4000 Estime la razón poblacional, y establezca un límite para el error de estimación. Solución: r = 0,1467; B = 0,0102

6. Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las ventas de televisores al final de un periodo de tres meses. Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses correspondiente al año anterior, ese total es de 128.200 €. Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la siguiente tabla: Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600 a) Usando un estimador de razón, estime el total de ganancias con un intervalo de confianza. b)

Utilizando un estimador de regresión y un estimador de diferencia, estime las ganancias medias y establezca un límite para el error de estimación.

Solución: a) τ y ∈ (129940, 67 , 138668,85 )

210

b) µˆYL = 1.094,53; B = 40, 46 ; µˆYD = 1.084, 28; B = 41, 28 . 7. Una agencia de publicidad está interesada en el efecto de una nueva campaña de promoción regional sobre las ventas totales de un producto en particular. Una muestra aleatoria simple de 20 tiendas es seleccionada de 452 tiendas regionales en las cuales se vende el producto. Los datos de las ventas trimestrales son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a la nueva campaña. Tienda Ventas antes de Ventas Tienda Ventas antes de Ventas la campaña actuales la campaña Actuales 1 208 239 11 599 626 2 400 428 12 510 538 3 440 472 13 828 888 4 259 276 14 473 510 5 351 363 15 924 998 6 880 942 16 110 171 7 273 294 17 829 889 8 487 514 18 257 265 9 183 195 19 388 419 10 863 897 20 244 257 a. Use los siguientes datos para estimar el total de ventas para el periodo actual y establezca un límite para el error de estimación. Supóngase que las ventas totales en el periodo previo a la campaña de promoción fueran de 216.256 €. Use los tres métodos de estimación con información auxiliar. b. Determinar el tamaño requerido de muestra para estimar τˆY con un límite para el error de estimación igual a 2.000€. Solución: (a) τˆY = 231.611,86; B = 3.073,83 ; τˆYL = 231.581,66; B = 2.950,85 ; τˆYD = 231.511,00; B = 3.849,01

(b) Razón: n = 44,56 ≅ 45 ; Regresión: n = 41,38 ≅ 42 ; Diferencia: n = 66,16 ≅ 67 8. El ingreso nacional para 1981 será estimado con base en una muestra de 10 sectores industriales que declaran sus ingresos de 1981 antes que las 35 restantes. (Existen 45 sectores industriales que se utilizan para determinar el ingreso nacional total). Se dispone de los datos del ingreso de 1980 para los 45 sectores industriales y los totales son 2.174,2 (en miles de millones). Los datos se presentan en la tabla adjunta: Industria Producto de fábricas textiles Productos químicos y relacionados Madera aserrada y leña Equipo eléctrico y electrónico Vehículos y equipo Transporte y almacenaje Banca

1980 13,6 37,7 15,2 48,4 19,6 33,5 44,4

1981 14,5 42,7 15,1 53,6 25,4 35,9 48,5 211

Bienes Raíces 198,3 Servicios de Salud 99,2 Servicios de Educación 15,4 (a) Encuentre el estimador de razón del ingreso total de

221,2 114,0 17,0 1981, y establezca un límite

para el error de estimación. (b) Encuentre el estimador de regresión del ingreso total de 1981, y establezca un límite para el error de estimación. (c) Encuentre el estimador de diferencia del ingreso total de 1981, y establezca un límite para el error de estimación. (d) ¿Cuál de los tres métodos es el más apropiado en este caso?¿Por qué? Solución: (a) τˆY = 2.433,30; B = 45,95 (b) τˆYL = 2.432,91; B = 48,64

(c) τˆY = 2.455,90; B = 180,07 9. En una población de 500 hogares, para la que es conocido que el gasto total general durante un año es de 15.000.000 €, se quiere estimar el gasto total en alimentación durante un año, para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona los siguientes valores anuales en €: Gasto en alimentación 12.500 15.000 10.000 17.500 Gasto general 24.000 31.000 20.000 36.000 Antes de calcular el estimador, ¿cree que es útil utilizar esta información auxiliar?, justifíquese. Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo de confianza. Solución: τ y ∈ ( 7.205.693€ ; 7.659.172€ )

10. Las diferencias entre ingresos y gastos, en 5 de las 250 oficinas que tiene abiertas una agencia de seguros, en el presente mes, han sido (en euros) 570 721 650 650 569 Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros, estime el total de ingresos y el límite para el error de estimación. Solución: τ yD = N µ yD = 3349000 €

V (τ yD ) = N 2

N − n S D2 S2 = N ( N − n ) D = 50169875 € 2 N n n

2 V (τ yD ) = 14166,14 €

11. Se desea conocer las ventas medias (en euros / habitante) en este año de un determinado producto en un municipio formado por un pueblo A con 291 habitantes y un pueblo B con 200 habitantes. Se sabe que las ventas medias en ese municipio el año pasado fueron de 170 euros / habitante. Tomamos una muestra aleatoria de 4 habitantes del pueblo A y otra de 3 habitantes del pueblo B para los que se conoce su consumo del producto bajo estudio (expresado en euros), este año (Y) y el año pasado (X): 212

Pueblo A Pueblo B xi yi xi yi 204 210 137 150 143 160 189 200 82 75 119 125 256 280 a. Sin hacer distinción entre pueblos, estime las ventas medias para este año utilizando un estimador de razón. Dé un límite para el error de estimación. b. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado pero si el pueblo? c. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado ni se hace distinción entre pueblos? d. Compare los estimadores que se obtienen en cada caso justificadamente. Solución: (a) µˆ = 180,53; B = 5,69 (b) µˆ = 171,91; B = 53,81 (c) µˆ = 171,43; B = 49,53

(d) La mejor estimación es en la que se usa el estimador de razón, por la fuerte relación entre las variables. El muestreo estratificado se comporta mal porque los estratos no son homogéneos. 12. Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego constituida por 250 parcelas. Se seleccionan al azar 10 parcelas cuyo tamaño y litros utilizados en riego aparecen en la siguiente tabla Litros

600

1800

750

900

1100

1400

950

700

1000

720

Hectáreas

50

150

60

70

100

120

80

60

90

60

Estime la media de litros/hectárea que utiliza la comunidad de regantes y la cota del error de dicha estimación. Solución: r = 11'81 litros / hectarea

2 V (r ) = 0 '3392

13. Se está investigando la eficacia de una nueva dieta alimenticia en la crianza de conejos. Los investigadores piensan que hay razones para creer que el comportamiento es diferente dependiendo de la zona de crianza. Por este motivo, deciden formar estratos observándose el peso de los conejos antes de introducir la nueva dieta (X) y el peso resultante al cabo de un mes de tratamiento (Y). Se obtuvieron los siguientes resultados: N1 = 80;

N 2 = 60;

N 3 = 40; n1 = 10; n 2 = 8; n3 = 6

Zona A Zona B Zona C X

Y

X

Y

X

Y

3,2 4,1 3,1 3,9 2,8 3,8 3,0 4,0 3,0 4,0 2,9 3,7 213

2,9 4,1 3,1 3,8 2,9 3,8 2,8 3,9 3,2 4,0 3,0 3,6 3,1 3,7 3,0 3,8 3,1 3,8 3,2 4,1 3,2 4,1 3,0 3,7 2,9 4,2 2,9 3,7 2,8 4,0 3,0 3,8 3,1 3,9 2,8 3,8 a. Estimar el peso medio estratificado de los conejos al principio y al final del tratamiento. Dar una estimación del error. b. Si se le permite un error de estimación de 0,01 para estimar el peso medio estratificado al final del tratamiento, ¿cuáles deben ser los nuevos tamaños muestrales? Usar asignación proporcional. c. Sabiendo que el peso medio de los conejos antes de introducir la nueva dieta era de 3,2 kilogramos, estimar el peso medio de los conejos al final del tratamiento utilizando un estimador de razón. Dar el límite de error de estimación. d. Estimar el peso medio de los conejos al final del tratamiento utilizando muestreo aleatorio simple. Comentar los resultados. Solución: (a) µˆ x = 3,0008; B = 0,0516; µˆ y = 3,8944; B = 0,0523

(b) n = 144,4; n1 = 64,2 ≅ 65; n 2 = 48,15 ≅ 49; n3 = 32,1 ≅ 33 ⇒ n = 147 (c) µˆ y = 4,1467; B = 0,0793

(d) µˆ = 3,8875; B = 0,0617

14. En una escuela de 560 alumnos, se desea estimar la calificación media que puede obtenerse en el examen final de matemáticas en el curso 00/01. Se toma como información auxiliar la calificación de los mismos alumnos en el examen final de matemáticas del curso 99/00 con una nota media de 75. A partir de una muestra aleatoria de estudiantes para los cuales se observó la nota del examen final en el curso 00/01 y la calificación de dicho alumno en la prueba correspondiente al curso 99/00. Los resultados fueron los siguientes:

214

Nota curso 99/00

Nota curso 00/01

80

87

78

65

98

86

45

47

61

67

83

94

79

67

56

67

Estimar la calificación media del curso 00/01 utilizando como información auxiliar la calificación obtenida en el curso 99/00 mediante un estimador de razón. Dar una estimación del error de muestreo. Solución: µˆ y = 75; B = 7,45

15. Un director de recursos forestales está interesado en estimar el número de abetos muertos por una plaga en una zona de 300 hectáreas. Usando una fotografía aérea, el director divide la zona en 200 parcelas de hectárea y media. Se toma una muestra aleatoria de 10 parcelas. El número total de abetos muertos, obtenidos según la cantidad en fotografía es 4200. Parcela

1

2

3

4

5

6

7

8

Cantidad en fotografía 12 30 24 24 18 30 12 6 Cantidad en terreno

9

10

36 42

18 42 24 36 24 36 14 10 48 54

a. Estime la razón poblacional y obtenga su intervalo de confianza. b. Estime el número total de abetos muertos en el área de 300 hectáreas y fije un límite para el error de estimación. c. ¿Cuál ha de ser el tamaño de la muestra necesario para estimar el total de abetos muertos, con un límite de error de estimación de 200 abetos? Solución: (a) r = 1,3077; (1'2057, 1'4097) (b) τˆ y = 5.492,31; B = 428,44 ) (c) n = 38,9 ≅ 39

16. De una población de 40 hogares, para la que es conocido que el gasto total general durante un periodo de un año, en general, es de 12.000.000 um., se obtiene una muestra aleatoria simple de tamaño 4 que proporciona los siguientes valores anuales (en um): Gasto en alimentación 125000 150000 100000 175000 a. Estimar el gasto total en alimentación para los 40 hogares mediante un intervalo de confianza. b. Supongamos que de esos 4 hogares tenemos también los valores anuales de su gasto general (en um): Gasto General 250000 300000 200000 350000 Antes de calcular otro estimador, ¿obtendríamos mejores resultados si utilizamos esta información auxiliar?¿Por qué? 215

c. Estimar mediante un estimador de razón el total de gasto en alimentación, utilizando la información auxiliar del apartado b. d. Corroborar la respuesta del apartado b indicando qué estimador es mejor, el del apartado a o el del apartado c. Solución: (a) (4.275.255, 6.724.744) (b) ρ = 1 (c) τˆ y = 6.000.000 (d) B = 0 (límite del error de

estimación del apartado (c) 17. Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio. El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del barrio. Sea x el número de personas en cada vivienda e y el número de habitaciones por vivienda. A partir de los datos siguientes:

x = 9,1

y = 2,6

25

∑ xi2 = 2240 i =1

25

∑ yi2 = 169 i =1

25

xi yi = 522 ∑ i =1

estime la razón personas/habitación en el barrio y establezca el límite para el error de estimación con una confianza del 95%. Solución: r = 3,5

B = 0,767

18. En una universidad se realizó una prueba de conocimientos matemáticos antes del ingreso a 486 estudiantes. Se consideraron dichas calificaciones como una variable auxiliar de la variable “calificación final en cálculo”. Teniendo en cuenta que 291 eran chicos y las calificaciones medias del examen previo fueron de 47 para los chicos y 52 para las chicas, a partir de los datos de la tabla siguiente, se pide: CHICOS

CHICAS

Examen previo Examen de cálculo Examen previo Examen de cálculo 39

65

57

92

43

78

47

89

21

52

28

73

64

82

75

98

34

56

52

75

a. Sin tener en cuenta el sexo, estima la calificación media en el examen final de cálculo utilizando un estimador de razón. De una medida del error de estimación. b. ¿Qué ocurre si no se tiene en cuenta la información auxiliar pero si el sexo? c. ¿Qué ocurre si no se tiene en cuenta la información auxiliar ni el sexo? d. Compare los estimadores que se obtienen en cada caso justificadamente. 216

Solución: (a) µˆ y = 80,97; B = 10,54 (b) µˆ = 73,76; B = 9,5 (c) µˆ = 76; B = 9,46

5. Muestreo Sistemático

1. La sección de control de calidad de una empresa usa el muestreo sistemático para estimar la cantidad media de llenado en latas de 12 onzas que sale de una línea de producción. Los datos de la tabla adjunta representan una muestra sistemática 1 en 50 de la producción de un día. Cantidad de llenado (en onzas) 12,00 11,97 12,01 12,03 12,01 11,80 11,91 11,98 12,03 11,98 12,00 11,83 11,87 12,01 11,98 11,87 11,90 11,88 12,05 11,87 11,91 11,93 11,94 11,89 11,72 11,93 11,95 11,97 11,93 12,05 11,85 11,98 11,87 12,05 12,02 12,04 a. Estime µ , y establezca un límite para el error de estimación. Suponga que N=1.800. b. Determinar el tamaño de muestra requerido para estimar µ dentro de 0,01 unidades. Solución: (a) µˆ sy = 11,94; B = 0,0259 (b) n = 217,1 ≅ 218

2. La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el permiso de conducir. Se instala un puesto de control en una carretera nacional y se detiene un conductor de cada siete. a. Use los datos de la tabla adjunta para estimar la proporción de conductores que portan su licencia. Establezca un límite para el error de estimación. Suponga que 2.800 autos pasan por el puesto de verificación durante el periodo de muestreo. Automóvil 1 8 15

Respuesta 1 1 0

2794

1 400

∑ y i = 324

i =1

b. En un nuevo control, la Guardia Civil de Tráfico espera que pasen unos 5.000 automóviles por el puesto de verificación. Determine el tamaño de muestra y k para estimar p con un error inferior al 2%. 217

Solución: (a) pˆ sy = 0,8100; B = 0,0364 (b) n = 1.176,97 ≅ 1177 k = 4

3. Los funcionarios de un museo están interesados en el número total de personas que visitan el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades está en exhibición. Puesto que el control de visitantes en el museo cada día es muy costosa, los funcionarios deciden obtener estos datos cada décimo día. La información de esta muestra sistemática de 1 en 10 se resume en esta tabla Día 3 13 23

Nº personas que visitan el museo 160 350 225

173 290 18

18

i =1

i =1

∑ y i = 4.868;

2 ∑ y i = 1.321.450

Use estos datos para estimar el número total de personas que visitan el museo durante el periodo específico. Establezca un límite para el error de estimación. Solución: τˆ sy = 48680; B = 1.370,34

4. Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los funcionarios toman una muestra sistemática de 1 en 10, a partir de una lista en orden alfabético de los 650 miembros registrados. Sea y i = 1 si la i-ésima persona muestreada favorece los cambios propuestos e y i = 0 si se opone a los cambios. Use los siguientes datos de la muestra para estimar la proporción de miembros en favor de los cambios propuestos. Establezca un límite para el error de estimación. 65

∑ y i = 48

i =1

Solución: pˆ sy = 0,7385; B = 0,1042

5. La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años seleccionados sistemáticamente. (a) Estime el número medio de varones nacidos por año para el periodo 1955-1980, y establezca un límite para el error de estimación. (b) Estime la tasa media anual de natalidad para el periodo 1955-1980, y establezca un límite para el error de estimación. (c) ¿Cree usted que el muestreo sistemático es mejor que el muestreo aleatorio simple para los problemas de los apartados (a) y (b)?¿Por qué?

218

Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad 1955 2.073.719 1.973.576 4.047.295 26,0 1960 2.179.708 2.078.142 4.257.850 23,7 1965 1.927.054 1.833.304 3.760.358 19,4 1970 1.915.378 1.816.008 3.731.386 18,4 1975 1.613.135 1.531.063 3.144.198 14,6 1980 1.852.616 1.759.642 3.612.258 15,9 Solución: (a) µˆ sy = 1.926.935; B = 139.437,35 ; (b) µˆ sy = 19,67; B = 3,17 ; (c) Si. Observando la tendencia de las muestras se puede decir que las poblaciones en estudio están “ordenadas” de forma decreciente. 6. En la tabla anexa se presentan los datos sobre las tasas de divorcio (por cada 1000 personas) en Estados Unidos para una muestra sistemática de los años de 1900-1980. Estime la tasa media anual de divorcios para tal periodo y establezca un límite para el error de estimación. ¿Es en este caso el muestreo sistemático mejor o peor que el muestreo aleatorio simple?¿Por qué?

Solución: µˆ sy

Año Tasa Año Tasa 1900 0,7 1945 3,5 1905 0,8 1950 2,6 1910 0,9 1955 2,3 1915 1,0 1960 2,2 1920 1,6 1965 2,5 1925 1,5 1970 3,5 1930 1,6 1975 4,8 1935 1,7 1980 5,2 1940 2,0 = 2,26; B = 0,57 . Mejor, se observa, en general, una tendencia creciente en

los datos de la muestra, aunque se rompa ese orden parcial en los años 1945-1955. 7. La gerencia de una compañía privada con 2.000 empleados está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo (las respuestas a favor se han representado como 1) Empleado Respuesta muestreado 3 1 13 0 23 1 1993

1 200

∑y i =1

i

= 110

219

Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios). ¿Qué tipo de muestra sistemática deberá obtenerse? (indique n y k). Solución: n = 330, 7 ≈ 331

k = 6, 04 ⇒ k = 6

8. Un auditor se enfrenta a una larga lista de 1.000 cuentas por cobrar de una empresa. El valor de cada una de estas cuentas no suele superar los 21.000 €. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a 1.000.000 € con una confianza del 95%. Para ello decide tomar una muestra sistemática de 1 en k . Determine el valor de k. Solución: k = 10 9. Los funcionarios de cierta sociedad profesional desean determinar la proporción de

miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los funcionarios tomaron una muestra sistemática de 1 en 10, a partir de una lista en orden alfabético de los 650 miembros registrados, obteniendo que 47 estaban a favor de los cambios propuestos. Se quiere repetir el estudio anterior con un error de estimación inferior al 5%. Considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios, ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k). Solución: n =

Npq = 214,8 ≈ 215 ( N − 1) D + pq

k≤

625 = 3, 02 215

k =3

6. Muestreo por Conglomerados.

(Se recomienda realizar con el ordenador los ejercicios 1, 2, 3, 5 y 7 dado el elevado número de datos y resolver a mano, verificando la solución con el ordenador, una versión con menos datos) 1. Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria. Entonces decide usar muestreo por conglomerados, con cada industria como un conglomerado. El fabricante selecciona una muestra aleatoria simple de 20 de 96 industrias a las que da servicio. Los datos sobre coste total de reparaciones por industria y el número de sierras son: 220

Industria Nº sierras Costo total de reparación para el mes pasado (€) 1 3 50 2 7 110 3 11 230 4 9 140 5 2 60 6 12 280 7 14 240 8 3 45 9 5 60 10 9 230 11 8 140 12 6 130 13 3 70 14 2 50 15 1 10 16 4 60 17 12 280 18 6 150 19 5 110 20 8 120 a. Estime el costo medio de reparación por sierra para el mes pasado, y establezca un límite para el error de estimación. b. Estime la cantidad total gastada por las 96 industrias en la reparación de sierras. Establezca un límite para el error de estimación. c. Después de verificar sus registros de ventas, el fabricante se percata de que ha vendido un total de 710 sierras a esas industrias. Usando esta información adicional, estime la cantidad total gastada en reparación de sierras por estas industrias, y establezca un límite para el error de estimación. Solución: (a) µˆ = 19,73; B = 1,78 (b) τˆ = 12.312; B = 3.175,07

(c) τˆ = 14.008,85; B = 1.110,78 2. Una industria está considerando la revisión de su política de jubilación y quiere estimar la proporción de empleados que apoyan la nueva política. La industria consiste en 87 plantas separadas localizadas en todo Estados Unidos. Ya que los resultados deber ser obtenidos rápidamente y con poco dinero, la industria decide usar muestreo por conglomerados, con cada planta como un conglomerado. Se selecciona una muestra aleatoria simple de 15 plantas y se obtienen las opiniones de los empleados en estas plantas a través de un cuestionario. Los resultados se presentan en esta tabla: Planta Nº empleados Nº empleados que apoyan la nueva política 1 51 42 2 62 53 221

3 49 40 4 73 45 5 101 63 6 48 31 7 65 38 8 49 30 9 73 54 10 61 45 11 58 51 12 52 29 13 65 46 14 49 37 15 55 42 a) Estime la proporción de empleados en la industria que apoyan la nueva política de jubilación y establezca un límite para el error de estimación. b) La industria modificó su política de jubilación después de obtener los resultados de la encuesta. Ahora se quiere estimar la proporción de empleados a favor de la política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 2% para el error de estimación? Use los datos anteriores para aproximar los resultados de la nueva encuesta. Solución: (a) pˆ = 70,91%; B = 4,81% ) (b) n = 47,6 ≅ 48

3. Se diseña una encuesta económica para estimar la cantidad media gastada en servicios para los hogares en una ciudad. Ya que no se encuentra disponible una lista de hogares, se usa muestreo por conglomerados, con barrios formando los conglomerados. Se selecciona una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados; los gastos totales se muestran en esta tabla: Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430 4 58 2380 5 71 2760 6 78 3110 7 69 2780 8 58 2370 9 52 1990 10 71 2810 11 73 2930 12 64 2470 13 69 2830 14 58 2370 15 63 2390 16 75 2870 222

17 78 3210 18 51 2430 19 67 2730 20 70 2880 a. Estime la cantidad media de gastos en servicios por hogar en la ciudad y establezca un límite para el error de estimación. b. En la encuesta anterior se desconoce el número de hogares en la ciudad. Estime la cantidad total gastada en servicios por todos los hogares de la ciudad y establezca un límite para el error de estimación. c. La encuesta económica se va a llevar a cabo en una ciudad vecina de estructura similar. El objetivo es estimar la cantidad total gastada en servicios por los hogares de la ciudad, con un límite de 5.000€ para el error de estimación. Use los datos anteriores para encontrar el número aproximado de conglomerados que se necesitan para obtener ese límite. Solución: (a) µˆ = 40,17; B = 0,64 (b) τˆ = 157.020; B = 6.927,88 (c) n = 29,4 ≅ 30

4. Un inspector quiere estimar el peso medio de llenado para cajas de cereal empaquetadas en una fábrica. El cereal está en paquetes que contienen 12 cajas cada uno. El inspector selecciona aleatoriamente 5 y mide el peso de llenado de cada caja en los paquetes muestreados, con los resultados (en onzas) que se muestran: Paquete Onzas de llenado 1 16,1 15,9 16,1 16,2 15,9 15,8 16,1 16,2 16,0 15,9 15,8 16,0 2 15,9 16,2 15,8 16,0 16,3 16,1 15,8 15,9 16,0 16,1 16,1 15,9 3 16,2 16,0 15,7 16,3 15,8 16,0 15,9 16,0 16,1 16,0 15,9 16,1 4 15,9 16,1 16,2 16,1 16,1 16,3 15,9 16,1 15,9 15,9 16,0 16,0 5 16,0 15,8 16,3 15,7 16,1 15,9 16,0 16,1 15,8 16,0 16,1 15,9 Estime el peso medio de llenado para las cajas empaquetadas por esta fábrica, y establezca un límite para el error de estimación. Suponga que el número total de cajas empaquetadas por la fábrica es lo suficientemente grande para que no se tome en cuenta la corrección por población finita. Solución: µˆ = 16,0050; B = 0,0215

5. Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A en una elección estatal. La selección y entrevista de una muestra aleatoria simple de votantes registrados es muy costosa por lo que se utiliza muestreo por conglomerados. Se selecciona una muestra aleatoria de 50 distritos (conglomerados) de un total de 497 que tiene el estado. El periódico quiere hacer la estimación el día de la elección, pero antes de que se haya hecho la cuenta final de los votos. Es por eso que los reporteros son enviados a los lugares de votación de cada distrito en la muestra, para obtener la información pertinente directamente de los votantes. Los resultados se muestran en esta tabla: 223

Nº votantes Nº votantes A Nº votantes Nº votantes A Nº votantes Nº votantes A 1290 680 1893 1143 843 321 1170 631 1942 1187 1066 487 840 475 971 542 1171 596 1620 935 1143 973 1213 782 1381 472 2041 1541 1741 980 1492 820 2530 1679 983 693 1785 933 1567 982 1865 1033 2010 1171 1493 863 1888 987 974 542 1271 742 1947 872 832 457 1873 1010 2021 1093 1247 983 2142 1092 2001 1461 1896 1462 2380 1242 1493 1301 1943 873 1693 973 1783 1167 798 372 1661 652 1461 932 1020 621 1555 523 1237 481 1141 642 1492 831 1843 999 1820 975 1957 932 a. Estime la proporción de votantes que apoyan al candidato A, y establezca un límite para el error de estimación. b. El periódico quiere realizar una encuesta similar durante la siguiente elección. ¿Cómo de grande debe ser la muestra para estimar la proporción de votantes a favor de un candidato similar con un límite del 5% para el error de estimación? Solución:

pˆ = 0,5701;

B = 0,0307

(b) n = 20,1 ≅ 21

6. Con motivo del cuarto centenario del Quijote, el Ministerio de Cultura desea estimar el número de libros comprados cada mes en una localidad. Se selecciona una localidad con 6.200 hogares agrupados en 700 manzanas de viviendas. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias, obteniéndose los siguientes resultados: manzana libros comprados cada mes por familia 1 1 2 1 0 3 2 1 0 1 2 2 1 0 2 2 0 0 1 3 3 2 1 1 1 1 0 2 1 2 2 2 4 1 1 0 2 1 0 3 Determine, usando los datos de la encuesta piloto, cuántas manzanas debe tener una nueva muestra si se quiere estimar los libros comprados cada mes con un error de estimación inferior a 140 unidades. Solución: n = 96,92 ≈ 97 7. Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde

no existe una lista disponible de adultos residentes. Por esta razón para el diseño de la 224

encuesta utiliza muestreo por conglomerados. Se divide la ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser considerado como un conglomerado. Los conglomerados son numerados del 1 al 415. El investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a cada hogar dentro de cada uno. Se seleccionan aleatoriamente 25 conglomerados y se realizan las entrevistas, obteniéndose estos datos: Conglomerado (i) Nº de residentes (mi) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

8 12 4 5 6 6 7 5 8 3 2 6 5 10 9 3 6 5 5 4 6 8 7 3 8 151 residentes

Ingreso total por conglomerado en € (yi) 96000 121000 42000 65000 52000 40000 75000 65000 45000 50000 85000 43000 54000 49000 53000 50000 32000 22000 45000 37000 51000 30000 39000 47000 41000 1329000 €

a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de estimación. b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de estimación, suponiendo que M es desconocido. c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de todos los residentes de la ciudad mediante un intervalo de confianza. NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo, mi = 6 ∀i , supongamos conocido M = 6 × 415 = 2.490 ) y estime el total por los dos métodos 225

(

)

estudiados τ = M y τ t = N y t . Observe como coinciden las dos estimaciones así como la varianza del estimador y el límite para el error de estimación. d) Tomando los anteriores datos como una muestra previa, cómo debe tomarse la muestra en una encuesta futura para estimar el ingreso promedio por persona con un límite para el error de estimación de 500€. Solución: a) µ = 8.801,32 € / residente

B = 1.617,14€

b) τ t = 22.061.400 € B = 3.505.584, 04 € c) (17.949.791,34€ , 26.056.831,18€ ) d) n = 166,58 ≈ 167 8. Un empresario quiere estimar el número de tubos de dentífrico usados por mes en una

comunidad de 4000 hogares divididos en 400 bloques. Se selecciona una muestra aleatoria simple de 4 bloques que proporciona los siguientes resultados: Bloque tubos gastados por hogar 1 1 2 1 3 3 2 1 4 2 1 3 2 2 3 1 4 1 1 3 2 1 1 1 3 2 2 4 1 1 3 2 1 5 1 3 Estime de distintas formas el número total de tubos gastados, obtenga el límite para el error de estimación en cada caso y comente los resultados. Solución:

Muestreo por conglomerados τˆ = 8000; B = 562,85 Muestreo aleatorio simple

τˆ = 6400; B = 1077,78

9. En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 5 de los 40 paquetes que tiene la fábrica, cada uno de los cuales contiene 4 envases, y se mide el volumen que cada envase contiene. Las observaciones se presentan en la tabla adjunta: Paquete nº Volumen envasado en cm3 1 33 32,5 31,7 34,2 2 32 32,6 33,8 32,5 3 30,9 33,1 33 33,4 4 34,1 33,1 32,5 33,2 5 32 32,1 32,6 33,6 Estime el volumen medio por envase y dar la cota de error de estimación. Solución: µˆ = 32,80; B = 0,22

10. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una muestra de 10 de las 85 inscritas en el registro mercantil. El número de bajas en el último año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: 226

Empresa 1 2 3 4 5 6 7 8 9 10 a. Estime el número de

Bajas Empleados Respuesta 1 7 Si 2 15 No 9 85 Si 0 3 No 2 12 No 0 8 No 1 21 Si 0 4 No 4 35 No 6 92 Si bajas en el último año en las empresas del pueblo. Dé el

límite del error de estimación. b. Estime la proporción de empresas que usarían los servicios ofertados. Dé el límite del error de estimación. Solución: (a) τˆ = 212,5; B = 151,02 (b) pˆ = 40%; B = 30,68%

11. Cierto tipo de tableros posee 12 microcircuitos cada uno. De un pedido de 50 tableros se seleccionan 10 de ellos para su estudio. El número de microcircuitos defectuosos por tablero fue 2 0 1 3 2 0 0 1 3 4 Estime la proporción de microcircuitos defectuosos en la población y establezca una cota para el error de estimación. Solución:

pˆ = 0,1333;

B = 0,0674

12. En una pequeña ciudad se quiere estimar el número total de horas diarias que sus residentes dedican a ver el programa ``Gran Hermano'', emitido las 24 horas del día por un canal Digital. Dicha ciudad está dividida en 200 manzanas de viviendas. Se extrae una muestra aleatoria simple de 10 manzanas, y se interroga a cada familia acerca de si están conectados a Vía Digital y cuántas horas ven el programa. Los datos de la encuesta se encuentran en la siguiente tabla: Manzana Nº hogares con canal Digital

Nº total horas que ven programa

1

8

13

2

7

13

3

9

14

4

6

13

5

5

0

6

9

10

7

6

6 227

8

8

14

9

9

16

10

6

4

a. Estimar el número total de horas que se ve el programa ``Gran Hermano'' a través de Canal Digital. b. Obtener un intervalo de confianza para el número total de horas. c. Determinar cuántas manzanas se deberían muestrear para estimar el total poblacional, con un límite para el error de estimación de magnitud 20. Considere la muestra anterior como una muestra previa para estimar los parámetros necesarios. Solución: (a) τˆ = 2060 ; (b) (1415,30, 2704,70) (c) n = 196,4 ≅ 197

13. En una urbanización se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital, para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. Se extrae una muestra aleatoria simple de 10 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la Nº hogares manzana interesados 1

8

3

2

7

3

3

9

4

4

6

3

5

5

2

6

9

4

7

6

3

8

8

3

9

9

4

10

6

2

a. Estimar la proporción de hogares interesados en contratar la televisión digital. b. Obtenga un intervalo de confianza para la citada proporción. c. Determinar cuántas manzanas se deberían muestrear para estimar la proporción poblacional con un límite para el error de estimación del 1%. Considere la muestra anterior como una muestra previa para estimar los parámetros necesarios. Solución: (a) pˆ = 0,4247 (b) (0'3947, 0'4547) (c) n = 64,28 ≅ 65

14. En un municipio de 5000 familias se pretende estimar el porcentaje de las que poseen ordenador. Se consideran 1000 conglomerados de 5 familias cada uno, y se elige una 228

muestra aleatoria de 10 conglomerados, en los que el número de familias con ordenador es: 2 1 5 3 0 1 4 3 5 0 Estimar la proporción de familias que poseen ordenador y la varianza del estimador usado para estimar dicha proporción. Solución:

pˆ = 0,48; Vˆ ( pˆ ) = 0,0143

15. Se desea conocer la proporción de empleados de una empresa que no están dispuestos a trasladarse a una nueva planta de producción. Realizada una encuesta a los empleados de 5 factorías elegidas al azar entre las 50 que tiene la empresa, los resultados han sido: Factoría Nº empleados Dispuestos 1

250

225

2

190

175

3

210

190

4

400

350

5

150

120

Estimar la proporción de empleados que no están dispuestos a trasladarse a la nueva factoría. Obtenga una estimación de la varianza del estimador empleado. Solución:

pˆ = 0,1167; Vˆ ( pˆ ) = 0,0002

16. Un gran embarque de mariscos congelados es empaquetado en cajas, conteniendo cada una 24 paquetes de 5 kilos. Hay 100 cajas en el embarque. Un inspector del gobierno determina el peso total de mariscos dañados para cada una de las 5 cajas muestreadas. Los datos son: 9

6

3

10 2

a. Estime el peso total de mariscos dañados en el embarque y establezca un límite para el error de estimación. b. Determine el tamaño de la muestra necesario para estimar el peso total de mariscos dañados en el embarque, con un límite de error de 275. Solución: (a) τˆ = 600; B = 308, 22 (b) n = 6, 20 ≅ 7

229

7. Estimación del Tamaño de la Población.

1. Un club deportivo se interesa por el número de truchas de río en un arroyo. Durante un periodo de varios días, sea atrapan 100 truchas, se marcan y se devuelven al arroyo. Obsérvese que la muestra representa 100 peces diferentes, ya que cualquier pez atrapado en esos días, que ya había sido marcado, se devolvía inmediatamente. Varias semanas después se atrapó una muestra de 120 peces y se observó el número de peces marcados. Supongamos que este número fue de 27 en la segunda muestra. Estime el tamaño total de la población de truchas y dé un límite de error de estimación. Solución: Nˆ = 444,4; B = 150,60

2. Ciertos biólogos de poblaciones salvajes desean estimar el tamaño total de la población de codorniz común en una sección del sur de Florida. Se usa una serie de 50 trampas. En la primera muestra se atrapan 320 codornices. Después de ser capturadas, cada ave es retirada de la trampa y marcada con una banda de metal en su pata izquierda. Luego se sueltan todas las aves. Varios meses después se obtiene una segunda muestra de 515 codornices. Suponga que 91 de estos pájaros están marcados. Estimar el tamaño total de la población de codornices y dar un límite de error de estimación. Solución: Nˆ = 1810,99; B = 344,51

3. Expertos en pesca están interesados en estimar el número de salmones de una reserva. Se atrapa una muestra aleatoria de 2876 salmones. Cada uno es marcado y soltado. Un mes después se atrapa una segunda muestra de 2562. Supongamos que 678 tienen marcas en la segunda muestra. Estime el tamaño de la población total y establezca un límite del error de estimación. Solución: Nˆ = 10.867,72; B = 715,82

4. Los regentes de una ciudad están preocupados por las molestias que causan las palomas alrededor del ayuntamiento. A fin de cuantificar el problema contratan un equipo de investigadores para que estime el número de palomas que ocupan el edificio. Con varias trampas se captura una muestra de 60 palomas, se marcan y se sueltan. Un mes después se repite el proceso, usando 60 palomas, de las que 18 están marcadas. Estimar el tamaño total de la población de palomas y dar un límite de error de estimación. Solución: Nˆ = 200; B = 78,88

5. Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área geográfica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una 230

muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y liberadas. Toma una segunda muestra un mes después y decide continuar muestreando hasta que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas antes de obtener las 15 marcadas. Estime el tamaño total de la población de tortugas y establezca un límite de error de estimación. Solución: Nˆ = 1.066,67; B = 507,72

6. En una plantación de pinos de 200 acres, se va a estimar la densidad de árboles que presentan hongos parásitos. Se toma una muestra de 10 cuadros de 0,5 acres cada uno. Las diez parcelas muestreadas tuvieron una media de 2,8 árboles infectados por cuadro. a) Estime la densidad de árboles infectados y establezca un límite de error de estimación. b) Estime el total de árboles infectados en los 200 acres de la plantación y establezca un límite de error de estimación. Solución: (a) λˆ = 5,6; B = 2,1 (b) Mˆ = 1.120; B = 423,32

7. Se desea estimar el número total de personas que diariamente solicitan información en una oficina turística. Se observa que 114 personas solicitan información, durante 12 intervalos de 5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta la oficina. Estimar el total de personas que visitan la oficina diariamente y dar la cota de error de estimación. Solución: Mˆ = 912; B = 170,8

8. Un alumno de A.T.C. desea estimar el número de alumnos que una determinada mañana han ido a la Facultad. Para ello se basa en que dicho día una conocida marca comercial ha repartido a primeras horas de la mañana en la entrada de la Facultad 500 carpetas. En un intercambio de clase, sentado en un banco del pasillo, decide contar los alumnos que pasan hasta observar a 100 que portan la carpeta, para lo que fue necesario contar hasta 382 alumnos. Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la Facultad. Solución: muestreo inverso (1910 ∓ 326,58 )

9. El hermano de un alumno de T.A.M. está pensando en abrir una farmacia de 24 horas. Para saber si los ingresos compensarían los gastos de esta inversión deciden observar un establecimiento similar para estimar los ingresos diarios. Este asiduo alumno de T.A.M. conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de

231

clientes las 24 horas del día por lo que decide observar de forma sistemática media hora cada 3 horas, obteniendo los datos de la siguiente tabla clientes 35 10:00-10:30 20 13:00-13:30 19 16:00-16:30 30 19:00-19:30 25 22:00-22:30 9 01:00-01:30 12 04:00-04:30 18 07:00-07:30 Sabiendo que el gasto medio por cliente es de 20∈, estime los ingresos diarios de la farmacia observada y el correspondiente límite para el error de estimación utilizando diferentes métodos. Solución:

Muestreo por cuadros Ingresos = 20.160; B = 3.110,76 ; Muestreo aleatorio

simple Ingresos = 20.160; B = 5.402,22 10. Se desea estimar el número total de palomas en la glorieta de una ciudad. Se capturan 80 palomas, se marcan y se devuelven a la población. Se realiza una segunda muestra hasta encontrar 30 palomas marcadas, se han tenido que capturar para ello 300 aves. Estimar el tamaño total y el límite de error de estimación. Solución: Nˆ = 800; B = 272,62

11. Se desea estimar el número total de pingüinos en una determinada zona. Se obtiene una muestra de tamaño 60, se marcan y se devuelven a la población. Al día siguiente se elige otra muestra de tamaño 400 y en ella se encuentran 12 marcados. Estimar el número total de pingüinos y dar la cota de error de estimación. Solución: Nˆ = 2.000; B = 1.137,25

12. Se desea estimar el número de vehículos de un modelo determinado que el mes próximo utilizarán el aparcamiento de Puerta Real. Durante las 720 horas del mes se van a establecer 5 controles aleatorios de 1 hora de duración cada uno. Transcurrido el mes, se ha observado en los 5 controles los siguientes resultados: Control

Número de vehículos de ese modelo que usan el aparcamiento 1 1 2 1 3 2 4 1 5 3 Estimar el número total de vehículos del modelo en estudio que utilizaron el aparcamiento. 232

Solución: Mˆ = 1152; B = 814,59

13. El ayuntamiento de Madrid está interesado en conocer el número de aficionados que acudieron al aeropuerto a vitorear al equipo campeón de la Champion League. Para ello, dividieron la sala de espera, de dimensiones 100 metros de largo por 35 metros de ancho, en 100 cuadros de igual tamaño y seleccionaron 40, observando que el número de personas era 2100. a. Estime la densidad de asistentes por metro cuadrado mediante un intervalo de confianza del 95%. b. Estime el número total de asistentes, y fije un límite para el error de estimación. Solución: (a) (1,4, 1,6) (b) Mˆ = 5.250; B = 229,13 ≅ 229

14. Se toman periódicamente muestras del aire en un área industrial de la ciudad. La densidad de cierto tipo de partículas dañinas es el parámetro de interés para el sector industrial. A partir de 15 muestras de 1 cm 3 , se obtuvo un promedio de 210 partículas/ cm 3 . Estimar la densidad de las partículas dañinas en dicha zona, así como dar una estimación del error de dicha estimación. Solución: λˆ = 210 part / cm 3 ; B = 7,48

15. Se desea conocer cuántas personas asistieron a la inauguración del pabellón de Portugal en la Expo de Lisboa. Se sabe que el pabellón tiene forma cuadrada de 35 metros de lado y se traza una malla que divide el área total en 100 cuadros de igual tamaño. Se selecciona una muestra aleatoria de 40 cuadros, observando que el número de personas es de 750. a. Estime la densidad de asistentes por metro cuadrado y obtenga su intervalo de confianza. b. Estime el número total de asistentes a la inauguración y fije un límite para el error de estimación. Solución: (a) λˆ = 1,5306; (1'4188, 1'6424) (b) Mˆ = 1875; B = 136,9

16. Un equipo de ecólogos quiere medir la efectividad de un fármaco para controlar el crecimiento de la población de palomas. Se quiere conocer el tamaño de la población de este año para compararlo con el del año pasado. Se atrapa una muestra inicial de 600 palomas y se les da el fármaco, a la vez que se aprovecha para marcarlas en una pata. En fechas posteriores se atrapa otra muestra de 100 palomas de las cuales 48 tienen marca. a. Estime el tamaño de la población con un intervalo del 95% de confianza.

233

b. Para reducir el límite de error de estimación a la mitad, ¿en qué proporción deben ser mayores las cantidades 100 y 48 observadas en la segunda muestra?, ¿se deberían observar el doble de las cantidades anteriores, es decir, 200 y 96?, ¿el triple?, ¿el cuádruplo?,... Solución: (a) ( 989 '79, 1510 ' 21) (b) el cuádruplo

8. Indicadores estadísticos regionales.

1. Sabemos que, en 1995, el PIB a precios de mercado de los siguientes países fue: PIB (u.m.) Superficie (1000 km 2 ) Alemania 826,4 248,7 Bélgica 104,5 30,5 Dinamarca 76,4 43,1 España 216,2 504,8 Francia 674,8 544,0 Grecia 42,8 132,0 Holanda 165,3 41,2 Inglaterra 595,0 244,1 Irlanda 24,1 68,9 Italia 473,0 301,3 Luxemburgo 4,7 2,6 Portugal 27,3 92,1 Total 3230,5 2253,3 Determinar el índice de asociación geográfica de Florence del PIB respecto a la extensión superficial de cada país. Solución: F = 0, 7095

2. Se realizó un estudio sobre la economía de las provincias mediterraneas españolas, cuyos V.A.B. al coste de los factores en millones de pesetas en 1991 fueron: V.A.B. Cataluña 2.876.920,7 Gerona 257.026,0 Barcelona 2.318.025,7 Tarragona 301.869,0 Baleares 358.450,3 Comunidad Valenciana 1.724.809,4 Castellón 205.160,3 Valencia 1.016.354,3 Alicante 503.294,8 Murcia 362.475,0 234

Andalucía Almería Granada Málaga Cádiz Total V.A.B.

1.056.503,0 140.396,8 206.487,2 346.748,7 362.870,3 6.379.158,4

Determinar: a. El índice de concentración de Theil de la producción de esta zona. b. ¿Qué parte de la desigualdad existente es responsabilidad de las diferencias existentes entre las provincias de cada grupo? Solución: (a) IT = 0,1604 (b) 68%

3. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB 80 R1 15 R2 100 R3 50 R4 Obtenga el índice de concentración de Theil e interprete su valor. Solución:

N

T = ln N + ∑ x j ln x j = 0,1597 j =1

IT = ITHEIL =

T = 0,1152 ln N

4. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB 80 R1 15 R2 100 R3 50 R4 Obtenga la desigualdad colectiva e interprete su valor. Solución:

N

N

i =1

i =1

D = ∑ di fi = ∑ di

1 1 N 2, 6865 = ∑ di = = 0, 6716 4 4 i =1 4

5. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país y el número de oficinas bancarias fue REGIONES PIB OFICINAS 350 80 R1 70 15 R2 450 100 R3 250 50 R4 Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB e interprete su valor.

235

Solución:

F = 1−

1 N ∑ x j − y j = 0,97959 2 j =1

9. Medidas de localización espacial.

1. En un país, dividido administrativamente en cuatro regiones, el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción, Químicas, Papeleras y Alimentación. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era: I Siderurgia 5 Construcción 10 Químicas 0 Papeleras 4 Alimentación 2 Total 21

Regiones II III 3 1 8 7 1 5 7 10 3 12 22 35

IV Total 0 9 12 37 3 9 3 24 4 21 22 100

Determinar: a. Los cocientes de localización para cada industria en cada región. b. Los coeficientes de localización sectorial para cada industria. c. Los coeficientes de especialización para cada región. d. Los coeficientes de diversificación regional. Solución: (a)

Lij

I

II

III

IV

Siderurgia Construcción Químicas Papeleras Alimentación

2,65 1,29 0 0,79 0,45

1,52 0,98 0,51 1,33 0,65

0,32 0,54 1,59 1,19 1,63

0 1,47 1,52 0,57 0,87

(b) CLi Siderurgia 0,46 Construcción 0,16 Químicas 0,32 Papeleras 0,14 Alimentación 0,22

236

(c) CE j I II III IV

0,25 0,12 0,23 0,22

(d) CD j I 0,61 II 0,73 III 0,77 IV 0,54 2. Se dispone de la siguiente información sobre número de ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades: Energía Alimentos Industrial textil Andalucía 10.000 65.000 20.000 Castilla La Mancha 3.000 18.000 14.000 Castilla León 19.000 30.000 8.000 Cataluña 15.000 60.000 90.000 a) Obtenga los coeficientes de localización de las distintas actividades. b) Calcule los coeficientes de especialización para cada comunidad. Solución: a) Coeficientes de localización sectorial SECTOR REGION S1 S2 S3 R1 0,0571 0,1058 0,1184 R2 0,0356 0,0046 0,0066 R3 0,2423 0,0115 0,1013 R4 0,1496 0,1219 0,2131

CL j

0,2423

0,1219

0,2197

b) Coeficientes de especialización regional SECTOR

CEi REGION S1 S2 S3 R1 0,0283 0,1927 0,1645 0,192733 R2 0,0478 0,0228 0,025 0,047808 R3 0,1998 0,0348 0,2346 0,234649 R4 0,0426 0,1278 0,1705 0,170455 3. La distribución de algunas especies animales en 4 areas geográficas es la siguiente

237

Area/Especie Buitre Nutria Lince I 15 8 60 II 12 9 40 III 16 7 10 IV 13 4 18 Obtener el coeficiente de diversificación de estas especies en las distintas zonas. Solución: CDI = 0,59; CDII = 0, 68; CDIII = 0,9; CDIV = 0,8

4. En un país, dividido administrativamente en tres regiones, el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción, Químicas y Alimentación. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles): Regiones I II III Siderurgia 15 10 6 Construcción 165 110 66 Químicas 30 20 12 Alimentación 195 130 78 Calcule las diversas medidas de localización espacial e interprételas, justificando y apoyando los comentarios en los datos del enunciado. Solución:

(Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de las tablas.) datos REGION R1 R2 R3

S1 15 10 6

SECTOR S2 S3 165 30 110 20 66 12

S4 195 130 78

Participación de las regiones en cada sector y en la población total SECTOR REGION R1 R2 R3

S1 0,4839 0,3226 0,1935

S2 0,4839 0,3226 0,1935

S3 0,4839 0,3226 0,1935

S4 población 0,4839 0,4839 0,3226 0,3226 0,1935 0,1935

Participación de los sectores en cada región y en la población total REGION R1 R2 R3 población

238

S1 0,0370 0,0370 0,0370 0,0370

SECTOR S2 S3 0,4074 0,0741 0,4074 0,0741 0,4074 0,0741 0,4074 0,0741

S4 0,4815 0,4815 0,4815 0,4815

Cocientes de localización y especialización Lij SECTOR REGION R1 R2 R3

S1 100,00 100,00 100,00

S2 100,00 100,00 100,00

S3 100,00 100,00 100,00

S4 100,00 100,00 100,00

Coeficientes de localización sectorial SECTOR S2 S3

S1

CL j

0

0

S4 0

0

Coeficientes de especialización regional CEi REGION R1 R2 R3

0 0 0

Coeficientes de diversificación de cada región CDi CDi* REGION R1 R2 R3

0,6178 0,6178 0,6178

0,49 0,49 0,49

5. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 15 225 195 Región Sur 6 90 78 Calcule los coeficientes de localización sectorial. Interprete los resultados Solución: La participación de cada una de las regiones en el sector j, ( ∀j , CL j = 0 ) es

igual a la participación de cada región en el conjunto de sectores. Cada sector se localiza en igual medida que todos ellos en conjunto. 6. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 60 225 150 Región Sur 24 90 60 Calcule los coeficientes de especialización regional. Interprete los resultados Solución: La presencia de cada sector en la región i, ( ∀i , CEi = 0 ) es igual a la presencia

de cada sector en el conjunto del pais (todas las regiones). Cada región se especializa en la misma medida que el conjunto del pais. 239

7. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 90 300 195 Región Sur 36 120 78 Calcule los coeficientes de diversificación normalizados. Interprete los resultados Solución: Yij2

L

S1

S2

S3

∑Y j =1

2 ij

CDi =

Yi i2 L

L∑ Y j =1

R1 R2

8100 1296

90000 14400

38025 136125 6084 21780

2 ij

CDi* =

0,838016529 0,838016529

L  1  CDi −  L −1  L 0,75702479 0,75702479

8. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 90 0 0 Región Sur 30 30 30 Calcule los coeficientes de diversificación normalizados. Interprete los resultados Solución: En la región norte (R1) el grado de diversificación es mínimo, CDi* = 0 , esto

ocurre cuando una sóla actividad, (S1=agricultura), está presente en ella. En la región sur (R2) el grado de diversificación es máximo, CDi* = 1 , esto ocurre cuando la actividad de la región se distribuye uniformemente entre los distintos sectores, (S1=S2=S3=30).

10. Contrastes χ 2 de Pearson

1. El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los cinco días de trabajo de la semana. En base a una muestra aleatoria de cuatro semanas completas de trabajo, se observaron los siguientes números de empleados que asistieron al consultorio: Lunes Martes Miércoles Jueves Viernes 49 240

35

32

39

45

¿Existe alguna razón para creer que el número de empleados que asisten al consultorio médico, no se encuentra distribuido de forma equitativa durante los días de trabajo de la semana?, ( α = 0.05 ). 2 Solución: ( χ exp = 4,9 ) < ( χ 4;2 0,95 = 9, 49 ) . No existe razón para creer que el número que

asisten al consultorio no se encuentra distribuido en forma equitativa. 2. En un cajero automático se ha observado una baja utilización del mismo. Con el fin de confirmar este hecho, se ha controlado el número de llegadas diarias al mismo, obteniéndose los siguientes resultados: Nº llegadas al cajero Nº de días 0 21 1 18 2 7 3 3 4 ó más 1 En base a esta información, ¿existe alguna razón para creer que el número de llegadas diarias es una variable de Poisson con parámetro 0,9? ( α = 0, 05 ) 2 Solución: ( χ exp = 0, 04 ) < ( χ 2;2 0,95 = 5,99 ) . Se acepta la hipótesis de que los datos proceden

de una distribución P (0,9) . 3. La siguiente tabla proporciona el número de erratas por página cometidas por una secretaria de una cierta empresa: Nº erratas por página Nº páginas 0 832 1 203 2 383 3 525 4 532 5 408 6 273 7 139 8 45 9 27 10 10 11 ó más 11 Contrastar a nivel α = 0.05 si el número de erratas por página sigue una distribución de Poisson con parámetro 3. Solución:



2 exp

= 3291, 05 ) > ( χ 9;2 0,95 = 16,92 ) . Luego se rechaza la hipótesis de que el

número de erratas por página sigue una distribución de Poisson con parámetro 3. 4. En la siguientes tabla están los datos de 2764 personas clasificadas según sus ingresos y el tiempo trancurrido desde su última visita al médico: 241

Ingresos/Visitas 1 año Total Menos de 90.000 186 38 35 259 90.000-100.000 227 54 45 326 100.000-150.000 219 78 78 375 150.000-200.000 355 112 140 607 Más de 200.000 653 285 259 1197 Total 1640 567 557 2764 Contrastar a un nivel α = 0.05 si los ingresos y el tiempo transcurrido desde la última consulta médica son independientes. Solución: (Estadístico=47'90, Valor crítico=15'5). Se rechaza la hipótesis de que los

ingresos y el tiempo transcurrido desde la última consulta médica son independientes. 5. En la siguiente tabla están los datos de 56 personas clasificadas según si fuman por la noche y si tienen o no cancer de pulmon: Si fuman No fuman Total Si tienen cancer 20 16 36 No tienen cancer 6 14 20 Total 26 30 56 Contrastar a un nivel de α = 0.05 si son independientes estos dos atributos. Solución: (Estadístico=3'38, Valor crítico=3'84). Se acepta la hipótesis de independencia.

6. Cierto comercio vende dos marcas distintas de un mismo producto. Durante una semana se observa la marca de cada paquete vendido, y si el comprador es hombre o mujer, y se obtienen los siguientes resultados: A B Hombres 20 15 Mujeres 25 30 Contrastar la hipótesis de que la marca comprada y el sexo del comprador son independientes. Solución: (Estadístico=1'169, Valor crítico=3'84). Se acepta la hipótesis de que la marca

comprada y el sexo del comprador son independientes. 7. Se preguntaron a 40 personas de tres barrios diferentes de una ciudad: A, B y C, si había problemas de polución en su ciudad. Los datos obtenidos se resumen en la siguiente tabla: Barrio A B C Total

No Si A veces No lo sabe Total 5 31 2 2 40 10 21 4 5 40 11 20 7 2 40 26 72 13 9 120 Contrastar a un nivel α = 0.05 si son los tres barrios homogeneos respecto al conocimiento de los problemas de polución en su ciudad.

242

Solución: (Estadístico=7,74, Valor crítico=9'49). Luego hay diferencias entre los tres

barrios respecto al conocimiento de los problemas de polución. 8. Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson? ( α = 5% )



Solución:

2 exp

= 1,18 ) < ( χ 2;2 0,95 = 5,99 ) . Luego se acepta que el nº de personas que

requieren la mencionada información se distribuye según una ley de Poisson. 9. La siguiente tabla presenta el nº de reclamaciones recibidas en una oficina de información al consumidor, clasificadas por tipo de producto reclamado (A, B, C) y por la edad del reclamante A B C

≤ 30 8 12 22 42

> 30 28 44 53 125

36 56 75 167

El contraste a realizar es: H0 : Tipo de producto y edad son independientes (no están asociados). H1 : No son independientes (están asociados). 2 Solución: ( χ exp = 1, 27 ) < ( χ 2;2 0,95 = 5,99 ) . Luego no hay motivos para rechazar la hipótesis

de independencia. 10. Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. Los resultados aparecen en la siguiente tabla. ¿Hay independencia entre los sueldos y la antigüedad? (α = 0, 05) Sueldo\Antigüedad

20 años

0-500 500-1000 1000-2000 2000-3000 >3000 n• j

17 16 4 9 6 52

5 8 11 8 3 35

10 9 5 8 4 36

6 7 2 6 6 27

ni• 38 40 22 31 19 150

2 Solución: ( χ exp = 13,1) > ( χ 6;2 0,95 = 12,59 ) . Luego existen razones para pensar que los

sueldos y años de antigüedad NO son independientes. 243

11. A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y sus calificaciones fueron registradas como baja, media o alta, obteniéndose: Universidad A Universidad B 140 105 BAJA 135 140 MEDIA 225 255 ALTA Contrastar la hipótesis de que la distribución de calificaciones en las 2 universidades es la misma (con α = 0, 01 ) 2 = 6,95 ) < ( χ 2;2 0,99 = 9, 21) . La distribución de las notas es la misma en las Solución: ( χ exp

dos universidades con un nivel de significación del 1%. Observese que se llegaría a la conclusión opuesta con un nivel de significación del 5%. 12. Se observan durante 100 horas el número de llamadas recibidas durante una hora en una empresa de seguros del hogar. Los resultados se recogen en la siguiente tabla Número de llamadas / hora Número de horas 6 0 13 1 20 2 22 3 16 4 23 5 o más Contraste la hipótesis de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3,4. ( α = 0,1 ) 2 Solución: χ k2−1,1−α = χ 4,2 0'90 = 7, 78 . Como ( χ exp = 1,91) ( χ (2r −1)( c −1);1−α = 10, 6) , se rechazaría la hipótesis nula de

independencia entre los salarios y la antigüedad en la empresa. 14. Una empresa exportadora de naranjas piensa en cambiar su tipo de embalaje para el envío de sus cítricos al exterior, pero no sabe si utilizar cajas de cartón, madera o plástico. Para decidirse y utilizando información de otras empresas exportadoras, selecciona aleatoriamente las fichas informativas de 142 cajas de cartón, 123 cajas de madera y 128 de plástico. En las fichas informativas de cada caja consta el número de kilogramos que llegaron en mal estado a su destino en las distintas épocas del año, resumiéndose la información de la siguiente forma Tipos de embalaje Cartón Madera Plástico 6 8 12 Primavera 65 52 27 Verano 57 63 103 Otoño Contrastar, al nivel de significación del 5%, si los tres tipos de embalajes se comportan de la misma forma en la conservación de su contenido. 2 Solución: χ (2r −1)( c −1);1−α = χ 2*2 ; 0,95 = 9, 49 .

Como ( χ 2 = 31,8) > χ (2r −1)( c −1);1−α , se rechazaría la hipótesis nula de un comportamiento homogéneo (igual) de los tres tipos de embalajes en la conservación de cítricos. 15. En una empresa constructora se ha observado el número de accidentes que ocurren durante 130 días, obteniéndose la siguiente distribución de frecuencias: Número de accidentes por día 0 1 2 3 ≥4

Número de días 69 42 15 4 0 130 Contraste la hipótesis de que el número de accidentes por día sigue una distribución de Poisson, utilizando un nivel de significación del 1%. 2 Solución: χ1;0,99 = 6, 63 . ( χ 2 = 0,72) ( χ 6;2 0,95 = 12,59) , se rechazaría la hipótesis nula de que el número de ausencias es independiente de la edad con un nivel de significación del 5%. 17. Se ha preguntado a 1000 conductores sobre su preferencia en relación a tres tipos de vehículos, obteniéndose Sexo/Vehículo monovolumen deportivo todo terreno hombres 250 275 225 mujeres 80 75 95 c) ¿Es independiente la preferencia de vehículo del hecho de ser hombre o mujer? d) En general, sin distinguir entre hombre y mujeres, ¿existe un mismo grado de preferencia entre los conductores por cada tipo de vehículo? Solución: a) χ

2

(n = ∑ ∑ r

c

ij

i =1 j =1

χ (32 −1)(2−1);1−0,05 = χ 2;2 0,95 = 5,99

− Eij ) Eij

2

= 6,233

χ (32 −1)(2−1);1−0,01 = χ 2;2 0,99 = 9, 21

Se rechaza la hipótesis nula de independencia con un nivel de significación del 5% pero se acepta esa misma hipótesis nula con un nivel de significación del 1%. b) χ 2 = 1, 4

χ k2−1,1−α = χ 2,2 0'90 = 4, 60 Incluso con un nivel de significación del 10% se

acepta la hipótesis nula de igual preferencia por cada tipo de vehículo. 18. Se sabe que en un centro de Enseñanza Primaria, el 62% de los estudiantes de último curso dejan de estudiar, el 37% pasan a formación profesional y el 1% pasan a enseñanza secundaria. Se toma una muestra de 80 de estos estudiantes que finalizaron el año pasado. De ellos, 54 dejaron de estudiar, 17 se pasaron a formación profesional y nueve pasaron a enseñanza secundaria. ¿Concuerdan los datos muestrales con los estadísticos de años anteriores? ( α = 0, 05 )

246

2 Solución: χ 2 = 1, 027 χ1;0,95 = 3,84 . 1,027  Dα =  ⇒ las dos muestras no provienen de la misma 16  16   16 

población, o lo que es lo mismo, los dos métodos no son iguales. El grupo 2 arroja puntuaciones mayores, lo que se refleja en que F161 ( x) > F162 ( x) . 3. Contrastar a un nivel α = 0.1 si los datos siguientes proceden de una distribución Normal con media 10.84 y desviación típica 3.5: 10.5 8 15 12.1 4.1 12.1 8 10.5 16 12.1 Solución: α = 0,1 n = 10 ⇒ Dα = 0,369 . ( Dexp = 0,1594 ) < ( Dα = 0,369 ) luego no

existen motivos para rechazar la hipótesis nula. 4. Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa, se obtuvo en sendas muestras de 5 y 4 meses, la cantidad de unidades producidas de un artículo concreto, el resultado se muestra a continuación: Taller 1 78

64 75 45 82

Taller 2 110

70 53 51

249

Utilizando el contraste de Mann-Whitney, comprobar si la productividad en los dos talleres es la misma. (α = 0.05) . Solución: RT 2 (taller 2) = 2 + 3 + 5 + 9 = 19 ⇒ U T 2 = ( 4 × 5 ) +

U = min (11, 9 ) = 9

4×5 − 19 = 11 ⇒ U T 1 = ( 4 × 5 ) − U T 2 = 9 2

n = 4, m = 5, U α = 1 (tabla 3.19) (U = 9) > (Uα = 1) ⇒

los dos talleres producen lo mismo. 5. Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 12 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 12 trabajadores también seleccionados al azar. El resultado de ambas fue No incentivos 67 78 69 67 56 57 78 79 56 43 45 65 Incentivos

78 98 67 87 79 65 76 87 57 76 77 78

Realizar el contraste utilizando la prueba de Mann-Whitney.( α = 0.05 )  H 0 : Fn ( x) = Fm ( x)  Solución:    H1 : Fn ( x) > Fm ( x) 

RNO = 1 + 2 + 3,5 + 3,5 + 5,5 + 7,5 + 10 + 10 + 12 + 17,5 + 17,5 + 20,5 = 110,5 U NO = (12 × 12 ) +

12 ×13 − 110,5 = 111,5 ⇒ U SI = 144 − 111,5 = 32,5 2 U 0 = min (111,5; 32,5) = 32,5

U α = 42 ;

(U 0 = 32,5) < (U α = 42) ⇒ rechazo la hipótesis nula, por tanto, los

incentivos tienen efectos positivos sobre la producción. Repítase el contraste suponiendo que se dispusiera de información para 25 trabajadores en cada situación y que los datos son los que se recogen en la siguiente tabla. No incentivos

Incentivos

72 83 74 71 60 60 82 84 61 48 50 70 71 67 78 69 67 56 57 78 79 56 43 45 65 84 99 73 94 85 70 80 93 63 80 84 85 88 78 98 67 87 79 65 76 87 57 76 77 78

 H 0 : Fn ( x) = Fm ( x)  Solución:    H1 : Fn ( x) > Fm ( x) 

RNO = 442 RSI = 833

250

U NO = ( 25 × 25 ) +

25 × 26 − 442 = 508 ⇒ U SI = ( 25 × 25 ) − 508 = 117 2 U 0 = min (508;117) = 117

 25 × 25 25 × 25 × 51  U → N  ,  = N ( 312,5; 51,54 ) 12  2  117 − 312,5   p = P [U ≤ 117 / H 0 ] = P  Z ≤ = P [ Z ≤ −3, 79] = 0, 00007 51,54  

( p = 0, 00007 ) ≤ (α = 0, 05)

⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen

efectos positivos sobre la producción. 6. Para contrastar si un determinado curso de perfeccionamiento es efectivo, se somete a una muestra de 11 trabajadores a dicho entrenamiento, controlando el tiempo medio empleado en concluir determinada tarea, antes y después del curso. Los resultados son los siguientes Antes

12 15 9 16 13 17 12 14 8 10 11

Después 8 15 10 10 11 15 13 12 9 9

7

¿Ha influido el curso en el tiempo empleado en concluir la tarea? (α = 0.05) Solución: Test de Wilcoxon de los signos-rangos: R+ = 47,5 R− = 7,5 R = 7,5 . Según

tabla 4.2 (unilateral, 5%) valor crítico: 10. 7,5