Estadistica I

Departamento de Ciencias Exactas Facultad de Ciencias Empresariales TEXTO DE ESTADÍSTICA I Autores: Ing. Mgr. Carlos Va

Views 835 Downloads 149 File size 7MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Departamento de Ciencias Exactas Facultad de Ciencias Empresariales

TEXTO DE ESTADÍSTICA I Autores: Ing. Mgr. Carlos Valdivieso T. Maestría en Productividad y Calidad - UPB

Lic. Roberto Valdivieso C. Postgrado en Estadística Matemática - CIENES

Ing. Mgr. Oscar Valdivieso T. Maestría en Administración de Empresas - UPB

Cochabamba – Bolivia Año 2005

PRÓLOGO

La importancia de la Estadística La Estadística, desde sus inicios ha permitido el desarrollo de diversas ciencias; es por esa cualidad que ha sido llamada la “sierva de las ciencias”. En el mundo globalizado, las empresas tienen la exigencia de ser competitivas o desaparecer. Los temas como la planificación estratégica y el desarrollo de ventajas competitivas son fundamentales para afrontar este reto. Por lo tanto el uso de la Estadística como herramienta cobra una dimensión mayor, puesto que tiene la potencialidad, mediante su ejercicio de lograr este objetivo. Un poco de historia Roberto Valdivieso Castellón, economista, a fines de la década del 70, realizó estudios de postgrado en el CIENES, un centro dedicado a la enseñanza de la Estadística en Chile, dependiente de las Naciones Unidas. Regresó a Bolivia y empezó a desarrollar una metodología para la enseñanza de la Estadística en la UMSS, práctica, sencilla y enfocada a las distintas aplicaciones empresariales e ingenieriles. Durante estos últimos 30 años, ha dirigido grupos de enseñanza en distintos ámbitos universitarios y de postgrado, obteniendo un valioso conocimiento y experiencia. Desde 1997 sus hijos Oscar y Carlos, han continuado esta línea, aportando nuevas ayudas didácticas y metodologías de enseñanza, que han enriquecido aún más el paquete educativo, desde la enseñanza en la UPB. En los últimos años, la familia ha introducido a la metodología de enseñanza el uso de casos reales, como fruto de su experiencia en asesoría y consultoría en distintos campos empresariales, así como también en la tutoría de prácticas de grupos estudiantiles. Es de esta actividad continua, que nace la idea de desarrollar un texto para la enseñanza de la Estadística. Oportunidad para la realización de un texto de fácil aplicación La mayoría de las empresas en nuestro ámbito no aplican herramientas estadísticas en el proceso de toma de decisiones. Por otro lado, existen pocos profesionales capacitados en el área de aplicación de la Estadística. Para agravar la situación, la formación universitaria presenta deficiencias: conocimientos muy básicos, teóricos y sin una metodología adecuada de enseñanza. i

No se tiene conocimiento de la existencia de un libro para la enseñanza, consultoría, investigación y capacitación en la Estadística adecuado para lograr una aplicación profunda a los problemas de la empresa. Todos estos antecedentes nos indican que hace falta un texto de Estadística con características distintas a los que existen en el mercado. Necesidad de un texto completo y sencillo de comprender Este volumen ha sido escrito por la necesidad de contar con un texto práctico, que ayude a los estudiantes a entender de manera clara los conceptos, procedimientos, cálculos, objetivos y finalidad de la Estadística General, en cualquier área o nivel de preparación en la que se encuentren. Su cualidad es presentar una estructura adecuada para abordar la Estadística, de manera que las distintas partes que la integran se complementen, conforme se avanza en su estudio capítulo por capítulo, de manera precisa y lógica, con el objeto que el estudiante forme un esquema mental que le ayude a aprehender con mayor facilidad. Además, su estructura y función permiten al profesor o docente encargado de enseñarla, hacer un seguimiento total de cada uno de los temas en particular, por las facilidades didácticas que presenta cada uno de sus capítulos, lo que le facilita construir un esquema que le permite fluidez en la transmisión de conocimientos hacia los alumnos. Los árboles de decisión incluidos en varios capítulos, han sido diseñados exclusivamente para que el alumno pueda decidir rápidamente cuestiones propias de cómo abordar el proceso de la investigación estadística, desde el planteamiento de hipótesis y objetivos, hasta la toma de decisiones finales. Por otro lado, el texto incluye distintos tipos de bloques de ejercicios: “de clases”, para que el docente pueda explicar con ejemplos sencillos los conceptos y aplicaciones; “propuestos”, para que el alumno pueda seguir practicando en su tiempo libre; “para examen”, para que los estudiantes puedan verificar el grado de conocimiento y comprensión superior de la materia; y “estudio de casos”, para que los formados puedan habituarse a utilizar la Estadística en situaciones reales que se dan en la empresa. En consecuencia, consideramos que el texto será un auxiliar de gran ayuda al encargado de impartir esta materia, por la capacidad sencilla y escalonada de abordar la Estadística y la práctica de resolver sus problemas. Los planteamientos teórico-prácticos son realizados paso por paso, presentando ejemplos ilustrativos y fáciles de comprender. Una breve descripción del contenido El capítulo 1 del texto presenta las definiciones más importantes para comprender la sistemática de esta rama de la investigación, exponiendo los primeros planteamientos lógicos sobre lo qué es la Estadística, su proceso y evolución, división y otros conceptos importantes relativos a la población, muestra y la naturaleza de los rasgos que caracterizan a los elementos de la población. ii

El capítulo 2 aborda el problema que se plantea la Estadística sobre las técnicas de la recopilación de datos, tomando en cuenta las características de la población o muestra, que entran como parte básica de una investigación, de manera científica y ordenada. La observación, entrevista, cuestionario o el diseño de experimentos son los instrumentos que proporcionarán la masa de datos sobre la población sujeta a ser tratada estadísticamente. El capítulo 3 expone una pregunta importante que se plantea la Estadística: ¿Cómo se pueden procesar los datos recopilados para su organización, presentación, análisis y decisión cuantitativa? El texto ofrece un proceso adecuado de clasificación de las características de la población y permite la elección del tipo de distribución de frecuencia a utilizarse en cada caso. El capítulo 4 introduce al estudiante a las nociones de la inferencia estadística, respondiendo a la pregunta: ¿Cómo se organiza y presenta la información recopilada mediante un experimento aleatorio? A través de la determinación del espacio muestral, eventos de interés, asignación de probabilidades y formulación de la variable aleatoria, se define la distribución de probabilidades. Los capítulos 5, 6, 7 y 8 responden a las siguientes incógnitas: ¿Cómo se puede resumir la información presentada en distribuciones de frecuencia o probabilidad? Mediante estadígrafos de Tendencia Central (que fijan la posición de la distribución). ¿Cómo se puede caracterizar una distribución? A través de estadígrafos de Tendencia Central, Dispersión, Asimetría y Curtosis (que definen la forma de la distribución). Finalmente ¿Cómo se pueden comparar dos o más distribuciones? Por medio de los estadígrafos de Comparación. Conformada la comprensión de la Estadística de una variable, en el capítulo 9 se desarrolla la Estadística de dos variables, por su importancia para generar la imaginación de formular hipótesis y desarrollar la habilidad de cruzar la información elaborada, como respuesta a los objetivos de cualquier tipo de investigación en el proceso de construir el conocimiento. Se incluyen reglas para el cálculo de probabilidades y distribuciones bidimensionales de probabilidades. El capítulo 10 se ocupa de enseñar de la manera más sencilla posible, relacionando valores de dos o más variables, observados de manera histórica o experimental, el cómo obtener una ecuación que permita al investigador realizar predicciones confiables como base de la planificación, a través del análisis de regresión y correlación. La necesidad de comprender el comportamiento económico y social de la empresa en el contexto de la organización capitalista, nos ha inducido a presentar en el capítulo 11 nociones sobre las Series Temporales y las hipótesis de cómo actúan las fuerzas que las componen. Se presentan procedimientos para analizar y separar sus fuerzas en forma objetiva, de tal modo que sus resultados proporcionen información que facilite la toma de decisiones en las empresas sujetas a fluctuaciones diversas. Finalmente en el capítulo 12, con el fin observar cambios de los valores de una variable a través del tiempo, tales como en los precios de los bienes, producción, costes, ventas, utilidades, etc., se exponen las diversas maneras de construir números índices, realizar operaciones tales como: cambio de base, empalme de series y determinación de valores reales mediante la deflactación. iii

Últimas palabras El texto que se ofrece nace como fruto de una larga experiencia en la labor docente universitaria, ejercitada en medio de diversos ambientes estudiantiles, unas veces en Economía, Administración, Mercadotecnia, Sociología y Comunicación, otras veces en Ingeniería Industrial, Civil, Producción, Química y Biología, y otras tantas en Derecho, Sicología y Pedagogía, en los cuales los autores han tenido la oportunidad de ofrecer el conocimiento sobre la Estadística existente en muchos libros, el elaborado por su propia experiencia, su personalidad didáctica y el valioso aporte estudiantil, con excelentes resultados para los formados. Esperamos que el texto de Estadística I que presentamos pueda ser de gran ayuda a los estudiosos que tengan interés de usar esta rama científica para el beneficio de su entorno profesional. Los autores: Carlos, Oscar y Roberto Valdivieso. Universidad Privada Boliviana (UPB) Cochabamba – Bolivia Año 2005

iv

ÍNDICE PRÓLOGO i ÍNDICE DEL CONTENIDO v CAPÍTULO 1. CONCEPTOS EN ESTADÍSTICA 1 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.

Introducción 1 Evolución del Contenido 1 Nociones de Estadística 2 Población: Finita e Infinita y Muestra 2 Características de la Población 2 Niveles de Medición 4 Series Estadísticas 4 Utilidad de la Estadística 5 Breve Reseña Histórica 6 La Confiabilidad de la Estadística 8 Control de Lectura 10

CAPÍTULO 2. TÉCNICAS DE RECOLECCIÓN DE DATOS 12 1. 2. 3. 4. 5.

Introducción 12 La Observación 12 La Entrevista 14 El Cuestionario 20 El Diseño de Experimentos 26 Control de Lectura 32 Caso de Estudio 35

CAPÍTULO 3. DISTRIBUCIÓN DE FRECUENCIAS 36 1. 2. 3. 4. 5. 6.

Introducción 36 Formas y Tipos de Distribución de Frecuencias 36 Distribución de Frecuencias de Atributos 37 Distribución de Frecuencias de Variables 49 Aplicaciones a los Negocios y el Control de Calidad 62 Árbol de Decisiones para Distribuciones de Frecuencias 67 Ejercicios de Clase 69 Ejercicios Propuestos 72 Ejercicios para Examen 76 Caso de Estudio 80 v

CAPÍTULO 4. DISTRIBUCIÓN DE PROBABILIDADES 84 1. 2. 3. 4. 5. 6.

Introducción 84 Clases de Experimentos: Determinístico y Aleatorio 84 Experimento Aleatorio 84 Probabilidad 90 Variable Aleatoria 93 Distribución de Probabilidades 94 Ejercicios de Clase 102 Ejercicios Propuestos 104 Ejercicios para Examen 106

CAPÍTULO 5. ESTADÍGRAFOS DE POSICIÓN 108 1. 2. 3. 4. 5. 6. 7. 8.

Introducción 108 Media Aritmética 108 Moda 118 Mediana 123 Media Armónica 131 Media Geométrica 133 Selección del Estadígrafo de Posición Adecuado 135 Teoría de la Decisión. Aplicaciones de la Esperanza Matemática 136 Ejercicios de Clase 150 Ejercicios Propuestos 153 Ejercicios para Examen 159 Caso de Estudio 161

CAPÍTULO 6. ESTADÍGRAFOS DE DISPERSIÓN 163 1. 2. 3. 4. 5. 6. 7. 8.

Introducción 163 Recorrido 164 Varianza 164 Desviación Estándar 165 Propiedades de la Varianza 167 Varianza Esperada 172 Otras Medidas de Dispersión 173 Teorema de Chevyshev 177 Ejercicios de Clase 178 Ejercicios Propuestos 180 Ejercicios para Examen 182

CAPÍTULO 7. ESTADÍGRAFOS DE COMPARACIÓN 184 1.

Introducción 184 vi

2. 3.

Coeficiente de Variación 184 Variable Tipificada o Estandarizada 185 Ejercicios de Clase 186 Ejercicios Propuestos 187 Ejercicios para Examen 189

CAPÍTULO 8. ESTADÍGRAFOS DE FORMA: ASIMETRÍA Y CURTOSIS 190 1. 2. 3. 4. 5.

Introducción 190 Asimetría 190 Curtosis 191 Relación Empírica entre Media, Mediana y Moda 193 Árbol de Decisión para Estadígrafos 194 Ejercicios de Clase 196 Ejercicios Propuestos 197 Ejercicios para Examen 198 Caso de Estudio 200

CAPÍTULO 9. ESTADÍSTICA BIDIMENSIONAL 201 1. 2. 3. 4. 5. 6. 7.

Introducción 201 Tipos de Distribuciones de Dos Variables, Atributos o Mixtas 201 Covarianza 188 Reglas de Composición para el Cálculo de Probabilidades 193 Cálculo de Probabilidades Utilizando Diagrama de Árbol 200 Generalización de las Reglas para el Cálculo de Probabilidades 204 Distribuciones Bidimensionales de Probabilidades 207 Ejercicios de Clase 212 Ejercicios Propuestos 215 Ejercicios para Examen 218

CAPÍTULO 10.

REGRESIÓN Y CORRELACIÓN 220 1. 2. 3. 4.

Introducción 220 Regresión y Correlación Lineal 224 Regresión y Correlación Lineal Múltiple 227 Regresión y Correlación No Lineal 229 Ejercicios de Clase 232 Ejercicios Propuestos 234 Ejercicios para Examen 237 Caso de Estudio 239

CAPÍTULO 11. SERIES TEMPORALES O CRONOLÓGICAS 241 vii

1. 2. 3.

Introducción 241 Componentes de las Series Temporales 242 Determinación de los Componentes de una Series Cronológica 243 Ejercicios de Clase 253 Ejercicios Propuestos 254 Ejercicios para Examen 255 Caso de Estudio 256

CAPÍTULO 12. NÚMEROS ÍNDICES 257 1. 2. 3. 4. 5. 6. 7.

Introducción 257 Números Índices Simples 257 Números Índices Complejos Sin Ponderar 258 Números Índices Complejos Ponderados 260 Cambio del Periodo Base. Renovación y Empalme 262 Números Índices de Valor: Deflación de Números Índices Temporales 264 Otros Números Índices y su Interpretación 265 Ejercicios de Clase 266 Ejercicios Propuestos 268 Ejercicios para Examen 270

BIBLIOGRAFÍA 271 ANEXOS 273 Anexo 1: Anexo 2: Anexo 3: Anexo 4:

Guía para el Trabajo Final 273 Tabla de Tamaños Muestrales 276 Ejemplo de Trabajo de Aplicación Final 277 Utilización de las Herramientas Estadísticas del EXCEL 292

ÍNDICE DE FIGURAS viii Figura 1.5.1. Clasificación de las características de la población 3 Figura 1.7.1. Clasificación de las series estadísticas 5 Figura 2.5.1. Partes de un sistema sujeto al diseño de experimentos 25 Figura 3.2.1. Formas y tipos de distribuciones de frecuencias 36 Figura 3.6.1. Árbol de decisiones para distribuciones de frecuencias 68 Figura 4.3.1. Arboligrama de sacar 2 billetes con reposición 86 Figura 4.3.2. Arboligrama de sacar 2 billetes sin reposición 87 Figura 4.3.3. Arboligrama para tipos de bolsas extraídas 88 Figura 4.4.1. Arboligrama del sexo de 3 nacimientos 91 Figura 6.7.1. Disposición de los cuartiles en una distribución 174 Figura 6.7.2. Disposición de los centiles en una distribución 175 Figura 6.7.3. Diagrama de caja y bigotes del plan de participación de utilidades 177 viii

Figura 8.2.1. Tipos de asimetría de una distribución 190 Figura 8.3.1. Grados de curtosis de una distribución 192 Figura 9.2.1. Tipos de distribuciones de dos variables, atributos o mixtas 201

ÍNDICE DE TABLAS ix Tabla 3.3.1. Distribución de frecuencias sobre candidatos a la presidencia 38 Tabla 3.3.2. Valor del segmento circular para candidatos a la presidencia 41 Tabla 3.3.3. Distribución de frecuencias sobre causas de accidentes industriales 43 Tabla 3.3.4. Distribución de frecuencias de la ocupación en una planta de producción 45 Tabla 3.3.5. Distribución de frecuencias sobre las calificaciones de Estadística 47 Tabla 3.4.1. Distribución de frecuencias del dinero en efectivo de 5 estudiantes 49 Tabla 3.4.2. Distribución de frecuencias del número de mascotas 50 Tabla 3.4.3. Distribución de frecuencias del número de hermanos 52 Tabla 3.4.4. Distribución de frecuencias del ingreso familiar mensual (cientos de Bs.) 55 Tabla 3.4.5. Densidades de frecuencia del ingreso familiar mensual 56 Tabla 3.4.6. Distribución de frecuencias de la producción de oro (kg/turno) 57 Tabla 3.4.7. Distribución de frecuencias del número de vacas por granja 58 Tabla 3.4.8. Distribución de frecuencias de ventas anuales (miles de $us.) 61 Tabla 3.5.1. Distribución de frecuencias de tipos de defectos de cajas de cartón 64 Tabla 3.5.2. Distribución de frecuencias ordenada de tipos de defectos de cajas de cartón 64 Tabla 3.5.3. Distribución de frecuencias de ingresos (centenas de Bs.) 65 Tabla 3.5.4. Cálculo del índice de Gini 67 Tabla 4.3.1. Espacio muestral de sacar dos billetes con reposición 86 Tabla 4.3.2. Espacio muestral de sacar dos billetes con reposición 87 Tabla 4.5.1. Valores de la variable aleatoria: número de hombres recién nacidos 94 Tabla 4.6.1. Distribución de probabilidades del sexo del recién nacido 94 Tabla 4.6.2. Distribución de cuantía de la función: P(x) =

2x + 1 (x = 0, 1, 2, 3) 96 16

Tabla 4.6.3. Distribución de cuantía de la binomial b(x, n = 5, p = 0.7) 97 Tabla 4.6.4. Distribución de densidad de la función: P(x) =

2x + 1 para 0 ≤ x ≤ 3 100 12

Tabla 5.2.1. Cálculo de la media aritmética en distribuciones tipo II 110 Tabla 5.2.2. Transformación de la tabla Tipo III a tipo II 110 Tabla 5.2.3. Transformación de la distribución de gastos diarios de tipo III a tipo II 111 Tabla 5.2.4. Cálculo de la media de la distribución de gastos diarios 111 Tabla 5.2.5. Distribución de gastos diarios con subvención de 2.5 Bs/día 113 Tabla 5.2.6. Distribución de gastos diarios con subvención del 20% diario 113 Tabla 5.2.7. Comprobación de la cuarta propiedad de la media de la distribución de gastos diarios 114 Tabla 5.2.8. Distribución de frecuencias de gastos diarios (Bs.) 115 er Tabla 5.2.9. Distribución de gastos diarios 1 grupo 115 Tabla 5.2.10. Distribución de gastos diarios 2o grupo 116 Tabla 5.2.11. Distribución de cuantía del número de señoritas de cabello largo 117 ix

Tabla 5.2.12. Esperanza matemática (número de señoritas de cabello largo) 117 Tabla 5.3.1. Distribución de gastos diarios de estudiantes de Ingeniería de Producción 123 Tabla 5.5.1. Distribución de frecuencias de la duración de jabones 132 Tabla 5.6.1. Distribución de frecuencias de tasas de interés 143 Tabla 5.8.1. Tabla de decisión con valores condicionales para la Empresa Maderera Thompson 138 Tabla 5.8.2. Tabla de decisión con probabilidades y EMVs para la Empresa Maderera Thompson 140 Tabla 5.8.3. Tabla de pérdida de oportunidad para la Empresa Thompson 142 Tabla 5.8.4. Resultados del análisis de sensibilidad de la maderera Thompson 143 Tabla 5.8.5. Decisión maximax de Thompson 144 Tabla 5.8.6. Decisión maximin de Thompson 144 Tabla 5.8.7. Decisión igualmente probable de Thompson 145 Tabla 5.8.8. Decisión según el criterio de realismo de Thompson 145 Tabla 5.8.9. Decisión según minimax de Thompson 149 Tabla 5.8.10. Distribución de probabilidad de ventas diarias de donuts 148 Tabla 6.4.1. Distribución de frecuencias de sueldos de obreros (Centenas de Bs.) 166 Tabla 6.4.2. Cálculo de la desviación estándar de la distribución de gastos diarios 167 Tabla 6.5.1. Cálculo de la intervarianza 171 Tabla 6.5.2. Cálculo de la intravarianza 171 Tabla 6.6.1. Cálculo de la varianza de la función f ( x ) =

1 (2x + 1) 16

x = 0, 1, 2, 3 172

Tabla 6.7.1. Distribución de frecuencias de inversión en un plan de participación de utilidades 176 Tabla 8.3.1. Distribución de frecuencias de la estatura de un grupo de estudiantes 193 Tabla 9.2.1. Distribución bidimensional (xi , yi) tipo I 202 Tabla 9.2.2. Distribución bidimensional de utilidades vs. unidades vendidas 202 Tabla 9.2.3. Distribución bidimensional tipo II 203 Tabla 9.2.4. Bidimensional horas de TV al día vs. edad de los niños (nij) 204 Tabla 9.2.5 Bidimensional horas de TV al día vs. edad de los niños (hij) 204

ÍNDICE DE GRÁFICOS x Gráfico 3.3.1. Diagrama de barras sobre candidatos a la presidencia 39 Gráfico 3.3.2. Diagrama rectangular sobre candidatos a la presidencia 40 Gráfico 3.3.3. Diagrama circular de candidatos a la presidencia 42 Gráfico 3.3.4. Diagrama de barras sobre causas de accidentes industriales 44 Gráfico 3.3.5. Ojiva de la ocupación en una planta de producción 46 Gráfico 3.3.6. Diagrama de barras sobre las calificaciones de Estadística 48 Gráfico 3.3.7. Ojiva sobre las calificaciones de Estadística 48 Gráfico 3.4.1. Densidad del dinero en efectivo de 5 estudiantes 50 Gráfico 3.4.2. Diagrama acumulado del número de mascotas 51 x

Gráfico 3.4.3. Diagrama de barras del número de hermanos 53 Gráfico 3.4.4. Histograma de frecuencias del ingreso familiar (cientos de Bs.) 56 Gráfico 3.4.5. Histograma de frecuencias del número de vacas por granja 59 Gráfico 3.4.6. Ojiva del número de vacas por granja 60 Gráfico 3.4.7. Ojiva de ventas anuales (miles de $us.) 60 Gráfico 3.4.8. Histograma de frecuencias de ventas anuales (miles de $us.) 62 Gráfico 3.5.1. Diagrama de Pareto de los tipos de defectos de cajas de cartón 65 Gráfico 3.5.2. Curva de Lorenz para la distribución de ingresos familiares 66 Gráfico 4.6.1. Diagrama de barras para la función: P(x) =

1 (2x + 1) para x = 0, 1, 2, 3. 96 16

Gráfico 4.6.2. Diagrama de barras de la binomial b(x, n = 5, p = 0.7) 98 Gráfico 4.6.3. Histograma de probabilidades de: P(x) =

1 (2x + 1) para 0 ≤ x ≤ 3 100 12

Gráfico 5.8.1. Análisis de sensibilidad Empresa Maderera Thompson 143

xi

CAPÍTULO 1 CONCEPTOS EN ESTADÍSTICA 1. INTRODUCCIÓN La Estadística es usada en la mayor parte de las ciencias sociales (sicología, ciencias de la educación, economía, administración, mercadotecnia, finanzas, sociología, etc.) y la ingeniería (en todas sus ramas, incluyendo el control de calidad, simulación, dirección de operaciones, etc.). Su propósito es responder a la necesidad de un manejo práctico de sus métodos en la producción científica y facilitar la comprensión y lectura de investigaciones realizadas. La Estadística según Cortada y Carro es "una manera de pensar y tratar la problemática de la realidad de forma elaborada, consistente y exacta, dando criterios de decisión”.

2. EVOLUCIÓN DEL CONTENIDO La utilización de la estadística se ha extendido por el equilibrio metodológico entre la investigación teórica y la estadística, pero su contenido ha variado a través del tiempo. Es posible distinguir tres fases en su evolución histórica: a) Fase Enumerativa Busca técnicas, normas y procedimientos para efectuar un inventario de la población y riqueza de un territorio. Está ligada a la conciencia de soberanía y a los primeros esfuerzos administrativos de la autoridad política. b) Fase Inductiva Establece normas que permitan la organización y manejo de actividades del estado respecto al uso de sus recursos existentes, para el establecimiento de la industria, comercio, ejército, etc. Así se puede confrontar la imagen real con la ideal, del funcionamiento del estado. c) Fase Científica A partir del estudio de juegos de azar y del cálculo de probabilidades, la Estadística desarrolla normas para el manejo de grandes masas de datos, en el análisis de la actividad social y para estudiar fenómenos cuyas causas son complejas. El proceso estadístico, sigue los siguientes pasos para estudiar los elementos de una población: • • • •

Observación del fenómeno en sus elementos. Estudio de características y medición de fenómenos observados en la población considerada. Confrontación de la imagen real del fenómeno observado, con la imagen ideal teórica. Cálculo de la seguridad de la medida y de su confrontación.

3. NOCIONES DE ESTADÍSTICA a) Concepto 1

La estadística descriptiva se puede definir como la ciencia o conjunto de conocimientos que se ocupa de la recolección, organización, presentación, análisis e interpretación de los datos numéricos u observaciones. b) División La Estadística se divide en descriptiva e inductiva. La descriptiva analiza un determinado colectivo sin sacar conclusiones de tipo mas general; es el conjunto de procedimientos para organizar y resumir conjuntos de datos numéricos u observaciones. La inductiva o inferencial es la parte en que basándose en resultados obtenidos de una muestra a partir de una población, infiere, estima o induce leyes de comportamiento de la población. c) Definiciones humorísticas y críticas Son aquellas que provienen de personas que no tienen ningún conocimiento del método ni de sus aplicaciones y éxitos. No tienen ninguna resonancia sino para los que participan de esta ignorancia. La más célebre es la atribuida a Benjamín Disraelí o Bismark: “Hay tres clases de mentiras: la mentira ordinaria, la mentira mal intencionada y la estadística”. A. Sauvy realiza una crítica bastante concluyente y expresa que el lenguaje, la fotografía y otras formas de expresión humana pueden ser tan o más mentirosas que la Estadística. Macauley decía: “las cifras dicen siempre lo que un hombre inteligente quiere que digan”. Thiers pensaba que “la estadística es el arte de precisar aquello que se ignora”.

4. POBLACIÓN: FINITA E INFINITA Y MUESTRA La Estadística estudia colectivos o poblaciones y las relaciones entre ellos. La población, colectivo o universo es el total de elementos, cosas o personas que forman parte de la investigación. La población puede considerarse por sus elementos como: a) Población finita. Conjunto numerable de elementos. b) Población infinita. Conjunto no numerable o forma línea continua de puntos. Esta distinción es teórica ya que siempre se trata con poblaciones de números finitos de elementos. La muestra es un subconjunto representativo de la población. Se usa para realizar trabajos empíricos, en los que los universos no son manejables, para reducir costos y ahorrar tiempo, sin disminuir la calidad de información.

5. CARACTERÍSTICAS DE LA POBLACIÓN Son rasgos distintivos de los elementos de una población. Pueden ser de carácter cualitativo o cuantitativo, de ahí la distinción en: variable o atributo. a) Atributos. Son rasgos cualitativos de los elementos de una población. Pueden ser: • Ordinales. Referente al sentido de jerarquía u organización de elementos. Ejemplo: grados militares, cargos en una empresa, etc. • Nominales. Rasgos sin capacidad de ordenación. Ejemplo: color de ojos, gusto, etc. 2

A las diferentes clasificaciones que pueden adoptar los atributos se les llaman modalidades o categorías. Los atributos se designan con las primeras letras mayúsculas del abecedario (A, B, C, etc.); a sus modalidades con las minúsculas (a, b, c, etc.). b) Variables. Son rasgos, características o propiedades cuantificables. Ejemplo: peso, edad, altura, etc. Las variables pueden ser: • Discretas. Si entre dos valores consecutivos no puede introducirse otro. Ejemplo: el número de mesas, sillas, casas, etc. • Continuas. Si entre dos valores consecutivos pueden introducirse infinitos valores. Ejemplo: altura, peso, etc. Las variables se designan con las últimas letras mayúsculas del abecedario (X, Y, Z, etc.) y sus valores con las minúsculas (x, y, z, etc.). Un resumen de la clasificación de las características de la población se muestra en la figura 1.5.1: Figura 1.5.1. Clasificación de las características de la población Discreta Variables (Valores) Continua

Características de la población

Nominal Atributos (Modalidades) Ordinal

Fuente: Elaboración propia Las variables también se pueden clasificar en: • Variables unidimensionales. Si sólo recogen información sobre una característica. Ejemplo: edad de los alumnos de una clase. • Variables bidimensionales. Si recogen información sobre dos características de la población. Ejemplo: edad y altura de los alumnos de una clase. • Variables pluridimensionales. Si recogen información sobre tres o más características. Ejemplo: edad, altura y peso de los alumnos de una clase.

3

6. NIVELES DE MEDICIÓN Las distintas características de la población a investigar, deben ser medidas adecuadamente, atendiendo a los siguientes niveles de medición. a) Nivel Nominal Es el nivel más primitivo, bajo y limitado de medición. Hace referencia a los datos que solo pueden clasificarse en categorías, sin intervención de mediciones o escalas, solo mediante conteos. Para este nivel no existe orden particular para los grupos. Las categorías o modalidades se consideran mutuamente excluyentes y exhaustivas. Es el nivel de medición para atributos nominales. b) Nivel ordinal Tiene las características del nivel anterior, pero difiere en que las categorías pueden ordenarse en una relación “mayor que”. Es el nivel de medición para atributos ordinales. c) Nivel de intervalo Incluye todas las características de la escala ordinal, pero además la distancia entre valores es de tamaño conocido y constante. Es el nivel de medición para variables discretas o continuas. Ejemplo: Medición de temperatura en la escala centígrada. En esta escala el punto cero es arbitrario: 0 °C; no significa que haya ausencia de temperatura, sino solo un estado de frío. Si se registraron las siguientes temperaturas: 30 °C y 60 °C, puede decirse que en la segunda oportunidad hubo una temperatura 30 °C más cálida, pero no se puede afirmar que hizo dos veces más calor. d) Nivel de razón (o cociente) Es el nivel de medición más alto y sirve para variables discretas y continuas. Las principales diferencias entre el anterior nivel y éste son: 1. Los datos de nivel de razón tienen un punto cero significativo. 2. La razón o cociente de dos números es significativa. Ejemplo: El dinero. Tener cero pesos tiene un significado: no tengo nada de dinero. Si una persona gana 1000 $us y otra 4000 $us, la segunda gana 4 veces más que la primera.

7. SERIES ESTADÍSTICAS Son una colección de datos numéricos resultantes de una serie de observaciones, clasificados y ordenados con un determinado criterio, que no siempre considera el tiempo. Consideramos las siguientes series estadísticas.

4

Series temporales o cronológicas Si los resultados se efectúan en sucesivos instantes o períodos de tiempo. Denotan un flujo. Ejemplo: cantidad de gasolina que consume un vehículo por unidad de tiempo. Series atemporales Las observaciones de una variable o atributo se efectúan en un instante o periodo determinado. Denotan stock o inventario, también llamadas de “cross-section”, es decir, de corte transversal, indicando con ello la instantaneidad o falta de temporalidad. Ejemplo: cantidad de gasolina consumida hasta una fecha determinada; agrupamiento de 10000 personas por estado civil. Dentro de este gran grupo están los siguientes subtipos: a) Series de frecuencias Si se estudia la repetición de un fenómeno o de una característica de los componentes de un colectivo. El agrupamiento de los resultados de las observaciones da lugar a las llamadas series estadísticas o distribuciones de frecuencias. b) Series espaciales Están formadas por los valores que toma una variable en función del espacio geográfico. Ejemplo: número de habitantes o área de los departamentos de Bolivia. Un resumen de esta clasificación se muestra en la figura 1.7.1. Figura 1.7.1. Clasificación de las series estadísticas Temporales o Cronológicas

Series Estadísticas

Cualitativas De Frecuencias Atemporales

Cuantitativas Espaciales

Fuente: Casa Aruta, E. 200 Problemas de Estadística Descriptiva, 1965

8. UTILIDAD DE LA ESTADÍSTICA Es muy común el empleo de métodos estadísticos en todas las áreas funcionales de los negocios: • •

En contabilidad, para seleccionar muestras con fines de auditoria y para comprender los determinantes del costo. En finanzas, para elegir entre carteras alternativas de inversión y detectar tendencias en las 5

• •

• • • •

medidas financieras a través del tiempo. En la administración, para mejorar la calidad de los productos manufacturados o de los servicios de alguna organización. En mercadotecnia, para estimar la proporción de clientes en la preferencia de productos y la razón de sus preferencias. Para obtener conclusiones y determinar la estrategia publicitaria que resultará más útil para aumentar las ventas de un producto. En las compañías de seguros, para determinar las primas de seguro de vida o de incendio mediante tablas estadísticas de siniestros. En economía, para estudiar los planes de los consumidores y efectuar pronósticos de la tendencia de las actividades económicas. En una empresa de electricidad, para proporcionar un buen servicio a la comunidad, mediante la inspección de las variaciones estacionales de las necesidades de carga. En sociología, para auscultar la opinión pública mediante encuestas, para determinar su preferencia por un candidato presidencial o su posición frente a determinados problemas políticos, económicos o sociales.

En la industria y otros campos, algunos ejemplos de la utilidad de la Estadística son: • • • • • • • •

El astrónomo confecciona tablas numéricas para determinar la posición actual y futura de los astros. La semejanza entre los resultados observados y esperados en una experiencia genética, se determina estadísticamente. El ingeniero Industrial, que no puede analizar cada ampolleta o fósforo fabricados, sin incurrir en la destrucción del producto, controla su calidad mediante muestras tomadas al azar. Los investigadores, determinan la significación de ensayos agrícolas mediante procedimientos estadísticos. El biólogo aplica las leyes de Mendel, que son esencialmente estadísticas. El geólogo usa métodos estadísticos para determinar las edades de las rocas, o predecir las reservas de petróleo y otros minerales. El ingeniero civil determina la longevidad promedio de una construcción. El ingeniero de sistemas determina la variabilidad del tiempo de procesamiento de unidades computacionales.

A pesar de tratarse de campos y fines tan variados, gran parte de los métodos utilizados son básicamente similares.

9. BREVE RESEÑA HISTÓRICA Origen de la palabra Los diversos vocablos que se citan como antecedentes del término Estadística son los siguientes: • • •

Status (latín), que significa situación, posición, estado. Statera (griego), que quiere decir balanza, ya que la estadística mide o pesa hechos. Staat (alemán), que se refiere a estado, como expresión de unidad política superior.

El término Estadística es ampliamente escuchado y usado a diario por diversos actores de la sociedad. Hay gran diferencia entre su sentido corriente (generalmente anteceder una citación de carácter numérico) y lo que la Estadística significa como ciencia. 6

Inicios Hay evidencias del uso de la Estadística en organizaciones sociales antiguas. Por ejemplo, en los monumentos egipcios hay testimonios de que las migraciones poblacionales eran seguidas por medio de censos. La Biblia cita que Moisés hizo un censo de los israelitas en el desierto, cuando se dirigían a la tierra prometida, después de ser liberados por Dios de la esclavitud egipcia (Números 1:1-3; Números 26:1-4). También David realizó un censo (2 Samuel 24:1-2; 1 Crónicas 21:1-2), al igual que Esdras y Nehemías. En China, Confucio narra como un rey llamado Yao, unos 3000 años a.C. hizo levantar un recuento agrícola, industrial y comercial del país. Especial mención tienen los estudios Renta Vitalicia en el imperio romano, los cuales suponen cálculos de vida media a distintas edades; y los documentos sobre los Itinerarios, que describen las distancias entre localidades y el desarrollo de vías de comunicación. En los días del nacimiento de Jesucristo, Augusto César (27 a.C. – 14 d.C.) promulgó un edicto de empadronamiento, y debido al cual José y María subieron de Galilea a Judea, a la aldea de Belén. En la edad media se encuentran estadísticas más sistematizadas. El clero se dedicó a la recopilación, ordenación y estudio de datos. Guillermo el Conquistador encargó la confección de un registro de la propiedad inglesa para el cobro de impuestos, denominado irónicamente “Doomesday Book” (Libro del juicio final), porque de él no se escapaba nadie. Primera mención A mediados del siglo XVII en Alemania, se formalizó una disciplina para describir hechos notables de estado. Ajustada a una estructura, Hermann Conrig (1600-1681) la introdujo en un curso de ciencia política. Más tarde Godofredo Achenwall (1719-1772) la consideró como disciplina independiente y la introdujo como una asignatura universitaria con el nombre de ESTADÍSTICA. Paralela y contemporánea con la escuela alemana, en Inglaterra se desarrolló la escuela de los aritméticos políticos y en Francia la escuela probabilística. Un miembro de los aritméticos políticos fue Graunt (1620-1674) quien realizó investigaciones sobre poblaciones, surgiendo la estadística investigadora, la cual se oponía a la corriente alemana, llamada estadística descriptiva. La escuela probabilística, nace con Blas Pascal (1623-1662) y Pedro de Fermat (1601-1665) para resolver problemas en los juegos de azar propuestos por Antonio Gambaud, conocido como el Caballero de Meré. Estadística moderna Señalemos a Adolph Quetelet (1796-1874), quien fue el primero en aplicar métodos modernos al estudio de un conjunto de datos, y es considerado el padre de la Estadística Moderna. Antonio Cournout (1801-1877) integró las leyes de la teoría de la probabilidad al análisis estadístico. La aparición de la distribución normal es un hecho muy importante en la Estadística moderna. La ecuación de la curva de esta distribución fue publicada por primera vez en 1733 por De Moivre, pero debido a su incapacidad para aplicar sus resultados a observaciones experimentales su trabajo permaneció inédito hasta cuando Karl Pearson lo encontró en una biblioteca en 1924. 7

Sin embargo, Laplace (1749-1827) y Gauss (1777-1855) obtuvieron cada uno por su lado el mismo resultado que había obtenido De Moivre. Florence Nightingale (1820-1910) y Francis Galton (1822-1911) aportaron con el desarrollo del método de regresión y correlación. Karl Pearson (1857-1936) fundó el periódico Biométrica, que influyó profundamente en el desarrollo de la Estadística. Su obra cumbre fue la creación de la distribución Chi-Cuadrada. Debido a que Pearson se ocupó de muestras grandes, la teoría no se ajustaba a muestras pequeñas. William Gosset (1876-1937), quien escribía con el seudónimo de “Student” dedujo la distribución t, solucionando el problema para el estudio de muestras pequeñas. Ronald Fisher (1890-1962) formuló aplicaciones de la estadística para la agricultura, biología y genética. A él se debe el hallazgo de la distribución F. J. Neyman (1894) y E.S. Pearson (1895), presentaron una teoría sobre la prueba de hipótesis estadística, entre 1936 y 1938. La teoría estimuló la investigación y fueron varios los resultados de uso práctico. Finalmente mencionemos a Abraham Wald (1902-1950) quien presentó conquistas estadísticas asociadas a la genética, estadísticos escandinavos como Gram, Thiele, Charlier y Cramer; y norteamericanos, entre los que sobresalen Hotelling, Wilks, Mood, etc.

10. LA CONFIABILIDAD DE LA ESTADÍSTICA No siempre se hace buen uso de la metodología estadística en cuanto al análisis de los datos, unas veces por desconocimiento, otras por falta de ética y otras por descuido del investigador. •











Un error muy común es hacer conclusiones o inferencias del comportamiento de la población basadas en datos muestrales no representativos. Ejemplo: En las elecciones de 1936 en Estados Unidos, una empresa realizó un sondeo por teléfono y determinó que el candidato Alfred Landon aplastaría a su contendor Franklin D. Roosevelt. Sin embargo, Roosevelt fue el ganador con mucho margen. La muestra no fue representativa, ya que en esos años de depresión, sólo las personas de núcleos económicos superiores podían tener teléfono. Otro error es realizar conclusiones cuando no se tienen los suficientes datos. Ejemplo: Un vendedor de seguros afirma que el 25% de sus llamadas resultarán en ventas efectivas, ya que en sus primeras 4 llamadas realizó una venta. Su información sería más confiable si de las primeras 100 llamadas, 25 dieron fruto. Otro, proviene de las diferencias en las definiciones. Ejemplo: En algunos países, los que trabajan determinado número de horas a la semana se consideran cesantes; en otros, se incluyen como ocupados. Otros errores son la medición inadecuada o la mala clasificación. Ejemplo: Un aumento de la criminalidad puede deberse a que se persigue con mayor empeño a los delincuentes, o a que se haya modificado la calificación de los delitos. Las comparaciones inadecuadas son también responsables de muchos resultados incorrectos. Ejemplo: El mayor porcentaje de enfermos fallecidos en hospitales que en sus casas, obedece a razones obvias. Finalmente diremos que todo procedimiento estadístico puede emplearse de modo engañoso o con interpretaciones deficientes de los resultados, sin embargo no es difícil evitar tales engaños o falsas interpretaciones. Ejemplo: Un profesor encontró en un grupo de 8

escolares, alta correlación entre la longitud del pie y la aptitud para escribir. Esto se debe a que los escolares mayores pueden escribir mejor y también tienen los pies más grandes.

9

CONTROL DE LECTURA 1. ¿Cuáles son los pasos que sigue el proceso estadístico para estudiar los elementos de una población? 2. ¿Qué es la Estadística? (clasifíquela en las dos divisiones importantes). 3. ¿Qué diferencia hay entre una población finita e infinita? 4. Clasifique las siguientes características de la población como variables (discretas o continuas) o atributos (nominales u ordinales). Luego clasifíquelas de acuerdo a las series estadísticas (temporales, atemporales o geográficas). También diga el nivel de medición que se usaría en cada caso (nominal, ordinal, de intervalo o de razón). a) Alumnos que aprobaron todas sus materias el anterior semestre en la UPB. b) Número de kilómetros que una persona normal camina diariamente. c) Grado de dificultad que los alumnos de la UPB tienen en Matemáticas. d) Preferencia en la vestimenta. e) Calidad de grabación de un CD. f) Marcas de refrescos. g) Tamaño de una silla. h) Número de personas matriculadas al final del período de inscripción. i) Flujo vehicular en la calle Heroínas de Cochabamba. j) Razas del mundo. k) Grado de educación. l) Número de hijos promedio de las familias cochabambinas. m) Consumo de agua diario. n) Número de piezas producidas por una máquina industrial. o) Peso promedio de una bolsa de cemento COBOCE. p) Temperatura del horno de esmaltado de FABOCE. q) Barriles por día de fuel oil producidos por una planta refinadora de petróleo. r) Porcentaje de ausentismo en una fábrica. 5. En los siguientes incisos, haga un comentario sobre la veracidad de las oraciones. Sean incorrectas o correctas, explique el por qué de su aseveración. a) b) c) d)

La estadística en su fase enumerativa estudia los juegos de azar y las probabilidades. Cuando hablamos del nivel de medición de intervalo, el cero es significativo. Las series temporales denotan inventario. En la vida real, toda población es finita.

6. Indique otra variable, además de la temperatura, que pueda medirse con el nivel de intervalo. 7. Averigüe por qué William Gosset escribía usando el seudónimo de “Student”. 8. Un periódico local informa que la tercera parte de las profesoras de una escuela están casadas con sus estudiantes. ¿Hay algo errado en semejante afirmación? Explique. 9. Una ciudad de EUA se ufanaba de que era la número uno en calidad de vida de sus habitantes, ya que entre sus índices estadísticos se podía constatar que su tasa de 10

mortalidad era extremadamente baja. ¿Cuál puede haber sido la causa para esta falsa interpretación? 10. Las autoridades de un distrito dijeron que la profundidad media de un lago cercano era de un metro, y por lo tanto, no había peligro de que nadie pudiera morir ahogado. ¿Es adecuada esta interpretación? 11. Para estudiar los patrones de gasto de las familias de un grupo de ingresos determinados, se realiza una encuesta durante las primeras tres semanas de diciembre. ¿Cree que se logrará resultados confiables?

11

CAPÍTULO 2 TÉCNICAS DE RECOLECCIÓN DE DATOS 1. INTRODUCCIÓN Hay varias razones para obtener datos. Son necesarios para: • • • • • •

La entrada de una encuesta. La entrada de un estudio. Medir el desempeño de un servicio o un proceso de producción en marcha. Para evaluar la conformidad con los estándares. Para formular estrategias alternativas en un proceso de toma de decisiones. Para satisfacer la curiosidad.

Existen varias fuentes para la recopilación de datos. Los recopiladores de datos son fuentes primarias, los compiladores de datos se llaman fuentes secundarias. 1. Fuentes gubernamentales, industriales o individuales (fuente secundaria) 2. Diseño de experimentos (fuente primaria) 3. Estudio observacional (fuente primaria) 4. Entrevista (fuente primaria) 5. Cuestionario (fuente primaria) Sin embargo, en la investigación en ciencias sociales, existen tres métodos principales primarios de recolección de datos a partir de una muestra o población: la observación, la entrevista y el cuestionario. Obtener datos por medio de experimentos no es muy usual en los negocios, pero sí en la ingeniería e industria. Cada uno de ellos se adapta a las exigencias de las diferentes disciplinas, presentando ventajas y desventajas.

2. LA OBSERVACIÓN 2.1. Introducción Se ha dicho que la observación es el procedimiento más antiguo y moderno a la vez. Sirve a un objeto ya formulado de investigación, es planificada y controlada sistemáticamente y relacionada con proporciones más generales. Cualquier técnica de observación debe contar con los siguientes aspectos: precisión, confiabilidad y validez de datos. Su control debe ser sistemático. Una observación no estructurada sirve para comenzar los estudios y se requiere de una participación natural o espontánea, cuando se forma parte del grupo de observación.

2.2. La Observación como técnica científica Consiste en ver y oír hechos y fenómenos que se desean estudiar. 12

2.3. Modalidades a) Según medios utilizados: • No estructurada. También llamada observación simple o libre. Consiste en reconocer y anotar hechos sin recurrir a la ayuda de medios técnicos. • Estructurada o sistemática. Apela a instrumentos para la recopilación de datos o hechos establecidos de antemano, para saber qué aspectos se van a estudiar (cuadros, anotaciones, dispositivos mecánicos). b) Por la participación del observador: • Participante. La participación es real, es decir el observador integra la comunidad o grupo. Puede ser: natural o artificial. • No Participante. El observador toma contacto con la comunidad o grupo, pero permaneciendo alejado. c) Por el número de observadores: • Individual. Es la que realiza una sola persona. • Grupal. Se realiza de varias formas: • Todos observamos lo mismo para prevenir distorsiones. • Cada uno observa un aspecto diferente. d) Por el lugar donde se lleva a cabo: • En la vida real. Las situaciones se captan a medida que se van presentando. • En laboratorio. Cuando los hechos se crean artificialmente.

2.4. Instrumentos de observación Son los elementos que facilitan o amplían la observación. a) El Diario Es el relato escrito cotidiano de las experiencias vividas y de los hechos observados. b) El cuaderno de notas Generalmente en forma de libreta, que el observador lleva con el objeto de anotar sobre el terreno todas las informaciones, datos, inferencias, etc., que sean de interés para su investigación. c) Cuadros de trabajo y esquemas Son una forma de representación gráfica semejantes a planillas, con casilleros formados en filas y columnas. Los mapas constituyen un auxiliar muy valioso para la investigación. 13

d) Instrumentos mecánicos Proveen una información objetiva de la realidad y además exacta (la cámara fotográfica, filmadora y grabadora).

2.5. Ventajas y limitaciones • Ventajas. Los fenómenos se analizan con un carácter de totalidad. Los hechos se estudian sin intermediarios. • Limitaciones. Es difícil distinguir entre hechos observados y la interpretación personal. Cada individuo tiene una forma distinta de observar.

2.6. Aplicaciones en los negocios Los estudios observacionales se presentan en formas muy variadas en las empresas, todos diseñados para recopilar información en un medio grupal y ayudar en el proceso de toma de decisiones. Un ejemplo: •

Grupo focal. Sirve para una investigación de mercado. Se aplica para obtener respuestas no estructuradas a través de preguntas abiertas: un moderador conduce la discusión y todos los participantes responden a las preguntas.

Otros formatos más estructurados, que involucran dinámicas de grupo para obtener información y llegar a un consenso incluyen varios métodos de sicología industrial y del comportamiento organizacional, como son: • • •

Lluvia de ideas (brainstorming) Técnica Delphi Método de grupo nominal

Estas herramientas se han popularizado en los últimos años debido al impacto de la filosofía de administración de la calidad total (TQM) en las empresas. TQM hace hincapié en la importancia del trabajo en equipo y el empoderamiento (empowerment) de los empleados, en un intento por mejorar cada producto o servicio.

3. LA ENTREVISTA 3.1. Introducción La entrevista, es uno de los procedimientos más utilizados en la investigación social y como técnica profesional en otras áreas. La usan el psiquiatra, psicoterapeuta, psicólogo, trabajador social, etc. Se la utiliza también para informar, educar, orientar y motivar. En cualquiera de sus modalidades, la entrevista consiste en que una persona (encuestador), solicita información a otra (informante o sujeto investigado), para obtener datos sobre un problema determinado. Presupone la existencia de dos personas y la posibilidad de 14

interacción verbal. Como técnica de recopilación, va desde la interrogación estandarizada, hasta la conversación libre; en ambos casos se recurre a una "guía" que puede ser un formulario o bosquejo de preguntas para orientar la conversación.

3.2. Modalidades Según el propósito profesional, la entrevista puede asumir las siguientes modalidades: a) Estructurada. Toma la forma de un interrogatorio, las preguntas se formulan siempre en el mismo orden y con los mismos términos. Se la realiza en base a un formulario previamente preparado y estrictamente normalizado. b) No estructurada. Deja una mayor libertad a la iniciativa de la persona interrogada y al encuestador, tratándose de preguntas abiertas que son respondidas dentro de una conversación, teniendo como característica principal la ausencia de una estandarización formal. Puede adoptar tres modalidades: • Focalizada. El encuestador tiene una lista de cuestiones a investigar derivadas del problema general que quiere estudiar. En torno a ese problema se establece una lista de tópicos en los que se centra la entrevista. • Clínica. Es una modalidad semejante a la anterior; pero difiere de ésta en el enfoque. No se trata de analizar la experiencia que han tenido varias personas, sino de estudiar las motivaciones y sentimientos de las mismas. La guía de entrevista tiene preguntas relacionadas con los sentimientos y actitudes que se van a estudiar. • No dirigida. El informante tiene completa libertad para expresar sus sentimientos y opiniones. El encuestador tiene que animar a hablar de un determinado tema y orientarlo, teniendo significación sus sentimientos y opiniones.

3.3. Preparación La entrevista requiere de ciertas medidas para ser usada como método de investigación: a)

Presentación del encuestador. Seleccionadas las personas que han de ser entrevistadas, conviene presentar al encuestador enviando una nota que anuncie su visita y explique los motivos de la entrevista.

b) Oportunidad de la entrevista. Es importante conocer la distribución del tiempo y las ocupaciones de las personas que han de ser entrevistadas. Lo más conveniente es obtener cita de antemano, lo cual asegura que el trabajador será atendido.

3.4. Principios directivos Para el mejor desarrollo de la entrevista, se dan algunos principios directivos: a) El contacto inicial 15

Por lo general, la nota o aviso anunciando la visita del encuestador es la única medida previa al primer contacto con el entrevistado. También podría serlo la entrevista previa con los líderes de la comunidad, cuando se la realiza. Después que el encuestador se presenta por primera vez, todo depende de las cualidades personales. Es necesario que sea bien recibido en presencia de la persona que ha de ser entrevistada. Será el don de gentes su principal auxiliar, sin ser este el formalismo o la amabilidad hipócrita. Para iniciar la conversación es aconsejable la charla amistosa sobre cualquier tema. Luego el entrevistador deberá explicar la finalidad y objeto de la encuesta, el nombre del organismo y personas que lo patrocinan, la importancia para la comunidad y la necesidad e importancia de la colaboración personal del entrevistado. En este primer contacto se destacará el carácter estrictamente confidencial y el anonimato de la información, si ese es el caso. En este primer momento se debe crear un ambiente agradable para una comunicación positiva entre el entrevistador y el entrevistado. b) Cómo formular las preguntas Si se trata de una entrevista no estructurada, las preguntas serán planteadas dentro del contexto general de una conversación. En una entrevista estructurada, la formulación de las preguntas tendrá un carácter más metódico, pero en ambos casos, deben ser formuladas de modo que “cada una tenga exactamente el mismo valor psicológico para los interlocutores”. Pueden hacerse las siguientes recomendaciones para el modo de formular las preguntas: • Usar el cuestionario de manera informal. El encuestador no debe dar la impresión que la entrevista es un interrogatorio o examen. Para esto, en sus palabras y gestos no debe existir todo aquello que implique crítica, sorpresa, aprobación o desaprobación, tanto en las preguntas formuladas como en las contestaciones del entrevistado. • Cada pregunta debe ser leída por el encuestador antes de formulada, en tono de voz natural y de conversación, evitando el tono de lectura o de interrogatorio. Por otra parte, la mayor atención estará centrada sobre el interrogado y no sobre el cuestionario. • Las preguntas deben ser formuladas exactamente como están redactadas en el cuestionario a todas las personas para evitar la influencia de las opiniones personales del encuestador y la variación de significaciones debido al cambio de palabras o giros (esta recomendación no vale para la entrevista no estructurada). • Las preguntas deben ser formuladas en el mismo orden del formulario para evitar el “contagio” o “contaminación” que puede producirse entre ellas. • Si el entrevistado responde a una respuesta que puede aplicarse más adelante a otras preguntas, el encuestador debe volver a formular la pregunta en su oportunidad, 16

añadiendo la frase: “Si bien ya tratamos el tema...”. En cambio, si la pregunta ha sido previamente contestada en su totalidad, la repetición es innecesaria. • Es conveniente utilizar frases de transición al pasar de un tema a otro, como: “bueno, veamos ahora...”; “muy bien...”; “¿le parece que sigamos con...?”. Estas expresiones de “descanso” ayudan también a ubicar psicológicamente al interrogado. • Debe dejarse constancia escrita de los cambios introducidos eventualmente en el cuestionario. Si bien no deben introducirse cambios en el cuestionario, podría presentarse algún motivo especial que los hiciera indispensables. Podría ser la alteración del orden de las preguntas, reemplazo de algunas palabras, formulación de la pregunta en otros términos, etc. En cualquiera de los casos, el cambio producido debe ser anotado en el cuestionario correspondiente y/o en el informe escrito, posteriormente. • Han de hacerse breves comentarios que ayuden a mantener la comunicación, con palabras que manifiesten al entrevistado que interesa y se da importancia a lo que él dice. Por ejemplo: “eso es...”; “claro...”; “si...”, etc. y hacer algún comentario que sea una manifestación de interés, pero que no exprese ni aprobación ni desaprobación de la opinión del entrevistado. c) Cómo completar y obtener respuestas Cuando se insiste sobre una pregunta para completar o aclarar la respuesta, una formulación inadecuada puede sugerir la respuesta. Debe cuidarse este aspecto, tanto en el tono como en el énfasis de la pregunta. Una pregunta del tipo: “No cree Ud. que sería mejor...”, no puede tener cabida en una entrevista. Hay otras formas de preguntar para que exista neutralidad, como: “¿Cuál es la causa según su opinión?”; “¿Qué quiere decir Ud. con esto?”; “No he comprendido lo que Ud. quiere decir...”. Se da otro problema cuando el entrevistado dice: “no sé”, pero lo que en realidad pasa es que no tiene ganas de pensar. En este caso el entrevistador debe motivar para ayudar a responder, pero teniendo cuidado de no orientar o sugerir la respuesta. Podrían usarse expresiones de este estilo: “Parece ser que esta es una cuestión sobre la cual de ordinario la gente no piensa, pero desearía conocer su opinión acerca del asunto”. d) Cómo registrar las respuestas La anotación posterior a la entrevista presenta dos inconvenientes: los límites de la memoria humana, que no puede retener con fidelidad toda la información y la distorsión que se produce por causa de los elementos subjetivos que se proyectan en la reproducción de la entrevista. La anotación directa mientras se desarrolla la entrevista es más recomendable, para recoger con fidelidad y veracidad la información que proporciona el entrevistado; mejor si se cuenta con un grabador, pidiendo el consentimiento al interrogado. No es imprescindible recoger fielmente todos los datos. Por el temor de perder una simple información quizá de poco valor, se confunde, olvida, omite o tergiversan puntos más valiosos 17

y esenciales. Para una entrevista estructurada, son útiles las siguientes recomendaciones: • Disponer la cédula sobre una mesa o superficie lisa que permita hacer las anotaciones sin dificultad. • Situar en una misma línea visual a la cédula y al entrevistado, con el objeto de poder mirar a una y a otro sin hacer grandes movimientos, centrando la atención en el informante. • Comenzar a anotar apenas el entrevistado empieza a contestar o usar un punto de exclamación (!) cuando el tono de la respuesta así lo pide. • Anotar algunos gestos y actitudes del entrevistado que posean alguna significación útil (encogimiento de hombros, entrecejo fruncido, etc.). • Utilizar las mismas palabras del entrevistado y evitar resumir o parafrasear las respuestas. • Incluir todo lo que atañe al objetivo de la pregunta y anotar en síntesis las digresiones, aunque éstas no se refieran directamente al asunto. e) Conclusión de la entrevista El interrogatorio debe terminar en un clima de cordialidad. Cuando la índole de la investigación requiere posteriores entrevistas, debe dejarse “la puerta abierta” para los próximos encuentros. Por otro lado conviene terminar la entrevista cuando el interrogado mantiene deseos de seguir hablando sobre el asunto, con lo cual queda establecido un eslabón para la próxima ocasión: “Bueno se ha hecho un poco tarde...”; “¿Qué le parece si seguimos hablando de esto la semana que viene...?”.

3.5. Ventajas de la entrevista Hemos mencionado la importancia que ha tenido la entrevista como instrumento de la investigación social y medio para el desarrollo de las ciencias sociales. Se suelen señalar dos razones principales de este éxito: • Porque la entrevista es una técnica eficaz para obtener datos relevantes y significativos desde el punto de vista de las ciencias sociales. • Porque los datos obtenidos son susceptibles de cuantificación y de tratamiento estadístico. Estas son ventajas en relación a otros procedimientos. Respecto de la técnica de cuestionario, presenta también una serie de ventajas: • Posibilidad de obtener mayor porcentaje de respuestas, en cuanto que es más fácil no responder a una carta, que rechazar a un encuestador. • Posibilidad de obtener una información más precisa, puesto que en ciertas circunstancias, el encuestador puede comprobar de inmediato “discordancias” en la información suministrada o controlar la validez de las respuestas. Puede además ayudar a expresar adecuadamente un pensamiento, motivar una respuesta, etc. • Posibilidad de captar el “sabor” de las respuestas, reacciones, ademanes, gestos, movimientos, tonos de voz, énfasis, etc. En este aspecto la superioridad de la entrevista es evidente, puesto que permite añadir muchas observaciones que constituyen “la circunstancia” de lo registrado. 18

• No se requiere que la persona entrevistada sepa leer o escribir. • Ofrece mayor flexibilidad, puesto que el encuestador puede aclarar y repetir las preguntas y adaptarse más fácilmente a las personas y circunstancias concretas.

3.6. Dificultades inherentes de la entrevista Estas pueden provenir de la naturaleza misma de esta técnica, la persona interrogada y el encuestador. a) Limitaciones inherentes a la entrevista Pueden señalarse dos dificultades principales: • Limitaciones de la expresión verbal. La técnica de la entrevista se apoya en las posibilidades de expresión verbal y que la persona interrogada esté capacitada para informar sobre sí misma. Pero esto es válido sólo para cierto tipo de cultura y para personas de una determinada posición social. En efecto, en ciertas culturas las palabras tienen una función más expresiva, pero menos instrumental para reflejar los pensamientos y la acción. De manera semejante ocurre en grupos pertenecientes a la “periferia” (viejos, personas muy rudas como los obreros de una fábrica, vagabundos, etc.). • La ausencia de secreto en las respuestas. Es propia de la entrevista e influye en ciertas circunstancias sobre el entrevistado y sus respuestas. Aunque el entrevistador pueda asegurar al entrevistado que no será identificado en modo alguno, éste puede poner en duda su buena fe, puesto que en muchas situaciones, el entrevistador conoce bien el nombre del entrevistado, su dirección u otra información que podría servir para identificarlo. Además, siempre cabe la posibilidad de que pueda incluir esta información en el informe final. b) Limitaciones provenientes de la persona entrevistada Pueden resumirse en lo siguiente: • • • •

¿El sujeto entrevistado está dispuesto a proporcionar la información solicitada? Estando dispuesto, ¿ha comprendido bien todas las preguntas? Habiendo comprendido, ¿responde con sinceridad? Respondiendo con sinceridad, ¿es capaz de expresarse adecuadamente?

c) Limitaciones provenientes del encuestador El encuestador puede limitar de dos maneras, principalmente: por su aspecto personal y por sus opiniones personales. • El aspecto personal del encuestador. Su presentación física, indumentaria, comportamiento, gestos y voz, también pueden ejercer influencia sobre las respuestas dadas por el entrevistado. Son conocidas por todos las dificultades de comunicación a que puede dar lugar este factor. • Las opiniones personales del encuestador, ejercen de alguna manera influencia sobre el 19

entrevistado. Sobre esto hablamos anteriormente y todo lo dicho tiene valor con respecto a la entrevista. En la práctica, resulta imposible una imparcialidad por parte del encuestador. Con todo, resulta obvio que el encuestador debe hacer todo lo que esté de su parte para que sus ideas, opiniones o preferencias, no se transmitan o proyecten en la entrevista. Finalmente cabe reconocer que, aparte de las limitaciones imputables a las personas que intervienen en la entrevista, ésta exige mayor cantidad de tiempo y por lo tanto, representa mayores costos. Este inconveniente, por ser inherente a la propia técnica, resulta insalvable. A ello cabe agregar otros costos como los gastos de movilidad, viáticos, etc.

4. EL CUESTIONARIO 4.1. Introducción En la entrevista, las respuestas son formuladas verbalmente y se necesita del entrevistador; en cambio en el cuestionario, las respuestas son formuladas por escrito y no se requiere la presencia del entrevistador.

4.2. Modalidades La modalidad más común del cuestionario consiste en enviarlo por correo, de ahí que se ha propuesto llamar a esta técnica “encuesta postal”. Otra modalidad también es la de los censos que consisten en ir casa por casa preguntando a consumidores específicos.

4.3. Preparación, redacción y presentación del cuestionario a) Objetivos y cualidades del cuestionario La finalidad del formulario es “traducir los objetivos de la investigación en preguntas particulares”. Suelen señalarse tres cualidades de todo formulario: • Adaptación al objeto de investigación. • Adaptación a los medios. • Precisión de las informaciones en un grado de exactitud suficiente y satisfactoria para el objetivo propuesto. b) Tipos de formularios Por lo general, suelen distinguirse dos tipos de formularios: el cuestionario y la cédula. El cuestionario esta destinado a ser llenado por la persona interrogada sin la intervención del encuestador; la cédula en cambio, es llenada por el propio encuestador a medida que obtiene las respuestas de las personas interrogadas. c) Forma de preguntas • Preguntas abiertas. Son aquellas que el interrogado contesta con su propio vocabulario, manifestando cuanto desea sobre el tema y sin hallar ningún límite alternativo. 20

• Preguntas cerradas o dicotómicas. Llamadas también limitadas o alternativas fijas. Solo pueden ser contestadas por un “si” o un “no”. • Preguntas de elección múltiple. Se trata en cierto modo de preguntas cerradas, que dentro de los extremos de una escala, permiten una serie de matices fijados anteriormente. En ellas, las respuestas posibles ya están dadas y estructuradas junto con las preguntas. Dentro de estas existen dos tipos: • Preguntas con respuesta en abanico. Permiten contestar, señalando una o varias respuestas presentadas junto con una pregunta. • Preguntas de estimación. Introducen dentro del abanico de respuestas, diversos grados de intensidad para un mismo ítem. d) Tipos de preguntas • Preguntas de hecho. Versan sobre cuestiones concretas y tangibles, fáciles de precisar. Ejemplo: ¿Cuántos autos tiene?; ¿Cuál es su profesión?. • Preguntas de acción. Se refieren a actitudes o decisiones tomadas por el individuo. Interrogan sobre una acción realizada y sobre algunos detalles de la misma. Ejemplo: ¿Sembró maíz este año?; ¿Participó en programas de vivienda?, ¿Con qué objeto?. • Preguntas de intención. Tratan de averiguar lo que el individuo haría si eventualmente se diera una determinada circunstancia. Ejemplo: ¿Por qué partido votaría usted si mañana hubiese elecciones?; ¿Participaría usted de una cooperativa agropecuaria?. • Preguntas de opinión. Aquí no se interroga al individuo sobre lo que haría en cierta circunstancia concreta, sino sobre lo que piensa u opina acerca de algo. Ejemplo: ¿Cuál es para usted la mejor marca de computadoras?; ¿Qué Universidad le parece mejor?. • Preguntas de índice o de test. Son aquellas que se utilizan con el fin de obtener información sobre cuestiones que suscitan recelos en la persona interrogada o que formuladas directamente entran dentro de la categoría de preguntas socialmente inaceptables. Mediante estas preguntas se trata de estudiar un fenómeno no de manera directa, sino a través de un “síntoma o índice”. Ejemplo: en las encuestas sobre el nivel de vida, en lugar de preguntar directamente: “¿Cuánto gana usted?”, se suele colocar preguntas “índices” como: ¿Posee usted automóvil..., casa propia..., televisor?. • Preguntas rompe hielos. Son aquellos que dan habilidades y atributos para comunicarnos antes de comenzar el cuestionario. e) Elección de preguntas Análisis de las personas, factores, sin vueltas, preguntas concretas sobre el tema y sobre necesidades. Las preguntas deben ser pre-codificadas con procedimientos de frecuencias marginales y reales. Deben ser datos comparables, respuestas sin dificultad. No se toca estados de ánimo. Las respuestas deben ser anónimas. 21

f) Modo de formular preguntas Deben ser adecuadas al caso, claras, concretas y concisas. No se deben preguntar cosas que uno no pueda responder. No debe dar lugar a interpretaciones de doble sentido. No se debe sugerir respuestas. g) Estructura y número de preguntas No deben ser demasiadas (máximo 30), tampoco deben ser difíciles. h) Orden y prevención de deformaciones El orden debe ser lógico para prevenir inconvenientes. Se debe evitar la relación conservadora (seguir a los líderes). i) Presentación El cuestionario debe ser presentado cumpliendo los siguientes requisitos: • Nota de presentación. En ella se explicará la finalidad de la encuesta y los beneficios que por la misma se desean alcanzar. • Pedido de cooperación. En la misma nota de presentación puede incluirse un párrafo pidiendo la colaboración individual. • Entidad organizadora. En la nota de presentación o bien en el mismo cuestionario, debe figurar el nombre de la entidad u organismo que realiza la encuesta. • Instrucciones para contestar. Todo cuestionario debe estar acompañado de instrucciones, definiciones y notas explicativas, de manera que el que debe llenarlo sepa a ciencia cierta lo que se le pregunta y de que manera debe responder. • Aspectos materiales y estéticos. La hoja o folleto debe tener un tamaño conveniente. Una buena presentación se beneficia con un papel de cierta calidad y suficientemente resistente para soportar el inevitable manoseo al que será sometido. Los papeles blancos o de color claro facilitan la lectura.

4.4. Ventajas del cuestionario • Con iguales fondos se puede abarcar una mayor área geográfica y alcanzar un mayor número de personas. • Menores gastos de personal, tanto en el adiestramiento como en el trabajo de campo. • Menor tiempo para llegar a un mismo número de personas. • Mayor libertad en las respuestas. • Menor riesgo de distorsiones.

4.5. Limitaciones del cuestionario • Riesgo de un elevado porcentaje de cuestionarios sin responder. 22

• Exclusión casi sistemática de quienes no saben leer o escribir. • Imposibilidad de ayudar al informante, cuando no ha comprendido las preguntas. • Recepción tardía de muchos cuestionarios.

4.6. Ejemplo de una encuesta para un estudio de mercado Se incluye aquí una encuesta para que el lector pueda observar la manera de cómo configurarla de acuerdo a los objetivos de su investigación. ENCUESTA Esta investigación tiene como objetivo recopilar información sobre las preferencias de compra de ternos, para la realización de una tesis de maestría en la Universidad Privada Boliviana. Le agradecemos de antemano su colaboración por llenarla siguiendo las instrucciones. Datos personales Marque con una cruz ⌧ la respuesta verdadera o responda a las preguntas de desarrollo 1. Rubro de la empresa en la que trabaja: q Servicios

q Comercial

q Industrial

Especificar

si

es

pública

o

privada:

............... 2. Cargo que ocupa en la empresa: q Dueño o Socio

q Gerente

q Jefe

q Supervisor

q Empleado

3. Edad: q 20-25

q 26-30

q 31-35

q 36-40

q 41-45

q 46-50

q 51-55

q Más

q 2001-2500

q Más

4. Sexo: q Masculino

q Femenino

5. Ingresos mensuales aproximados ($us): q 100 - 500

q 501 - 1000

q 1001 - 1500

6. Profesión: ....................................................

q 1501 - 2000

Zona en la que vive: ....................................

Preferencias 7. ¿Alguna vez ha comprado un terno? q Si

q No

8. Si respondió NO, ¿por qué? q No alcanza el presupuesto

q No lo necesito 23

q Me regalan

q Me presto

q Otro: ...................................................................

¡Gracias por su colaboración!

9. ¿Con qué frecuencia compra un terno? q Cada 6 meses

q Uno por año

q Uno cada dos años

q Ocasionalmente

10. ¿Para qué ocasión compra un terno? q Para vestirse a diario

q Para matrimonios

q Para bautizos

q Para cumpleaños

q Para reuniones en el trabajo

q Otros: ............................

11. ¿Alguna vez regaló un terno? q Si

q No

12. Si lo hizo ¿para que tipo de acontecimientos? q Cumpleaños

q Día del Padre

q Matrimonio

q Bautizo

q Otro: ............................................

13. ¿Qué otros artículos compraría además de un terno cuando va a la tienda? q Camisas

q Calcetines

q Ropa interior

q Corbatas

q Reloj

q Billetera

q Cinturón

q Pretinas

q Zapatos

q Ropa casual

q Otros: ....................................

14. ¿Compra usted ternos o trajes formales para sus hijos? q Si

q No

15. Si respondió No, ¿por qué? q No necesitan

q No tengo presupuesto

q No existe en las tiendas

q Otro: .................................................

16. ¿Qué servicios le gustaría obtener, si fuera un cliente exclusivo de alguna de las empresas? (Enumere por orden de importancia los que considere) q Trajes a medida y según diseño

q Descuentos por planilla

q Descuentos por cantidad

q Atención y asesoramiento científico

q Información de novedades en productos y marcas

q Crédito

q Otro: .............................................. 17. ¿La vitrinas, la disposición y el decorado de la tienda, influyeron en sus compras? q Si

q No

¿Por qué? ....................................................................................

18. ¿Influyó en sus compras el servicio de atención y asesoramiento científico personalizado? q Si

q No

¿Por qué? ....................................................................................

19. ¿De dónde compró sus ternos, cuántos ternos posee actualmente, de qué tipo son, son a medida, cuál es la característica más importante para usted y a qué precios? Llene por favor la siguiente matriz. 24

25

Sastrería: ............................ ............................ ............................ Otro: ............................ ............................ ............................

Importado

Julio’s

El Corte Inglés

Almanza

Empresa (Solo responder en las empresas que compró sus ternos)

Imagen/ reputación de la empresa (Numerar por orden de importancia)

N° de ternos

26



1. ........................................... .................. 2. ........................................... .................. 3. ........................................... ..................













































Característica (Colocar solo cuatro letras para cada empresa por orden de importancia: A=Calidad de la tela, B=Excelente acabado, C= Comodidad, D=Elegancia, E=Colores de tela, F=Precio, G=Entrega rápida, H=Servicio adecuado, I=Liviano, J=Otra-Especificar)



A medida? (Responder SI o NO)

.................. .................. .................. .................. .................. .................. .................. .................. .................. .................. .................. .................. .................. .................. ..................

1. ......................................... 2. ......................................... 3. ......................................... 4. ......................................... 5. ......................................... 6. ......................................... 1. ........................................... 2. ........................................... 3. ........................................... 1. ........................................... 2. ........................................... 3. ........................................... 1. ........................................... 2. ........................................... 3. ...........................................

Tipo de terno (Especificar si es A=Smoking, B=Clásico con dos botones, C=Clásico con tres botones, D=Cruzado, E=Otro-Especificar)

............. ............. .............

............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. .............

Precio aprox. ($us)

5. EL DISEÑO DE EXPERIMENTOS 5.1. Introducción En un experimento se ejerce un control estricto sobre los tratamientos. Ejemplo: en un estudio para verificar la efectividad de un detergente para ropa, el investigador determinará qué marcas son más efectivas para limpiar ropa manchada al lavar las prendas bajo las mismas condiciones, en lugar de realizar una encuesta a los consumidores sobre cuál marca es la mejor según su opinión.

5.2. Conceptos Un experimento es una prueba o ensayo. Un experimento diseñado está constituido por una serie de pruebas en las que se inducen cambios deliberados en las variables de entrada de un sistema, para poder visualizar e identificar las causas de los cambios que se han producido en la respuesta de salida. El diseño de experimentos es un conjunto de técnicas activas que manipulan el proceso para inducirlo a proporcionar la información que se requiere para mejorarlo. Son técnicas estadísticas y de ingeniería o empresariales que permiten lograr la máxima eficacia de los procesos de producción o de servicios al menor costo. Una unidad experimental es la muestra de artículos que es necesario producir en una condición de operación del proceso para obtener, a partir de ellos, una medición o dato representativo de lo que allí ocurre. A continuación presentamos en la figura 2.5.1, las distintas partes de las que se compone un sistema que puede ser sujeto al diseño de experimentos. Figura 2.5.1. Partes de un sistema sujeto al diseño de experimentos Factores controlables

x1 Entradas

x2

...

xp Salida

Proceso

z1

z2

...

y zq

Factores incontrolables

Fuente: Montgomery, Douglas C. Diseño y Análisis de Experimentos, 1991

27

Un sistema puede ser un proceso, combinación de máquinas, métodos, personas, productos, etc. En todo proceso intervienen distintos tipos de variables o factores. Una entrada puede ser: materias primas, productos en proceso, materiales, insumos, etc. La salida (o variable de respuesta) es la característica o propiedad del producto, cuyo valor interesa mejorar, que en general determina algún aspecto de la calidad del producto, como por ejemplo: dureza, color, costo, textura, etc (también se aplica a servicios). Algunas variables son controlables: x1, x2, ..., xp, mientras que otras son incontrolables: z1, z2, ..., zq (aunque pueden controlarse para los objetivos de una prueba). Los factores controlables son variables de entrada que se pueden fijar en un punto o nivel de operación a voluntad, lo que hace posible que se pueda experimentar con ellos. Algunos factores que generalmente se controlan son: temperatura, tiempo de residencia, cantidad de cierto reactivo, velocidad, presión, etc. Los factores no controlables o de ruido son variables que no se pueden controlar durante la operación normal del proceso, como por ejemplo las ambientales: luz, humedad, temperatura, partículas, ruido, etc.; el ánimo de los operadores, la calidad del material de los proveedores, y los diversos usos que el cliente le pueda dar al producto. Los factores estudiados son las variables que se investigan en el experimento, para observar cómo afectan o influyen en la variable de respuesta, pudiendo ser controlables o no. Los diferentes valores que se asignan a cada factor estudiado se llaman niveles. Una combinación de niveles de todos los factores se llama tratamiento. Siempre que se realiza un experimento, parte de la variabilidad del proceso no se podrá explicar por los factores estudiados, y que se debe a causas comunes o aleatorias, llamado error aleatorio. Parte de este error, además de ser el resultado del pequeño efecto de los factores no estudiados, también lo es del error experimental, que se compone de los errores que comete el experimentador en la planeación y ejecución del experimento. Se debe tratar de que el error aleatorio sea el mínimo posible, ya que si es grande podría invalidar las conclusiones del experimento.

5.3. Objetivos Los objetivos de un experimento son: 1. Determinar las variables que influyen más en la respuesta “y”. 2. Determinar los valores óptimos de las variables “x”, para lograr que “y” tenga los valores deseados. 3. Determinar los mejores valores de las variables “x”, para lograr que la variabilidad de “y” sea la menor. 4. Determinar los valores óptimos de las variables “x”, de forma de minimizar los efectos de las variables incontrolables “z”. Cuando se logra esto, se dice que se tiene un proceso consistente o robusto.

28

5.4. Proceso Los métodos de diseño experimental tienen su aplicación en muchas disciplinas, ya que la experimentación es parte del método científico. El proceso que sigue un experimento es cíclico, y es el siguiente: • • • • • • • •

Se quiere aprender algo acerca de cómo funciona un sistema. Se planean una serie de actividades. Se realizan conjeturas acerca del sistema. Se realizan experimentos. Se recogen datos o resultados a partir del sistema. Se usan las conclusiones del experimento para realizar de nuevo conjeturas. Se realizan nuevos experimentos. Y así sucesivamente.

5.5. Uso de los métodos estadísticos Para que un experimento se realice eficientemente, es necesario utilizar métodos científicos en su planeación y ejecución. Hay dos aspectos que hay que considerar en todo experimento: el diseño del experimento y el análisis estadístico de los datos. El diseño estadístico de experimentos es el proceso de planear un experimento para obtener datos apropiados, que pueden ser analizados mediante métodos estadísticos, con objeto de producir conclusiones válidas y objetivas. Para introducir un uso eficiente de la estadística en la experimentación, el investigador debe tener en mente los siguientes aspectos: 1. Uso del conocimiento no estadístico del problema Para diseñar un experimento es necesario el conocimiento de un especialista o profesional con experiencia en el campo de aplicación, ya que él elegirá adecuadamente los factores más importantes y sus niveles, tamaño de réplicas a usar, materiales necesarios, interpretación de resultados, etc. La Estadística no puede sustituir este conocimiento. 2. Simplificar al máximo el diseño y análisis Si se planea el experimento adecuadamente, rara vez se tendrán experimentos complicados, y por lo tanto se usarán técnicas estadísticas simples y directas. 3. Reconocer la diferencia entre la práctica y la estadística El probar que un método o una combinación de factores produce un mejor rendimiento o minimiza la variabilidad de un sistema, mediante experimentación sujeta al análisis estadístico, no es suficiente a la hora de llevar esas condiciones a la práctica. El investigador luego deberá verificar por ejemplo si su implementación es más económica que la anterior. 29

4. Reconocer el carácter iterativo de los experimentos Se ha visto que la optimización de un sistema no se puede lograr mediante un solo experimento, sino que es un proceso cíclico, ya que son muchos los elementos a determinar: factores importantes, sus intervalos, el número de niveles, las unidades de medición y sus resultados. En general no se invierte más del 25 a 30% de los recursos de la investigación en el diseño inicial, para luego realizar muchos otros experimentos, hasta llegar a la optimización final.

5.6. Principios básicos Hay tres principios en el diseño de experimentos: 1. Obtención de réplicas Réplica es una repetición del experimento básico. Esto permite al investigador: •



Obtener una estimación del error experimental y utilizar el análisis estadístico. Esta estimación permite determinar si las diferencias observadas en los datos son estadísticamente significativas. Calcular de manera más precisa el efecto de un factor, usando la media aritmética de la muestra como estimador del efecto.

2. Aleatorización Es la piedra angular para fundamentar el uso de métodos estadísticos en el diseño de experimentos. La aleatorización es la determinación al azar que se realiza, tanto en la asignación del material experimental como en el orden en que se realizarán las pruebas. Los métodos estadísticos requieren que los datos muestrales hayan sido obtenidos aleatoriamente. Por otra parte, al aleatorizar el experimento se cancelan los efectos de variables extrañas que pudieran presentarse, ya que se reparte de manera homogénea en todos los tratamientos. 3. Análisis por bloques Es una técnica usada para aumentar la precisión del experimento. El bloqueo es nulificar o tomar en cuenta en forma adecuada todos los factores que puedan afectar a la variable de respuesta. Un bloque es una parte del material experimental que es más homogéneo que todo el material. Se realizan las comparaciones entre las comparaciones de interés del experimento dentro de cada bloque, minimizando así el efecto de variables extrañas.

30

5.7. Directrices o etapas El procedimiento para diseñar y analizar un experimento con un enfoque estadístico es el siguiente: 1. Comprensión y planteamiento del problema En primer lugar no es fácil darse cuenta de si un problema necesita de la experimentación, ni diseñar un planteamiento claro del mismo. En la práctica se realiza una consulta a todo el personal que forma parte del problema: cuerpo técnico, responsables de la calidad, manufactura, gerencia, marketing, personal operativo, etc. Un diseño claro y concreto ahorrará mucho tiempo y dinero. 2. Elección de factores y niveles El investigador deberá fijar los siguientes elementos: • • • • •

Factores importantes. Intervalos en los que variarán dichos factores. Niveles específicos para cada factor. Control de los factores en los valores deseados. Medición de los valores de cada factor.

Para esto, se necesita conocer a fondo el proceso: experiencia, práctica y comprensión teórica. 3. Selección de la variable de respuesta Se selecciona la respuesta o variable dependiente del problema de modo que ésta provea información útil del proceso a investigar. La media aritmética o la desviación de la característica medida con frecuencia son la variable respuesta. Medir adecuadamente el error estándar es vital en un experimento. 4. Elección del diseño experimental En la elección es importante ajustarse a los objetivos del experimento. Luego es importarte definir el tamaño muestral (número de repeticiones), determinar si hay implicado un bloqueo o existen restricciones de aleatorización. 5. Realización del experimento No se debe subestimar la planeación y control logística, ya que los errores en el experimento suelen anular su validez. 6. Análisis de datos Un experimento bien diseñado deberá ser susceptible de ser tratado estadísticamente. La apreciación no constituye un elemento de análisis contundente, así que se recurre al análisis estadístico para obtener resultados objetivos. 31

Hay que tener en mente que el análisis estadístico no puede aseverar nada, pero proporciona los elementos para estimar parámetros con un grado de error o probabilidad. 7. Conclusiones y recomendaciones Los datos extraídos del experimento y evaluados mediante métodos estadísticos deben ser analizados e interpretados correctamente, para luego realizar decisiones acertadas. Para ello son útiles los gráficos.

5.8. Ventajas La aplicación del diseño de experimentos en el inicio del desarrollo de productos o procesos, tiene las siguientes ventajas: • • • •

Mejora en el rendimiento Variabilidad más pequeña y mejor estandarización. Menor tiempo de desarrollo. Menores costos a largo plazo.

32

CONTROL DE LECTURA 1. Indique qué modalidad se usaría para la observación de los siguientes hechos: a) 15 alumnos de la UPB observaron la manera de resolver problemas de un gerente experimentado usando para ello una cámara filmadora y para este fin fueron a la empresa dónde trabajaba, que se encontraba en Chile y solo pudieron tener acceso por un día. b) Los alumnos de la UPB, quieren observar la vida cotidiana de un alumno x, como representativo de su clase social. c) Un alumno de la UPB observó el nivel de estrés de sus compañeros al dar un examen, para lo cual usó una cámara filmadora. d) 5 promotores van al estadio Félix Capriles para ver a Wilsterman jugar, con el objetivo de fichar algunos jugadores para clubes extranjeros. e) Se filmó un documental del primer león nacido en cautiverio en Cochabamba. El acontecimiento fue televisado por varios canales de televisión locales. f) Como vendedor de productos farmacéuticos, cuando estuve en un seminario sobre ventas, pude observar en un experimento que realizó el disertante, que generalmente los vendedores en el rubro no toman en cuenta el factor psicológico del comprador, sino solamente el aspecto técnico del producto. 2. Indique cuáles son las ventajas y desventajas de la observación. 3. Un periodista prestigioso de Bolivia, realizó una entrevista al Presidente de la República. Su primera pregunta fue la siguiente: ¿No es verdad Sr. Presidente que usted fue cómplice de asesinato del dirigente “XX”? Haga un comentario sobre la forma en que este periodista está llevando la entrevista. Indique qué normas de la entrevista violó. 4. Diga qué método de recopilación de datos usaría para las siguientes circunstancias: a) Usted quiere conocer algunos datos sobre los productos que cierta compañía del Japón está fabricando actualmente, como ser: tamaño de empaque, mejora del diseño, características físicas, etc., además de una apreciación sobre el sector industrial en la actualidad en este tipo de rubro. b) Usted quiere contratar a un nuevo gerente de operaciones en su empresa. c) Usted quiere conocer el gusto y preferencia de los alumnos de la UPB por las marcas de cigarrillos que consumen.

33

d) Usted quiere incorporar a su empresa nuevos empleados para el departamento de ventas que tengan un gran conocimiento y experiencia en el sector industrial de petroquímicos. e) Usted quiere saber si el empleado de su empresa Juan Pérez, cumple o no su horario asignado de trabajo de 8 horas diarias, y si realiza todas las tareas de su cargo. f) Se quiere saber la opinión de los principales bancos del país acerca del modelo económico que lanzará el próximo gobierno, y cuáles serán las consecuencias en su rubro. g) El gobierno quiere saber el número de industrias en el país que se dedican desde este año a la exportación de banano helado, bañado en chocolate. h) Se quiere determinar si dos métodos de enseñanza de economía general producen los mismos o distintos resultados en dos grupos de estudiantes. i) Se quiere saber si los vinos Kolberg pueden ser reconocidos por los consumidores comparándolos con otros similares y si éstos pueden afirmar cuál es el mejor de entre los que han probado. 5. ¿Qué tipos de preguntas pueden formularse al realizar un cuestionario? 6. ¿Qué diferencias existen entre el cuestionario y la entrevista? 7. En los siguientes incisos, haga un comentario sobre la veracidad de las oraciones. Sean incorrectas o correctas, explique el por qué de su aseveración. a) Siempre que se realiza una observación colectiva, todos observan lo mismo, para evitar distorsiones de apreciación. b) La principal ventaja de la entrevista es la ausencia de secreto. 8. Clasifique las siguientes preguntas por su forma y tipo: a) ¿Qué edad tienes? o Menos de 15 años

o Más de 15 años

b) Si te ofrecen una beca para estudiar en el Tecnológico de Monterrey, ¿aceptarías? o SI o NO c) ¿Qué temas estudiaste para este control de lectura? • Nociones de estadística: o MUCHO • Características de la población: o MUCHO • Técnicas para la recolección de datos: o MUCHO d) ¿Te gustaría tomar una Coca Cola con menos gas? o Si o No 34

o POCO o POCO o POCO

o NADA o NADA o NADA

e) ¿Cuál es según tu criterio la mejor vagoneta para Bolivia? o Mitsubishi o Nissan o Toyota o Suzuki o Otro 9. Suponga que se obtuvo la siguiente información sobre un estudiante cuando fue admitido en el Hospital Boliviano Belga: a) b) c) d) e) f) g) h) i) j)

Sexo: masculino. Dormitorio: Cuidados intensivos. Año que cursa: Segundo semestre. Temperatura: 39.5 °C. Pulso: 70 latidos por minuto. Presión sanguínea: 130/80 mg/mm(g). Tipo de sangre: B positivo. Alergias a medicamentos: ninguna. Diagnóstico preliminar: herida de bala en el pecho. Duración estimada de estancia: un mes.

¿Qué tipo de método de recopilación de datos se usó en cada pregunta para obtener la información?

35

CASO DE ESTUDIO ENCUESTA PARA EX ALUMNOS DE LA UPB Suponga que ha sido contratado por la UPB para realizar una encuesta entre los ex alumnos de las generaciones de 1998 a 2004 para determinar sus logros anteriores, actividades actuales y aspiraciones futuras. Para esto, se necesita obtener información en las siguientes áreas: sexo del alumno, área de especialización, promedio general de licenciatura, metas educativas adicionales (maestrías, doctorados, diplomados, etc.), estado actual de empleo, salario anual actual, número de puestos de tiempo completo que ha ocupado desde su graduación, salario anual esperado en 5 años, afiliación a un partido político, estado civil, etc. Usted, como director de investigación institucional debe escribir una propuesta que indique cómo planea realizar la encuesta. Incluya en ella: 1. Objetivos (qué desea conocer y por qué) generales y específicos. 2. Una explicación de cómo y cuándo realizará la encuesta (sus planes de cómo obtener la muestra de 100 ex alumnos de la lista de 500, considerando todas las generaciones). 3. El cuestionario (una secuencia organizada de preguntas), con instrucciones para quienes respondan, que les ayuden a llenar el cuestionario. 4. Una explicación de cómo planea probar la validez o ambigüedad del cuestionario. 5. Una explicación del tipo de muestreo que utilizará para la encuesta. 6. Una descripción de los aspectos que consideró para llevar a cabo la encuesta: costos de realización de la encuesta, personal necesario y su capacitación, tiempo requerido, etc.

36

CAPÍTULO 3 DISTRIBUCIÓN DE FRECUENCIAS 1. INTRODUCCIÓN Los datos obtenidos mediante la aplicación de las técnicas de recolección conocidas deben ser tabulados y luego organizados siguiendo un criterio determinado a fin de presentarlos en cuadros de distribución de frecuencias, de acuerdo a la característica de la población que está siendo investigada, con el propósito de analizar la información, interpretarla y con base en ella tomar mejores decisiones.

2. FORMAS Y TIPOS DE DISTRIBUCIONES DE FRECUENCIAS La distribución de frecuencias para atributos se presenta como dos tipos: para atributo nominal y para atributo ordinal. La distribución de frecuencias para variables, según el número de observaciones y valores diferentes que adopta la variable, puede presentarse como: a) Distribución de frecuencias tipo I. Si la distribución de frecuencias corresponde a pocas observaciones y pocos valores diferentes de la variable. Su presentación no exige una técnica determinada, ya que, casi no son susceptibles de tratamiento estadístico, puesto que, para que éste exista, es necesario un volumen masivo de observaciones. b) Distribución de frecuencias tipo II. Cuando son muchas las observaciones y pocos los valores diferentes que adopta la variable. c) Distribución de frecuencias tipo IIII. Cuando el número de observaciones es grande y también los valores diferentes que toma la variable observada. Para un mejor entendimiento de las formas y tipos de distribución de frecuencias, se desarrolla un diagrama mostrado en la figura 3.2.1. Figura 3.2.1. Formas y tipos de distribuciones de frecuencias Nominales (Sin ordenación)

Atributos (cualitativos)

Ordinales (Se pueden ordenar)

Distribuciones de Frecuencias Tipo I Tipo II Tipo III

Variables (cuantificables)

Número de observaciones Pequeño Grande Grande

Fuente: Elaboración Propia

36

Número de valores diferentes Pequeño Pequeño Grande

3. DISTRIBUCIÓN DE FRECUENCIAS DE ATRIBUTOS 3.1. Distribución de frecuencias de atributo nominal Las modalidades obtenidas para un atributo nominal se organizan teniendo en cuenta las propiedades de una escala de medición nominal. Se designa con “A” el atributo. Sus diferentes modalidades se denotan con el símbolo: “a i”, para i=1, 2, 3,..., n. En lugar de un nombre o un símbolo para el atributo pueden utilizarse números que permiten distinguir el orden de posición, categoría o clase, pero sin tener en cuenta la diferencia entre valores. Ejemplo 1 Los datos recogidos por una encuesta aplicada a jóvenes que son votantes para las elecciones generales de 1997 sobre el candidato por el cual van a votar, se clasificaron de la siguiente manera: P V U K

= = = =

Paz Jaime Velis Alejo Urioste Miguel Kuljis Ivo

B P G D

= = = =

Bánzer Hugo Palenque Carlos Galindo Eudoro Duran Juan Carlos

B D P P B

P D U K B

Se obtuvo la siguiente información: D B V U U

D B B B D

D B B D D

B D K K B

D K P V B

D D U P B

B B P V K

B U P U B

Organice y presente los datos en una distribución de frecuencias. Resolución. Los datos “sin procesar” no brindan ninguna información útil evidente. Para obtener provecho de ellos, se seguirá el siguiente procedimiento: • ¿Qué característica de la población se quiere investigar y de qué tipo es?: Atributo nominal: A = Candidatos a la presidencia • Se fijan las modalidades: Las modalidades son candidatos: Paz, Bánzer, Duran, Kuljis, Palenque, Urioste, Velis y Galindo. Representan los diferentes grupos, modalidades, clases o categorías. • Para la distribución de datos recogidos en las distintas clases o categorías se usa el principio de exhaustividad (todos los datos deben estar contenidos en la tabla) y el de mutuamente excluyentes (un dato no puede estar contenido en dos modalidades al mismo tiempo). • Luego se tabulan los datos en una distribución de frecuencias adecuada, mediante el conteo (ver tabla 3.3.1). 37

Tabla 3.3.1 Distribución de frecuencias sobre candidatos a la presidencia Atributo Ai

a1 = P a2 = B *a3 = K a4 = V a5 = Pa a6 = D a7 = U a8 = G

Frecuencia absoluta ni n1 = 7 n2 = 17 n3 = 5 n4 = 3 n5 = 0 n6 = 12 n7 = 6 n8 = 0 n=∑ni = 50

Frecuencia relativa

hi =

ni (100) n

h1 = 7/50*100 = 14% h2 = 17/50*100 = 34% h3 = 5/50*100 = 10% h4 = 3/50*100 = 6% h5 = 0/50*100 = 0% h6 = 12/50*100 = 24% h7 = 6/50*100 = 12% h8 = 0/50*100 = 0% ∑hi = 100%

Razón de comparación

ri =

ni n*

r1 = 7/5 = 1.4 r2 = 17/5 = 3.4 r3 = 5/5 = 1 r4 = 3/5 = 0.6 r5 = 0/5 = 0 r6 = 12/5 = 2.4 r7 = 6/5 = 1.2 r8 = 0/5 = 0

Fuente: Elaboración propia. (Nota: Se toma como modalidad de comparación, el candidato Kuljis.) • La explicación del contenido de la tabla es la siguiente: • La primera columna contiene las diferentes modalidades del atributo. • La segunda columna contiene los conteos, es decir el número de veces que las distintas personas han votado por los distintos candidatos. A estos valores se los llama frecuencias absolutas, y se los abrevia con ni. La suma de los ni es el total de los encuestados, y se la denomina con la letra n. • La tercera columna es la expresión de la frecuencia absoluta en porcentaje, con respecto al total de los encuestados, y a estos valores se los denomina frecuencia relativa, cuyo símbolo es hi. • Por último la cuarta columna contiene la razón de comparación, r i, tomando como base de comparación el candidato o la modalidad objeto de la investigación, r*. • Se procede a la lectura de datos (realizaremos la interpretación tomando sólo como ejemplo un valor de cada columna): • n6 = 12; expresa: “Existen 12 estudiantes que prefieren a Durán como presidente”. • h6 = 24; expresa: “El 24% de los estudiantes consultados apoyarán a Duran como presidente”. • r6 = 2.4; expresa: “Por cada 10 personas que apoyan a Kuljis, 24 lo hacen por Durán”. Nota: La frecuencia relativa puede ser expresada en porcentaje o fracción. La modalidad de comparación puede ser elegida de acuerdo al criterio y objetivo del investigador.

38

Presentación gráfica Los paquetes de computación brindan muchos formatos de gráficos. El papel del investigador es elegir el gráfico que mejor se ajuste a sus objetivos o que muestre de manera adecuada la información. Las gráficas bien diseñadas son más sencillas y poderosas en mostrar los datos comparadas a las tablas de distribución de frecuencias. Por desgracia, la naturaleza impropia e inadecuada de muchas presentaciones gráficas, más bien ha perjudicado la comprensión y análisis de las mismas. Tufte, establece cinco principios para lograr la excelencia gráfica: • Una presentación bien diseñada de los datos, que proporciona sustancia, estadísticas y diseño. • Una gráfica que comunica ideas complejas con claridad, precisión y eficiencia. • Una que proporciona al observador el mayor número de ideas en el menor tiempo y con el mínimo de tinta. • Una gráfica que casi siempre involucra varias dimensiones. • Una que dice la verdad acerca de los datos. La información contenida en la presentación de los datos organizados, correspondientes a las modalidades de un atributo nominal, puede ser presentada en forma gráfica, generalmente utilizando diagrama de barras, diagrama rectangular y/o diagrama circular. Diagrama de barras Es un diagrama formado por barras, cuyo tamaño está de acuerdo al valor de la frecuencia absoluta o relativa de cada modalidad y cuyo ancho no interesa (ver gráfico 3.3.1). Gráfico 3.3.1 Diagrama de barras sobre candidatos a la presidencia 17

18 16 14

12

12 ni

10 8

7

6

5

6

3

4 2

0

0 P

B

K

V

Pa

Candidatos

Fuente: Elaboración propia

39

0 D

U

G

Su lectura: Barra 3: n3 = 5; expresa: “Existen 5 personas que prefieren a Kuljis para presidente del país”. h3 = 10; expresa: “El 10% de los estudiantes consultados prefieren a Kuljis como presidente del país". Barra 2: n2 = 17; expresa: “Existen 17 personas que prefieren a Bánzer para presidente del país”. h2 = 34; expresa: “El 34% de los estudiantes consultados prefieren a Bánzer como presidente del país". Diagrama rectangular En una base cualquiera, la altura del rectángulo debe ser una dimensión igual al universo. En ese cuadrilátero, las distintas modalidades se representan por segmentos rectangulares cuya altura corresponde al valor de la frecuencia absoluta o relativa (ver gráfico 3.3.2). Gráfico 3.3.2 Diagrama rectangular sobre candidatos a la presidencia 12 P

B

K

V

Pa

D

U

G

24 6 10

34

14

Fuente: Elaboración propia Lectura: El sexto rectángulo representa: n6 = 12; expresa: “Existen 12 ciudadanos que prefieren a Durán como presidente boliviano”. h6 = 24; expresa: “El 24% de las personas encuestadas prefieren a Durán como presidente boliviano".

40

El primer rectángulo: n1 = 7; expresa: “Existen 7 ciudadanos que prefieren a Paz como presidente boliviano”. h1 = 14; expresa: “El 14% de las personas encuestadas prefieren a Paz como presidente boliviano". Diagrama circular Para obtener esta representación gráfica, se procede de la siguiente manera: • Se determina el número de grados de la circunferencia por unidad del universo, es decir se divide (usando datos del ejemplo anterior) 360o entre n = 50, que es igual a 7.2o para la frecuencia absoluta; y 360o entre 100 que es igual a 3.6o para la frecuencia relativa. En términos más generales, tenemos: o o G C Número de grados del círculo 360 = = n Universo n

(Para la frecuencia absoluta)

o o G C Número de grados del círculo 360 = = h Cien porciento 100

(Para la frecuencia relativa)

El segmento circular correspondiente a cada modalidad, se obtiene multiplicando los grados por unidad del universo, por la frecuencia correspondiente (no es necesario diferenciar frecuencia absoluta de la relativa). Ejemplo: Segmento circular para las modalidades (tabla 3.3.2): Tabla 3.3.2 Valor del segmento circular para candidatos a la presidencia Atributo P B K V Pa D U G

Absoluto (7.2°) * 7 (7.2°) * 17 (7.2°) * 5 (7.2°) * 3 (7.2°) * 0 (7.2°) * 12 (7.2°) * 6 (7.2°) * 0

Relativo (3.6°) * 14 (3.6°) * 34 (3.6°) * 10 (3.6°) * 6 (3.6°) * 0 (3.6°) * 24 (3.6°) * 12 (3.6°) * 0

Valor 50.4° 122.4° 36° 21.6° 0° 86.4° 43.2° 0°

Fuente: Elaboración propia Todos deben dar un total de 360o, y si se realiza la suma °P+°B+°K+°V+°Pa+°D+°U+°G se constata que efectivamente suman los 360o que debe tener un círculo. A continuación se muestra en el gráfico 3.3.3 el diagrama circular.

41

Gráfico 3.3.3 Diagrama circular de candidatos a la presidencia G 0%

U 12%

P 14%

D 24% B 34% Pa 0%

V 6%

K 10%

Fuente: Elaboración propia Lectura: n7 = 6; expresa:

“Existen 6 estudiantes que afirman su preferencia en Urioste para presidente”. h7 = 12; expresa: “El 12% de los estudiantes prefieren a Urioste como presidente del país”. Conclusión: Con toda esta información, podemos afirmar que la encuesta de opinión a 50 estudiantes, da como resultado que los candidatos más votados en las elecciones de 1997 para la presidencia de Bolivia serán Bánzer, Durán y Paz. Ejemplo 2 Un inspector de seguridad industrial, obtuvo la siguiente información de las causas principales por las cuales ocurre un accidente grave en una empresa. Los datos se muestran a continuación: D S M D

O O D S

S M S M

M D D D

D O S O

O F S D

S M D F

D F S D

O M D O

S O O S

Donde: F = Fallas en las máquinas D = Descuido del operario M = Falta de mantenimiento de máquinas S = Falta de material de seguridad O = Mala operación de máquinas El inspector quiere saber cuáles son las causas más comunes, por orden de importancia, para 42

que ocurra un accidente, con el fin de elevar un informe y recomendaciones a las empresas en estudio. Resolución. • Atributo nominal: A = Causas principales de accidentes industriales. • Existen 5 modalidades o categorías. Luego se tabulan los datos en una distribución de frecuencias adecuada (ver tabla 3.3.3). Tabla 3.3.3 Distribución de frecuencias sobre causas de accidentes industriales Atributo *a1 = F a2 = O a3 = D a4 = S a5 = M

Frecuencia absoluta n1 = 3 n2 = 9 n3 = 12 n4 = 10 n5 = 6 n = 40

Frecuencia relativa

Razón de comparación h1 = (3/40)100 = 7.5% r1 = 3/3 = 1.0 h2 = (9/40)100 = 22.5% r2 = 9/3 = 3.0 h3 = (12/40)100 = 30.0% r3 = 12/3 = 4.0 h4 = (10/40)100 = 25.0% r4 = 10/3 = 3.3 h5 = (6/40)100 = 15% r5 = 6/3 = 2.0 ∑hi = 100%

Fuente: Elaboración propia. (Nota: Se tomó como modalidad de comparación, la causa menos probable) Lectura de datos: n3 = 12; expresa: “Existen 12 empresas en las cuales la causa principal de accidentes se da por descuido de lo operarios. h3 = 24; expresa: “El 30% de las empresas consultadas creen que la causa principal de accidentes es debido al descuido de sus operarios”. r3 = 4; expresa: “Por cada 4 empresas que creen que la causa principal de accidentes es debido al descuido de los operarios, hay una empresa que cree que los accidentes son ocasionados por fallas en las máquinas”. Representación gráfica Por medio de un gráfico adecuado, el inspector puede observar fácilmente las causas más comunes y elevar su informe y recomendaciones (ver gráfico 3.3.4) Conclusión: El inspector de seguridad industrial concluye en su informe que las causas principales de accidentes industriales en ese rubro son de mayor a menor: D = Descuido del operario, S = Falta de material de seguridad, O = Mala operación de máquinas, M = Falta de mantenimiento de máquinas, F = Fallas en las máquinas Gráfico 3.3.4 Diagrama de barras sobre causas de accidentes industriales

43

14

12

12

10

9

10 8 ni

6

6 3

4 2 0

F

O

D

S

M

Ai

Fuente: Elaboración propia Sugerencias y recomendaciones: Se sugiere que las empresas procuren que sus operarios tengan todas las comodidades y motivaciones para no descuidarse en su trabajo, les provean de todos los materiales necesarios para su seguridad y realicen capacitaciones constantes sobre operación de máquinas.

3.2. Distribución de frecuencias de atributo ordinal Un atributo ordinal es una característica de la población que puede ser clasificada en grupos, categorías o estratos, además permite establecer posiciones relativas de mayor, menor o igual sin reflejar distancias entre ellos. Ejemplo, si consideramos las autoridades de las universidades como atributo nominal A i, sus modalidades ai pueden permitirnos diferenciar grupos de autoridades como: Rectores, Vicerectores, Decanos, etc., donde evidentemente, ser Rector es mayor que ser Vice-rector o ser Decano es menor que ser Vice-rector, pero sin limitar la magnitud de la distancia en esa jerarquía de orden. Ejemplo 1 Los datos recogidos sobre la ocupación en una planta de producción, son los siguientes: T A I O

I O O T

O G A A

A I T O

T O O T

G T O I

A O G O

O T O T

O A I A

A O A A

Se procede de la siguiente manera. • Los datos corresponden a una distribución de carácter ordinal. A = Funciones que cumplen los trabajadores en una planta de producción. • Las modalidades correspondientes son: 44

a1 a2 a3 a4 a5

= = = = =

Gerente = G Ingeniero = I Técnico de producción = T Operario = O Ayudante = A

Las modalidades permiten agrupar los datos en grupos o categorías, que expresan relación de mayor, igual o menor, pero sin expresar distancias entre los grupos. La presentación de los datos del atributo considerado, utilizando la escala ordinal, se la presenta de la siguiente manera, donde existen dos nuevas columnas con respecto a la distribución de atributo nominal: • En la columna 5 se tiene la frecuencia absoluta acumulada, que puede ser de forma ascendente o descendente, según la conveniencia del investigador y se calcula acumulando o sumando las frecuencias absolutas. • En la columna 6 se presenta la frecuencia relativa acumulada, que se calcula sumando las frecuencias relativas. A continuación se muestra en la tabla 3.3.4, la distribución de frecuencias apropiada. Tabla 3.3.4 Distribución de frecuencias de la ocupación en una planta de producción Atributo Ai

ai = G a2 = I a3 = T* a4 = O a5 = A

Frecuencia absoluta ni n1 = 3 n2 = 5 n3 = 8 n4 = 14 n5 = 10 ∑ ni=n=40

Frecuencia relativa

hi =

ni * 100 n

h1 = 7.5 h2 = 12.5 h3 = 20 h4 = 35 h5 = 25 ∑ hi=h=100

Razón de comparación

ri =

ni n*

r1 = 3/8 = 0.375 r2 = 5/8 = 0.625 r3 = 8/8 = 1 r4 = 14/8 = 1.75 r5 = 10/8 = 1.25

Frec. absoluta acumulada i*

N i* = ∑ ni i=1

N1 = 3 N2 = 8 N3 = 16 N4 = 30 N5 = 40

Frec. relativa acumulada i*

H i* = ∑ hi i=1

H1 = 7.5 H2 = 20 H3 = 40 H4 = 75 H5 = 100

Fuente: Elaboración propia Lectura de datos: n3 = 8; expresa: h5 = 25; expresa: r1 = 0.375; expresa: N3 = 16; expresa: H4 = 75; expresa:

“Existen 8 trabajadores que cumplen la función de técnicos de planta”. “El 25% de los trabajadores cumplen la función de ayudantes de operarios”. “Hay 37 gerentes por cada 100 técnicos de producción”. “Existen 16 trabajadores que son a lo menos técnicos superiores”. “El 75% de los empleados son al menos operarios”.

Representación gráfica La representación gráfica de este tipo de distribución de frecuencias, de manera que contenga la 45

misma información, puede efectuarse de 2 maneras: • Mediante un diagrama de barras, diagrama rectangular o diagrama circular, siguiendo el procedimiento señalado para el caso de una distribución de frecuencias de atributo nominal. • Mediante la ojiva. Este gráfico corresponde a usar la información de la frecuencia absoluta acumulada o de su correspondiente relativo acumulado (ver gráfico 3.3.5). Gráfico 3.3.5 Ojiva de la ocupación en una planta de producción 45 40

40

35

Ni

30

30

25 20 16

15 10

8

5

3

0 G

I

T

O

A

Trabajadores

Fuente: Elaboración propia Lectura: N3 = 16; expresa: n4 = N4 - N3 = 14; expresa: h4 = H4 - H3 = 35; expresa:

“Existen 16 trabajadores que son técnicos o de grado superior”. “Existen 14 trabajadores que son operarios”. “El 35% de los trabajadores son operarios”.

Ejemplo 2 Las calificaciones de los estudiantes de Estadística en su control de lectura fue la siguiente: E M D M

M B M S

B M B M

E S B D

M B M D

E M E B

M B B M

46

M S M D

E B B S

B M M D

M B M B

E S B S

M S B D

Donde: E = Excelente M = Muy bien B = Bien S = Suficiente D = Deficiente Presente los datos en una distribución de frecuencias adecuada y realice conclusiones. Resolución. • Se debe clasificar y definir la característica de la población que se desea estudiar. Se trata de un atributo ordinal: A = Calificaciones de los estudiantes de Estadística. • Se realiza la clasificación de las modalidades del atributo de mayor a menor o viceversa y el conteo (ni), en una tabla (ver tabla 3.3.5). Tabla 3.3.5 Distribución de frecuencias sobre las calificaciones de Estadística Atributo

Ai

ai = E a2 = M a3 = B* a4 = S a5 = D

Frecuencia absoluta

ni n1 = 6 n2 = 18 n3 = 15 n4 = 7 n5 = 6 ∑ ni=n=52

Frecuencia relativa

hi =

ni * 100 n

h1 = 11.54 h2 = 34.61 h3 = 28.85 h4 = 13.46 h5 = 11.54 ∑ hi=h=100

Razón de comparación

ri =

Frec. absoluta acumulada i*

ni * n

r1 = 6/15 = 0.40 r2 = 18/15 = 1.20 r3 = 15/15 = 1.00 r4 = 7/15 = 0.47 r5 = 6/15 = 0.40

N i = ∑ ni *

i=1

N1 = 6 N2 = 24 N3 = 39 N4 = 46 N5 = 52

Frec. Relativa acumulada i*

H i = ∑ hi *

i=1

H1 = 11.54 H2 = 46.15 H3 = 75 H4 = 88.46 H5 = 100

Fuente: Elaboración propia Interpretación: • Hay 18 estudiantes que obtuvieron en el control de lectura calificación de Muy Bien. • Un 13.46% de los estudiantes obtuvieron una calificación de Suficiencia en el control de lectura. • Por cada 10 estudiantes que obtuvieron una calificación de Bien, 4 obtuvieron calificación de Deficiente. • 46 de los 52 estudiantes obtuvieron por lo menos (como mínimo) calificación de Suficiente. • 75% de los estudiantes obtuvieron una calificación entre Bien a Excelente. Representación gráfica Se pueden realizar distintos gráficos. Se optará por realizar el diagrama de barras con la frecuencia absoluta y la ojiva (ver gráficos 3.3.6 y 3.3.7)

47

Gráfico 3.3.6 Diagrama de barras sobre las calificaciones de Estadística 20 18 16 14

ni

12 10 8 6 4 2 0 E

M

B

S

D

Ai = Calificaciones

Fuente: Elaboración propia Gráfico 3.3.7 Ojiva sobre las calificaciones de Estadística 120

100

Hi

80

60

40

20

0 E

M

B

S

D

Ai = Calificaciones

Fuente: Elaboración propia Conclusión: Lo más usual es que los estudiantes hayan obtenido notas muy buenas y buenas. 48

4. DISTRIBUCIÓN DE FRECUENCIAS DE VARIABLES Los datos que corresponden a caracteres cuantitativos o variables de una población se agrupan en tipos de distribución teniendo en cuenta el número de observaciones y los valores diferentes de la variable (ver figura 3.2.1).

4.1. Tipo I Las distribuciones de variable son de tipo I cuando el número de observaciones y los valores diferentes de la variable son pocos. La organización de estos datos exige disponerlos en forma ascendente o descendente. La presentación de los datos se registra en una columna o en una línea, según necesidades de su publicación. Ejemplo El dinero en efectivo que llevan consigo 5 estudiantes de la carrera de Ingeniería Industrial, es como sigue. Organice y presente los datos. 5

20

37

3

10

Resolución • Se trata de una variable continua. X = Cantidad de dinero en efectivo. • Se dispone los datos en forma ascendente o descendente. La presentación de los datos anteriores se efectúa en forma de una columna, como lo muestra la tabla 3.4.1. Tabla 3.4.1 Distribución de frecuencias del dinero en efectivo de 5 estudiantes xi x1 = 3 x2 = 5 x3 = 10 x4 = 20 x5 = 37 Fuente: Elaboración propia La distribución tipo I de una variable se denomina también, distribución de frecuencia unitaria. Representación gráfica Las distribuciones tipo I no tienen representación gráfica, puesto que su frecuencia absoluta es unitaria. Sin embargo, puede ser útil el diagrama que muestra la densidad de las observaciones en un área específica (ver gráfico 3.4.1): Gráfico 3.4.1 Densidad del dinero en efectivo de 5 estudiantes 49

0

• 5•

• 10

• 20

15

25

30

35

• 40

Fuente: Elaboración propia

4.2. Tipo II La distribución de una variable, cuando son muchas las observaciones y pocos los valores diferentes de la variable, forman la distribución tipo II. La organización de los datos requiere de la utilización de una escala de mediciones de intervalos o razón. Ejemplo 1 Mediante una encuesta aplicada a los estudiantes de Ingeniería Industrial se pudo determinar el número de animales domésticos que poseen cada uno. Con la información dada, se pide organizar y presentar los datos. 3 3 3 1

2 0 2 3

7 2 0 2

4 4 5 6

4 2 2 3

1 4 0 5

2 2 1 4

1 1 4 3

3 3 2 2

4 2 3 0

Resolución • Se trata de una variable. X = Número de animales domésticos, que es discreta. • Los grupos o categorías están dados por los valores diferentes de la variable. Forman 8 grupos, desde 0 hasta 7, así que cumplen los requisitos de una distribución tipo II. La presentación de datos se efectúa de la siguiente manera (ver tabla 3.4.2): Tabla 3.4.2 Distribución de frecuencias del número de mascotas Variable x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4 x6 = 5 x7 = 6 x8 = 7

Frecuencia absoluta n1 = 4 n2 = 5 n3 = 11 n4 = 9 n5 = 7 n6 = 2 n7 = 1 n8 = 1 n = 40

Frecuencia relativa h1 = 10.0 h2 = 12.5 h3 = 27.5 h4 = 22.5 h5 = 17.5 h6 = 5.0 h7 = 2.5 h8 = 2.5 h = 100

Frec. absoluta acumulada N1 = 4 N2 = 9 N3 = 20 N4 = 29 N5 = 36 N6 = 38 N7 = 39 N8 = 40 = n

Fuente: Elaboración propia

50

Frec. relativa acumulada H1 = 10.0 H2 = 22.5 H3 = 50.0 H4 = 72.5 H5 = 90.0 H6 = 95.0 H7 = 97.5 H8 = 100 = h

Lectura: n3 = 11; expresa: h5 = 17.5; expresa: N4 = 29; expresa: H6 = 95; expresa:

“Existen 11 viviendas donde hay 2 animales domésticos”. “El 17.5 % de los hogares tienen 4 animales domésticos”. “Existen 29 viviendas donde hay 3 animales domésticos o menos”. “El 95% de los hogares tienen a lo más 5 animales domésticos”.

Nota: En esta distribución también se puede determinar la razón de comparación. Representación gráfica La representación gráfica de una distribución tipo II de una variable, puede efectuarse mediante un diagrama de barras, si la información que se utiliza es de la frecuencia absoluta o relativa o mediante el gráfico acumulado de frecuencias cuando la información disponible se refiere a los valores de la frecuencia acumulada absoluta o relativa acumulada (ver gráfico 3.4.2). Gráfico 3.4.2 Diagrama acumulado del número de mascotas 97.5

100

90

90 80

100

95

72.5

70

Hi

60

50

50 40 30

22.5

20

10

10 0 0

1

2

3

4

5

6

7

8

Xi

Fuente: Elaboración propia Lectura: N5 = 36; expresa: “Existen 36 viviendas donde hay a lo más 4 animales domésticos”. H5 = 90; expresa: “El 90% de viviendas a lo más tienen 5 animales domésticos”. Nota: Se puede observar que la gráfica representada es de una función definida a trozos o por partes, debido al carácter de la variable del ejemplo, que es discreta. Generalmente las distribuciones tipo II presentan este tipo de variable.

51

Ejemplo 2 A los estudiantes de Estadística se les hizo la siguiente pregunta: ¿Cuántos hermanos tienes? Los datos recogidos son los siguientes: 2 1 1 4

4 2 4 3

6 3 2 2

7 7 1 1

7 4 1 2

5 5 2 3

4 3 5 4

3 4 3 3

2 1 6 2

1 0 4 5

0 3 2 6

5 4 4 4

3 3 2 3

Organice y presente los datos recogidos en una distribución de frecuencias e interprete la información obtenida. Resolución • Se debe clasificar y definir la característica de la población que se desea estudiar. Se trata de una variable discreta: X = Número de hermanos. • Se realiza la clasificación del tipo de distribución para variable. Se trata de una distribución tipo II, porque hay muchos datos pero la variable adopta pocos valores distintos. • Se realiza la clasificación de los valores de la variable y el conteo (n i) en la tabla 3.4.3. Tabla 3.4.3 Distribución de frecuencias del número de hermanos Variable Frecuencia absoluta x1 = 0 n1 = 2 x2 = 1 n2 = 7 x3 = 2 n3 = 10 x4 = 3 n4 = 11 x5 = 4 n5 = 11 x6 = 5 n6 = 5 x7 = 6 n7 = 3 x8 = 7 n8 = 3 n = 52

Frecuencia relativa h1 = 3.85 h2 = 13.46 h3 = 19.23 h4 = 21.15 h5 = 21.15 h6 = 9.62 h7 = 5.77 h8 = 5.77 h = 100

Frec. absoluta acumulada N1 = 2 N2 = 9 N3 = 19 N4 = 30 N5 = 41 N6 = 46 N7 = 49 N8 = 52 = n

Frec. Relativa acumulada H1 = 3.85 H2 = 17.31 H3 = 36.54 H4 = 57.69 H5 = 78.84 H6 = 88.46 H7 = 94.23 H8 = 100 = h

Fuente: Elaboración propia Interpretación • • • •

5 estudiantes de la clase tienen 5 hermanos. El 19.23% de los estudiantes tienen 2 hermanos. 30 de los 52 estudiantes tienen como máximo 3 hermanos (entre 0 y 3 hermanos). El 78.84% de los estudiantes tienen entre 0 y 4 hermanos.

52

Representación gráfica El diagrama de barras adecuado para representar la distribución del número de hermanos está dado en el gráfico 3.4.3. Gráfico 3.4.3 Diagrama de barras del número de hermanos 12

11 10

10 8 ni

11

7

6

5

4 2

3

3

6

7

2

0 0

1

2

3

4

5

Xi = Número de hermanos

Fuente: Elaboración propia Conclusión: En general los alumnos de Estadística tienen entre 2 y 4 hermanos.

4.3. Tipo III Un carácter cuantitativo de la población se presenta en forma de distribución tipo III, cuando las observaciones efectuadas son muchas y también los valores diferentes de la variable. La organización de los datos recogidos se efectúa usando una escala de intervalos o de razón, pudiendo ser la variable discreta o continua. La organización de los datos, se efectúa de la siguiente manera: • Se determina el recorrido de la variable. En símbolos: R x = VM x − Vm x (Valor mayor menos valor menor de la variable). • Se establece el número de grupos de la distribución, según necesidades de estudio u observación. Algunos textos sugieren que se use la siguiente ecuación: n x = embargo este valor sólo puede ser indicativo y no una regla.

n , sin

• Se determina el intervalo de cada clase, grupo o estrato, dividiendo el recorrido de la variable entre el número de grupos: 53

ax =

R x VM x − Vm x Re corrido = = nx nx Número de grupos

Esta es la forma de determinar la amplitud de clase correspondiente a una distribución de frecuencia de una variable para intervalos constantes. Si la distribución tipo III es con intervalos no constantes, cada amplitud de clase se establece según exigencias del estudio y/o a criterio del investigador. a) Distribución tipo III con intervalos no constantes Ejemplo 1 Aplicando una encuesta a un grupo de 32 estudiantes sobre la situación económica familiar se pudo determinar el ingreso mensual familiar en cientos de Bs. que perciben cada uno de éstos, presentados de la siguiente manera: 25 5 1.5 7.5

10 6 40.2 20.5

15 2 18 3.2

4 12.5 3.1 16.5

30 36.5 3.3 32.3

20 40 25 25.5

30 13.5 7.1 2.1

20 3.2 4.3 5.5

Ordene y presente los datos en un tipo de distribución de frecuencias de intervalo no constante. Resolución Se procede de la siguiente manera: • Se trata de una variable continua. X = Ingreso familiar mensual en cientos de Bs. • Se han efectuado muchas observaciones y se han registrado muchos valores diferentes de la variable, por lo cual corresponde a una distribución tipo III. • Se determina el recorrido de la variable. Rx = valor máximox - valor mínimox = 40.2 - 2 = 38.2 • Los intervalos no constantes según motivos de estudio son 4, definidos de la siguiente manera: 2 - 4 Ingreso deficiente 4' - 10 Ingreso malo 10' - 26 Ingreso regular 26' - 40.2 Ingreso bueno Nota: Cabe resaltar que los datos correspondientes a esta variable, también pueden ser tratados como un atributo ordinal, si es que sólo se toma en cuenta la clasificación del ingreso, desde deficiente, hasta bueno. Nota: Si se hubiera optado por realizar intervalos constantes, al ser 32 datos, el número de intervalos sugerido sería: n x = en la tabla 3.4.4.

32 = 6 . La distribución de frecuencias resultante es mostrada

Tabla 3.4.4 Distribución de frecuencias del ingreso familiar mensual (cientos de Bs.) 54

Intervalo de clase Li-1 - Li 2-4 4' - 10 10' - 26 26' - 40.2

Frecuencia absoluta ni n1 = 8 n2 = 7 n3 = 11 n4 = 6 n = 32

Frecuencia relativa

ni hi = * 100 n h1 = 25 h2 = 22 h3 = 34 h4 = 19 h = 100

Frec. absoluta acumulada

Frec. relativa acumulada

*

i

N i* = ∑ ni i =1

N1 = 8 N2 = 8 + 7 = 15 N3 = 15 + 11 = 26 N4 = 26 + 6 = 36

Marcas de clase

*

i

H i* = ∑ h i

xi=

i =1

H1 = 25 H2 = 47 H3 = 81 H4 = 100

L i + L i −1 2

3 7 18 33.1

Fuente: Elaboración propia Lectura: n3 = 11; expresa: “Existe 11 familias que tienen un ingreso entre 1000 y 2600 Bs.”. h1 = 25; expresa: “El 25% de las familias tienen un ingreso deficiente que fluctúa entre 200 y 400 Bs.”. N2 = 15; expresa: “Existe 15 familias que ganan a lo más 1000 Bs.”. H3 = 81; expresa: “El 81% de las familias tienen un ingreso regular o menor, es decir, tienen un ingreso de 2600 Bs. o menos”. Nota: En el intervalo de clase después del primero, el límite inferior se diferencia del límite superior del intervalo anterior con un apóstrofe, para expresar que es dicho límite más una pequeña fracción. Esta diferenciación de límite se efectúa para que la ordenación de datos sea exhaustiva y considere el principio de mutuamente excluyente. Nota: La distribución tipo III en general, guarda u oculta información respecto de la que proporciona una distribución de frecuencias tipo II. Por ejemplo, los valores de ingresos familiares en el intervalo 4' - 10, son siete, pero no se determina cuales son dichos ingresos. Se entiende así que la distribución tipo III globaliza la información. Nota: Cuando se utiliza la información de una distribución de frecuencias tipo III para resumirla mediante algún indicador de posición y/o dispersión, los intervalos de clase deben transformarse en marcas de clase que son la semisuma de los límites de dichos intervalos. Representación gráfica A diferencia de la distribución tipo II, que emplea el diagrama de barras para ser representado gráficamente utilizando frecuencias absolutas o relativas, en este caso se emplea el histograma de frecuencias absoluta o relativa que está representado por áreas. En un sistema de ejes coordenados, los valores del intervalo de clase se representan en el eje de las abscisas y en las ordenadas, los valores de la densidad de frecuencia. Para construir los histogramas se procede de la siguiente manera: • Se determinan las densidades de frecuencia a fin de determinar las alturas de cada cuadrilátero. • Los intervalos de clase representan las bases. • El área de cada cuadrilátero es el valor de cada frecuencia absoluta o relativa. Siguiendo el ejemplo, vamos a obtener las densidades de frecuencia para cada intervalo o clase 55

de la siguiente manera:

n i Frecuencia absoluta = ai Amplitud de clase

Df n i =

Df h i =

h i Frecuencia relativa = ai Amplitud de clase

En la tabla 3.4.5 se muestran las densidades de frecuencia para el ejemplo. Tabla 3.4.5 Densidades de frecuencia del ingreso familiar mensual

Df ni =

ni ai

Df hi =

Dfn1 = 4.0 Dfn2 = 1.2 Dfn3 = 0.7 Dfn4 = 0.4

hi ai

Dfh1 = 12.5 Dfh2 = 3.7 Dfh3 = 2.1 Dfh4 = 1.3

Procedemos a realizar el histograma de frecuencias (ver gráfico 3.4.4) Gráfico 3.4.4 Histograma de frecuencias del ingreso familiar (cientos de Bs.)

4

Dfni 3

2

1

0 0

10

20

30

40

Xi = Ingreso familiar Fuente: Elaboración propia

56

Ejemplo 2 Armando Reynolds, administrador minero de una Compañía, obtuvo información acerca de la producción de oro de la sección de trabajo n° 3 para los últimos 35 turnos de trabajo. Los valores están dados en kilogramos de oro extraído por turno: 356 360 311 322 369

331 281 357 380 393

219 360 300 353 377

391 402 375 371 389

364 411 427 400 430

317 390 370 379 340

386 362 383 380 368

Si Reynolds considera que de 330’ a 380 Kg. por turno es un buen intervalo esperado de producción, a) ¿Cuántos turnos de la sección produjeron menos de lo esperado? b) ¿Cuántos lo superaron? c) ¿Cuántos cumplieron con la producción esperada? d) Si el porcentaje de turnos que cubren al menos la producción esperada es como mínimo 80%, Armando se sentirá satisfecho de esta sección y no tomará medidas para elevar la producción. ¿Tomará medidas o no? Justifique su respuesta. Resolución • Se trata de una distribución tipo III para variable continua con intervalos variables, ya que el problema exige ciertos intervalos específicos. Se pueden obtener solo tres intervalos para contestar las preguntas planteadas, como se muestra en la tabla 3.4.6. Tabla 3.4.6 Distribución de frecuencias de la producción de oro (kg/turno) Intervalo de Frecuencia absoluta clase 219 - 330 330' - 380 380' - 430

n1 = 6 n2 = 18 n3 = 11 n = 35

Frecuencia relativa h1 = 17.14 h2 = 51.43 h3 = 31.43 h = 100

Frecuencia Frecuencia absoluta relativa acumulada acumulada N1 = 35 H1 = 100 N2 = 29 H2 = 82.86 N3 = 11 H3 = 31.43

Fuente: Elaboración propia Respuestas: a) 6 turnos produjeron menos de lo esperado (n1) b) 11 turnos superaron la producción esperada (n3) c) 18 turnos produjeron según lo esperado (n2) d) Se observa que el porcentaje que cubren al menos la producción esperada es de 82.86% (H2), cumpliendo el mínimo de 80%. Armando no tomará medidas para elevar la producción, puesto que se sentirá satisfecho de la sección.

57

b) Distribución de frecuencias de una variable tipo III con intervalos constantes Ejemplo 1 Sea el número de vacas de una muestra de las granjas lecheras de Cochabamba dispuestas de la siguiente manera. Organice y presente los datos en un tipo de distribución adecuado. 5 20 20

10 22 29

15 14 13

12 9 17

17 4 15

8 6 27

3 15 4

7 18 13

11 32 16

13 30 5

18 26 21

2 21 30

Resolución • Se trata de una distribución tipo III, porque existen muchas observaciones y muchos valores diferentes de la variable. Además se trata de una variable discreta. X = Número de vacas por granja. • Se determina el recorrido de la variable: Rx = VMx - Vmx = 32 - 2 = 30 • Por razones de estudio se agrupan las granjas en cinco grupos, determinando así la amplitud o intervalo de clase:

ai =

R x 30 = =6 nx 5

Con la información anterior se presenta la distribución de variable discreta tipo III (ver tabla 3.4.7). Tabla 3.4.7 Distribución de frecuencias del número de vacas por granja Intervalo de Frecuencia clase absoluta Li-1 - Li ni 2-8 8' - 14 14' - 20 20' - 26 26' - 32

n1 = 9 n2 = 8 n3 = 10 n4 = 4 n5 = 5 n = 36

Frecuencia relativa hi h1 = 25 h2 = 22 h3 = 28 h4 = 11 h5 = 14 H = 100

Frecuencia absoluta acumulada Ni N1 = 9 N2 = 9 + 8 = 17 N3 = 17 + 10 = 27 N4 = 27 + 4 = 31 N5 = 31 + 5 = 36

Frecuencia relativa acumulada Hi H1 = 25 H2 = 47 H3 = 75 H4 = 86 H5 = 100

Fuente: Elaboración propia Lectura de datos: n3 = 10; expresa: “Existen 10 granjas lecheras con un número de vacas entre 14 y 20”. h2 = 22; expresa: “El 22% de granjas lecheras consultadas tienen un número de vacas que fluctúa entre 8 y 14”. N4 = 31; expresa: “Existen 31 granjas lecheras que tienen a lo más 26 vacas”. H2 = 47; expresa: “El 47% de granjas son pequeñas y tienen a lo más 14 unidades de producción lechera”. 58

Representación gráfica Se utilizan histogramas como gráficos de dicha distribución, cuando la información utilizada corresponde a frecuencias relativas o absolutas. Si se utiliza los valores de frecuencias acumuladas, el gráfico correspondiente es una ojiva. Cuando la distribución es de tipo III y con intervalos constantes, la construcción de los rectángulos que conforman el histograma de frecuencias, no requiere de la densidad de frecuencia, sino de aplicar el siguiente convenio: “Los intervalos constantes se consideran como una unidad”. Cada intervalo constante de clase representa la base del rectángulo y la altura es la frecuencia absoluta o relativa correspondiente a cada grupo o clase (ver gráfico 3.4.5) Gráfico 3.4.5 Histograma de frecuencias del número de vacas por granja 12

Forma de la distribución

10

ni

8

Polígono de frecuencias

6 4

2

0 2

8

20

14

26 No. de vacas

32

Fuente: Elaboración propia Si se unen por medio de líneas los puntos medios superiores de cada rectángulo del histograma se obtiene el polígono de frecuencias. Luego, siguiendo el polígono, se puede suavizar las líneas mediante una curva continua, logrando la forma de la distribución. Ojiva La ojiva se obtiene mediante un gráfico acumulado de frecuencias absolutas o relativas. En el eje x se usa los valores de los intervalos de clase y en el eje y los valores de frecuencias absolutas o relativas (ver gráfico 3.4.6). Gráfico 3.4.6 Ojiva del número de vacas por granja

59

36

35 31

30 27

Ni

25 20 17

15 10

9

5 0

0 2

7

12

17

22

27

32

N° de vacas

Fuente: Elaboración propia La ojiva se forma uniendo con una línea continua las esquinas superiores derechas de los rectángulos formados para cada intervalo. Conclusión: Lo más usual es que las granjas de Cochabamba tengan entre 14 y 20 vacas. Ejemplo 2 Se recopiló información acerca de las ventas anuales, en miles de $us, de 50 pequeñas tiendas y se muestra en la tabla 3.4.7. Gráfico 3.4.7 Ojiva de ventas anuales (miles de $us.) 60 50

Ni

40 30 20 10 0 100

120

140

160

180

Li-1 - Li

Fuente: Elaboración propia

60

200

220

Con la información de la gráfica llene una tabla y encuentre n i, hi [%] y Hi. Resolución • La información que se tiene en la gráfica se traduce en una distribución de frecuencias tipo III para variable continua (X = Ventas anuales en $us.), obteniéndose los límites de los intervalos de clase (columna 1) y los Ni’s (columna 4), ya que la gráfica mostrada presenta una ojiva. • Luego se obtienen las frecuencias absolutas ni (columna 2) mediante la resta de las frecuencias absolutas acumuladas. Luego, se obtiene mediante las fórmulas establecidas los demás valores, hi (columna 3) y Hi (columna 5). Tabla 3.4.8 Distribución de frecuencias de ventas anuales (miles de $us.) Intervalo de clase 100 – 120 120' - 140 140' - 160 160' - 180 180’ - 200 200’ - 220

Frecuencia Absoluta n1 = 6 n2 = 12 - 6 = 6 n3 = 20 - 12 = 8 n4 = 38 - 20 = 18 n5 = 48 - 38 = 10 n6 = 50 - 48 = 2 n = 50

Frecuencia relativa h1 = 12 h2 = 12 h3 = 16 h4 = 36 h5 = 20 h6 = 4 h = 100

Frecuencia absoluta acumulada N1 = 6 N2 = 12 N3 = 20 N4 = 38 N5 = 48 N6 = 50

Frecuencia relativa acumulada H1 = 12 H2 = 24 H3 = 40 H4 = 76 H5 = 96 H6 = 100

Fuente: Elaboración propia En base a la distribución de frecuencias hallada conteste las siguientes preguntas: a) Interprete mediante un ejemplo cada una de las columnas y construya el histograma de frecuencias. b) Encuentre la venta mas frecuente y explique su significado. c) ¿A qué nivel de medición corresponde la información de la tabla? Resolución a) La interpretación es la siguiente: • • • •

Las ventas anuales de 8 tiendas están entre 140 a 160 mil dólares. El 12% de las tiendas venden anualmente entre 120 a 140 mil dólares de mercadería. 38 de las 50 tiendas tienen ventas anuales de por lo menos 180 mil dólares. El 96% de las tiendas tienen ventas que oscilan entre 100 a 200 mil dólares al año.

El histograma de frecuencias es mostrado en el gráfico 3.4.8.

61

Gráfico 3.4.8 Histograma de frecuencias de ventas anuales (miles de $us.) 20 18 16 14

ni

12 10 8 6 4 2 0 100 - 120

120' - 140

140' - 160

160' - 180

180’ - 200

200’ - 220

Li-1 - Li (X = Ventas anuales, miles de $us)

Fuente: Elaboración propia b) El rango de ventas más frecuente entre las 50 pequeñas tiendas es de 160 a 180 mil dólares anuales. c) La información de la tabla corresponde al nivel de medición de razón.

5. APLICACIONES A LOS NEGOCIOS Y EL CONTROL DE CALIDAD 5.1. Diagrama de Pareto El diagrama de Pareto es un recurso gráfico que permite representar atributos que a menudo proporciona más información visual que los diagramas de barras y circular, en especial cuando el número de modalidades es alto. Se usa mucho en el control estadístico de procesos y el control estadístico de la calidad del producto. Es un tipo especial de diagrama de barras, donde las modalidades se grafican en orden descendente de frecuencias y se combinan con un polígono acumulado en la misma escala. Alfredo Pareto (1848-1923) llevó a cabo estudios sobre la distribución de la riqueza en Europa. Descubrió que unos cuantos concentraban la mayor parte de la riqueza, en tanto que era muy grande el número de pobres que poseían muy poco. Joseph Juran se dio cuenta de que este concepto era universal, por lo que se podía aplicar en diversos campos. Acuñó las frases minoría vital y mayoría útil. El principio fundamental de esta técnica gráfica es tener la posibilidad de separar los “pocos vitales” de los “muchos triviales”, lo que permite dirigir la atención a las respuestas importantes.

62

Mediante los diagramas de Pareto se pueden detectar los problemas que tienen más relevancia. Por lo general, el 80% de los resultados totales se origina en el 20% de los elementos. Ejemplos de tales minorías vitales son: • La minoría de clientes que representan la mayoría de las ventas. • La minoría de productos, procesos, o características de la calidad causantes del grueso de desperdicio o de los costos de reelaboración. • La minoría de rechazos que representa la mayoría de quejas de la clientela. • La minoría de vendedores que está vinculada a la mayoría de partes rechazadas. • La minoría de problemas causante del grueso del retraso de un proceso. • La minoría de productos que representan la mayoría de ganancias obtenidas. • La minoría de elementos que representan al grueso del costo de un inventario. Ejemplo El gerente de operaciones de una planta empacadora de cereales indicó que, según su experiencia, casi siempre hay nueve razones que dan como resultado la producción de cajas de cartón no conformes al final del proceso de empaque: R = Cartón roto G = Cartón abultado C = Cartón agrietado D = Cartón sucio H = Agujeros en el cartón I = Peso de empaque inadecuado P = Error de impresión U = Etiqueta ilegible S = Tapa superior sin sello Los datos sin procesar que se muestran a continuación, representan una muestra de 50 cajas de cartón no conformes, las cuales se tomaron de la producción de la semana pasada: U S S I G

G U U S S

U S D U C

S U U D U

H G S G D

D C S S D

D S D S S

R U P U S

I D R S S

U R S D U

Construya un diagrama de Pareto con estos datos y saque conclusiones. Resolución •

Primero se organizan los datos en una distribución de frecuencias de atributo nominal, donde el atributo es: A = Tipo de defecto en cajas de cartón.

La distribución de frecuencias para los tipos de defectos en cajas de cartón se muestra en la tabla 3.5.1.

63

Tabla 3.5.1 Distribución de frecuencias de tipos de defectos de cajas de cartón Modalidades Ai R G C D H I P U S

Frecuencia absoluta ni 3 4 2 9 1 2 1 12 16 n = 50

Frecuencia relativa hi 6 8 4 18 2 4 2 24 32 h = 100

Fuente: Berenson – Levine – Krehbiel. Estadística para Administración, 2000 •

Luego, se ordenan las modalidades de mayor a menor frecuencia. Una vez realizada esta distribución, se acumulan las frecuencias en forma descendente. Tabla 3.5.2 Distribución de frecuencias ordenada de tipos de defectos de cajas de cartón Modalidades Ai

Frecuencia absoluta ni

S U D G R C I H P

16 12 9 4 3 2 2 1 1 n = 50

Frecuencia Frecuencia Frecuencia relativa absoluta relativa hi acumulada acumulada Ni Hi 32 16 32 24 28 56 18 37 74 8 41 82 6 44 88 4 46 92 4 48 96 2 49 98 2 50 100 h = 100

Fuente: Elaboración propia •

Por último se realiza el diagrama de Pareto (ver Gráfico 3.5.1).

Conclusiones: Se determina que las tapas sin sello (S), las etiquetas ilegibles (U) y los cartones sucios (D), representan el 74% de las razones de no conformidad. Las otras 6 razones representan el restante 26%. Por lo tanto, el ingeniero de esta planta deberá tratar de minimizar estos errores en las cajas de cartón, para obtener menor porcentaje de no conformidades. Gráfico 3.5.1 Diagrama de Pareto de los tipos de defectos de cajas de cartón 64

100 90 80

74

hi, Hi

70 60

56

50 40

88

82

100

98

96

92

32

30

32 24

18

20 10

8

6

4

4

2

2

G

R

C

I

H

P

0 S

U

D

Tipo de defecto Fuente: Elaboración propia

5.2. Curva de Lorenz Una aplicación importante de una distribución tipo III es la obtención de la curva de Lorenz. Esta curva es un indicador que permite determinar el grado de concentración de la variable (si se trata de ingresos familiares, impuestos, etc.) y también permite determinar la desigualdad de la variable. Por otro lado se puede hallar el índice de concentración de Gini, que permite cuantificar la dispersión de la concentración. Ejemplo Sea la distribución de ingresos de 40 familias en centenas de Bs, dada en la tabla 3.5.3. Determine la curva de Lorenz, el índice de concentración de Gini e interprete adecuadamente los resultados obtenidos. Tabla 3.5.3 Distribución de frecuencias de ingresos (centenas de Bs.) Li-1 - Li 6.0 – 14.8 14.8’ – 23.6 23.6’ – 32.4 32.4’ – 41.2 41.2’ – 50.0 Totales

ni 9 13 12 4 2 40

xi 10.4 19.2 28.0 36.8 45.6

yi 93.6 249.6 3336.0 147.2 91.2 917.6

hyi 10.2 27.2 36.6 16.0 10.0 100.0

Hyi 10.2 37.2 74.0 90.0 100.0

Fuente: Elaboración propia Resolución El procedimiento es el siguiente (ver tabla 3.5.3): 65

hi 22.5 32.5 30.0 10.0 5.0 100

Hi 22.5 55.0 85.0 95.0 100.0

1. 2. 3. 4. 5. 6. 7.

Se calcula la marca de clase para definir un valor de la variable (por ejemplo ingresos). Se determina el ingreso total por estratos, multiplicando la columna (2) por la (3): yi = x i * n i Se calculan los valores porcentuales del ingreso total (hyi). Se acumulan los valores del ingreso total (Hyi). Se determina la frecuencia relativa (hi). Se determina la frecuencia relativa acumulada (Hyi). Se construye un cuadrilátero (ver gráfico 3.5.2). La base, o el eje x, registra los valores de las frecuencias relativas acumuladas de la población del número de familias (Hi). 8. La altura o el eje y, registra los valores acumulados del ingreso (Hyi). Se traza una diagonal en el cuadrilátero (diagonal principal), indicando que los ingresos están distribuidos entre las familias que conforman la población de manera equitativa. 9. La línea que resulta de representar los valores acumulados del ingreso de las familias, respecto a la de los valores acumulados de la población, es la curva de Lorenz. 10. La diferencia entre la diagonal principal del cuadrilátero y la curva de Lorenz muestra la forma desigual en que se distribuye el ingreso. 11. Se procede a realizar la gráfica. 12. Se calcula el índice de Gini. Gráfico 3.5.2 Curva de Lorenz para la distribución de ingresos familiares 100 90 80 70

A

Hyi

60 50 40 30 20 10 0 0

10

20

30

40

50

60

70

80

90

100

Hi

Fuente: Elaboración propia Interpretación. El punto A significa: El 80% de las familias encuestadas, recibe el 68% de los ingresos. De otra manera se puede decir que el 20% de las familias encuestadas, recibe el 32% de los ingresos. 66

Esto nos indica que no existe mucha desigualdad en la distribución de los ingresos, y por lo tanto no existe gran concentración de los ingresos, es decir que están repartidos más o menos equitativamente entre las familias encuestadas. Índice de Gini Para calcularlo se sigue el siguiente procedimiento, siguiendo el ejemplo anterior (ver tabla 3.5.4). Tabla 3.5.4 Cálculo del índice de Gini Li-1 - Li 6.0 – 14.8 14.8’ – 23.6 23.6’ – 32.4 32.4’ – 41.2 41.2’ – 50.0 Totales

Hyi 0.102 0.372 0.740 0.900 1.000

hi 0.225 0.325 0.300 0.100 0.050 100

Hi 0.22 0.55 0.85 0.95 1.00

Hyi-1 + Hyi 0.102 0.474 1.112 1.640 1.900

hi (Hyi-1 + Hyi) 0.02295 0.15405 0.33360 0.16400 0.09500 0.7696

Fuente: Elaboración propia La expresión para calcular el grado de concentración tiene la siguiente fórmula: nx

IC = 1 − ∑ h i ( H y i −1 + H y i ) i =1

Donde se debe suponer que H 0 = 0 y H y 0 = 0 y nx es el número de intervalos de la distribución.

IC = 1 − 0.7696 = 0.2304 Como el máximo valor que puede tener el índice es de 1, el valor hallado indica que no existe elevada concentración de los ingresos.

6. ÁRBOL DE DECISIONES PARA DISTRIBUCIONES DE FRECUENCIAS A continuación se muestra en la figura 3.6.1, un diagrama que resume todo lo expuesto en este capítulo. Puede ser muy útil a la hora de elegir adecuadamente el tipo de distribución de frecuencia para organizar una serie de observaciones recopiladas y presentar mediante gráficas la información. La figura es de elaboración propia

67

Variable

Cuantitativa

Característica de la población

Cualitativa

Atributo

Aleatorio

¿Tipo de experimento?

Nominal

Tipo II

Decimales Continua

Discreta

Constantes

¿Tipo de valores?

Enteros

Tipo III

¿Intervalos?

Variables

Muchos-Pocos

Pocos-Pocos

Tipo I

Ordinal

¿Existe jerarquía?

Muchos-Muchos

Determinístico

¿Valores? - ¿variables?

Si

No

68

Circular

Si

Circular

Circular

Si

Recta Numérica: Diagrama de densidad de puntos

Si

Si

Diagrama de barras, circular o rectangular

Si

Si

Pareto

Diagrama acumulado

Si

Si

Densidad de frecuencia

Si

Histograma

Si

Si

Si

Ojiva

FIGURA 3.6.1. ÁRBOL DE DECISIONES PARA DISTRIBUCIONES DE FRECUENCIAS

EJERCICIOS DE CLASE Atributo nominal 1. Realice la organización de datos recopilados mediante una encuesta informal al curso, preguntando la carrera que estudian. 2. Una empresa posee un torno controlado por computadora cuyo desempeño estaba por debajo del promedio. Según el reporte de los operarios de la máquina, las causas para el bajo desempeño eran las siguientes: F = Fluctuaciones de corriente. C = Controlador inestable. E = Error del operador. H = Herramienta gastada no cambiada a tiempo. O = Otras causas menores. Los datos recopilados son los siguientes: F C O C

O C F C

H C H F

E C E C

O F E C

F O E C

E E C C

E O C C

C C E E

E C C C

C C C E

F E C E

Organice los datos en una distribución de frecuencias adecuada y realice la gráfica correspondiente para indicar cuál es la principal causa del bajo desempeño de la máquina. Atributo ordinal 3. Realice la organización de datos recopilados mediante una encuesta informal al curso, preguntando su opinión acerca de la calificación que darían a la presidencia actual de Bolivia, mediante una respuesta de opción múltiple: Muy alta, Alta, Media, Baja y Muy baja. 4. Las siguientes respuestas fueron dadas por dos grupos de pacientes de un hospital, uno de los grupos recibía un tratamiento nuevo y el otro un tratamiento normal; ambos para una misma enfermedad. La pregunta que se les hizo fue: ¿qué grado de malestar usted está experimentando? Ligero Ninguno Moderado Ligero Moderado Ninguno

Grupo 1 Moderado Severo Ligero Moderado Ligero Moderado

Severo Ligero Ligero Ninguno Ligero Severo

Moderado Severo Ligero Moderado Severo Severo

Grupo 2 Ligero Ninguno Moderado Ligero Moderado Ligero

Severo Moderado Moderado Severo Moderado Moderado

Sugiera mediante la presentación adecuada de los datos, si el tratamiento nuevo es mejor que el normal. Variable tipo I 5. Realice la organización de datos recopilados mediante una encuesta informal a un pequeño 69

grupo en el curso (una muestra), preguntando cuáles son sus estaturas. 6. Para mejorar el torno controlado por computadora del ejercicio 2, se recabaron datos sobre las desviaciones de la velocidad de corte con respecto al valor deseado y ajustado por el controlador. Los siete valores observados de velocidad de corte – velocidad deseada fueron: 3, 6, -2, 4, 7, 4, 3 Presente los datos en una distribución de frecuencias adecuada y diga qué datos son los que se desearía eliminar. Variable tipo II 7. Realice la organización de datos recopilados mediante una encuesta informal a todo el curso, preguntando cuántos cigarrillos fuman al día. 8. Los siguientes datos son el número de accidentes automovilísticos que ocurren en los 60 cruces más transitados en cierta ciudad en un fin de semana de diciembre. 0 5 1 3 0 2

2 0 4 5 2 1

5 1 0 0 3 6

0 3 2 1 0 5

1 0 4 3 4 0

4 0 1 6 2 3

1 2 2 4 5 3

0 1 4 2 1 0

2 3 0 0 1 0

1 1 4 2 2 4

Agrupe estos datos de forma que muestre qué tan a menudo ocurre cada uno de los valores y dibuje un diagrama de barras. Variable tipo III con intervalos variables 9. Realice la organización de datos recopilados mediante una encuesta informal a todo el curso, preguntando cuánto dinero llevan en el bolsillo. 10. Una supervisora de mantenimiento de aeronaves realizó una inspección a una entrega reciente de pernos por parte de un nuevo proveedor. Para ello envió 25 de estos pernos a un laboratorio de pruebas para determinar la fuerza necesaria para romper cada uno de los pernos. A continuación se presentan los resultados en miles de libras-fuerza. 147.8 137.4 125.2 141.1 145.7 119.9 133.3 142.3 138.7 125.7 142.0 130.8 129.8 141.2 134.9 125.0 128.9 142.0 118.6 133.0 151.1 125.7 126.3 140.9 138.2 a) Organice los datos en una distribución de frecuencias adecuada para contestar las siguientes preguntas: b) ¿Qué fracción de los pernos soportó al menos 120000 libras-fuerza? ¿Qué fracción de los pernos soportó al menos 150000 libras-fuerza? c) Si la supervisora sabe que estos pernos, cuando se utilicen en un aeronave, se verán sujetos a fuerzas de hasta 140000 libras-fuerza, ¿qué fracción de la muestra se romperá estando en uso? ¿Qué debería recomendar la supervisora a la compañía con respecto al 70

nuevo proveedor de pernos? Variable tipo III con intervalos constantes 11. Realice la organización de datos recopilados mediante una encuesta informal a todo el curso, preguntando cuál es su peso. 12. Las siguientes son las millas por galón obtenidas por 40 tanques de gasolina llenos: 24.5 23.7 24.6 23.9 24.9

23.6 24.4 23.9 24.2 24.8

24.1 24.7 24.1 24.7 24.7

25.0 23.9 24.4 24.9 24.1

22.9 25.1 24.5 25.0 22.8

24.7 24.6 25.7 24.8 23.1

23.8 23.3 23.6 24.5 25.3

25.2 24.3 24.0 23.4 24.6

a) Agrupe estas cifras en una distribución de frecuencias con intervalos constantes. b) Presente los datos en un histograma de frecuencias. c) Realice la ojiva.

71

EJERCICIOS PROPUESTOS 1. Supóngase que después de una encuesta sobre los sabores de los helados Dumbo se ha establecido el siguiente orden de preferencia: granizado (G), dulce de leche (L), frutilla (F), vainilla (V), chocolate (C), tumbo (T) y durazno (D). Entre 50 estudiantes de la UPB sobre sabores de helado preferidos se dispone de la siguiente información: D F G T L

C G D D C

G T V C G

L C C F F

C G F L G

G V G T T

T D G C L

V T C G G

G C L F F

L L V C C

Como administrador de la Heladería Dumbo, usted está muy interesado en este estudio, puesto que con él, sabrá qué sabores debe proveer a los consumidores de la UPB, pensando en establecer una pequeña heladería allí. a) Organice y presente los datos recogidos en una distribución de frecuencias. b) Determine el sabor más frecuente y menos frecuente. c) Represente gráficamente. De lectura a los elementos diferentes del gráfico. 2. En una empresa constructora, el departamento de obras está constituido por 40 trabajadores, que cumplen las siguientes funciones: (I = Ingeniero, J = Jefe de obras, C = Capataz, O = Obrero, A = Ayudante). La información elaborada permitirá conocer la estructura de ocupación de dicha empresa. Usted es el gerente de personal de la empresa y está queriendo hacer recortes de personal, pero para ello primero debe analizar la información: O J A J

A O O C

C C O A

O C I O

O O J A

A I O A

I O A O

O A A J

A J C O

C C O A

a) Organice y presente los datos en una distribución de frecuencias. Describa la distribución por sus elementos esenciales. b) Represente gráficamente las frecuencias simples y las acumuladas. De lectura a los elementos diferentes del gráfico. c) Si el 50% de los trabajadores son capataces o de grado mas alto, Ud. despedirá a un capataz y un jefe de obras. ¿Los despedirá o no? 3. En un día determinado las horas de entrada en unas oficinas marcadas por un reloj de control han sido las siguientes: 8:01 7:55 7:58 8:12 8:01 8:00 8:03 8:04 8:13 7:59 7:59 8:06 8:03 8:11 8:11 8:10 8:12 8:13 8:22 8:17 8:03 8:01 8:00 7:53 7:56 7:59 7:58 8:02 8:00 7:55 7:53 7:54 8:02 8:02 8:04 8:09 7:57 8:15 8:14 7:58 7:59 7:59 8:04 8:01 8:00 8:01 8:01 a) Organice y presente los datos en un tipo de distribución de frecuencias adecuada. b) Represente gráficamente el histograma. c) Si la frecuencia que más se repite está por debajo de 8:05 usted, como jefe de personal de la compañía, dará un bono a todos sus empleados por la puntualidad, caso contrario 72

reducirá el sueldo de sus empleados en 10% por su impuntualidad. ¿Cuál es la decisión que debe tomar? 4. En una fábrica de tornillos se ha tomado una muestra de su producción considerando el largo de ellos. Existen cajas de 50 tornillos de distinta longitud (medidos en cm.). Los resultados de una de ellas es el siguiente: 2 6 4 3 5 a) b) c) d) e)

4 5 6 6 3

5 2 2 4 4

6 2 5 3 2

3 3 3 2 4

2 4 4 5 5

5 3 6 3 6

2 5 2 5 3

4 2 3 2 2

3 3 5 2 6

Organice y presente los datos en un tipo de distribución. Represente el gráfico acumulativo de frecuencias. ¿Cuál es el número de unidades de tornillos cuya longitud es de 3 cm. o menos? ¿Cuál es el número de unidades de tornillos cuya longitud está entre 3 y 6 cm.? ¿Cuál es el número de unidades de tornillos cuya longitud es al menos de 4 cm.?

5. Las lecturas de temperatura que dio una termocupla de un horno industrial en ºC., son: 16

25

34

43

52

61

Represente los datos en una distribución de frecuencias adecuada. 6. En un estudio de dos semanas sobre la productividad de los trabajadores, se obtuvieron datos sobre el número total de piezas aceptables que produjeron 100 trabajadores. Para organizar los datos, se tabularon en una distribución de frecuencias adecuada. Con el fin de realizar algunas decisiones para elevar el nivel de productividad en la empresa, el administrador a cargo pidió a su secretaria le proporcione los datos tabulados. Luego, se fue a su casa para analizarlos, pero cuando vio la hoja, algunos datos no habían sido impresos adecuadamente. ¡Qué problema! Al día siguiente debía elevar un informe a gerencia para que se tomen las medidas adecuadas y la decisión no podía esperar ni un día más. He aquí la tabla y los datos legibles. Li-1 - Li 20 -

ni 4

Ni

hi

Hi

0.15 38 63 0.80 5 Totales 100 Además, el administrador de personal memorizó algunos datos de la tabla, cuando los observó en la computadora de su oficina: • La amplitud de las categorías era constante y tenía un valor de 10. (ai = 10). a) Si usted fuera el administrador a cargo, ¿podría reconstruir la tabla con los datos legibles y la información memorizada? Es su única alternativa, ¡inténtelo! 73

b) Si el número de trabajadores que producen entre 20 y 40 piezas aceptables, es mayor a 15, entonces el administrador propondrá a la gerencia dar un bono de productividad a los trabajadores de la empresa de 20 Bs. por 55 piezas aceptables producidas. Empero si es menor de 15, el bono quedará sin efecto. ¿Los trabajadores recibirán el bono de productividad? Justifique su respuesta. 7. De la siguiente frase: “La representación gráfica no es más que un medio auxiliar de la investigación estadística, pues esta es fundamentalmente numérica”, obtenga la distribución de frecuencias de las vocales. 8. Complete los datos que faltan en la siguiente distribución: xi 1 2 3 4 5 6 7 8

ni 4 4 7 5 7

Ni

hi 0.08

16

0.16 0.14

28 38 45

0.14

9. Los salarios mensuales (en cientos de bolivianos) de los 50 trabajadores de una empresa en la que usted es el gerente tienen la siguiente distribución de frecuencias: 19' - 25 10% 13' - 19 12%

1-5 32%

11' - 13 18% 5' - 11 28%

a) Realice la tabla de distribución de frecuencias que corresponda al gráfico. b) Si el porcentaje de los trabajadores que ganan a lo más 1300 Bs. es de por lo menos 77%, entonces usted les elevará el sueldo en 50 Bs. ¿Qué hará usted? ¿Cuántos trabajadores se beneficiarían con el aumento, si lo hubiera? 10. Durante el año de 1995, el consumo de petróleo en Estados Unidos era de 17.7 millones de barriles por día. Los siguientes datos representan un análisis porcentual de las fuentes de consumo. Fuentes de consumo Energía eléctrica Transporte carretero 74

Porcentaje de uso 1.4 53.4

Combustible para aviones Plásticos y fertilizantes Ferrocarriles, barcos y algunos equipos para construcción Otros usos para casas, industrias y negocios Total a) b) c) d) e)

8.5 10.2 4.8 21.7 100.0

Construya un diagrama de barras. Construya un diagrama circular. Obtenga un diagrama de Pareto. ¿Cuál de estas gráficas es mejor en este caso? ¿Por qué? ¿Qué fuentes abarcan la mayor parte del consumo de petróleo en Estados Unidos?

75

EJERCICIOS PARA EXAMEN 1. Se realizó una medición en Comteco sobre la duración (minutos) de las llamadas telefónicas, tomando como muestra el período de medio día. a) Reconstruya la tabla de distribución de frecuencias, e interprete cada columna con un ejemplo. b) La compañía ha fijado la siguiente normativa: Si el 80% de las llamadas telefónicas han durado a lo más 50 minutos, no se cambiará la modalidad de pago (de costo por llamada a costo por minuto). Caso contrario se procederá al cambio. ¿Qué decisión debe tomar? Datos adicionales: h3 + N 3 = 871 Tiempo [min] 0 -

ni

hi

Ni

Hi 50

ri

250

1 94 97

- 140 Totales

0.7

0.028

2. Se realizó una encuesta a un grupo de personas sobre el número de veces que acceden al internet en un mes. Los resultados se muestran en la siguiente gráfica:

4

3

1.8

2

1.33 1

0.6

0.75

0 0

10

20

30

40

50

60

Lamentablemente para los intervalos de 10’ – 15 y para 35’ – 60, no se tienen datos exactos de la densidad de frecuencia. a) Complete la siguiente tabla y luego la gráfica. Li-1 - Li 0-4

ni

ai

Dfni

hi 76

Ni

Hi

ri 0.6

32 1 totales b) Interprete cada columna con un ejemplo. c) ¿Qué porcentaje de personas acceden al internet a lo más 20 veces? ¿Cuántas personas acceden a lo menos 10 veces? 3. Una compañía que vende computadoras realizó una encuesta sobre el tiempo en años en que las personas renuevan sus equipos. Los datos recopilados son los siguientes: 3 3 3 3

3 3 1 1

4 3 3 7

1 2 3 4

3 3 3 5

3 3 2 5

1 3 4 4

3 2 2 3

4 3 2 2

5 4 3 6

a) Organice los datos en una distribución de frecuencias adecuada. b) Si por cada 100 personas que renuevan sus equipos en el lapso de 1 año hay a lo más 20 personas que lo hacen en 7 años, la empresa aumentará la importación de partes electrónicas en un 20%. Si no, la empresa reducirá sus importaciones en 10%. ¿Cuál es la decisión que tomará? c) ¿Qué porcentaje de personas renuevan sus equipos a lo más en el lapso de 4 años? ¿Cuántas personas renuevan sus equipos a lo menos en 5 años? 4. Usted, como gerente en una empresa de diseño gráfico, mandó a realizar una encuesta a las tiendas sobre qué tipo de publicidad prefieren. Los datos obtenidos se muestran a continuación: S S S C C S Donde:

S A P S S S

P C C S P P

T A T T S S

P S P A A T

T P A S S A

S S C S S S

P C S A P A

A S P P T S

S T P S S S

P S P P S

T A A T A

P = Poleras C = Carteles T = Toldos A = Afiches S = Stickers

a) Organice la información en una distribución de frecuencias adecuada. b) Como gerente, ¿a qué tipo de publicidad dará más énfasis su empresa, si tomamos en cuenta solo la publicidad de mayor preferencia? 5. A cada persona que se presenta como candidato para un trabajo de ensamble en Femco, se le aplica una prueba de aptitud mecánica. Una parte de la prueba consiste en ensamblar un 77

armario con base en instrucciones numeradas. En la siguiente gráfica se muestra los tiempos que necesitaron cierto número de personas para ensamblar un armario. 45

42

40

40

35

35

30 26

Ni

25 20 15 12 10 5

4

0 Tiempo [min]

Complete la siguiente tabla de distribución de frecuencias, e interprete cada columna con un ejemplo. Use como base de comparación el tercer intervalo. Tiempo [min]

ni

hi

Ni

Hi

ri

Totales 6. Una compañía que distribuye energía eléctrica está interesada en mejorar la eficiencia de uso de este recurso en los hogares y lo contrata a usted para participar en la investigación del problema. Para comprender mejor el asunto, se decide investigar el consumo actual de energía por familia. La siguiente distribución de frecuencia representa el consumo promedio de energía (en BTU) por hogar, durante un período de dos semanas, para una muestra aleatoria de 90 hogares. a) Reconstruya la tabla, sabiendo que la amplitud de los intervalos es constante. b) La compañía considera que si lo más frecuente es que en cada hogar se use como máximo 8 BTU, el consumo de energía es aceptable, caso contrario se deberá realizar programas de concientización para el ahorro de este recurso. ¿Que sugeriría a la compañía?. Consumo de energía

Número de hogares

hi 78

Ni

Hi

2 8.89 27.78 68.89 78 8 98.89 19.2 - 21.6 Totales

90

7. En un cierto día, el departamento de limpieza de la ciudad de Cochabamba midió el peso, en centenas de kilogramos, de la basura recolectada por los 40 camiones del departamento. Por un descuido, los datos se borraron. a) Reconstruya la tabla de distribución de frecuencias, e interprete cada columna con un ejemplo. b) Halle la razón de comparación, tomando como base el intervalo más frecuente, e interprete los resultados con un ejemplo. n1 + 26 = h3

Datos adicionales: Rango = 10.2 Tiempo [min]

ni

hi 10

Ni 10

12

6 17.6’ -

12.5

Totales

79

Hi

ri

CASO DE ESTUDIO1 SPRINGVILLE HERALD ANTECEDENTES Springville representa una amplia área suburbana de cerca de 50 millas fuera de una gran ciudad en el oeste de Estados Unidos. En esencia, esta zona era de uso agrícola antes de la Segunda Guerra Mundial y experimentó una expansión considerable en población e industria entre los años 1950 y 1980, con poco crecimiento a partir de 1980. El Herald, es un periódico que en sus inicios fue administrado por una familia, se publica en forma diaria y dominical desde 1957. Su circulación actual es de 250000 ejemplares entre semana (lunes a sábado) y 300000 ejemplares el domingo, con crecimiento moderado desde 1980. El estado financiero de la compañía es sano, pero en la actualidad los miembros de la alta gerencia están más concientes de los costos y de la necesidad de mejorar la eficiencia en las operaciones. FASE 1 Se formó un equipo de trabajo con jefes de nivel corporativo y de departamento para analizar las acciones y esfuerzos que tienden a mejorar la calidad. Estuvieron de acuerdo en que el primer paso era establecer una misión para el periódico que comunicara en forma concreta los objetivos –tanto a los clientes como a los empleados. Una vez que se estableció la misión con la ayuda de clientes y empleados de todos los niveles de la organización, el equipo de trabajo se dedicó a analizar qué áreas de operación debían estudiarse en busca de oportunidades de mejora. Después de muchas discusiones y sesiones de lluvia de ideas, el equipo decidió por consenso que un área crítica para el mejoramiento estaba representada por los errores que se cometieron durante el llenado de órdenes para anuncios (que significaban una importante fuente de ingresos) desde el momento en que se ordenaba un anuncio hasta que aparecía en el periódico. Por desgracia en ciertas circunstancias se habían cometido errores, y se habían publicado anuncios incorrectos o en el día equivocado. Estos hechos exigían un esfuerzo inmediato para satisfacer al cliente mediante una variedad de estrategias a veces costosas, que incluían reembolsos y nuevas inserciones de anuncios otros días. Los miembros de equipo descubrieron que se tenía los datos relacionados con la ocurrencia de estos errores en los informes periódicos que se generaban (por rutina) en el departamento de producción de anuncios. La tabla SH2.1 muestra uno de esos informes, que incluye la cantidad de ocurrencias para cada tipo de error durante el último año calendario. Ejercicios a) Ordene las categorías de la tabla de mayor a menor frecuencia absoluta, obteniendo las columnas de frecuencia relativa, frecuencia absoluta acumulada y relativa. b) Construya una representación gráfica que considere apropiada y útil para visualizar los datos de la tabla. c) Escriba un informe a la administración acerca de la frecuencia de los distintos tipos de error en los anuncios, que deberían ser tratados con prioridad (El 80% acumulado de los tipos de errores más frecuentes).

1

Este caso de estudio ha sido extractado del libro: Berenson-Levine-Krehbiel. Estadística para Administración. Segunda Edición, 2001. Prentice Hall, México.

80

Tabla SH2.1 Tabla de los errores en la producción, composición, política y ventas de anuncios Tipo de error Error de copiado Diseño Omisiones Pegado Mala reproducción Inserción errónea Error al determinar el precio Espacio no ordenado

Conteo 54 7 13 11 8 30 13 7

Tipo de error Formación Velox Anuncio equivocado Fecha equivocada Posición equivocada Error en el pegado manual Tamaño equivocado Total

Conteo 53 28 25 14 45 5 6 319

Nota: No siga adelante hasta terminar los ejercicios de la fase 1. FASE 2 En la primera reunión del equipo después de obtener los datos de la tabla SH2.1, Bob Tatum, el jefe de producción de anuncios, sugirió que esta no era la forma más adecuada de examinar el problema. Dijo que la frecuencia de los errores no era el único aspecto importante. Argumentó que ciertos tipos de errores, aunque tal vez menos frecuentes, podían implicar costos mucho mayores que otros. Por fortuna, también se tenían datos de costos para cada tipo de error. Los datos para el último año se presentan en la tabla SH2.2. Tabla SH2.2 Costos de errores de anuncios para el último año. Tipo de error Error de copiado Diseño Omisiones Pegado Mala reproducción Inserción errónea Error al determinar el precio Espacio no ordenado

Cantidad Miles de $ 32.6 3.0 36.5 59.4 5.3 108.2

Tipo de error

13.0

Cantidad Miles de $ Formación 53.1 Velox 23.3 Anuncio equivocado 53.6 Fecha equivocada 35.9 Posición equivocada 74.9 Error en el pegado 16.5 manual Tamaño equivocado 5.3

12.9

Total

533.5

Ejercicios a) b)

Ordene las categorías de la tabla de mayor a menor costo, obteniendo las columnas de frecuencia relativa, frecuencia absoluta acumulada y relativa. Construya una representación gráfica que considere apropiada y útil para visualizar los datos de la tabla.

81

c)

Escriba un informe a la administración acerca de la frecuencia de los distintos tipos de error en los anuncios, que deberían ser tratados con prioridad (El 80% acumulado de los tipos de errores más frecuentes).

Nota: No siga adelante hasta terminar los ejercicios de la fase 2. FASE 3 Después de analizar los datos de la tabla SH2.2 fue evidente que el error más costoso era la categoría de error de inserción, el cuál costó más de 100000 dólares, o más del 20% del costo total de los errores en ese año. Una mayor investigación de los errores de esta categoría los subdividió en varios tipos que se presentan en la tabla SH2.3. Tabla SH2.3 Frecuencia y cantidad en dólares de varios tipos de errores de inserción en el último año Tipo

Frecuencia

Área de composición Políticas Ventas Totales

10

Cantidad Miles de $ 12.8

16 4 30

88.7 6.6 108.1

Ejercicios a) Ordene las categorías de la tabla de mayor a menor costo y frecuencia, obteniendo las columnas de frecuencia relativa, frecuencia absoluta acumulada y relativa para las dos variables. b) Construya representaciones gráficas que considere apropiada y útil para visualizar los datos de la tabla. c) ¿Qué acción recomendaría para reducir este tipo de errores en el futuro? Nota: No siga adelante hasta terminar los ejercicios de la fase 3. FASE 4 Una de las funciones del departamento de sistemas de cómputo del periódico incluye el informe de las actividades del sistema de la computadora central. En general, durante un día cualquiera, el sistema debe procesar más de 100 tareas diferentes. Los requerimientos de estas tareas varían, desde trabajos muy pequeños que requieren una cantidad mínima de accesos a los dispositivos de almacenamiento de datos (cartuchos), hasta trabajos grandes y complejos que requieren acceso a más de 200 cartuchos diferentes de almacenamiento de datos. Los datos que se presentan en la tabla SH2.4 incluyen un arreglo ordenado del número de cartuchos de datos que deben utilizarse por 111 tareas, en un día reciente. Ejercicios a) Presente los datos en una distribución de frecuencias adecuada. 82

b) Represente la distribución en un gráfico adecuado. Tabla SH2.4 Arreglo ordenado de la cantidad de cartuchos de datos (que son accesados por cada tarea) en un día reciente 1 4 8 19 35 96

1 4 9 20 37 100

1 5 10 20 40 111

1 5 10 20 40 126

1 5 10 20 42 127

1 5 10 21 43 131

2 5 10 22 50 137

2 5 11 23 52 140

2 5 12 24 55 144

2 6 12 28 56 147

2 6 13 28 59 164

3 6 14 29 60 166

3 7 14 30 60 170

3 7 15 30 67 182

Nota: No siga adelante hasta terminar los ejercicios de la fase 4.

83

3 7 17 30 74 212

4 7 18 30 80 237

4 8 18 31 86

4 8 18 32 91

4 8 18 33 94

CAPÍTULO 4 DISTRIBUCIÓN DE PROBABILIDADES 1. INTRODUCCIÓN La teoría de las probabilidades tuvo su origen en los problemas relacionados con los juegos de azar (dados, barajas, etc.). Mas tarde el concepto de probabilidad, convenientemente modificado, se ha aplicado a los seguros y a los problemas de inferencia estadística. Estos últimos poseen numerosas aplicaciones en la física moderna, la biología, la agricultura, la industria, las ciencias sociales y la economía. De aquí que la teoría de las probabilidades tenga hoy gran interés práctico y teórico y constituya una rama importante de la matemática, ingeniería y de las ciencias sociales.

2. CLASES DE EXPERIMENTOS: DETERMINÍSTICO Y ALEATORIO Un experimento es determinístico cuando, conocidas las condiciones en que se produce, los resultados que se obtienen están sujetos a dichas condiciones. En general, este tipo de conclusiones corresponden al campo de la física y química. Por ejemplo: Combinando una molécula de oxígeno (O) con dos de hidrógeno (2H), se obtiene la molécula de agua (H2O) indefectiblemente, si se usa como catalizador una chispa eléctrica. Los datos para una variable pueden obtenerse no solo por experimentos determinísticos, sino también mediante experimentos aleatorios. Un experimento aleatorio se define como aquél que se puede producir de manera indefinida, con las mismas condiciones, sin la posibilidad de determinar de antemano el resultado de una prueba, en observación a dichas condiciones. Ejemplo: fabricación de un bien estándar o defectuoso, lanzar una moneda o un dado, observar un nacimiento y ver el sexo, determinar el día en que una máquina va a fallar, etc. En todos estos ejemplos no se puede saber el resultado preciso antes de realizar los experimentos.

3. EXPERIMENTO ALEATORIO 3.1. Características Un experimento aleatorio, tiene las siguientes características. • Se puede repetir de manera indefinida, esto asegura que los resultados sean simétricos y que el elemento del experimento sea homogéneo. • Los resultados del experimento son numerables y registrables. • No es posible determinar el resultado exacto de un experimento aleatorio antes de que ocurra, pero si obtener una lista de los posibles. • Por el principio de la regularidad estadística (Ley de los grandes números) es posible estimar la probabilidad de un resultado cualquiera del experimento cuando este se haya realizado muchas veces. 84

3.2. Espacio muestral Es el conjunto de resultados posibles o imaginables de un experimento aleatorio. Por ejemplo, lanzar un dado genera el siguiente espacio muestral: S = S (1, 2, 3, 4, 5, 6) S = S (x ∈ N / 1 ≤ N ≤ 6)

Por extensión Por comprensión

Los espacios muestrales pueden ser finitos o infinitos. Es finito cuando se trata de un conjunto numerable, como por ejemplo los resultados posibles que existen al elegir un número de la lotería de entre 100000 boletos. Es infinito cuando es continuo no numerable, como por ejemplo los resultados posibles que se pueden dar al elegir una persona de entre todas las que hay en el mundo.

3.3. Determinación del espacio muestral Dado un experimento aleatorio, los resultados posibles o imaginables a que da lugar dicho experimento pueden determinarse utilizando: • • •

El arboligrama (que es el método más versátil), un cuadro de doble entrada (sólo aplicable en el caso de dos intentos o ensayos), aplicando números combinatorios, permutaciones o variaciones (que tan solo entregan el número de posibles resultados, pero no los resultados en sí),

según el caso del experimento. Cualquiera de los instrumentos señalados son alternativos, con las restricciones descritas. Ejemplo 1 Experimento aleatorio con reposición o reemplazo En el bolsillo de un estudiante hay billetes de 10, 20 y 50 bolivianos. Si se obtienen dos billetes, uno tras otro, elegidos al azar, con reposición. ¿Qué resultados pueden obtenerse? Se pretende determinar el espacio muestral. Resolución • Se observa el tipo de experimento: Se trata de un experimento aleatorio, porque es posible efectuar la extracción de dos billetes, uno tras otro elegidos al azar, de manera permanente y bajo las mismas condiciones, observar los resultados y registrarlos. • Se determina el espacio muestral: Los resultados posibles o imaginables de dicho experimento pueden ser obtenidos mediante un arboligrama, mostrado en la figura 4.3.1. Para construirlo se debe preguntar: ¿cuáles son los posibles billetes que se puede sacar en la primera extracción? La segunda pregunta: habiendo sacado un billete de 10, 20 o 50, ¿qué posibles billetes puedo sacar en la segunda extracción? 85

Figura 4.3.1. Arboligrama de sacar 2 billetes con reposición 1a extracción

10 20 50

2a extracción

10

10 20 50

20

10 20 50

50

10 20 50

S = { 10-10 ; 10-20 ; 10-50 ; 20-10 ; 20-20 ; 20-50 ; 50-10 ; 50-20 ; 50-50 } Fuente: Elaboración propia Una segunda forma de obtener el espacio muestral, es empleando un cuadro de doble entrada de la siguiente forma. En las columnas se registran los resultados de la primera extracción y en las filas, los de la segunda extracción. El cuerpo de dicha tabla registra los resultados posibles o imaginables, es decir el espacio muestral (ver tabla 4.3.1): Tabla 4.3.1 Espacio muestral de sacar dos billetes con reposición

2

1a

a

10 20 50

10

20

50

10 – 10 20 – 10 50 – 10

10 – 20 20 – 20 50 – 20

10 – 50 20 – 50 50 – 50

Fuente: Elaboración propia Ejemplo 2 Experimento aleatorio sin reposición o reemplazo En el bolsillo de un estudiante hay billetes de 10, 20 y 50 bolivianos. Si se obtienen dos billetes, uno tras otro, elegidos al azar, sin reposición. ¿Qué resultados pueden obtenerse? Resolución • No se trata del mismo experimento aleatorio del ejemplo 1, porque en este caso se extraen los billetes uno tras otro, pero sin reposición. • Los resultados posibles o imaginables de dicho experimento pueden ser obtenidos mediante un arboligrama (ver figura 4.3.2). 86

Aquí se realizan las mismas preguntas que en ejemplo anterior. Se observará que basta que una condición del experimento cambie, para que éste tenga otro espacio muestral. Figura 4.3.2. Arboligrama de sacar 2 billetes sin reposición 1a extracción

2a extracción 20

10

50 10 20 50

10 20

50 10

50

20

S = { 10-20 ; 10-50 ; 20-10 ; 20-50 ; 50-10 ; 50-20 } Fuente: Elaboración propia También se puede usar un cuadro de doble entrada de la forma que está mostrada en la tabla 4.3.2. Para ello se han omitido los resultados de la diagonal principal de la tabla. Tabla 4.3.2 Espacio muestral de sacar dos billetes con reposición

2

1a

a

10 20 50

10

20

50

X 20 – 10 50 - 10

10 – 20 X 50 - 20

10 – 50 20 – 50 X

Fuente: Elaboración propia Ejemplo 3 Una empresa fabrica bolsas de papel. El gerente de producción quiere saber los posibles resultados que obtendría si elige 3 bolsas de entre el total de la producción del día y sabe que algunas bolsas pueden tener 2 tipos de defectos: mala impresión del logotipo o que no tenga el tamaño adecuado (muy grande o muy chica con respecto al tamaño estándar). Resolución •

Es un experimento aleatorio, porque el gerente no puede saber cuántas bolsas defectuosas puede obtener en tres extracciones. 87



El espacio muestral se puede determinar por medio de un arboligrama, suponiendo que es un muestreo sin reposición.

Para configurar el diagrama, las preguntas son: Si el gerente escoge una bolsa aleatoriamente, ¿qué tipo de bolsa puede obtener? Luego, habiendo extraído alguna de algún tipo, en la segunda y tercera extracciones, ¿qué tipo de bolsas puede obtener? Se acuerda las siglas para cada tipo de bolsa y se construye el arboligrama mostrado en la figura 4.3.3. B = Bolsa sin defectos DL = Bolsa con defectos en el logotipo DT = Bolsa con defectos en el tamaño. Figura 4.3.3. Arboligrama para tipos de bolsas extraídas B

B

DT

DL

B B DL DT

DT

DT

DL

B

DL

DT

DL

B DL DT

B,B,B B,B,DL B,B,DT

B DL DT

B,DT,B B,DT,DL B,DT,DT

B DL DT

B,DL,B B,DL,DL B,DL,DT

B DL DT

DT,B,B DT,B,DL DT,B,DT

B DL DT

DT,DT,B DT,DT,DL DT,DT,DT

B DL DT

DT,DL,B DT,DL,DL DT,DL,DT

B DL DT

DL,B,B DL,B,DL DL,B,DT

B DL DT B DL DT

DL,DT,B DL,DT,DL DL,DT,DT DL,DL,B DL,DL,DL DL,DL,DT

Fuente: Elaboración propia Note en este ejemplo que no se puede hallar el espacio muestral por un cuadro de doble entrada. Tal vez la forma sería obtener un cuadro tridimensional, que es difícil de representar. 88

3.4. Eventos o sucesos aleatorios Un evento es un subconjunto del espacio muestral. Ejemplo: Si el experimento aleatorio consiste en lanzar al aire una moneda tres veces y observar los resultados conjuntos, un evento puede ser: E1 = obtener tres caras en 3 lanzamientos. E1 = E (c c c) Otro evento, obtener 3 sellos en tres lanzamientos: E2 = E (s s s), etc. Un evento es un resultado o varios resultados de un espacio muestral en los que se está interesado, con el propósito de estudiarlos o analizar los resultados.

3.5. Clases de eventos a) Sucesos simples y compuestos Los eventos o sucesos aleatorios pueden ser simples o compuestos, según puedan o no descomponerse en otros resultados del experimento. Ejemplo: al lanzar una moneda sale cara o cruz, estos resultados son simples. Al lanzar una moneda 2 veces: cs, cc o ss, se originan eventos compuestos. b) Sucesos ciertos e imposibles Un suceso es cierto cuando los resultados que se obtienen cumplen las condiciones del experimento. Ejemplo: al lanzar una moneda, los sucesos ciertos son cara o cruz. El suceso imposible se da cuando el resultado del experimento no cumple las condiciones esperadas. Ejemplo: cuando la moneda cae de perfil. c) Sucesos mutuamente excluyentes o no Dos o más sucesos son mutuamente excluyentes cuando la ocurrencia de uno de ellos excluye la aparición de los otros. Ejemplo: al lanzar un dado la aparición de 5 excluye la aparición de 1, 2, 3, 4 y 6. Sin embargo, si se lanzan dos dados dos sucesos que no son mutuamente excluyentes son el evento que sumen 10 y el evento que en uno de ellos aparezca un 4. d) Sucesos igualmente posibles o no Dos o más eventos son igualmente posibles cuando ninguno tiene mayor posibilidad de ocurrencia que el otro. Ejemplo: al lanzar una moneda hay la misma posibilidad que salga cara o sello si ésta está bien hecha. Las monedas “cargadas” originan sucesos que no son igualmente posibles.

89

e) Sucesos dependientes e independientes Un suceso es dependiente de otro cuando la ocurrencia de uno afecta al resultado del otro. Ejemplo: si se tienen 3 bolas rojas y una azul en una urna y en la primera extracción se eligió al azar una bola roja, el suceso que se extraiga una bola roja en la segunda extracción es dependiente de la primera. Sin embargo, si la bola roja extraída se repone a la urna, la segunda extracción será independiente de la primera.

4. PROBABILIDAD 4.1. Introducción La probabilidad es una medida del riesgo o de la incertidumbre. Se dice que existe riesgo cuando se conoce el espacio muestral y la probabilidad de aparición de los sucesos. La situación que indica incertidumbre, desconoce la presencia del espacio muestral, la probabilidad de los sucesos o ambos. Por medio de la probabilidad, podemos medir si un suceso es probable e improbable: el resultado de una elección presidencial, los efectos colaterales de un nuevo medicamento, la durabilidad de una pintura para exteriores, etc. La probabilidad puede clasificarse en tres tipos.

4.2. Probabilidad a priori o clásica Es la manera más antigua de medir el riesgo o la incertidumbre de un evento. La probabilidad de ocurrencia o éxito de un suceso simple A, es el número que se determina mediante el cociente de los casos favorables de la ocurrencia del evento y el número de casos posibles.

P( A ) =

n (A) Número de casos favorables al evento A = n Número de casos posibles

En la aplicación de esta regla, los términos “favorable” y “éxito” se aplican a cualquier clase de resultado que el investigador esté interesado. Así, favorable puede significar que un televisor no funcione, ya que el interés es detectar los que están defectuosos. Algunas propiedades que presentan los sucesos, al hablar de sus probabilidades a priori son: • • • • •

La suma de probabilidades de dos sucesos independientes es: P (A U B) = P(A) + P(B) La suma de probabilidades de dos eventos mutuamente excluyentes es: P(A’) = 1 - P(A) La probabilidad de cualquier evento presenta los siguientes valores: 0 ≤ P(A) ≤ 1 Cada resultado debe ser igualmente posible. Se puede determinar la probabilidad de antemano. 90

Ejemplo 1 ¿Cuál es la probabilidad de sacar un as de un paquete bien revuelto de 52 cartas? Resolución •

Bien revuelto significa que cada carta tiene la misma probabilidad de salir, de modo que se puede aplicar el concepto clásico de probabilidad.

Dado que hay 4 ases entre 52 cartas, la probabilidad de sacar un as sería de:

P(sacar un as) =

4 1 = = 0.077 52 13

Existe una probabilidad de que en 13 extracciones, una sea un as, o existe una probabilidad del 7.7% de sacar un as al elegir una carta. Ejemplo 2 Supongamos 3 nacimientos. ¿Cuál es la probabilidad de que nazcan 2 varones? Resolución. • Determinar el sexo del recién nacido, es un experimento aleatorio (Suponiendo que no se cuenta con un ecógrafo). • Los resultados del experimento cuando se observa el nacimiento uno tras otro, en la determinación del sexo se los determina por medio de un arboligrama (Ver figura 4.4.1): Figura 4.4.1. Arboligrama del sexo de 3 nacimientos P. conjunta = P. Marginal * P. condicional 1 2 1 2

P. marginal

H

1 2

M

H

H

M

1 2

H

1 2 1 2

1 2

1 2

1 2

M 1 2

H

1 2

M

H

M M

1 2

P. condicional

1 2 1 2

H M

P. condicional

(12 )(12 )(12 ) = 18 (12 )(12 )(12 ) = 18 (12 )(12 )(12 ) = 18 (12 )(12 )(12 ) = 18 (12 )(12 )(12 ) = 18 (12 )(12 )(12 ) = 18 (12 )(12 )(12 ) = 18 (12 )(12 )(12 ) = 18 1

S=S (HHH, HHM, HMH, MHH, HMM, MHM, MMH, MMM) Fuente: Elaboración propia 91

• Se calcula la probabilidad del evento E1 de que hayan exactamente 2 nacidos hombres (suma de tres probabilidades conjuntas). P(E1) = P (H,H,M) + P (M,H,H) + P (H,M,H) Para el análisis de dichas probabilidades es necesario recurrir a eventos simples: Probabilidad conjunta es la multiplicación de una probabilidad marginal por varias condicionales.

 1  1  1  1 P(H, H, M ) = P(H ) P(H / H ) P(M / H, H ) =     =  2  2  2  8

1 1 1 3 P(E1 ) = + + = 8 8 8 8

La probabilidad de 2 nacidos hombres es de 3 veces en 8 nacimientos, o del 37.5%. Nota: La probabilidad marginal siempre corresponde a un evento simple (por eso corresponden a las primeras ramas del árbol. Ejemplo: P(H): probabilidad de que el recién nacido sea hombre. La probabilidad condicional a un evento que depende de otro, por eso corresponden a las segundas ramas del árbol y así sucesivamente. Ejemplo: P(H/H): la probabilidad de que el segundo nacido sea hombre, dado que el primero fue hombre. La probabilidad conjunta se refiere a eventos que se dan al mismo tiempo, y corresponden a los eventos del espacio muestral. Ejemplo: P(H,H,M): la probabilidad de que dos recién nacidos de tres, sean hombres.

4.2. Probabilidad a posteriori Una desventaja del concepto clásico de probabilidad es su aplicación limitada, ya que hay muchas situaciones en las que no se pueden considerar las diversas posibilidades como igualmente probables. Ejemplos: la posibilidad de si lloverá en un día determinado, si un empleado obtendrá un ascenso este mes en la empresa, si quisiéramos pronosticar el resultado de una elección o un partido de fútbol, o si quisiéramos determinar si un índice bursátil bajará o subirá. Para estos casos, se usa el concepto de probabilidad a través de la frecuencia o probabilidad a posteriori. Se define de la siguiente manera: • Es la frecuencia relativa observada de un evento durante un gran número de intentos. • La fracción de veces que un evento se presenta cuando las condiciones son estables. • Advertencia. Tiene una limitación en su uso: Falla cuando los datos son insuficientes. Ejemplo 1 Según datos históricos se sabe que 20 de 100 taxis sufren choques muy fuertes al año en Cochabamba ¿Cuál es la probabilidad de que se suba a un taxi y éste sufra un choque muy fuerte? Resolución

92

Esta es una probabilidad a posteriori, y se la calcula mediante la frecuencia relativa:

P(A) =

20 *100 = 20% . Existe una probabilidad del 20% de que el taxi al que se subió sufra 100

un choque fuerte.

93

Ejemplo 2 Si los registros del Lloyd Aéreo Boliviano demuestran que (en los últimos 6 meses) 468 de 600 de sus jets de Cochabamba a Santa Cruz llegaron a tiempo, ¿cuál es la probabilidad de que si este fin de semana Ud. está yendo a Santa Cruz, llegue a la hora correcta? Resolución Ya que en el pasado,

468 600

= 0.78 de los vuelos llegaron a tiempo, entonces se puede decir que

hay una probabilidad del 78% de que el avión de este fin de semana llegue a tiempo.

4.3. Probabilidad subjetiva ¿Qué pasa con la probabilidad a posteriori si el evento ocurre muy pocas veces o una sola vez? Ya no es un buen indicador de la ocurrencia del evento. Así que hay una tercera definición de probabilidad que es la subjetiva. • Está basada en las creencias de las personas que efectúan la estimación. • Es la probabilidad asignada a un evento por un individuo, basada en la evidencia disponible. • Útil cuando los eventos se presentan una vez o pocas veces. Ejemplo Un estudiante no realizó ningún esfuerzo en su preparación para rendir su examen de estadística. No fotocopió el texto de la materia, no hizo las prácticas, no estudió los ejercicios propuestos y no atendió al docente en las clases dirigidas. Por lo tanto, subjetivamente se puede decir que tiene muy pocas probabilidades de pasar el examen.

5. VARIABLE ALEATORIA Es una función que permite transformar los diferentes resultados del espacio muestral en puntos del conjunto de los números naturales. Puede ser continua o discreta. Ejemplo Supóngase el espacio muestral del sexo de 3 recién nacidos (Ver la figura 4.4.1). S = S (HHH, HHM, HMH, MHH, HMM, MHM, MMH, MMM) Corresponde a la situación de observar 3 nacimientos uno tras otro. Si interesa el número de hombres recién nacidos se puede observar la siguiente relación entre la variable definida y el espacio muestral. La variable aleatoria es discreta y estaría definida como: X = Número de hombres recién nacidos, generando así los valores de la tabla 4.5.1. 94

Tabla 4.5.1 Valores de la variable aleatoria: número de hombres recién nacidos Casos del espacio muestral MMM MMH, MHM, HMM MHH, HMH, HHM HHH

Valores de la variable aleatoria discreta: (Xi) X1 = 0 X2 = 1 X3 = 2 X4 = 3

=> Los recién nacidos son todos mujeres Significa 1 hombre entre los recién nacidos Significa 2 hombres Significa 3 hombres

Fuente: Elaboración propia Si dentro el espacio muestral, teniendo en cuenta la variable aleatoria definida, se define una función de probabilidades que determine la ocurrencia de los diferentes valores de la variable, se dice que se ha definido: P(x en A)

6. DISTRIBUCIÓN DE PROBABILIDADES 6.1. Introducción Sea un experimento aleatorio que permite definir un espacio muestral, sea x la variable aleatoria y P(x) las probabilidades respectivas. La función de probabilidad se obtiene cuando determinada una variable aleatoria para el espacio muestral, se dispone de las probabilidades correspondientes producidas en el experimento aleatorio. En el ejemplo anterior, la distribución de probabilidades es la que se muestra en la tabla 4.6.1. Tabla 4.6.1 Distribución de probabilidades del sexo del recién nacido Variable xi x1 = 0 x2 = 1 x3 = 2 x4 = 3

Casos del espacio muestral MMM MMH, MHM, HMM MHH, HMH, HHM HHH

P(xi) 1/8 3/8 3/8 1/8

Fuente: Elaboración propia Esta tabla corresponde a una distribución de probabilidades para variable aleatoria discreta.

6.2. Función de cuantía a) Propiedades La distribución de probabilidades, cuando la variable es discreta, se denomina función de cuantía y debe cumplir con: 95

• Cualquier P(x) debe ser un número real. • La suma de las distintas probabilidades de los valores de la variable debe ser 1: n

∑ P(x ) = 1 i

x =1

• En consecuencia, cualquier P(x) debe estar entre 0 ≤ P(x) ≤ 1 para

x = 0, 1, 2, ..., n.

Para determinar si una función es de cuantía debe cumplir con las condiciones anteriores. Para evaluar la segunda condición: “La suma de la función de cuantía en el recorrido de la variable debe sumar la unidad”, es necesario incorporar una variable de trabajo “k”, tal que: • •

Si k = 1, entonces la función propuesta es de cuantía. Si k ≠ 1, entonces debe corregirse la función de cuantía multiplicándola por dicha constante.

Ejemplo 1 Sea la siguiente función de cuantía: f ( x ) = 2x + 1

Para x = 0, 1, 2, 3.

a) Determine si es o no una función de cuantía; si no fuera, entonces corríjala. b) Halle la probabilidad de que x sea menor que 2. c) Halle la función de distribución y verifique el resultado anterior. Resolución • Se verifica que la función propuesta admite solo valores reales. • Debe cumplir la condición: “La suma de la función de cuantía en el recorrido de la variable debe sumar la unidad". Para verificar esta propiedad se usa una variable constante "k”:

k (1 + 3 + 5 + 7) = 1

k (16) = 1

k=

1 16

La función propuesta no es de cuantía porque no cumple la segunda propiedad. Por lo tanto debe modificarse. a) Entonces la nueva función es: P(x) =

2x + 1 para x = 0, 1, 2, 3. 16

b) Se pide: P( x < 2) = P( x = 0) + P( x = 1) =

1 3 4 + = = 0.25 16 16 16

Respuesta: Que la variable x tome un valor menor que dos, ocurre en un 25% de los casos. c) Se halla la función de distribución y se verifica. 3

Se sabe que:

3

1 (2x + 1 ) i =0 16

P (x ) = Σ P (x i ) = Σ i= 0

96

1

1 4 * (2x + 1 ) = 16 x = 0 16

P (x < 2 ) = ∑

donde:

La distribución de cuantía se muestra en la tabla 4.6.2. Tabla 4.6.2 Distribución de cuantía de la función: P(x) = xi 0 1 2 3

P(xi) 1/16 3/16 5/16 7/16 16/16

2x + 1 para x = 0, 1, 2, 3. 16

Pac(xi) 1/16 4/16 9/16 16/16

Fuente: Elaboración propia b) Representación gráfica Las distribuciones de probabilidades para variable aleatoria discreta pueden ser representadas mediante un diagrama de barras, circular o rectangular, usando los valores de probabilidad para el eje y y los valores de la variable para el eje x. También pueden ser representadas mediante diagramas acumulados de probabilidades. Diagrama de barras Se muestra en el gráfico 4.6.1 el diagrama de barras para la función del ejemplo anterior. Gráfico 4.6.1. Diagrama de barras para la función: P(x) =

97

1 (2x + 1) para x = 0, 1, 2, 3. 16

50% 45% 40%

P(xi) [%]

35% 30% 25% 20% 15% 10% 5% 0% 0

1

2 xi

Fuente: Elaboración propia

98

3

Ejemplo 2 Si la probabilidad de que cualquier elector registrado (seleccionado al azar de las listas oficiales) vote en una elección determinada es de 0.70, ¿cuál es la probabilidad de que dos de cinco electores registrados voten en la elección? Se ha determinado que para resolver este problema se puede usar la siguiente función de

5

cuantía: f ( x ) =  (0.7) x (1 − 0.7) 5 − x para x signo ! significa factorial y puede

x!= (x − 1)(x − 2)( x − 3)K (3)(2)(1)

5 5! . El x = 0, 1, 2, 3, 4, 5 , donde:   =  x  x!(5 − x )! ser

hallado

por

la

siguiente

ecuación:

Resolución •

Primero se debe verificar si la función propuesta cumple las propiedades de una de cuantía o no. Para ello se halla las probabilidades para cada valor de la variable y se n

verifica si cumple:

∑ P(x ) = 1. i

x =1

5 f ( x = 0) =  (0.7)0 (1 − 0.7)5− 0 = 0.0024 0  5 f ( x = 2) =  (0.7) 2 (1 − 0.7)5− 2 = 0.1323  2

5 f ( x = 1) =  (0.7)1 (1 − 0.7)5 −1 = 0.0284 1 5 f ( x = 3) =  (0.7)3 (1 − 0.7)5− 3 = 0.3087  3

 5 f ( x = 4) =  (0.7) 4 (1 − 0.7)5 − 4 = 0.3602  4

5 f ( x = 5) =  (0.7)5 (1 − 0.7)5 −5 = 0.1681 5

k (0.0024 + 0.0284 + 0.1323 + 0.3087 + 0.3602 + 0.1681) = 1

k =1

Se verifica que es función de cuantía. La distribución es la que se muestra en la tabla 4.6.3. Tabla 4.6.3 Distribución de cuantía de la binomial b(x, n = 5, p = 0.7) X 0 1 2 3 4 5 Total

P(X) 0.0024 0.0284 0.1323 0.3087 0.3602 0.1681 1

Fuente: Elaboración propia

99



Ahora si se puede calcular la probabilidad pedida, que no es otra cosa que la probabilidad para x = 2: 0.1323

Existe una probabilidad de 13.23% de que de cinco personas elegidas al azar dos voten en la elección. La gráfica de barras que corresponde a esta función de cuantía es observada en el gráfico 4.6.2. Gráfico 4.6.2 Diagrama de barras de la binomial b(x, n = 5, p = 0.7) 0.40 0.35 0.30

P(X)

0.25 0.20 0.15 0.10 0.05 0.00 0

1

2

3

4

5

Numero de sucesos

Nota: A esta distribución de cuantía se denomina distribución binomial.

6.3. Función de densidad a) Propiedades La distribución de probabilidades de una variable aleatoria continua, se denomina función de densidad y debe cumplir con: • f(x) ≥ 0 para -∞ < x < ∞ • La integral de la función en el recorrido de la variable debe ser igual a 1:





−∞

f ( x ) dx = 1

La evaluación de una función de densidad se efectúa determinando el cumplimiento de las condiciones anteriores. La segunda condición requiere incorporar la variable de trabajo “k”. 100

Se consideran las condiciones introducidas para el valor de k, a fin de determinar si la función propuesta es de cuantía. Ejemplo 1

f ( x ) = 2x + 1

Sea la siguiente función de densidad:

Para 0 ≤ x ≤ 3

a) Determine si es o no una función de densidad; si no fuera, entonces corríjala. b) Halle la probabilidad de que x sea menor que 2. c) Halle la función de distribución y verifique el resultado anterior. Se procede de la siguiente manera: • Se verifica si la función propuesta admite solo valores reales. • Debe cumplir la condición: “La integral de la función en el recorrido de la variable debe ser igual a 1”. Es decir:

Entonces:

3

3

0

0

1 = ∫ k * (2x + 1 ) dx = k * ( x 2 + x ) | = 9k + 3k = 12k

k=

1 12

a) La función propuesta no es de densidad porque no cumple la segunda propiedad. Por lo tanto debe modificarse. Entonces la nueva función es:

P(x) =

b) Se pide:

f (x < 2 ) =

1 12



2

0

2x + 1 para 0 ≤ x ≤ 3 12

(2x + 1 ) dx =

6 = 0.5 12

Respuesta: Que "x" sea menor que 2 ocurre en el 50 % de los casos. c) Se verifica así: 1

1 2 * ∫ (2x + 1 ) dx = 12 0 12 2

4 1 * ∫ (2x + 1 ) dx = 12 12 1 3

1 6 * ∫ (2x + 1 ) dx = 12 2 12 La distribución de densidad resultante es mostrada en la tabla 4.6.4. 101

Tabla 4.6.4 Distribución de densidad de la función: P(x) = Li-1 - Li 0-1 1’ - 2 2’ - 3

2x + 1 para 0 ≤ x ≤ 3 12

f (x) 2/12 4/12 6/12 12/12=1

Fuente: Elaboración propia b) Representación gráfica La representación gráfica de una distribución de densidad se realiza mediante un histograma de probabilidades (ver Gráfico 4.6.3). Histograma Gráfico 4.6.3 Histograma de probabilidades de: P(x) =

1 (2x + 1) para 0 ≤ x ≤ 3 12

60% 50%

P(xi) [%]

40% 30% 20% 10% 0% 0-1

1-2

2-3

Li-1 - Li

Fuente: Elaboración propia Ejemplo 2 Se ha descubierto que el tiempo de espera (en minutos) para que una persona pueda acceder a conectarse a internet sigue la siguiente función de densidad:

f ( x ) = x 2 − 6x + 10

para 102

0.25 ≤ x ≤ 1.5

a) Determine la probabilidad que alguien espere menos de un minuto. b) Determine la probabilidad que alguien espere por lo menos un minuto. Resolución •

Primero se verifica si la función es realmente una de densidad, realizando la comprobación de la propiedad:





−∞

f ( x ) dx = 1 . k



1.5

0.25

( x 2 − 6 x + 10) dx = 1 1.5

 x3  k − 3x 2 + 10x  =1  3  0.25 192  1355  k= k  =1 1355  192  Se verifica que la función no era de densidad, y había que corregirla, del siguiente modo:

f (x) = •

192( x 2 − 6 x + 10) 1355

para

0.25 ≤ x ≤ 1.5

Ahora si se procede a determinar lo que se pide. 1

 192( x 2 − 6 x + 10)  192  x 3  − 3x 2 + 10 x  dx = = 0.7107 a) P( x < 1) = ∫   0.25 1355 1355  3  0.25   1

Existe una probabilidad de 71.07% de que una persona se conecte al internet en menos de un minuto. 1.5

b) P( x ≥ 1) =

1.5



1

192( x 2 − 6x + 10)   192  x 3  − 3x 2 + 10x  = 0.2893 = dx   1355 1355  3   1

Existe una probabilidad de 28.93% de que una persona espere para conectarse al internet un minuto o más tiempo.

103

EJERCICIOS DE CLASE Experimento aleatorio y determinístico 1. Determine cuáles de los siguientes experimentos son determinísticos o aleatorios. a) Un alumno realiza un examen de opción múltiple, en el cual cada pregunta consta de 3 respuestas, de las cuales sólo una es correcta. Cada pregunta es elegida mediante bolos. El examen consta de 2 preguntas. Se sabe que el alumno no estudió para este examen. ¿Cuál es la probabilidad de que responda correctamente las dos preguntas? b) Una empresa que fabrica cereales de distinto tipo, quiere probar si su nuevo cereal es significativamente diferente en sabor que los anteriores que ha producido. Para ello, realiza una prueba con varios clientes. A cada uno se les da a probar 5 cereales, de los cuáles uno es el nuevo. De 7 clientes, 6 acertaron al nuevo cereal. ¿Cuál es la probabilidad de que de 3 clientes, uno acierte al nuevo cereal? c) Se sabe que una máquina para envasar cierto producto líquido, no llena el 100% de las latas con la cantidad de líquido debida: de 20 latas (que constituyen la producción diaria), 4 están mal llenadas. Si se escogieron 4 latas al azar de la producción del día de hoy, ¿qué probabilidad hay que encuentren por lo menos una que esté mal llenada? Determinación del espacio muestral 2. Determine el espacio muestral de los experimentos de la pregunta 1, que sean aleatorios. Determinación de una distribución de variable aleatoria discreta 3. Halle la distribución de probabilidades para los experimentos de la pregunta 1 que sean aleatorios y determine las probabilidades que se piden. Función de cuantía 4. Sea la siguiente función de cuantía: f (x) = e− x x = 0,1, 2,3, 4,5 , que determina la probabilidad de la demanda diaria de un artículo que se vende a 2 $us. por unidad. a) b) c) d) e) f) g)

Corrija la función, de modo que cumpla las propiedades de una función de cuantía. Halle la distribución de probabilidad. Realice el diagrama de barras de probabilidades. Realice el diagrama acumulado de probabilidades. Halle la probabilidad de que la demanda del artículo sea de 4 unidades. Halle la probabilidad de que la demanda del artículo sea de a lo más 3 unidades. Halle la probabilidad de que la demanda del artículo sea de al menos 2 unidades.

104

Función de densidad 5. Sea la función de densidad: f (x) = e precio unitario de un artículo (en $us.). a) b) c) d) e)



x 2

0 ≤ x ≤ 4,

que relaciona la probabilidad del

Corrija la función, de modo que cumpla las propiedades de una función de densidad. Halle la distribución de probabilidad. Realice el histograma de probabilidades. Realice la ojiva de probabilidades. Halle la probabilidad de que el precio del artículo sea de al menos 3.5 $us.

105

EJERCICIOS PROPUESTOS 1. Dé una lista de los posibles resultados que se consiguen al lanzar dos dados uno tras otro. Dibuje el arboligrama y un cuadro de doble entrada. 2. ¿Cuáles de los siguientes resultados son mutuamente excluyentes en el lanzamiento de dos dados? a) Un total de 5 y un 5 en un dado. b) Un total de 7 y un número par de puntos en ambos dados. c) Un total de 10 puntos y un 4 en un dado. 3. Una pastelería ofrece pasteles con decoración especial para cumpleaños, bodas y otras ocasiones. También tiene pasteles normales en su tienda. En la tabla que sigue se proporciona el número total de pasteles vendidos al día y las probabilidades correspondientes. Nº de pasteles Probabilidad vendidos/día 12 0.25 13 0.40 14 0.25 15 0.10 a) Complete la tabla y diga de qué tipo de distribución se trata. b) Realice una gráfica de la distribución. c) ¿Cuántos pasteles venderá al día, si tomamos en cuenta la mayor probabilidad? 4. Como se sabe, la respuesta a una pregunta de verdadero o falso es correcta o incorrecta. Considere que un examen está formado por 4 preguntas de este tipo y un estudiante no sabe nada sobre el tema. a) Construya la tabla de distribución de cuantía. b) ¿Cuál es la probabilidad de que el estudiante responda todas las preguntas mal? c) ¿Cuál es la probabilidad de que el estudiante responda por lo menos una bien? 5. Dada la siguiente función:

f ( x ) = 3x 2 + 5 x + 4

Para 0 ≤ x ≤ 3

a) Determine si es o no una función de densidad. Si no es, corríjala. b) Halle la probabilidad de que x sea menor que 2. c) Halle la función de distribución y grafíquela. d) Realice los pasos a) hasta c) para el caso de una distribución discreta con x = 0, 1, 2, 3. 6. El Ministerio de Informaciones sobre asuntos políticos emite 17 de cada 20 noticias para evitar la disminución de imagen del gobierno que representa. Se seleccionan 3 noticias emitidas por dicho Ministerio al azar. 106

a) Cuál es la probabilidad de que se encuentren 2 noticias que vayan en desmedro de la imagen del gobierno? b) Cuál es la probabilidad de que puedan encontrarse a lo más 2 noticias que cuiden la imagen del gobierno? 7. En Alke se acaba de recibir un embarque de 10 aparatos de TV. Poco después de recibirlos, el fabricante llamó para informar que por descuido habían enviado tres aparatos defectuosos. Se decidió probar dos de éstos. ¿Cuál es la probabilidad de que ninguno de los dos esté defectuoso?. 8. Un profesor tiene un conjunto de 15 preguntas de opción múltiple referente a Estadística I. Cuatro de estas preguntas se relacionan con distribuciones de probabilidades. ¿Cuál es la probabilidad que al menos una de estas preguntas sobre distribuciones de probabilidad aparezca en el examen de tres preguntas del próximo lunes? 9. En un día veraniego muy caluroso, 10% de los trabajadores de producción de una empresa están ausentes del trabajo. Se van a seleccionar al azar 3 obreros para un estudio especial a profundidad sobre el ausentismo. a) ¿Cuál es la variable aleatoria en este problema? b) ¿Tal variable es discreta o continua? ¿Por qué? c) ¿Cuál es la probabilidad de seleccionar al azar 3 nombres de trabajadores y descubrir que ninguno está ausente? d) Represente la distribución mediante una gráfica. 10. Entre los quince solicitantes para tres puestos en un periódico, diez son graduados de universidad. Si las selecciones se hacen al azar. a) Determine la distribución de probabilidad, definiendo la variable como el número de graduados de universidad que solicitan los puestos. b) ¿Cuál es la probabilidad de que los puestos sean cubiertos por menos de 2 graduados de universidad? 11. El consejo directivo de su empresa está formado por 12 integrantes, 3 de los cuales son mujeres. Se va a redactar un nuevo manual de políticas y procedimientos para la empresa. Debe seleccionarse un comité de 3 en forma aleatoria entre el consejo, para que escriban el manual. a) ¿Cuál es la probabilidad de que todos los integrantes del comité sean hombres?. b) ¿Cuál es la probabilidad de que al menos un elemento del comité sea mujer?. c) Halle la probabilidad de que por lo menos 2 personas sean mujeres.

107

EJERCICIOS PARA EXAMEN 1. En La UPB, el jefe de Ciencias Exactas quiere contratar a docentes para que se hagan cargo de los paralelos de Matemáticas para Ingeniería II y para Matemáticas II (ambas se imparten en el mismo horario) en el próximo módulo. Se han presentado 8 personas y obtuvieron el mismo puntaje en la clase magistral: 2 son doctores, 5 son masters y uno es licenciado en Matemáticas. a) Construya la distribución de probabilidad, donde la variable aleatoria sea el número de masters contratados para las cátedras. b) Halle la probabilidad de que por lo menos una de las cátedras sea cubierta por masters. c) Halle la probabilidad que ninguna de las cátedras sea cubierta por licenciados. 2. La duración de una batería está dada por la siguiente función (en años): 2

x − x2 e 2π

f ( x) =

Si se la instala correctamente y se le realiza un mantenimiento adecuado, la batería generalmente dura 5 años. El comerciante generalmente ofrece una garantía de un año. a) Construya la tabla de distribución de probabilidad del tiempo de vida de una batería, corrigiendo antes la función de densidad. b) ¿Cuál es la probabilidad de que la batería falle después de que el tiempo de garantía ha fenecido?. c) Hallar la probabilidad que la batería dure más de 4 años. 3. Un empresario quiere contratar a dos expertos en finanzas. Luego de entrevistar a 50 personas, aprobó para el puesto a 8 de ellas: dos expertos de EUA, uno de Alemania, tres de Bolivia y dos de Colombia. Si elige a las personas al azar: a) Halle la probabilidad de contratar a lo más un experto de Bolivia para el puesto. b) Halle la probabilidad de contratar como mínimo a un experto de Alemania para el puesto. 4. El tiempo de producción en horas, para fabricar un zapato de vestir para varón está dado por la siguiente ecuación: f ( x) =

10 + x 4 + 8 x 2 − 5 . Generalmente el tiempo de fabricación x3

de este tipo de zapato está entre 2 y 5 horas. a) Pruebe si es función de densidad y halle su distribución. b) Cuál es la probabilidad de que un empleado fabrique el zapato en más de 3 horas?. 5. El docente de Estadística tiene un problema de límite de alumnos en su materia este semestre. Tiene 40 alumnos y quiere transferir a 3 alumnos a la clase de la tarde. 30 alumnos no pueden asistir a la clase de la tarde por imposibilidad en sus horarios. Para 108

resolver este asunto, el docente elegirá al azar de los 10 alumnos que no tienen excusa para la transferencia. Sabe que en ese grupo existen 6 personas repitentes. a) Presente la distribución de probabilidades del número de repitentes. b) ¿Cuál es la probabilidad de que el docente elija a por lo menos un repitente?. 6. Un estudiante se presenta a un examen oral, que consiste de 2 preguntas. El profesor preparó el examen para que el alumno eligiera entre 5 preguntas de distribuciones discretas de probabilidad, 3 preguntas de distribuciones de frecuencia y 4 de distribuciones continuas de probabilidad. a) Halle la probabilidad de que el alumno tenga que contestar al menos una pregunta sobre distribuciones discretas de probabilidad. b) Halle la probabilidad de que el alumno tenga que contestar 2 preguntas sobre distribuciones de frecuencia.

109

CAPÍTULO 5 ESTADÍGRAFOS DE POSICIÓN INDICADORES DE TENDENCIA CENTRAL 1. INTRODUCCIÓN La información que contiene cualquiera de las distintas formas de distribución de frecuencias o probabilidades sobre los valores de una variable, es posible reducirla o condensarla utilizando estadígrafos o indicadores de posición central. Ejemplo 1: Para describir la edad indicadora, en forma resumida, de los alumnos que hacen el pre-universitario, se dice que tienen alrededor de 18 años. Ejemplo 2: Para describir la temperatura en Cochabamba se dice que el promedio es de 24oC, es decir un clima templado. Los principales indicadores de tendencia central son: • • • • •

Media aritmética Moda Mediana Media armónica Media geométrica

Las distribuciones de frecuencia de atributos, si son de atributo nominal, pueden expresarse en forma resumida usando la frecuencia o la moda, en cambio si son de tipo ordinal, la información queda resumida mediante la moda o mediana. Las distribuciones de frecuencia de variable, cualquiera fuese el tipo (I, II o III), pueden resumir la información usando cualquiera de los 5 indicadores antes mencionados.

2. MEDIA ARITMÉTICA 2.1. Definición Es un valor determinado en algún punto del recorrido de la variable. Este punto resulta ser el centro de gravedad de la distribución. En general se define como el valor que resulta de dividir los valores registrados de la variable entre el número de ellos. Este valor llamado media aritmética se simboliza por: n

x , M[ x ], µ =

∑x i =1

n

i

=

108

x1 + x 2 + K + x n n

2.2. Determinación de la media aritmética a) Tipo I La media en distribuciones tipo I se determina aplicando la definición general. Ejemplo Sea el peso en kg. de 5 hombres: 70

65

75

80

71

Determine la media aritmética, que equivale al peso medio. Resolución Se sabe que: x =

∑x

i

n

Aplicando los valores del problema, se tiene:

x=

70 + 65 + 75 + 80 + 71 361 = = 72.5 5 5

Conclusión: El peso medio de los 5 hombres es de 72.5 Kg. Nota: La media aritmética anterior se llama también: media aritmética de distribución no ordenada o no ponderada. b) Tipo II En el cálculo de la media aritmética en distribuciones tipo II, se aplica la expresión anterior añadiendo pesos o ponderaciones: n

x=

∑x

i

ni

i =1

n

donde ni son las ponderaciones (ni = frecuencia absoluta). También pueden utilizarse los hi (frecuencia relativa): n

x = ∑ xi hi i =1

Una manera fácil de determinarla es efectuando operaciones en la tabla de distribución de frecuencias de la siguiente manera: 109

• Se multiplica la primera columna (xi) por la segunda columna (ni). Este producto se anota en la tercera columna. La suma de dicho producto se divide entre el tamaño de población o universo (ver tabla 5.2.1). Tabla 5.2.1 Cálculo de la media aritmética en distribuciones tipo II xi x1 x2 : xn

ni n1 n2 : nn n

xi * ni x1 * n 1 x2 * n 2 : xn * n n ∑ xi * ni

Fuente: Elaboración propia tal que: x =

∑x

i

ni

n

c) Tipo III La expresión de cálculo de la media aritmética en una distribución de frecuencias tipo II se aplica también al caso de hallar dicho estadígrafo en una distribución tipo III, si acaso esta distribución se la convierte a tipo II. La transformación mencionada se efectúa de la forma en la que se observa en la tabla 5.2.2. Tabla 5.2.2 Transformación de la tabla Tipo III a tipo II tipo III Li-1 - Li Lo - L1 L1 - L2 : Ln-1 - Ln

transformada a

tipo II xi = (Li + Li-1)/2 x1 x2 : xn

ni n1 n2 : nn ∑ ni = n

ni n1 n2 : nn ∑ ni = n

Fuente: Elaboración propia Dicha transformación se produce reemplazando los intervalos de clase por sus valores medios o marcas de clase (semisuma de los límites de cada intervalo). Ejemplo Los estudiantes de estadística, normalmente distribuyen el dinero que traen para sus gastos diarios de la siguiente manera (ver tabla 5.2.3). Halle la media aritmética 110

Tabla 5.2.3 Transformación de la distribución de gastos diarios de tipo III a tipo II .Li-1 - Li 1 - 5 5' - 13 13' - 21 21' – 31

xi = (Li + Li-1)/2 3 9 17 26

ni 11 9 12 8 40

ni 11 9 12 8 40

Fuente: Elaboración propia Se procede de la siguiente manera: • Para hallar la media aritmética en una distribución tipo III, es necesaria transformarla en una de tipo II (Como se realizó hace un momento). • En la distribución tipo II se hace el cálculo xi * ni en la columna 3 (ver tabla 5.2.4). Tabla 5.2.4 Cálculo de la media de la distribución de gastos diarios xi 3 9 17 26

ni 11 9 12 8 40

xi*ni 33 81 204 208 526

Fuente: Elaboración propia • Se divide la suma de la columna (3) entre la suma de la columna (2).

x=

526 = 13.5 Bs. 40

Conclusión: Los alumnos de Estadística en promedio tienen 13.15 Bs. para gastar diariamente. Nota: La media aritmética debe utilizarse cuando las distribuciones no tengan peso o ponderación en valores extremos.

2.3. Propiedades de la media aritmética Goza de las siguientes propiedades: 1ra Propiedad. La media aritmética de una constante, es la constante misma. En símbolos:

M[k ] = k 111

Demostración:

M[k ] =

∑ k ni n

n veces

=

k + k +K+ k n k = =k n n

2da Propiedad. La media aritmética de la variable más una constante es igual a media aritmética de la variable más la constante.

M[x + k] = x + k

En símbolos: Demostración:

M[x + k] =

∑ (x + k) n

=

i

n

∑x

i

ni

n

+

∑k n

i

n

= x+k

3ra Propiedad. La media aritmética de la variable multiplicada por una constante es igual a la media aritmética de la variable, multiplicada por dicha constante.

M[x k] = x k

En símbolos: Demostración:

M [k x ] =

∑k n n

i

=k

∑x

i

n

ni

=kx

Ejemplo El Centro de Estudiantes ha decidido aplicar una política de carácter social: subvencionar a los estudiantes en sus gastos diarios mediante alguna de las dos alternativas: a) Ofrecer a todos los alumnos la suma de 2.5 Bs. por día. b) Darles el 20% de lo que tiene cada uno como gasto diario. ¿Cuál de las dos alternativas recomendaría usted? Resolución Para comprender la aplicación de las propiedades, se resolverá aplicando las propuestas a la distribución. a) Si se aplica la 1ra alternativa. • Calcule (xi + 2,5) * ni en la tercera columna (ver tabla 5.2.5)

112

Tabla 5.2.5 Distribución de gastos diarios con subvención de 2.5 Bs/día xi+2.5 5.5 11.5 19.5 28.5

ni 11 9 12 8 40

(xi+2.5)*ni 60.5 103.5 234.0 228.0 626.0

Fuente: Elaboración propia • Divida la suma total de la tercera columna entre la segunda columna.

x + 2. 5 =

626 = 15.65 Bs. 40

Si se aplica la propiedad el cálculo es más sencillo que el anterior: M [ x + k ] = x + k Siendo que: Entonces:

x = 13.5

k = 2.5

M [ x i + 2.5] = 13.15 + 2.5 = 15.65

Verifica el resultado obtenido. b) Si se aplica la 2da alternativa a la distribución. • Calcule (1.2 * x) * ni en la tercera columna (ver tabla 5.2.6). Tabla 5.2.6 Distribución de gastos diarios con subvención del 20% diario xi*1.2 3.6 10.8 20.4 31.2

ni 11 9 12 8 40

(xi*1.2)*ni 39.6 97.2 244.8 249.6 631.2

Fuente: Elaboración propia • Divida la suma total de las columnas (3) y (2):

1. 2 x =

631.2 = 15.78 Bs. 40

Si se aplica la propiedad: M [ x * k ] = x * k 113

Siendo que:

x = 13.15

k = 1.2

Entonces:

M [1.2 x i ] = 1.2(13.15) = 15.78 Bs. Conclusión: Aunque la segunda alternativa da una media superior a la primera, se recomienda la primera alternativa, puesto que los pobres reciben igual que los ricos, en cambio en la segunda alternativa los ricos reciben más que los pobres, existiendo mayor desigualdad. 4ta Propiedad. La desviación de los valores de la variable respecto de la media aritmética en promedio es igual a cero. Desde el punto de vista geométrico, esta propiedad indica que la media aritmética es el centro de gravedad de la distribución. Si se denomina “z” a las desviaciones de la variable respecto de su media aritmética, la propiedad se expresa en símbolos de la siguiente manera: Si

z = xi − x

En efecto:

M [ z] =

M [ z] = M [ x i − x ] = 0

entonces:

∑z

i

ni

n

=

∑ (x

i

− x) n i n

=

∑x

i

n

ni



x∑ ni n

= x−

xn = x−x =0 n

Prueba Sea la distribución original donde x = 13.15 Bs. • Para verificar la propiedad se determina zi = xi - x en la cuarta columna. • Se calcula zi * ni en la quinta columna (ver tabla 5.2.7). Tabla 5.2.7 Comprobación de la cuarta propiedad de la media de la distribución de gastos diarios xi 3 9 17 26

ni 11 9 12 8 40

xi*ni 33 81 204 208 526

zi = x i - x - 10.15 - 4.15 3.85 12.85

zi * ni - 111.65 - 37.35 46.20 102.80 0

Fuente: Elaboración propia 5ta Propiedad. Si en una distribución de frecuencias de una variable, se considera importante distinguir dos o más grupos de tamaños n1 , n2 ,..., nk tal que n = n1 + n2 +...+ nk , con medias aritméticas x 1 , x 2 ,..., x k la media general de la distribución se obtiene de la siguiente manera:

114

k

x n + x 2 n 2 + Kx k nk = x= 1 1 n1 + n 2 + K n k

∑x

i

ni

i =1

n

Ejemplo Sea la distribución de frecuencias, de la cantidad de dinero que manejan los estudiantes, dada en la tabla 5.2.8. Tabla 5.2.8 Distribución de frecuencias de gastos diarios (Bs.) xi 3 9 17 26

ni 11 9 12 8 40

Fuente: Elaboración propia El Centro de estudiantes distingue 2 grupos distintos de tamaño n1 = n2 = 20. Determine la media de la distribución a partir de la determinación de las medias grupales. Resolución. a) Determine la media aritmética del primer grupo definiendo previamente su distribución (ver tabla 5.2.9. Tabla 5.2.9 Distribución de gastos diarios 1er grupo x1i 3 9

n1i 11 9 20

x1i * n1i 33 81 144

Fuente: Elaboración propia Dividiendo los totales de la columna (3) entre la columna (2):

x1 =

114 = 5.7 Bs. 20

b) Defina la distribución de frecuencia del 2do grupo y determine la media aritmética (ver tabla 5.2.10). 115

Tabla 5.2.10 Distribución de gastos diarios 2o grupo x1i

n1i 17 26

12 8 20

x1i * n1i 204 208 412

Fuente: Elaboración propia Divida los totales de la columna (3) entre la columna (2):

x2 =

412 = 20.6 Bs. 20

c) Conociendo la media aritmética de cada grupo y los correspondientes tamaños, la media general se calcula de la siguiente manera:

x=

x1 n1 + x 2 n 2 5.7(20) + 20.76(20) = = 13.15 Bs. n1 + n 2 20 + 20

Conclusión: La media general calculada, indica que por término medio, cada estudiante tiene 13.15 Bs. por día.

2.4. Esperanza matemática Indica el valor promedio que se desea obtener en una distribución de probabilidades. a) Función de cuantía Si la distribución probabilística es una función de cuantía, la esperanza matemática se obtiene mediante la siguiente expresión: n

E [ x ] = ∑ x i P(x i ) para x = 0,1, 2,K, n i =1

Ejemplo Sea la siguiente distribución de probabilidad de variable discreta formada a partir del siguiente experimento aleatorio: En el curso existen 5 mujeres, 3 de las cuales tienen cabello largo y 2 de cabello corto. Se quieren elegir al azar dos de ellas. Halle la esperanza matemática.

116

Tabla 5.2.11 Distribución de cuantía del número de señoritas de cabello largo xi 0 1 2

P(xi) 2/20 12/20 6/20 1

Fuente: Elaboración propia Resolución • Se calcula xi * P(xi) en columna (3) Tabla 5.2.12 Esperanza matemática (número de señoritas de cabello largo) xi 0 1 2

P(xi) 2/20 12/20 6/20 1

xi * P(xi) 0 12/20 12/20 24/20

Fuente: Elaboración propia • Luego:

E[x] =

24 = 1.2 20

Conclusión: Al elegir al azar 2 señoritas de cabello corto y largo, se espera obtener en promedio 1.2 señoritas de cabello largo. b) Función de densidad Si la expresión matemática es de función de densidad, la esperanza matemática se obtiene de la siguiente manera:

E[x] =





−∞

x i f ( x i ) dx para − ∞ ≤ x ≤ ∞

Ejemplo Sea la siguiente función de densidad: f ( x ) = matemática.

2x + 1 para 0 ≤ x ≤ 3 . Halle la esperanza 12

Resolución a) Se parte de la definición de esperanza matemática. 117

b) Se aplican los datos a la ecuación anterior: 3

1 E [x ] = ∫ x  (2x + 1 ) 12 0

3

1 2 3 1  54   2  dx = 12  3 x + x  = 12  3 + 9  = 2.15 0

Conclusión: El valor medio esperado en la distribución es 2.15. Nota: En general la media aritmética o la esperanza matemática, es un valor que se define dentro el recorrido de la variable.

3. MODA 3.1. Definición La moda es el valor de la variable que responde a la frecuencia más alta. Se dice también que es el valor de la variable más frecuente. Este estadígrafo de tendencia central se usa para resumir la información en el caso de distribuciones de atributo nominal, ordinal y en el caso de las variables discretas o continuas.

3.2. Determinación de la moda a) Tipo I En las distribuciones tipo I, no existe posibilidad de hallar la moda, por que dicha distribución se dice que es de tipo unitaria. b) Tipo II En las distribuciones tipo II, la moda se determina aplicando la definición. Ejemplo Sea la distribución de dinero que llevan los estudiantes por día (ver tabla 5.2.8) xi 3 9 17 26

ni 11 9 12 8 40

La moda de la cantidad de dinero es 17 Bs., por que es el valor de la variable que corresponde a la frecuencia más alta (n3 = 12). Conclusión: Lo más frecuente o usual es que los estudiantes tengan 17 Bs. para sus gastos diarios.

118

c) Tipo III La moda en distribuciones tipo III se halla de dos maneras: 1) Se transforma la distribución tipo III en tipo II, cambiando la columna de intervalos con una de marcas de clase y se aplica la definición de la moda. 2) Se aplica una fórmula empírica (Mo): • Si la distribución tipo III es de intervalo no constante:

n i +1 a i +1 Mo = L i −1 + (a ) n i +1 n i −1 i + a i +1 a i −1 donde:ai = Amplitud del intervalo de clase modal. Li-1 = Frontera inferior de la clase modal. El índice "i" corresponde al orden de la frecuencia más alta y Li-1 - Li al intervalo modal. • Si la distribución tipo III es de intervalo constante, la moda se determina aplicando la siguiente fórmula empírica:

Mo = Li −1 +

n i +1 (a i ) n i +1 + n i −1

Ejemplo Sea la distribución tipo III sobre la cantidad de dinero que tienen los estudiantes por día (ver tabla 5.2.8)

Fila i-1 Fila i Fila i+1

Li-1 - Li 1 - 5 5' - 13 13' - 21 21' - 31

ni 11 9 12 8 40

Frecuencia más alta

Halle la moda. Resolución • Se determina la frecuencia más alta: n3 = 12, donde el intervalo modal es: Li-1 - Li = 13 - 21 119

• Se determinan las frecuencias vecinas y la amplitud de sus intervalos: ni = 12 ni+1 = 8 ni-1 = 9

ai = 21-13 = 8 ai+1 = 21-13 = 10 ai-1 = 13-5 = 8

• Se reemplazan los datos en la fórmula empírica:

Mo = 13 +

8 10 8 9 + 10 8

(8) = 16.3

Conclusión: La cantidad de moda diaria es de 16.3 Bs. Lo más usual es que los estudiantes tengan 16.3 Bs. para sus gastos diarios.

3.3. Moda esperada La moda en una distribución de probabilidad, corresponde a aplicar las condiciones de un máximo. a) Función de cuantía Si f(x) es una distribución de cuantía, la moda se determina aplicando la definición. Ejemplo Sea la función de cuantía del número de señoritas de cabello largo (ver tabla 5.2.11) xi 0 1 2

P(xi) 2/20 12/20 6/20 1

Halle la moda esperada. Resolución a) Se encuentra el valor de probabilidad más alto: P(xi) = 12/20. b) El correspondiente valor de la variable es la moda: Moda = 1 Conclusión: Lo más usual es elegir a una señorita de cabello largo entre dos, cuando tenemos 5 señoritas, de las cuales 3 son de cabello largo.

120

b) Función de densidad Si f(x) es una distribución de densidad, se puede determinar la moda mediante tres procedimientos: 1) Aplicando el método para hallar un máximo absoluto en un intervalo. Consiste de los siguientes pasos: a) Halle las coordenadas de x de todos los puntos críticos de primer orden de la función en el intervalo a ≤ x ≤ b (Un punto crítico es aquel que se obtiene igualando a cero o a no existe la primera derivada de una función: f ' ( x ) = 0 b) Calcule f(x) en estos valores críticos y en los puntos extremos x = a y x = b. c) Seleccione el valor mayor de f(x) obtenido en el paso 2. Este es el máximo absoluto, que puede ser confirmado mediante el criterio de la segunda derivada: f ' ' ( x ) < 0 . Ejemplo Sea la siguiente función de densidad: f (x) =

3 ( −2x 2 + 4x ) para 0 ≤ x ≤ 2 . Halle la moda. 8

Resolución a) Se determina la primera derivada y se iguala a cero para obtener los puntos críticos (se toman en cuenta aquellos que se encuentran dentro el intervalo de la variable):

f '(x) = −4x + 4 = 0

x =1

b) Se calculan las ordenadas del punto crítico y de los puntos extremos:

x = 1 f ( x ) = 0.75 x = 0 f (x) = 0 x = 2 f (x ) = 0 c) Se elige el punto cuyo valor de su ordenada sea mayor. En este caso es el punto (1, 0.75). Esa es la moda. b) Se determina la segunda derivada para comprobar si el punto hallado es un máximo, mínimo o punto de inflexión:

f ''(x) = −4

>0

Máximo

Conclusión: La moda es 1. 2) Aplicando la fórmula empírica para intervalos constates o no constantes.

P i+1 a i+1 Mo = L i−1 + * ai P i+1 + P i −1 a i+1 a i −1

Mo = 121

P i+1 * + a i L i −1 P i+1 + P i−1

Ejemplo Sea la siguiente función de densidad: f (x ) =

1 (2 x + 1 ) 12

para 0 ≤ x ≤ 3 . La distribución

correspondiente se muestra en la tabla 4.6.4. Halle la moda. Li-1 - Li 0–1 1–2 2–3

P(xi) 2/12 4/12 6/12 12/12

Resolución a) Se determina la fila de clase modal: Fila 3. (Porque esa fila es la que tiene la probabilidad más alta) b) Se determinan los elementos de la fórmula empírica para la moda de intervalos constantes: Li-1 = 2

Pi-1 = 4/12

Pi+1 = 0

ai = 1

c) Se reemplazan los valores hallados en la fórmula:

Mo =

0 (1) + 2 = 2 0 + 124

Conclusión: La moda es 2. 3) Transformando la distribución tipo III en una tipo II mediante las marcas de clase y aplicando la definición de la moda. Ejemplo Sea la siguiente función de densidad: f (x ) =

1 (2 x + 1 ) 12

para 0 ≤ x ≤ 3 . Halle la moda. La

tabla es la 4.6.4. Li-1 - Li 0–1 1–2 2–3

xi =

Li −1 + L i 2

P(xi)

0.5 1.5 2.5

2/12 4/12 6/12 12/12

Resolución. a) Se transforma la distribución tipo III en tipo II como se ve en la tabla en la columna 2, mediante marcas de clase. 122

b) El valor correspondiente de la variable para la probabilidad más alta es la moda. Conclusión: La moda es 2.5. Nota: Se puede observar que existe diferencia entre el método b) y el c). Esto se debe a que en el último se realiza una aproximación. Nota: En una distribución de frecuencias o probabilidades, cuando existen dos o más valores que corresponden a la frecuencia más alta, se dice que la distribución es bimodal o multimodal. El valor de una distribución de frecuencias que corresponde a la frecuencia más baja, se denomina antimoda. Una distribución de frecuencias, puede tener 2 o más antimodas. Ejemplo Sea la distribución de gastos diarios de estudiantes de ingeniería de Producción dada en la tabla 5.3.1 . Halle la moda. Tabla 5.3.1 Distribución de gastos diarios de estudiantes de Ingeniería de Producción xi 3 9 17 26

ni 12 9 12 7 40

Fuente: Elaboración propia Esta distribución tipo II tiene dos modas: Mo = 3 y Mo = 17

4. MEDIANA 4.1. Definición Es un valor de la variable que permite distribuir en dos partes igualmente proporcionales a la distribución de frecuencias. De otra manera se dice que la mediana es un valor que supera a no más de 50% de los valores observados. La mediana es un estadígrafo de ubicación y permite determinar si un valor cualquiera de la variable forma parte del primer o del segundo grupo.

4.2. Cálculo de la mediana El procedimiento para su cálculo es diferente según el tipo de distribución para el que se desea hallar.

123

a) Tipo I Se distinguen 2 casos: 1) Si el número de términos de la distribución es impar Se procede de la siguiente manera: • Se ordenan los datos de la distribución en forma ascendente o descendente. • El valor de la mediana corresponde al término central, es decir:

Me = x n +1 2

Ejemplo Sea la cantidad de dinero que gastan diariamente 5 alumnos en el café: 8

10

6

5

12

10

12

Halle la mediana. Resolución • Se ordenan los datos en forma ascendente: 5

6

8

• Se busca el término central:

Me = x n +1 = x 5+1 = x 3 = 8 2

2

Conclusión: La mediana es 8, por que supera a no más del 50% de valores menores y es superado por no más del 50% de valores superiores. El 50% de los alumnos gastan menos de 8 Bs. diariamente en el café y el 50% restante gasta más. 2) Si el número de términos de la distribución es par • Se ordenan los datos de la distribución en forma ascendente o descendente. • El valor de la mediana es el promedio de los valores centrales previamente ordenados, es decir:

xn + xn Me =

2

2

+1

2

Ejemplo

Sea la cantidad de dinero que gastan diariamente 6 alumnos en el café. Halle la mediana. 124

8

10

6

5

12

17

8

6

5

Resolución • Se ordenan los datos en forma descendente: 17

12

10

• Se determinan los valores centrales:

x n = x 6 = x 3 = 10 2

2

x n = x 6 = x4 = 8 2

+1

2

+1

• La mediana es el promedio de los valores centrales:

Me =

10 + 8 =9 2

Conclusión: El valor 9 es la mediana, por que supera al 50% de los valores inferiores y es superado por el 50% de los valores superiores o mayores. Nota: En este caso puede observarse que cualquier valor en el intervalo 10 - 8, cumple con la definición de mediana. b) Tipo II El valor de la mediana en una distribución tipo II, se determina tomando en cuenta el siguiente procedimiento: • Se determinan los valores de la frecuencia absoluta acumulada (Ni). • Se calcula la mitad del universo (n/2) y se lo ubica entre dos valores de la frecuencia absoluta acumulada, tal que en símbolos corresponde a la siguiente expresión:

N i −1 ≤

n ≤ Ni 2

tal que si: • Ni > n/2, el valor xi correspondiente, es la mediana. • Si Ni = n/2, la mediana es: Me =

x i + x i+1 2

Ejemplo Sea la cantidad de dinero que disponen diariamente los estudiantes de Ingeniería Industrial. 125

xi 3 9 17 26

ni 10 9 13 8 40

Halle la mediana. Resolución • Halle los valores de la frecuencia absoluta acumulada en la columna 3.

Fila i-1 Fila i

xi 3 9 17 26

ni 10 9 13 8 40

Ni 10 19 32 40

n 2

= 20

• Calcule la mitad del universo:

n 40 = = 20 2 2 • Ubique el valor anterior entre dos consecutivos de la frecuencia absoluta acumulada:

N i −1 = 19 ≤

n = 20 ≤ Ni = 32 2

Se observa que: n/2=20 < Ni=32, entonces: xi=17 es la mediana Conclusión: El valor 17 es mediana por que supera al 50% de los valores inferiores y es superado por el 50% de los valores superiores o mayores. El 50% de los estudiantes tienen menos de 17 Bs. para gastar cada día y el 50% restante más de esa cantidad. Ejemplo Vuelva a calcular la mediana en la misma distribución transformada. xi 3 9 17 26

ni 11 9 12 8 40

126

Resolución • Halle los valores de la frecuencia absoluta acumulada en columna (3). xi 3 9 17 26

Fila i Fila i+1

ni 11 9 12 8 40

Ni 11 20 32 40

n 2

= 20

• Calcule la mitad del universo:

n 40 = = 20 2 2 • Ubique el valor anterior entre dos consecutivos de la frecuencia absoluta acumulada:

N i −1 = 11 ≤

n = 20 ≤ N i = 20 2

Se observa que: n/2=20 = Ni=20 Entonces se determina xi=9 y xi+1=17, la mediana es: Me =

9 + 17 = 13 2

Conclusión: El valor 13 es mediana por que supera al 50% de los valores inferiores y es superado por el 50% de los valores superiores o mayores. El 50% de los estudiantes gasta diariamente menos de 13 Bs. y el 50% restante más de esa cantidad. c) Tipo III En este tipo de distribución, la mediana se calcula utilizando una fórmula empírica:

n − N i −1 2 Me = Li −1 + (a i ) ni donde: ai = Ancho del intervalo de clase mediana Li-1 = Límite inferior de la clase mediana. Ejemplo Sea la distribución del dinero que manejan diariamente los estudiantes de Ingeniería Industrial.

127

Li-1 - Li 1 - 5 5' - 13 13' - 21 21' - 31

ni 11 9 12 8 40

Halle la mediana. Resolución • Halle los valores de la frecuencia absoluta acumulada en columna 3 y determine el valor n/2.

Fila i-1 Fila i

Li-1 - Li 1 - 5 5' - 13 13' - 21 21' - 31

ni 11 9 12 8 40

Ni 11 20 32 40

n 2

= 20

n 40 = = 20 2 2 • Conociendo Ni, defina el intervalo de la mediana como en los casos anteriores (Li-1 - Li) y calcule la amplitud de clase. Li-1 = 5

Ni = 11

ai = 8

ni = 9

• Reemplace valores en la fórmula empírica:

n − N i •1 20 − 11 (a i ) = 5 + ( 8) = 13 Me = Li •1 + 2 9 ni Conclusión: El valor 13 es mediana por que supera al 50% de los valores inferiores y es superado por el 50% de los valores superiores o mayores.

4.3. Mediana esperada La mediana esperada es el valor de la variable aleatoria que divide a una distribución de probabilidades en dos partes igualmente proporcionales. a) Función de cuantía El procedimiento para hallar la mediana esperada en una función de cuantía es el siguiente: • Se determina los valores de probabilidad acumulada. 128

• Se ubica el valor 0.5 entre dos valores consecutivos de probabilidad acumulada: Pac (x i −1 ) ≤ 0.5 ≤ Pac (x i ) , tal que si: • Pac (x i ) > 0.5

entonces

• Pac (x i ) = 0.5

entonces

Me = x i x + x i +1 Me = i 2

Ejemplo Sea la siguiente función de cuantía: f (x) =

1 (2x + 1) 16

x = 0, 1, 2, 3 . Halle la mediana

esperada. Resolución • Halle la distribución y sus probabilidades acumuladas:

Fila i

xi 0 1 2 3

P(xi) 1/16 = 0.0625 3/16 = 0.1875 5/16 = 0.3125 7/16 = 0.4375 16/16

Pac (xi) 0.0625 0.2500 0.5625 1.0000

0.5

• Ubique 0.5 entre dos valores de probabilidad acumulada:

Pac (x i −1 ) = 0.25 ≤ 0.5 ≤ Pac (x i ) = 0.5625 • Se cumple que: Pac (x i ) = 0.5625 > 0.5

entonces

Me = x i = 2

Conclusión: La mediana esperada es 2. Hay una probabilidad del 50% de que el valor de la variable adopte un valor menor a 2 y otro 50% que sea más alto que 2. b) Función de densidad La mediana esperada de una función de densidad puede ser calculada por tres métodos: 1) Mediante la siguiente integral: Me



−∞

Me

1

∫ f (x) dx = ∫ f (x) dx = 2

−∞ ≤ x ≤ ∞

Ejemplo Sea la siguiente función de densidad: f (x) =

1 (2x + 1) 12

129

0 ≤ x ≤ 3 . Halle su mediana

esperada Resolución • Se calcula la integral: Me

Me

1 1 2 1 1 2 ∫0 12 (2x + 1) dx = 12 (x + x) 0 = 12 (Me + Me) = 2

Me 2 + Me − 6 = 0 • Se resuelve la ecuación resultante: Me = 2

Me = −3

Conclusión: La mediana esperada de la distribución es 2. 2) Mediante la siguiente fórmula empírica para distribuciones tipo III:

Me = Li−1 +

0.5 − Pac (x i −1 ) (a i ) P(x i )

Ejemplo Se usará el ejemplo anterior. Se procede de la siguiente manera: • Obtenga la tabla tipo III de distribución de probabilidades y las probabilidades acumuladas:

Fila i Fila i+1

Li-1 - Li 0–1 1–2 2–3

P(xi) 2/12 = 0.1667 4/12 = 0.3333 6/12 = 0.5000 12/12

Pac(xi) 0.1667 0. 5000 1

0.5

• Ubique 0.5 entre dos valores de probabilidad acumulada: En este caso el valor coincide con la de la fila 2, que se constituye en la fila de clase mediana. • Determine los valores de la fórmula empírica: Li-1 = 1

Pac(xi-1) = 2/12

P(xi) = 4/12

ai = 1

• Reemplace los valores hallados en la fórmula empírica:

2 0.5 − 0.5 − Pac (x i −1 ) 12 (1) = 2 Me = Li −1 + (a i ) = 1 + 4 P(x i ) 12 130

Conclusión: La mediana esperada es 2. 3) Mediante la transformación de la distribución tipo III en tipo II, seguido del procedimiento para el cálculo de la mediana para esa distribución. Ejemplo Se seguirá usando el mismo ejemplo. Se procede de la siguiente manera: • Se transforma la distribución tipo III en tipo II mediante las marcas de clase (columna 2) y se obtienen las probabilidades acumuladas (columna 4): Li-1 - Li 0–1 Fila i 1–2 Fila i+1 2 – 3

xi 0.5 1.5 2.5

P(xi) 2/12 = 0.1667 4/12 = 0.3333 6/12 = 0.5000 12/12

Pac(xi) 0.1667 0. 5000 1

0.5

• Se ubica 0.5 entre dos valores de probabilidad acumulada: En este caso coincide con el valor de la fila 2 que es la fila de clase mediana. Por lo tanto la mediana se halla por medio de la siguiente fórmula:

Me =

x i + x i +1 1.5 + 2.5 = =2 2 2

Conclusión: La mediana esperada de la distribución es 2. Nota: Los tres métodos coinciden en el valor calculado de la mediana esperada.

5. MEDIA ARMÓNICA 5.1. Definición Es un valor de la variable que se determina como el valor recíproco medio de los valores recíprocos de la variable. Se la usa generalmente cuando se quiere determinar la tasa media de uso de un producto.

5.2. Determinación de la media armónica a) Tipo I Para una distribución tipo I, la expresión de cálculo es la siguiente:

H=

n n

1

∑x i=1

131

i

Ejemplo Una empresa que produce jaboncillo de tocador, desea averiguar el tiempo medio de duración, sabiendo que los datos obtenidos de 3 consumidores (en días) que utilizan habitualmente dicho jaboncillo, son: 30

20

25

Resolución • Se trata de una tasa de uso del bien, en consecuencia no se resuelve mediante la media aritmética, sino mediante la media armónica, es decir:

H=

3 3 900 = = = 24.3 ≈ 24 1 1 1 10 + 15 + 12 37 + + 30 20 25 300

Conclusión: La duración media del jaboncillo es de 24 días. b) Tipo II y III En una distribución de frecuencia tipo II o III, la media armónica se calcula de la siguiente manera:

H=

n n

1

∑x i=1

* (n i )

i

Ejemplo 1 Hecha una encuesta preguntando a 100 estudiantes lo que les acostumbra durar una pastilla de jabón de una determinada marca, se han obtenido los resultados mostrados en la tabla 5.5.1. Halle la media armónica. Tabla 5.5.1 Distribución de frecuencias de la duración de jabones Duración en días Li-1 - Li 5 – 10 10’ – 15 15’ – 20 20’ – 25

xi 7.5 12.5 17.5 22.5

Número de contestaciones ni 24 46 19 11 100

Fuente: Elaboración propia

132

Resolución • Se trasforma la distribución tipo III en tipo II, mediante las marcas de clase, como se ve en la tabla (columna 2). • Se calcula la media armónica mediante la fórmula:

H=

100 = 11.83 ≈ 12 1 1 1 1 (24) + (46) + (19) + (11) 7.5 12.5 17.5 22.5

Conclusión: La duración media de la pastilla de jabón que usan los estudiantes es de 12 días. Ejemplo 2 Suponga que una persona ha viajado de Cochabamba a Santa Cruz a una velocidad de 80 km/h. Y que ha efectuado el regreso a una velocidad de 60 km/h. ¿A qué velocidad media ha realizado el trayecto total de ida y vuelta? Resolución La media aritmética daría como respuesta:

x=

80 + 60 = 70 km / h 2

Este resultado es erróneo. El tiempo invertido en recorrer la distancia D entre Cochabamba a Santa Cruz (468 km.) sería

D D y al regreso . La velocidad media en la ida y vuelta será: 80 60

Velocidad =

dis tan cia 2D 2 = = = 68.57 km / h D D 1 1 tiempo + + 80 60 80 60

La media armónica da la respuesta correcta.

6. MEDIA GEOMÉTRICA 6.1. Definición La media geométrica es la raíz enésima del producto de los valores considerados de una variable representada por: n

G = x1 * x 2 * . . . * x n = n ∏ xi n

i =1

133

Generalmente es una mejor medida que la media aritmética cuando los datos están en porcentajes o unidades relativas.

6.2. Determinación de la media geométrica a) Tipo I La definición anterior se utiliza en caso de obtener la media geométrica en la distribución tipo I. Ejemplo En la banca comercial de nuestra ciudad en los últimos dos años se han registrado los siguientes tipos de interés (expresados en porcentaje) para los ahorros a plazo fijo observados en una muestra de 5 libretas. Halle la media de la tasa de interés. 14

12.5

9.3

11

13.5

Resolución Reemplazando los datos en la fórmula se obtiene:

G = 5 14 *12.5*9.3*11*13.5 = 11.9 Conclusión: La tasa media de interés para los ahorros a plazo fijo es de 11.9 %. b) Tipo II o III En distribuciones tipo II y III, la media geométrica se obtiene aplicando la siguiente definición: n

n1 1

n2 2

G = x * x *...* x n

nk k

= n ∏ x in i i =1

Ejemplo En la banca comercial de nuestra ciudad en los últimos dos años se han registrado los siguientes tipos de interés (expresados en porcentaje) para los ahorros a plazo fijo observados en una muestra de 40 libretas de familias (ver tabla 5.6.1). Halle el interés medio. Tabla 5.6.1 Distribución de frecuencias de tasas de interés Interés 5-7 7’ - 10 10’ - 12 12’ - 15

xi 5 8.5 11 13.5

Familias 2 5 25 8

Fuente: Elaboración propia 134

Resolución • Se transforma la distribución tipo III en tipo II mediante marcas de clase (columna 2). • Se reemplazan los datos en la fórmula:

G = 40 52 *8.55 *1125 *13.58 = 10.7 Conclusión: El interés medio de los depósitos a plazo fijo es de 10.7%.

6.3. Determinación del incremento porcentual promedio La media geométrica también puede usarse para determinar el incremento porcentual promedio en ventas, producción u otras actividades o series económicas de un periodo a otro. La fórmula es la siguiente:

 Valor al final del periodo  G =  n −1  −1 Valor al principio del periodo   Ejemplo La población de un lugar en 1980 fue de 2 personas y el número estimado para 1990 fue de 22. ¿Cuál es el incremento porcentual promedio anual estimado de esta población? Resolución Se cuenta cuantos periodos se tienen entre los años. En este caso n = 11. Se aplica la fórmula:

 22  G = 11−1  − 1 = 0.27 2   Conclusión: La media geométrica del incremento anual en esta población es del 27%.

7. SELECCIÓN DEL ESTADÍGRAFO DE POSICIÓN ADECUADO Para elegir el estadígrafo de posición que mejor se adecue a cada distribución, se deben tomar en cuenta las siguientes consideraciones: • Cuando la distribución es simétrica o levemente asimétrica, cualquiera de los estadígrafos es adecuado, prefiriéndose siempre la media aritmética. • Cuando la distribución es muy asimétrica, la media no debe usarse como representativa, porque se ve afectada por valores extremos de la variable. Es mejor usar la mediana, ya que no se ve afectada por valores extremos. • Si la distribución es bimodal o multimodal, la moda no debe usarse como representativa. Generalmente la moda se usa para distribuciones de atributo nominal u ordinal. 135

• Si los datos están en porcentajes, y éstos se incrementan en forma multiplicativa, la mejor medida de posición es la media geométrica. • Si se quiere hallar la media de la tasa de uso de un bien, es mejor usar la media armónica. Si se comparan las tres medias que se han visto en el capítulo: aritmética, geométrica y armónica, dan valores de acuerdo a su magnitud del siguiente modo:

armónica (H) < geométrica (G ) < aritmética ( x ) La media aritmética da mucho relieve a los elementos grandes de una serie estadística, por el contrario, las medias geométrica y armónica destacan la influencia de los valores pequeños y reducen la influencia de los valores grandes.

8. TEORÍA DE LA DECISIÓN. APLICACIONES DE LA ESPERANZA MATEMÁTICA1 8.1. Introducción En gran medida, el éxito o el fracaso que experimenta una persona en la vida depende de las decisiones que toma. La persona que administró el lanzamiento al espacio del trasbordador espacial Callenger no está trabajando más en la NASA. La persona que diseñó el número en ventas Mustang, llegó a ser presidente de la Ford. ¿Por qué y cómo esta gente realizó sus respectivas decisiones? En general, ¿qué es lo que involucra tomar buenas decisiones? Una decisión puede marca la diferencia entre una carrera de éxito y una de fracaso. La teoría de la decisión es un enfoque analítico y sistemático para el estudio de la toma de decisiones. Presentaremos los modelos matemáticos más usados para ayudar a los gerentes a tomar las mejores decisiones. ¿Qué es lo que marca la diferencia entre una buena y una mala decisión? Una buena decisión es aquella que está basada en la lógica, considera todos los datos disponibles y las posibles alternativas, y aplica un enfoque cuantitativo de lo que se está describiendo. Ocasionalmente una buena decisión desemboca en un resultado inesperado o desfavorable, pero si es realizada apropiadamente, ésta es aún una buena decisión. Una mala decisión es una que no está basada en la lógica, no usa toda la información disponible, no considera todas las alternativas y no emplea apropiadamente técnicas cuantitativas. Si realizas una mala decisión, pero por suerte ocurre un resultado favorable, la decisión sigue siendo una mala decisión. Si bien ocasionalmente buenas decisiones producen malos resultados, en el largo plazo, usando la teoría de la decisión se obtendrán resultados exitosos.

8.2. Los 6 pasos en la teoría de la decisión Sea que estés decidiendo sobre cómo conseguir un buen corte de cabello, construir una planta, o comprar una nueva cámara, los pasos para realizar buenas decisiones son básicamente los mismos.

1 Esta porción ha sido extractada totalmente del libro: Quantitative Analysis for Management. Render y Stair, 1997.

136

Los 6 pasos son: 1. 2. 3. 4.

Definir claramente el problema. Configurar una lista de posibles alternativas. identificar los posibles resultados. Configurar una lista de beneficios o ganancias para cada combinación de alternativas y resultados. 5. Seleccionar uno de los modelos matemáticos de la teoría de decisiones. 6. Aplicar el modelo y realizar la decisión. Usaremos el caso de la Compañía Thompson como un ejemplo para ilustrar los pasos de esta teoría. Jhon Thompson es el fundador y presidente de la Compañía Maderera Thompson, una firma rentable ubicada en Pórtland, Oregon.

Paso 1. El problema que Jhon identificó es expandir su línea de productos, produciendo y comercializando un nuevo producto; cabañas de almacenamiento para el patio trasero. Paso 2. Thompson deberá generar las alternativas que están disponibles. En la teoría de la decisión, una alternativa está definida como un curso de acción o una estrategia que puede ser escogida por el tomador de decisiones. Jhon decide que sus alternativas son construir: 1) Una grande y nueva planta para producir las cabañas de almacenamiento, 2) una planta pequeña, o 3) ninguna planta (esto es, tiene la opción de no desarrollar la nueva línea de producto. Uno de los más grandes errores que los tomadores de decisiones cometen es omitir algunas alternativas importantes. Si bien, una alternativa particular puede ser juzgada como no apropiada o de poco valor, puede convertirse en la mejor elección. Paso 3. El tercer paso involucra identificar los posibles resultados de las varias alternativas. El criterio para la acción está establecido para este momento. Thompson determina que hay solamente dos posibles resultados: el mercado para las cabañas de almacenamiento puede ser favorable, esto es, que haya una alta demanda para el producto, o puede ser desfavorable, es decir una baja demanda para las cabañas. Un error común es olvidarse de algunos de los resultados posibles. Los tomadores de decisiones optimistas tenderán a ignorar los malos resultados, mientras que los administradores pesimistas descartarán los resultados favorables. Si no se consideran todas las posibilidades, no se podrá realizar una decisión lógica y los resultados pueden ser indeseables. Si no se piensa en lo peor que puede pasar, podrás diseñar otro automóvil Edsel. En la teoría de la decisión, aquellos resultados sobre los cuales el tomador de decisiones tiene poco o ningún control son llamados “estados de la naturaleza”. Paso 4. Thompson tiene que expresar el beneficio resultante de cada posible combinación de alternativas y resultados. Puesto que en este caso él quiere maximizar sus ganancias, puede usar el beneficio para evaluar cada consecuencia. Por supuesto, no toda decisión puede estar basada en el dinero solamente –cualquier medio apropiado de medir el beneficio es aceptable. En la teoría d ela decisión, llamamos a tales beneficios o recompensas “valores condicionales”. John ha evaluado los beneficios potenciales asociados a los varios resultados. Con un mercado favorable, piensa que una gran planta podría entregar un beneficio neto para la firma de 200000 $. Este dinero es un valor condicional porque la recepción de este dinero está 137

supeditado a construir una gran planta y tener un mercado favorable. El valor condicional si el mercado es desfavorable vendría a resultar en una pérdida neta de 180000 $. Una pequeña planta entregaría un beneficio neto de 100000 $ en un mercado favorable, pero una pérdida neta de 20000 $ si el mercado es desfavorable. Finalmente si no construye nada, en cualquier mercado se obtendrá un beneficio de cero. La manera más fácil de presentar estos valores es construyendo una “tabla de decisión”, también llamada tabla de beneficios. La tabla de decisión para los valores condicionales de Thompson es mostrado en la tabla 5.8.1. Tabla 5.8.1 Tabla de decisión con valores condicionales para la Empresa Maderera Thompson Alternativa Construir una planta grande Construir una planta pequeña No construir

Estados de la naturaleza Mercado Mercado Favorable ($) Desfavorable ($) 200000 -180000 100000

-20000

0

0

Todas las alternativas están enlistadas en el lado izquierdo inferior de la tabla y todos los posibles resultados o estados de la naturaleza a lo largo de la parte superior de la tabla. El cuerpo de la tabla contiene los beneficios. Pasos 5 y 6. Los últimos dos pasos son seleccionar un modelo de la teoría de decisiones y aplicarlo a los datos para ayudar a realizar la decisión. La selección del modelo depende del entorno en el cual se está operando y la cantidad de riesgo e incertidumbre involucrado.

8.3. Tipos de entornos para realizar una decisión Los tipos de decisiones que la gente realiza depende de cuánto conocimiento o información tienen acerca de la situación. Son definidos y explicados a continuación tres tipos de entornos para realizar una decisión. Tipo 1: Decisión en condiciones de certeza En este caso los tomadores de decisiones conocen con certeza las consecuencias de cada alternativa u opciones de decisión. Naturalmente, ellos escogerán la alternativa que maximice su bienestar o en el cual se obtendrá el mejor resultado. Por ejemplo, digamos que tengo 1000 $ para invertir en este año. Una alternativa es abrir una cuenta que paga 6% de interés y otra es invertir en bonos del tesoro nacional que paga 10% de interés. Si ambas inversiones están seguras y garantizadas, hay certeza de que los bonos del tesoro pagarán un alto retorno por mi inversión. El retorno en un año será de 100 $ de interés.

138

Tipo 2: Decisión en condiciones de riesgo En este caso el tomador de decisiones conoce la probabilidad de ocurrencia de cada resultado, y pretende maximizar su bienestar esperado. Los modelos de la teoría de la decisión para problemas de negocios en este entorno, típicamente emplea dos criterios equivalentes: Maximización del valor monetario esperado y la minimización del las pérdidas esperadas. Tipo 3: decisión bajo condiciones de incertidumbre En este caso el tomador de decisiones no conoce la probabilidad de ocurrencia de cada resultado. Algunas veces es imposible evaluar la probabilidad de suceso de un nuevo producto o empresa. Veamos como una decisión en condiciones de certeza (entorno tipo 1) afectaría a John Thompson. Aquí asumimos que John conoce exactamente lo que pasará en el futuro. Si él conoce con certeza que el mercado para las cabañas de almacenamiento será favorable, ¿qué debería hacer? Si vemos la tabla de valores condicionales, él debería construir la planta grande, que le entregará 20000 $ de beneficio. Pocos administradores son suficientemente afortunados para tener información completa y conocimiento acerca de los estados de la naturaleza en consideración. La decisión bajo riesgo, es una situación más realista.

8.4. Decisión en condiciones de riesgo La decisión bajo condiciones de riesgo es una situación de decisión probabilística. Pueden ocurrir varios posibles estados de la naturaleza, cada uno con una probabilidad dada. Veremos uno de los métodos más populares: seleccionar la alternativa con el más alto valor monetario esperado. También revisaremos los conceptos de información perfecta y pérdidas de oportunidad. Valor monetario esperado Dada una tabla de decisión con valores condicionales (recompensas) y valoraciones de probabilidad para todos los estados de la naturaleza, es posible determinar el valor monetario esperado (EMV) para cada alternativa, si la decisión podría ser repetida un gran número de veces. El EMV para una alternativa es la suma de las recompensas posibles de la alternativa, ponderadas por la probabilidad de que cada recompensa ocurra. Suponga que John Thompson ahora cree que la probabilidad de un mercado favorable es exactamente la misma que la probabilidad de un mercado desfavorable; es decir, cada estado de la naturaleza tiene una probabilidad de 0.5. ¿Qué alternativa debería entregar el más grande valor monetario esperado? Para determinar esto, John ha expandido su tabla de decisión de la siguiente manera (ver tabla 5.8.2). Sus cálculos son:

EMV (planta grande) = (0.5)(200000) + (0.5)(−180000) = 10000 EMV (planta pequeña ) = (0.5)(100000) + (0.5)(−20000) = 40000 139

EMV (no construir ) = (0.5)(0) + (0.5)(0) = 0 El mejor valor esperado resulta de la segunda alternativa, “construir una planta pequeña”. Entonces, Thompson debería proceder con el proyecto e implementar una planta pequeña para producir cabañas de almacenamiento. El EMV para la planta grande y la de no hacer nada son 10000 $ y 0 $, respectivamente. Tabla 5.8.2 Tabla de decisión con probabilidades y EMVs para la Empresa Maderera Thompson Alternativa Construir una planta grande Construir una planta pequeña No construir Probabilidades

Estados de la naturaleza Mercado Mercado Favorable ($) Desfavorable ($) 200000 -180000

EMVs calculados ($) 10000

100000

-20000

40000

0 0.5

0 0.5

0

Valor esperado de información perfecta John Thompson se contactó con Scientific Marketing Inc., una empresa que propuso ayudar a John a realizar la decisión de construir o no la planta para producir cabañas de almacenamiento. Scientific Marketing dice que su análisis técnico le dirá a John con certeza si el mercado será favorable o no para su producto. En otras palabras, cambiará su entorno, de uno de decisión bajo riesgo a uno de certeza. Esta información podría prevenir que John cometa un error muy caro. Scientific Marketing cobrará a Thompson por la información 65000 $. ¿Qué le recomendarías a John? ¿Debería contratar a la empresa para que realicen el estudio de marketing? ¿Aún si la información del estudio es perfectamente certera, vale la pena pagar 65000 $? ¿Cuánto debería pagar? Si bien algunas de estas preguntas son difíciles de responder, determinar el valor de esa información perfecta puede ser muy útil. Se calcula un límite superior de lo que estaría dispuesto a pagar por esa información. En esta sección, son investigados dos términos relacionados: El valor esperado de información perfecta (EVPI) y el valor esperado con información perfecta. Estas técnicas pueden ayudar a John a realizar la decisión de contratar o no la empresa de marketing. El valor esperado con información perfecta es el rendimiento esperado o promedio, en el largo plazo, si tenemos información perfecta antes de que realicemos la decisión. Para calcular este valor, escogemos la mejor alternativa para cada estado de la naturaleza y multiplicar estos valores por la probabilidad de ocurrencia de cada estado de la naturaleza. El valor esperado de información perfecta, EVPI, es la respuesta esperada con información perfecta menos el resultado esperado sin información perfecta (llamada también, el máximo EMV).

EVPI = Valor esperado con inf ormación perfecta − máximo EMV 140

Volviendo a los datos de la tabla anterior (tabla 2), Thompson puede calcular lo máximo que debería pagar por la información, que es, el valor esperado de información perfecta (EVPI). Seguiremos para ello 2 pasos. Primero, se calcula el valor esperado con información perfecta. Luego, usando este resultado, se calcula el EVPI: 1. El mejor resultado para el estado de la naturaleza “mercado favorable” es “construir una planta grande” con un beneficio de 200000 $. El mejor resultado del estado de la naturaleza “mercado desfavorable” es “no hacer nada”, con un beneficio de 0 $. El valor esperado con información perfecta es: 200000(0.5) + 0(0.5) = 100000 $. Entonces, si tuviéramos información perfecta, podríamos esperar, en promedio, 100000 $ si la decisión podría ser repetida muchas veces. 2. El máximo EMV es 40000 $, que es el resultado esperado sin información perfecta. Por lo tanto el EVPI será:

EVPI = 100000 − 40000 = 60000 Entonces, lo más que Thompson estaría dispuesto a pagar por la información perfecta es 60000 $. Esto por supuesto, está basado en la suposición de que la probabilidad de cada estado de la naturaleza es 0.5. Pérdida o costo de oportunidad Un enfoque alternativo al de maximización del valor monetario esperado (EMV) es el de minimizar la pérdida de oportunidad esperada (EOL)La pérdida de oportunidad, algunas veces llamada “arrepentimiento”, se refiere a la diferencia entre el beneficio óptimo y el beneficio actual recibido. En otras palabras, es la cantidad perdida por no elegir la mejor alternativa. La mínima pérdida de oportunidad esperada se inicia construyendo una tabla de pérdida de oportunidad y calculando el EOL para cada alternativa. Veamos como proceder con el caso de la Maderera Thompson. Paso 1. Se genera la tabla de pérdida de oportunidad. Esto se puede hacer determinando la pérdida de oportunidad de no escoger la mejor alternativa para cada estado de la naturaleza. La pérdida de oportunidad para cualquier estado de la naturaleza, o cualquier columna, es calculada sustrayendo cada resultado en la columna del mejor resultado de la misma columna. Para un mercado favorable el mejor resultado es 200000 $ que corresponde a la primera alternativa “construir una planta grande”. Para un mercado desfavorable, el mejor resultado es 0 $, que corresponde a la tercera alternativa, “no hacer nada”. La tabla 5.8.3 ilustra esas comparaciones. Paso 2. EOL se calculado multiplicando la probabilidad de cada estado de la naturaleza por el valor de pérdida de oportunidad apropiado.

EOL (planta grande) = (0.5)(0) + (0.5)(180000) = 90000 EOL (planta pequeña ) = (0.5)(100000) + (0.5)(20000) = 60000 EOL (no construir ) = (0.5)(200000) + (0.5)(0) = 100000 Usando el EOL mínimo como el criterio de decisión, la mejor decisión debería ser la segunda alternativa: “construir una planta pequeña”. 141

Es importante notar que el mínimo EOL dará el mismo resultado que con el máximo EMV, y que se cumplirán siempre las relación siguiente: EVPI = Mínimo EOL . Tabla 5.8.3 Tabla de pérdida de oportunidad para la Empresa Thompson Alternativa Construir una planta grande Construir una planta pequeña No construir Probabilidades

Estados de la naturaleza EMVs calculados Mercado Favorable ($) Mercado ($) Desfavorable ($) 200000-200000=0 0-(-180000)=180000 90000 200000-100000=100000

0-(-20000)=20000

60000

200000-0=200000 0.5

0-0=0 0.5

0

Análisis de sensibilidad Determinamos que la mejor decisión para la maderera Thompson es construir una planta pequeña, con un valor esperado de 40000 $. Esta conclusión depende de los valores de las consecuencias económicas y de los dos valores de probabilidad para los mercados favorable y desfavorable. El análisis de sensibilidad investiga como puede cambiar nuestra decisión si los datos del problema cambian. Investigaremos el impacto que puede haber en la decisión de la maderera Thompson, por ocurrir un cambio en los valores de las probabilidades. Definimos lo siguiente:

P = Pr obabilidad de un mercado favorable Podemos ahora expresar los valores monetarios esperados (EMVs) en términos de P:

EMV (planta grande) = 200000 P − 180000 (1 − P) = 380000 P − 180000 EMV (planta pequeña ) = 100000 P − 20000 (1 − P) = 120000 P − 20000 EMV (no construir ) = 0 P + 0 (1 − P) = 0 Graficando las ecuaciones resultantes (ver gráfico 5.8.1), podemos observar que la mejor decisión es no hacer nada, si la probabilidad de mercado favorable fluctúa entre 0 y 16.67% (Punto 1); construir una planta pequeña si la probabilidad fluctúa entre 16.67% (Punto 1) y 61.54% (Punto 2); y construir una planta grande si la probabilidad es mayor a 61.54% (Punto 2). Los puntos 1 y 2 pueden ser calculados de la siguiente manera: Punto 1:

EMV (nada ) = EMV (planta pequeña ) 0 = 120000 P − 20000 20000 P= = 0.1667 120000 142

Punto 2:

EMV (planta grande) = EMV (planta pequeña ) 380000 P − 180000 = 120000 P − 20000 380000 − 120000 P= = 0.6154 180000 − 20000 Gráfico 5.8.1 Análisis de sensibilidad Empresa Maderera Thompson 250000 200000 150000

EMV

100000 50000

2 1

0 -50000 0

0.2

0.4

0.6

0.8

1

-100000 -150000 -200000 P

Los resultados de este análisis de sensibilidad son desplegados en la tabla 5.8.4. Tabla 5.8.4 Resultados del análisis de sensibilidad de la maderera Thompson Alternativa No hacer nada Construir planta pequeña Construir planta grande

Rango de valores de P Menos de 0.1667 0.1667 – 0.6154 Más de 0.6154

8.5. Decisión en condiciones de incertidumbre El criterio EMV o EOL es usualmente apropiado, sólo cuando puede ser evaluada la probabilidad de ocurrencia de cada estado de la naturaleza. Cuando un administrador no puede valorar la probabilidad del resultado con confianza o cuando no están disponibles datos de probabilidad, son requeridos otros criterios de decisión, como los de decisión en condiciones de incertidumbre, que son: 1. Maximax 2. Maximin 3. Igualmente probable (Equally Likely) 143

4. Criterio de realismo 5. Minimax Maximax El criterio máximas encuentra la alternativa que maximiza el máximo resultado de cada alternativa. Primero se debe localizar el máximo resultado entre cada alternativa, y entonces escoger aquella alternativa con el valor máximo. Puesto que este criterio de decisión localiza la alternativa con la más alta ganancia posible, ha sido llamado un criterio de decisión optimista. En la tabla 5.8.5 podemos observar que la elección maximax de Thompson es la primera alternativa, “construir una planta grande”. Este es el máximo de los máximos valores dentro de cada alternativa. Tabla 5.8.5 Decisión maximax de Thompson Alternativa Construir una planta grande Construir una planta pequeña No construir

Estados de la naturaleza Mercado Mercado Favorable ($) Desfavorable ($) 200000 -180000

Máximo en la fila ($)

100000

-20000

200000 (maximax) 100000

0

0

0

Maximin El criterio maximin encuentra la alternativa que maximiza el mínimo resultado de cada alternativa. Primero se localiza el mínimo resultado dentro de cada alternativa y luego se escoge aquella alternativa con el máximo valor. Puesto que este criterio de decisión localiza la alternativa que tiene la menor pérdida posible, ha sido llamada el criterio pesimista de decisión. La elección maximin de Thompson es “no hacer nada” y se muestra en la tabla 5.8.6. Es el máximo de los mínimos valores entre cada alternativa. Tabla 5.8.6 Decisión maximin de Thompson Alternativa Construir una planta grande Construir una planta pequeña No construir

Estados de la naturaleza Mercado Mercado Favorable ($) Desfavorable ($) 200000 -180000

Mínimo en la fila ($) -180000

100000

-20000

-20000

0

0

0 (maximin)

144

Igualmente probable (Equally likely) (Laplace) El criterio de decisión igualmente probable, llamado también de Laplace o principio de razón insuficiente, encuentra la alternativa con el más alto resultado promedio. Primero se calcula el resultado promedio para cada alternativa, luego se escoge aquella con el máximo valor. Este enfoque asume que todas las probabilidades de ocurrencia para los estados de la naturaleza son iguales, y entonces son igualmente probables. La elección igualmente probable de Thompson es la segunda alternativa, “construir una planta pequeña”. Esta estrategia, mostrada en la tabla 5.8.7, es el máximo del resultado promedio de cada alternativa. Tabla 5.8.7 Decisión igualmente probable de Thompson Alternativa Construir una planta grande Construir una planta pequeña No construir

Estados de la naturaleza Mercado Mercado Favorable ($) Desfavorable ($) 200000 -180000 100000

-20000

0

0

Promedio de la fila ($) 10000 40000 (Igualmente probable) 0

Criterio de realismo (Criterio de Hurwicz) A menudo llamado el promedio ponderado, el criterio de realismo es un acuerdo entre una decisión optimista y pesimista. Primero se selecciona un coeficiente de realismo, α , que presenta valores entre 0 y 1. Cuando α es cercano a 1, la decisión es optimista con respecto al futuro, y cuando es cercana a 0, la decisión es pesimista. La ventaja de este enfoque es que permite al tomador de la decisión construir sus percepciones personales acerca del optimismo y pesimismo relativo. La fórmula es como sigue:

Criterio de realismo = α (máximo de fila ) + (1 − α)(mínimo de fila ) Tabla 5.8.8 Decisión según el criterio de realismo de Thompson

Alternativa Construir una planta grande Construir una planta pequeña No construir

Estados de la naturaleza Mercado Mercado Favorable ($) Desfavorable ($) 200000

-180000

100000

-20000

Criterio de realismo ( α = 0. 8 ) ($) 124000 (Realismo) 76000

0

0

0

145

Si asumimos que Thompson estableció su criterio de realismo en 0.8, la mejor decisión podría ser construir una planta grande. Como se observa en la tabla 5.8.8, esta alternativa tiene el más alto promedio ponderado:

0.8(200000) + 0.2(−180000) = 124000 Minimax El último criterio de decisión está basado en la pérdida de oportunidad. Mínimax encuentra la alternativa que minimiza la máxima pérdida de oportunidad entre cada alternativa. Primero se encuentra la máxima pérdida de oportunidad entre cada alternativa. Luego se escoge aquella alternativa con el mínimo valor. Tabla 5.8.9 Decisión según minimax de Thompson Alternativa Construir una planta grande Construir una planta pequeña No construir

Estados de la naturaleza Máximo en fila Mercado Mercado ($) Favorable ($) Desfavorable ($) 0 180000 180000 100000

20000

200000

0

100000 (Minimax) 200000

La tabla 5.8.9 muestra la pérdida de oportunidad de Thompson. Podemos observar que la elección minimax es la segunda alternativa, “construir una planta pequeña”. El criterio minimiza la máxima pérdida de oportunidad.

8.6. Análisis marginal con un gran número de alternativas y estados de la naturaleza Hemos considerado hasta ahora donde habían solamente pocas alternativas y estados de la naturaleza. ¿Qué pasa cuando tenemos un gran número de alternativas y estados de la naturaleza? Por ejemplo, un gran restaurante es capaz de tener en inventario de 0 a 100 cartones de donuts. Por consiguiente la demanda podría estar en el rango de 0 a 100 cartones por día. En este caso tenemos que analizar 101 alternativas posibles y estados de la naturaleza. Esto podría requerir una tabla de decisión muy grande si usamos la aproximación de la teoría de decisión discutida anteriormente. Cuando podemos identificar una pérdida y beneficio marginal, es posible usar el análisis marginal para obtener la mejor decisión sin tener que usar una tabla de decisión demasiado larga. El análisis marginal es una aproximación de toma de decisión que puede ayudar a seleccionar el nivel de inventario óptimo. Involucra dos nuevos términos: beneficio marginal y pérdida marginal. Imaginemos que eres un distribuidor de periódicos. Cada diario te cuesta 19 centavos y lo vendes en 35 ctvos., pero si no puedes vender el diario hasta el final del día pierdes todo (el valor de salvamento es de 0). En este caso el beneficio marginal (MP) es la ganancia que se obtiene por la venta de cada periódico adicional (35-19=16). La pérdida marginal (ML) es la causada por cada periódico que no se ha podido vender (19 ctvos.). 146

Cuando hay un número manejable de alternativas y estados de la naturaleza y conocemos sus probabilidades, puede ser usado el análisis marginal con distribuciones discretas. Cuando tenemos un número muy grande de alternativas y estados de la naturaleza y los estados de la naturaleza pueden ser descritos por distribuciones normales, es apropiado el análisis marginal con distribución normal. Análisis marginal con distribuciones discretas Encontrar el mejor nivel de inventario no es difícil cuando seguimos el procedimiento del análisis marginal. Dado cualquier nivel de inventario, deberíamos añadir solamente una unidad adicional a nuestro nivel de inventario si su beneficio marginal esperado iguala o excede a su pérdida marginal esperada. Esta relación es expresada simbólicamente a continuación: P = Probabilidad que la demanda sea igual o mayor a una oferta dada (o la probabilidad de vender al menos una unidad adicional). 1 – P = Probabilidad de que la demanda sea menor que la oferta El beneficio marginal esperado es calculado multiplicando la probabilidad a la que una unidad dada será vendida mediante el beneficio marginal, P(MP). Similarmente la pérdida marginal esperada es la probabilidad de no vender la unidad multiplicada por la pérdida marginal, o (1P)(ML) La regla de la decisión óptima es:

P (MP) ≥ (1 − P)(ML) Con algunas manipulaciones matemáticas básicas, podemos determinar el nivel de P que nos ayudará en la resolución de problemas de análisis marginal:

P(MP ) ≥ ML − P( ML) P(MP) + P (ML) ≥ ML P(MP + ML) ≥ ML ML P≥ MP + ML En otras palabras, si la probabilidad de vender una unidad más es mayor o igual a

ML , MP + ML

podemos colocar en inventario la unidad adicional. Los pasos son los siguientes: 1. 2.

Determine el valor de P para el problema. Construya un diagrama de probabilidad y añada la columna de probabilidad acumulativa. 147

3.

Elija la orden de inventario de manera que la probabilidad de vender al menos una unidad adicional sea más grande que P.

Ejemplo Café du Pont es un popular punto de encuentro nocturno de New Orleans en el barrio Francés. Su especialidad es café y donuts; compra los donuts frescos diariamente de una gran panadería industrial. El café paga 4 $ para cada paquete (que contiene 2 docenas de donuts) entregado cada mañana. Cualquier paquete no vendido hasta el final del día es desechado, ya que ya no son lo suficientemente frescos para los estándares del café. Si es vendido un paquete de donuts, el ingreso total es de 6 $. Por lo tanto el beneficio por paquete de donuts es:

MP = beneficio m arg inal = 6 − 4 = 2 $

La pérdida marginal es de 4 $, puesto que los donuts no pueden ser salvados al final del día. De ventas pasadas, el administrador del café estima que las ventas diarias seguirán la distribución de probabilidad mostrada en la tabla 5.8.10. La administración entonces sigue tres pasos para encontrar el número óptimo de paquetes de donuts que deben ordenar cada día. 5.8.10 Distribución de probabilidad de ventas diarias de donuts Ventas diarias (paquetes de donuts) 4 5 6 7 8 9 10

Probabilidad de ventas 0.05 0.15 0.15 0.20 0.25 0.10 0.10 1.00

Probabilidad acumulada 1.00 0.95 0.80 0.65 0.45 0.20 0.10

Paso 1: Determinar el valor de P para la regla de decisión.

P≥

ML 4 = = 0.66 ML + MP 4 + 2

Paso 2: Añadir una nueva columna a la tabla para reflejar la probabilidad de venta acumulada de donuts Paso 3: Elegir la orden de paquetes de tal modo que la probabilidad de vender al menos un paquete adicional sea más grande que P, que es la probabilidad de indiferencia o de equilibrio. Si el Café du Pont ordena 6 paquetes, los beneficios marginales serán más grandes que sus pérdidas marginales.

0.8 ≥ 0.66 148

Si son ordenados 7 paquetes, la probabilidad de vender 7 o más paquetes no es mayor que 0.66. Entonces, las pérdidas marginales esperadas serán mayores que el beneficio marginal esperado. La decisión óptima es ordenar 6 paquetes de donuts diarios.

149

EJERCICIOS DE CLASE Media aritmética 1. Halle la media aritmética de los segundos ejemplos de ejercicios de clase, del capítulo de Distribución de Frecuencias. Propiedades de la media 2. El gerente de una empresa que fabrica papel desea analizar los sueldos que paga a sus trabajadores. Para ello, los dividió en tres grupos. Los datos en $ para cada grupo se muestran a continuación: Grupo 2:

Grupo 1: Li-1 - Li 180-200 200-220 220-240

ni 3 4 8 15

Li-1 - Li 240-260 260-280 280-300

Grupo 3: ni 11 15 10 36

Li-1 - Li 300-320 320-340 340-360

ni 9 6 4 19

a) Halle la media aritmética de todos los trabajadores de la empresa. Si se considera al grupo total de trabajadores: b) Suponga que la media de los sueldos de los trabajadores hombres fue de 300 $ y la de las mujeres de 254 $. Determine los porcentajes de hombres y mujeres empleados en la empresa. c) El gerente quiere analizar cual de las dos políticas siguientes implementará para todos sus trabajadores de modo de elevar el sueldo promedio. ¡Ayúdelo en su decisión!. • Aumento del sueldo en 100 Bs. • Aumento del 36.61% de su sueldo. Media esperada Función de cuantía 3. Sea la siguiente función de cuantía: f (x) = e− x x = 0,1, 2,3, 4,5 , que determina la probabilidad de la demanda diaria de un artículo que se vende a 2 $us. la unidad. a) Corrija la función, de modo que cumpla las propiedades de una función de cuantía y halle la distribución de probabilidad. b) ¿Cuántos artículos se espera vender en un día?.

150

Función de densidad 4. Sea la función de densidad: f (x) = e precio unitario de un artículo (en $us.).



x 2

0 ≤ x ≤ 4,

que relaciona la probabilidad del

a) Corrija la función, de modo que cumpla las propiedades de una función de densidad. Halle la distribución de probabilidad. b) Determine la esperanza matemática. Moda 5. Halle la moda de los segundos ejemplos de los ejercicios de clase, del capítulo de Distribución de Frecuencias. Moda esperada Función de cuantía 6. Determine la moda esperada del ejercicio 3 de este capítulo, de los ejercicios de clase. Función de densidad 7. Determine la moda esperada del ejercicio 4 de este capítulo, de los ejercicios de clase. Mediana 8. Halle la mediana de los segundos ejemplos de los ejercicios de clase, del capítulo de Distribución de Frecuencias. Mediana esperada Función de cuantía 9. Determine la mediana esperada del ejercicio 3 de este capítulo, de los ejercicios de clase. Función de densidad. 10. Determine la mediana esperada del ejercicio 4 de este capítulo, de los ejercicios de clase. Media geométrica 11. Los rendimientos anuales, en porcentaje de cuatro acciones de computadora son: 4.91

5.75

8.12

a) Obtenga la media geométrica del rendimiento. b) Obtenga la media aritmética. c) ¿Cuál de las medidas es la más representativa? 151

21.60

12. Los porcentajes de aumento de ventas de un periodo a otro, de un sector industrial son los siguientes: Porcentaje de ventas 0–5 5’ – 10 10’ – 20 20’ - 50

Número de empresas 10 15 7 3

Halle la media geométrica. 13. Una compañía petrolera presentó estas estadísticas en su informe anual en lo referente a producción total de petróleo crudo y líquidos de gas natural (en miles de barriles por día): para 1983, 864; para 1988, 1540. ¿Cuál es la media geométrica del incremento porcentual anual en producción entre 1983 y 1988? Media armónica 14. Una persona X compró para su pequeño departamento, focos de una sola marca, y quería determinar cuál es su duración media (en días), para renovar con la misma marca o buscar otra. Los datos que recopiló son los siguientes: N° Duración

1 40

2 45

3 52

4 60

5 48

6 55

7 59

8 63

9 70

Un amigo suyo (persona Y) hizo también lo mismo. Los focos de su departamento, por supuesto de otra marca, tenían una duración media de 60 días. ¿Le conviene cambiar de marca de focos a la persona X? 15. Una encuesta sobre la duración de cierta batería, en años, arrojó la siguiente información: Duración de la batería 0 – 0.5 0.5’ – 1 1’ – 2 2’ - 4 Halle la media armónica.

152

Número de usuarios 40 100 250 35

EJERCICIOS PROPUESTOS 1. En una empresa constructora, el departamento de obras está constituido por 40 trabajadores, que cumplen las siguientes funciones: (I = Ingeniero, J =Jefe de obras, C = Capataz, O = Obrero, A = Ayudante). La información elaborada permitirá conocer la estructura de ocupación de dicha empresa. O J A J

A O O C

C C O A

O C I O

O O J A

A I O A

I O A O

O A A J

A J C O

C C O A

a) Organice y presente los datos en una distribución de frecuencias. Describa la distribución por sus elementos esenciales. b) Determine la mediana. 2. Se midió la resistencia a la compresión de 58 muestras de una aleación de aluminio en desarrollo como material para aeronaves. 66.4 69.2 70.0 71.0 71.9 74.2

67.7 69.3 70.1 71.1 72.1 74.5

68.0 69.3 70.2 71.2 72.2 75.3

68.0 69.5 70.3 71.3 72.3

68.3 69.5 70.3 71.3 72.4

68.4 69.6 70.4 71.5 72.6

68.6 69.7 70.5 71.6 72.7

68.8 69.8 70.6 71.6 72.9

68.9 69.8 70.6 71.7 73.1

69.0 69.9 70.8 71.8 73.3

69.1 70.0 70.9 71.8 73.5

a) Organice y presente los datos en un tipo de distribución de frecuencias adecuada. b) Halle la media, mediana, moda y ubíquelos en un gráfico. 3. En una fábrica de tornillos se ha tomado una muestra de su producción considerando el largo de ellos. Existen cajas de 50 tornillos de distinta longitud (medidos en cm). Los resultados de una de ellas es el siguiente: 2 6 4 3 5

4 5 6 6 3

5 2 2 4 4

6 2 5 3 2

3 3 3 2 4

2 4 4 5 5

5 3 6 3 6

2 5 2 5 3

4 2 3 2 2

3 3 5 2 6

a) Organice y presente los datos en un tipo de distribución. b) Represente el gráfico de frecuencias. c) Halle los estadígrafos de posición: media, mediana y moda y ubíquelos en el gráfico. 4. Las lecturas de temperatura que dio una termocupla de un horno industrial en ºC, son: 16

25

34

43

Calcule la mediana y la media aritmética. 153

52

61

5. Se recopiló información acerca de las ventas anuales de 50 pequeñas tiendas de tornillos: Ventas (miles de $) 110 130 140 150 160 Total

N0 de negocios 7 9 16 15 3 50

a) Encuentre la mediana, la media y la moda de las ventas y explique su significado. b) Se pretende crear un nuevo impuesto y existen dos alternativas 1ra: 5 % de las ventas, 2da: 9 (miles de $ al año). Encuentre el nuevo valor de la media con estas disminuciones y recomiende la mejor alternativa para los propietarios. 6. Las tasas de crecimiento de la empresa Taquiña durante los últimos 5 años son: 5.2%, 8.7%, 3.9%, 6.8% y 19.5% respectivamente. a) ¿Cuál es la media aritmética de la tasa anual de crecimiento? b) ¿Cuál es la media geométrica de la tasa anual de crecimiento? c) ¿Cuál de las dos medias debería utilizarse para determinar la tasa anual de crecimiento? 7. Dos empresas presentaron muestras de alambre de cobre para su prueba. Las piezas de muestra de cada empresa se probaron en cuanto a la resistencia a la tensión y los resultados se organizaron en una distribución de frecuencias. Después se evaluaron la media de cada distribución. Estadístico Media aritmética Tamaño de la muestra

Compañía Doma 500 100

Compañía Betz 600 80

¿Cuál es la media aritmética si se considera a las dos compañías juntas? 8. La media aritmética de los salarios pagados a los empleados de una empresa ascendió a 700 $. La media aritmética de los hombres y mujeres fue respectivamente de 800 $ y 630 $. Determine la cantidad de hombres y mujeres empleados en dicha empresa si en total existen 130 empleados. 9. Dada la siguiente función:

f(x) = 3 x2 + 5 x + 4.

Para 0 ≤ x ≤ 3

a) Determine si es o no una función de densidad. Si no es, corregirla. b) Determine la esperanza matemática, la mediana y la moda de la distribución. Dé una interpretación de los resultados. c) Realice los pasos a) hasta b) para el caso de una distribución discreta para x = 0, 1, 2, 3. 10. Una pastelería ofrece pasteles con decoración especial para cumpleaños, bodas y otras ocasiones. También tiene pasteles normales en su tienda. En la tabla que sigue se 154

proporciona el número total de pasteles vendidos al día y las probabilidades correspondientes. Nº de pasteles vendidos/día 12 13 14 15

Probabilidad 0.25 0.40 0.25 0.10

Calcule la esperanza matemática, la mediana y la moda de la distribución. 11. En un estudio de dos semanas sobre la productividad, se obtuvieron datos sobre el número total de piezas aceptables que produjeron 100 trabajadores. Se organizaron los datos en una distribución de frecuencias. Para elevar el nivel de productividad en la empresa, el administrador de personal a cargo pidió a su secretaria le proporcione los datos. Luego, se fue a su casa para analizarlos, pero cuando vio la hoja, algunos datos no habían sido impresos adecuadamente. ¡Qué problema! Al día siguiente debía elevar un informe a gerencia para que se tomen las medidas adecuadas, y la decisión no podía esperar ni un día más. He aquí la tabla y los datos legibles. Li-1 - Li 20 -

ni 4

Ni

hi

Hi

xi

xi*ni

0.15 38 63

Totales

5 100

1

Además, el administrador memorizó algunos datos de la tabla y estadígrafos hallados, cuando los observó en la computadora de su oficina: • La amplitud de las categorías era constante y tenía un valor de 10. (ai = 10). • El valor de la mediana era 54.8 (Me = 54.8). • El valor de la media era 54.9 (x = 54.9). Si usted fuera el administrador a cargo, ¿podría reconstruir la tabla con los datos legibles y la información memorizada? Es su única alternativa, ¡inténtelo! Caso contrario despedirá a su secretaria. 12. a) Halle la frecuencia correspondiente al tercer intervalo de la siguiente distribución, sabiendo que su media aritmética es 11.50.

155

Li-1 - Li 4-6 6’ - 10 10’ - 16 16’ - 20 20’ - 30

ni 4 5 3 1

b) Halle la mediana y la moda de la distribución. 13. La distribución de frecuencias siguiente representa los pesos en kilogramos de una muestra de paquetes transportados por una pequeña compañía de paquetería aérea: Li-1 - Li 10 -

ni

Ni

xi

xi*ni

14 23

n = 65 a) Los datos se borraron. ¿Puede reconstruir la distribución? La información que se pudo recolectar es: • • • •

Las amplitudes son constantes e iguales a 2. La mediana es 15.1739 y la moda es 15.0345 n3 es la mayor frecuencia. n/2 se ubica entre N2 y N3.

b) Halle la media aritmética de la distribución. 14. Algunas características de un grupo de estudiantes de la UPB son las siguientes: N° de zapato Gasto diario (Bs.)

37 5

38 6.5

40 9

39 10

40 7

42 4.5

43 8

44 7.5

40 40

41 50

40 6

a) Halle la media, mediana y moda para el número de zapato, y diga cuál promedio es el más representativo. b) Halle la media, mediana y moda para los gastos diarios, y diga cuál promedio es el más representativo. Ejercicios de teoría de la utilidad 1.

Una compañía de reparto está considerando comprar un camión usado. Su vida de servicio útil está estimado en 3 años con una probabilidad de 0.1; 4 años con una probabilidad de 0.4; 5 años con una probabilidad de 0.3; y 6 años con una probabilidad de 0.2. ¿Cuál es la vida útil esperada para el camión usado?

156

2.

Una compañía de taxis está considerando disponer de tres marcas de autos A, B y C para añadirlos a su flota. Los costos de operación diarios para cada marca dependen de su tasa de uso diario (demanda) como se muestra a continuación. Costos por día de operación ($) Marca A B C a) b) c)

3.

Tasa de uso diaria Baja 100 190 150

Moderada 200 200 190

Alta 300 220 230

¿Qué marca es la mejor de acuerdo al criterio minimax? ¿Qué marca es la mejor de acuerdo al criterio de razón insuficiente? Si las probabilidades de una tasa de uso baja, moderada y alta son 0.5, 0.2 y 0.3, respectivamente, ¿cuál es la mejor marca si se aplica el criterio del costo esperado?

Han sido considerados cuatro métodos alternativos de manufactura para un nuevo producto. La rentabilidad, la cual depende del método de manufactura y el nivel de aceptación del consumidor, ha sido anticipado como se muestra a continuación. Beneficios (Miles de $) Método de fabricación I II III IV Probabilidad a)

Proyección de la aceptación del consumidor Bajo

Moderado

Alto

Muy alto

100 175 250 100 0.25

200 300 300 300 0.35

300 400 350 400 0.20

600 500 425 450 0.20

¿Cuál es el mejor método de acuerdo a los siguientes criterios? Valor esperado Maximin Máximax Razón insuficiente Minimax

b) 4.

¿Qué método de manufactura debería ser seleccionado? ¿Por qué?

Rick Miller acaba de abrir una nueva panadería en FRISCO, Colorado, llamada Morning Fresh. Al desarrollar un análisis económico, Rick determinó que el costo o pérdida marginal por cada docena de donuts vendidas es de 4 $. El beneficio marginal es aproximadamente 2.75 $ por docena. Por esta vez Rick está considerando tener en vitrinas 10, 15, 20, 25 o 30 docenas de donuts. La probabilidad de vender 10 docenas es del 10%., la de vender 15 docenas es de 20%. Hay una posibilidad del 30% de vender 20 o 25 docenas. Finalmente hay una posibilidad del 10% de vender 30 docenas, que es la cantidad que Rick considera como la más alta que Morning Fresh es capaz de acomodar. ¿Cuál es su recomendación para Rick? 157

5.

María Rojas está considerando la posibilidad de abrir una pequeña tienda de ropas sobre la avenida Fairbanks, a pocas cuadras de la universidad. Está ubicada en un buen mall que atrae a los estudiantes. Sus opciones son abrir una pequeña tienda, una tienda de tamaño mediano, o no abrir nada. El mercado para una tienda para ropa puede ser bueno, promedio o malo. Las probabilidades para las tres posibilidades son 0.2 para un mercado bueno, 0.5 para un mercado promedio, y 0.3 para un mercado malo. La ganancia o pérdida neta para una tienda pequeña y mediana para las varias condiciones del mercado están dadas en la siguiente tabla. ¿Cuál es su recomendación para María Rojas?

6.

Cal Bender y Becky Addison se conocen desde la preparatoria. Hace dos años entraron a la misma universidad y ahora están tomando cursos para graduados en el colegio de negocios. Ambos esperan graduarse con un postgrado en finanzas. En un intento por ganar un dinero extra y usar los conocimientos aprendidos de sus cursos de negocios, Cal y Becky han decidido ver la posibilidad de iniciar una pequeña compañía que proveerá servicios de dactilografía para estudiantes que necesitan artículos trimestrales u otros reportes escritos de una manera profesional. Usando un enfoque de sistemas, Cal y Becky han identificado tres estrategias. La estrategia 1 es invertir en un sistema de microcomputadoras bastante caro con una impresora láser de alta calidad. En un mercado favorable, podrían obtener un beneficio neto de 10000 $ en los siguientes dos años. Si el mercado es desfavorable, pueden perder 8000 $. La estrategia 2 es comprar un sistema menos caro. Con un mercado favorable, podrían conseguir un beneficio de 8000 $. Con un mercado desfavorable, incurrirían en una pérdida de 4000 $. Su estrategia final, la 3, es no hacer nada. Cal es básicamente un arriesgado, mientras Becky es adversa al riesgo. a) ¿Qué tipo de criterio de decisión debería usar Cal? ¿Cuál es la decisión de Cal? b) ¿Qué tipo de criterio de decisión debería usar Becky? ¿Cuál es la decisión de Becky? c) Si Cal y Becky fueran indiferentes al riesgo, ¿qué tipo de criterio de decisión deberían usar? ¿Cuál debería ser su decisión?

158

EJERCICIOS PARA EXAMEN 1. El espesor de un recubrimiento conductor para tornillos, en micrómetros, tiene una función de densidad: f(x) = 600 x-2 para 100 µm < x < 120 µm. a) Calcule la media y la varianza esperadas del espesor de recubrimiento. b) Si el costo del recubrimiento es de 0.5 dólares por micrómetro de espesor de pieza, ¿Cuál es el costo promedio del recubrimiento por pieza? 2. La duración de una batería está dada por la siguiente función (en años): 2

x − x2 e 2π

f ( x) =

Si se la instala correctamente y se le realiza un mantenimiento adecuado, la batería generalmente dura 5 años. El comerciante generalmente ofrece una garantía de un año. Halle la duración media de estas baterías. 3. Suponga que los gastos en movilidad en Bs./día de 40 estudiantes de Administración son los siguientes: 3 5

6 4

7 7

4 3

5 4

3 5

3 6

4 3

6 7

5 4

7 3

7 5

4 7

5 6

3 5

6 4

7 6

4 3

6 5

3 4

Si el Centro subvenciona a todos los la suma de 1.4 Bs. ¿Esta es mejor cooperación que un aumento del 30%? Presente un informe estadístico para orientar a sus compañeros en tomar una de las alternativas. 4. La secretaria de una empresa de envasado de alimentos olvidó comprar el cartucho de tinta para la impresora de su oficina y al imprimir la distribución de frecuencias de los pesos del contenido de un cierto número de latas (gr.) que fueron llenadas por una máquina automática que se creía que estaba descalibrada, muchos datos eran ilegibles. A continuación se muestra la distribución: Li-1 - Li 130 - 140 140 - 150 150 - 160 160 - 170 170 - 180 180 - 190 190 - 200 200 - 210

ni

hi

Ni

22.73

45

Hi

xi

xi*ni 270

8

81.82 96.97

159

585

a) El gerente a cargo debía tener esta información cuanto antes para tomar la decisión de llamar a la compañía de mantenimiento para que realicen una recalibración de la máquina. ¿Puede ayudarlo a reconstruir la tabla? Se sabe que la moda de la distribución es de 156.5217 gr. y la frecuencia absoluta más alta está en el tercer intervalo. b) Halle la media aritmética y la mediana de la distribución. c) ¿Qué medida usaría para representar de manera adecuada a la distribución? Si el promedio elegido está entre 140 - 150 gramos o entre 160 - 170, el gerente llamará a la compañía de mantenimiento. Por el contrario, si se encuentra entre 150 - 160, quiere decir que la máquina está llenando correctamente. ¿Cuál es la decisión que debe tomar?. d) ¿Cuál es el porcentaje de pérdida que tendrá la empresa en este lote, si cada lata llenada incorrectamente se debe reprocesar antes de venderse, siendo el costo del reproceso de 1 $ y cada lata de alimento se vende a 5 $? Se considera que la lata ha sido llenada correctamente si su peso está entre 150 - 170 gr.

160

CASO SAFETY SIGHT COMPANY2 Safety Sight Company posee dos plantas que fabrican faros de bicicleta. La planta de Edgewater ha estado trabajando con capacidad operacional plena en los años recientes; La planta en Garland ha estado cerrada en los 2 últimos años. La administración anticipó un gran incremento para las luces de bicicleta, y han sido desarrollados ahora planes de producción futura. Los ingresos medios esperados por ventas de luces han sido estimados en 8 dólares por unidad tomando en cuenta el periodo futuro previsible. La planta de Edgewater ha estado operando un turno simple con costos fijos de 2.5 millones de $ y con una capacidad de producción de 500000 unidades al año. Los costos variables unitarios han sido de 1.60 $ para este rango de producción. Se debería alcanzar un gran volumen de producción para arrancar con un segundo turno. Si aquello fuera logrado, se estimó que los costos variables unitarios deberían ser alguno de los tres: 6.3 $, 5.7 $ o 5.1 $ con probabilidades de 0.09, 0.33 y 0.58, respectivamente. La capacidad de producción en el segundo turno debería alcanzar las 500000 unidades anuales. Si se logran grandes volúmenes de producción, la planta en Garland podría ser reabierta. Los costos fijos anuales exactos por la operación de esta planta son desconocidos. Tres estimados recientes son: 1.8 $, 1.65 $ y 1.55 $ millones con probabilidades de 0.4, 0.5 y 0.1, respectivamente. El costo variable unitario esperado para la operación del primer turno es de 1.60 $, que es el mismo que para la planta de Edgewater. La capacidad esperada del primer turno de la planta de Garland es de 500000 luces por año. La administración está considerando dos alternativas: operar la planta de Edgewater en dos turnos, dejando cerrada la planta de Garland; u operar ambas plantas con un solo turno cada una. La administración está segura que cualquier alternativa proporcionará la capacidad para obtener la nueva demanda esperada. ¿Qué deberá hacer?

2 Caso extractado del libro: Production and Operations Management (Concepts, Models and Behavior). Everett E. Adam, Jr. & Ronald J. Ebert., 1989.

161

CASO HARRY’S HARDWARE CHRISTMAS TREE3 Harry’s Hardware realiza negocios ágiles durante el año, pero en la época de navidad, Harry’s Hadware vende árboles de navidad para aumentar sus ganancias. Desafortunadamente no todos los árboles se pueden vender al final de la temporada, y los que quedan son totalmente desechados. Entonces, el número de árboles en inventario para una temporada dada es una decisión muy importante. La siguiente tabla revela la demanda para árboles de navidad. Demanda 50 75 100 125 150 175 200

Probabilidad 0.05 0.1 0.2 0.3 0.2 0.1 0.05

Harry vende cada árbol a 15 $, pero le cuesta solamente 6 $. PREGUNTAS 1. 2. 3.

¿Cuántos árboles debería tener en inventario Harry? Si el costo incrementa a 12 $ por árbol, cuántos árboles debe tener en inventario? Harry piensa incrementar el precio de cada árbol a 18 $. Se asume que el costo por árbol es de 6 $. Se espera que la probabilidad de vender 50, 75, 100 o 125 árboles sea de 0.25 en cada caso. Harry no espera vender más de 125 árboles con este incremento en el precio. ¿Qué recomienda?

3 Extractado del libro: Quantitative Analysis for Management. Render y Stair, 1997.

162

CAPÍTULO 6 ESTADÍGRAFOS DE DISPERSIÓN 1. INTRODUCCIÓN Los estadígrafos de tendencia central permiten resumir la información definiendo la posición de la distribución de frecuencias, tanto para variables como para atributos. Sin embargo esta es una caracterización parcial de dichas distribuciones. La caracterización se completa, cuando además de conocer la posición también se conoce su forma. Los estadígrafos que permiten conocer en forma resumida la forma de una distribución se denominan indicadores de dispersión. Además de ello permiten evaluar la confiabilidad de un estadígrafo de posición. Aún siendo la media aritmética el promedio más utilizado en la práctica, muchas veces puede dar lugar a falsas interpretaciones. Esto ocurrirá cuando no tenga suficiente grado de representatividad, es decir, cuando los valores de la variable estén poco concentrados, o lo que es lo mismo, muy dispersos a su alrededor. Entonces, poco podrá decir la media sobre la población en estudio. Es necesario acompañar la media aritmética con una medida del grado de dispersión de los valores de la variable a su alrededor, de forma que, cuanto mayor sea esta medida, menor será el grado de representatividad de la media y viceversa. Los principales son: • • • •

El recorrido. La varianza y la desviación estándar. La amplitud y desviación cuartílica. La amplitud centílica.

Por ejemplo una caracterización completa de la temperatura de Cochabamba es: La temperatura media es de 22 °C, con una dispersión dada por la desviación estándar de 12 °C. Si la dispersión es muy grande, entonces la temperatura media no será un valor representativo. Dependiendo qué medida de tendencia central se elige, deberá ir acompañada con el estadígrafo de dispersión adecuado. A continuación se entregan estas relaciones:

Media aritmética Mediana

⇒ Desviación estándar

⇒ Amplitud cuartílica o centílica

Para comprender mejor qué es lo que involucra que exista una variación en los datos de una serie estadística, se describen aquí algunos aspectos importantes: 1. Cuánto más dispersos estén los datos, más aumentará el rango, la desviación estándar o la amplitud cuartílica, y viceversa. 2. Si las observaciones son todas iguales (de manera que no hay variación en los datos) todos 163

los estadígrafos de dispersión serán igual acero. 3. Las medidas de dispersión nunca son negativas.

2. RECORRIDO O RANGO 2.1. Definición Se determina por la diferencia entre el valor máximo y el valor mínimo observados de la variable.

R xi = VM xi − Vm xi Esta medida de dispersión simple es de cálculo fácil, de uso común y significación concreta, para expresar la variabilidad observada en la distribución. Su uso es limitado cuando deben efectuarse comparaciones debido a las unidades diferentes en que se expresan las variables. Su desventaja es que solo toma en cuenta los valores extremos de la variable y no así todos ellos. Es eficaz y brinda un ayuda rápida para calcular la concentración en distribuciones uniformes. Por ejemplo, si una variable se distribuye uniformemente entre los límites 5 y 12, presentará mayor concentración que otra que se distribuya también uniformemente entre los límites 1 a 20. Ejemplo Halle el recorrido de la variable de los sueldos (Bs.) de 5 obreros de una fábrica: 850

700

900

750

950

Aplicando la fórmula: Rxi = VMxi - Vmxi = 950 - 700 = 250 Conclusión: El rango o campo de variación de los sueldos de los 5 obreros es de 250 Bs.

3. VARIANZA 3.1. Definición La varianza de una distribución de frecuencia se determina por el promedio del cuadrado de las desviaciones de la variable. n

∑ (x − x )

2

i

2 2 2 S = σ = V [x ] = M [z i ] =

i=1

n

3.2. Determinación a) Tipo I La anterior fórmula se aplica para el cálculo de la varianza en las distribuciones tipo I. El cálculo de la varianza se facilita si se desarrolla convenientemente la expresión anterior: 164

S

2

∑ (x =

i

− x )2

n

∑ (x =

2 i

2

− 2x i x + x ) n

∑x =

2 i

∑x =

2 i

n

S

2

∑x − 2x

2

nx + = n

i

n

n

 ∑ xi   −   n  

∑x n

2 i

2

− 2x + x

2

Ejemplo Nota: El ejemplo se desarrollará junto con el ejemplo para la desviación estándar. b) Tipo II y III Si las distribuciones son de tipo II y III, la varianza se define de la siguiente manera: n

2 2 2 S = σ = V [x ] = M [z i ] =

∑ (x

2

i

− x) * n i

i=1

n

El cálculo de la varianza se efectúa mejor con la siguiente expresión:

S

2

∑x =

2 i

ni

n

 ∑ xi ni   −   n  

2

Ejemplo Nota: Se desarrollará junto con el ejemplo para la desviación estándar.

4. DESVIACIÓN ESTÁNDAR 4.1. Definición Es la raíz cuadrada positiva de la varianza.

4.2. Determinación a) Tipo I Para distribución tipo I, la fórmula de cálculo es: n

∑ ( x − x)

2

i

S = σ = V (x ) =

S=

i=1

n

Ejemplo 165

∑x n

2 i

 ∑ xi   −    n 

2

2

∑x = n

2 i

−x

2

Halle la varianza y la desviación estándar de los sueldos (centenas de Bs.) de 5 obreros de una fábrica, con respecto a la media aritmética: 8.5

7.0

9.0

7.5

9.5

Resolución. • Se tabulan los datos en una distribución de frecuencias tipo I (ver tabla 6.4.1). • Se halla la sumatoria de los valores de la variable (columna 1). • Se halla la sumatoria de los valores de la variable elevados la cuadrado (columna 2). Tabla 6.4.1 Distribución de frecuencias de sueldos de obreros (Centenas de Bs.) xi 7.0 7.5 8.5 9.0 9.5 41.5

x2i

49.00 56.25 72.25 81.00 90.25 348.75

Fuente: Elaboración propia • Se reemplazan los valores hallados en la fórmula: 2

S2 =

348.75  41.5  −  = 0.86 5  5 

S = 0.86 = 0.93

x=

41.5 = 8.3 5

Conclusión: El sueldo promedio de los obreros es de 830 Bs. con una dispersión de 93 Bs. b) Tipo II Si se trata de distribuciones tipo II y III, se utilizan las siguientes expresiones: n

∑ ( x − x) i

S = σ = V [x ] =

2

* ni

S=

i=1

n

∑x

2 i

n

ni

 ∑ xi ni   −    n 

2

Ejemplo Sea la distribución del dinero de los estudiantes de la carrera de Ingeniería Industrial, que gastan diariamente (ver tabla 6.4.2). Halle la V[x] y σ: Tabla 6.4.2 Cálculo de la desviación estándar de la distribución de gastos diarios 166

xi 3 9 17 26

ni 11 9 12 8 40

xi*ni 33 81 204 208 526

xi2*ni 99 729 3468 5408 9704

Fuente: Elaboración propia Resolución: • Se hallan los valores xi*ni (columna 3) para determinar la media aritmética.

x=

526 = 13.15 Bs. 40

• Se obtienen los valores xi2*ni (columna 4) para determinar la varianza.

S2 =

9704 − (13.15) 2 = 69.6775 Bs.2 40

S = 69.6775 Bs 2 = 8.35 Bs. Conclusión: Los estudiantes gastan diariamente en promedio 13.15 Bs. con una dispersión de 8.35 Bs. • La distribución se caracteriza por: µ = 13.15 Bs. S = 8.35 Bs.

que fija su posición y que fija la forma.

Como la desviación es muy grande respecto a la media, la media no es representativa de la distribución.

5. PROPIEDADES DE LA VARIANZA Las propiedades de la varianza son las siguientes: 1ra Propiedad. La varianza de una constante es cero. En símbolos:

V [k ] = 0

Demostración: V [ x ] = M [( x − x ) 2 ] = M [(k − k ) 2 ] = M [02 ] = 0 2da Propiedad. La varianza de la variable más una constante es igual a la varianza de la variable. 167

V[x + k ] = V[x ]

En símbolos:

{

}

Demostración: V [ x + k ] = M [( x + k ) − ( x + k )]2 = M [ x + k − x − k ]2 = M [ x − x ]2 = V [ x ] 3ra Propiedad. La varianza de una variable por una constante es la varianza de la variable por la constante al cuadrado.

V [k x ] = k 2 V [ x ]

En símbolos:

Demostración: V [ k x ] = M [(kx − k x ) 2 ] = M [ k 2 ( x − x ) 2 ] = k 2 M [( x − x ) 2 ] = k 2 V [ x ] Ejemplo Sea la distribución de la cantidad de dinero que manejan los estudiantes de Ingeniería Industrial y además se sabe que el Centro de Estudiantes de esa carrera ha ofrecido: a) Otorgar una subvención de 2.5 Bs. a cada estudiante. b) Ofrecer el 20% de su disponibilidad efectiva. ¿Cuál de las dos políticas económicas recomienda a sus compañeros y por qué? Resolución. • Es el mismo ejemplo desarrollado para hallar la media, varianza y desviación estándar. Se copian los valores hallados: µ = 13.15 Bs. S2 = 69.6775 Bs2 • Empleando valores de la media y la varianza relativas a la variable más una constante y a la variable por una constante, se efectúa un análisis de las dos medidas de subvención. a) Aumentar a todos 2.50 Bs. Se sabe que:

M [x + k] = 0 + k = 13.15 + 2.5 = 15.65 Bs. V [x + k] = V [x] = 69.6775 Bs2.

b) Aumentar el 20% de los líquidos manejables. Se sabe que:

k = 1.2 = 1 + 0.2 M [k * x] = 1.2 * (13.15) = 15.78 Bs. V [k * x] = k2 * V [x] = (1.2)2 * (69.6775) = 100.34 Bs2.

• Para comparar los resultados de las dos distribuciones es conveniente usar una medida de comparación, que se llama coeficiente de variación: CV, que mide la dispersión relativa porcentual con respecto a la media (Se estudiará esta medida con más detalle en el siguiente 168

capítulo). a) Aumentar a todos 2.5 Bs.

CV =

s 8.35 *100 = *100 = 53.34% x 15.65

CV =

s 10.02 *100 = *100 = 63.48% x 15.78

b) Aumentar el 20%.

Respuesta: Examinado el valor de las medias conviene el aumento del 20% aunque sea pequeña la diferencia. Observando el valor de la varianza se determina que conviene aumentar a todos 2.5 por la gran diferencia que existe entre dichos valores. La varianza en la primera medida, indica que el aumento beneficia a todos sin variar la diferencia de ingresos. En la segunda medida para un aumento mas o menos semejante, la varianza indica que las diferencias se hacen más profundas (pobres se hacen más pobres y los ricos se hacen más ricos). En consecuencia por un sentido de solidaridad y evitar mayores desigualdades, conviene que el Centro de Estudiantes aplique la primera medida. Otra forma de determinar la mejor política es observar los coeficientes de variación. El menor coeficiente de variación es el que siempre conviene. 4ta Propiedad. Cuando una distribución de frecuencias requiere ser connotada por la importancia de sus grupos, se dice que la varianza total debe ser explicada por la variación entre grupos (intervarianza) y la variación dentro los grupos (intravarianza), tal que:

S2 = S2b + S2c (Intervarianza + Intravarianza) k

∑ (x

hi

− x)2 n h i

Donde:

S2b =

Siendo:

xhi = La media de cada grupo. nhi = El tamaño de cada grupo. k = El número de grupos que contiene la población.

i =1

(Varianza de las medias)

n

k

S = 2 c

Siendo:

∑S i =1

2 hi

nhi (Media de las varianzas)

n

Shi2 = Varianza de cada grupo.

La utilidad que tiene la cuarta propiedad es muy grande. En general, se puede decir que si: •

S2b > Sc2 , hay mayor variabilidad entre grupos que dentro de cada grupo. Por lo tanto los grupos son distintos entre si, y constituyen estratos diferenciados de la población. 169



S2c > S2b , hay mayor variación dentro de cada grupo que entre grupos. Por lo tanto los grupos son similares y pueden ser unidos en un solo grupo, que constituye la población.

Esta propiedad constituye el fundamento del Análisis de Varianza (ANOVA), que es muy utilizada en el análisis estadístico de experimentos. Ejemplo Sea la cantidad de dinero que disponen los estudiantes de Ingeniería Industrial por día: xi 3 9 17 26

ni 11 9 12 8 40

Verifique que la varianza es igual a la suma de la intervarianza y la intravarianza. Resolución. • Se determina la media y la varianza general a fin de caracterizar la distribución. Estos datos son ya conocidos de los ejemplos anteriores: µ = 13.15 Bs. S2 = 69.6775 Bs2 • Si dicha distribución está formada por dos grupos igualmente importantes por su composición y de un tamaño igual a 20, se deberán caracterizar cada uno de dichos grupos. 1er Grupo: n1i 11 9 20

x1i 3 9

x1i * n1i 33 81 114

2

2

S1 = Se caracteriza así:

x1i2 * n1i 99 729 828

828  114  2 2 −  = 41.4 − (5.7) = 41.4 − 32.49 = 8.91 Bs 20  20 

x 1 = 5.7 Bs.

S12 = 8.91 Bs2.

170

2do Grupo: n2i 12 8 20

x2i 17 26

x2i * n2i 204 208 412

x2i2 * n2i 3468 5408 8876

2

8876  412  2 2 − S2 =  = 443.8 − (20.6) = 443.8 − 424.36 = 19.44 Bs 20  20  2

Se caracteriza así:

x 2 = 20.6 Bs. S22 = 19.44 Bs2.

• Con los valores anteriores se calcula la intervarianza y la intravarianza. a) Intervarianza (ver tabla 6.4.3): Tabla 6.5.1 Cálculo de la intervarianza nhi 20 20 40

xhi 5.7 20.6

xhi * nhi 114 412 526

xhi2 * nhi 649.8 8487.2 9137.0

Fuente: Elaboración propia 2

9137  526  2 − Sb =  = 55.5025 Bs 40  40  2

b) Intravarianza (ver tabla 6.4.4): Tabla 6.5.2 Cálculo de la intravarianza Shi2 8.91 19.44

nhi 20 20 40

Shi2 * nhi 178.2 288.8 567.0

Fuente: Elaboración propia 2 Sc =

567 = 14.175 Bs 2 40

Por lo tanto: S2 = Sb2 + Sc2 = 69.6775 Bs2. 171

El bajo valor de la intravarianza Sc2 = 14.175 Bs2., indica que la variación distribuible de dinero dentro de cada grupo es homogénea. El alto valor de la intervarianza Sb2 = 55.5025 Bs2., expresa que la variabilidad de dinero en efectivo entre los grupos es fuerte. En consecuencia la alta variabilidad total del dinero en efectivo en la distribución depende de la variabilidad entre los grupos. En consecuencia los dos grupos tienen características diferentes en cuanto a su disponibilidad diaria de dinero. En consecuencia la media de los dos grupos diferenciados es más representativa que la media del grupo total.

6. VARIANZA ESPERADA En toda distribución de probabilidad, a fin de caracterizarla, además de hallar la esperanza matemática, es necesario determinar o analizar la varianza esperada.

6.1. Determinación a) Función de cuantía Si se tiene una función de cuantía, la varianza esperada se define de la siguiente manera:

 n  V[x] = ∑ (x i − x) P(x i ) = ∑ x P(x i ) −  ∑ x i P(x i )  i =1 i =1  i =1  n

n

2

2

2 i

siendo: x = 0, 1, 2, 3, ... n.

Ejemplo Sea la siguiente función de cuantía: f ( x ) =

1 (2x + 1) 16

x = 0, 1, 2, 3

Hallar la varianza y desviación estándar esperadas. Resolución (ver tabla 6.6.1) Tabla 6.6.1 Cálculo de la varianza esperada de la función f ( x ) = xi 0 1 2 3

P(xi) 1/16 3/16 5/16 7/16 16/16

xi*P(xi) 0 3/16 10/16 21/16 34/16

1 (2x + 1) 16

xi2*P(xi) 0 3/16 40/16 63/16 106/16

2

106  34  V[x] = −   = 2.11 16  16 

S = 2.11 = 1.45 172

x = 0, 1, 2, 3

x=

34 = 2.125 16

b) Función de densidad Si se tiene una función de densidad, la varianza esperada se define de la siguiente manera: ∞



∞  V [x ] = ∫ (x − x ) f(x) dx = ∫ x f(x) dx −  ∫ x f(x) dx  −∞ −∞  −∞  2

2

siendo: -∞ < x < ∞

2

Ejemplo Sea la siguiente función de densidad: f (x ) = esperada.

1 (2x + 1 ) 12

para 0 < x < 3 . Hallar la varianza

Resolución

3  1 1    V [x ] = ∫ x  (2x + 1 )  dx −  ∫ x  (2x + 1 )  dx  12    0  0 12 3

2

2

3  1  2x 3 x 2  3  1  x4 x3  =  +  −  +   12  2 3  0 12  3 2 0  

1  81 9   1  =  + 9  −   18 +   12  2 2   12 

= Luego:

2

2

1 99 2025 2376 − 2025 351 *( ) − = = = 0.609 12 2 576 576 576

E [x] = 1.875 (media) V [x] = 0.609 (varianza) S [x] = 0.78 (desviación estándar)

Se observa que la esperanza matemática no es una medida confiable para resumir la información de la distribución, ya que su dispersión es grande.

7. OTRAS MEDIDAS DE DISPERSIÓN Estas medidas generalmente se utilizan juntamente con la mediana, cuando la media y la desviación estándar no son medidas representativas de la distribución.

7.1. Amplitud cuartílica a) Definición Los cuartiles son los valores de la variable que dividen a la distribución en 4 partes proporcionalmente iguales, como lo muestra la figura 6.7.1.

173

Figura 6.7.1. Disposición de los cuartiles en una distribución A.C. 25%

25%

25%

Q1

Q2 = Me

25% Q3

Fuente: Elaboración propia Nota: El segundo cuartil es igual a la mediana. A.C. es la amplitud cuartílica. b) Determinación para distribuciones tipo I y II El procedimiento para distribuciones tipo I y II, se puede deducir fácilmente de la metodología seguida para el cálculo de la mediana. c) Determinación para distribuciones tipo III Se halla por medio de la siguiente ecuación:

AQ = Q3 − Q1 donde el r - ésimo cuartil, se determina mediante:

rn − N i −1 Q r = L i −1 + 4 (a i ) ni Esta ecuación es una general de la que se ha deducido la ecuación para el cálculo de la mediana.

7.2. Desviación cuartílica La desviación cuartílica es la mitad de la amplitud cuartílica:

D.Q. =

A.Q. 2

7.3. Amplitud centílica a) Definición Los centiles son los valores de la variable que dividen a la distribución en 100 partes iguales, como se muestra en la figura 6.7.2.

174

Figura 6.7.2 Disposición de los centiles en una distribución

10% C10

A.Cn .

40%

10%

40%

Q2 = C50 = Me

C90

Fuente: Elaboración propia Nota: El cuartil 2 es igual al centil 50 y a la mediana. El cuartil 3 es igual al centil 75 y el cuartil 1 al centil 25. A.Cn. es la amplitud centílica. Nota: Por medio de los centiles, el investigador puede no sólo calcular los límites del 80% central de la distribución, sino de cualquier porcentaje que sea adecuado para sus conclusiones. b) Determinación para distribuciones tipo I y II En la práctica, debido a que para calcular centiles se deben dividir los datos en 100 partes, no se realiza el cálculo para distribuciones tipo I y II, que contienen pocos valores diferentes de la variable. Sin embargo, el procedimiento es similar que para el cálculo de la mediana. c) Determinación para distribuciones tipo III Se halla por medio de la siguiente expresión:

ACn. = C90 − C10 donde el r - ésimo centil se calcula mediante:

rn − Ni−1 100 Cr = Li−1 + (a i ) ni

7.4. Ejemplo Una muestra de las cantidades quincenales invertidas en el plan de participación de utilidades de una compañía por parte de los empleados, se organizó en una distribución de frecuencias para su estudio (ver tabla 6.7.1). Halle la amplitud cuartílica, la desviación cuartílica y la amplitud centílica.

175

Tabla 6.7.1 Distribución de frecuencias de inversión en un plan de participación de utilidades Li-1 - Li 30 – 35 35’ – 40 40’ – 45 45’ – 50 50’ – 55 55’ – 60 60’ – 65 65’ – 70

ni 3 7 11 22 40 24 9 4

Ni 3 10 21 43 83 107 116 120

Fuente: Elaboración propia Resolución Para hallar los cuartiles y centiles se siguen los mismos pasos que para la determinación de la mediana. Amplitud cuartílica:

90 − 83   30 − 21   A.Q. = Q3 − Q1 = 55 + (5)  −  45 + (5)  = 56.46 − 47.04 = 9.42 24 22     Conclusión: • Cuartil 1: El 25% de los empleados invierten menos de 47.04 dólares en el plan, mientras que el 75% restante aportan más de ese valor. • Cuartil 3: El 75% de los empleados invierten menos de 56.46 dólares en el plan, mientras que el 25% restante aportan más de ese valor. • Amplitud cuartílica: El 50% central de los trabajadores aportan al plan entre 47.04 y 56.46 dólares. Desviación cuartílica:

D.Q. =

Q3 − Q1 9.42 = = 4.71 2 2

Amplitud centílica:

108 − 107   12 − 10   A.Cen. = C90 − C10 =  60 + (5)  −  40 + (5)  = 60.55 − 40.91 = 19.65 9 11     Conclusión: • Centil 10: El 10% de los empleados invierten menos de 40.91 dólares en el plan, mientras que el 90% restante aportan más de ese valor. • Centil 90: El 90% de los empleados invierten menos de 60.55 dólares en el plan, mientras que el 10% restante aportan más de ese valor. • Amplitud centílica: El 80% central de los trabajadores aportan al plan entre 40.91 y 60.55 dólares. 176

7.5. Diagrama de caja y bigotes En su forma más simple, un diagrama de caja y bigotes proporciona una representación gráfica de los datos, mediante el resumen de cinco valores: valor mínimo, cuartil 1, mediana, cuartil 3 y valor máximo de la variable. A continuación en la figura 6.7.3 se muestra el diagrama de caja y bigotes del ejemplo anterior. Figura 6.7.3. Diagrama de caja y bigotes del plan de participación de utilidades

Valor menor

Q1

Me

Q3

Valor mayor

30

47.04

52.12

56.46

70

30

35

40

45

50

55

60

65

70

Fuente: Elaboración propia Se puede observar que la caja contiene el 50% central de los datos de la distribución, con los límites expresados por el cuartil 1 y el cuartil 3. La mediana divide a la distribución en dos partes proporcionalmente iguales. Por otro lado, las líneas que van desde la caja hasta el valor mayor y menor de la variable, son los bigotes. El gráfico indica que la distribución está levemente sesgada a la izquierda, ya que el bigote izquierdo es de mayor magnitud al derecho. Por otro lado la mediana está levemente cerca del lado derecho de la caja, lo que confirma el sesgo.

8. TEOREMA DE CHEVYSHEV Se puede decir que si la desviación estándar de un conjunto de datos es pequeña, los valores se concentran dentro de la media y si es amplia, los valores se acumulan en forma esparcida alrededor de la media. Esta idea se expresa más formalmente por medio del teorema de Chevyshev, en honor a un matemático ruso: “Para cualquier conjunto de datos y cualquier constante k mayor que 1, el porcentaje de los datos que debe caer dentro de k desviaciones estándar de cualquier lado de la media es de por lo menos: 1 − de que por ejemplo, como mínimo, 1 − dentro de dos desviaciones estándar.

1 ”. Así, se puede estar seguro k2

1 = 75% de los valores de una distribución debe caer 22

177

EJERCICIOS DE CLASE Varianza y desviación estándar 1. Halle la media aritmética de los segundos ejemplos, del capítulo de Distribución de Frecuencias. Propiedades de la varianza 2. El gerente de una empresa que fabrica papel desea analizar los sueldos que paga a sus trabajadores. Para ello, los dividió en tres grupos. Los datos en $ para cada grupo se muestran a continuación: Grupo 1: Li-1 - Li 180-200 200-220 220-240

Grupo 2: ni 3 4 8 15

Grupo 3:

Li-1 - Li 240-260 260-280 280-300

ni 11 15 10 36

Li-1 - Li 300-320 320-340 340-360

ni 9 6 4 19

a) Halle la media aritmética y la varianza de todos los trabajadores de la empresa e indique si valía la pena separarlos en tres grupos o no. b) El gerente quiere analizar cual de las dos políticas siguientes implementará para todos sus trabajadores de modo de elevar el sueldo promedio. ¡Ayúdelo en su decisión! • Aumento del sueldo en 100 Bs. • Aumento del 36.61% de su sueldo. Varianza esperada Función de Cuantía 3. Sea la siguiente función de cuantía: f (x) = e− x x = 0,1, 2,3, 4,5 , que determina la probabilidad de la demanda diaria de un artículo que se vende a 2 $us. la unidad. Halle la varianza esperada. Función de densidad −

x 2

0 ≤ x ≤ 4 , que relaciona la probabilidad del 4. Sea la función de densidad: f (x) = e precio unitario de un artículo (en $us.). Halle la varianza esperada.

178

Otras medidas de dispersión 5. A cada persona que se presenta como candidato para un trabajo de ensamble en Femco, se le aplica una prueba de aptitudes mecánicas. Una parte de la prueba consiste en ensamblar un armario con base en instrucciones numeradas. En la siguiente distribución de frecuencias se tiene una muestra de los tiempos que necesitaron 42 personas para ensamblar el armario. Tiempo (min)

Numero de personas 4 8 14 9 5 2 42

1-4 4-7 7-10 10-13 13-16 16-19

a) Halle la mediana. b) Encuentre la amplitud y desviación intercuartílica e interprételas. c) Determine la amplitud centílica. d) ¿Entre qué valores se encuentra el 80% central de la distribución?. e) Realice un diagrama de caja y bigotes e interprete su significado.

179

EJERCICIOS PROPUESTOS 1. Los sueldos en $us de 5 empleados de la Alcaldía de Cochabamba son: 176

200

170

196

210

215

Halle la media, el recorrido y la desviación estándar de la distribución. 2. Sumando 4 a cada uno de los números de la serie 2, 6, 5, 9, 1, se obtiene la serie 6, 10, 9, 13, 5. Compruebe que ambas series tienen la misma varianza y distintas medias. 3. Dada una serie de valores de X: 3, 2, 8, 1, compruebe que siendo y = 2 x + 5 , la media de la serie Y es: y = 2 x + 5 y su varianza: S2 y = 4 S2 x . 4. Las edades de los 11 jugadores de un equipo de fútbol (A) son: 19, 35, 24, 30, 26, 27, 29, 21, 26, 24, 33 y las de los otros 11 jugadores de otro equipo (B): 29, 29, 32, 26, 31, 25, 23, 25, 30, 20, 24 Halle la intervarianza, la intravarianza y la varianza del grupo total. Determine si la intra o la intervarianza influye más en la variabilidad total de la distribución. 5. En la distribución que sigue se contaron los ingresos mensuales de empleados de tiempo parcial. Ingresos semanales ($us) 40 – 50 50 – 60 60 – 70 70 – 80 80 – 90 90 – 100 100 – 110 110 – 120 a) ¿Cuál es el primer cuartil? b) ¿Cuál es el tercer cuartil? c) ¿Cuál es la amplitud cuartílica? Interprétela d) ¿Cuál es la desviación cuartílica? Interprétela e) Determine la amplitud centílica. Interprete su valor. f) Realice un diagrama de caja y bigotes.

180

ni 8 16 24 48 22 14 11 7

6. Los sueldos y salarios de un grupo de 50 trabajadores (cientos de Bs.) tienen la siguiente distribución: 19 - 25 10% 1-5 32%

13 - 19 12% 11 - 13 18%

5 - 11 28%

a) Halle la media y la varianza de la distribución. ¿Cuál es el sueldo máximo del 75% de los trabajadores?. b) Considere dos grupos de trabajadores (el primer grupo formado por 30 trabajadores y el segundo por 20) y determine si es la intra o la intervarianza la que influye más en la variabilidad total de la distribución.

181

EJERCICIOS PARA EXAMEN 1. En la banca comercial de nuestra ciudad en los últimos dos años se han registrado los siguientes tipos de interés (expresados en porcentaje) para los ahorros a plazo fijo observados en las libretas de 40 familias: 14 12.5 11 5 8.2 9.3 12 9.5 6.5 13 15 13 7.8 7 9 8 11 6.8 7.2 9 10.6 13 7.2 14 11.4 7 9 8.1 6 13.4 12 9 8 13 6.9 12 15 9 12 11.6

a) Organice y presente los datos en una distribución de frecuencias de 5 grupos. b) Caracterice la distribución (Halle la media, mediana, moda y desviación estándar). c) Suponga que tiene un interés de parte de la asociación de ahorristas comparar las tasas de interés entre los tres primeros grupos y los dos últimos grupos. Efectúe el análisis de inter e intravarianza y emita su informe al respecto. 2. Se realizó una encuesta a 88 personas sobre la eficiencia en el consumo de gasolina, en km/lt., de su auto. A continuación se muestra la distribución: Li-1 - Li

ni

hi

Ni

Hi

xi

xi*ni

30

60

8 - 28 Totales a) Debido a la crisis energética del petróleo, el ministerio de gobierno debía tener esta información cuanto antes para tomar la decisión de incrementar la eficiencia de los autos de alguna manera. ¿Puede ayudarlo a reconstruir la tabla?. • Q1 = 7.4 • Me = 11.04 • A.Cn. = 17.34.

y C10 = 4.76: y Mo = 9.4194: C90:

Fila 2 Fila 3 Fila 6

b) Si los autos que tienen una eficiencia entre 0 - 4 km/lt y entre 4' - 8, constituyen el 25% del total, el ministerio exigirá que estos autos salgan de circulación. Si no, quiere decir que el problema de los autos no afecta sustancialmente a la política de ahorro energético. ¿Cuál es la decisión que debe tomar el ministerio?. c) ¿Cuál es el porcentaje de pérdida del gobierno en esta muestra, si por cada auto que saca de circulación debe pagar a los propietarios 2000 $us., pero el ahorro energético se traduce en una ganancia por auto del 40% de lo que paga? 3. La secretaria de una empresa de envasado de alimentos olvidó comprar el cartucho de tinta para la impresora de su oficina y al imprimir la distribución de frecuencias de los pesos del contenido de un cierto número de latas (gr.) que fueron llenadas por una máquina automática 182

que se creía que estaba descalibrada, muchos datos eran ilegibles. A continuación se muestra la distribución: Li-1 - Li

ni

hi

Ni

Hi

xi 135

xi*ni

140 20 9 410 Totales

66

a) El gerente a cargo debía tener esta información cuanto antes para tomar la decisión de llamar a la compañía de mantenimiento para que realicen una recalibración de la máquina. ¿Puede ayudarlo a reconstruir la tabla? • • • •

Q1 = 153.25: Fila 3 A.Q. = 21.75 C10 = 145.75: Fila 2 C90 = 187.7143: Fila 6

b) Halle la media aritmética y la mediana de la distribución e interprete los resultados.

183

CAPÍTULO 7 ESTADÍGRAFOS DE COMPARACIÓN 1. INTRODUCCIÓN En muchos casos de distribuciones de frecuencias de una variable, éstas no son comparables utilizando la medias y la varianzas respectivas, por las distintas unidades en que están expresadas las variables. Entonces es necesario construir indicadores que no estén influidos por dichas unidades. En este caso se construyen razones tales como el coeficiente de variación y la variable tipificada o estandarizada como instrumentos que permiten comparar entre distribuciones de frecuencias de una variable.

2. COEFICIENTE DE VARIACIÓN 2.1. Definición El coeficiente de variación permite expresar la dispersión de la distribución de frecuencias por unidad de media aritmética. Este coeficiente se obtiene dividiendo la desviación estándar entre la media aritmética. Se simboliza por el coeficiente CV y su expresión es:

CV =

s x

En general este coeficiente se usa cuando los valores de las medias aritméticas y las varianzas entre dos distribuciones no son iguales. Permite determinar la dispersión relativa porcentual o el grado de homogeneidad de una distribución. El mayor valor del coeficiente de variación expresa una mayor dispersión en la distribución. Si se expresa en porcentaje sus valores van desde 0 al 100. Ejemplo Se va a comparar la variación de los ingresos anuales de ejecutivos con la variación en los ingresos de trabajadores no calificados. ¿Cómo procedería? Los resultados en miles de $, son:

Ejecutivos :

x = 500

s = 50

Trabajadores :

x = 12

s = 1.2

Resolución Se procede hallando los coeficientes de variación de ambas distribuciones:

CVE =

50 *100 = 10% 500

CVT =

1.2 *100 = 10% 12

Conclusión: El grado de dispersión o variación en los ingresos anuales de ejecutivos y trabajadores no calificados es el mismo. 184

3. VARIABLE TIPIFICADA O ESTANDARIZADA 3.1. Definición Es el resultado de transformar una variable en otra utilizando un cambio de variable de manera que su media aritmética sea igual a cero y su varianza igual a uno. La variable tipificada (z) resulta de dividir la desviación de un valor de la variable respecto de su media aritmética entre la desviación estándar.

zi =

xi − x s

Se puede comprobar que el cambio de variable z, hace que la media sea 0 y la desviación uno:

 − x  M [ x i ] − M [x ] x − x 0 1) M [z i ] = M  x i = = = =0 s s s  s  2  − x 1 s − 2) V [z i ] = V  x i = V [ x ] = =1 x i 2 2  s  s s

La variable tipificada se usa para determinar la posición relativa entre los valores correspondientes a distribuciones de frecuencias diferentes. La variable tipificada o estandarizada es un cambio de variable fundamental en la inferencia estadística, porque constituye la base del muestreo a través del teorema central del límite. Ejemplo En física, la nota media es 63 con una desviación estándar de 12. En matemáticas, la nota media es de 75 con una desviación estándar de 15. Un estudiante obtuvo en ambas materias 55. ¿En cuál de las dos materias tiene una mejor posición relativa como estudiante? Se procede de la siguiente manera: • Se determina para cada distribución la variable tipificada.

a) Física z Fi =

55 − 63 −8 −2 = = = −0.67 (mejor) 12 12 3

b) Matemáticas z M i =

55 − 75 −20 −4 = = = − 1.33 15 15 3

Conclusión: El estudiante tiene una mejor posición relativa como alumno en la materia de física.

185

EJERCICIOS DE CLASE Coeficiente de variación Distribución de frecuencia 1. Halle los coeficientes de variación de los segundos ejemplos, del capítulo de Distribución de Frecuencias. Función de cuantía 2. Sea la siguiente función de cuantía: f (x) = e− x x = 0,1, 2,3, 4,5 , que determina la probabilidad de la demanda diaria de un artículo que se vende a 2 $us. la unidad. Determine el coeficiente de variación. Función de densidad −

x 2

0 ≤ x ≤ 4 , que relaciona la probabilidad del 3. Sea la función de densidad: f (x) = e precio unitario de un artículo (en $us.). Determine el coeficiente de variación. Variable tipificada 4. En la UPB, todos los estudiantes que quieren ingresar deben vencer la prueba PAA (prueba de aptitud académica). El puntaje mínimo para aprobar el test es de 1050. Hasta ahora el puntaje medio es de 1150, con una desviación estándar de 47 puntos. Jaime Casanova dio la prueba y obtuvo una z = -0.4. a) ¿Puede ingresar a la UPB? b) Su amigo, Jorge Lobo, obtuvo una calificación de 1200. ¿Qué alumno obtuvo una mejor posición relativa?

186

EJERCICIOS PROPUESTOS 1. Un conjunto de 20 valores tiene una media igual a 50; otro conjunto de 20 valores tiene una media igual a 30; la desviación estándar de los 40 valores considerados conjuntamente es igual a 10. Calcule el coeficiente de variación del conjunto de los 40 números. 2. Multiplicando por 2 cada uno de los valores de la variable x: 3, 2, 0, 5, se obtiene la serie y: 6, 4, 0, 10. Compruebe que ambas series tienen el mismo coeficiente de variación. 3. Se recopiló información acerca de las ventas anuales de 50 pequeñas tiendas de tornillos: Ventas (miles de $) 110 130 140 150 160 Total

N0 de negocios 7 9 16 15 3 50

a) Encuentre la media y la varianza. b) Se pretende crear un nuevo impuesto y existen dos alternativas 1ra: 5 % de las ventas, 2da: 9 (miles de $ al año). Encuentre el nuevo valor de la media y la varianza con estas disminuciones y recomiende la mejor alternativa para los propietarios. 4. Determine cuál de las distribuciones, A o B, tiene un mayor grado de dispersión. Distribución A Li-1 - Li ni 0–2 4 2–4 6 4–6 5 6–8 3

Distribución B Li-1 - Li ni 4-8 10 8 - 12 12 12 - 16 14 16 - 20 20 20 - 24 21

5. Una distribución A tiene una media aritmética que es doble a la de una distribución B, y una desviación estándar que es la mitad de la de B. ¿Qué relación existe entre sus grados de dispersión? 6. Se ha determinado en un grupo de estudiantes que sus matrículas en decenas de Bs. es como sigue: 8 9 7 4 12 Un segundo grupo tiene como gasto en matrícula los siguientes datos: 6

5

9

3

10

4

¿Qué posición relativa tendrá un gasto en matrícula del primer grupo de 90 Bs., frente a un gasto de 70 Bs. del segundo grupo? 187

7. Un estudiante de Diseño Gráfico defendió su tesis y obtuvo una calificación de 84.2. La calificación media de una tesis en esta carrera es de 90.2 con una desviación estándar de 10 puntos. Su hermano, que estudió Administración de Empresas defenderá su tesis próximamente. La calificación media de las tesis de la carrera es de 95.5 con una desviación estándar de 23. Sus padres decidieron que al mejor de ellos le comprarían un auto último modelo. ¿Cuál es la nota mínima que deberá sacarse el hermano para recibir el premio? (Trabajar con un decimal).

188

EJERCICIOS PARA EXAMEN 1. Dos grupos de estudiantes han obtenido en 5 materias las siguientes calificaciones: El grupo A tiene :

30

70

100

60

90

El segundo B grupo:

50

80

90

70

60

Cuál de los grupos tiene menor dispersión por unidad de media aritmética? 2. Antes de construir la presa de Misicuni, el cuerpo de ingenieros de la Empresa ICE realizó una serie de pruebas para medir el flujo de agua que pasa por el lugar de la presa. Los resultados de la prueba se utilizaron para construir la siguiente distribución de frecuencias de amplitudes constantes: Flujo de agua (lt/min)

ni

Ni

hi

Hi

xi

7 60 49 41 11 Totales Reconstruya la tabla, teniendo la siguiente información adicional: • • • • • • •

Amplitud = 50 Fila 5 = Clase mediana y modal. Mediana = 1212.069 Moda = 1222.778 Centil 10 = 1091.9048 Fila 2 = Clase del centil 10. n5 + n6 = n - 147

Halle el coeficiente de variación.

189

xi*ni

xi2*ni

CAPÍTULO 8 ESTADÍGRAFOS DE FORMA: GRADO DE CONCENTRACIÓN ASIMETRÍA Y CURTOSIS 1. INTRODUCCIÓN Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de datos de una distribución de frecuencias. En concreto, podemos estudiar las siguientes características de la curva: a) Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda son similares. b) Curtosis: mide si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra.

2. ASIMETRÍA 2.1. Definición La asimetría de una distribución puede ser determinada mediante las siguientes reglas: • Si una distribución de frecuencias es simétrica, se dice que no tiene sesgo o su sesgo es nulo. • Se dice que una distribución presenta sesgo positivo cuando la media es mayor que la mediana o moda, debido a observaciones grandes. • Se dice que una distribución presenta sesgo negativo cuando la media es la menor de los tres promedios, por observaciones pequeñas. Un diagrama que muestra los diferentes grados de simetría es el representado en la figura 8.2.1. Figura 8.2.1. Tipos de asimetría de una distribución

Eje de simetría

µ Asimétrica Positiva

Eje de simetría

x

µ

x

Curva simétrica

Fuente: Elaboración propia

2.2. Determinación 190

Eje de simetría

µ Asimétrica Negativa

x

La medición de la asimetría se realiza mediante el coeficiente de Pearson:

C.A. =

3(x − Me) s

− 3 ≤ C.A. ≤ 3

donde: un valor positivo indicará que la distribución tiene sesgo positivo. un valor negativo indicará que la distribución tiene sesgo negativo. un valor de cero, indicará que la distribución es simétrica. Cuanto más alejado esté el valor del cero, más asimetría tendrá la distribución. Ejemplo Las duraciones de estancia en el piso de cancerología de un hospital, se organizaron en una distribución de frecuencias. La duración media fue de 28 días, la mediana de 25 días y la modal de 23 días. La desviación estándar fue de 4.2 días. ¿La distribución es simétrica o asimétrica? Se calcula el coeficiente de Pearson:

C.A. =

3(28 − 25) = 2.14 4.2

Conclusión: La distribución es medianamente asimétrica, con sesgo positivo.

3. CURTOSIS 3.1. Definición La curtosis mide el grado de agudeza de una distribución. Analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución. Se definen 3 tipos de distribuciones según su grado de curtosis: Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable. Un diagrama muestra de manera objetiva los distintos grados de curtosis (ver la figura 8.3.1)

Figura 8.3.1. Grados de curtosis de una distribución 191

Eje de simetría

µ

Eje de simetría

Eje de simetría

x

x

µ

Leptocúrtica (Delgado)

µ

x

Platicúrtica (Aplanado)

Mesocúrtica (Intermedio)

Fuente: Elaboración propia

3.2. Determinación El Coeficiente de Curtosis viene definido por la siguiente fórmula:

g2 =

1 n ∑ (x − x)4 ni n i =1 i 1 n  2  n ∑ (x i − x) n i   i =1 

2

−3

donde los resultados pueden ser los siguientes: g2 = 0 (distribución mesocúrtica). g2 > 0 (distribución leptocúrtica). g2 < 0 (distribución platicúrtica). Ejemplo La distribución de la estatura de un grupo de estudiantes (en pulgadas) es la que se muestra en la tabla 8.3.1. Halle el coeficiente de curtosis de la distribución. Resolución Primero se halla la media aritmética. Para ello se construye la columna 3 de la tabla:

x=

37.6 = 1.253 30

Luego se calcula el numerador y denominador de la fórmula (columna 4 y 5) y se sustituyen los valores:

1 (0.00004967) 30 g2 = − 3 = −1.3947 2 1   30 (0.03046667)  192

Conclusión: Como el coeficiente es negativo, la distribución es platicúrtica. Tabla 8.3.1 Distribución de frecuencias de la estatura de un grupo de estudiantes

x i n i (x i − x) 2 n i (x i − x) 4 n i

xi 1.2

ni 1

1.21

4

4.84 0.00751111 0.00001410

1.22

4

4.88 0.00444444 0.00000494

1.23

2

2.46 0.00108889 0.00000059

1.24

1

1.24 0.00017778 0.00000003

1.25

2

2.5

1.26

3

3.78 0.00013333 0.00000001

1.27

3

3.81 0.00083333 0.00000023

1.28

4

5.12 0.00284444 0.00000202

1.29

3

3.87 0.00403333 0.00000542

1.2

0.00284444 0.00000809

0.00002222 0.00000000

1.3 3 3.9 0.00653333 0.00001423 Totales 30 37.6 0.03046667 0.00004967

Fuente: Elaboración propia

4. RELACIÓN EMPÍRICA ENTRE MEDIA, MEDIANA Y MODA Para distribuciones de frecuencias de forma campanoide, unimodales y moderadamente asimétricas, se cumple que:

x − Mo = 3(x − Me) Ejemplo En Cochabamba existe una empresa que cría truchas en forma comercial. La gerencia está interesada en la longitud y peso de las truchas y continuamente toma muestras de los estanques. Una muestra del estanque n° 42 reveló que la longitud modal es 12 pulgadas y la media de 12.9 pulgadas. ¿Cuál es la mediana aproximada de las longitudes? Resolución Si se supone que la distribución de la longitud de las truchas de ese estanque tiene forma campanoide, es unimodal y moderadamente asimétrica, entonces la longitud mediana es:

12.9 − 12 = 3(12.9 − Me) Me = 12.6

5. ÁRBOL DE DECISIÓN PARA ESTADÍGRAFOS 193

A continuación se presenta un árbol que resume toda la información vertida en los capítulos 5 – 8, que ayudará al investigador a decidir los estadígrafos adecuados para el resumen de las distribuciones en las que está trabajando (ver figura 8.5.1 de elaboración propia).

194

Variable

Cuantitativa

Característica de la población

Cualitativa

Atributo

Aleatorio

¿Tipo de experimento?

Tipo I

Ordinal

Nominal

Decimales Continua

Discreta

Variables

¿Tipo de valores?

Enteros

Tipo III

¿Intervalos?

Constantes

¿Valores? - ¿variables?

Muchos-Pocos Tipo II

Muchos-Muchos

Determinístico

Pocos-Pocos

Si

¿Existe jerarquía?

No

FIGURA 8.5.1. ÁRBOL PARA ESTADÍGRAFOS

n

n

i =1

n

i

i

n

2

2

i =1

n

n

Me





−∞

∫x

∞ i

1 195 Mo 2

f( x i ) dx

x + x i+1 Me = i 2

f (x) dx =

E [x ] =

Me = x i

i=1

Mo

n i+1 a i+1 Mo = L i−1 + (a i) n i+1 + n i −1 a i+1 a i −1

n − Ni −1 Me = Li −1 + 2 (a i ) ni

E [x ] = ∑ x i P (x i )

+1

x i + x i+1 2

2

G = n ∏x ini

Me =

Mo

i =1

G = n ∏ xi

Me =

xn + xn

n i+1 Mo = L i −1 + (a i ) n i+1 + n i −1

n H= n ni ∑ i=1 x i

Me = x i

x=

n 1 ∑ i=1 x i

n

i

∑x n

H=

2

Me = x n +1

x=

i =1

∑x

n

Mediana

Moda

Moda

Posición

∑ x 2i  ∑ x i  −  n  n 

AQ = Q3 − Q1

−∞



2

2

V [x ] = ∫ x 2 f(x) dx − [ x ]

AQ = Q3 − Q1

i =1

n

AQ = Q3 − Q1

AQ = Q3 − Q1

∑ x i 2 n i  ∑ xi ni  −  n  n 

2

V[x] = ∑ x i2P(xi ) − [ x ]

S=

AQ = Q3 − Q1

S=

AQ = Q3 − Q1

Dispersión

2

s x

s x

s x

s x

s x

s x

CV =

CV =

CV =

CV =

CV =

CV =

Comparación

C.A. =

C.A. =

C.A. =

C.A. =

C.A. =

C.A. =

3(x − Me) s

n

 2  n ∑ (x i − x) n i   i=1 

3(x − Me) g 2 = 1 s

1 n ∑ (x − x)4 n i n i=1 i

n

 2  n ∑ (x i − x) n i   i=1 

1 n ∑ (x − x)4 n i n i=1 i

n

 2  n ∑ (x i − x) n i   i=1 

3(x − Me) g = 2 1 s

3(x − Me) s

Curtosis

1 n ∑ (x − x)4 n i n i=1 i

3(x − Me) g = 2 1 s

3(x − Me) s

Asimetría

2

2

2

−3

−3

−3

EJERCICIOS DE CLASE Asimetría 1. Halle el coeficiente de asimetría de los segundos ejemplos, del capítulo de Distribución de Frecuencias. Curtosis 2. Halle el coeficiente de curtosis de los segundos ejemplos de las distribuciones tipo III, del capítulo de Distribución de Frecuencias. Ejercicio adicional 3. En muchos procesos de manufactura hay un término llamado”trabajo en proceso” (abreviado WIP, por sus siglas en inglés de work-in-process) En una planta manufacturera de libros esto representa el tiempo que se necesita para doblar, unir, coser, proteger con guardas, y encuadernar las hojas que salen de la prensa. Los siguientes datos representan muestras de 20 libros en dos plantas de producción y el tiempo de procesamiento (definido como el tiempo en días contado desde que el libro llega a las prensas hasta que se empaca en cajas) para estas actividades. Planta A 5.62 11.62

5.29 7.29

16.25 7.50

10.92 7.96

11.46 4.42

21.62 10.50

8.45 7.58

8.58 9.29

5.41 7.54

11.42 8.92

Planta B 9.54 5.75

11.46 16.62 12.46 9.17

12.62 13.21

25.75 6.00

Para cada una de las plantas, calcule: a) La media aritmética. b) La mediana. c) Primer y tercer cuartil. d) El rango intercuartílico. e) La desviación estándar. f) El coeficiente de variación. g) El coeficiente de asimetría. h) El coeficiente de curtosis. i) ¿Existen diferencias entre las dos plantas?

196

15.41 2.33

14.29 13.13 13.71 10.04 14.25 5.37 6.25 9.71

EJERCICIOS PROPUESTOS 1. Una distribución es moderadamente asimétrica. Calcule la moda sabiendo que su media es igual a 3 y que la diferencia entre la media y la mediana es igual a -2. 2. Un estudio de las ventas netas de una muestra de pequeñas empresas reveló que las ventas netas tienen una media de 2.1 millones de $, una mediana de 2.4 millones de $ y una moda de 2.6 millones de $. La desviación estándar de la distribución es 500000 $. ¿La distribución de las ventas netas es simétrica o asimétrica, de sesgo negativo o positivo? 3. En la distribución que sigue se contaron los ingresos mensuales de empleados de tiempo parcial. Ingresos semanales ($us) 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 90 - 100 100 - 110 110 - 120

ni 8 16 24 48 22 14 11 7

a) Determine el coeficiente de asimetría y dé una interpretación. b) Determine el coeficiente de curtosis e interprete el resultado.

197

EJERCICIOS PARA EXAMEN 1. Un profesor de Inglés quiere evaluar el rendimiento de sus alumnos, utilizando tres métodos distintos de enseñanza. Para ello, los implementó en tres años diferentes. Los puntajes para cada curso se muestran a continuación: Año 1998: Li-1 - Li 70-80 80-90 90-100

Año 1999: ni 9 10 1 20

Año 2000:

Li-1 - Li 70-80 80-90 90-100

Li-1 - Li 70-80 80-90 90-100

ni 1 15 9 25

ni 1 4 10 15

a) Compare la dispersión relativa de las tres distribuciones. b) Compare el grado de asimetría de las tres distribuciones. c) El profesor quiere saber si los tres métodos de enseñanza son distintos o iguales. ¿Puede ayudarlo a decidir? d) ¿Cuál es el puntaje promedio de todos los alumnos que pasaron clases en el periodo 1998-2000? Si se considera al grupo total de alumnos: e) Suponga que la media de los puntajes de los alumnos menores de edad fue de 80 y la de los mayores de edad fue de 90. Determine el porcentaje de alumnos menores y mayores de edad. f) El profesor quiere analizar el siguiente año otros dos métodos para aumentar el rendimiento de sus alumnos. Según sus estimaciones, el primer método aumentará el puntaje en 5 puntos y el segundo método en 30 % del puntaje que sacó cada alumno. ¿Qué método le conviene implementar? g) Determine el grado de curtosis de la distribución. 2. En una fundición se muestreó un gran número de hornos con los siguientes resultados de temperaturas: Estadístico [°C] Media aritmética Mediana Moda Desviación estándar Desviación cuartílica Desviación media Número de hornos

Línea 1 238.1 240.0 241.5 3.0 1.9

Línea 2 240.0 240.0 240.0 0.4 0.2

Línea 3 242.9 240.0 239.1 3.9 2.2

1.0 100

0.1 150

1.7 250

a) Midiendo las dispersiones relativas, ¿cuál de las líneas tiene temperatura más homogénea? ¿Qué puede decir de la simetría de las tres líneas? 198

b) Encontrar la media de las temperaturas de toda la fundición. Para mejorar la eficiencia se propone aumentar las temperaturas en 50°C o aumentar el 20% de su temperatura a cada horno. ¿Cuál recomendaría usted, si se desea mantener la variabilidad constante? c) Hoy se registró en la línea 1 una temperatura constante de 239 °C, en la línea 2 una de 242 °C, y en la línea 3 una de 243 °C. ¿Qué horno tuvo una temperatura relativa más alta? 3. Cuatro fabricantes de focos de 100 watts, han reunido la siguiente información estadística sobre la vida útil (horas) de sus productos: Estadísticos Media Aritmética Varianza Mediana

Fabricante A 835.25 3135.14 891.25

Fabricante B 985.10 2063.44 970.33

Fabricante C 942.75 1878.56 949.00

Fabricante D 1097.72 2673.54 1087.00

Los fabricantes quieren formar una alianza. Han contratado a un asesor en Estadística para que les ayude en el tratamiento de los datos, su interpretación y acciones a tomar. La información que necesitan saber es: a) b) c) d)

¿Qué fabricante produce los focos con una vida útil más variable? ¿Qué distribución de la vida útil de los focos es más sesgada? ¿Da lo mismo comprar los focos de cualquier fabricante? Halle el coeficiente de variación de la vida útil del conjunto total de los focos de los fabricantes. e) Los fabricantes quieren contratar a un experto que les ayude a elevar la vida útil de sus focos. Se presentaron dos. Uno de ellos asegura que puede elevar la vida útil de los focos en 1%. El otro puede elevar la vida útil de los focos en 10 horas. ¿Qué experto será contratado? 2. El Banco BISA ha realizado un estudio sobre el tiempo (minutos) que esperan sus clientes para realizar una transacción. Los datos de una muestra se dan en la siguiente tabla: Li-1-Li

ni

hi

Ni

Hi

xi

xi*ni 12.5

20 40

xi2*ni

Me = 18.75 Q1 = 15.625 Mo = 18.90625 Los tres en Fila 4 Q3 = 23 (Fila 5) Amplitud = 5 (constante) Media = 18.7

75 Totales

100

a) Complete la distribución del tiempo de espera de los clientes del Banco BISA. b) El gerente quiere tomar una decisión en base a los datos estadísticos. Por eso, ha decidido que si el rango de tiempo de espera del 60% central de los clientes es mayor a 20 minutos, el banco tendrá que realizar un estudio de teoría de colas para optimizar este proceso. ¿Qué decisión debe tomar el gerente?

CASO DE ESTUDIO SPRINGVILLE HERALD 199

FASE 5 Walter Fairfax, jefe del departamento de servicios de cómputo, notó que además de la tabla y gráfica preparadas con base en la tabla SH2.4, con relación a la cantidad de cartuchos que son accesados, se necesitarían varias medidas descriptivas de resumen relativas a ubicación, variación y sesgo para que los informes proporcionados a la administración fueran más útiles. Ejercicios a) b) c) d)

Obtenga todas las medidas de tendencia central que considere necesarias. Obtenga todas las medidas de variación que considere necesarias. Obtenga todas las medidas de comparación, asimetría y curtosis que considere necesarias. ¿Cuál es la medida de posición y dispersión más útiles en este caso?

Nota: No siga adelante hasta terminar los ejercicios de la fase 5.

200

CAPÍTULO 9 ESTADÍSTICA BIDIMENSIONAL DISTRIBUCIÓN DE FRECUENCIAS DE DOS VARIABLES, ATRIBUTOS O MIXTAS 1. INTRODUCCIÓN Se ha estudiado hasta el momento los métodos estadísticos que hacían referencia a estadísticas de carácter cuantitativo de una sola variable o unidimensionales o de carácter cualitativo, insistiendo particularmente en su representación gráfica y en la obtención de fórmulas para el cálculo de sus medidas más representativas. Determinada la población correspondiente a un problema técnico, económico o social, los datos correspondientes pueden ser organizados considerando dos o más variables o atributos, ampliando los conceptos hasta ahora utilizados para el caso de una sola variable o atributo. Las parejas de valores, así obtenidas por observación conjunta, podrán o no repetirse un número determinado de veces. La presentación de los datos así elaborados, forman una distribución bidimensional (si se trata de atributos se denomina tabla de contingencia, y si se mezcla una variable con un atributo se dice que es una bidimensional mixta) o ampliando el concepto a más variables, forman una distribución multidimensional.

2. TIPOS DE DISTRIBUCIONES DE DOS VARIABLES, ATRIBUTOS O MIXTAS Las mencionadas distribuciones según el número de observaciones y valores diferentes respecto a dos variables o atributos considerados, pueden ser de los siguientes tipos (ver figura 9.2.1). Figura 9.2.1 Tipos de distribuciones de dos variables, atributos o mixtas

Variables o atributos

Número de observaciones Pequeño Grande Grande

Tipo I Tipo II Tipo III

Número de valores diferentes Pequeño Pequeño Grande

Fuente: Elaboración propia

2.1. Distribución bidimensional tipo I Se da cuando las observaciones efectuadas y los valores diferentes de las dos variables o las modalidades diferentes de los dos atributos, son pocos. La organización de dichos datos, si se 201

trata de variables, se efectúa considerando valores ascendentes o descendentes y su presentación en general, se efectúa tomando en cuenta dichos pares de valores registrados en dos columnas de la forma general mostrada en la tabla 9.2.1, donde algunos valores de la variable X pueden repetirse, pero con distinto valor de la variable Y, y viceversa: Tabla 9.2.1 Distribución bidimensional (xi , yi) tipo I xi x1 x2 x3 : xr

yi y1 y2 y3 : ys

Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadística Descriptiva, 1965. Ejemplo Sea una variable bidimensional que relaciona unidades vendidas (miles de artículos) con utilidades (miles de $us.) (ver tabla 9.2.2). Tabla 9.2.2 Distribución bidimensional de utilidades vs. unidades vendidas xi yi (unidades) (Utilidades) 1 20 2 40 3 70 4 80 5 100 Fuente: Elaboración propia La información se lee de la siguiente manera: • Fila 1: Cuando la empresa vendió 1000 unidades obtuvo 20000 $us de utilidades. • Fila 5: Cuando la empresa vendió 5000 unidades obtuvo 100000 $us de utilidades.

2.2. Distribución bidimensional tipo II Esta distribución se presenta cuando las observaciones son muchas y pocos los valores diferentes de las variables (o las modalidades de los atributos). Los datos se organizan en un cuadro de doble entrada, de manera que en las filas se registren los valores diferentes de la variable xi y en la columna se registren los valores diferentes de la variable yj. El cuerpo de dicha tabla de doble entrada registra las veces que se repite el par (x i , yi ) . Este número se denomina frecuencia absoluta bidimensional y se simboliza por n ij. 202

El valor del universo, población o colectivo, es la suma de los valores de frecuencia absoluta bidimensional, tal que: r

s

n = ∑∑ n ij i=1 j=1

La disposición general de un cuadro bidimensional tipo II, es la siguiente: Tabla 9.2.3 Distribución bidimensional tipo II yj

xi x1 x2 : xr Total

y1

Y2

...

ys

n11 n21 : nr1

n12 n22 : nr2

... ... : ...

n1s n2s : nrs

Total

r

n =

s

∑∑

n ij

i =1 j =1

Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadística Descriptiva, 1965. donde: n21 es el número de veces que se repite el par (x2 , y1). Nota 1: En la distribución de frecuencias de una variable bidimensional tipo II, si en lugar de los valores nij, se escriben h ij =

n ij n

, se dice que es una distribución bidimensional de frecuencias

relativas. Nota 2: La distribución bidimensional expresada en frecuencias absolutas conjuntas, puede ser escrita en forma de frecuencias absolutas conjuntas acumuladas bidimensionales, cuando los nij se sustituyen por: i*

j*

N i* j* = ∑∑ n ij i=1 j=1

Nota 3: La distribución bidimensional de frecuencias absolutas conjuntas acumuladas bidimensionales se puede expresar mediante frecuencias relativas conjuntas acumuladas bidimensionales, si Nij se sustituye por: i*

j*

H i j = ∑∑ h ij * *

i=1 j=1

203

Ejemplo Frecuencias absolutas conjuntas: Sea la siguiente distribución bidimensional de frecuencias absolutas conjuntas (n ij) (ver tabla 9.2.4): Tabla 9.2.4 Bidimensional horas de TV al día vs. edad de los niños (n ij) yi

xi 5 7 9 Total

1

3

7

Total

8 1 4 13

4 3 5 12

2 6 7 15

14 10 16 40

Fuente: Elaboración propia donde:

x = edad de los niños y = horas frente al televisor al día

La información se lee de la siguiente manera: • • • •

Fila 1, columna 1: 8 de 40 niños tienen 5 años de edad y ven 1 hora de televisión al día. Fila 3, columna 2: 5 de 40 niños tienen 9 años de edad y ven 3 horas de televisión al día. Fila 2: 10 de 40 niños tienen 7 años. Columna 2: 12 de 40 niños ven 3 horas de televisión al día.

Frecuencias relativas: De acuerdo a la nota 1, se determinará la distribución bidimensional de frecuencias relativas conjuntas (hij), expresadas en porcentaje (ver tabla 9.2.5): Tabla 9.2.5 Bidimensional horas de TV al día vs. edad de los niños (h ij) xi

yi 5 7 9 Total

1

3

7

Total

20.0 2.5 10.0 32.5

10.0 7.5 12.5 30.0

5.0 15.0 17.5 37.5

35.0 25.0 40.0 100.0

Fuente: Elaboración propia La información se lee de la siguiente manera: • Fila 1, columna 1: El 20% de los niños tienen 5 años de edad y ven 1 hora de televisión al 204

día. • Fila 3, columna 2: El 12.5% de los niños tienen 9 años de edad y ven 3 horas de televisión al día. • Fila 2: El 25% de los niños tienen 7 años. • Columna 2: El 30% de los niños ven 3 horas de televisión al día. Frecuencias absolutas acumuladas conjuntas: De acuerdo a la nota 2, se determinará la distribución bidimensional de frecuencias absolutas acumuladas (Nij) (ver tabla 9.2.6): Tabla 9.2.6 Bidimensional horas de TV al día vs. edad de los niños (Nij) yi

xi 5 7 9

1

3

7

8 9 13

12 16 25

14 24 40

Fuente: Elaboración propia La información se lee de la siguiente manera: • Fila 2, columna 2: 16 de 40 niños tienen entre 5 y 7 años de edad y ven entre 1 y 3 horas de televisión al día. • Fila 3, columna 2: 25 de 40 niños tienen como máximo 9 años de edad y ven a lo más 3 horas de televisión al día. Frecuencias relativas acumuladas conjuntas: De acuerdo a la nota 3, se determinará la distribución bidimensional de frecuencias relativas acumuladas (Hij), expresada en porcentaje (ver tabla 9.2.7): Tabla 9.2.7 Bidimensional horas de TV al día vs. edad de los niños (Hij) yi

xi 5 7 9

1

3

7

20.0 22.5 32.5

30.0 40.0 62.5

35.0 60.0 100.0

Fuente: Elaboración propia La información se lee de la siguiente manera: • Fila 2, columna 2: 40% de los niños tienen entre 5 y 7 años de edad y ven entre 1 y 3 horas de televisión al día. 205

• Fila 3, columna 2: 62.5% de los niños tienen como máximo 9 años de edad y ven a lo más 3 horas de televisión al día.

2.3. Distribuciones marginales En toda distribución de frecuencias bidimensional, cuando se considera una variable (xi) y se prescinde de la otra (yj), se obtiene una distribución marginal o distribución de frecuencias de una variable. Ejemplo Sea la distribución marginal de xi y la distribución marginal de yi (ver tabla 9.2.8): Tabla 9.2.8 Distribuciones marginales de x y y s

xi

n x i = ∑ n ij j=1

s

x1

nx1 = Σ n1j = n11 + n12 + . . . + n1s

x2

nx2 = Σ n2j = n21 + n22 + . . . + n2s

:

:

xr

n xr = Σ n rj = n r1 + n r2 + . . . + n rs

j=1 s j=1

s j=1 r

s

n = ∑ ∑ n ij i=1 j=1

r

yi

ny j = ∑ n ij i=1 r

y1

n y1 = Σ n i1 = n11 + n 21 + . . . + n r1

y2

n y2 = Σ n i2 = n12 + n 22 + . . . + n r2

:

:

yr

n ys = Σ n is = n1s + n2s + . . . + n rs

i=1 r i=1 r i=1

r

s

n = ∑ ∑ n ij i=1 j=1

Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadística Descriptiva, 1965. 206

Nota Determinadas las distribuciones marginales, mediante relaciones de cálculo conocidas pueden determinarse cualquiera de los estadígrafos si se está caracterizando una variable: • • • •

de posición (media aritmética, mediana, moda, media armónica y media geométrica). de dispersión (recorrido, varianza, desviación estándar). de comparación (coeficiente de variación y variable tipificada o estandarizada). de forma (asimetría y curtosis)

Si se está caracterizando un atributo ordinal, puede determinarse los estadígrafos: •

de posición (moda y mediana)

Si se está caracterizando un atributo nominal, puede determinarse los estadígrafos: •

de posición (moda)

Ejemplo Sea la siguiente distribución bidimensional de frecuencias absolutas (n ij): yi

xi

5 7 9 Totales donde:

1

3

7

Totales

8 1 4 13

4 3 5 12

2 6 7 15

14 10 16 40

x = edad de los niños y = horas frente al televisor al día

Muestre las distribuciones marginales. Resolución. Prescindiendo de la variable y: xi 5 7 9

Prescindiendo de la variable x:

ni 14 10 16 40

yi 1 3 7

ni 13 12 15 40

2.4. Distribución bidimensional tipo III Esta forma de distribución se presenta cuando se han efectuado muchas observaciones y los valores diferentes de la variable registrados son igualmente muchos. 207

Su organización, si se trata de presentar una distribución de frecuencias tipo III con intervalos constantes para las dos variables, requiere: • Calcular el recorrido de ambas variables. • Establecer el número de clases para cada variable. • Determinar la amplitud de clase para cada variable dividiendo el recorrido entre el número de clases fijado. Si la presentación es con intervalos no constantes, se requiere: • Definir el recorrido de ambas variables. • Establecer los intervalos de clase y su número según las exigencias del estudio o la resolución del problema. Su presentación general se efectúa de la siguiente manera (ver tabla 9.2.9). Tabla 9.2.9 Distribución bidimensional tipo III yj -1 - yj xi -1 - xi xo - x1 x1 - x2 x2 - x3 : xr-1 - xr Total

yo - y1

y1 - y2

y2 - y3

...

ys-1 - ys

n11 n21 n31 : nr1

n12 n22 n32 : nr2

n13 n23 n33 : nr3

... ... ... : ...

n1s n2s n3s : nrs

Total

r

s

n = Σ Σ n ij i =1 j=1

Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadística Descriptiva, 1965. Nota: También puede expresarse en términos de frecuencia relativa, frecuencia absoluta acumulada y frecuencia relativa acumulada conjunta. • De la distribución bidimensional tipo III se obtienen dos distribuciones marginales tipo III. • Las distribuciones marginales tipo III transformadas en distribuciones unidimensionales tipo II, permiten mediante cálculos conocidos, determinar estadígrafos de posición central, de dispersión, de comparación o de forma. Ejemplo 1: bidimensional de dos variables En la UPB se hizo una encuesta a 50 estudiantes sobre el número de cigarrillos que consumen al día (xi), y se los clasificó por edades (yi). Los datos recopilados fueron los siguientes: xi: yi:

1 19

11 20

15 20

6 19

0 18 208

3 20

12 19

10 18

6 20

5 19

xi: yi: xi: yi: xi: yi: xi: yi:

2 20 1 20 0 20 0 20

0 19 8 18 1 19 15 18

1 20 4 19 5 20 2 20

6 18 6 20 3 20 14 19

0 20 7 19 4 20 4 20

2 19 5 18 3 20 1 18

4 20 7 20 10 19 5 19

2 19 1 20 13 18 4 20

5 20 10 20 2 20 8 20

11 18 3 19 2 18 4 19

Organice los datos en un cuadro bidimensional de frecuencias acumuladas relativas H i,j (%), de forma de poder contestar: a) ¿Qué porcentaje de los alumnos que tienen a lo más 19 años, consumen como máximo 10 cigarrillos? b) ¿Qué porcentaje de los alumnos, tienen como máximo 20 años y consumen como máximo 5 cigarrillos? Resolución • Determine para cada variable si la distribución es de intervalos constantes o no. En este caso, como se debe contestar preguntas específicas, las dos variables son de intervalos no constantes. • Defina el recorrido de ambas variables. Rx = 15 - 0 = 15

Ry = 20 - 18 = 2

• Establezca los intervalos de clase y su número según las exigencias del estudio o la resolución del problema. Para x: Para y:

0-5 18

5’ - 10 19

10’ - 15 20

(Tipo III) (Tipo II)

• Realice el conteo para las dos variables y determine la distribución bidimensional de frecuencias absolutas conjuntas (nij)( ver tabla 9.2.10): Tabla 9.2.10 Bidimensional consumo de cigarrillos diarios vs. edad (n ij) xi

yi 0-5 5’ - 10 10’ - 15 Total

18

19

20

Total

4 3 3 10

10 3 2 15

18 5 2 25

32 11 7 50

Fuente: Elaboración propia 209

• Determine la distribución bidimensional de frecuencias relativas conjuntas (h ij), en porcentaje (ver tabla 9.2.11): Tabla 9.2.11 Bidimensional consumo de cigarrillos diarios vs. edad (h ij) yi

xi

0-5 5’ - 10 10’ - 15 Total

18

19

20

Total

8 6 6 20

20 6 4 30

36 10 4 50

64 22 14 100

Fuente: Elaboración propia • Determine la distribución bidimensional de frecuencias relativas acumuladas conjuntas (H ij), en porcentaje (ver tabla 9.2.12): Tabla 9.2.12 Bidimensional consumo de cigarrillos diarios vs. edad (Hij) yi

xi

0-5 5’ - 10 10’ - 15

18

19

20

8 14 20

28 40 50

64 86 100

Fuente: Elaboración propia Resultados. a) 40% de los alumnos tienen como máximo 19 años y consumen como máximo 10 cigarrillos al día. b) 64% de los alumnos tienen 20 años y consumen como máximo 5 cigarrillos al día. Ejemplo 2: bidimensional mixta (variable y atributo) En una fábrica se hizo un examen psicotécnico a los 22 operarios de su sección de montaje, clasificándolos a la vista de los resultados en buenos, normales y malos. Se observaron también los errores cometidos por estos 22 montadores durante un cierto periodo de tiempo, obteniéndose la siguiente información: errores examen errores examen

0 B 2 N

2 B 3 M

1 N 2 M

0 B 3 M

3 N 0 N

Determine los cuadros adecuados, para contestar: 210

1 N 1 M

0 B 3 M

1 N 1 N

2 N 1 B

1 B 2 N

3 N 2 N

a) ¿Cuántas personas cometieron 3 errores y obtuvieron una calificación de malo? b) ¿Qué porcentaje de montadores obtuvieron una calificación de normal y cometieron 1 error? c) ¿Cuántos trabajadores cometieron no más de un error y obtuvieron una nota de bueno? d) ¿Qué porcentaje de personas obtuvieron en su examen una calificación de por lo menos normal y cometieron como máximo 2 errores? Resolución •

Primero se debe tabular los datos en una distribución de frecuencias absolutas conjuntas (ver tabla 9.2.13). Se tiene un atributo ordinal: clasificación del examen con tres modalidades, y una variable discreta tipo II, con 4 valores diferentes de la variable; por lo cual la bidimensional es mixta. Tabla 9.2.13 Bidimensional clasificación de examen vs. errores cometidos (n i,j) Errores cometidos 0 1 2 3 Totales

Clasificación del examen Buenos Normales Malos 3 1 0 2 4 1 1 4 1 0 2 3 6 11 5

Totales 4 7 6 5 22

Fuente: Elaboración propia •

Luego se procede a determinar los cuadros faltantes y a responder a las preguntas (ver tablas 9.2.14-16).

a) Con el cuadro ni,j, se puede saber que tres montadores de los 22, cometieron 3 errores y obtuvieron una calificación de malo. Tabla 9.2.14 Bidimensional clasificación de examen vs. errores cometidos (h i,j) Errores cometidos 0 1 2 3 Totales

Clasificación del examen Buenos Normales Malos 13.64 4.54 0 9.09 18.18 4.55 4.54 18.19 4.54 0 9.09 13.64 27.27 50.00 22.73

Totales 18.18 31.82 27.27 22.73 100.00

Fuente: Elaboración propia b) Con el cuadro hi,j, se puede saber que el 18.18% de los montadores, obtuvieron una calificación de normal y cometieron 1 error.

211

Tabla 9.2.15 Bidimensional clasificación de examen vs. errores cometidos (Ni,j) Errores cometidos 0 1 2 3

Clasificación del examen Buenos Normales Malos 3 4 4 5 10 11 6 15 17 6 17 22 Fuente: Elaboración propia

c) Con el cuadro Ni,j, se puede saber que 5 de los 22 trabajadores cometieron no más de un error y obtuvieron una nota de bueno. Tabla 9.2.16 Bidimensional clasificación de examen vs. errores cometidos (Hi,j) Errores cometidos 0 1 2 3

Clasificación del examen Buenos Normales Malos 13.64 18.18 18.18 22.73 45.45 50.00 27.27 68.18 77.27 27.27 77.27 100.00 Fuente: Elaboración propia

d) Con el cuadro Hi,j, se puede saber que el 68.18% de personas obtuvieron en su examen una calificación de por lo menos normal y cometieron como máximo 2 errores.

3. COVARIANZA 3.1. Definición El grado de dependencia o relación entre las variables de una distribución bidimensional, se determina mediante la covarianza. Se define como la media del producto de las desviaciones de los valores de cada variable respecto de su media aritmética. El signo de la covarianza define la naturaleza de la asociación: • Si es positiva, se dice que existe relación directa entre las variables (aumento o disminución en x implica aumento o disminución en y). • Si es negativa, indica relación inversa entre las variables. • Si es cero, no existe ninguna relación entre las variables. Cuanto más alejado esté el valor de la covarianza hallado de cero, la relación entre las variables será más intensa. 212

3.2. Determinación a) Tipo I La covarianza se simboliza por el signo S xy y se define de la siguiente manera para distribuciones tipo I: n

∑ (x Sxy =

i

− x )( yi − y)

i =1

n

Para calcular la covarianza se acostumbra a presentar la fórmula de forma más práctica. Desarrollando la fórmula anterior, se tiene:

Sxy =

∑ (x

i

− x )( yi − y) n

Sxy =

∑x n

i

yi

=

∑ (x

i

yi − y x i − x yi + x y) n

− yx − xy + xy =

Sxy =

∑x n

i

∑x

i

n yi

yi

=

− yx =

∑x

i

yi

n

∑x n

i

yi

−y

∑x n

i

−x

∑y n

i

+

nx y n

 ∑ x i  ∑ yi    −   n  n   

 ∑ x i  ∑ yi    −   n  n   

Ejemplo Sea una variable bidimensional tipo I que relaciona unidades vendidas (miles de artículos) con utilidades (miles de $us.): xi yi (unidades) (Utilidades) 1 20 2 40 3 70 4 80 5 100 Halle la relación de asociación entre las ventas y las utilidades de la empresa. Resolución • Con ayuda de la tabla bidimensional tipo I, se obtienen las sumatorias adecuadas, según la ecuación para hallar la covarianza (ver tabla 9.3.1):

213

Tabla 9.3.1 Cálculo de la covarianza en distribuciones tipo I: Utilidades vs unidades vendidas xi 1 2 3 4 5 15

yi 20 40 70 80 100 310

xi*yi 20 80 210 320 500 1130

Fuente: Elaboración propia • Se reemplazan los valores hallados en la fórmula:

Sxy =

1130  15  310  −    = 40 5  5  5 

Conclusión: Como el valor de la covarianza es positivo y está alejado del cero, se puede decir que existe una relación directa intensa entre las unidades vendidas y las utilidades de la empresa. b) Tipo II o III La fórmula de definición para distribuciones tipo II es: n

∑ ( x − x) * ( y − y ) * n i

i

i =1

Sxy =

i

n

Para cálculos:

Sxy =

∑x

i

yi n i

n

 ∑ x i n i  ∑ yi n i    −     n  n 

Ejemplo Halle la covarianza de la siguiente distribución bidimensional de frecuencias absolutas: yi

1

3

7

Total

5 7 9 Total

8 1 4 13

4 3 5 12

2 6 7 15

14 10 16 40

xi

214

Donde: x = edad de los niños y = horas frente al televisor Resolución • Se unidimensionaliza la distribución (ver tabla 9.3.2). Tabla 9.3.2 Cálculo de la covarianza en distribuciones tipo II: horas de TV vs edad xi 5 5 5 7 7 7 9 9 9

yi 1 3 7 1 3 7 1 3 7

ni 8 4 2 1 3 6 4 5 7 40

xi * ni 40 20 10 7 21 42 36 45 63 284

yi * ni 8 12 14 1 9 42 4 15 49 154

xi * yi * ni 40 60 70 7 63 294 36 135 441 1146

Fuente: Elaboración propia • Se realizan los siguientes cálculos: xi*ni, yi*ni, xi*yi*ni en las columnas (4), (5) y (6) respectivamente. • Se reemplazan los valores hallados en la ecuación:

Sxy =

1146  284   154  −   = 1.315 40  40   40 

Conclusión: Como la covarianza es positiva, pero el valor es cercano a cero, se puede decir que existe una relación directa débil entre la edad de los niños y las horas que ven televisión al día. c) Bidimensionales de atributos o mixtos Si se tiene una tabla de contingencia, también se puede determinar el grado de asociación entre atributos o series mixtas. Cuando entre dos atributos no existe ninguna influencia mutua, se dice que son independientes. En caso contrario se dice que hay asociación o dependencia. Para fundamentar, aunque sea de una forma simple el razonamiento que sigue, vamos a suponer una distribución de dos atributos cada uno de los cuales toma dos modalidades distintas (ver tabla 9.3.3): 215

Tabla 9.3.3 Distribución bidimensional de atributos o mixtas A

a1

a2

Total

n11 n12 Σn1i

n21 n22 Σn2i

Σni1 Σni2 n

B b1 b2 Total

Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadística Descriptiva, 1965. Evidentemente, si A y B son independientes, el número de los elementos que poseen las modalidades b1 y a1 y el número de los elementos que poseen las modalidades b 1 y a2 han de guardar la misma proporción con respecto al total de a1 y con respecto al total de a2, respectivamente. Algebraicamente:

n 11 n 21 = ∑ n1i ∑ n 2i i

i

de donde se puede escribir también que:

n 21 = ∑ n 2i i

n 11 + n 21 = ∑ n 1i +∑ n 2i i

∑n

i1

i

n

i

y finalmente que:

∑n ∑n 2i

n 21 =

i

i1

i

n

De otra forma, diremos que existirá independencia entre dos modalidades a y b cuando:

n ab =

na nb n

siendo aquí n ab el número de elementos que poseen las dos modalidades a y b conjuntamente, na el número de los que poseen la modalidad a y nb el de los que poseen la modalidad b. Téngase en cuenta que no es necesario que dicha igualdad se cumpla estrictamente: desde el punto de vista estadístico, basta con que la diferencia entre los dos miembros sea relativamente pequeña. La asociación entre dos modalidades será, de tipo positivo si:

216

n ab −

na nb >0 n

n ab −

na nb

atracción na nb n ab = : independen cia n < repulsión Ejemplo Se realizó una encuesta a 30000 habitantes de una determinada ciudad. Se obtuvo la siguiente distribución en cuanto a su estado civil y sexo (ver tabla 9.3.4). Tabla 9.3.4 Bidimensional de estado civil vs sexo Estado civil Sexo Masculino Femenino Total

Soltero

Casado

Viudo

Total

8052 8384 16436

5815 5989 11804

542 1218 1760

14743 15257 30000

Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadística Descriptiva, 1965. Determine el tipo de dependencia entre las modalidades de ambos atributos. Resolución •

Se realizan los cálculos correspondientes, para cada combinación de modalidades entre los dos atributos.

(14743)(16436) = 8077 (independie nte) 30000 (14743)(11804) n M −C (5815) = = 5801 (independie nte) 30000 (14743)(1760) n M −V (542) = = 865 (repulsión ) 30000 n M −S (8052) =

217

(15257)(16436) = 8359 (independie nte) 30000 (15257)(11804) n F −C (5989) = = 6003 (independie nte) 30000 (15257)(1760) n F −V (1218) = = 895 (atracción) 30000 n F −S (8384) =

Conclusión: Existe independencia entre sexo de la persona y si es casado o soltero. Sin embargo, existe repulsión entre sexo masculino y estado civil, viudo. También existe atracción entre sexo femenino y estado civil, viuda. Eso quiere decir que es frecuente que existan más viudas que viudos. Nota: El método usado sirve únicamente para conocer la independencia o el tipo de asociación existente entre dos modalidades cualquiera, perteneciente cada una de ellas a un atributo observado empíricamente. Para conocer la existencia de independencia o asociación entre dos atributos es necesario recurrir a otro método distinto que haga intervenir todas las frecuencias absolutas conjuntas, que se denomina “prueba de independencia de atributos Chi-Cuadrada”, pero que no se puede exponer aquí, por falta de nociones de Estadística Inferencial.

4. REGLAS DE COMPOSICIÓN PARA EL CÁLCULO DE PROBABILIDADES 4.1. Generalidades. Probabilidad conjunta. Sea un experimento aleatorio “E” que tiene un espacio muestral “S”, donde sus resultados posibles se organizan atendiendo a dos criterios de ordenación (xi, yj). La presentación de estos resultados se efectúa en un cuadro de doble entrada, donde n ij indica el número de veces que aparece el par (xi, yj); en consecuencia, una distribución bidimensional de probabilidades se presenta en la siguiente forma general: yj

y1

y2

...

ys

n11 n21 : nr1

n12 n22 : nr2

... ... : ...

n1s n2s : nrs

Total

xi x1 x2 : xr Total

r

s

n = ∑ ∑ n ij i=1 j=1

donde:

P ij =

n ij Casos favorables = n Casos posibles

Pij se lee como probabilidad del evento (xi, yj), que es la probabilidad conjunta; es decir la probabilidad de que los sucesos xi y yi ocurran al mismo tiempo. Utilizando la información de la tabla de eventos o sucesos, dispuestos en forma de una distribución bidimensional, se pueden determinar las siguientes reglas de composición. 218

4.2. Probabilidad marginal Si en la distribución bidimensional de probabilidades se prescinde de uno de los criterios de ordenación (digamos yj) y estamos interesados en los eventos que resultan de considerar el criterio de ordenación xi, se habrá definido la probabilidad marginal de xi, que se denota por el símbolo P(xi) y su cálculo se efectúa de la siguiente manera: s

P ( x i ) = ∑ P ( x i, y j ) = j=1

n i1 n i2 n i3 n + + + . . . + is n n n n

P( x i ) = P ( x i , y 1 ) + P ( x i , y 2 ) + K + P( x i , y s ) Si se trata de la probabilidad marginal de yj, el cálculo se efectúa de la siguiente manera: r

P ( y j ) = ∑ P ( x i, y j ) = i=1

n1j n 2j n 3j n + + + . . . + rj n n n n

P( y j ) = P ( x 1 , y j ) + P ( x 2 , y j ) + K + P ( x r , y j ) La distribución marginal (o normal), es la probabilidad de ocurrencia de un evento simple.

4.3. Regla de adición Se busca determinar la probabilidad de la unión de dos sucesos. Según que los sucesos sean mutuamente excluyentes o no, la regla de la adición se determina de las dos siguientes formas: a) Regla de adición para sucesos mutuamente excluyentes

P( x ∪ y ) = P ( x ) + P ( y ) donde x y y son sucesos mutuamente excluyentes y sus probabilidades son marginales. b) Regla de adición para dos sucesos cualquiera

P( x ∪ y ) = P ( x ) + P ( y ) − P ( x , y ) siendo P(x, y) la probabilidad conjunta. Nota: Para resolver problemas de adición de eventos en general, debe utilizarse la regla correspondiente a dos sucesos cualesquiera, salvo que se tenga como dato que los sucesos sean mutuamente excluyentes. Para entender mejor la regla de adición de eventos se usan los diagramas de Venn (investigador inglés, 1834-88), que son representaciones gráficas de los resultados de un experimento aleatorio. Para elaborar un diagrama de Venn, se representa al espacio muestral por un rectángulo, mientras que los eventos aparecen como regiones dentro del rectángulo, generalmente en forma de círculos. 219

Las regiones sombreadas de los cuatro diagramas de Venn de la figura 9.4.1, representan respectivamente: el evento A, su complemento, la unión de los eventos A y B y la intersección de A y B (para sucesos que no son mutuamente excluyentes y para los que si son). Figura 9.4.1. Diagramas de Venn

A A

S

S A’

A

A y A’ son mutuamente excluyentes A

B

A

B

S

S

A∪B

A∩B A y B no son mutuamente excluyentes

A

B

A

B

S

S

A∪B

A∩B A y B son mutuamente excluyentes

Fuente: Freund y Simon. Estadística Elemental, 1994. El lector puede darse cuenta por qué en la suma de dos eventos que no son mutuamente excluyentes, se debe restar la intersección (se estaría sumando dos veces el área sombreada). Ejemplo En la figura anterior, si A es el evento en el que cierto estudiante asiste a un curso de cálculo y B es el evento en el que el estudiante está asistiendo a un curso de física, ¿qué eventos están representados por las regiones sombreadas de los seis diagramas de Venn? 220

Resolución. Primer diagrama: Representa el evento en que el estudiante asiste al curso de cálculo. Segundo diagrama: El evento en que el estudiante no asiste al curso de cálculo (asiste al de física). Tercer diagrama: El estudiante está asistiendo al curso de cálculo o al de física. Cuarto diagrama: El evento en el que asiste a los dos cursos a la vez (algo que no puede ocurrir). No se utilizan los dos diagramas del medio, ya que los eventos son mutuamente excluyentes, suponiendo que los dos cursos estén programados a la misma hora y en las mismas fechas.

4.4. Probabilidad condicional Dados dos sucesos o eventos xi, yj se define la probabilidad condicional cuando se busca determinar la probabilidad del evento xi dado el evento yj; es decir, la probabilidad de que ocurra un evento xi, ya que se sabe de antemano que ocurrió el evento yi. La probabilidad de un suceso determinado, condicionado a otro suceso se denota en símbolos, de la siguiente manera: P(x / y) P(y / x)

y se lee: y se lee:

"Probabilidad de x dado y". "Probabilidad de y dado x".

Esta probabilidad se determina dividiendo la probabilidad conjunta entre la probabilidad marginal:

P (x , y ) P (y ) P (x , y ) P (y /x ) = P (x ) P (x /y ) =

Si P(y) > 0 Si P(x) > 0

4.5. Regla multiplicativa a) Sucesos dependientes Despejando las dos formas que expresan la probabilidad condicional y la probabilidad conjunta se tiene:

o mejor:

P( x , y) = P( y) P(x / y)

(1)

P( y, x ) = P( x ) P( y / x ) P ( x , y ) = P ( y ) P( x / y ) = P( x ) P ( y / x )

(2) (3)

La ecuación (3) expresa la regla multiplicativa para dos eventos dependientes.

221

b) Sucesos independientes Si y

P( y / x ) = P2 ( y) P( x / y) = P1 ( x )

(4) (5)

Reemplazando (4) y (5) en (3), tenemos:

P( x , y) = P( x ) P2 ( y) = P1 ( x ) P( y) que expresa la regla multiplicativa para dos sucesos independientes.

4.6. Probabilidad completa o total Sea un atributo xi y un atributo yj compuesto por eventos mutuamente excluyentes:

y i = y1 , y 2 , K , y s La probabilidad total o completa se da cuando se desea averiguar la probabilidad del evento x i en base a sus intersecciones con los eventos del atributo yj. s

P (x ) = P (x, y1) + P (x, y 2) + P (x, y 3) + . . . + P (x, y s) = ∑ P (x, y j) j=1

Aplicando al segundo miembro la regla multiplicativa, se tiene:

P (x ) = P ( y1) *P (x / y1) + P ( y 2) * P (x / y 2) + . . . + P ( y s ) *P (x / y s ) s

= ∑ P ( y j ) * P (x / y j ) j=1

que expresa la regla de cálculo para la probabilidad completa.

4.7. Teorema de Bayes Permite determinar la probabilidad de las hipótesis yj dado el evento xi. Se expresa en forma de una probabilidad condicional de la siguiente manera: Aplicando la propiedad multiplicativa al numerador y la definición de probabilidad total o completa al denominador de la fórmula de probabilidad condicional, se tiene la siguiente expresión:

P (y j / xi ) =

P (xi , y j ) P (xi )

=

P ( y j ) * P (x i / y j ) s

Σ P (y ) * P (x j

j=1

222

i

/y j )

4.8. Ejemplo Mediante el siguiente ejemplo se mostrará el cálculo de probabilidades usando todas las reglas anteriores. Sea Ai = estrato de votantes: joven, adulto y viejo; Bj = partidos que participan en elecciones: MNR, MIR, MBL. Mediante encuesta se ha determinado la siguiente distribución (ver tabla 9.4.1): Tabla 9.4.1. Bidimensional preferencia por partidos políticos vs. edad

Ai

Bj

J A V Totales

MNR

MIR

MBL

Totales

2 7 6 15

6 3 7 16

4 5 0 9

12 15 13 40

Fuente: Elaboración propia Mediante reglas de composición resolver las siguientes probabilidades: 1) Probabilidad de ser viejo o del MBL • Se trata de hallar la probabilidad de la unión de dos sucesos. P(x ∪ y) = P(x) + P(y) - P(xy) • En términos de las modalidades de la distribución: P(V ∪ MBL) = P(V) + P(MBL) - P(V, MBL) • La probabilidad buscada utilizando los datos de la distribución, es: P(V ∪ MBL) =

13 9 0 22 + − = = 0.55 40 40 40 40

Conclusión: La probabilidad de ser viejo o del MBL es del 55%. 2) Probabilidad de ser adulto dado que se es del MNR. • Se trata de una probabilidad condicional:

P (x /y ) =

P (x , y ) P (y )

• En términos de las modalidades de la distribución: 223

Si P(y) > 0

P (A /MNR ) =

P (A, MNR ) P (MNR )

donde: P(A, MNR) es la probabilidad conjunta y se lee en la tabla.

P (A, MNR ) =

7 40

y P(MNR) es la probabilidad marginal tal que:

P(MNR) =

15 40

• Reemplazando valores:

7 7 P (A /MNR ) = 40 = = 0.47 15 15 40 Conclusión: La probabilidad de ser adulto dado que es del MNR es del 47%. 3) Verifique si la probabilidad marginal de ser del MIR es de 15/40. • Se trata de aplicar la probabilidad completa, donde: 3

P (x ) = ∑ P (x, y j ) j=1 3

P (x ) = ∑ P ( y j ) * P (x / y j ) j=1

• En términos de las modalidades: P(MIR) = P(J)*P(MIR /J) + P(A)*P(MIR /A) + P(V)*P(MIR / V)

P (MIR ) = (

14 6 15 3 13 7 )( ) + ( )( ) + ( )( ) 40 12 40 15 40 13 6 3 7 16 = + + = 40 40 40 40

Conclusión: Por lo tanto se verifica que la probabilidad de ser del MIR no es 15/20 sino 16/40. 4) Verifique si la probabilidad de ser joven y del MIR es de 7/40. • Se trata de aplicar la regla multiplicativa: P(x, y) = P(x) * P(y / x) = P(y) * P(x / y) 224

• En términos de las modalidades de la distribución: P(J, MIR) = P(MIR) * P(J / MIR) = P(J) * P(MIR / J) • Aplicando los datos de la distribución de probabilidades: P(J, MIR) = [ P(J, MIR) + P(A, MIR) + P(V, MIR) ] * [ P(J / MIR) ]

=[

6 3 7 6 16 6 6 + + ] *[ ] = * = 40 40 40 16 40 16 40

Conclusión: No es cierto que la probabilidad de ser joven y del MIR sea 7/40. Su resultado es 6/40. 5) Demuestre que la probabilidad de ser adulto dado que es del MBL es de 5/9. • Se trata del teorema de Bayes.

P (y j /x i ) =

P (x i y j ) P (x i )

=

P (y j ) * P (x i / y j ) s

Σ P (y

j

) * P (x i / y j )

j=1

• En términos de las modalidades de la distribución:

P (MBL, A ) P (MBL ) 15 5 5 ( )( ) 5 P (A /MBL ) = 40 15 = 40 = 9 9 9 40 40 P (A /MBL ) =

Conclusión: Se verifica que la probabilidad de ser adulto dado que es del MBL es de 5/9.

5. CÁLCULO DE PROBABILIDADES UTILIZANDO DIAGRAMA DE ÁRBOL A veces es conveniente pasar la información que contiene una distribución bidimensional a un diagrama de árbol o viceversa. Se determinaron arboligramas en el capítulo de Distribución de Probabilidades, como un método para determinar espacios muestrales de experimentos aleatorios. Ejemplo 1 Sea Ai = estrato de votantes: joven, adulto y viejo; Bj = partidos que participan en elecciones: MNR, MIR, MBL. Mediante encuesta se ha determinado la siguiente distribución: Pase la información probabilística contenida en el cuadro de contingencia del ejemplo anterior a un diagrama de árbol, usando las reglas de composición descritas. 225

Resolución En primer lugar se dará un instructivo de lo que significa cada rama de un diagrama de árbol y cómo hallar las probabilidades. • Las primeras ramas del árbol presentan sucesos aleatorios que tienen probabilidades marginales. Se puede comenzar por cualquier clasificación. Para diagramarlas debe hacerse esta pregunta: Si se selecciona al azar una persona de entre las 40, ¿cuál es la clasificación de su edad? • Las segundas ramas de árbol son sucesos dependientes que presentan probabilidades condicionales. Para diagramarlas debe hacerse la siguiente pregunta: habiendo determinado la edad de la persona elegida al azar, ¿de qué partido es? • En otras palabras se está determinando el espacio muestral del experimento aleatorio, es decir el conjunto de sus posibles resultados y sus probabilidades respectivas. • Para hallar las probabilidades conjuntas en un diagrama de árbol se utiliza la regla multiplicativa. Si se quiere hallar una probabilidad marginal que no se encuentra en las primeras ramas, se utiliza la probabilidad total, y para hallar una probabilidad condicional que no se encuentra en las segundas ramas se utilizará el teorema de Bayes. Algunas características del diagrama de árbol son: • La suma de probabilidades conjuntas es 1. • La suma de probabilidades para sucesos mutuamente excluyentes es 1. Se muestra a continuación el diagrama de árbol (ver figura 9.5.1) Figura 9.5.1. Arboligrama preferencia por partidos políticos vs. edad

P. marginales

12/40

15/40

P. condicionales

J

A

13/40 V

2/12 6/12 4/12 7/15 3/15 5/15 6/13 7/13 0/13

P. conjuntas MNR MIR MBL MNR MIR MBL MNR MIR MBL

P(J, MNR) = P(J)*P(MNR/J) = (12/40)*(2/12) = 2/40 P(J, MIR) = P(J)*P(MIR/J) = (12/40)*(6/12) = 6/40 P(J, MBL) = P(J)*P(MBL/J) = (12/40)*(4/12) = 4/40 P(A, MNR) = P(A)*P(MNR/A) = (15/40)*(7/15) = 7/40 P(A, MIR) = P(A)*P(MIR/A) = (15/40)*(3/15) = 3/40 P(A, MBL) = P(A)*P(MBL/A) = (15/40)*(5/15) = 5/40 P(V, MNR) = P(V)*P(MNR/V) = (13/40)*(6/13) = 6/40 P(V, MIR) = P(V)*P(MIR/V) = (13/40)*(7/13) = 7/40 P(V, MBL) = P(V)*P(MBL/V) = (13/40)*(0/13) = 0

Fuente: Elaboración propia 226

P. totales P(MNR) = P(MNR, J)+P(MNR, A)+P(MNR, V) = (2/40)+(7/40)+(6/40) = 15/40 P(MIR) = P(MIR, J)+P(MIR, A)+P(MIR, V) = (6/40)+(3/40)+(7/40) = 16/40 P(MBL) = P(MBL, J)+P(MBL, A)+P(MBL, V) = (4/40)+(5/40)+(0/40) = 9/40 P. condicionales (Teorema de Bayes) P(J/MNR) = P(MNR, J)/P(MNR) = (2/40)/(15/40) = 2/15 P(J/MIR) = P(MIR, J)/P(MIR) = (6/40)/(16/40) = 6/16 P(J/MBL) = P(MBL, J)/P(MBL) = (4/40)/(9/40) = 4/9 P(A/MNR) = P(MNR, A)/P(MNR) = (7/40)/(15/40) = 7/15 P(A/MIR) = P(MIR, A)/P(MIR) = (3/40)/(16/40) = 3/16 P(A/MBL) = P(MBL, A)/P(MBL) = (5/40)/(9/40) = 5/9 P(V/MNR) = P(MNR, V)/P(MNR) = (6/40)/(15/40) = 6/15 P(V/MIR) = P(MIR, V)/P(MIR) = (7/40)/(16/40) = 7/16 P(V/MBL) = P(MBL, V)/P(MBL) = (0/40)/(9/40) = 0

Ejemplo 2 El administrador de la unidad operativa de tránsito realizó un estudio sobre el número de accidentes que hay en la ciudad con respecto a la edad del conductor. El arboligrama con las probabilidades porcentuales está mostrado en la figura 9.5.2: Figura 9.5.2. Arboligrama del número de accidentes vs. edad 88.24 21-41

0 1

42.39

4.22

≥2 90.07 39.87 41’-61

7.00

0 1

≥2 0 61’-71

6.72

1

2.96

≥2 Fuente: Elaboración propia 227

El administrador quiere estimar cuantas personas de cada categoría existirán, si este año hay 4194 nuevos conductores. Resolución En primer lugar, se pueden determinar las probabilidades del arboligrama que faltan, sabiendo que la suma de probabilidades de eventos mutuamente excluyentes debe ser de uno.

P(61'− 71) = 100 − 42.39 − 39.87 = 17.74 P(1/ 21 − 41) = 100 − 88.24 − 4.22 = 7.54 P(≥ 2 / 41'− 61) = 100 − 90.07 − 7.00 = 2.93 P(0 / 61'− 71) = 100 − 6.72 − 2.96 = 90.32 Luego, se construye el cuadro bidimensional y se asignan variables a todas las categorías: Edad/n° accidentes 21-41 41’-61 61’-71 total

0 A B C K

≥2

1 D E F L

G H I M

Total N O P 4194

Haciendo uso de las reglas de cálculo de probabilidades, se procede a hallar el valor de cada variable. •

Con probabilidades marginales:

P(21 − 41) = 0.4239 =

N 4194

N = 0.4239(4194) = 1778

De la misma manera se puede hallar el valor de O:

O = 0.3987(4194) = 1672 Restando del total se halla el valor de P:

P = 4194 − 1778 − 1672 = 744 •

Con probabilidades condicionales:

P(0 / 21 − 41) = 0.8824 =

A A = N 1778

De la misma manera se procede para hallar el valor de D: 228

A = 0.8824(1778) = 1569

D = 0.0754(1778) = 134 Restando del total de personas de edad entre 21 a 41 años, se obtiene G:

G = 1778 − 1569 − 134 = 75 •

Con probabilidades condicionales:

Igualmente se hallan los valores para B, E y H:

B = 0.9007(1672) = 1506 E = 0.007(1672) = 117 H = 1672 − 1506 − 117 = 49 •

Con probabilidades condicionales:

La fila restante, se puede hallar mediante el mismo método:

C = 0.9032(744) = 672 F = 0.0672(744) = 50 I = 744 − 672 − 50 = 22 Por último los totales de columna se obtienen sumando los valores de cada columna:

K = 1569 + 1506 + 672 = 3747 L = 134 + 117 + 50 = 301 M = 75 + 49 + 22 = 146 El cuadro bidimensional resultante está mostrado en la tabla 9.5.1: Tabla 9.5.1 Bidimensional del número de accidentes vs. edad Edad/n° accidentes 21-41 41’-61 61’-71 total

0 1569 1506 672 3747

1 134 117 50 301

≥2 75 49 22 146

Total 1778 1672 744 4194

Fuente: Elaboración propia El administrador de la unidad operativa de tránsito puede saber aproximadamente cuántos nuevos conductores tendrán accidentes este año.

229

6. GENERALIZACIÓN PROBABILIDADES

DE

LAS

REGLAS

PARA

EL

CÁLCULO

DE

Se han mostrado las reglas para el cálculo de probabilidades cuando se tiene una distribución bidimensional. Sin embargo se puede presentar el caso en el que existan ya no dos sino tres o más clasificaciones. Para este tipo de problemas, se deberán generalizar las reglas para el cálculo de probabilidades, para lo cual se considera un árbol que tiene tres ramificaciones o eventos dependientes, cada uno de los cuales tiene dos resultados posibles (ver figura 9.6.1): Figura 9.6.1. Arboligrama con tres ramificaciones P. condicional P. condicional

P(C/A)

P. marginal

P. conjuntas

P(E/A,C) C

E

P(A, C, E) = P(A) + P(C / A) + P(E / A, C)

P(F/A,C)

F

P(A, C, F) = P(A) + P(C / A) + P(F / A, C)

P(E/A,D)

E

P(A, D, E) = P(A) + P(D / A) + P(E / A, D)

P(F/A,D)

F

P(A, D, F) = P(A) + P(D / A) + P(F / A, D)

P(E/B,C)

E

P(B, C, E) = P(B) + P(C / B) + P(E / B, C)

P(F/B,C)

F

P(B, C, F) = P(B) + P(C / B) + P(F / B, C)

P(E/B,D)

E

P(B, D, E) = P(B) + P(D / B) + P(E / B, D)

P(F/B,D)

F

P(B, D, F) = P(B) + P(D / B) + P(F / B, D)

A P(A) P(D/A)

P(C/B)

D

C

P(B) B P(D/B)

D

Fuente: Elaboración propia El lector puede darse cuenta qué pasaría si existen 4 eventos dependientes (en la cuarta ramificación también se tendrían probabilidades condicionales). Regla de la suma: La suma de tres eventos dependientes, por ejemplo de los tres primeros, será:

P(A ∪ C ∪ E) = P(A) + P(C) + P(E) − P(A, C) − P(A, E) − P(C, E) + P(A, E, C) El uso de diagramas de Venn puede ayudar a visualizar y comprender de mejor manera la relación entre tres eventos. En la figura se puede observar que los círculos de tres eventos dividen el espacio muestral en 8 zonas numeradas y es sencillo determinar si los eventos correspondientes pertenecen a X o X’, a Y o Y’ y a Z o Z’ (ver figura 9.6.2)

230

Figura 9.6.2. Diagrama de Venn para tres eventos

X

Y 2

7

5

1 4

3 6

Z

8

S

Fuente: Freund y Simon. Estadística Elemental, 1994. Ejemplo 1 Si en el anterior diagrama, X es el evento de que servirán hamburguesas en el día de campo de la compañía, Y es el evento de que se servirá cerveza y Z es el evento de que se servirá una torta de chocolate, exprese con palabras los eventos que se representan por medio de las siguientes zonas del diagrama de Venn: a) Zona 3. b) Zonas 1 y 2. c) Zonas 4, 6, 7 y 8. Resolución. a) Puesto que esta zona parte de Y y Z, pero no de X, representa el evento de que en el día de campo se servirá cerveza y torta de chocolate, pero no hamburguesas. b) Ya que esta zona pertenece tanto a X como a Y, representa el evento de que se servirán hamburguesas y cerveza c) Dado que estas zonas son ajenas a Y, constituye el evento de que no se servirá cerveza. Ejemplo 2 Con base en el siguiente diagrama de Venn (ver figura 9.6.3), sea A el evento de que un ejecutivo de alto rango de una compañía esté en la cafetería de su empresa, B el evento de que se encuentre en la oficina de otro ejecutivo y C el evento de que se encuentre jugando al golf con un cliente. Halle la probabilidad de que una persona en un momento específico lo encuentre en alguno de esos tres lugares.

231

Figura 9.6.3. Diagrama de Venn para encontrar a un ejecutivo A

B 0.24

0.06

0.19

0.04 0.16

0.11 0.09

C S

Fuente: Freund y Simon. Estadística Elemental, 1994. Resolución. Siguiendo la ecuación de la suma de tres eventos, se tiene:

P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A, B) − P(A, C) − P(B, C) + P(A, B, C) Reemplazando valores:

P(A ∪ B ∪ C) = 0.24 + 0.19 + 0.09 − 0.06 − 0.16 − 0.11 + 0.04 = 0.23 Respuesta: La probabilidad de que una persona encuentre al ejecutivo en alguno de los tres lugares es del 23%. Acción: Como la probabilidad es pequeña, si una persona quiere encontrarlo lo más lógico es buscarlo en otros sitios, como su oficina o la sala de reuniones de la empresa.

7. DISTRIBUCIONES BIDIMENSIONALES DE PROBABILIDADES Al igual que existen funciones unidimensionales de probabilidad de cuantía (cuando la variable aleatoria es discreta) y de densidad (cuando la variable aleatoria es continua), tratadas en el capítulo de Distribución de Probabilidades, también se presentan los casos de funciones bidimensionales de probabilidades.

7.1. Función de cuantía conjunta y marginal La observación conjunta de dos variables aleatorias, ambas discretas, da lugar al concepto de variable aleatoria discreta bidimensional: valores de la variable x y valores de la variable y, con sus probabilidades de ocurrencia conjunta respectiva; es decir cada par de valores x i yj lleva asociada la correspondiente probabilidad conjunta P ij. Estas variables suelen presentarse en una tabla de doble entrada (ver tabla 9.7.1). La consideración de los valores xi con sus correspondientes probabilidades de ocurrencia independiente de los valores de y, da lugar a la distribución marginal de la variable x. Los mismo ocurre con la variable y.

232

Tabla 9.7.1 Función de cuantía conjunta yj

y1

y2

...

ys

Total

P11 P21 : Pr1 Pi1

P12 P22 : Pr2 Pi2

... ... : ... …

P1s P2s : Prs Pis

P1j P2j : Prj

xi x1 x2 : xr Total

r

s

∑∑P

ij

=1

i =1 j=1

Fuente: Elaboración propia Nota 1: También se puede dar una distribución de probabilidades para atributos o mixtos. Nota 2: Las distribuciones marginales, cuya denominación deriva del simple hecho de que se encuentran en los márgenes de la tabla de doble entrada, como cualquier otra distribución unidimensional, son susceptibles de tratamiento estadístico individual. Ejemplo Se realizó una encuesta a 30000 habitantes de una determinada ciudad. Se obtuvo la siguiente distribución en cuanto a su estado civil y sexo. Estado civil Sexo Masculino Femenino Total

Soltero

Casado

Viudo

Total

8052 8384 16436

5815 5989 11804

542 1218 1760

14743 15257 30000

Determine la distribución bidimensional conjunta y marginal de ambos atributos. Resolución. •

Para hallar las probabilidades conjuntas, simplemente se divide cada frecuencia absoluta conjunta entre el total de encuestados. Para hallar las probabilidades marginales, se suman las probabilidades conjuntas halladas (ver tabla 9.7.2). Tabla 9.7.2 Bidimensional de probabilidades de estado civil vs sexo (Pi, j) Estado civil Sexo Masculino Femenino Total

Soltero

Casado

Viudo

Total

26.84 27.95 54.79

19.38 19.96 39.35

1.81 4.06 5.87

49.14 50.86 100.00

Fuente: Elaboración propia 233

Interpretación: PM,S = 26.84, significa: Existe una probabilidad del 26.84% de que una persona elegida al azar sea de sexo masculino y soltero. PV = 5.87, significa: Hay una probabilidad del 5.87% de que la persona elegida al azar sea viuda. PF = 50.86, significa: La probabilidad de que una persona elegida al azar sea de sexo femenino es de 50.86%.

7.2. Función de densidad conjunta y marginal Una distribución de probabilidad, cuando corresponde a una variable aleatoria continua bidimensional (también llamada superficie de frecuencia), requiere cumplir con las dos condiciones siguientes: a) f (x, y) ≥ 0 b)



∫ ∫



−∞ −∞

f (x, y) dx dy = 1 ;

para:

−∞ ≤ x ≤ ∞

−∞≤ y≤∞

y

Luego: 0 ≤ f (x, y) ≤ 1 La probabilidad que el par (x,y) sea para a1 ≤ x ≤ b1 ; y para a 2 ≤ y ≤ b 2 , se expresa de la siguiente manera:

P(a1 ≤ x ≤ b1; a 2 ≤ y ≤ b 2 ) = ∫

b1

a1



b2

a2

f (x, y) dx dy

La distribución bidimensional de probabilidades de variable aleatoria continua tiene dos distribuciones marginales: ∞

f 1 (x ) =

∫ f (x, y ) dy

distribución marginal de "x"

−∞ ∞

f 2 (y ) =

∫ f (x, y ) dx

distribución marginal de "y"

−∞

La distribución de probabilidad acumulada para la variable aleatoria bidimensional continua: x o y0

F (x o, y o ) =

∫ ∫ f (t , t 1

2

) dt1 dt 2

−∞ −∞

donde t1 y t2 son variables auxiliares de trabajo. Para expresar la probabilidad de que la variable xi esté en el par (x1, y1) y que la variable yj esté en el par (x2, y2) en términos de la función de distribución, se procede de la siguiente manera: 234

• Se usa un sistema de ejes coordenados, donde en el eje de las abscisas se representan valores de xi y en el eje de ordenadas los valores de yj . • En cada eje se representan los valores del par (a1,b1) y del par (a2,b2). • Se obtiene un cuadrilátero con los siguientes puntos de coordenadas que se observan en el gráfico 9.7.1. Gráfico 9.7.1 Área bajo la función de densidad de probabilidad yj

b2

(a1, b2)

(b1, b2)

(a1, a2)

(b1, a2)

a2

a1

b1

xi

Fuente: Elaboración propia • Las áreas diferentes en el gráfico permiten determinar la probabilidad: P(a1 < x < b1 ; a2 < y < b2) = F(b1 , b2) - F(b1 , a2) - F(a1 , b2) + F(a1 , a2) b1

b2

a1

a2

∫ ∫

f (x, y) dx dy

Conocida la forma de cálculo de una probabilidad conjunta y de la probabilidad marginal es posible definir la probabilidad condicional:

f (x, y ) f 2 (y ) f (x, y ) (2 ) f (y /x ) = f 1 (x )

(1 ) f (x /y ) =

si f 2 (x ) > 0 si f 1 (x ) > 0

Ejemplo 1 Suponga que la función de densidad de probabilidad conjunta para las variables no negativas x e y es f (x, y) = xe− x e − y . Halle la probabilidad que 0 ≤ x ≤ 1 y 0 ≤ x ≤ 2 . Resolución • La integral a resolver es la siguiente: 235

P(0 ≤ x ≤ 1; 0 ≤ y ≤ 2) = ∫

1



2

0 0

xe − x e − y dy dx

• Se resuelve primero la integral interna:



2

0

2

e − y dy = − e− y 0 = −e −2 + 1 = −

1 e2 − 1 + 1 = e2 e2

• Se reemplaza la integral interna y se resuelve la integral externa: 2 1  e2 − 1 1 −x  e2 − 1   −x 1 −x  =  e − 1   − xe − x − e − x  1 = − + xe dx xe e dx  e2  ∫0  e 2   ∫0 0 0   e 2      

 e2 − 1  e 2 − 1   −2   e 2 − 1   e − 2  −1   2e 1 − + =  2    e 2   e + 1 =  e 2   e  = 0.2285     e     Conclusión: La probabilidad conjunta que 0 ≤ x ≤ 1 y 0 ≤ x ≤ 2 es del 22.85%. Ejemplo 2 Suponga que x representa el tiempo (en minutos) que una persona pasa con un agente mientras elige una póliza de seguro de vida e y el tiempo que el agente emplea en hacer el papeleo una vez que el cliente se ha decidido. Usted acuerda encontrarse con un agente de seguros para suscribir una póliza de seguro de vida. Si la función de densidad de probabilidad conjunta de x e y es:

1 − 30x −10y f (x, y) = e e 300 Halle la probabilidad de que la operación requiera más de media hora. Resolución. Se quiere hallar: P(x + y > 30) = 1 − P(x + y ≤ 30) •

Se dibuja la inecuación y se plantea la región de integración:

Región:

30

y = 30 − x

0 ≤ x ≤ 30 0 ≤ y ≤ 30 − x

R 30

236



Se plantea la integral:

P(x + y ≤ 30) = ∫

30

0



30 − x

0

1 − 30x −10y e e dy dx 300

Se resuelve:

10 30  − 30x −10y  =− e e  300 ∫0  

30− x

0

−30  1 30 − 30x  x10 dx = − ∫ e  e − 1 dx 30 0   30

x x −  30 −  1  30 2x −90 1  30 2x −90 = −  ∫ e 30 dx − ∫ e 30 dx  = −  e 30 + 30 e 30  0 30  0 30  2  0

=−

1 1 1 + 3 − + 1 = 0.4730 2e 2e e

La probabilidad buscada es:

P(x + y > 30) = 1 − P(x + y ≤ 30) = 1 − 0.4730 = 0.5269 Respuesta: La probabilidad de que la operación completa requiera más de media hora es de 52.69%. Acción: Si usted no tiene disponibilidad de media hora, entonces vuelva a programar su cita para obtener una póliza de seguro de vida.

8. APLICACIONES A LOS ÁRBOLES DE DECISIÓN Y TEORÍA DE LA UTILIDAD1 8.1. Introducción Los problemas con pocas alternativas y estados de la naturaleza pueden ser analizados usando tablas de decisión. Ahora iremos un paso más adelante en la exploración de la teoría de la decisión, introduciendo los tópicos de árboles de decisión, valoración de probabilidades y teoría de la utilidad.

8.2. Árboles de decisión Cualquier problema que puede ser presentado en una tabla de decisión, también puede ser ilustrado gráficamente en un árbol de decisión. Tomemos otra visión al caso de la compañía maderera Thompson. Podemos recordar que John Thompson estaba tratando de decidir si le convenía expandir su operación construyendo una nueva planta para la producción de cabañas 1 Esta porción ha sido extractada totalmente del libro: Quantitative Analysis for Management. Render y Stair, 1997.

237

de almacenamiento. Un árbol de decisión simple para representar la decisión de John es mostrado en la figura 9.8.1. Beneficios Nodo de estado de la naturaleza

EMV=10000 $ Mercado favorable (0.5) 200000 $

Nodo de decisión 1 Construir planta grande

Mercado desfavorable (0.5) -180000 $ Mercado favorable (0.5)

Construir planta pequeña 2

100000 $ Mercado desfavorable (0.5) -20000 $

No hacer nada EMV=40000 $ 0$

Figura 9.8.1. Árbol de decisión de Thompson Note que los beneficios están localizados en el lado derecho de cada una de las ramas del árbol de decisión. Las probabilidades son localizadas en paréntesis a continuación de cada estado de la naturaleza. Los valores monetarios esperados para cada nodo de estado de la naturaleza están calculados y localizados en sus respectivos nodos. El EMV del primer nodo es 10000 $. Esto representa la rama del nodo de decisión de construir una planta grande. El EMV para el nodo 2, construir una planta pequeña, es 40000 $. No construir nada, por su puesto tiene un beneficio de 0 $. Es escogida la rama que tiene el nodo de estado de la naturaleza que contiene el mayor EMV. En el caso de Thompson, se escoge construir una planta pequeña. Una decisión más compleja para la maderera Thomspon Cuando se necesita realizar una secuencia de decisiones, los árboles de decisión son herramientas mucho más poderosas que las tablas de decisión. Digamos que John Thompson tiene que realizar dos decisiones, y la segunda depende del resultado de la primera. Antes de decidir si construir una nueva planta, John tiene la opción de llevar a cabo su propio estudio de investigación de mercado, a un costo de 10000 $. La información de su estudio podría ayudarlo a decidir si construir una planta grande, pequeña o no hacer nada. Él reconoce que este estudio de mercado no le proveerá una información perfecta, pero puede ayudarlo un poco de cualquier manera. El nuevo árbol de decisión de John está representado en la figura 9.8.2. Observemos cuidadosamente a este árbol mucho más complejo. Note que todos los resultados poribles y alternativas están incluidas en su secuencia lógica, esta es una de las fortalezas al usar árboles de decisión para realizar decisiones. El que los usa está forzado a examinar todas las posibles soluciones, incluyendo las desfavorables, y también a realizar decisiones en una manera lógica secuencial. 238

Segunda decisión

106400 $

Mercado favorable (0.78)

190000 $

2

Mercado desfavorable (0.22)

-190000 $

Planta grande 63600 $ Planta 3 pequeña Primera decisión

49200 $

Resultado 106400 $ favorable (0.45)

Mercado favorable (0.78) Mercado desfavorable (0.22)

90000 $ -30000 $

No hacer nada -10000 $ -87400 $

Mercado favorable (0.78)

190000 $

Mercado desfavorable (0.22)

-190000 $

1 Resultado desfavorable (0.55)

Con estudio

4

Planta grande 2400 $ Planta 5 pequeña 2400 $

Mercado favorable (0.78) Mercado desfavorable (0.22)

90000 $ -30000 $

No hacer nada -10000 $

49200 $ Mercado favorable (0.78)

200000 $

Mercado desfavorable (0.22)

-180000 $

10000 $

Sin estudio Planta grande

6 40000 $

Planta pequeña 40000 $

7

Mercado favorable (0.78) Mercado desfavorable (0.22)

100000 $ -20000 $

No hacer nada 0$

Figura 9.8.2. Árbol de decisión completo para la maderera Thompson Examinando el árbol, vemos que el primer punto de decisión de Thompson es si llevar a cabo o no el estudio de mercado de 10000 $. Si escoge no hacer el estudio (La parte baja del árbol), puede construir una planta grande, pequeña o no hacer nada. Este es el segundo punto de decisión de John. El mercado puede ser favorable (0.5 de probabilidad) o desfavorable (0.5) si construye. Los beneficios para cada consecuencia posible están listados en el lado derecho. De hecho, la porción más baja del árbol de decisión es idéntica al árbol de decisión simple mostrado en la figura 1. ¿Por qué es así? La parte superior de la figura refleja la decisión de llevar a cabo un estudio de mercado. El estado de la naturaleza del nodo 1 tiene dos ramas. Hay un 45 % de posibilidades que los resultados del estudio de mercado indicarán un mercado favorable para las cabañas de almacenamiento. También hay una probabilidad de 0.55 que los resultados de la encuesta sean negativos. El resto de las probabilidades mostradas en paréntesis en la figura son probabilidades condicionales. Por ejemplo 0.78 es la probabilidad de un mercado favorable para las cabañas dado un resultado favorable del estudio de mercado. Por supuesto, se podría esperar encontrar una alta probabilidad de un mercado favorable dado que la investigación indicó que el mercado era bueno. No se debe olvidar, que hay una posibilidad de que la encuesta de mercado de 239

10000 $ no resulte beneficiosa o aun no entregue información confiable. Cualquier estudio de mercado está sujeto a error. En este caso, hay un 22% de probabilidad de que el mercado para las cabañas sea desfavorable dado que los resultados de la encuesta son positivos. Note que hay un 27% de probabilidad de que el mercado para cabañas sea favorable dado que los resultados de la encuesta resulten negativos. Hay una probabilidad mucho más alta de 0.73 que el mercado sea desfavorable dado que el estudio de mercado fue negativo. Finalmente, cuando observamos la columna de los beneficios, vemos que el costo del estudio de mercado (10000 $) ha sido sustraído de cada una de las 10 ramas de arriba. Una planta grande con un mercado favorable debería normalmente arrojar un beneficio neto de 200000 $, pero debido a que fue realizado un estudio de mercado, éste se reduce a 190000 $. Se procede de manera similar en las otras 9 ramas. Con todas las probabilidades y beneficios especificados, podemos comenzar a calcular el valor monetario esperado de cada una de las ramas. Comenzamos por el final, o del lado derecho del árbol y trabajamos hacia atrás hacia el origen. Cuando terminemos, la mejor decisión será conocida. 1. Dado un resultado favorable en la encuesta:

EMV (nodo 2) = EMV(planta grande / estudio positivo ) EMV (nodo 2) = 0.78(190000) + 0.22(−190000) = 106400 EMV (nodo 3) = EMV(planta pequeña / estudio positivo ) EMV (nodo 3) = 0.78(90000) + 0.22(−30000) = 63600 El EMV de no construir una planta es –10000 $ para esta rama. Entonces, si el resultado de la encuesta es favorable, debería construir una planta grande. 2. Dado un resultado negativo en la encuesta:

EMV (nodo 4) = EMV (planta grande / estudio negativo ) EMV (nodo 4) = 0.27(190000) + 0.73(−190000) = −87400 EMV (nodo 5) = EMV(planta pequeña / estudio negativo ) EMV (nodo 5) = 0.27(90000) + 0.73(−300000) = 2400 El EMV de no construir una planta es –10000 $ para esta rama. Entonces, dado un resultado negativo en el estudio de mercado, John debería construir una planta pequeña, con un valor esperado de 2400 $. 3. Continuando en la parte superior del árbol y moviéndose hacia atrás, calculamos el valor esperado de llevar a cabo el estudio de mercado.

EMV (nodo1) = EMV(Re alizar estudio ) EMV (nodo1) = 0.45(10640) + 0.55(2400) = 49200 240

4. Si la encuesta de mercado no es llevada a cabo:

EMV (nodo 6) = EMV (planta grande) EMV (nodo 6) = 0.50(200000) + 0.50(−1800000) = 10000 EMV (nodo 7) = EMV (planta pequeña ) EMV (nodo 7) = 0.50(100000) + 0.50(−20000) = 40000 El EMV por no construir es 0 $. Entonces, construir una pequeña planta es la mejor elección, dado que el estudio de mercado no ha sido realizado. 5. Puesto que el valor monetario esperado de llevar a cabo la encuesta es 49200 $ versus un EMV de 40000 por no llevar a cabo el estudio, la mejor elección es buscar información del mercado. Si los resultados de la encuesta son favorables, John debería construir una planta grande; pero si la investigación es negativa, debería construir una pequeña. En la figura 2, los valores esperados han sido localizados en el árbol de decisión. Note que los pares de líneas // cruzando una rama indica que la alternativa ha sido eliminada. Esto es debido a que su EMV ha sido más bajo que la mejor alternativa. Valor esperado de la información muestral Con el estudio de mercado que llevó a cabo, John Thompson sabe que es mejor decisión construir una planta grande si el estudio es favorable o una planta pequeña si la encuesta resulta negativa; pero John sabe que realizar un estudio de mercado no es gratis. Sería bueno saber cuál es el valor verdadero de realizar el estudio de mercado. Una forma de medir el valor de la información del mercado es calcular el valor esperado de la información muestral (EVSI).

 valor esperado de la mejor   Valor esperado      de la mejor   decisión con inf ormación   − EVSI =    muestral asumiendo decisión sin       inf ormación muestral   que no hay cos to     En el caso de John, su EMV debería ser 59200 $ si no se hubiera sustraído los 10000 $ del estudio de cada beneficio. El EMV de no obtener la información muestral es de 40000 $. Entonces:

EVSI = 59200 − 40000 = 19200 Esto significa que John podría haber pagado hasta 19200 $ por un estudio de mercado y aún salir adelante. Puesto que sólo le costó 10000 $, la encuesta valió la pena.

241

8.3. Estimación de probabilidades mediante análisis bayesiano Hay muchas maneras de obtener los datos de probabilidad para un problema como el de Thompson. Los valores (0.78, 0.22, 0.27, 0.73 en la figura 9.8.2) pueden ser evaluados por un administrador basado en su experiencia e intuición; pueden ser estimados de datos históricos o ser calculados de otros datos disponibles usando el teorema de Bayes. Ahora discutiremos la última opción. El enfoque del teorema de Bayes establece que el tomador de decisiones no conoce con certeza qué estado de la naturaleza ocurrirá. Esto permite al administrador revisar sus valoraciones de probabilidad iniciales. Las probabilidades revisadas, son llamadas probabilidades posteriores. Calculando probabilidades revisadas En el caso de la maderera Thompson, hicimos la suposición de que eran conocidas las siguientes cuatro probabilidades condicionales:

P(MF / positivo ) = 0.78 P(MD / positivo ) = 0.22 P(MF / negativo ) = 0.27 P(MD / negativo ) = 0.73 Mostraremos cómo John Thompson podría derivar esos valores con el teorema de Bayes. De discusiones con especialistas en investigación de mercados de una universidad local, John sabe que las encuestas especiales, tal como es la suya, puede ser positiva (es decir, predecir un mercado favorable) o negativa (predecir un mercado desfavorable). Los expertos le han dicho a John que, estadísticamente, de todos los nuevos productos que tienen mercado favorable (MF), las encuestas de mercado son positivas y predicen éxito correctamente un 70% de las veces. 30% de las veces las encuestas predicen falsamente resultados negativos o un mercado desfavorable. (MD). Por otro lado, cuando había un mercado desfavorable para un nuevo producto, 80% de las encuestas predecían correctamente resultados negativos. Las encuestas predecían incorrectamente resultados positivos el restante 20% de las veces. Estas probabilidades condicionales son resumidas en la tabla 9.8.1. Hay una indicación de la precisión de la encuesta que John está pensando como garantía. Tabla 9.8.1 Probabilidades condicionales para la maderera Thompson Resultados de la encuesta Positivo (predice mercado favorable para el producto) Negativo (predice resultado desfavorable para el producto)

Estados de la naturaleza Mercado favorable (MF) Mercado desfavorable (MD)

P(positiva / MF) = 0.70

P(positiva / MD) = 0.20

P(negativa / MF) = 0.30

P(negativa / MD) = 0.80

242

Recordemos que sin ninguna información de mercado, los mejores estimados de John de un mercado favorable o desfavorable son:

P(MF) = 0.50 P(MD ) = 0.50 Estas son llamadas como probabilidades iniciales. Con todo esto podemos realizar un diagrama de árbol de la siguiente manera: 0.70

Positivo

MF 0.5 0.30 0.20

Negativo Positivo

0.5 MD 0.80

Negativo

Podemos ahora calcular las probabilidades posteriores o revisadas de Thompson. Éstas son las inversas de las probabilidades de la tabla 9.8.1. Primero se calculan las probabilidades totales de obtener un resultado positivo en la encuesta y la de obtener un resultado negativo:

P(Positivo ) = 0.5(0.7) + 0.5(0.2) = 0.45 P( Negativo) = 0.5(0.3) + 0.5(0.8) = 0.55 Ahora se calculan las probabilidades mediante el teorema de Bayes:

P(MF / positivo ) =

0.5(0.7) = 0.78 0.5(0.7) + 0.5(0.3)

P(MD /´positivo ) =

0.5(0.2) = 0.22 0.5(0.7) + 0.5(0.3)

P(MF / negativo ) =

0.5(0.3) = 0.27 0.5(0.3) + 0.5(0.8)

P(MD / negativo ) =

0.5(0.8) = 0.73 0.5(0.3) + 0.5(0.8) 243

Estas probabilidades se pueden resumir en el siguiente arboligrama:

0.78

MF

Positivo 0.45 0.22 0.27

MD MF

0.55 Negativo 0.73

MD

Las probabilidades posteriores ahora proveen a John Thompson estimados de cada estado de la naturaleza si los resultados de la encuesta son positivos o negativos.

8.4. Teoría de la utilidad Hemos usado el EMV para realizar decisiones. En la práctica, sin embargo, el uso del EMV puede conducir a malas decisiones en muchos casos. Por ejemplo, suponga que es el feliz propietario de un cartón de lotería. Después de 5 minutos una simple moneda puede ser lanzada, y si sale cruz podrías ganar 5 millones, pero si sale cara, podrías no ganar nada. Justo un momento antes, una persona rica te ofrece 2 millones por tu boleto. Vamos a asumir que no tienes dudas sobre la validez de la oferta. La persona te dará un cheque certificado por la cantidad, y estás absolutamente seguro que el cheque tiene fondos. Un árbol de decisión es mostrado en la figura 9.8.3. El EMV dice que deberías retener tu boleto, pero ¿qué deberías hacer realmente? Solo piensa, 2 millones asegurados versus un 50% de probabilidad de no obtener nada. Haz la suposición que tú eres lo suficientemente codicioso para retener tu boleto, y luego pierdes. ¿Cómo lo explicarías a tus amigos? ¿Acaso no debería ser suficiente 2 millones para estar confortable por un tiempo? Aceptar la oferta

2000000 $ Cruz (0.5) 0$

Rechazar la oferta

1

Cara (0.5) 5000000 $

EMV=2500000 $

Figura 9.8.3. Árbol de decisión para el boleto de la lotería 244

La mayoría de la gente vendería su boleto por 2 millones. La mayoría de nosotros de hecho, estaría dispuesta a hacerlo por una cantidad mucho menor. En cuánto podemos soltar el boleto, por supuesto, es algo que tiene que ver con preferencias personales. Las personas tienen diferentes sentimientos acerca de buscar o evitar el riesgo. El EMV no es una buena forma para realizar ese tipo de decisiones. Medida de la utilidad y construcción de una curva de utilidad La valoración de la utilidad, se inicia asignando al peor resultado una utilidad de 0 y al mejor resultado una utilidad de 1. Todos los demás resultados tendrán un valor de utilidad entre 0 y 1. Para determinar las utilidades de los demás resultados, se considera un riesgo estándar. Este riesgo es mostrado en la figura 9.8.4. p Alternativa 1 1-p

Mejor resultado Utilidad 1 Peor resultado Utilidad 0

Otro resultado Utilidad ?

Alternativa 2

Figura 9.8.4. Riesgo estándar para la valoración de la utilidad En la figura 4, p es la probabilidad de obtener el mejor resultado, y 1-p es la probabilidad de obtener el mejor resultado. Para valorar la utilidad de cualquier otro resultado involucra la determinación de la probabilidad, p, que hace que seas indiferente entre la alternativa 1, que es el riesgo entre el mejor y el peor resultado, y la alternativa 2, que es obtener el otro resultado de forma segura. Cuando eres indiferente entre las alternativas 1 y 2, las utilidades esperadas para esas dos alternativas deben ser iguales. Esta relación está mostrada como:

Utilidad esperada de la alternativa 2 = Utilidad esperada de la alternativa 1 Utilidad de otro resultado = p(1) + (1 − p)(0) = p Ahora, todo lo que tenemos que hacer es determinar el valor de la probabilidad p, que hace que seas indiferente entre las alternativas 1 y 2. Para establecer esta probabilidad debes estar conciente que la valoración de la utilidad es completamente subjetiva. Esto es un valor establecido por el tomador de decisión que no puede ser medida en una escala objetiva. Veremos un ejemplo. Jane Dickson quiere construir una curva de utilidad que revele su preferencia por su dinero entre 0 y 10000 $. Una curva de utilidad es una gráfica que relaciona el valor de la utilidad versus el valor monetario. Ella puede invertir su dinero en una cuenta de banco o puede invertir el mismo dinero en un bien inmueble. Si el dinero es invertido en el banco, en tres años Jane debería tener 5000 $. Si invierte en bienes raíces, después de tres años ella podría no tener nada o 10000 $. Jane sin embargo, es muy conservadora. Si bien hay un 80% de probabilidad de conseguir 10000 $ de los bienes 245

raíces, Jane podría preferir tener su dinero en el banco, dónde está seguro. Lo que Jane hizo aquí es asegurar su utilidad de 5000 $. Cuando hay un 80% de probabilidad (esto significa que p es 0.8) de conseguir 10000 $, Jane es indiferente entre poner su dinero en bienes raíces y ponerlo en el banco. La utilidad de Jane de 5000 $ es entonces igual a 0.8, que es la misma que el valor para p. Esta valoración de la utilidad está mostrada en la figura 9.8.5. P = 0.8 Invertir en Bienes raíces

10000 $ U=1

1-p = 0.2

0$ U=0

Invertir en el banco

5000 $ U = p = 0.8

Figura 9.8.5. Utilidad de 5000 $

Utilidad

Otro valor de la utilidad puede ser valorado de la misma manera. Por ejemplo, ¿cuál es la utilidad de Jane para 7000 $? ¿Cuál es el valor de p que haría que Jane sea indiferente entre 7000 $ y el riesgo que podría resultar de 10000 $ o 0 $? Para Jane, existe una probabilidad del 90% de conseguir los 10000 $. Por otro lado, ella preferiría tener los 7000 $ asegurados. Entonces, su utilidad para 7000 $ es 0.9. La utilidad de Jane para 3000 $ puede ser determinada de la misma manera. Si había un 50% de probabilidad de obtener los 10000 $, Jane debería ser indiferente entre tener 3000 $ asegurados y tomar el riesgo de ganar 10000 $ o nada. Entonces la utilidad de 3000 $ para jane es 0.5. Por supuesto, este proceso puede continuar hasta que Jane ha valorado su utilidad para tantos valores monetarios como ella quiera. Sin embargo, estas valoraciones son suficientes para determinar una idea de los sentimientos de Jane hacia el riesgo. De hecho, podemos graficar estos puntos en una curva de utilidad, como se muestra en la gráfico 9.8.1. 1

1 0.9 0.8 0.7 0.6 0.5 0.4

0.9 0.8

0.5

0.3 0.2 0.1 0

0 0

1000 2000

3000

4000

5000

6000

7000

8000 9000 10000

Valor m onetario

Gráfico 9.8.1. Curva de utilidad para Jane Dickson

246

La curva de utilidad de Jane es típica de un adverso al riesgo. Un adverso al riesgo es un tomador de decisiones que consigue la menor utilidad o satisfacción de un riesgo grande y tiende a evitar situaciones en las que pueden ocurrir grandes pérdidas. A medida que el valor monetario incrementa en su curva de utilidad, la utilidad se incrementa a una tasa menor.

Utilidad

El gráfico 9.8.2 ilustra a una persona que es un buscador del riesgo, en oposición a una que es adversa al riesgo. Este tomador de decisiones consigue más utilidad de un gran riesgo y más alto beneficio potencial. A medida que el valor monetario se incrementa en su curva de utilidad, la utilidad incrementa a una tasa ascendente. Una persona que es indiferente al riesgo tiene una curva de utilidad que es una línea recta. La forma de la curva de utilidad de una persona depende de la decisión específica que está siendo considerada, el trasfondo psicológico de la persona, y los sentimientos acerca del futuro. Puede darse que tengas una curva de utilidad para algunas situaciones y curvas muy diferentes para otras. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0

2000

4000

6000

8000

10000

Valor monetario Adverso al riesgo

Buscador del riesgo

Indiferente al riesgo

Gráfico 9.8.2. Preferencias frente al riesgo La utilidad como criterio para tomar decisiones Después que la curva de utilidad ha sido determinada, los valores de utilidad de la curva son usados para realizar decisiones. Los valores o resultados monetarios son reemplazados con los valores apropiados de la utilidad y entonces es desarrollado el análisis de decisión usual. Veamos un ejemplo. Mark Simkin ama el riesgo. El decide jugar un juego que consiste en lanzar una chincheta al aire. Si el punto sobre la chincheta está orientado al cielo, Mark gana 10000 $. Si el punto sobre la chincheta está abajo, pierde 10000 $. ¿Debe Mark jugar el juego (alternativa 1) o no (alternativa 2)? Las alternativas 1 y 2 son desplegadas en el árbol mostrado en la figura 9.8.6. Como se puede observar la alternativa 1 consiste en participar en el juego. Mark cree que hay 45% de probabilidad de ganar 10000 $ y un 55% de perder 10000 $. La alternativa 2 es no participar en el juego. ¿Qué debe hacer Mark? Por supuesto, esto depende de la utilidad de Mark hacia el dinero. Como establecimos previamente él ama el riesgo. Usando el procedimiento descrito 247

anteriormente, Mark es capaz de construir una curva de utilidad mostrando su preferencia hacia el dinero. Esta curva aparece en el gráfico 9.8.3. Tachuela con punto arriba (0.45)

Alternativa 1 Jugar

10000 $

Tachuela con punto abajo (0.55)

-10000 $

Alternativa 2 No jugar

0$

Figura 9.8.6. Orientación de la decisión de Mark Simkin 0.6

Utilidad

0.5 0.4 0.3

0.3

0.2 0.15 0.1 0.05 0 0 -20000

-10000

0

10000

20000

Valor monetario

Gráfico 9.8.3. Curva de utilidad de Mark Simkin Podemos ver que la utilidad de Mark para –10000 $ es 0.05, su utilidad por no jugar (0 $) es de 0.15, y su utilidad para 10000 $ es de 0.30. Esos valores pueden ser usados en el árbol de decisión. El objetivo de Mark es maximizar su utilidad esperada, que peude calcularse como sigue: Paso 1.

U (−10000 $) = 0.05 U (0 $) = 0.15 U (10000 $) = 0.30 Paso 2. Reemplazar los valores monetarios con valores de utilidad. Refiriéndose a la figura 9.8.7, las utilidades para las alternativas 1 y 2 son:

248

Utilidad Tachuela con punto arriba (0.45)

Alternativa 1 Jugar

Tachuela con punto abajo (0.55)

0.30

0.05

E=0.1625 Alternativa 2 No jugar

0.15

Figura 9.8.7. Uso de utilidades esperadas en la toma de decisiones

E(alternativa 1) = 0.45(0.30) + 0.55(0.05) = 0.1625 E(alternativa 2) = 0.15 Por consiguiente, la alternativa 1 es la mejor estrategia usando la utilidad como criterio de decisión. Si sería usado el EMV, la alternativa 2 habría sido la mejor estrategia. La curva de utilidad es una de un buscador de riesgo, y la elección de jugar el juego ciertamente refleja su preferencia por el riesgo.

249

EJERCICIOS DE CLASE Distribuciones bidimensionales Tipo I 1. Una investigación de mercado reveló que las ventas semanales de una nueva barra de caramelo se relacionaron con su precio como sigue. Interprete la información contenida en la tabla. Precio (centavos) 50 55 60 65

Ventas semanales (miles de barras) 23.2 19.4 16.9 15.7

Tipo II y III 2. Se sabe que el consumo de las personas (yi ) depende de los ingresos que perciben (xi). Para un grupo de 50 personas se tienen la siguiente información en cientos de bs.: xi: yi: xi: yi:

4 9 15 15 9 4 9 15 4 1 6 5 1 10 3 11 6 4 9 9 15 15 15 9 15 9 15 12 14 12 15 14 13 13 15 12

9 4 15 9 4 15 9 4 15 9 15 4 15 9 4 6 11 5 11 10 1 2 4 7 9 2 7 2 4 15 9 15 9 15 9 15 4 15 9 15 9 15 5 13 5 14 9 15 12 13 5 9 4 10 1 11

4 15 1 8 9 15 8 12

a) Organice los datos en una distribución de frecuencias adecuada. b) Presente la información sobre las frecuencias relativas, acumuladas, y relativas acumuladas e interprete los valores. c) Obtenga las distribuciones marginales de las dos variables. Covarianza Tipo I 3. Halle el grado de asociación entre las variables de la pregunta 1. Tipo II y III 4. Tomando en cuenta la información de la pregunta 2, ¿Cuál es el grado de asociación que existe entre las variables? Atributos o mixtos 5. En una determinada empresa se hizo un examen a los 320 administrativos empleados en las oficinas. Comparándose los resultados obtenidos con los errores mecanográficos cometidos por cada uno de ellos durante un cierto espacio de tiempo, se elaboró la siguiente tabla de doble entrada. 250

Errores cometidos 0 – 10: Muy pocos 10 – 20: Pocos 20 – 30: Muchos Total

Clasificación del examen Óptimo Bueno Regular 42 95 16 29 56 32 15 9 26 86 160 74

Total 153 117 50 320

Halle la asociación entre los distintos números de errores cometidos y la clasificación obtenida en el examen. Cálculo de probabilidades 6. Tomando en cuenta la información de la pregunta 2, hallar la probabilidad de: a) tener un ingreso de 900 bs. y consumir entre 1100 a 1500 bs. b) tener un ingreso de 400 bs. c) consumir entre 100 a 300 bs. d) consumir entre 500 a 1100 bs. o tener un ingreso de 900 bs. e) consumir entre 1100 a 1500 bs o entre 300 a 500 bs. f) tener un ingreso de 1500 bs. dado que se consume entre 100 a 300 bs. Diagrama de árbol 7. El siguiente diagrama se refiere al número de unidades defectuosas producidas por cuatro trabajadores operando tres diferentes máquinas, un día viernes. 35.577

M1

T1

M2

23.744

P( T1 , M 2 ) = 7.078 %

M3 M1

34.234 T2

M2

P ( T2 / M 1 ) = 26 .207 % P( M 1 ) = 33.105 %

M3 M1

31.148

27.854 T3

M2 M3 M1

T4

M2 37.624 M3

251

P( M 3 ) = 33.790 % P( T3 , M 3 ) = 9.361 %

a) Determine la distribución bidimensional, que abarca a 438 unidades defectuosas. b) ¿Qué porcentaje de las unidades defectuosas fueron producidas por el trabajador 4 o en la máquina 2? 8. Pase la información de la pregunta 2, a un diagrama de árbol y responda los mismos incisos de la pregunta 6. Función de densidad conjunta 9. Suponga que x representa el tiempo (en minutos) que una persona pasa en la sala de espera de cierto médico e y la duración (en minutos) de un examen físico completo. Usted llega al consultorio para un examen físico, 50 minutos antes de tener que salir para una reunión. Si la función de densidad de probabilidad conjunta de x e y es:

f (x, y) =

1 −10x − 50y e e 500

Halle la probabilidad de que usted salga tarde para su reunión.

252

EJERCICIOS PROPUESTOS 1. Se sabe que el consumo de las personas (y), depende de los ingresos que perciben (x). Para un grupo de 50 personas, se tiene la siguiente información (cientos de bs.): Ingresos 4 8 2 0

1- 5 5’ - 11 11’ - 15

Consumo 9 7 6 5

15 3 9 10

a) ¿Cuál es la relación de asociación que existe entre las variables? b) ¿Cuál es la probabilidad de consumir 15 bs? c) ¿Cuál es la probabilidad de que una persona elegida al azar, tenga un ingreso entre 1100 y 1500 bs. y su consumo sea de 400 bs? d) ¿Cuál es la probabilidad de que una persona elegida al azar, tenga un ingreso entre 1100 y 1500 bs. dado que su consumo sea de 400 bs? e) ¿Cuál es la probabilidad de que una persona elegida al azar, tenga un ingreso entre 1100 y 1500 bs. o su consumo sea de 400 bs? 2. La información sobre horas trabajadas (x) y producción en cientos de unidades (y) en una empresa es la siguiente: horas trabajadas 1- 3 3’ - 7 7’ - 11 11’ - 13

5–9 3 2 1 2

Producción 9’ - 13 13’ - 17 5 0 4 1 6 7 3 6

a) Para la variable horas de trabajo, determine el histograma correspondiente. b) Considere cada variable de manera independiente y determine cuál de ellas es más homogénea. c) Calcule la mediana de la distribución de la variable producción. d) ¿Qué grado de relación tienen las variables? 3. Se realizó una encuesta a 50 familias con los resultados que figuran en la tabla: Nº de hijos 1- 5 5’ - 11 11’ - 15

Nº de autos 3-4 6 2 6

1-2 4 3 8

5-6 15 4 2

a) Determine la covarianza e interprete su resultado. b) Con la distribución marginal del número de hijos, encuentre los límites del 50% central de la distribución. 253

c) ¿Cuánto vale la varianza del número de autos? ¿Qué ocurriría con esta varianza si cada familia se compra dos autos adicionales? 4. En un programa de entrenamiento para la gerencia de una empresa de cosméticos, 80% de los asistentes son mujeres y 20% son hombres; 90% de las mujeres son egresadas de la Universidad y 78% de los hombres También. a) Se selecciona al azar una de las personas en entrenamiento. ¿Cuál es la probabilidad de que se trate de una mujer que no asistió a la universidad? b) Trace un arboligrama que muestre todas las probabilidades normales o marginales, condicionales y conjuntas. 5. Cada vendedor en una compañía se califica como abajo del promedio, promedio, o arriba del promedio, con respecto a su habilidad para las ventas. Además cada vendedor se clasifica con respecto a sus posibilidades de promoción: Habilidad en ventas Abajo del promedio Promedio Encima del promedio

Posibilidad de promoción Regular Buena Excelente 16 12 22 45 60 45 93 72 135

a) Utilizando una de las reglas para combinar probabilidades, ¿cuál es la probabilidad de que un vendedor seleccionado al azar tenga habilidad de ventas por encima del promedio y excelentes posibilidades de promoción? b) Trace un diagrama de árbol que muestre todas las probabilidades normales, condicionales y conjuntas. 6. Se recopilaron datos sobre las horas que ven televisión (xi) y edad de los televidentes (yi): xi: yi: xi: yi:

2 3 2 6

5 6 4 6

5 13 5 3

4 15 5 9

4 3 4 3

5 6 5 12

2 5 4 4

4 7 2 7

5 11 5 7

5 8 4 5

2 5 5 4

4 4 4 8

5 15 2 3

4 5 5 8

4 9 4 4

2 9 4 6

5 10 4 9

5 12 5 7

4 10 2 4

5 5 5 4

a) Organice los datos en una distribución bidimensional de frecuencias absolutas. ¿Qué grado de asociación existe entre dichas variables? b) ¿Cuál es la probabilidad de ver 4 horas de televisión dado que el televidente tiene entre 3 a 7 años? ¿Cuál es la probabilidad de que el televidente tenga entre 11 - 15 años o de que vea 2 horas? ¿Cuál es la probabilidad de que el televidente sea de 7 - 11 años? ¿Cuál es la probabilidad de que tenga entre 3 - 7 años y vea 4 horas?. En los ejercicios 7 –10, emplee el teorema de Bayes: 7. Un equipo de béisbol juega 70% de sus partidos por la noche y 30% durante el día. El equipo gana 50% de sus juegos nocturnos y 90% de los diurnos. De acuerdo con el diario del día de hoy ganó ayer. ¿Cuál es la probabilidad de que el partido se haya desarrollado por la noche?

254

8. Una profesora ha estado enseñando Estadística durante muchos años. Sabe que 80% de los estudiantes completan los problemas asignados. Determinó que de los alumnos que hacen las tareas 90% aprobarán el curso. De aquellos estudiantes que no realizan la tarea completa solo 60% aprobarán. Miguel Sánchez tomó Estadística el último semestre con la profesora y tuvo calificación aprobatoria. ¿Cuál es la probabilidad de que sí haya hecho las tareas? 9. Tan solo el 20 % de las mujeres mayores de 40 años egresadas de la universidad ejercen su profesión, mientras que un 70% de las egresadas menores de 40 también lo hacen. La relación de mujeres profesionales mayores de 40 entre las menores de 40 es de 2 a 6. a) Francis Morales es Ingeniero Químico y no ejerce su profesión. ¿Cuál es la probabilidad de que tenga menos de 40 años? b) Dibuje el arboligrama con todas las probabilidades marginales, condicionales y conjuntas. c) Realice un cuadro de contingencias tomando en cuenta que n = 80 y verifique la probabilidad anterior. 10. Una compañía que fabrica tornillos, tiene 3 fábricas: A, B, C. Las fábricas B y C producen el mismo número de tornillos, mientras que A produce el doble de las de B. Por experiencia pasada, se sabe que el 2% de los tornillos producidos por A y B respectivamente son defectuosos, en tanto que el 4% de los fabricados por C son defectuosos. Los tornillos producidos por las tres fábricas se guardan en un mismo lugar. a) Dibuje un arboligrama, con todas las probabilidades. b) Si se escoge aleatoriamente un tornillo del almacén, ¿Cuál es la probabilidad de que sea defectuoso?. c) ¿Cuál es la probabilidad de que el tornillo defectuoso escogido haya sido producido en la fábrica A? 11. Suponga que x representa el tiempo en minutos durante el cual una persona hace cola en cierto banco e y la duración en minutos de una transacción de rutina en la ventanilla del cajero. Usted llega al banco a depositar un cheque. Si la función de densidad de probabilidad conjunta de x e y es:

1 − x4 − y2 f (x, y) = e e 8 Halle la probabilidad de que realice su transacción en el banco en menos de 8 minutos. Ejercicios de teoría de la utilidad 1. A Mónica Britt le gusta mucho pilotear botes pequeños a vela. Lo hace desde que tenía 7 años, cuando su madre comenzó a hacerlo con ella. Hoy, Mónica está considerando la posibilidad de iniciar una compañía para producir pequeños botes para el mercado recreativo. A diferencia de otros botes a vela producidos en masa, los suyos serán hechos específicamente para niños entre 10 y 15 años. Serán de la más alta calidad y extremadamente estables y el tamaño de la vela será reducido para prevenir problemas de vuelco. 255

Debido al gasto involucrado al desarrollar los moldes iniciales y adquirir el equipo necesario para producir botes de vela de fibra de vidrio para niños, Mónica ha decidido llevar a cabo un estudio piloto para asegurarse que el mercado será adecuado. Ella estima que el estudio piloto costará 10000 $. Además el estudio piloto puede ser exitoso o no. Su decisión básica es construir una planta de manufactura grande, una pequeña o no construir nada. Con un mercado favorable, Mónica espera hacer 90000 $ con una planta grande, o 60000 $ con una planta pequeña. Si el mercado es desfavorable, Mónica estima perder 30000 $ con una planta grande y perder 20000 $ con una planta pequeña. Mónica estima que la probabilidad de un mercado favorable dado un estudio piloto exitoso es de 0.8. La probabilidad de un mercado desfavorable dado un resultado del estudio piloto no exitoso es del 0.9. Mónica siente que hay una probabilidad de 50-50 que el estudio piloto será exitoso. Por supuesto, Mónica podría no realizar el estudio piloto y simplemente realizar la decisión de construcción sin él. Si no haría un estudio piloto, ella estima que la probabilidad de un éxito en el mercado es del 0.6. ¿Qué recomendaría? 2. John Jenkins siempre ha deseado desarrollar una pequeña línea de carritos para golfistas de todas las habilidades. Sin embargo, cree que la probabilidad de una línea de autos exitoso es del 40%. Un amigo le ha sugerido que lleve a cabo una encuesta en la comunidad para obtener una mejor intuición de la demanda para construir una planta. Hay una probabilidad de 0.9 de que la investigación sea favorable, si la planta será exitosa. Además, se estima que hay una probabilidad de 0.8 de que la investigación de mercado será desfavorable si la planta será exitosa. John podría determinar las probabilidades de una exitosa línea de autos dado un resultado favorable del estudio de marketing. 3. Como muchos estudiantes, Anne Martin está enfrentando una difícil e importante decisión acerca de su carrera profesional. Mientras estaba en colegio, Anne trabajó para una empresa de contabilidad local. Hizo un buen trabajo y la empresa le ofreció un trabajo por 20000 $. Ella puede tomar todo el tiempo que quiera para tomar su decisión. Hay sin embargo, otras dos compañías que están interesadas en ella. Contabilidad Barnes le ha ofertado un trabajo por 22000 $. Desafortunadamente Barnes, le ha dado un plazo de dos semanas para que tome su decisión. La compañía en la cual Anne realmente le gustaría trabajar es Servicios de Contabilidad Ketchum. Esta compañía, ella siente, podría hacerle una oferta de 28000 $. Desafortunadamente, Anne está bastante dudosa de que realmente le ofrezcan el puesto. Entonces, Anne tiene una difícil decisión. ¿Podría ella aceptar la oferta de Barnes de 22000 $, o debería esperar para conseguir la oferta de Ketchum? Para Anne ser indiferente entre tomar el trabajo con Barnes y el riesgo de esperar y tratar de conseguir el trabajo con Ketchum, la probabilidad de obtener el trabajo con Ketchum debería ser 0.6. Dada esta información, ¿qué utilidad debería Anne tomar sobre los tres trabajos? 4. Jerry Young está pensando abrir una tienda de bicicletas en su ciudad natal. Jerry ama tomar su bici y correr en un camino de 50 millas con sus amigos, pero cree que cualquier negocio pequeño debería comenzar sólo si hay una buena probabilidad de obtener ganancias. Jerry puede abrir un pequeño negocio, una tienda grande o no hacer nada. Debido a que tendrá un alquiler por 5 años en un edificio, él quiere asegurarse hacer una decisión correcta. También está pensando en contratar a su viejo profesor de marketing para llevar a cabo un estudio de mercado. Si es llevado a cabo el estudio, los resultados pueden ser favorables o desfavorables. Desarrollar un árbol de decisión para Jerry. 5. Jerry Young (del problema 4) ha realizado algunos análisis acerca de la rentabilidad de la tienda de bicicletas. Si Jerry construye una tienda grande, tendrá una ganancia de 60000 $ 256

si el mercado es favorable, pero perderá 40000 $ si el mercado es desfavorable. La tienda pequeña generará un retorno de 30000 $ en un mercado favorable y una pérdida de 10000 $ en un mercado desfavorable. En el momento presente, cree que hay una probabilidad de 5050 de que el mercado sea favorable. Su viejo profesor de marketing le cobrará 5000 $ por el estudio. Se ha estimado que hay una probabilidad de 0.6 de que la encuesta sea favorable. Además, hay una probabilidad de 0.9 que el mercado sea favorable dado un resultado favorable del estudio. Sin embargo, el profesor de marketing ha advertido a Jerry que hay una probabilidad de sólo el 0.12 de un mercado favorable si los resultados del estudio de mercado no son favorables. Jerry está confundido. ¿Qué debería hacer? 6. En el problema 5, Jerry determinó si debía o no buscar información del mercado de su profesor de marketing y si debería abrir una tienda de bicicletas. En este problema, el profesor de marketing de Jerry estimó que existía una probabilidad de 0.6 de que el resultado del estudio de mercado sea favorable. Jerry, sin embargo, no está seguro que esta probabilidad sea la correcta. ¿Cuál sensible es la decisión de Jerry, realizada en el problema 5, a este valor de probabilidad? ¿Cuánto puede desviarse este valor de probabilidad de 0.6 sin causar un cambio en la decisión de Jerry?

257

EJERCICIOS PARA EXAMEN 1. Se realizó un estudio de mercado a nivel nacional para determinar las preferencias de varios grupos de hombres que tienen diferentes edades, para diferentes deportes. Se selecciona una muestra aleatoria de 1000 hombres y se les pide que indiquen su deporte favorito. Los resultados son los siguientes: < 20 20-40 VO

Información adicional:

40’-50 >50

111 225 P ( F ∪ < 20) = 0.494 P ( F / 20 − 40) =

0.134

< 20 20-40

P( > 50) = 0.2

0.222

0.427 F

0.1733

40’-50 >50 < 20

0.1981 20-40 BA

40’-50 >50

Edad\Deporte Voleibol Hasta 20 26 20’ – 40 40’ – 50 96 Mayores a 50 Total

Fútbol

Básquetbol

Total 150

a) Complete la bidimensional y el árbol de probabilidades. b) Halle el porcentaje de los hombres que a lo menos tienen 40’ años y su preferencia es el básquetbol. c) ¿Cuál es la probabilidad que a un anciano le guste el básquetbol?. 2. En la Papelera S.A. se producen blocs Líder con y sin espiral (50% de cada tipo), el 60% de cada tipo son rojos, 20% de los blocs sin espiral son azules lo mismo que 25% de los con espiral, el resto de los blocs son verdes. a) Represente al arboligrama, incluyendo las probabilidades normales, condicionales y conjuntas. b) Llene el cuadro bidimensional, si se sabe que en el día se produjeron 1000 blocs Líder, y encuentre la probabilidad de escoger al azar un cuaderno rojo con espiral. 3. Suponga que x es el tiempo (en días) que una persona permanece en el hospital después de una cirugía abdominal e y el tiempo (en días) que una persona permanece en el hospital después de una cirugía ortopédica. El lunes, el paciente de la cama 107 A es sometido a 258

una apendicetomía de emergencia, mientras que el paciente de la cama 107 B, compañero de habitación, es sometido a una cirugía ortopédica para reparar el cartílago de la rodilla rota. Si la función de densidad de probabilidad conjunta para x e y es:

f ( x , y )=

1 −x/ 4 −y /3 e e 12

Halle la probabilidad de que ambos pacientes sean dados de alta del hospital en menos de 3 días.

259

CASO BLAKE ELECTRONICS2 En 1947, Steve Blake fundó Blake Electronics en Long Beach, California, para manufacturar resistors, capacitors, inductors y otros components electrónicos. Durante la Segunda Guerra Mundial Steve fue un radio operador y fue durante ese tiempo que adquirió la habilidad para reparar radios y otros equipos de comunicación. Steve consideró su experiencia de 4 años con la armada con sentimientos encontrados. Odió la vida en la armada, pero su experiencia le dio la confianza y la iniciativa para iniciar su propia empresa de electrónicos. En el transcurso del tiempo, Steve cuidó su negocio sin realizar grandes cambios. En 1969, las ventas totales anuales excedían los 2 millones de $. En 1964, el hijo de Steve, Jim, se unió a la compañía después de terminar la preparatoria y dos años de cursos en electrónica en la universidad de la comunidad de Long Beach. Jim fue siempre agresivo como atleta en la preparatoria, y llegó a ser aún más agresivo gerente general de ventas de Blake Electronics. Esta agresividad preocupaba a Steve, que era más conservador. Jim hacía tratos para proveer a las compañías con componentes electrónicos sin antes preocuparse de saber si Blake Electronics tenía la habilidad o capacidad para producir los componentes. En varias ocasiones este comportamiento causó a la compañía momentos embarazosos, ya que Blake Electronics era incapaz de producir los componentes electrónicos para compañías con las cuales Jim hizo tratos. En 1968, Jim comenzó a ir tras los contratos del gobierno para componentes electrónicos. En 1970, las ventas totales anuales ascendieron a más de 10 millones de $ y el número de empleados excedía los 200. La mayoría de esos empleados eran especialistas en electrónica y graduados de programas de ingeniería eléctrica de universidades prestigiosas. Pero la tendencia de Jim de exagerar para obtener contratos continuó, hasta que por 1975, Blake Electronics se ganó una reputación con las agencias del gobierno como de una compañía que no podía entregar lo que prometía. De la noche a la mañana, los contratos con el gobierno se detuvieron, y Blake Electronics se quedó con una fuerza de trabajo parada y equipo de manufactura sin utilizar. Estos grandes gastos generales comenzaron a derretir el beneficio, y en 1977, Blake Electronics se enfrentó con la posibilidad de tener una pérdida por primera vez en su historia. En 1978, Steve decidió ver la posibilidad de producir componentes electrónicos para uso del hogar. Si bien era un mercado totalmente nuevo para Blake Electrónicos, Steve estaba convencido de que esta era la única forma de mantener a la empresa fura de la línea roja. Al equipo de investigación le fue dada la tarea de desarrollar nuevos dispositivos electrónicos para el hogar. La primera idea del equipo fue el Centro de Control Maestro. Los componentes básicos para este sistema se muestran en la figura 1. El corazón del sistema es la caja de control maestro. Esta unidad, que debería tener un precio al por menor de 250 $, tenía dos filas de 5 botones. Cada botón controla una luz o dispositivo y puede ser dispuesto como un interruptor o un reóstato. Cuando se dispone como un interruptor, un toque de dedo al botón enciende o apaga la luz. Cuando se dispone como un reóstato, un 2 Este caso ha sido extractado del libro: Quantitative Analysis for Management. Render y Stair, 1997.

260

toque de dedo del botón controla la intensidad de la luz. Si se deja el dedo en el botón, la luz realiza un ciclo completo desde apagado hasta una luz muy brillante, regresando a apagado.

Caja de control maestro

_

• Adaptador de salida

Adaptador de interruptor de luz

Disco de bombilla

Figura 1. Centro de Control Maestro Para obtener un máximo de flexibilidad, cada caja de control maestro es energizada por dos baterías de tamaño D que pueden durar hasta un año, dependiendo de su uso. Además, el equipo de investigación ha diseñado tres versiones de la caja de control maestro –las versiones A, B y C. Si la familia quiere controlar más de 10 luces o dispositivos, puede ser comprada otra caja de control maestro. El disco bombilla, que debería tener un precio al por menor de 2.50 $, es controlado por la caja de control maestro y es usada para controlar la intensidad de cualquier luz. Está disponible un disco diferente para cada posición del botón para las tres cajas de control maestro. Insertando el disco bombilla entre la bombilla y el socket, el botón apropiado de la caja de control maestro puede controlar completamente la intensidad de la luz. Si es usado un interruptor de luz estándar, debe ser encendido todas las veces por la caja de control maestro para que pueda trabajar. Una desventaja de usar un interruptor de luz estándar es que solamente la caja de control maestro puede ser usada para controlar una luz particular. Para evitar este problema, el equipo de investigación desarrolló un interruptor adaptador de luz especial que debería venderse en 15 $. Cuando este dispositivo está instalado, tanto la caja de control maestro como el interruptor adaptador de luz pueden ser usados para controlar la luz. Cuando se quiere controlar otros dispositivos además de la luz, la caja de control maestro debe ser usada en conjunción con uno o más adaptadores de salida. Los adaptadores son enchufados en un tabique de salida estándar, y el dispositivo es entonces enchufado al adaptador. Cada adaptador de salida tiene un interruptor en la parte superior que permite que 261

el dispositivo sea controlado desde la caja de control maestro el desde el adaptador de salida. El precio del adaptador de salida debería ser 25 $. El equipo de investigación estimó que debería costar 500000 $ desarrollar el equipo y los procedimientos necesarios para fabricar la caja de control maestro y los accesorios. Si es exitosa, esta aventura podría incrementar las ventas en 2 millones de $ aproximadamente. ¿Pero será que la caja de control maestro será exitosa? Con un 60% de probabilidad de éxito estimado por el equipo de investigación, Steve tiene serias dudas acerca de tratar de vender las cajas de control maestro, aún cuando le gusta la idea básica.. Debido a sus reservas, Steve decidió mandar solicitudes de propuestas (RFP’s) para investigaciones adicionales de mercado a 30 compañías de investigación en el sur de California. El primer RFP vino de una pequeña compañía llamada Marketing Associates, Inc. (MAI) que quería cobrar 100000 $ por el estudio. De acuerdo a su propuesta, MAI ha estado en el negocio por tres años y ha llevado a cabo cerca de 100 proyectos de investigación de mercados. Las mayores fortalezas de MAI parecen ser la atención individual de cada informe, personal experimentado y trabajo rápido. Steve se interesó particularmente en una parte de la propuesta, que revelaba el record éxito de MAI con informes previos. Esto está mostrado en la figura 12. Resultados Operación exitosa Operación no exitosa

Resultados de la encuesta Favorable Desfavorable 35 20 15 30

Total 55 45

La otra propuesta que regresó fue de una oficina sucursal de Iverstine y Kinard, una de las más grandes empresas de investigación de mercados en el país. El costo para un estudio completo es de 300000 $. Si bien la propuesta no contiene el mismo registro de éxito de MAI, contiene alguna información interesante. La probabilidad de obtener un resultado favorable del estudio, dada una operación exitosa, es de 90%. Por el otro lado, la probabilidad de conseguir un resultado desfavorable de la encuesta, dada una operación no exitosa, es de 80%. Entonces, a Steve le parece que Iverstine y Kinard es capaz de predecir el éxito o fracaso de la caja de control maestro con una gran certidumbre. Steve ponderó la situación. Desafortunadamente, ambos equipos de investigación de mercados dieron otorgaron diferentes tipos de información en sus propuestas. Steve concluyó que no había forma que las dos propuestas puedan ser comparadas a menos que consiguiera información adicional de Iverstine y Kinard. Además, Steve no estaba seguro de lo que debería hacer con la información y si valía la pena el gasto de contratar a una de las empresas de investigación de mercado. Preguntas 1. ¿Necesita Steve información adicional de Iverstine y Kinard? 2. ¿Qué recomendaría?

262

CAPÍTULO 10 REGRESIÓN Y CORRELACIÓN 1. INTRODUCCIÓN En muchas investigaciones de tipo estadístico, el objetivo es determinar a partir de información histórica o experimental, relaciones o funciones mediante las cuales se puedan realizar pronósticos, lo más exactamente posible, entre dos o más variables relacionadas entre sí. Los análisis de regresión y correlación brindan al investigador las herramientas necesarias para cumplir este objetivo.

1.1. Análisis de regresión El análisis de regresión es una técnica empleada para desarrollar una ecuación que permite expresar la relación entre variables y estimar el valor de y (variable dependiente o de respuesta), con base en valores de xi (variables independientes o explicativas). La técnica consiste en realizar un diagrama de dispersión de los datos a investigar, luego de determinar por medio de él la ecuación de ajuste entre las variables y desarrollar sistemas de ecuaciones que permitan determinarla con base al principio de mínimos cuadrados. • El diagrama de dispersión (o nube de puntos) es una gráfica que presenta la relación entre dos variables de interés. • El principio de mínimos cuadrados es una técnica empleada para llegar a la ecuación de regresión minimizando la suma de los cuadrados de las distancias verticales entre los valores de y observados y los valores pronosticados de y: El principio de mínimos cuadrados minimiza la siguiente función: n

Minimizar : z = ∑ (yi − ye ) 2 i =1

donde: yi = Ordenadas de los valores observados (datos). ye = Ordenadas estimadas a partir de la ecuación de regresión. El diagrama de dispersión de la figura 10.1.1, aclara todos los conceptos arriba mencionados.

263

Figura 10.1.1. Diagrama de dispersión yi

Recta de regresión

• • •

• •





• •

• ye



•yi

• •

•ye

Nube de puntos



• •yi

•ye •yi

xi

Fuente: Elaboración propia Una serie de datos de dos variables, pueden poseer varios tipos de tendencias. Dependerá de ellas que la serie pueda ajustarse a un modelo determinado. Los tipos de regresión más usuales se muestran en la figura 10.1.2. Figura 10.1.2. Tipos de regresión usuales y









y









• •





• •

• • •







• •

• •

x

x

Dependencia lineal directa

Dependencia lineal inversa

y = a + bx

y = a + bx

y

y







• •











• •



••



• •

• •









x

x

No hay correlación

Dependencia parabólica

y = ax 2 + bx + c y



y



• •



• •

• • •

• •

264









• •

x

• •



• •



x

Fuente: Elaboración propia Cuando existe una serie donde hay más de dos variables, el modelo más usado es la regresión lineal múltiple. Sin embargo, puede ser no lineal en una o dos variables independientes. En este caso el diagrama de dispersión debe dibujarse en tres dimensiones, como lo muestra la figura 10.1.3. Figura 10.1.3. Tipos de regresión múltiple z

z

• •



• • • • • • •





• •

• • • • • • •• •

• y

x

• • • • •



y

x Dependencia lineal

Dependencia no lineal

z = ax + by

z = ax 2 + by 2 Fuente: Elaboración propia

1.2. Análisis de correlación Mide la bondad de ajuste entre los valores observados (datos) y los valores calculados con la ecuación de regresión hallada, mediante 3 coeficientes: • Coeficiente de correlación. • Coeficiente de determinación. • Coeficiente de no determinación. Coeficiente de correlación Dada la función, el coeficiente de correlación permite determinar el grado de asociación que 265

existe en la relación de dependencia de las variables consideradas. Dicho de otro modo mide la intensidad de la relación entre las variables consideradas, mediante la siguiente expresión:

r=

S2y S

e

2 y

= 1−

S2y S

e

2 y

donde: Varianza total: k

S2y =

∑ (y

i

Varianza Explicada:

− y) 2

Varianza no explicada:

k

i =1

S2y =

n

e

Se debe cumplir que:

k

∑ ( y e − y) 2

S2y =

i =1

n

e

S2y = S2y + S2y e

∑ (y

i

− ye ) 2

i =1

n

e

la varianza total es igual a al suma de la varianza explicada y la no explicada. Se muestra un diagrama que muestra las diferencias entre los tres tipos de varianzas, descritas anteriormente en la figura 10.1.4. Figura 10.1.4. Diferencias entre los tres tipos de varianzas

y = f (x)

y

•y • • • • • •yi

• • • •

Varianza Total

y = f (x)

• •

y

•y • • • •y e • •

• • • •

y = f (x)

• •

y

Varianza Explicada

• yi • •y e • •





• • • •

• •

Varianza No Explicada

Fuente: Elaboración propia El esquema de la intensidad y dirección del coeficiente de correlación está mostrado en la figura 10.1.5

266

Figura 10.1.5 Intensidad del coeficiente de correlación Negativa perfecta intensa

-1

Ninguna correlación

moderada

débil

débil

-0.5

moderada

0

Positiva perfecta intensa

0.5

1

Fuente: Mason y Lind. Estadística para Administración y Economía, 1995. Conviene obtener un valor del coeficiente de correlación cercano a 1 o -1, porque indicará una gran intensidad de la relación entre las variables consideradas, sea directa o inversa, respectivamente. Coeficiente de determinación Mide la proporción de la variación total en la variable dependiente, que se explica o se debe a la variación en la(s) variable(s) independiente(s). Se calcula mediante el cuadrado del coeficiente de correlación y generalmente se lo expresa como porcentaje:

r = 2

S2y S

e

2 y

=

Varianza exp licada Varianza total

Conviene obtener un valor del coeficiente de determinación cercano a 100%. El coeficiente de no determinación mide la proporción de la variación total en la variable dependiente, que no se explica o se debe a la variación en la(s) variable(s) independiente(s), sino a otro tipo de variables no consideradas en el modelo: 100 − r 2 Conviene obtener un valor del coeficiente de no determinación cercano a 0%.

2. REGRESIÓN Y CORRELACIÓN LINEAL La función de regresión lineal es una función matemática que permite mostrar la relación de causalidad que existe entre las variables, mediante la relación: y = a + b x donde: a = Ordenada al origen. b = Pendiente de la recta. Ejemplo Una familia quiere determinar una función que le permita estimar su consumo (de un artículo específico) en base a sus ingresos. Para ello reunió la siguiente información (ver tabla 10.2.1): Sea:

yi = consumo en unidades xi = ingreso en decenas de Bs. 267

Tabla 10.2.1 Bidimensional consumo vs. ingresos xi 15 20 25 32 38

yi 18 21 24 27 35

Fuente: Elaboración propia a) Halle la función de regresión y determine su correlación. b) ¿Cuánto gastaría la familia si su ingreso es de 42, 50 y 87 decenas de Bs.? El procedimiento que se sigue para determinar dicha función de regresión es: 1er Paso. Definir el diagrama de dispersión o nube de puntos que permite establecer la naturaleza de la función matemática existente entre los datos cuya relación se busca (ver gráfico 10.2.1). Gráfico 10.2.1 Diagrama de dispersión del consumo vs. ingresos 40

Consumo

35 30 25 20 15 15

20

25

32

38

Ingreso

Fuente_ Elaboración propia La nube de puntos sugiere una línea recta de la forma: y = a + bx . Se tiene el caso de una regresión "y en x" ("consumo función ingreso"). 2do Paso. Se aplica el método de mínimos cuadrados, minimizando z =

n

∑ (y

i

− y e )2 , siendo

i =1

y e = a + bx , donde yi, xi son datos, a y b son parámetros a determinar. Derivando parcialmente n

∑ (y

i

− y e ) 2 respecto de a y b, e igualando a cero se obtiene el sistema de ecuaciones

i =1

normales, que permiten hallar el valor de dichos parámetros. 268

Dichas ecuaciones son:

∑ y = na + b∑ x ∑ x y = a ∑ x + b∑ x i

i

i

i

i

2 i

cuando el par (xi , yi) no se repite. Despejando las constantes a y b, de las anteriores ecuaciones se tiene:

b=

n ∑ xy − ∑ x ∑ y n∑ x 2 − ( ∑ x )

a=

2

∑ y − b ∑ x = y − bx n

n

Si se repiten (cuadro bidimensional), las ecuaciones normales son:

∑ y n = na + b∑ x n ∑ x y n = a ∑ x n + b∑ x n i

i

i

i

i

i

i

i

i

2 i

i

3er Paso. Se calcula a y b, parámetros de la función de regresión (ver tabla 10.2.2): • Se calcula (xi * yi) y (xi2) en columnas (3) y (4) respectivamente. Tabla 10.2.2 Cálculo de la recta de regresión del consumo vs. ingresos xi

yi

xi * y i

xi2

ye

( yi − y )

( ye − y )

15 20 25 32 38 130

18 21 24 27 35 125

270 420 600 864 1330 3484

225 400 625 1024 1444 3718

17 21 24 29 33

49 16 1 4 100 170

64 16 1 16 64 161

2

2

Fuente: Elaboración propia Reemplazando valores en las fórmulas:

b=

5(3848) − 130(125) = 0.69 5(3718) − (130) 2

a=

125 130 − (0.69) = 25 − (0.69)(26) = 7 5 5

Luego, y = 7 + 0.69x , que es la función de regresión. 4to Paso. Dado y = 7 + 0.69x , se estima cuanto gastaría la familia si el ingreso es 42, 50 y 87 decenas de Bs. 269

• Reemplazando los valores en la función de regresión:

y = 7 + (0.69)(42) = 36 y = 7 + (0.69)(50) = 42 y = 7 + (0.69)(87) = 67 La familia gastaría 36, 42 y 67 decenas de Bs. si su ingreso es de 42, 50 y 87 decenas de Bs., respectivamente. Sin embargo, no se puede saber aún si el pronóstico realizado es confiable. Para ello, se debe realizar el análisis de correlación. La correlación se determina mediante los siguientes cálculos:

∑ y i 125 = = 25 n 5 2) Calcule (yi − y) 2 en columna (6). 1) Halle y : y =

3) Calcule (y e − y) 2 en columna (7). 4) Reemplace los valores hallados para calcular el coeficiente de correlación: 2

2

Sy =

∑ ( yi − y ) 170 = = 34 n 5 r=

S2ye =

∑ ( y e − y ) 2 161 = = 32.2 n 5

32.2 1.8 = 1− = 0.973 34 34

Conclusión: Como r = 0.97, se puede decir que existe alta correlación positiva entre "x" y "y" o una relación intensa directa entre el ingreso y el consumo. • El coeficiente de determinación será el siguiente:

r 2 = 0.947 Conclusión: Se puede concluir que el 94.7% de la variación en el consumo se explica por la variación en el ingreso y un 5.3% se explica o se debe a otras variables no consideradas. Por lo tanto, se puede decir que la estimación realizada a partir de la ecuación de regresión hallada es bastante confiable. Nota: Una fórmula alternativa para hallar la correlación, sólo en el caso lineal, es:

r=

Covarianza Sxy = Sx *Sy Desviación estándarx * Desviación estándary

270

r=

n ∑ xy − ∑ x ∑ y  n x 2 − ( x )2   n y 2 − ( y )2  ∑   ∑ ∑   ∑

3. REGRESIÓN Y CORRELACIÓN LINEAL MÚLTIPLE Los datos de cualquier problema de regresión múltiple que contemplen dos variables independientes, se ajustarán a una ecuación de este tipo:

y = a + b x1 + c x 2 donde: a, b, c, son parámetros a calcular mediante el análisis de regresión. x1 y x2, son las variables independientes y, es la variable dependiente. Según mínimos cuadrados, se tendrá que minimizar la siguiente expresión:

Min : Z = ∑ (Y − a − bx1 − cx 2 ) 2 Las ecuaciones que resultan son las siguientes:

 na + b ∑ x1 + c∑ x 2 − ∑ y = 0  2 a ∑ x1 + b∑ x1 + c∑ x1x 2 −∑ x1 y = 0  2 a ∑ x 2 + b∑ x1x 2 + c∑ x 2 −∑ x 2 y = 0 Ejemplo Una compañía desea estimar el monto a pagar a sus ejecutivos en base a su edad y al número de años que estudiaron en la universidad. Para ello obtuvo la siguiente información histórica (ver tabla 10.3.1): • x = Edad de los ejecutivos de una compañía 1 • x = No. de años que estuvieron en la Universidad 2 • y = Ingresos anuales (miles de $).

271

Tabla 10.3.1 Ingresos vs edad y años de estudio de ejecutivos x1 37 45 38 42 31

x2 4 0 5 2 4

y 51.2 46.8 55.0 50.3 45.4

Fuente: Mason y Lind. Estadística para Administración y Economía, 1995. a) Ajuste los datos a una ecuación polinomial. b) Estime cuánto ganará en promedio un ejecutivo recién contratado por la compañía, si tiene 40 años de edad y estuvo 4 años en la Universidad. Resolución Los cálculos nos llevan a los siguientes resultados (ver tabla 10.3.2): Tabla 10.3.2 Cálculo de la ecuación de regresión de Ingresos vs edad y años de estudio de ejecutivos x1

x2

y

37 4 51.2 45 0 46.8 38 5 55.0 42 2 50.3 31 4 45.4 193 15 248.7

x12

x1*x2

x1*y

x22

x2*y

1369 2025 1444 1764 961 7563

148 0 190 84 124 546

1894.4 2106.0 2090.0 2112.6 1407.4 9610.4

16 0 25 4 16 61

204.8 0 275.0 100.6 181.6 762.0

ye

( y i − y )2

( y e − y )2

51.1770 2.1316 46.9618 8.6436 55.1135 27.6676 50.0303 0.3136 45.4116 18.8356 57.5920

2.0650 7.7184 28.8745 0.0843 18.7350 57.4772

Fuente: Elaboración propia Reemplazando los valores hallados en el sistema de ecuaciones:

5 a + 193 b + 15 c = 248.7 193 a + 7563 b + 546 c = 9610.4 15 a + 546 b + 61 c = 762

a = 3.7213 b = 0.9609 c = 2.9756

La ecuación de regresión múltiple es:

y = 3.7213 + 0.9609 x1 + 2.9756 x 2 Luego se realizan los cálculos para el análisis de correlación:

S 2ye = 11.4954

S 2y = 11.5184 272

Los coeficientes de correlación y determinación son:

r 2 = 0.9980

r = 0.9990 Conclusión.

Se puede concluir que existe una relación intensa (casi perfecta) entre la edad de los ejecutivos, el número de años que estudiaron en la universidad y sus ingresos anuales. Además que el 99.8% de la variación en sus ingresos está explicada por la variación de su edad y su formación académica. Por lo tanto la estimación que realizará la compañía de los ingresos del nuevo ejecutivo es muy confiable:

y = 3.7213 + 0.9609 (40) + 2.9756 (4) = 54060 El nuevo ejecutivo ganará 54060 $us anuales.

4. REGRESION Y CORRELACIÓN NO LINEAL Se determinó que aplicando mínimos cuadrados a la función lineal: y = a + b x, las ecuaciones normales eran:

∑ y = na + b∑ x ∑ x y = a ∑ x + b∑ x i

i

i

i

i

2 i

Este hecho servirá para hallar las ecuaciones para modelos no lineales sencillos. Si la función es:

y = a bx

(función exponencial)

Aplicando logaritmos: ln y = ln a + x ln b , las ecuaciones normales son:

∑ ln y = n ln a + ln b∑ x ∑ x ln y = ln a ∑ x + ln b∑ x i

i

i

Si la función es:

y = a xb

i

i

2 i

(función potencial)

Aplicando logaritmos: ln y = ln a + b ln x , las ecuaciones normales son:

∑ ln y = n ln a + b∑ ln x ∑ ln x ln y = ln a ∑ ln x + b∑ ( ln x ) i

i

i

i

i

2

i

Las ecuaciones de regresión para el modelo parabólico: y = a + bx + cx 2 , son: 273

∑ y i = a n + b∑ x i + c∑ x i2  3 2 ∑ x i y i = a ∑ x i + b ∑ x i + c∑ x i  2 2 3 4 ∑ x i y i = a ∑ x i + b∑ x i + c∑ x i Nota: El lector, a través de los mínimos cuadrados puede determinar las ecuaciones de regresión para cualquier función que sea más adecuada a los datos experimentales. Ejemplo Las cifras de la tabla 10.4.1 son datos sobre el porcentaje de las llantas radiales producidas por cierto fabricante que aun pueden usarse después de recorrer cierto número de millas: Tabla 10.4.1 Porcentaje útil de llantas vs. millas recorridas Millas Porcentaje recorridas útil (miles) 1 98.2 2 91.7 5 81.3 10 64.0 20 36.4 30 32.6 40 17.1 50 11.3 Fuente: Mason y Lind. Estadística para Administración y Economía, 1995. Ajuste a una curva exponencial y estime qué porcentaje útil tendrán las llantas radiales del fabricante si recorrieron 25000 millas. Resolución Primero se verifica si la nube de puntos sugiere una regresión exponencial (ver gráfico 10.4.1).

Gráfico 10.4.1 Diagrama de dispersión del Porcentaje útil de llantas vs. millas recorridas

274

120 100

% Útil

80 60 40 20 0 0

10

20

30

40

50

60

Millas recoridas

Fuente: Elaboración propia Claramente se ve una tendencia exponencial inversa. Los cálculos son los siguientes (ver tabla 10.4.2): Tabla 10.4.2 Cálculo de la ecuación de regresión del porcentaje útil de llantas vs. millas recorridas x

y

ln y

x2

x*ln y

ye

( y i − y )2

( y e − y )2

1 2 5 10 20 30 40 50 158

98 92 81 64 36 33 17 11 433

4.587 4.519 4.398 4.159 3.595 3.484 2.839 2.425 30.005

1 4 25 100 400 900 1600 2500 5530

4.59 9.04 21.99 41.59 71.89 104.53 113.56 121.24 488.43

96.024 91.946 80.721 64.975 42.098 27.276 17.672 11.450

1947.02 1415.64 741.20 98.51 312.41 461.18 1367.15 1829.70 8172.80

1759.73 1434.20 710.01 118.81 143.45 718.20 1325.15 1816.88 8026.44

Fuente: Elaboración propia Reemplazando los valores hallados en el sistema de ecuaciones:

8 A + 158 B = 30.005 158 A + 5530 B = 488

A = 4.608 B = −0.043

y = 100.28 (0.9575)x La ecuación resultante es: Realizando el análisis de correlación:

S 2ye = 1003.3

S 2y = 1021.6 275

a = 100.28 b = 0.9575

r 2 = 0.9821

r = 0.9910 Conclusión.

Se concluye que existe una relación intensa entre las millas recorridas y el porcentaje útil que aun tienen las llantas. El 98.21% de la variación en el porcentaje útil se debe a la variación en las millas recorridas por las llantas. Por lo tanto, la estimación que se realizará mediante la ecuación de regresión hallada es confiable.

y = 100.28 (0.9575) 25 = 33.86 El porcentaje útil de las llantas luego de recorrer 25000 millas será de 33.86%

276

EJERCICIOS DE CLASE Regresión lineal 1. La tabla siguiente suministra las cifras aproximadas del censo de los Estados Unidos (en millones) para los 48 estados adyacentes en la primera mitad del siglo XX : Año Población

1900 75

1910 91.97

1920 105.7

1930 122.78

1940 131.7

1950 178.5

Use esta recta para "predecir" la población en 1970. (La población real de los 48 estados adyacentes era aproximadamente 200 millones en 1970. Encuentre los coeficientes de correlación y de determinación y exprese su significado. Regresión lineal múltiple 2. Usted como gerente de marketing está intentando predecir la demanda anual de su producto estrella “Tapun”, utilizando las siguientes variables: Precio = Precio del producto [$], Ingreso = Ingreso del consumidor [cientos de $]. Usted recopiló datos correspondientes al período 1982 - 1992: Año 1982 1983 1984 1985 1986

Demanda 60 70 65 65 75

Precio 7 6 6 8 5

Ingreso 8 9 10 11 12

a) Encuentre la ecuación de regresión que mejor se ajuste a los datos, los coeficientes de determinación y correlación, e interprételos. b) ¿Qué valor de demanda predeciría si el precio de los productos fue de 6 $ y el ingreso del consumidor de 1200 $?. Regresión no lineal 3. Los datos siguientes son los beneficios netos de una compañía durante los primeros seis años que ha operado. Año 1 2 3 4 5 6

Beneficio (miles de $) 112 149 238 354 580 867

Pronostique el beneficio neto de la compañía para el octavo año que habrá operado en el negocio, si los datos se ajustan a una función exponencial. 277

4. Los siguientes son datos relacionados con el volumen de un gas (en pulgadas cúbicas) y su presión (en libras por pulgada cuadrada), cuando el gas está comprimido a una temperatura constante. Volumen 50 30 20 10 5

Presión 16.0 40.1 78.0 190.5 532.2

Ajuste a una función potencial y estime la presión de este gas cuando está comprimido a un volumen de 15 pulgadas cúbicas.

278

EJERCICIOS PROPUESTOS 1. Se llevó a cabo un proyecto de investigación para determinar si existe alguna relación entre los años de servicio y las puntuaciones de eficiencia de empleados. El objetivo del estudio es pronosticar la puntuación de eficiencia de un empleado con base en su tiempo de servicio. Los resultados muestrales son: Empleado Jones Orlando Ireland Smith Kordel Harper Lopez Sobecki

Años de servicio 1 20 6 8 2 1 15 8

Tasa de eficiencia 6 5 3 5 2 2 4 3

a) Trace un diagrama de dispersión y determine la ecuación de regresión. c) Para 8 años de servicio, ¿cuál es la tasa de eficiencia pronosticada? 2. En el departamento de producción de una empresa, se desea examinar la relación entre el número de empleados que arman un subensamble y el número de subensambles producidos. Como experimento, a dos empleados se les asignó armar el subensamble. Produjeron 15 durante un período de una hora. Después se dedicaron a armarlo cuatro empleados. Produjeron 25 subensambles durante un período de una hora. El conjunto completo de pares de observaciones es como sigue. Número de operarios 2 4 1 5 3

Producción en una hora (unidades) 15 25 10 40 30

La variable dependiente es la producción; esto es, se considera que el nivel de producción depende del número de personas que participan en el armado. a) Trace un diagrama de dispersión. b) Con base en el diagrama, ¿parece haber alguna relación entre el número de personas que realizaron el armado y la producción? Explique la respuesta. c) Determine la ecuación de regresión. d) Contando con tres ensambladores, ¿cuál es la producción pronosticada por hora? e) Determine tres puntos cualesquiera de la recta y trácela en el diagrama de dispersión. f) Determine el coeficiente de correlación y evalúe la intensidad de la relación. g) Determine el coeficiente de determinación e interprételo.

279

3. Determine si existe dependencia entre la cantidad de lluvia y los grados de temperatura en base a las siguientes observaciones: Temperatura (grados) 20.8 15.6 23.9 24.2 25.0 10.3 15.2 17.2 20.1 15.1

Lluvia (litros por m2) 14.1 10.2 8.3 30.3 32.5 21.4 34.0 18.6 19.0 22.7 4. Los valores de x e y son los siguientes: X: Y:

2 1

3 2

4 3

5 3

6 6

a) Calcule el coeficiente de correlación. b) Multiplique por 2 los valores de X y por 3 los de Y, y calcule seguidamente el coeficiente de correlación correspondiente a estas dos nuevas series. c) Comente el resultado. 5. La siguiente tabla da el número de calzado y los pesos de 55 estudiantes. Con estos datos estudie la interdependencia lineal entre ambas variables. Peso (kg) 55 60 65 70 75 80 85 1 3 3 4 3 4 6 1 8 8 7 2 2 1 2

N° calzado 39 40 41 42 43 44

6. Dados los valores observados de las tres variables Y, X1, X2, halle la ecuación de regresión y el coeficiente de determinación correspondiente. Y X1 X2

2 2 7

3 3 6

4 4 8

3 4 7

1 1 5

7. Los datos siguientes se refieren a la demanda de un producto (en miles de unidades) y su precio (en centavos) tomado de 5 diferentes centros comerciales: Precio 20

Demanda 22 280

16 10 11 14

41 120 89 56

Ajuste mediante una curva potencial y emplee para estimar la demanda, el precio del producto de 12 centavos. 8. Los datos siguientes se refieren a las dosis de rayos cósmicos medidas a varias altitudes: Altitud (pies) 50 450 780 1200 4400 4800 5300

Razón de dosis (mrem/año) 28 30 32 36 51 58 69

a) Ajuste los datos a una curva exponencial. b) Estime la dosis media a una altitud de 3000 pies.

281

EJERCICIOS PARA EXAMEN 1. Halle la ecuación de regresión para el precio del producto B, a partir de los siguientes datos que obtuvo la empresa de una encuesta: qA 5 1 1 3

qB 5 2 4 1

pB 20 19 17 22

a) Realice en análisis de correlación para determinar si la función hallada dará pronósticos confiables. b) Pronostique cuál sería el precio de B, si se demandan 4 unidades de A y 2 unidades de B. 2. La organización de las Naciones Unidas (ONU) proporcionó los siguientes valores de las tasas anuales de nacimientos y suicidios para los países seleccionados. País Australia Checoslovaquia Finlandia Alemania Oriental Italia México Polonia Singapur España EEUU

Tasa de nacimiento (por millar de hab.) 15.7 18.4 13.5 13.9 12.5 35.3 19.0 17.0 17.2 15.3

Tasa de suicidios (por millar de habitantes) 11.1 12.9 25.1 30.5 5.8 2.1 12.1 11.3 4.0 12.7

a) Trace un diagrama de dispersión. Determine la ecuación de regresión. b) Grafique la ecuación de regresión en el diagrama de dispersión. c) Pronostique la tasa de suicidios para un país que tenga una tasa de nacimientos de 15.0 por millar de habitantes. d) Determine la intensidad de la relación entre las dos variables. Determine la proporción de la variación de la tasa de suicidios que se debe a la variación de la tasa de nacimientos. 3. Durante los últimos 4 años, un funcionario de la oficina de admisiones de un centro de estudios superiores ha reunido los siguientes datos (medidos en unidades de 1000) que relacionan el número de catálogos del centro de estudios superiores solicitados por estudiantes de enseñanza media hasta el primero de diciembre con el número de formularios diligenciados y recibidos hasta el primero de marzo: catálogos solicitados formularios recibidos

4.5 1.0

a) Represente estos datos en una gráfica. 282

3.5 0.8

4.0 1.0

5.0 1.5

b) Emplee mínimos cuadrados para predecir el número de formularios diligenciados que recibirán hasta el primero de marzo si se han solicitado 4800 catálogos hasta el primero de diciembre. 4. Los datos siguientes son los tiempos de secado de un barniz y la cantidad de cierto aditivo químico. Cantidad de aditivo (gramos) 1 2 3 4 5 6 7 8

Tiempo de secado (horas) 7.2 6.7 4.7 3.7 4.7 4.2 5.2 5.7

a) Realice el diagrama de dispersión y ajuste los datos a la curva que mejor crea conveniente. b) Pronostique el tiempo de secado del barniz, cuando se agregan 6.5 gramos del químico.

283

CASO DE ESTUDIO SPRINGVILLE HERALD FASE 7 En la implantación de la estrategia corporativa de aumentar las ventas de entrega a domicilio, el departamento de mercadotecnia debe trabajar de cerca con el de distribución para lograr que funcione el proceso inicial de entrega para los clientes de prueba. Esto es importante para asegurar que el mayor número posible de clientes de prueba se conviertan en clientes permanentes, ya que se creará una impresión negativa fuerte si ocurren problemas durante la primera semana de reparto. Como parte de su responsabilidad en el proceso, es esencial para el departamento de mercadotecnia poder pronosticar el número de suscriptores en los próximos meses. Un equipo formado por administradores de los departamentos de mercadotecnia y distribución, convino en desarrollar un método mejor para pronosticar las nuevas suscripciones. Melissa Hogue, jefa de mercadotecnia, pidió a Lauren may, especialista en pronósticos de mercado, que propusiera algunas ideas acerca de los métodos de pronósticos que se podían usar. Lauren, recién contratada en la compañía por sus habilidades especiales en métodos de pronóstico cuantitativos, preguntó al equipo cómo se habían hecho los pronósticos de las nuevas suscripciones en el pasado. Al Baum, un miembro del equipo, respondió que por lo común, después de examinar las nuevas suscripciones de los dos o tres meses anteriores, un grupo de administradores desarrollaba un pronóstico por consenso. Lauren preguntó si alguien había intentado determinar qué factores podían ser útiles para predecir las nuevas suscripciones cada mes. Todos contestaron que los pronósticos en el último año habían sido bastante inexactos, porque unos meses se realizaba un gran esfuerzo de ventas por teléfono y otros la dedicación era menor. Lauren sugirió que se obtuvieran los datos de los dos últimos años de los registros de la compañía. En particular estaba interesada en conocer el número de nuevas suscripciones y el número de horas dedicadas a ventas por teléfono cada mes. La siguiente tabla indica el número de nuevas suscripciones para el mes y el número de horas dedicadas a ventas por teléfono. Ejercicios a) ¿Qué crítica puede hacer al método de pronósticos que consistía en examinar las nuevas suscripciones de los últimos 3 meses como base para las proyecciones futuras? b) ¿Qué factores, además del número de horas de venta por teléfono pueden ser útiles para predecir el número de suscripciones? c) Analice los datos y desarrolle un modelo estadístico para predecir el número de nuevas suscripciones para un mes, con base en el número de horas dedicadas a la venta por teléfono para lograrlas. Escriba un informe con todos los detalles de lo que encontró respecto al modelo que se ajustó a los datos. d) Si se espera que se dediquen 1000 horas de ventas por teléfono en el siguiente mes, pronostique el número de nuevas suscripciones esperadas para el mes. Indique la suposición en la que se basa este pronóstico. ¿Piensa que estas suposiciones son válidas? e) ¿Cuál sería el peligro de predecir el número promedio de nuevas suscripciones para un mes en que se dedican 2000 horas a las ventas por teléfono? Explique. Tabla SH2.5 284

Número de nuevas suscripciones y número de horas dedicadas a ventas por teléfono por mes para un periodo de dos años

Periodo 1 2 3 4 5 6 7 8 9 10 11 12

Horas de ventas por teléfono 1224 1458 1006 1395 1131 921 704 1154 1168 803 830 981

Nuevas Periodo suscripciones 5357 6177 4795 5692 4312 3421 2624 4087 4934 2546 3591 4271

13 14 15 16 17 18 19 20 21 22 23 24

Horas de ventas por teléfono 1435 1349 965 985 1117 840 1412 940 1090 1498 1240 1055

Nota: No siga adelante hasta terminar los ejercicios de la fase 7.

285

Nuevas suscripciones 5836 5201 3775 3592 4566 2974 5673 3554 4399 6143 4827 5418

CAPÍTULO 11 SERIES CRONOLÓGICAS 1. INTRODUCCIÓN Una serie temporal es un conjunto de valores correspondientes a una variable, observados en el tiempo. La serie cronológica se considera como una estadística de dos variables donde una de ellas es el tiempo (variable independiente) y la otra los valores de la variable observada (variable dependiente). Debido a que las condiciones económicas y comerciales varían con el tiempo, los administradores deben encontrar formas para mantenerse al día respecto a los efectos que esos cambios tendrán en sus negocios. Una técnica muy útil en la planeación de las necesidades operativas es el pronóstico, que tiene como objetivo predecir los eventos futuros de manera que las proyecciones se puedan incorporar en el proceso de toma de decisiones. Como ejemplos, se citan algunos: •







Los funcionarios del gobierno pronostican aspectos como el desempleo, inflación, producción industrial e ingresos esperados de los impuestos personales y corporativos para formular las políticas. Los ejecutivos de mercadotecnia pronostican la demanda de un producto, ingresos por ventas, preferencias el consumidor, inventarios, etc., a fin de tomar decisiones oportunas respecto a sus operaciones futuras y realizar una buena planificación estratégica. Los directores de una línea área deben pronosticar el uso de necesidades con base en el número de vuelos, empleados y pasajeros, para mantener un inventario de refacciones de reemplazo para su flota de aviones. La administración de una universidad debe ser capaz de pronosticar la inscripción de estudiantes, de acuerdo con las proyecciones nacionales de población y las tendencias de la enseñanza según los desarrollos tecnológicos, para planear la construcciones de dormitorios y otras instalaciones académicas, el reclutamiento de estudiantes y profesores, etc.

Los tipos de métodos de pronósticos son: cualitativo y cuantitativo. Los métodos de pronóstico cualitativos son importantes, en especial cuando no se dispone de datos históricos, como sería el caso de un departamento de finanzas que desea pronosticar los ingresos de una nueva compañía. Estos métodos se consideran altamente subjetivos o basados en la opinión y son: el método de enumeración de factores, la opinión de expertos y le técnica Delphi. Los métodos de pronóstico cuantitativos utilizan los datos históricos. La meta es estudiar lo que ocurrió en el pasado para entender mejor la estructura fundamental de los datos y proporcionar los medios necesarios para predecir los sucesos futuros. 286

2. COMPONENTES DE LAS SERIES TEMPORALES Los valores en el tiempo son resultado de un conjunto de fuerzas o factores que actúan sobre el fenómeno en estudio. Estas fuerzas pueden ser agrupadas en cuatro grandes componentes: • Tendencia secular (T): Es el comportamiento promedio de la serie temporal. Es la dirección predominante de la serie observada en un espacio de tiempo suficientemente amplio. • Variación estacional o periódica (E): Permite comprender las influencias de las estaciones o de otros períodos del año sobre los valores de la variable, que generalmente se dan en fenómenos económicos, como por ejemplo las series de producción de productos agrícolas, ventas de grandes empresas, aumento de casos de gripe en invierno, etc. • Variaciones cíclicas (C): Son propias de las variables económicas. Permiten comprender las oscilaciones que aparecen a lo largo de la tendencia secular y que abarcan a intervalos de tiempo superiores a un año. Difieren en intensidad y amplitud, pero generalmente duran de 2 a 10 años o más, de acuerdo al ciclo de un negocio. • Variaciones accidentales o irregulares (A): Son manifestaciones que corresponden a situaciones esporádicas o eventuales que influyen en los valores de la variable y dan lugar a un movimiento brusco en la trayectoria de la serie temporal. Son movimientos accidentales y aleatorios, como ser: una helada en el campo, una política pasajera de dumping, la entrada de un número extraordinario de turistas, etc. Este conjunto de fuerzas que actúan sobre los valores de las variables, no tienen una manera esclarecida, por lo cual se elaboran hipótesis sobre dicha forma de acción:

y = T x E xCx A y = T+E+C+A

Hipótesis multiplicativa: Hipótesis aditiva: Gráficamente (ver gráfico 11.2.1):

Gráfico 11.2.1 Serie cronológica con sus 4 componentes

y

t 287

Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadística Descriptiva, 1965. donde: La recta nos muestra la tendencia lineal de la serie: La curva cíclica de período corto las variaciones estacionales: La curva cíclica de período largo la variación cíclica: Las puntas asistemáticas las variaciones accidentales: Los gerentes, industriales e investigadores están muy interesados en predecir los cambios que pueden darse con respecto al tiempo de toda una serie de variables que manejan, porque constituyen una parte muy importante en la toma de decisiones que deben realizar. La calidad de las predicciones que los investigadores pueden efectuar está estrechamente relacionada con la información que se puede extraer y la manera de utilizarla. El análisis de series temporales es un método cuantitativo que se utiliza para determinar patrones en los datos recolectados a través del tiempo, para luego proyectarlos al futuro. La tabla 11.2.1 muestra un resumen de los cuatro componentes principales de una serie de tiempo: Tabla 11.2.1 Características de los 4 componentes de una serie temporal Componente (Clasificación) T (Sistemático) E (Sistemático)

C (Sistemático)

A (No sistemático)

Definición

Patrón de movimiento global o persistente, a largo plazo. Fluctuación más o menos regular que ocurre en cada periodo de 12 meses cada año.

Razón de la influencia

Duración

Cambios en tecnología, Varios años población, riqueza, valores. Condiciones de clima, Dentro de 12 costumbres sociales o religiosas. meses (O datos mensuales o trimestrales). Interacción de numerosas De 2 a 10 años, diferente combinaciones de factores que con intensidad en un influyen en la economía. ciclo completo.

Oscilación o movimiento repetitivo arriba o abajo en 4 etapas: Pico (prosperidad), contracción (recesión), fondo (depresión) y expansión (recuperación o crecimiento) Fluctuación errática o residual Variaciones aleatorias en los Corta duración y presente después de tomar en datos o debidas a eventos no sin repetición. cuenta los efectos sistemáticos. previstos como huelgas, huracanes, inundaciones, asesinatos políticos, etc.

Fuente: Berenson – Levin – Krehbiel. Estadística para administración, 2000.

3. DETERMINACIÓN DE LOS COMPONENTES DE UNA SERIE CRONOLÓGICA 3.1. Tendencia secular 288

Existen cuatro métodos para la determinación de la tendencia secular. a) Método de los puntos medios Es un método gráfico que se efectúa de la siguiente manera: • Dada la representación gráfica de la serie de tiempo, se dibuja la línea de los puntos máximos y otra de los puntos mínimos, uniendo entre sí con líneas quebradas los máximos y los mínimos de la serie, respectivamente. • Utilizando ambas líneas superior e inferior, se toman en las perpendiculares los puntos medios. • La línea que se forma uniendo dichos puntos medios es la tendencia. Gráfico 11.3.1 Cálculo de la tendencia secular por le método de puntos medios

y

t Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadística Descriptiva, 1965 donde: Serie observada: Máximos y mínimos: Tendencia: b) Método de las medias móviles Este método busca diluir la importancia individual de cada observación, promediándola mediante una media aritmética, considerando las observaciones. Cada valor observado de y, es sustituido por una media aritmética, que se obtiene por valores componentes de y, en grupos de un número determinado de valores y aplicados mecánicamente. Se presentan dos casos, según el número de observaciones elegidas para calcular el promedio sea par o impar. Ejemplo a) Sea la siguiente serie temporal. En caso de considerar un grupo impar de valores (ver tabla 11.3.1). 289

Tabla 11.3.1 Método de la media móvil considerando grupo impar t

y

0 1 2 3 4 5 6 7

yo y1 y2 y3 y4 y5 y6 y7

y y1 y2 y3

y4 y5

y ~ y2 ~ y3 ~ y4 ~ y5

y6

Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadística Descriptiva, 1965 (Se han tomado aquí medias móviles de tamaño 3) Observe que siempre quedarán sin determinar algunos valores de la media móvil al principio y al final de la serie.

y o + y1 + y 2 3 y +y +y y2 = 1 2 3 3 y1 =

y + y2 + y3 ~ y2 = 1 3

:

y6 =

:

y5 + y6 + y7 3

y + y5 + y6 ~ y5 = 4 3

El método se vuelve a usar tantas veces como sea posible, hasta suavizar la tendencia secular de manera adecuada o que satisfaga los objetivos de la investigación realizada. b) En caso de considerar un grupo par (ver tabla 11.3.2.). En este caso es necesario volver a calcular otra nueva serie de medias móviles de tamaño dos sobre la hallada primeramente, con el objeto de centrar los datos en los momentos originales, ya que al calcularse la primera serie, dichos momentos quedaron desplazados con respecto al tiempo. y2 =

y o + y1 + y 2 + y 3 4 y + y3 ~ y( 2 = 2 2

y3 =

y1 + y 2 + y 3 + y 4 4 y + y4 ~ y3 = 3 2

y6 =

y4 + y5 + y 6 + y7 4

290

Tabla 11.3.2 Método de la media móvil considerando grupo par t

y

0

yo

1

y1

2

Y2

y

y2 y3

3

Y3 y4

4

Y4

5

Y5

6

Y6

7

Y7

y5

y

~ y2 ~ y3 ~ y4 ~ y5

y6

Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadística Descriptiva, 1965 c) Método de las dos medias Se procede del siguiente modo: • Se separan las observaciones en dos grupos. • Es preferible que sean del mismo número de elementos. • Se calcula la media aritmética de cada uno de los grupos. Así se obtiene dos puntos. • La tendencia secular es la línea que pasa por dichos puntos. Algebraicamente se determina por la expresión punto pendiente:

y=

y 2 − y1 (x − x1 ) + y1 x 2 − x1

d) Método analítico Una tendencia secular puede hallarse mediante un análisis de regresión, pudiendo comportarse bajo cualquier modelo visto en el capítulo anterior, con la particularidad de que la variable independiente es siempre el tiempo. Aplicando mínimos cuadrados a: y = a + bt

(función lineal) 291

Las ecuaciones normales son:

∑ yi = n a + b∑ t i  2 ∑ yi t i = a ∑ t i + b∑ t i que es un sistema de 2 ecuaciones con las incógnitas a y b. Si la función es:

y = a bt

(función exponencial)

Aplicando logaritmos: ln y = ln a + t ln b Las ecuaciones normales son:

∑ ln yi = n ln a + ln b∑ t i  2 ∑ ln yi t i = ln a ∑ t i + ln b∑ t i Si la función es:

y = a tb

(función potencial)

Aplicando logaritmos: ln y = ln a + b ln t

Las ecuaciones normales son:

∑ ln y i = n ln a + b∑ ln t i  2 ∑ ln y i ln t i = ln a ∑ ln t i + b∑ (ln t i ) Nota: La tendencia secular puede seguir la forma de cualquier función. En todo caso, el investigador deberá determinar la curva que mejor se ajuste a los datos temporales. Ejemplo La tabla 11.3.3 presenta las ventas mundiales anuales de una fábrica (en millones de unidades) de automóviles, camiones y autobuses hechos por la General Motors para un periodo de 24 años, de 1975 a 1998. a) Halle la tendencia secular por medio del método de medias móviles, usando un valor de n=7. b) Determine la tendencia secular por el método analítico.

292

Tabla 11.3.3 Ventas mundiales anuales de la General Motors Año Ventas 1975 6.6 1976 8.6 1977 9.1 1978 9.5 1979 9.0 1980 7.1 1981 6.8 1982 6.2

Año Ventas 1983 7.8 1984 8.3 1985 9.3 1986 8.6 1987 7.8 1988 8.1 1989 7.9 1990 7.5

Año Ventas 1991 7.4 1992 7.7 1993 7.8 1994 8.4 1995 8.3 1996 8.4 1997 8.8 1998 8.1

Fuente: Berenson – Levin – Krehbiel. Estadística para administración, 2000. Resolución Para determinar la tendencia por medio de las medias móviles con n=7, calculamos la primera media con las ventas de los primeros 7 años.

y1 =

6.6 + 8.6 + 9.1 + 9.5 + 9.0 + 7.1 + 6.8 = 8. 1 7

La siguiente es determinada, dejando el valor de venta del primer año, y tomando en cuenta las ventas de los años 2 al 8:

y2 =

8.6 + 9.1 + 9.5 + 9.0 + 7.1 + 6.8 + 6.2 = 8.04 7

Se sigue el mismo procedimiento hasta cubrir las ventas de los últimos 7 años. Para determinar la tendencia por medio del análisis de regresión, se elegirá el modelo lineal. Luego de todo el procedimiento, la recta de las ventas en función de los años es:

V = 7.9593 + 0.0075 t Los resultados se muestran en la tabla 11.3.4. Tabla 11.3.4 Promedios móviles de las ventas mundiales anuales de la General Motors Año

Año

Ventas

Medias móviles

Regresión

0 1 2

1975 1976 1977

6.6 8.6 9.1

-

7.96 7.97 7.97

293

3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998

9.5 9 7.1 6.8 6.2 7.8 8.3 9.3 8.6 7.8 8.1 7.9 7.5 7.4 7.7 7.8 8.4 8.3 8.4 8.8 8.1

8.10 8.04 7.93 7.81 7.79 7.73 7.83 8.01 8.26 8.21 8.09 7.86 7.74 7.83 7.86 7.93 8.11 8.21 -

7.98 7.99 8.00 8.00 8.01 8.02 8.03 8.03 8.04 8.05 8.06 8.06 8.07 8.08 8.09 8.09 8.10 8.11 8.12 8.12 8.13

Fuente: Berenson – Levin – Krehbiel. Estadística para administración, 2000. El gráfico 11.3.2 muestra la conveniencia de usar uno u otro método.

Ventas

Gráfico 11.3.2 Comparación de 2 métodos de cálculo de la tendencia secular de las ventas mundiales anuales de la General Motors 10.00 9.50 9.00 8.50 8.00 7.50 7.00 6.50 6.00 1970

1975

1980

1985

1990

Tiem po Recta de regresión Media Móvil Serie de Ventas

Fuente: Elaboración propia 294

1995

2000

3.2. Desestacionalización y determinación del índice de variación estacional Este método trata de aislar la variación estacional eliminando las otras componentes por medio del cociente o la división, tomando en cuenta la hipótesis multiplicativa. Deben ser eliminadas la tendencia secular y las variaciones accidentales. Cuando el período en estudio es corto, la variación cíclica puede suponerse incluida en la tendencia, por lo cual, al eliminarse ésta, queda también eliminada aquella. El método consiste en: • Dada la serie cronológica por meses, estaciones, trimestres, etc., en varios años, se halla la tendencia mediante el método de las medias móviles tomando un año de período (n tendrá el valor del número de periodos en los que se dividió el año). • Se centran los valores así obtenidos en los instantes de tiempo originales, si es que se utilizó un n par en el cálculo de las medias móviles. Si es que se utilizó un n impar, no es necesario centrar.

y=T xC • Se elimina la tendencia y la variación cíclica en ella incluida, dividiendo los datos de la serie original por los valores de la tendencia en cada instante de tiempo.

y=

TxExCxA =ExA TxC

• Se eliminan las variaciones accidentales hallando las medias aritméticas de los valores observados en cada período de repetición anual.

y=

ExA =E A

• Sobre estos últimos valores se calculan los índices de variación estacional, uno para cada momento de repetición anual, en forma de porcentajes. •

Los índices de variación estacional representan la fuerza de la componente estacional una vez eliminadas las otras tres componentes. Por consiguiente, eliminando por cociente la influencia de las estaciones en el fenómeno observado cronológicamente, obtendremos la serie correspondiente “desestacionalizada”.

y=

TxExCxA =T xCxA E

Ejemplo Sea los siguientes datos observados durante cuatro años sobre las ventas en miles, en cada 295

estación (ver tabla 11.3.5). Tabla 11.3.5 Serie temporal de ventas (miles de $) Estación Primavera Verano Otoño Invierno

año 1 2.0 2.2 2.4 2.8

año 2 2.4 2.8 3.0 3.4

año 3 2.6 3.0 3.4 3.8

año 4 3.0 3.6 3.8 4.0

Fuente: Elaboración propia Halle el índice de variación estacional (I.V.E.) y desestacionalice la serie. Se procede de la siguiente manera: er

1 Paso. Se halla la tendencia secular por el método de las medias móviles, tomando un año de período (n=4) (ver tabla 11.3.6). Tabla 11.3.6 Primer paso. Desestacionalización serie temporal de ventas Estación Primavera

año 1 -

año 2

año 3

año 4

2.75

3.10

3.55

Verano

2.35

2.90

3.20

3.60

2.45

2.95

3.30

-

2.60

3.00

3.45

-

Otoño Invierno

Fuente: Elaboración propia 2do Paso. Se centran los valores (ver tabla 11.3.7). Tabla 11.3.7 Segundo paso. Desestacionalización serie temporal de ventas Estación Primavera Verano Otoño Invierno

año 1 2.400 2.525

año 2 2.675 2.825 2.925 2.975

año 3 3.050 3.150 3.250 3.375

Fuente: Elaboración propia 296

año 4 3.500 3.575 -

3er Paso. Los datos corresponden a un corto plazo, por lo tanto la tendencia secular y la variación cíclica se eliminan juntas. Se elimina la tendencia y la variación cíclica, dividiendo los datos originales por los valores de la tendencia en cada intervalo de tiempo (ver tabla 11.3.8). Tabla 11.3.8 Tercer paso. Desestacionalización serie temporal de ventas Estación Primavera Verano Otoño Invierno

año 1 1.000 1.109

año 2 0.897 0.991 1.026 1.143

año 3 0.852 0.952 1.046 1.126

año 4 0.857 1.007 -

Fuente: Elaboración propia 4to Paso. Se elimina la variación accidental, hallando la media aritmética de los valores observados en el tiempo del paso anterior (ver tabla 11.3.9). Tabla 11.3.9 Cuarto paso. Desestacionalización serie temporal de ventas Estación

M.A. (promedio) 0.8687 0.9833 1.0240 1.1260 4.0020

Primavera Verano Otoño Invierno

Fuente: Elaboración propia 5to Paso. Se determinan los I.V.E.: Los promedios hallados no suman 4 exactamente, ya que se eliminaron varios decimales en los cálculos, así que para obtener los índices de variación estacional, se realiza una regla de tres simple de forma que su suma sea igual a los periodos en los que se dividió cada año (ver tabla 11.3.10). 4.002 ------> 4.000 0.8687 -----> IVEP Se realiza este cálculo para todos los valores:

IVE p =

0.8687(4) = 0.8683 4.002 297

0.9833(4) = 0.9828 4.002 1.024(4) IVE O = = 1.0235 4.002 1.126(4) IVE I = = 1.1254 4.002

IVE V =

Tabla 11.3.10 Quinto paso. Desestacionalización serie temporal de ventas Estación Primavera Verano Otoño Invierno

IVE 0.8683 0.9828 1.0235 1.1254 4.0000

Fuente: Elaboración propia 6to Paso. Se obtiene la serie desestacionalizada, dividiendo los datos originales de la serie entre el IVE respectivo para cada estación (ver tabla 11.3.11). Tabla 11.3.11 Sexto paso. Desestacionalización serie temporal de ventas Estación Primavera Verano Otoño Invierno

año 1 2.30 2.24 2.34 2.49

año 2 2.76 2.85 2.93 3.02

año 3 2.99 3.05 3.32 3.38

año 4 3.46 3.66 3.71 3.55

Fuente: Elaboración propia La gráfica de la serie cronológica, la tendencia secular y la serie desestacionalizada se muestra en el gráfico 11.3. 3 Se puede observar que la serie desestacionalizada muestra un patrón similar a la tendencia secular, indicando que la serie cronológica si presentaba un fuerte componente estacional, sobre todo en primavera e invierno. También se puede decir que la tendencia de las ventas es creciente en el periodo de 4 años mostrado.

298

Ventas

Gráfico 11.3.3 Serie temporal de ventas desestacionalizada 4 3.8 3.6 3.4 3.2 3 2.8 2.6 2.4 2.2 2 0

1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16

Tiempo Serie Cronológica Tendencia Secular Serie Desestacionalizada

Fuente: Elaboración propia

299

EJERCICIOS DE CLASE Tendencia secular Promedios móviles 1. El número de miembros de la planta docente de una universidad que son dueños de computadoras personales ha aumentado drásticamente en los últimos 6 años: Año N°

1987 50

1988 110

1989 350

1990 1020

1991 1950

1992 3710

Obtenga la tendencia secular por medio del método de medias móviles, tomando como periodo n = 2 y n = 3. Método analítico 2. Desarrolle una ecuación de estimación, que mejor describa a los datos de la pregunta 1 y estime el número de computadoras que habrá en uso en la universidad en 1996. Desestacionalización 3. La administración de un albergue para esquiadores tiene los siguientes datos acerca de la ocupación trimestral correspondientes a un periodo de 5 años. Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4 trimestre

1988 1861 2203 2415 1908

1989 1921 2343 2514 1986

1990 1834 2154 2098 1799

1991 1837 2025 2304 1965

1992 2073 2414 2339 1967

Para mejorar su servicio, la administración debe establecer un patrón por temporadas de la demanda de habitaciones. a) Desestacionalice la serie cronológica. b) Realice una predicción de la demanda de habitaciones para 1993.

300

EJERCICIOS PROPUESTOS 1. Las ventas de una determinada entidad comercial presentan el siguiente desarrollo: Año 1980 1981 1982 1983 1984 1985 1986

Ventas (miles $us) 240 340 370 410 520 530 560

Año 1987 1988 1989 1990 1991 1992 1993

Ventas (miles $us) 600 620 510 490 520 580 690

Halle la tendencia secular por el método de las medias móviles: a) Tomando un período de 3 años. b) Tomando un período de 5 años. 2. Dada la siguiente serie cronológica, hale su tendencia secular por el método de las medias móviles (3 años) y por el método analítico y comparar gráficamente los resultados obtenidos por ambos métodos. ti 1991 1992 1993 1994 1995

yi 19 21 17 15 14

ti 1996 1997 1998 1999 2000

yi 15 14 12 14 13

3. La siguiente tabla muestra la producción de energía eléctrica de consumo no industrial, en miles de kilovatios-hora, de una ciudad, durante los años 1997 - 1999. Trimestre Primer trimestre Segundo trimestre Tercer trimestre Cuarto trimestre

1997 196.3 156.9 195.9 183.9

1998 197.3 175.2 205.6 191.7

1999 209.5 169.5 204.9 188.9

a) Obtenga la serie temporal desestacionalizada. b) Con los datos de la tendencia secular hallados en el inciso a) por el método de medias móviles, realice un análisis de regresión y correlación lineal. c) Realice una estimación de la tendencia secular del consumo de energía eléctrica para el primer y segundo trimestre de 1997 y para el tercer y cuarto trimestre del año 1999.

301

EJERCICIOS PARA EXAMEN 1. Una empresa de bebidas presenta las siguientes cifras de ventas, en millones de $, durante 3 años: Estación Primavera Verano Otoño Invierno

Año 1 2.0 3.1 2.6 1.8

Año 2 2.2 3.0 2.8 2.0

Año 3 2.2 3.5 4.3 2.1

a) Obtenga la serie temporal desestacionalizada. b) Halle la tendencia secular por el método analítico, realizando un análisis de regresión y correlación e interpretando los resultados. 2. Los datos de la siguiente tabla son los ingresos trimestrales (en millones de $) para Vulcan Materials, del primer trimestre de 1999 al tercer trimestre de 2001: Trimestre Primer trimestre Segundo trimestre Tercer trimestre Cuarto trimestre

1999 294 383 422 362

2000 309 419 444 398

2001 341 445 478 414

Vulcan materials es un productor líder de agregados de construcción y de una amplia variedad de materiales industriales. a) Obtener los ingresos desestacionalizados. b) Hallar la tendencia de la serie mediante una función lineal y pronosticar los ingresos trimestrales para el 2002.

302

CASO DE ESTUDIO SPRINGVILLE HERALD FASE 8 Un incremento en las ventas con entrega a domicilio se ha convertido en una parte importante de la iniciativa estratégica corporativa para aumentar la circulación del periódico. Se asignó al departamento de mercadotecnia el papel de líder en la supervisión de esta parte de la circulación del periódico, y tiene la responsabilidad de proporcionar las predicciones futuras de las suscripciones que incluyen el análisis de cualquier tendencia que pueda surgir. Para lograr estas metas se recolectaron datos que se presentan en la tabla SH11.1, que indica el número de suscripciones con entrega a domicilio para los dos últimos años (24 meses). Tabla SH11.1 Suscripciones con entrega a domicilio para un periodo de 24 meses Mes 1 2 3 4 5 6 7 8 9 10 11 12

Suscripciones 75327 77116 79341 80983 82326 82879 84006 85119 86182 87418 88063 89444

Mes 13 14 15 16 17 18 19 20 21 22 23 24

Suscripciones 90507 91927 93878 94784 96109 97189 97899 99208 100537 102028 103977 106375

Ejercicios a) Analice estos datos y desarrolle un modelo estadístico para pronosticar las suscripciones con entrega a domicilio en lo futuro. Cerciórese de indicar las suposiciones del modelo y sus limitaciones. b) Pronostique las suscripciones con entrega a domicilio para los próximos cuatro meses. c) Estaría dispuesto a usar el modelo desarrollado para pronosticar las suscripciones para un año futuro? Explique. d) Compare la tendencia de las suscripciones de la Fase 7 para los meses previstos. ¿Qué explicación puede proporcionar acerca de las diferencias? Nota: No siga adelante hasta terminar los ejercicios de la fase 8.

303

CAPÍTULO 12 NÚMEROS ÍNDICES 1. INTRODUCCIÓN Un número índice es una medida estadística que permite patentizar o afirmar los cambios, cuando estos se producen en una variable o grupo de variables observadas afines en el tiempo, localización geográfica u otra característica. Se presenta en forma de porcentaje, resultante de la comparación por cociente de los valores que toma la variable en períodos de tiempo distintos, con respecto a otro valor fijo, que se toma como base de comparación o de referencia. Su aplicación principal se halla en el campo de la economía, pudiendo expresar valores, precios, producción, salarios, comercio exterior, coste de la vida, etc. Para una mayor facilidad, a continuación se resume en un esquema los números índices que se desarrollarán (figura 12.1.1). Figura 12.1.1. Clases de número índices Simples

Media Aritmética Simple

Números Índices

Sin Ponderar Media Agregativa Simple Complejos

Laspeyres Ponderados

Paasche Fisher

Fuente: Elaboración propia

2. NÚMEROS ÍNDICES SIMPLES Se obtienen dividiendo los valores de la variable observada temporal por un valor fijo que corresponde a un período del tiempo, tomado como base. Estos índices pueden ser de precio, cantidad o valor, expresados en porcentajes. Los porcentajes obtenidos serán unos indicadores o índices del movimiento de la serie a lo largo del tiempo, siendo el término de referencia un valor fijo de la serie que se toma como base de comparación. Ejemplo 1 Sean los precios del tomate observados desde enero del presente año, por kilogramos, hasta el mes de junio, dados en la tabla 12.2.1. Determine el índice de precios, tomando como base de comparación el precio del mes de enero. Tabla 12.2.1 Precios del tomate (Bs/kg) 304

Tiempo (meses)

Precio (Bs./kg.)

E=0 F=1 M=2 A=3 M=4 J=5

p0 = 1.2 p1 = 1.5 p2 = 1.8 p3 = 2.0 p4 = 2.7 p5 = 3.5

Ii =

pi * 100 po

Io = 100 I1 = 125 I2 = 150 I3 = 167 I4 = 225 I5 = 292

Fuente: Elaboración propia Respuesta: Al cabo de 6 meses, el tomate aumentó de precio en 192%. Ejemplo 2 Dadas las cifras de ventas, en millones de dólares de unos grandes almacenes, desde 1985 hasta 1995, determine la serie de números índices simples con base en 1985 (ver tabla 12.2.2) Tabla 12.2.2 Ventas de grandes almacenes (millones de $) Tiempo (Años) 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995

Ventas (millones de $.) 12 14 18 18 19 15 12 16 20 24 33

Ii =

Vi x 100 V0

100 116.7 150 150 158.3 125 100 133.3 166.7 200 275

Fuente: Elaboración propia Interpretación: En 1995, las ventas aumentaron un 175% con respecto a 1985.

3. NÚMEROS ÍNDICES COMPLEJOS SIN PONDERAR Los números índices simples indican la variación de una sola serie de valores, no siendo útiles para estudiar la variación conjunta en el tiempo de un grupo de fenómenos reales cuantificables. Los números índices complejos sin ponderar se requieren cuando se busca estudiar la variación conjunta de un grupo de "n" variables temporales, haciéndose necesario sintetizarlas en una sola serie de números índices. Según sea el sistema seguido para sintetizar las series originales, se presentan dos métodos: 305

a) Índice de Sanerbeck o de la media aritmética simple Si la sintetización se hace mediante la media aritmética de los números índices simples en cada tiempo. n

Para precios:

n

pit 100 ∑ i =1 p io p St = n

Para cantidades:

q t

S =

q it

∑q i =1

100

io

n

Ejemplo Sean un conjunto de verduras: tomates, cebollas y brócolis, cuyos precios se observan en el tiempo, dados en la tabla 12.3.1 Halle el índice complejo sin ponderar. Tabla 12.3.1 Precios de un conjunto de verduras T

Tomate T 1.0 1.5 2.0 2.5

0 1 2 3

Cebolla C 0.5 0.8 1.0 1.0

Brócoli B 1.0 1.2 1.5 1.8

Fuente: Elaboración propia Procedimiento • Se halla los índices simples para cada ítem (ver tabla 12.3.2): Tabla 12.3.2 Índice de precios de un conjunto de verduras (media aritmética simple) t 0 1 2 3

T 100 150 200 250

C 100 160 200 200

B 100 120 150 180

IS Io = 300 / 3 = 100 I1 = 430 / 3 = 143 I2 = 550 / 3 = 183 I3 = 630 / 3 = 210

Fuente: Elaboración propia • Se aplica la siguiente definición en columna (4): n p t

S =

pit

∑p i =1

100

io

n

Respuesta: El precio del conjunto de verduras formado por tomates, cebollas y brócolis, al cabo 306

de 4 meses, ha aumentado en 110%. b) Índice de Bradstrest y Dutot o de la media agregativa simple Si la sintetización se lleva a cabo mediante una agregación o suma. n

n

∑ pit p t

Para precios:

∑q

i =1 n

B =

∑p

Para cantidades:

100

q t

B =

∑q

i0

i =1

it

i =1 n

100 i0

i =1

Ejemplo Sean los precios de un conjunto de legumbres, dados en la tabla 12.3.3. Halle el índice complejo sin ponderar. Se procede de la siguiente manera: • Agregar los precios de cada pedido. • Elegir un período de tiempo y determinar los índices correspondientes. • Sea el año 0 el período base. Tabla 12.3.3 Índice de precios de un conjunto de verduras (media agregativa simple) t

T

C

B

∑ Pt

0 1 2 3

1.0 1.5 2.0 2.5

0.5 0.8 1.0 1.0

1.0 1.2 1.5 1.8

2.5 3.5 4.5 5.3

Σ p it * 100 Σ p io Bo = (2.5/2.5)*100 = 100 B1 = (3.5/2.5)*100 = 140 B2 = (4.5/2.5)*100 = 180 B3 = (5.3/2.5)*100 = 212 BP =

Fuente: Elaboración propia Resultado: El precio del conjunto de verduras aumentó en 4 meses en un 112%.

4. NÚMEROS ÍNDICES COMPLEJOS PONDERADOS Permiten determinar la variación conjunta de un grupo de "n" variables observadas en el tiempo, considerando la importancia intrínseca que existe entre las variables (estas ponderaciones pueden ser precios o cantidades). Los índices complejos ponderados más conocidos para precios y cantidades son: Laspeyres (Ponderaciones fijas): n

n

∑p p t

Precios: L =

it

i =1 n

∑p

∑q

qi0 100

i0

q t

Cantidades: L =

∑q

qi0

i =1

i =1

307

it

pi 0

i =1 n

100 i0

pi 0

Paasche (Ponderaciones variables): n

n

∑ pit qit p t

Precios: P =

i =1 n

∑p

∑q q t

Cantidades: P =

100 i0

∑q

q it

i =1

it

pit

i =1 n

100 i0

pit

i =1

Fisher (Media geométrica del índice de Laspeyres y Paasche): p

Precios: Ft =

Lpt Ptp

q

Cantidades: Ft =

Lqt Ptq

Ejemplo Sea el conjunto de verduras, tomates, cebollas y brócolis, observadas en el tiempo, con sus valores de precio y cantidad (tabla 12.4.1). Halle el índice de precios de Laspeyres, y el índice de cantidad de Paasche. Tabla 12.4.1 Precios y cantidades de un conjunto de verduras T t 0 1 2 3

p 1.0 1.5 2.0 2.5

C q 4 4 3 2

p 0.5 0.8 1.0 1.0

B q 5 4 3 3

p 1.0 1.2 1.5 1.8

q 3 2 2 1

Fuente: Elaboración propia Resolución a) Índice de precios de Laspeyres. p

Lo=

p

L1=

(1.0) (4) + (0.5) (5) + (1.0) (3) 9.5 *100 = *100 = 100 (1.0) (4) + (0.5) (5) + (1.0) (3) 9.5 (1.5) (4) + (0.8) (5) + (1.2) (3) 13.6 *100 = *100 = 143 (1.0) (4) + (0.5) (5) + (1.0) (3) 9.5

Lp2 =

p

L3=

(2.0)(4) + (1.0)((5) + (1.5)(3) 17.5 = *100 = 184 (1.0)(4) + (0.5)(5) + (1.0)(3) 9.5

(2.5) (4) + (1.0) (5) + (1.8) (3) 20.4 *100 = * 100 = 215 (1.0) (4) + (0.5) (5) + (1.0) (3) 9.5

Respuesta: Al cabo de 4 meses, se encuentra un aumento de precios del 115%. 308

b) Índice de cantidades de Paasche. q

Po=

(1.0) (4) + (0.5) (5) + (1.0) (3) 9.5 *100 = *100 = 100 (1.0) (4) + (0.5) (5) + (1.0) (3) 9.5

P1q =

(1.5)(4) + (0.8)(4) + (1.2)(2) 11.6 = *100 = 85 (1.5)(4) + (0.8)(5) + (1.2)(3) 13.6 q

P2= q

P3=

12.0 * 100 = 69 17.5 9.8 * 100 = 48 20.4

Respuesta: Al cabo de 4 meses se encuentra una disminución de las cantidades del 52%. Ventajas y desventajas de los tres índices Laspeyres: Es el más fácil de calcular, ya que se necesita menos información y su denominador permanece fijo. Eso ahorra tiempo y costos. Al presentar ponderaciones fijas, éstas pueden dejar de ser representativas cuando la serie se aleja mucho del periodo base. Paasche: Sus coeficientes de ponderación están siempre actualizados y siempre son representativos. Es difícil de calcular, porque se necesita mayor información y el cálculo de cada vez un denominador distinto. Eso dificulta su elaboración y aumenta los costos.

309

Fisher: Es considerado como el índice ideal o el más perfecto. Sin embargo, es el más difícil de determinar y el mas costoso.

5. CAMBIO DEL PERIODO BASE. RENOVACIÓN Y EMPALME El cambio de período de base en el cálculo de los números índices se produce cuando, por transformaciones de carácter social y económico o por un período (largo tiempo), es necesario redefinir una inflación o situación de inestabilidad política que evite un funcionamiento anormal de la economía. El método que se sigue para obtener una serie de números índices con base cambiada, aprovechando la serie de números índices calculados con la base original, es el de dividir cada uno de estos últimos por el número índice correspondiente al período que se toma como nueva base, expresando los resultados en porcentaje. La operación de renovación de los números índices complejos responde a la necesidad y conveniencia de que éstos sean en todo momento unos indicadores suficientemente representativos de la realidad. El empalme de datos cuando se ha cambiado el período de base, es un método que permite obtener números índice con nueva base, aprovechando la serie de números índices calculados con base original y renovada en su sentido más amplio, cuya finalidad es relacionar ambas series truncadas. El procedimiento que se utiliza para dicha transformación es la regla de proporciones. Ejemplo Sea la siguiente información sobre números índices, considerando 2 bases diferentes, dada en la tabla 12.5.1. Empalme las series. Tabla 12.5.1 Números índices con dos bases diferentes t 0 1 2 3 4 5 6

Año 0 100 108 115 126

Año 3

100 112 120 132

Fuente: Elaboración propia Resolución a) Empalmar la serie con base año 0. 310

126 ------- 100 x4o ------- 112 Por lo tanto: o

x4 = Extendiendo la regla:

126 * 112 = 141 100

126 * 120 = 151 100 126 * 132 o = 166 x6 = 100

x 05 =

b) Empalmar la serie con base año 3. 126 ------- 100 115 ------- x23 Por lo tanto:

115 * 100 = 91 126

3

x2 = Extendiendo la regla:

108 * 100 = 86 126 100 3 * 100 = 71 xo = 126 3

x1 =

Nota: El cambio de base también puede producirse cuando existen cambios en la composición de los bienes o artículos que conforman el conjunto o canasta.

6. NÚMEROS ÍNDICES TEMPORALES

DE

VALOR.

DEFLACIÓN

DE

NÚMEROS

ÍNDICES

El producto del precio de un artículo por su cantidad (producida, consumida, en existencia, etc) da lugar a una cifra, que tiene carácter de valor. Por lo tanto, el valor de un conjunto de distintos artículos, i, en el año o periodo t, puede representarse por:

Vit = ∑ pit q it i

Se pude verificar que el producto del índice de precios de Laspeyres, por el índice de cantidades de Paasche, da lugar al índice de valor:

v t

p t

q t

I =L P

∑p = ∑p

it

qi0

i0

∑q ∑q

tt

pit

qi0

i0

i

i

311

∑q = ∑p

tt

pit

i0

qi0

i

i

i

pit

i

Asimismo, el índice de valor es igual al producto del índice de precios de Paasche, por el índice de cantidades de Laspeyres. También, el índice de Fisher de precios por el índice de Fisher de cantidades da también el índice de valor. Los valores de las variables cambian en el tiempo. Particularmente los valores expresados en cifras monetarias están influidos por fluctuaciones intrínsecas del valor de la moneda. Estas series cronológicas de valor, que se refieren a las variaciones en el tiempo de cifras monetarias, están sujetas evidentemente a las fluctuaciones del poder adquisitivo de la moneda, de forma que se debe distinguir entre el valor nominal y el valor real de esas cifras monetarias obtenidas por observación sucesiva en el tiempo. El valor nominal viene dado por la cifra monetaria observada, mientras que el real es este mismo, una vez efectuada la corrección conveniente para eliminar la influencia de la depreciación monetaria. En definitiva, la serie de valores nominales vendrá expresada en moneda de cada año, mientras que la serie de valores reales vendrá expresada en moneda constante, es decir, en moneda correspondiente siempre a un determinado año, que se toma como base. Es posible en esta situación, que los valores de las variables expresados en dinero crezcan. Sin embargo, los valores reales disminuyan o viceversa. Para eliminar esta influencia de la fluctuación del valor de la moneda en los valores de una variable, se aplica la deflación, que consiste en dividir los valores normales de una variable entre un número índice (Puede ser el índice de Laspeyres, Paasche, o cualquier otro, como el índice del costo de vida), el cociente permite expresar valores reales de la variable. Ejemplo Se quiere saber los precios reales de un auto, observados en el tiempo: Tabla 12.6.1 Deflación del precio de un auto t

Precio

N° Índice

0 1 2 3

7000 7500 8100 10000

100 120 150 180

Pr ecio real =

Pr ecio * 100 N° Indice

7000 6200 5400 5556

Fuente: Elaboración propia

312

7. OTROS NÚMEROS ÍNDICES Y SU INTERPRETACIÓN Otros índices no vistos en el capítulo son: índices en cadena, los índices funcionales y el índice de Edgeworth. Algunos índices que se aplican en situaciones concretas son: índices de producción industrial, de producción agrícola, de salarios, de precios al por mayor y al por menor, índices de cotizaciones bursátiles, de importación o exportación, etc. Para la correcta interpretación de los índices, no ha de perderse de vista que siempre hacen referencia a un determinado año base y es preciso conocer las razones que motivaron el que se tomase ese y no otro. Un segundo aspecto a considerar es la ponderación dada a los elementos que intervienen en su confección. En general, se debe dar menos importancia a la magnitud de un determinado índice y a sus variaciones relativas, que a la dirección en sentido creciente o decreciente de tal variación. El índice no es sino una medida más o menos aproximada de una determinada magnitud; no pasa de ser un instrumento más o menos burdo, que permite apreciar el sentido de los movimientos generales de un complejo económico. Finalmente se puede decir que ningún índice es perfecto y que tampoco sirve para todo; sólo tiene valor para ciertas condiciones que dependen del objeto con que se construyó.

313

EJERCICIOS DE CLASE Índice simple 1. La oficina de trabajo tiene que indican el número de nuevos negocios que han sido abiertos en los años de 1977 a 1992. Si 1977 es el año base, calcule los números índice del volumen de cambios. Año 1977 1982 1987 1992

Número de nuevos negocios (miles) 9.3 6.5 9.6 10.1

Índice complejo sin ponderar 2. Una casa editora empezó su negocio de publicación de libros de texto universitarios en 1989. La compañía está interesada en determinar cómo sus ventas han cambiado en comparación con el primer año de operaciones. Un resumen de los registros de la compañía, muestra cuántos libros nuevos publicó en cada año en las áreas siguientes: Áreas Biología Matemáticas Historia Inglés Sociología Física Química Filosofía

1990 48 32 19 16 24 10 27 11

1991 53 37 15 20 18 26 26 8

1992 50 35 22 21 26 32 30 15

Calcule los índices de la media aritmética simple y la media agregada simple. Índice complejo ponderado 3. Un restaurante local de comida rápida desea examinar cómo están cambiando las ventas para cada uno de sus cuatro platillos más populares. Los datos correspondientes a los años 1990 a 1993 se presentan a continuación: Año 1990 1991 1992 1993

Hamburguesa p q 0.58 2.1 0.62 2.5 0.69 2.0 0.79 1.8

Emparedado de pollo p q 1.89 1.5 2.09 1.2 2.18 1.8 2.25 2.1

Papas fritas p q 0.84 2.9 0.89 2.7 0.99 2.3 0.99 2.4

Calcule los índices de precio de Paasche, Fisher y Laspeyres. 314

Aros de cebolla p q 0.91 3.1 0.99 2.4 1.14 2.0 1.19 1.6

Cambio y empalme de base 4. Usando como base el año 1987, realice el cambio de base para el ejercicio 1. 5. Se van a comparar los cambios en la producción industrial y en los precios que han pagado los productores por materias primas desde 1982. Desafortunadamente, el índice de producción industrial (que mide los cambios en la producción) y el índice de precios al productor (que mide los cambios en el precio de las materias primas), tienen periodos base diferentes. El índice de producción tiene a 1977 como periodo base y el índice de precios tiene a 1982 como periodo base. Año 1982 1987 1988

Índice de producción Índice de precios a industrial productores (1977 = 100) (1982 = 100) 115.3 100 129.8 105.4 137.7 107.7

a) Corra o desplace la base, para hacer comparables las dos series. b) Interprete los resultados. Deflación de series temporales 6. Las ventas de una compañía aumentaron de 1482000 $ en 1982, a 1502000 en 1989. La empresa sabe que los precios de las materias primas usadas en la producción subieron desde 1982, de modo que desea deflacionar las ventas en 1989 para tomar en cuenta el alza en precios de las materias primas. ¿Cuáles son las ventas deflacionadas en 1989? Año

Ventas

1982 1988 1989

1482000 1491000 1502000

315

Índice de precios al consumidor (Base: 1982) 100 108.5 112.1

EJERCICIOS PROPUESTOS 1. Las cifras de ventas en millones de $us. de una cadena comercial, desde el año 1980 hasta el 1960, son las siguientes: Año 1980 1981 1982 1983 1984 1985

Ventas 10 13 17 18 19 17

Año 1986 1987 1988 1989 1990

Ventas 10 15 25 27 40

Halle los índices de ventas tomando como base el año 1980. 2. El 30 de enero de 1998 una empresa pagó una nómina de 300000 $us. a sus 80 empleados; el 30 de enero del año siguiente dicha empresa aumentó en 10 el número de sus empleados y pagó una nómina de 50000 $us. más que en enero de 1998. Tomando como base el 30 de enero de 1998, calcule: a) El número índice del número de empleados para enero de 1999. b) El número índice del gasto en nómina para el mismo momento. c) El número índice del costo medio por empleado, también para 1999. 3. Compruebe con los datos siguientes que se cumple para los números índices simples: I precio * Icantidad = Ivalor, tomando 1960 = 100. Año 1960 1970 1980 1990

Precios 2 6 8 21

Cantidades 3 2 10 34

4. Durante el período 1995 - 1999 las primas recaudadas por las compañías de seguros en su conjunto, han sido las siguientes (en miles de $us): Item Accidentes individuales Accidentes de trabajo Incendios Responsabilidad civil Transportes Vida

1995 219 2196 746 838 707 804

1996 261 2548 870 1335 822 891

1997 317 2745 960 1534 927 947

1998 356 2806 1051 1765 1084 1025

1999 411 2986 1139 2151 1247 1140

Halle los índices complejos sin ponderar con base en el año 1995. 5. En base a los precios y cantidades de tres artículos de consumo A, B y C observados desde 1994 hasta 1998, calcule las series de números índices complejos ponderados de precios por las fórmulas conocidas, tomando 1994 = 100. 316

Año 1994 1995 1996 1997 1998

Artículo A Precios Cantidades 2 8 3 7 3 10 3 12 4 11

Artículo B Precios Cantidades 3 5 4 6 5 6 7 7 8 8

Artículo C Precios Cantidades 1 3 2 3 2 5 4 8 5 10

6. De un cierto producto tenemos los siguientes números índices simples de precios y de valor: Año 1980 1981 1982 1983 1984

Índice de precios (base: 1980) 100 120 130 160 180

Índice de valor (Base: 1960) 210 250 280 320 350

Halle los números índices de cantidad con base en 1980. 7. Con los datos del problema 5, renueve el índice de Paasche, tomando como nuevo año base 1996 y efectúe el empalme correspondiente. 8. Deflacione la serie cronológica de las cantidades pagadas por las compañías de seguros por siniestros ocurridos en Bolivia durante el período 1996 - 1999, tomando como deflacionador el índice del costo de vida. Año 1996 1997 1998 1999

Siniestros (miles de Bs.) 318511 523926 670718 905661

317

Índice del costo de vida (1976) 643.1 712.4 807.7 866.7

EJERCICIOS PARA EXAMEN 1. En 1994, el precio de un artículo de consumo bajó un 20% con respecto al año anterior, pero en cambio, aumentó un 50% con respecto al año 1989. Hallar el número índice del precio de 1993, tomando como base el año 1989. 2. El índice de precios al consumidor y el promedio de salarios (por hora) en industrias seleccionadas son: Año 1982-1984 1986 1987 1988

IPC (todos los artículos) 100.0 109.6 113.6 117.1

Salarios por hora Servicios Comercio al Manufactura menudeo 7.27 5.69 8.84 8.16 6.03 9.73 8.47 6.12 9.73 8.81 6.27 10.27

a) ¿Qué sucedió a los salarios reales de un empleado “representativo” en cada una de las tres industrias seleccionadas entre el periodo de 1982-84 y en 1988? Explique su respuesta. b) ¿Qué sucedió al poder adquisitivo del dinero entre los años 1982, 1983 y 1984, y en 1988? 3. Con base en 1973, el índice de precios de 1974 fue 108. Con base en 1974 el IP de 1975 fue de 112. En 1976 el IP aumentó en 22%. Calcule el IP para 1976, relativo a 1973. 4. Un índice de Fisher para 1976 señala un aumento del 132% respecto al periodo base. Si en 1976 el índice de Laspeyres es inferior en 24% al de Paasche, calcule ambos índices.

318

BIBLIOGRAFÍA • Ander-Egg, Ezequiel. Introducción a las Técnicas de Investigación Social. Sexta Edición, 1977. Editorial Humanitas, Buenos Aires-Argentina. • Benavente Núñez del Prado, Arturo. Estadística Básica para Planificación. Cuarta Edición, 1975. Siglo XXI Editores S.A., México. • Berenson-Levine-Krehbiel. Estadística para Administración. Segunda Edición, 2001. Prentice Hall, México. • Blalock M., Hubert. Estadística Social. Segunda Edición, 1981. Fondo de Cultura Económica, México. • Cansado, Enrique. Curso de Estadística General. Segunda Edición, 1970. Centro Interamericano de Enseñanza Estadística (CIENES), Santiago-Chile. • Casa Aruta, Ernesto. Doscientos Problemas de Estadística Descriptiva. Primera Edición, 1965. Editorial Vicens-Vives, Barcelona-España. • Chao L., Lincoln. Estadística para las Ciencias Administrativas. Tercera Edición. 1993. McGraw Hill. Colombia. • Chevry R., Gabriel. Práctica de las Encuestas Estadísticas. 1967. Ediciones Ariel, Barcelona-España. • Cortada y Carro. Estadística Aplicada. Segunda Edición, 1968. Editorial Universitaria de Buenos Aires, Buenos Aires-Argentina. • D’ottone, R. Horacio. Estadística Elemental. 1982. Coopecultura. Santiago-Chile. • Everett E. Adam, Jr. & Ronald J. Ebert. Production and Operations Management (Concepts, Models and Behavior). Cuarta Edición, 1989. Prentice-Hall International Editions, United States of America. • Ferrando García, Manuel. Introducción a la Estadística Sociológica. 1985. Editorial Alianza, Madrid-España. • Freund y Simon. Estadística Elemental. Octava Edición, 1994. Prentice Hall, México. • Giardina, Basilio. Manual de Estadística. Primera Edición, 1968. Compañía Editorial Continental, S.A., México. • Gonick, Larry y Smith Woollcott. La Estadística en Cómic. Primera Edición, 1999. Editorial Zendrera Zariquiey, Barcelona-España. 319

• Guenther G., William. Introducción a la Inferencia Estadística. 1977. Editorial Mc Graw Hill, México. • Levin I., Richard y Rubin S., David. Estadística para Administradores. Sexta Edición, 1996. Prentice Hall Hispanoamericana S.A., México. • Mason y Lind. Estadística para Administración y Economía. Séptima Edición, 1995. Alfaomega, México. • Mendenhal, William. Estadística para Administradores. Segunda Edición, 1990. Grupo Editorial Iberoamérica, México. • Miller, Freund y Jonson. Probabilidad y Estadística para Ingenieros. Cuarta Edición, 1992. Editorial Prentice Hall Hispanoamericana S.A. • Mood/Graybill. Introducción a la Teoría Estadística. Cuarta Edición, 1976. Editorial Aguilar, Madrid-España. • Montgomery Douglas C. Diseño y Análisis de Experimentos. Grupo Editorial Iberoamérica, 1991. • Mora y Araujo, Manuel y Otros. Estadística y Sociología. 1973. Ediciones Nueva Visión, Buenos Aires-Argentina. • Murray R. Spiegel. Estadística. Serie Schaums. Segunda Edición, 1995. Edit. Mc. Graw Hill. • Piatier, André. Estadística y Observación Económica. 1967. Editorial Ariel, BarcelonaEspaña. • Render, Barry y Stair, Ralph M. Jr. Quantitative Analysis for Management. Sexta Edición, 1997. Prentice Hall, New Jersey – USA. • Zuwaylif H., Fadil. Estadística General Aplicada. 1985. Fondo Educativo Interamericano. • Yamane, Taro. Estadística. Tercera Edición, 1974. Editorial Harla, S.A. e C.V, México.

320

ANEXO 1 GUÍA PARA EL TRABAJO FINAL OBJETIVOS DEL TRABAJO El estudiante podrá aplicar los conocimientos adquiridos en la materia de Estadística I a un caso real, usando algún método de recopilación de información, ordenará los datos mediante distribuciones de frecuencias adecuadas, presentará los datos con gráficos apropiados, analizará la información, podrá sacar conclusiones y tomar decisiones. El caso real deberá ser un tema de interés de los alumnos, tomando en cuenta sus hobbies, vida social, familiar, académica, cultural, de negocios o relaciones profesionales, acontecimientos nacionales de interés general, etc.

NÚMERO DE COMPONENTES DEL GRUPO Máximo 5 personas.

FECHA DE ENTREGA Día del examen final, sin excepciones.

CARÁTULA Deberá ir especificado el nombre de la Universidad, la carrera de los miembros del grupo, la materia que cursan, el título del trabajo, los nombres de los componentes del grupo, el nombre del catedrático de la materia, y la fecha de realización.

CONTENIDO El trabajo deberá contar con los siguientes puntos: 1. Introducción. 2. Justificación. 3. Planteamiento del problema: Descripción del problema, clara y explícitamente o el planteamiento de la hipótesis a probar. 4. Objetivos: generales y específicos. 5. Marco teórico. 6. Recopilación y generación de datos: Se deberá generar la información en base a algún método de recopilación de datos (el que mejor se adecue al problema): observación, 321

entrevista, cuestionario o diseño de experimentos. Para la generación de los datos muestrales se deberá realizar un muestreo de la población en estudio, eligiendo una muestra representativa (Ver anexo 3 para determinar el tamaño muestral). 7. Organización de los datos recogidos mediante distribuciones de frecuencias adecuadas. 8. Presentación de los datos mediante gráficas adecuadas, que muestren objetivamente la hipótesis a probar. 9. Realización de un análisis e interpretación de los gráficos y/o tablas. 10. Presentación de las conclusiones a las que se ha llegado luego de la descripción y análisis de la información. 11. Descripción de algunas decisiones o sugerencias de mejora para el problema o hipótesis planteada. Nota: Se deberá anexar al informe final, los cuestionarios realizados para la recopilación de datos, las cédulas, o cualquier tipo de dispositivos usados: videos, disquetes, CD’s, casetes, cuadros, etc.

BIBLIOGRAFÍA Si el grupo usó alguna bibliografía o fuente para recopilar datos o realizar algún procedimiento, deberá estar detallada en esta sección del trabajo.

BANCO DE TEMAS A continuación se muestran algunos temas que pueden ser interesantes: 1. 2.

3. 4. 5. 6. 7. 8.

Análisis de las causas de eficiencia o ineficiencia de los estudiantes de la UPB. Ej: Según sexo, edad, estado civil, clase social o nivel de ingreso familiar, etc. Búsqueda de soluciones para un mejor desempeño docente en la UPB. Ej: conocimientos de la materia, presentación, método de estudio, uso adecuado de materiales de enseñanza, grado de educación y moral, relacionamiento con los estudiantes, grado de preparación de clases, últimas novedades y actualización de conocimientos, pedagogía, interés por los alumnos, etc. Análisis de la carrera de diseño gráfico de la UPB. Ej: análisis de la malla curricular, análisis de contenidos de las materias, importancia de las materias curriculares, buena infraestructura de apoyo a la carrera, etc. Análisis de factibilidad de abrir otro café universitario en la UPB. Ej: demanda insatisfecha, mal servicio del actual, no cubre expectativas y necesidades, etc. Análisis de alguna película. Ej: análisis de personajes, acciones, escenas, efectos, etc. Análisis de la etapa de la juventud, desde el punto de vista de los padres o de los hijos, o por un experto en comportamiento humano. Análisis del servicio de limpieza en la UPB. Ej: Baños, áreas verdes, pasillos, oficinas, etc. Estudio de los deportes que practican los estudiantes de la UPB. Ej: Según sexo, edad, incentivos de la Universidad, lugares apropiados en la U, etc. 322

EVALUACIÓN Este trabajo tiene el valor del 30% del examen final. Se evaluará el trabajo escrito, tomando en cuenta los aspectos que se mencionan abajo.

TRABAJO DE APLICACIÓN FINAL PAUTAS PARA LA EVALUACIÓN

Tema del grupo:

.......................................................................................................... ..........................................................................................................

Trabajo Escrito: • Presentación del trabajo y originalidad del tema

.............. (20 puntos)

• Estructura del trabajo

.............. (20 puntos)

• Tratamiento y recopilación adecuado de los datos

.............. (20 puntos)

• Uso eficiente de la información recopilada

.............. (20 puntos)

• Recomendaciones y decisiones de relevancia

.............. (20 puntos)

Observaciones:

..........................................................................................................

.........................................................................................................................................

323

ANEXO 2 TABLA DE TAMAÑOS MUESTRALES

Valores de p (Probabilidad de éxito)

Tamaño poblacional 0.5

0.55

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95

50

44

44

44

44

43

43

42

40

37

30

0.98 19

100

80

79

79

78

77

74

71

66

58

42

23

150

108

108

107

105

103

99

93

85

72

49

25

200

132

131

130

127

124

118

111

99

82

54

26

250

152

151

149

146

141

134

124

110

89

57

27

300

169

168

166

162

156

147

135

119

95

59

27

350

183

183

180

175

168

158

145

126

99

61

28

400

196

195

192

187

179

168

153

132

103

62

28

450

207

206

203

197

188

176

159

137

106

63

28

500

217

216

212

206

196

183

165

141

109

64

28

550

226

225

221

214

204

189

170

145

111

65

29

600

234

233

229

221

210

195

175

148

113

65

29

650

242

240

236

228

216

200

179

151

114

66

29

700

248

247

242

233

221

204

182

153

116

66

29

750

254

253

247

239

226

208

185

156

117

67

29

800

260

258

253

243

230

212

188

158

118

67

29

850

265

263

257

248

234

215

191

159

119

67

29

900

269

268

262

252

238

218

193

161

120

68

29

950

274

272

266

256

241

221

195

163

121

68

29

1000

278

276

270

259

244

224

198

164

122

68

29

2000

322

320

312

298

278

252

219

179

129

70

30

3000

341

338

329

313

291

263

227

184

132

71

30 30

5000

357

354

344

327

303

272

234

189

135

72

10000

370

366

356

338

313

280

240

192

136

72

30

Infinito

384

380

369

350

323

288

246

196

138

73

30

324

ANEXO 3 EJEMPLO DE TRABAJO DE APLICACIÓN FINAL ESTUDIO SOBRE TATUAJES Y PERFORACIONES EN LA JUVENTUD ESTUDIANTIL COCHABAMBINA I. INTRODUCCIÓN Los distintos gustos que los jóvenes de nuestra época tienen, los lleva a la imperiosa necesidad de distinguirse de los demás, y por ello, generalmente optan por hacerse perforaciones o tatuajes; que según ellos además de distinguirlos, les transfieren una identidad personal.

II. PLANTEAMIENTO DEL PROBLEMA Habiendo observado el interés de los jóvenes hacia las perforaciones y tatuajes creemos que es necesario un análisis sobre la higiene y sanidad en los lugares donde se realizan. Por eso esta investigación tiene como objetivo recopilar información sobre este punto tan crítico y especial. El estudio se realizará en la ciudad de Cochabamba. Por otro lado, aprovechando la coyuntura, se recopilará información sobre diferentes características de los jóvenes que se hacen tatuajes y perforaciones.

III. OBJETIVOS Principales: • •

Conocer ciertos aspectos y características de la juventud estudiantil universitaria de Cochabamba, con respecto a tatuajes o perforaciones. Comprobar si la población universitaria se hace tatuajes o perforaciones en lugares higiénicos.

Secundarios: • • • • •

Conocer el porcentaje de hombres y mujeres en la población en estudio, que se hicieron perforaciones y tatuajes. Edad de hombres y mujeres con perforaciones y/o tatuajes. Precios de las perforaciones y tatuajes tanto en hombres como en mujeres. Lugares del cuerpo donde se practican perforaciones o tatuajes. Porcentaje de personas que creen que existe relación entre el precio de hacerse el tatuaje o perforación y el tipo de higiene del lugar.

325

IV. MARCO TEORICO Durante la larga historia de la sociedad y el mundo, y su evolución; podemos observar que durante muchos años las personas han demostrado preferencia por los tatuajes y perforaciones. El tatuaje El tatuaje parece tan antiguo como el hombre mismo. Se han encontrado evidencias en algunas momias y en pueblos como los Escitas en Asia y los Incas en América. En un principio, la utilización del tatuaje estuvo vinculado con el pensamiento mágico-religioso y la creencia de la vida ultraterrena. También era usado para impresionar y asustar a los enemigos en los campos de batalla. Los griegos acostumbraban tatuarse serpientes, toros y motivos religiosos. Sin embargo, al igual que los romanos, también utilizaron esta técnica para marcar a los prisioneros. Con la llegada del Cristianismo y la consolidación de la Iglesia Católica, esta práctica fue desterrada por considerarla sinónimo de idolatría y superstición. El surgimiento de los gremios de artesanos, durante la Baja Edad Media y la expansión de los viajes de ultramar durante el Renacimiento, provocaron la difusión de esta costumbre, incluso en el Nuevo Continente. Durante las Guerras Mundiales, el tatuaje representó una señal de pertenencia entre los soldados. A partir de la década del 60' se convirtió en sinónimo de rebeldía. En cada época, el tatuaje ha estado presente sobre la piel de muchos hombres, como testimonio de su carácter perenne. El origen de la palabra “Tatuaje” es incierto, se dice que deriva de la palabra “Ta” del Polinesio "golpear", o de la antigua práctica de crear un tatuaje por medio del golpeteo de un hueso contra otro sobre la piel, con el consiguiente sonido "tau-tau". La palabra latina para tatuaje es estigma, y el significado original se refleja en los diccionarios modernos. Entre las definiciones de estigma están "marca hecha con un instrumento afilado", "marca para reconocimiento hecha en la piel de un esclavo o criminal" y "marca de culpabilidad". Piercing Las diferentes culturas del mundo, a veces desconocidas por las sociedades más avanzadas, son la cuna de la práctica del piercing, introducida como rito o señal de pertenencia a una tribu. Este objetivo ancestral es muy diferente del destino del piercing en nuestra cultura. Los Esquimales, son los que originariamente emplearon los piercings de nombre "labrets", que se practicaba entre los jóvenes que pasaban de ser niños a adultos responsables, con cualidades y aptitudes para salir a cazar. Otro de los orígenes de la perforación corporal está en las tribus Masai, en concreto en la población femenina, que deforman su cavidad bucal con discos para aumentar de tamaño la boca y alargan sus lóbulos llevando unos carretes metálicos de gran tamaño. Otra tribu con tradición en perforaciones o piercings es la de los Mursi que se ponen pequeños platillos en los lóbulos de las orejas. 326

Los guerreros Potok, portan en su boca un disco labial y se atraviesan el tabique nasal con una hoja de árbol. Las mujeres de Nueva Guinea atraviesan con una espina de pez las aletas nasales y el tabique, mientras que los hombres llevan en el tabique dientes de pez. Los Tinglits. Las mujeres de esta tribu agujerean su cuerpo como constatación del paso de la pubertad a una madurez en todos los sentidos, pero sobre todo sexual. Las tribus Sioux, sometían a los jóvenes a una prueba que consistía en perforarse el pecho con garfios colgándose con cuerdas a un árbol hasta lacerar la piel; de esta forma demostraban que estaban preparados para ser guerreros. Los antiguos Mayas practicaban el piercing perforando el labio, nariz y orejas con las joyas mas caras que podían permitirse. Los indios Cashinawa se perforaban la nariz para insertarse plumas de colores que indicaban su rango. Por Zonas: Origen de las diferentes formas de perforación Boca: Labios: Este piercing ya es uno de lo favoritos de la gente joven. En las tribus del amazonas, las mujeres se agujereaban el labio inferior en el centro. Era una de las condiciones marcadas por la tribu como seña de identidad de la población femenina. Lengua: Es uno de lo piercings en auge, aunque es uno de los más difíciles para que el cuerpo se acostumbre. Además es el que corre mayor riesgo de infección al estar en zona húmeda. Parte de la cultura Maya y suele hacerse en el centro de la lengua y cerca de la punta. Nariz: Aletas: Es de los piercings más sencillos de realizar. Se originó en las Indias, donde es habitual encontrarse con este tipo de decoración facial. Poco después los hippies de los 60 y 70 copiaron esta tendencia y hoy en día es uno de los más extendidos. Tabique: Este piercing esta presente en diversas culturas de todo el mundo. Su origen se remota a la prehistoria. Se practica en la fina tira de la piel ubicada debajo del cartílago nasal, hundiendo los 2 orificios de la nariz. Cara: Ceja: Es de las más occidentales y aunque es dolorosa de hacer y mantener, lo cierto es que cada vez más gente opta por este tipo de piercing. Se realiza en la parte externa de la ceja. Mejillas: Nace de la movida de los punks que se ponían clavos. En la actualidad no es uno de los más comunes. 327

Oreja: Este piercing es el tradicional, aunque ahora se hacen multitud de perforaciones en el lóbulo y en el cartílago superior externo de la oreja. El trasgus está cada vez más solicitado, y es el piercing que se realiza en la protuberancia cartilaginosa en la entrada del oído. Puntos que se debe tomar en cuenta a la hora de hacerse un tatuaje Sin duda existen muchas enfermedades que se pueden transmitir por hacerse un tatuaje, pero la hepatitis B y el SIDA son las dos más preocupantes. A continuación se muestra una serie de condiciones de higiene que debe tener el pintor de tatuajes: • • • • •

• •

Iluminación: El área debe estar bien iluminada para que el pintor pueda realizar su trabajo adecuadamente. Decoración: Las superficies deben estar coloreadas con blanco u otra tonalidad muy clara, para que pueda mantenerse el lugar bien limpio. Desinfección: La botella de spray debe desinfectarse cada vez que se usa, o llevar algún tipo de película protectora. Asimismo las agujas deben ser desechables. Esterilización: Las agujas, una vez fuera de su envoltura sanitaria no deben asentarse sobre ninguna superficie sucia. Guantes: El pintor debe lavarse las manos antes de ponerse los guante, preferentemente con una solución antibacteriana y antiséptica. Una vez puestos los guantes, no debe tocar otra cosa, como recibos, teléfono, etc. Fregadero: Debe existir un fregadero separado del que hay en el baño. Esterilizador: Debe ser inspeccionado regularmente.

Después de haber llevado a cabo el tatuaje, deben desecharse los recipientes de tinta. Consecuencias subliminales de tatuajes y perforaciones En un estudio publicado por investigadores de Texas, se encontró que entre 8 y 13% de los adolescentes de entre 12 y 18 años de edad tenían un tatuaje, y los que no lo tenían, entre 30 y 50% estaban considerando practicarse uno. Otro estudio reciente publicado en la revista Pediatrics sobre el tatuaje y perforación corporal para aplicación de joyería y el comportamiento en los adolescentes, demostró que los que tenían algún tatuaje o perforación fueron más propensos al uso de drogas de escape, drogas duras como anfetaminas o cocaína, actividad sexual, suicidio, trastornos de alimentación como bulimia y anorexia, consumo de alcohol, hábito de fumar y al uso de marihuana. Los autores recomiendan que los padres, maestros, médicos y pediatras estén alertas para vigilar de cerca el comportamiento de los adolescentes, en el momento en que aparecen con tatuajes y/o perforaciones.

V. RECOPILACIÓN DE DATOS Los datos fueron recogidos mediante una encuesta con preguntas de opción múltiple. La población está constituida por jóvenes que estudian en las siguientes universidades de Cochabamba: UMSS, Católica, UPB y UNIVALE. Se estimo que el número de la población universitaria a la cual se dirigía nuestra investigación era de 30000. La muestra fue de 100 328

encuestas, con probabilidad de 0.5, y con z = 1.96, con estos datos se constató que el error de nuestra investigación asciende a 10% La encuesta que se realizó es la siguiente: ENCUESTA Esta investigación tiene como objetivo recopilar información sobre la higiene y sanidad de los lugares donde los jóvenes se hacen piercings (perforaciones) o tatuajes en nuestra cuidad y ver la relación con el precio y la zona del cuerpo en la que se realizan la perforación o tatuaje. Te agradecemos de antemano contestar siguiendo las instrucciones. Marque con una cruz ⌧ la repuesta verdadera o responda a las preguntas en desarrollo Datos generales 1. Edad

q 17-19

q 19-21

q 21 ó mas

2. Sexo

q Femenino

q Masculino

3. ¿Tienes algún piercing (perforación), o tatuaje?

q Tatuaje

q Perforación

q Ninguno

SI REPONDISTE “TATUAJE” O “PERFORACIÓN” PASA A LA SIGUIENTE PREGUNTA, SI TU RESPUESTA FUE “NINGUNO”, GRACIAS POR TU COLABORACIÓN! Datos específicos 4. Número de perforaciones: ________ Número de tatuajes: _______ 5. ¿En qué parte del cuerpo lo tienes? Perforaciones:

q Oreja(s) q Lengua

q Ceja(s) q Labio

q Ombligo q Otros. ¿Dónde?_____________

q Espalda q Pecho

q Cuello q Tobillo

q Brazos(s) q Vientre

Tatuajes:

¿Dónde?_________

329

q

Otros.

6. ¿En que lugar te lo hiciste? _________________________________________________________ 7. ¿El lugar donde te lo hiciste cumple las reglas básicas de sanidad e higiene?

q Si

q No 8. ¿Sufriste alguna infección por hacerte la perforación o tatuaje? Perforación: q Si

q No

Tatuaje:

q Si

q No

9. ¿Cuánto te costo hacerte la perforación o tatuaje? Perforación____________

Tatuaje______________

10. ¿Crees que haya alguna relación entre el precio del tatuaje o perforación y las condiciones de sanidad del lugar donde se realizan?

q Si

q No

VI. ORGANIZACIÓN La organización de los datos, sus respectivas gráficas y la interpretación de éstas, se muestran a continuación. Por cada hoja se presenta su tabla, gráfica y análisis. Edad Li-1 - Li ni 17-19 45 19-21 29 21-25 26 Total 100

hi 45 29 26 100

Ni 45 74 100

Hi 45 74 100

xi 18 20 23

xi*ni 810 580 598 1988

2

2

4

xi *ni (xi- x ) *ni (xi- x ) *ni 14580 159.048 562.139 11600 0.4176 0.00601 13754 253.0944 2463.72 39934 412.56 3025.87

Interpretación: 45 de los 100 estudiantes tienen entre 17 y 19 años. El 29% de los estudiantes tienen entre 19 a 21 años. 74 de los 100 estudiantes tienen como máximo 21 años. El 74% de los estudiantes tienen como máximo 21 años. Estadígrafos: Media = 19.88. Mediana = 19.34. Moda = 19.

La edad media de los estudiantes es de 19.88 años. El 50% de los estudiantes tienen menos de 19.34 años. Lo más frecuente es que los estudiantes encuestados tengan 19 años. Desviación = 2.03. Existe una dispersión de edades de 2.03 años. Coeficiente de variación = 10.22%. Existe una dispersión de edades del 10.22%. La media es representativa de la distribución. 330

Coeficiente de asimetría = 0.79. Coeficiente de curtosis = -1.22.

La distribución es levemente asimétrica, con sesgo positivo. La distribución de edades es platicúrtica.

21-25 26%

17-19 45%

19-21 29% Sexo Ai Femenino Masculino Total

ni 53 47 100

hi 53 47 100

Moda = Lo más usual es que los estudiantes encuestados sean de sexo femenino.

Masculino 47%

Femenino 53%

Número de Perforaciones xi 1 2 3 4 5 6 7 11 Total

ni 17 12 5 9 4 2 2 1 52

hi 32.69 23.08 9.62 17.31 7.69 3.85 3.85 1.92 100.00

Ni 17 29 34 43 47 49 51 52

Hi 32.69 55.77 65.38 82.69 90.38 94.23 98.08 100.00

xi*ni 17 24 15 36 20 12 14 11 149

xi2*ni 17 48 45 144 100 72 98 121 645

(xi- x )2*ni 59.15 8.99 0.09 11.59 18.23 19.65 34.19 66.17 218.06

(xi- x )4*ni 205.84 6.73 0.00 14.92 83.05 193.09 584.48 4378.73 5466.84

Interpretación: El 32% de los estudiantes tienen una perforación. El 83% de los estudiantes encuestados tienen a lo sumo 4 perforaciones. 331

Estadígrafos: Media = 2.87. Mediana = 2.

En promedio los estudiantes tienen 3 perforaciones. El 50% de los estudiantes tienen menos de 2 perforaciones. Moda = 1. Lo más frecuente es que los estudiantes encuestados tengan una perforación. Desviación = 2.05. Existe una dispersión de perforaciones de 2. Coeficiente de variación = 71.47%. Existe una dispersión de perforaciones del 71.47%. La media no es representativa de la distribución. Coeficiente de asimetría = 1.27. La distribución es levemente asimétrica, con sesgo positivo. Coeficiente de curtosis = 2.98. La distribución de perforaciones es leptocúrtica. 35

32.69

30 23.08

25 20 hi

17.31

15 9.62

10

7.69

5

3.85

3.85

6

7

1.92

0 1

2

3

4

5

11

xi

Número de Tatuajes xi 1 2 3 4 5 6 Total

ni hi Ni Hi 18 54.55 18 54.55 9 27.27 27 81.82 2 6.06 29 87.88 2 6.06 31 93.94 1 3.03 32 96.97 1 3.03 33 100.00 33 100.00

xi*ni 18 18 6 8 5 6 61

2

xi *ni 18 36 18 32 25 36 165

2

(xi- x ) *ni 12.96 0.21 2.65 9.26 9.93 17.24 52.24

4

(xi- x ) *ni 9.33 0.00 3.52 42.86 98.65 297.05 451.40

Interpretación: El 55% de los estudiantes tienen un tatuaje. El 94% de los estudiantes tienen como máximo 4 tatuajes. Estadígrafos: Media = 1.85. Mediana = 1.

En promedio los estudiantes tienen 2 tatuajes. El 50% de los estudiantes tienen menos de un tatuaje. 332

Moda = 1.

Lo más frecuente es que los estudiantes encuestados tengan un tatuaje. Desviación = 1.26. Existe una dispersión de tatuajes de 1.26. Coef. de variación = 68.07%. Existe una dispersión de tatuajes del 68.07%. La media no es representativa de la distribución. Coeficiente de asimetría = 2.02. La distribución es levemente asimétrica, con sesgo positivo. Coeficiente de curtosis = 2.46. La distribución de perforaciones es leptocúrtica. 60

54.55

50

hi

40 27.27

30 20 10

6.06

6.06

3

4

3.03

3.03

5

6

0 1

2

xi

Lugar de Perforación Ai Oreja Ombligo Ceja Otros Lengua Labio Total

ni 41 15 12 10 9 6 93

hi 44.09 16.13 12.90 10.75 9.68 6.45 100

Hi 44.09 60.22 73.12 83.87 93.55 100.00

120 100

93.55 83.87

hi, Hi

80 60 40

100.00

73.12 60.22 44.09 44.09 16.13

20

12.90

10.75

9.68

6.45

Ceja

Otros

Lengua

Labio

0 Oreja

Ombligo

Ai

Interpretación: 333

Lo más usual es que los estudiantes se hagan una perforación en la oreja (44% lo hacen). Los lugares más escogidos son: Oreja, Ombligo, Ceja. El 73% de los estudiantes eligen estos lugares de su cuerpo. La lengua y los labios son los lugares menos elegidos. Lugar del tatuaje Ai Espalda Brazo(s) Tobillo Vientre Pecho Cuello Otros Total

ni 18 10 7 7 4 2 2 50

hi 36.00 20.00 14.00 14.00 8.00 4.00 4.00 100

Hi 36.00 56.00 70.00 84.00 92.00 96.00 100.00

120 100 84.00

80 hi, Hi

100.00

96.00

92.00 70.00

60 40 20

56.00 36.00 36.00 20.00

14.00

14.00

8.00

4.00

4.00

Cuello

Otro s

0 Espalda B razo (s) Tobillo

Vientre

P echo

Ai

Interpretación: Lo más usual es que los estudiantes se hagan un tatuaje en la espalda (36% lo hacen). Los lugares más escogidos son: Espalda, Brazo(s), Tobillo y vientre. El 84% de los estudiantes eligen estos lugares de su cuerpo. El pecho y el cuello son los lugares menos elegidos. Precio del Tatuaje Li-1- Li 0-5 5'-35 35'-60 60'-120 120'-220 220'-300 300'-400

ni hi Ni Hi xi 1 3.23 1 3.23 2.5 2 6.45 3 9.68 20 3 9.68 6 19.35 47.5 10 32.26 16 51.61 90 3 9.68 19 61.29 170 7 22.58 26 83.87 260 2 6.45 28 90.32 350

2

xi*ni xi2*ni (xi- x ) *ni 2.5 6.25 31334.71 40 800 50890.79 142.5 6768.75 52284.77 900 81000 80131.37 510 86700 271.67 1820 473200 45343.57 700 245000 58129.50

334

4

(xi- x ) *ni 981864046.87 1294936296.31 911232564.69 642103703.01 24601.55 293719962.79 1689519415.37

400'-500 2 6.45 30 96.77 450 900 405000 146323.05 10705217320.78 500'-600 1 3.23 31 100.00 550 550 302500 137258.30 18839840547.54 Total 31 100.00 5565 1600975 601967.74 35358458458.90

Estadígrafos: Media = 179.52 Mediana = 117.00

En promedio los estudiantes pagan 179.52 Bs. por tatuaje. El 50% de los estudiantes pagan menos de 117 Bs. por tatuaje. Moda = 70.34 Lo más frecuente es que los estudiantes encuestados paguen 70.34 Bs. por tatuaje. Desviación = 139.35 Existe una dispersión del precio de los tatuajes de 139.35 Bs. Coeficiente de variación = 77.63% Existe una dispersión del precio de los tatuajes del 77.63%. La media no es representativa de la distribución. Coeficiente de asimetría = 1.35 La distribución tiene sesgo positivo. Coeficiente de curtosis = 0.02 La distribución del precio del tatuaje es mesocúrtica. 100

100.00

96.77

90

90.32 83.87

80

hi, Hi

70 61.29

60 51.61

50 40

32.26

30

22.58

20 10

3.23

0

6.45 9.68

9.68

19.35

9.68

6.45

6.45

300'-400

400'-500

3.23

0-5

5'-35

35'-60

60'-120

120'-220

220'-300

3.23

500'-600

Li-1 - Li

Interpretación: El 32.26% de los estudiantes pagan entre 60 y 120 Bs. Es lo más frecuente. El 83.87% de los estudiantes pagan por un tatuaje como máximo 300 Bs. Precio de la perforación Li-1- Li 0-10 10'-15 15'-25 25'-50 50'-100 100'-130 130'-150

ni 10 2 6 3 5 6 5

hi 19.61 3.92 11.76 5.88 9.80 11.76 9.80

Ni 10 12 18 21 26 32 37

Hi 19.61 23.53 35.29 41.18 50.98 62.75 72.55

xi xi*ni 5 50 12.5 25 20 120 37.5 112.5 75 375 115 690 140 700

335

2

xi *ni 250 312.5 2400 4218.75 28125 79350 98000

(xi- x )2*ni 87936.59 14886.58 37232.54 11263.70 2826.14 1579.60 8497.71

(xi- x )4*ni 773284331.38 110805163.07 231043677.06 42290287.45 1597409.60 415855.60 14442198.77

150'-200 200'-250 250'-330 Total

5 8 1 51

9.80 42 82.35 175 875 153125 15.69 50 98.04 225 1800 405000 1.96 51 100.00 290 290 84100 98.04 5037.5 854881.25

29051.63 127463.00 36567.19 357304.66

168799403.69 2030851886.86 1337159245.59 4710689459.06

Estadígrafos: Media = 98.77

En promedio los estudiantes pagan 98.77 Bs. por perforación. Mediana = 95.00 El 50% de los estudiantes pagan menos de 95 Bs. por perforación. Moda = 10.00 Lo más frecuente es que los estudiantes encuestados paguen 10 Bs. por perforación. Desviación = 83.70 Existe una dispersión del precio de las perforaciones de 83.70 Bs. Coef. de variación = 84.74% Existe una dispersión del precio de las perforaciones del 84.74%. La media no es representativa de la distribución. Coeficiente de asimetría = 0.14 La distribución tiene sesgo positivo. Coeficiente de curtosis = -1.12 La distribución del precio de la peforación es platicúrtica. 100

100.00

98.04

90 82.35

80 72.55

70 62.75 50.98

50 41.18

40 30 20

Hi

hi

60

35.29 19.61 19.61

10

23.53 11.76 5.88

3.92

9.80

11.76

15.69 9.80

9.80 1.96

0 0-10

10'-15

15'-25

25'-50

50'-100

100'-130

130'-150

150'-200

200'-250

250'-330

Li-1 - Li

Interpretación: El 19.61% de los estudiantes pagan entre 0 y 10 Bs. por una perforación. Es lo más frecuente. El 82.35% de los estudiantes pagan por una perforación como máximo 200 Bs. Relación entre la Edad y Características en Tatuajes y Perforaciones Edad Caracteres 17-19 19'-21 21'-25 Total Tatuaje 4 5 4 13 Perforación 19 11 4 34

336

Ambos Ninguno Total

6 16 45

4 9 29

9 9 26

19 34 100

40

34

35

34

hi,j (%)

30 25

19

20

19

16

15 10 5

13

11 4

6

5

9

9 9 4 4

4

0 17-19

19'-21

21'-25

Total

Edad Tatuaje

Perforación

Ambos

Ninguno

Interpretación: Lo más frecuente es que los estudiantes se realicen perforaciones (34%) o ninguna (34%). Lo más usual de los estudiantes entre 17 y 19 años es que se realicen perforaciones (19%). Lo más usual de los estudiantes entre 19 y 21 años es que se realicen perforaciones (11%). Lo más usual de los estudiantes entre 21 y 25 años es que se realicen perforaciones y tatuajes (9%) o ninguno de ellos (9%). Los que se hacen más perforaciones son estudiantes de 17 a 19 años. Los que se hacen más tatuajes son estudiantes de 19 a 21 años. Los que se hacen más tatuajes y perforaciones a la vez son estudiantes de 21 a 25 años. Los que se no se han hecho ni tatuajes o perforaciones son estudiantes de 17 a 19 años. Relación entre el Sexo y Características en Tatuajes y Perforaciones Sexo Caracter Femenino Masculino Tatuaje 4 9 Perforación 22 12 Ambos 11 8 Ninguno 16 18 Total 53 47

337

Total 13 34 19 34 100

40

34

35

34

hi,j (%)

30 22

25 20 15 10 5

11

19

18

16 9

13

12 8

4

0 Femenino

Masculino

Total

Sexo Tatuaje

Perforación

Ambos

Ninguno

Interpretación: Lo más frecuente es que las estudiantes mujeres se realicen más perforaciones (22%) que los hombres (12%). Ocurre los contrario con los tatuajes. Los hombres se practican más tatuajes (9%) que las mujeres (4%). Las mujeres se hacen más perforaciones y tatuajes (11%) que los hombres (8%). Las mujeres se abstienen más de hacerse tatuar o perforar (16%) que los hombres (18%). Sin embargo estas diferencias pueden no ser significativas. Relación entre Precio y Sanidad Ai Si No No respondió Total

ni 58 4 4 66

hi 87.88 6.06 6.06 100

ri 14.5 1.0 1.0

Interpretación: Lo mas frecuente es que los estudiantes crean que existe relación entre el precio del tatuaje o perforación y las condiciones de sanidad. El 88% manifestó esta opinión. Por cada persona que dijo que no cree que exista relación entre el precio y la sanidad, hubieron 15 que dijeron que si.

338

No 6%

No respondió 6%

Si 88%

VII. CONCLUSIONES La mayoría de los jóvenes encuestados tienen por lo menos un tatuaje o una perforación, este último se hace más frecuente en chicas. Aquellas personas que se hicieron un tatuaje o una perforación están de acuerdo en que si hay relación entre los precios y la higiene y sanidad que presenta el lugar donde se los hicieron. Se comprobó que la población universitaria tiene en mayor cantidad perforaciones que tatuajes; con ello no se descarta que no tienen o prefieran tatuajes, pero excepcionalmente la proporción de estudiantes que tienen perforaciones es mayor que la que tiene tatuajes. Al comparar hombres con mujeres (estudiantes de las distintas universidades) en relación a lo que tienen más, en ambos casos se comprobó que tienen más perforaciones. No existe relación entre la edad y el número de tatuajes o perforaciones. Se probó que el número promedio máximo de tatuajes era 3 y de perforaciones 4. Se comprobó que tanto hombres como mujeres tienen una edad promedio significativamente igual, en lo que se refiere a tener tatuajes o perforaciones. Es decir no es verdad que las mujeres presenten tatuajes a una edad mayor que la de los varones. Como tampoco es verdad (descartando las perforaciones que tienen las mujeres en las orejas) que éstas ultimas presenten perforaciones a una edad más temprana que la de los varones. La mayoría de los jóvenes prevé infecciones haciéndose tanto las perforaciones como los tatuajes en lugares higiénicos.

VIII. RECOMENDACIONES •

Después de haber realizado el estudio, surge una gran preocupación, porque tanto las perforaciones como los tatuajes son dañinos para la salud y pueden llevar a infecciones muy severas y en muchos casos a generar cáncer. No obstante de que se comprobó que la mayoría de los jóvenes se hacen los tatuajes o perforaciones en lugares higiénicos, 339

también se constató que el número promedio en ambos casos tiende a ser regular con una propensión a alto.

340

ANEXO 4 UTILIZACIÓN DE LAS HERRAMIENTAS ESTADÍSTICAS DEL EXCEL El propósito de este anexo es el mostrar que existe una herramienta de software que puede resolver muchos tipos de problemas estadísticos y que no tenemos que buscarla, ni bajarla, etc., pues ya la tenemos en la mayoría de las computadoras, en el paquete MICROSOFT OFFICE, el Microsoft Excel. Este desarrollo de la herramienta EXCEL, no pretende ser exhaustiva, sino solo indicativa y ejemplificadora, para que el estudiante vea la conveniencia de usarla posteriormente en su trabajo final, materias posteriores o en su vida profesional. GRÁFICOS El EXCEL tiene la siguiente presentación.

A partir de un ejemplo sencillo vamos a presentarles la forma de utilizar el EXCEL para la realización de distintos tipos de gráficos. Ejemplo Como resultado de las calificaciones obtenidas por 2 estudiantes de Ingeniería se confeccionó el cuadro que aparece en la hoja de cálculo de EXCEL que se muestra a continuación, para realizar una comparación gráfica de los resultados obtenidos por los 2 estudiantes.

340

Para la confección de los diferentes tipos de gráficos que nos facilita el EXCEL, en una hoja de cálculo, a partir de nuestros datos procedemos de la siguiente manera: Se localiza en la barra de herramientas la palabra Insertar, y en el menú posterior la palabra Gráfico.

Posteriormente aparece la siguiente pantalla para la selección del tipo de gráfico deseado. 341

Para la comparación que requerimos seleccionaremos primeramente el gráfico de columna y después le introduciremos la información necesaria.

oprimimos la flecha En la casilla para introducir Rango de datos de la derecha y a continuación marcamos las filas y columnas en la hoja de cálculo con la información que deseamos procesar. Como los datos que presentamos están recogidos por alumno en cada columna, seleccionamos la palabra columna en Series en: 342

En el asistente para gráficos ahora seleccionamos “Serie” para introducir los nombres de las series y los rótulos de las categorías. La forma de proceder es la misma que hemos explicado anteriormente. Para colocar el nombre de la serie se selecciona la serie y en la cuadrícula de nombre se identifica la cuadrícula que tiene el nombre de nuestra serie, en nuestro primer caso “Alumno I”.

Cuando terminamos esta operación en el menú inferior del asistente seleccionamos la palabra Siguiente para continuar. La pantalla del asistente que aparece a continuación es para colocar la información general del gráfico, entre la que tenemos: título del gráfico, nombre de los ejes, leyenda, etc.

343

Luego de completar todos los datos señalados anteriormente obtenemos el siguiente gráfico en la hoja cálculo de Excel.

Si queremos elaborar un gráfico de torta seleccionamos la opción Tipo de Gráfico Circular, y seguimos los mismos pasos expuestos anteriormente.

344

ESTADÍGRAFOS Para calcular los diferentes estadígrafos seleccionamos del menú principal la opción Insertar, en el submenú la palabra Función, y en Categoría la palabra Estadísticas como se muestra en las siguientes pantallas. 345

346

Calculemos la media aritmética, la varianza y el coeficiente de correlación de un ejemplo hipotético de un grupo de estudiantes de ingeniería. Primeramente se colocará el cursor en la celda donde se quiere obtener el resultado y luego se inserta la función como muestra la figura siguiente.

347

En el número 1 se marca el rango de los datos que se quieren analizar y se acepta, obteniéndose el valor calculado en la celda . A continuación se calcula la varianza.

348

Para el coeficiente de correlación con los mismos datos se elige la siguiente función.

349

Existen otras funciones que nos permiten realizar cálculos estadísticos con más detalle. Se selecciona la opción herramientas del menú principal y luego análisis de datos. En el cuadro que aparece a continuación se elige la opción de análisis deseada, por ejemplo regresión.

350

Luego de introducir los datos en el cuadro anterior se obtienen los siguientes resultados.

351