Material Del Curso

Tabla de Contenido Capítulo 1. Generalidades de la estadística .........................................................

Views 574 Downloads 222 File size 2MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Tabla de Contenido Capítulo 1. Generalidades de la estadística .......................................................................... 2 Capítulo 2. Tablas de Frecuencias .......................................................................................14 Capitulo 3. Gráficos estadísticos ..........................................................................................25 Capitulo 4. Medidas Estadísticas ..........................................................................................34 Capitulo 5: Probabilidad .......................................................................................................40 Capitulo 6: Variables Aleatorias............................................................................................49 Capitulo 7: Distribuciones muestrales...................................................................................62 Capitulo 8: Pruebas de hipótesis ..........................................................................................69 Análisis de la Varianza .........................................................................................................91 Capitulo 9: Regresión y Correlación ...................................................................................100

Estadística Aplicada

Capítulo 1. Generalidades de la estadística

1 Σ Generalidades de la estadística

1 Objetivos  Describir la evolución de la estadística como ciencia.  Conocer y entender los conceptos generales de la estadística.  Aplicar los conceptos generales de la estadística a casos reales. 2 Desarrollo histórico de la estadística Desde los comienzos de la civilización han existido formas sencillas de estadísticas, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o ciertas cosas. Hacia el año 3000 A.C. los babilonios usaban ya pequeñas tablillas de arcilla para recopilar datos en tablas sobre la producción agrícola y de los géneros vendidos o cambiados mediante trueque. Los egipcios analizaban los datos de la población y la renta del país mucho antes de construir las pirámides en el siglo XXXI a.C. Los libros bíblicos de Números y Crónicas incluyen, en algunas partes, trabajos de estadística. El primero contiene dos censos de la población de Israel y el segundo describe el bienestar material de las diversas tribus judías. En China existían registros numéricos similares con anterioridad al año 2000 A.C., se refiere a los censos chinos ordenados por el emperador Yao (hacia el año 2238 a.c.). Los griegos clásicos realizaban censos cuya información se utilizaba hacia el año 594 A.C. para cobrar impuestos. La Estadística Descriptiva tiene su origen mil o dos miles años antes de Cristo, en Egipto, China y Mesopotamia, donde se hacían censos para la administración de los imperios. Los egipcios tuvieron el barómetro económico más antiguo: un instrumento llamado "Nilometro", que medía el caudal del Nilo y servia a definir un índice de fertilidad, a partir del cual se fijaba el monto de los impuestos. Con la variabilidad del clima ya conocían el concepto de incertidumbre. Paralelamente, el concepto de azar es tan antiguo como los juegos y motivó desde antaño las reflexiones de los filósofos. En las ideas de Aristóteles (384322) se encuentran tres tipos de nociones de probabilidad, que definen más bien actitudes frente al azar y la fortuna, que siguen vigentes hasta nuestros días: (1) el azar no existe y refleja nuestra ignorancia; (2) el azar proviene de causas

Docente: Docente: Ing. Ferly Urday Luna

Página 2 de 128

Estadística Aplicada

múltiples y (3) el azar es divino y sobrenatural. Sin embargo, pasó mucho tiempo antes de que alguien intentara cuantificar el azar y sus efectos. Los Incas no tenían escritura. No obstante en Cuzco sabían por ejemplo exactamente la cantidad, la edad y el sexo de los habitantes en las diferentes provincias. Datos estadísticos importantes se registraban con cordones de nudos que llamaban Quipus. Su secreto hasta ahora no está solucionado completamente pero muchas preguntas ya están contestadas. Se sabe que cada Quipu está hecho por un cordón principal en que se anudaba más cordones de diferentes tamaños y colores. Las informaciones se puede "leer" según los nudos y los colores y tamaños de los cordones. Los Incas conocían el sistema decimal, la disposición de los nudos determinaba su valor en el conjunto de este sistema. Hay teorías de que los Quipus no solamente sirvieron para registrar datos estadísticos sino también otras informaciones como por ejemplo datos históricos. Pero no se ha podido comprobar o "leer" esta "escritura de nudos" hasta ahora.

cantidad de sus animales.

Los pastores en los Andes al principio del siglo 20 todavía utilizaban Quipus para registrar la

Los Incas aparte de los Quipus utilizaron Tocapus para registrar datos históricos. Se encontraron Tocapus en tejidos, sobre vasos (también para ceremonias rituales) y tallados en madera. No se sabe mucho sobre su significación, hasta hoy día no podían estar descifrados. Solamente pocos Tocapus han sido conservados, sobre todo en tejidos.

El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control. Durante la edad media sólo se realizaron algunos censos exhaustivos en Europa. Los reyes carolingios Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762 respectivamente. Después de la conquista normanda de Inglaterra en 1066, el rey Guillermo I de Inglaterra encargó un censo. La información obtenida con este censo, llevado a cabo en 1086, se recoge en el Domesday Book. El registro de nacimientos y defunciones comenzó en Inglaterra a principios del siglo XVI, y en 1662 apareció el primer estudio estadístico notable de población, titulado Observations on the London Bills of Mortality (Comentarios sobre las partidas de defunción en Londres). Docente: Docente: Ing. Ferly Urday Luna

Página 3 de 128

Estadística Aplicada

Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley como base para la primera tabla de mortalidad. En el siglo XIX, con la generalización del método científico para estudiar todos los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron la necesidad de reducir la información a valores numéricos para evitar la ambigüedad de las descripciones verbales. La Estadística, tal y como se concibe hoy en día, debe su existencia a la confluencia producida en el siglo XIX entre la Estadística descriptiva y el Cálculo de probabilidades. Por tanto, aunque su historia se remonta al citado siglo, sus orígenes coinciden con los unidimensionales de la Estadística descriptiva y los del Cálculo de probabilidades y, en cierto sentido, su evolución histórica está determinada por la evolución de éstos. En sus orígenes, el concepto de Estadística (vocablo que parece derivado del latín Status = Estado) aparece estrechamente ligado en la actividad gubernamental, y el término estadístico, con el de estadista o político. Esto se debe a que las primeras estadísticas de las que se tiene noticia fueron realizadas por gobernantes interesados en conocer la extensión de sus dominios, la población residente en ellos, la recaudación de impuestos, las riquezas, etc. La cantidad de datos recogidos para tal fin crece progresivamente, lo que obliga a su presentación en forma de cuadros o tablas. Es entonces cuando la palabra “estadística” comienza a tener un significado que se refiere al material numérico obtenido de la observación del mundo real. Durante el siglo XVIII y la mayor parte del siglo XIX, la Estadística evoluciona como ciencia separada del Cálculo de probabilidades y la Teoría de errores. Aunque A. De Moivre y Deparcieux, entre otros, aplican el Cálculo de probabilidades a datos demográficos, y Condorcet y Laplace a problemas de aritmética política, existe durante este período una escasa comunicación entre ambas disciplinas. Por su parte, el Cálculo de probabilidades evoluciona independientemente de la Estadística descriptiva. Los orígenes de la teoría de la probabilidad están relacionados con los juegos de azar. La abundante presencia del hueso astrágalo de oveja o ciervo (que constituye el antecedente inmediato del dado) en las excavaciones arqueológicas más antiguas, parecen confirmar que los juegos de azar tienen una antigüedad de más de 40.000 años, y la utilización del astrágalo en culturas más recientes -Grecia, Egipto y, posteriormente, Roma- ha sido ampliamente documentada. En las pirámides de Egipto se han encontrado pinturas que muestran juegos de azar que provienen de la primera dinastía (3500 a.C.) y Herodoto se refiere a la popularidad y difusión en su época de los juegos de azar, especialmente mediante la tirada de astrálagos y dados. Los dados más antiguos que se han encontrado se remontan a unos 3000 años antes de Cristo y se utilizaron tanto en juegos como en ceremonias religiosas. La imposibilidad de encontrar una causa o conjunto de causas que permitieran predecir el resultado, por ejemplo, al tirar un dado, hizo que las culturas antiguas

Docente: Docente: Ing. Ferly Urday Luna

Página 4 de 128

Estadística Aplicada

atribuyeran los resultados de fenómenos aleatorios a la voluntad divina. No es hasta el Renacimiento cuando, con un nuevo enfoque, se abandonan las interpretaciones teológicas del azar y se produce una reconsideración de los fenómenos aleatorios, haciendo que los matemáticos italianos de principios del siglo XVI comenzaran a interpretar los resultados de experimentos aleatorios simples. Por ejemplo, en 1526 Cardano establece, bajo condiciones de simetría, la equiprobabilidad de aparición de las caras de un dado a largo plazo, y Galileo (1564-1642), respondiendo a un jugador que le preguntó por qué es más difícil obtener un 9 tirando 3 dados que obtener un 10, razonó que de las 216 combinaciones posibles equiprobables, 25 conducen a 9 y 27 conducen a 10. El desarrollo de la Teoría de la probabilidad está estrechamente ligado a los juegos de azar, no siendo de tanto interés para los matemáticos de la época la evolución de esta teoría, como la preocupación por dar razonamientos combinatorios que resuelvan los problemas planteados. A mediados del siglo XVII, aparecen los primeros avances teóricos del Cálculo de Probabilidades, cuyos principales impulsores fueron los matemáticos franceses Blaise Pascal (1623-1662) y Pierre de Fermat (1601-1665), junto con el holandés Christian Huygens (1629-1695), quien generaliza la media aritmética introduciendo el concepto de esperanza matemática. Es a partir de entonces cuando aparecen las primeras aportaciones significativas al Cálculo de Probabilidades como disciplina puramente matemática; entre ellas cabe destacar la obra de Jacques Bernoulli, “Ars Cojectandi” (1713), donde se presenta, por ejemplo, el conocido teorema de Bernoulli que generaliza la solución de determinados problemas particulares que se habían resuelto anteriormente. A finales del siglo XVIII, Thomas Bayes establece la célebre fórmula de Bayes, donde hace uso de la probabilidad inversa, introduciendo los conceptos de probabilidad “a priori” y probabilidad “a posteriori”. Estas innovaciones, desarrolladas por P. S. Laplace, desembocaron en la denominada Inferencia Bayesiana. En este periodo, Pierre Simón, Marqués de Laplace (1749-1827), establece por primera vez una definición explícita de probabilidad de un suceso, como el cociente entre el número de casos favorables y el de casos posibles, siembre que todos los resultados tengan igual probabilidad. Además, Karl Friedrich Gauss (1777-1855) estudió, junto con Laplace, las aplicaciones de la Teoría de la probabilidad al análisis numérico de los errores de medida en las observaciones físicas y astronómicas, dando lugar a la Teoría de errores. Posteriormente, se produce un estancamiento en cuanto a nuevas ideas en la Teoría de la probabilidad, ampliándose, sin embargo, los campos de aplicación del Cálculo de probabilidades y la Estadística descriptiva, que empiezan a usarse de forma complementaria. Una contribución importante a dicha síntesis se debió a A. Quetelet (1846), que sostuvo la importancia del Cálculo de probabilidades para el estudio de datos humanos. Quetelet demostró que la estatura de los reclutas de un reemplazo seguía una distribución normal, e introdujo el concepto de “hombre medio”. Los estudios sobre la evolución de poblaciones animales realizados por Darwin llevaron a Francis Galton (1822-1911) a resaltar la necesidad de acudir a métodos estadísticos para contrastar tal teoría. Galton estudió exhaustivamente la distribución normal e introdujo el concepto de línea de regresión comparando las estaturas de padres e hijos. La importancia de su

Docente: Docente: Ing. Ferly Urday Luna

Página 5 de 128

Estadística Aplicada

trabajo radica no solamente en el nuevo enfoque que introduce en el problema de la dependencia estadística, sino también en su influencia directa sobre Weldon, K. Pearson, R. A. Fisher y Edgeworth entre otros. El primer departamento de Estadística, en el sentido actual de la palabra, fue patrocinado por él y llevó su nombre. El enfoque estadístico propugnado por Galton para el estudio de la evolución, es aceptado con entusiasmo por W. R. F. Weldon (1860-1906), entonces catedrático de Zoología en la universidad de Londres. Weldon abandona el camino de los estudios embriológicos y morfológicos como medio de contrastar las hipótesis de Darwin y comienza a investigar en la aplicación de los métodos estadísticos a la biología animal. La resolución de nuevos problemas enunciados por Weldon le obliga a buscar la colaboración de un filósofo y matemático: K. Pearson (1857-1936). El laboratorio de K. Pearson se convierte en un polo de atracción para las personas interesadas en el análisis empírico de datos. W. S. Gosset (1876-1937), que trabajaba en la firma cervecera Guinness de Dublín, fue una de las personas que acudieron a Londres a estudiar bajo el patrocinio de Pearson. Los trabajos de Gosset (publicados bajo el seudónimo de Student, ya que Guinness no permitía divulgar las investigaciones de sus empleados) se centraban en el estudio de muestras pequeñas y dieron lugar a la conocida distribución t de Student. Los fundamentos de la Estadística actual y muchos de los métodos de inferencia, son debidos a R. A. Fisher (1890-1962). Fisher se interesó inicialmente en la eugenesia1, lo que le conduce, siguiendo los pasos de Galton, a la investigación estadística. En sus trabajos aparece ya claramente el cuerpo metodológico básico que constituye la estadística actual: el problema de elegir un modelo a partir de datos empíricos, la deducción matemática de las propiedades del mismo, la estimación de los parámetros condicionados a la bondad del modelo y la validación final del mismo mediante un test de significación. La historia más reciente de la estadística nos sitúa entre 1920 y finales de la segunda guerra mundial, cuando aparecen múltiples técnicas estadísticas motivadas por la aplicación de la estadística a áreas tan diversas como la biología, la ingeniería, la física, la antropología, la psicología o la medicina. A partir de 1950 comienza la época moderna de la estadística, claramente diferenciada por la aparición del ordenador, que revoluciona la metodología estadística y abre enormes posibilidades para la construcción de modelos más complejos. Estrechamente ligado a lo anterior, hay que destacar la creciente importancia de los modelos dinámicos y multivariantes. Resumiendo, históricamente, la estadística comenzó siendo esencialmente descriptiva. Ha sido necesario acumular información, criticarla, analizarla y sintetizarla. Posteriormente, gracias al cálculo de probabilidades, la estadística ha pasado a ser explicativa, proporcionando potentes herramientas para la toma Eugenesia.- es la ciencia que estudia la mejora, desde un punto de vista biológico, de los individuos de una especie vegetal o animal.

1

Docente: Docente: Ing. Ferly Urday Luna

Página 6 de 128

Estadística Aplicada

de decisiones, cuando éstas se adoptan en un ambiente de incertidumbre, siempre que esta incertidumbre pueda ser medida en términos de probabilidad. El desarrollo que ha adquirido hasta nuestra fecha la estadística nos permite concluir que, en la actualidad, la aplicabilidad y potencia de esta Ciencia es enorme hasta el punto no sólo de no concebir hoy día un trabajo de carácter científico sin el apoyo de algún método o técnica estadística que corrobore las hipótesis en él planteadas, sino que estamos llegando a no saber vivir sin la acostumbradas “estadísticas” públicas publicadas en la prensa y utilizadas, en muchos casos incorrectamente, para la defensa de argumentos particulares. Por último, y con el fin de advertir de las consecuencias que conlleva el uso incorrecto de la Estadística, se reproduce un texto de G. U. Yule y M. G. Kendall sobre la actitud del público ante la estadística: “La actitud del profano con respecto a las estadísticas se resume admirablemente en la observación de que la humanidad puede dividirse en dos grupos: los que dicen que los números pueden probarlo todo y los que aseguran que no pueden probar nada. Hay que reconocer que esta actitud no está exenta de razón. [...] A veces, tales números sirven para dar una imagen engañosa de la realidad que puede ser debida a ignorancia o distracción, pero también a un deliberado deseo de extraviar o seducir. El profano sabe todo esto, y su actitud de desconfianza ante los argumentos basados en números es la del hombre que no está preparado para distinguir por sí mismo lo verdadero de lo falso y tiende, por ello, a sospechar de todo. No sería pertinente defender aquí la estadística ante la opinión pública. Hemos aludido a esta cuestión para advertir que los métodos estadísticos son instrumentos muy peligrosos en manos inexpertas. Pocas disciplinas tienen aplicación más amplia, y ninguna requiere tanto cuidado al aplicarla. La estadística es una de esas ciencias cuyos cultivadores deben ejercitarse en la autolimitación, como los artistas.” 3 Etimología Los orígenes del término estadística no están bien definidos, pero dentro de las principales aceptaciones se tiene que el término estadística deriva de las palabras: Staat que en alemán significa “estado” o Status que en latín significa “situación” o “estado”. 4 Definición de estadística Se han planteado muchas definiciones y existe diferentes denominaciones de estadística, algunas con un enfoque de ciencia y otras caracterizándola como una metodología; atreverse a dar una definición precisa y concreta en este momento, podría resultar poco significativa puesto que aun no se ha precisado su esencia, cobertura y contenido, pero se debe mencionar algunas definiciones, dentro de ellas tenemos las siguientes:

Docente: Docente: Ing. Ferly Urday Luna

Página 7 de 128

Estadística Aplicada

Disciplina que se ocupa del manejo de datos empíricos para extraer de ellos información comprensible y relevante. Es la ciencia que tiene por objeto la descripción y análisis de conjunto de datos empíricos, relacionados con los fenómenos que se desea estudiar, a fin de obtener leyes que describan su comportamiento y expliquen las observaciones. Es la ciencia que abarca la colección, organización, presentación y análisis de datos tanto para la deducción de conclusiones como para tomar decisiones razonables deacuerdo con tales análisis. La estadística es la disciplina que proporciona un conjunto de métodos y procedimientos que permite recopilar, clasificar, presentar y analizar los datos con el fin de describirlos para en forma adecuada poder tomar decisiones frente a la incertidumbre o predecir o afirmar algo acerca de la población a partir de datos extraídos de la misma. En la actualidad, con el término Estadística se recogen una gran diversidad de técnicas encaminadas a analizar información por medio de la observación y la experimentación. Es difícil y arriesgado dar una definición genérica de Estadística, pues podemos olvidar aspectos importantes de la misma. Aun así, se acepta como definición más extendida la siguiente: es la ciencia cuya finalidad es estudiar los procedimientos destinados a la recogida, resumen, análisis e interpretación de un conjunto de datos, así como los conducentes a la obtención de inferencias científicas a partir de ellos. 5 Objetivos de la estadística De un modo general y amplio los objetivos de la estadística son:  Describir colecciones de datos empíricos.  Inferir las propiedades de una población.  Realizar predicciones sobre el comportamiento de los fenómenos. 6 Clasificación de la estadística Estadística descriptiva Se denomina estadística descriptiva, al conjunto de métodos estadísticos que se relacionan con el resumen y descripción de los datos, como tablas, graficas y el análisis mediante la obtención de medidas de resumen. Inferencia estadística Se denomina inferencia estadística al conjunto de métodos con los que hacen la generalización o la inferencia sobre una población utilizando una muestra. La inferencia puede contener conclusiones que pueden no ser ciertas en forma absoluta, por lo que es necesario que estas sean dadas con una medida de confiabilidad a la que se denomina probabilidad. Cálculo de probabilidades

Docente: Docente: Ing. Ferly Urday Luna

Página 8 de 128

Estadística Aplicada

Se trata de una rama a caballo entre la estadística descriptiva y la inferencia estadística. Podría definirse como un conjunto de proposiciones que permiten medir la aleatoriedad de un fenómeno a través de la asignación de un modelo matemático que conceptualice, resuma y simplifique la esencia aleatoria de dicho fenómeno. 7 Conceptos Generales a) Universo.- En estadística se define como el conjunto de poblaciones. b) Población(N).- en Estadística se define como el conjunto de elementos que presentan una característica particular en estudio. En función al # de elementos la población puede ser: Finita.- Cuando se conoce el número total de elementos. Infinita.- cuando no se conoce el número total de elementos. c) Individuo.- Es cada uno de los elementos que componen la población estadística en estudio. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo, si estudiamos el número de fallas de un producto, cada producto es un individuo. Es un ser observable que no tiene por qué ser una persona, puede ser un objeto, un ser vivo, etc… d) Muestra (n).- Se le define como una parte representativa que se toma de una población. Al indicar que la muestra sea representativa, en ella se quiere reproducir todas las características de la población. N n

e) Variable.- se denomina variable estadística a una característica definida de la población por la tarea o investigación estadística, que puede tomar dos o más valores(Cualidades o números). Es la generalización o abstracción de cualquier cualidad o atributo correspondiente a un individuo, por ejemplo si el individuo en estudio es un polo producido por una empresa, lo podremos describir mediante las siguientes características: tipo de mercado, precio, material de fabricación, color, peso, modelo, tiempo de producción, etc A cada una de estas características la llamamos variable estadística y la representamos normalmente por las letras mayúsculas X, Y, Z,…

UE Valor

Docente: Docente: Ing. Ferly Urday Luna

Cualidad Cantidad

Página 9 de 128

Estadística Aplicada

Hay caracteres que son medibles, esto es, se pueden cuantificar, como por ejemplo la edad, el peso y la estatura de las personas, el precio de un producto, los ingresos anuales, etc… Pero hay otros que no se pueden cuantificar como el color de los ojos, el partido votado en unas elecciones, el estado civil, el sexo, la nacionalidad, etc… A los primeros se les llama caracteres cuantitativos (y a las variables que los representan variables cuantitativas) y a los segundos caracteres cualitativos o categóricos (y variables cualitativas a las variables que los representan) Modalidades o valores de las variables: Es cada uno de los posibles valores que puede tomar una carácter y se representan con las letras minúsculas x1, x2, …, xn. Por ejemplo, el carácter o variable estadística cualitativa estado civil puede tomar los valores o modalidades: casado, soltero o viudo. El carácter o variable estadística cuantitativa edad puede tomar las modalidades o valores: 10 años, 12 años, 15 años, etc… Una variable estadística puede tomar distintos valores y cada uno de ellos puede aparecer repetido más de una vez en la muestra que se estudia de la población. Las variables estadísticas también se pueden clasificar en: Variables unidimensionales: sólo recogen información característica (por ejemplo: edad de los alumnos de una clase).

sobre

una

Variables bidimensionales: recogen, a la vez y sobre el mismo individuo, información sobre dos características de la población, que pueden o no estar relacionadas, (por ejemplo: edad y altura de los alumnos de una clase). Variables pluridimensionales: recogen, a la vez y sobre el mismo individuo, información sobre tres o más características de la población, que pueden o no estar relacionadas (por ejemplo: edad, altura y peso de los alumnos de una clase). Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas: Discretas: Toman valores aislados y no pueden tomar ningún valor entre dos consecutivos fijados, sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3....,etc, pero nunca podrá ser 3,45); nº de monedas que una persona lleva en el bolsillo (0, 1, 2, …) Continuas: Pueden tomar cualquier valor real dentro de un intervalo real. Siempre pueden tomar valores entre dos consecutivos, por muy próximos que los fijemos. Por ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h; altura de las personas, medida del tiempo,...etc. f) Dato.- Es el valor que toma una variable en cada unidad de observación. g) Unidad elemental.- Un elemento o unidad elemental es un objeto o individuo en el cual se toman las mediciones.

Docente: Docente: Ing. Ferly Urday Luna

Página 10 de 128

Estadística Aplicada

h) Observaciones.- son los datos que se recolectan para un estudio. i) Parámetro.- son las diversas medidas con las cuales se analizan los elementos de una población. Así por ejemplo se tiene: La media aritmética µ La varianza σ2 La desviación estándar σ j) Estadígrafo.- son las diversas medidas con las cuales se analizan los elementos de una muestra. Así por ejemplo se tiene: La media Aritmética X La varianza s2 La desviación estándar s 8 Ejercicio resueltos La empresa Plásticos de Arequipa E.I.R.L., se dedica a la fabricación de todo tipo de artículos derivados del polietileno, se hizo un estudio acerca de la cantidad de bolsas de plástico que vendieron en una de sus sucursales, obteniéndose los siguientes datos: a) Se tomo una muestra de 80 órdenes de pedido del día 13 de marzo del 2006. b) Se pidieron 5593 paquetes de bolsas. c) El ingreso promedio por pedido fue de S/. 493.57. d) El pedido con monto más alto fue hecho por la asociación comercial El Porvenir, con 1908 nuevos soles. e) Los colores mas solicitados fueron el negro, blanco y rosado. f) El tamaño más vendido fue el de 15x10 cm. Identifique población, muestra, variable(s), tipo de variable(s), unidad elemental, observaciones, parámetro(s) y estadígrafo(s). Solución a) La unidad elemental es el paquete de bolsa. Se debe tener mucho cuidado en la identificación de la Unidad Elemental, se debe analizar como son comercializados los productos. b) La población es la producción total de bolsas que ha tenido la empresa desde que empezó a operar. c) La muestra son los 5593 paquetes que componen los 80 pedidos que se hicieron el día 13 de marzo del 2006. d) S/. 493.57, es un estadígrafo. e) Monto de cada pedido es una variable cuantitativa continua. f) El valor S/. 1908, es una observación que corresponde al pedido con mayor monto. g) Color del paquete es una variable cualitativa y los colores negro, blanco y rosado son sus observaciones. h) Tamaño de la bolsa es una variable cuantitativa continua, por que cada bolsa puede almacenar un determinado volumen o peso de contenido 9 Ejercicios de Aplicación

Docente: Docente: Ing. Ferly Urday Luna

Página 11 de 128

Estadística Aplicada

1. Primer Problema En el siguiente enunciado identifique: población, muestra, variable(s), tipo de variable(s), unidad elemental, observaciones, parámetro(s) y estadígrafo(s). "Con la finalidad de conocer en que medida los propietarios de viviendas del distrito de JLBR pagan el impuesto predial, la Municipalidad correspondiente realizó un estudio.” De una muestra de 450 propietarios se obtuvo los siguientes resultados preliminares.  El ingreso promedio mensual por propietario es de S/. 675,65  El número de pisos promedio por propiedad es de 2  Solo el 38% opina que puede pagar el impuesto predial.  El número de viviendas promedio por manzana es de 17.5 casas/manzana  El 29% opina que la atención en el municipio para pagar el impuesto predial es regular.  El número de veces por semana que barrieron sus veredas fue en promedio de 1,8 veces/semana. 2. Segundo Problema En el siguiente enunciado identifique: población, muestra, variable(s), tipo de variable(s), unidad elemental, observaciones, parámetro(s) y estadígrafo(s). El día 23/03/2003 en el aeropuerto Rodríguez Ballón se hizo un estudio en el cual se encuestaron a 232 personas obteniéndose los siguientes resultados:  El 12% de pasajeros es Arequipeño.  La edad promedio de los pasajeros es de 27,9 años.  El 31,5% dijo que el servicio en el aeropuerto era malo.  En promedio cada pasajero llevaba 1,8 maletas.  El costo promedio de un pasaje en avión es $68,50.  El tiempo de espera promedio antes de subir al avión es de 0,73 horas. 3. Identifique en cada caso: unidad elemental, tipo de variable, y proporcione dos ejemplos de observación de: a) b) c) d)

Accidentes de trabajo en Cerro Verde SAC. Ventas de la empresa Estilos. Utilización de Internet por los hogares Arequipeños. Opinión acerca de la gestión del alcalde de la Ciudad y del Presidente de la Región. e) Consumo de agua en el Cono Norte de la Ciudad.

4. Desarrollar lo siguiente: a) Proporcione 5 ejemplos sobre universo. b) Proporcione 5 ejemplos sobre población. c) Proporcione 5 ejemplos sobre muestra. Docente: Docente: Ing. Ferly Urday Luna

Página 12 de 128

Estadística Aplicada

d) e) f) g)

Proporcione 5 ejemplos sobre variables cualitativas. Proporcione 5 ejemplos sobre variables cuantitativas discretas. Proporcione 5 ejemplos sobre variables cuantitativas continuas. Mencione 5 formas diferentes para obtener información estadística.

5. Investigue sobre lo siguiente:  Historia de los censos.  Censos realizados en el Perú  Orígenes de los números.  Otras clasificaciones de las variables

Docente: Docente: Ing. Ferly Urday Luna

Página 13 de 128

Estadística Aplicada

Capítulo 2. Tablas de Frecuencias

2 Σ Tablas de Frecuencias

Objetivos  Conocer el proceso de la investigación estadística.  Presentar los datos de manera tabular. Introducción ¿Qué es investigar? Investigar es buscar conocimientos, tratar nuevos problemas, para darles solución, es una manera de comprender al mundo para poderlo controlar. La investigación es el proceso mediante el cual se pretende resolver un problema; es decir; es el conjunto de acciones que permiten elaborar la respuesta satisfactoria a la interrogante del problema. Etapas de una investigación estadística. a) Planteamiento o preparación del programa de trabajo. b) Recolección de datos. c) Organización y presentación de los datos. d) Cálculos estadísticos e) Análisis e interpretación de los resultados. f) Formulación de conclusiones. g) Presentación de un informe final. El planteamiento del problema, pasa por una etapa de planificación del problema y determinación de lo que se pretende investigar y su finalidad; una buena formulación del problema implica siempre la delimitación del campo de investigación, es decir, establece claramente los límites de tiempo y espacio dentro de los cuales se realizará la investigación. Para la preparación del programa de trabajo se debe considerar lo siguiente:  Formulación del problema.  Justificación el estudio.  Determinación de objetivos.  Determinación de variables.  Identificación de fuentes de información.  Análisis exploratorio de estudios similares.  Determinación de la cobertura del estudio: población, ámbito geográfico y periodo que abarca el estudio.  Determinación de muestras.  Determinación de los métodos, técnicas e instrumentos para la recolección y análisis de datos.  Elaboración de instrumentos para la recolección de datos.

Docente: Docente: Ing. Ferly Urday Luna

Página 14 de 128

Estadística Aplicada

 Formulación del presupuesto y fuentes de financiamiento.  Capacitación del equipo de trabajo. En la recolección de datos, se realiza el contacto con las unidades estadísticas de investigación, con el propósito de obtener los datos relacionados con las variables que serán estudiadas o analizadas. Luego que los datos han sido recopilados, estos deben ser procesados para transformarse en información estadística, la misma que servirá de base para realizar el análisis que permitirá describir y explicar el fenómeno en estudio, la organización y presentación de los datos se hace de dos maneras: Presentación tabular. Presentación gráfica. Luego de presentar lo datos, se realizan una serie de cálculos, los que servirán para mostrar el resumen de los datos en forma de indicadores o medidas estadísticas, los mismos que son interpretados para poder sacar conclusiones del estudio. Finalmente se debe presentar un informe final del estudio. A continuación se mostrara las diferentes formas de presentar la información. Presentación tabular de datos Lo realizamos mediante una tabla de frecuencia, la cual se define como el resumen que se realiza en función de la totalidad de elementos de una muestra, o de una población con respecto a una característica bastante particular que está estudiando alguna variable. Elementos de una tabla de frecuencias a) Frecuencia absoluta(fi).- es el # de veces que se repiten los elementos de una variable, por lo tanto se debe de cumplir: n

∑f

i

=N

i =1

b) Frecuencia relativa (hi).- es el cociente de cada frecuencia absoluta entre el # total de elementos. Se calcula de la siguiente manera:

hi =

fi N

c) Frecuencia acumulada (Fi, Hi).- es la suma de una frecuencia dada y todas las anteriores a ella. d) Tabla de distribución de frecuencia.- es el arreglo ordenado en filas y columnas de datos estadísticos según las diversas categorías de la variable, mostrando la frecuencia o repetición en cada categoría. Este tipo de tabla se utiliza para organizar los datos con el objeto de calcular algunas medidas de resumen.

Docente: Docente: Ing. Ferly Urday Luna

Página 15 de 128

Estadística Aplicada

Tipos de datos a analizarse. a) Datos de tipo I.- Aquí por ser la información bastante pequeña no existen tablas de frecuencia y únicamente los datos presentados, ya sea en filas o en columnas. Esto debido a que el dato solo presenta una observación. Ejemplo 1 – Variable cuantitativa discreta La sgte. información representa la edad en años de 6 postulantes para el cargo de asistente de programación de software en la empresa MACROTEC. Edad

17

20

16

23

21

28

23

28

Solución: Los datos se ordenan ascendentemente. En una fila: Edad

16

17

20

21

En una columna: Tabla Nº 1.- Edad de los postulantes para el cargo de asistente de programación Dpto. de personal de MACROTEC – Abril del 2006 Nombre

Edad

N1 N2 N3 N4 N5 N6

16 17 20 21 23 28

FUENTE: Elaboración propia

Interpretación: Como se puede apreciar en la tabla Nro 1, el postulante de menor edad tiene 16 años y el de mayor edad tiene 28 años. b) Datos de tipo II.- Se realiza lo siguiente:  Identificar la variable que se está estudiando;  Asignarle una letra cuales quiera a la variable en estudio;  Ordenar los datos ya sea en forma ascendente o descendente;  Efectuar la respectiva tabulación de los datos;  Calcular los elementos de la tabla de frecuencia; e  Interpretar los resultados del cuadro. Las tablas de distribución de frecuencias de tipo II, sirven para presentar las variables cualitativas y las variables cuantitativas discretas. Ejemplo 2.- Variable cuantitativa discreta Docente: Docente: Ing. Ferly Urday Luna

Página 16 de 128

Estadística Aplicada

Se encuesto a una muestra de 42 clientes de la tienda ESTILOS, acerca del número de veces que compraron en la tienda durante el mes de octubre del 2006, teniéndose los siguientes resultados: Nro de veces que compraron los clientes de la 2 3 2 4 6 6 1 5 4 3 2 2 2 6 4 5 2 2 3 2 3 7 4 3 2 3 2 1 3 3 2 4 1 4 2 1 1 4 5 5 1 3 Solución:

Coloque estos datos en el rango

Tabulación de datos Tabulación de datos Nro de veces que Clásica En Excel realizó una compra 1 6 2 12 9 3 4 5 6 7

Abra Excel y escriba los datos en A1:G7

Utilizar la fórmula: =CONTAR.SI($A$2:$G$7;A

7 4 3 1

Esta tabla esta en el rango: A10:H18

Tabla Nº 2 Tienda Estilos - AREQUIPA Cantidad de veces que un cliente realizó una compra en octubre del 2006 Nro. Veces 1 2 3 4 5 6 7

fi

hi 6 12 9 7 4 3 1 42

hi (%)

0,1429 14,29% 0,2857 28,57% 0,2143 21,43% 0,1667 16,67% 0,0952 9,52% 0,0714 7,14% 0,0238 2,38% 1,0000 100,00%

Fi

Hi 6 18 27 34 38 41 42

0,1429 0,4286 0,6429 0,8095 0,9048 0,9762 1,0000

Hi (%) 14,29% 42,86% 64,29% 80,95% 90,48% 97,62% 100,00%

Grados

51.43 102.86 77.14 60 34.29 25.71 8.57 360.00

FUENTE.- Elaborado en base a la encuesta realizada.

Interpretación: En la presente tabla estadística que se refiere a la cantidad de compras que efectuó un cliente de la tienda Estilos – Arequipa en el mes de octubre

Docente: Docente: Ing. Ferly Urday Luna

Página 17 de 128

Estadística Aplicada

del 2006, observamos claramente que el 28.57% de los clientes hizo 2 compras y el 21.43% hizo 3 compras, siendo los demás porcentajes de menor incidencia. Esto significa que el 50% de los clientes hizo de 2 a 3 compras en el mes de octubre del 2006. Además de lo anterior, se puede apreciar también que el 80.95% de los clientes realizo entre 1 y 4 compras. Resumen de fórmulas en Excel para el ejemplo 2 En B11 En B18 En C11 En C18 En D11 En E11 En E12 En F11 En F12 En G11 En H11 En H18

           

=CONTAR.SI($A$2:$G$7,A11) =SUMA(B11:B17) =B11/$B$18 =SUMA(C11:C17) =C11, rellenar hasta D18 y aplicar el formato de porcentaje =B11 =B12+E11 y rellenar hasta E17 =C11 =F11+C12 y rellenar hasta F17 =F11, rellenar hasta G17 y aplicar el formato de porcentaje =REDONDEAR(C11*360,2) y rellenar hasta H17 =SUMA(H11:H17)

Ejemplo 3.- Variable cualitativa Se ha tomado una muestra de 68 trabajadores de los registros del departamento de personal acerca del distrito donde viven dichos trabajadores, con el fin de analizar la ruta probable que debe tomar el nuevo ómnibus que se ha adquirido. Se tienen los siguientes resultados Cerro Colorado Characato J.L.B.y R. Paucarpata Cerro Colorado J.L.B.y R. Paucarpata J.L.B.y R. Selva Alegre Selva Alegre Paucarpata Cayma Cayma Cerro Colorado J.L.B.y R. Selva Alegre J.L.B.y R. J.L.B.y R. Paucarpata Cerro Colorado Cerro Colorado Cayma Miraflores Miraflores Selva Alegre Paucarpata Miraflores Cerro Colorado Paucarpata Cerro Colorado Cerro Colorado Miraflores J.L.B.y R. Miraflores Selva Alegre Selva Alegre J.L.B.y R. Cayma Paucarpata Cerro Colorado Paucarpata Miraflores Miraflores J.L.B.y R. J.L.B.y R. Cerro Colorado J.L.B.y R. Cerro Colorado Paucarpata J.L.B.y R. J.L.B.y R. Cerro Colorado J.L.B.y R. J.L.B.y R. Paucarpata J.L.B.y R. Miraflores Cerro Colorado Paucarpata Miraflores J.L.B.y R. Paucarpata Selva Alegre Miraflores J.L.B.y R. Paucarpata Cerro Colorado Characato

Tabla Nº 3.- Distrito de procedencia de los trabajadores de la empresa DITESSUR SRL Octubre del 2006 Distrito Cayma J.L.B.y R. Miraflores Paucarpata Selva Alegre Cerro Colorado Characato

fi 4 18 10 13 7 14 2 68

Fi

hi 4 22 32 45 52 66 68

0,0590 0,2650 0,1470 0,1910 0,1030 0,2060 0,0290 1,0000

hi (%) 5,90% 26,50% 14,70% 19,10% 10,30% 20,60% 2,90% 100,00%

Grados 21,24 95,40 52,92 68,76 37,08 74,16 10,44 360,00

FUENTE.- Archivos del registro del Dpto. de personal.

Docente: Docente: Ing. Ferly Urday Luna

Página 18 de 128

Estadística Aplicada

Interpretación.- La mayor parte de los trabajadores viven en Cerro Colorado, Paucarpata y en J. L.B.y R. Nota.- Para trabajar este ejercicio en Excel se procede de la misma manera que en el ejemplo 2. c) Datos de tipo III.- Se siguen los siguientes pasos: Identificar la variable que se está estudiando; Asignarle una letra cualesquiera a la variable en estudio; Ordenar los datos ya sea en forma ascendente o descendente; Calcular el rango de los datos, mediante. Rango = Dato mayor- Dato menor  Determinar el número de clases o intervalos Regla de STURGES → k = 1+3,322 log (N)    

Regla de Joule → k = N Regla o método del experto → se considera un número arbitrario de clases, teniendo en cuenta: 5 ≤ k ≤ 20 El número de clases o intervalos siempre debe ser un valor entero, por lo tanto se puede redondear al número superior o inferior entero más próximo.  Calcular la amplitud de los intervalos, mediante:

A = i = c = Ci =

R n

Se redondea al número superior, considerando el cambio mínimo.

 Se determina el cambio mínimo, el cual se define como la mínima variación que puede llegar a existir para los valores de la variable, para determinar el cambio mínimo se observa los datos y se sigue procede así: Si los datos son enteros el cambio mínimo es 1. Si los datos tienen un decimal el cambio mínimo es 0.1 Si los datos tienen dos decimales el cambio mínimo es 0.01 Si los datos tienen tres decimales el cambio mínimo es 0.001  Constituir los intervalos;  Efectuar el proceso de tabulación;  Calcular cada uno de los elementos de la tabla de frecuencias; e  Interpretar los resultados.

Docente: Docente: Ing. Ferly Urday Luna

Página 19 de 128

Estadística Aplicada

Ejemplo 4.- Variable cuantitativa discreta A continuación se presenta los sueldos (en dólares) de 60 empleados de la empresa DITESSUR S.A. del mes de abril del 2006. 440 453 570 440 450 574 400 560 600 607 470 480

560 650 430 340 530 500 424 321 550 382 364 625

335 407 618 558 501 462 466 500 432 667 634 507

587 376 537 460 471 380 565 528 591 512 580 645

613 470 409 560 660 518 383 526 428 482 450 382

Rango: B2:F13

Solución FORMULA EN EXCEL Valor menor : 321 En D16 =MIN(B2:F13) Valor mayor : 667 En D17 =MAX(B2:F13) Rango : 346 En D18 =D17-D16 Total Datos : 60 En D19 =CONTAR(B2:F13) Núm Clases : 7 En D20 =REDONDEAR.MAS(1+3.322*LOG(D19);0) Amplitud de clase : 50 En D21 =REDONDEAR.MAS(D18/D20;0) Cambio mínimo: 1 Como son datos discretos, se debería de crear intervalos cerrados, para ello se procede así: Clases 1 2 3 4 5 6 7

LimInf 321 371 421 471 521 571 621

Docente: Docente: Ing. Ferly Urday Luna

LimSup 370 420 470 520 570 620 670

Para el primer intervalo, el límite inferior es el valor mínimo de todos los datos y el límite superior se obtiene sumado al límite inferior la amplitud y restando un cambio mínimo. Para el segundo intervalo, el límite inferior es el límite superior de la clase 1 más un cambio mínimo y el límite superior se obtiene igual que el límite superior de la clase 1. Se repite el mismo procedimiento

Página 20 de 128

Estadística Aplicada

Tabla Nº 4.- Sueldos($) de los empleados de la Empresa DITESSUR SA Abril - 2006 hi hi (%) Fi Hi Xi Clase Intervalo fi 1 2 3 4 5 6 7

[321 – 370] [371 – 420] [421 – 470] [471 – 520] [521 – 570] [571 – 620] [621 – 670]

4 8 14 9 11 8 6 60

0,067 0,133 0,233 0,150 0,183 0,133 0,100 1.000

6,67% 13,33% 23,33% 15,00% 18,33% 13,33% 10,00%

4 12 26 35 46 54 60

0,067 0,200 0,433 0,583 0,767 0,900 1,000

345,50 395,50 445,50 495,50 545,50 595,50 645,50

FUENTE: Departamento de contabilidad - Empresa DITESSUR S.A.

Nota: Xi es la marca de clase y se define como el valor central de cada intervalo, se halla sumado el límite inferior más el límite superior de cada intervalo y el resultado se divide entre dos. Interpretación.- En la tabla estadística N° 4, que se refiere al sueldo en dólares de 60 trabajadores de la empresa DITESSUR, observamos que el 23,33% ganan entre 421 y 470 dólares, el 18,33% ganan entre 521 y 570 dólares y el 15% ganan entre 471 y 520 dólares, siendo los demás porcentajes de menor incidencia, esto significa que se trata de trabajadores que ganan por encima del sueldo mínimo vital. Resumen de formulas en Excel para el ejemplo 4  En C27 =D16  En D27 =C27+$D$21-$D$22 y rellenar hasta D33  En C28 =D27+$D$22 y rellenar hasta C33  En E27 =C27-$D$22/2 y rellenar hasta E33  =D27+$D$22/2 y rellenar hasta F33 En F27  En G27 ="["&C27&" - "&D27&"]" y rellenar hasta G33 Para encontrar la frecuencia absoluta simple, primero se debe seleccionar el rango H27:H33 y luego escribir la función: =FRECUENCIA($B$2:$F$13;$D$27:$D$33) y presionar la combinación de teclas Ctrl + Shift + Enter . Se ha creado una fórmula matricial. Se debe tener en cuenta que la función FRECUENCIA solo va a devolver un resultado satisfactorio cuando se trabaje con los limites superiores de intervalo cerrado o con los límites reales.  En M27 =PROMEDIO(C27:D27) y rellenar hasta M33 El resto de fórmulas son análogas al ejemplo 2

Docente: Docente: Ing. Ferly Urday Luna

Página 21 de 128

Estadística Aplicada

Visualización en Excel

Ejemplo 5.- Variable cuantitativa continua A continuación se presenta la talla de los trabajadores de la empresa de vigilancia privada “Resguardo Total S.A.”, se pide elaborar una tabla de distribución de frecuencias de dato continuo. 1.90 1.85 1.70 1.75 1.59 1.67 1.75 1.77

1.73 1.75 1.77 1.79 1.93 1.90 1.79 1.82

1.65 1.73 1.75 1.77 1.98 1.85 1.79 1.80

1.65 1.68 1.73 1.69 1.73 1.77 1.87 1.83

1.95 1.83 1.77 1.74 1.70 1.75 1.79 1.80

Rango B3:F10, definido con el nombre TALLAS

FORMULA EN EXCEL Valor menor : Valor mayor : Rango : Total Datos : Núm Clases : Amplitud de clase : Cambio mínimo :

1.58 1.98 0.4 40 7

En D16 En D17 En D18 En D19 En D20

=MIN(TALLAS) =MAX(TALLAS) =D17-D16 =CONTAR(TALLAS) =REDONDEAR.MAS(1+3.322*LOG(D19);0)

0.06 En D21 =REDONDEAR.MAS(D18/D20;2) 0.01

Docente: Docente: Ing. Ferly Urday Luna

Página 22 de 128

Estadística Aplicada

Como son datos continuos, se debería de crear intervalos semiabiertos, para ello se procede así: REALES TEORICOS Para el primer intervalo teórico, el límite Clases LimInf LimSup LimInf LimSup inferior es el valor mínimo de todos los datos y el límite superior se obtiene sumado 1 1.58 1.64 1.575 1.635 al límite inferior la amplitud, para el segundo 2 1.64 1.70 1.635 1.695 intervalo, el límite inferior es el límite 3 1.70 1.76 1.695 1.755 superior de la clase 1 y el límite superior se 4 1.76 1.82 1.755 1.815 obtiene como en el caso anterior. Se repite 5 1.82 1.88 1.815 1.875 el mismo procedimiento para todas las 6 1.88 1.94 1.875 1.935 clases. Para crear lo limites reales se restan 7 1.94 2.00 1.935 1.995 la mitad del cambio mínimo a todos los Tabla Nº 5.- Talla de los trabajadores de la empresa “Resguardo Total S.A.” Abril - 2006 TEORICOS i

LimInf

1 2 3 4 5 6 7

1.58 1.64 1.70 1.76 1.82 1.88 1.94

REALES

LimSup LimInf LimSup 1.64 1.70 1.76 1.82 1.88 1.94 2.00

Marca de clase Real Teórico

1.575 1.635 1.695 1.755 1.815 1.875 1.935

1.635 1.695 1.755 1.815 1.875 1.935 1.995

Intervalo [ 1.58 - 1.64 > [ 1.64 - 1.70 > [ 1.70 - 1.76 > [ 1.76 - 1.82 > [ 1.82 - 1.88 > [ 1.88 - 1.94 > [ 1.94 - 2.00 >

fi 1 5 12 11 6 3 2 40

hi

hi (%)

0.025 2.50% 0.125 12.50% 0.300 30.00% 0.275 27.50% 0.150 15.00% 0.075 7.50% 0.050 5.00% 1.000 100.00%

Fi 1 6 18 29 35 38 40

Hi

Xi

Xi

0.025 0.150 0.450 0.725 0.875 0.950 1.000

1.61 1.67 1.73 1.79 1.85 1.91 1.97

1.605 1.665 1.725 1.785 1.845 1.905 1.965

FUENTE: Dpto de personal.

Notas de la tabla anterior a) Los limites reales siempre resultan el mismo valor así se calcule los límites teóricos como datos discretos o continuos b) La marca de clase sufre una variación se calcula con limites teóricos y reales, cuando se trabaja con intervalos cerrados no existe dicha variación. Por cuestiones prácticas, la marca de clase se trabaja generalmente con los límites teóricos. c) El resto de fórmulas de la tabla anterior son idénticas al ejemplo Nro. 3

Visualización en Excel

Docente: Docente: Ing. Ferly Urday Luna

Página 23 de 128

Estadística Aplicada

Frecuencias MAYORES QUE Y MENORES QUE. Las frecuencias menores que corresponden a las frecuencias acumulas y para encontrar las frecuencias mayores que, se debe tomar el total de los datos para la primera frecuencia mayor que restando las frecuencias absolutas acumuladas y luego ir haciendo el mismo procedimiento para todas las clases Tabla N° 6.- Cantidad de inspecciones de un grupo de 80 productos Agosto del 2006 i

LimInf 1 2 3 4 5 6 7

LimSup 4 7 10 13 16 19 22

fi 6 9 12 15 18 21 24

F < Que 10 14 24 16 9 5 2 80

10 24 48 64 73 78 80

F > Que 70 56 32 16 7 2 0

FUENTE: Dpto de Producción de la Empresa Hilados y Tejidos S.A.

Resumen de formulas en Excel para la tabla N° 6 En F5 En F6 En G6

  

=E5 =F5+E6 y rellenar hasta F11 =$E$12-F5 y rellenar hasta G11

Responda las siguientes preguntas a) ¿A cuántos productos se les hizo 16 o mas inspecciones? La respuesta se puede leer en la columna “F > Que”, siendo la respuesta 7. b) ¿A cuántos productos se les hizo 11 o menos inspecciones? Se busca la columna “F < Que”, y encuentra que la clase 10-12 tiene por frecuencia absoluta simple el valor 24, entonces dividimos este valor entre 3, obteniéndose 8, luego este valor se lo restamos a 48, resultando que la respuesta final es 40.

Docente: Docente: Ing. Ferly Urday Luna

Página 24 de 128

Estadística Aplicada

Capitulo 3. Gráficos estadísticos

3 Σ Gráficos estadísticos

Objetivo  Crear los principales gráficos estadísticos en Excel. Presentación grafica de datos A pesar de la gran ayuda que prestan las tablas y cuadros con información organizada, no todos los públicos alcanzan a comprenderla o no disponen del tiempo suficiente para analizarla. Es por ello que la mayoría de los investigadores acostumbran a reforzar la descripción a través de dibujos, generalmente con formas geométricas, que ayudan a visualizar el comportamiento de las variables tratadas. Los gráficos son una de la maneras de presentar un resumen de datos, por ejemplo cuando un gerente desea analizar la información de la ventas de un determinado producto en varias zonas y comparar el posicionamiento que tiene, es probable que el primer vistazo que se de a los datos sea el de un grafico para hacerse una idea inicial de cómo esta su participación en el mercado y de allí recién se harán algunos análisis posteriores, demostrándose de esta manera la importancia de los gráficos. En esta sección se procederá a trabajar directamente en la creación de gráficos estadísticos haciendo uso de Microsoft Excel. Grafico circular Se creara un grafico circular con los datos de la tabla Nro 3

Docente: Docente: Ing. Ferly Urday Luna

Página 25 de 128

Estadística Aplicada

Tabla Nº 3.- Distrito de procedencia de los trabajadores de la empresa DITESSUR SRL Octubre del 2006 Distrito

fi

Cayma J.L.B.y R. Miraflores Paucarpata Selva Alegre Cerro Colorado Characato

4 18 10 13 7 14 2 68

Fi

hi 4 22 32 45 52 66 68

0,0590 0,2650 0,1470 0,1910 0,1030 0,2060 0,0290 1,0000

hi (%) 5,90% 26,50% 14,70% 19,10% 10,30% 20,60% 2,90% 100,00%

Grados 21,24 95,40 52,92 68,76 37,08 74,16 10,44 360,00

FUENTE.- Archivos del registro del Dpto. de personal.

Para crear este grafico, se procederá primero a realizar lo siguiente: 1. Crear una copia de la hoja Frecuencias_Cualitativo, haciendo clic derecho en la hoja Frecuencias_Cualitativo, y escoger mover o copiar.

1 Escoger la opción “nuevo libro”. 2 Activar esta casilla de verificación.

3

Presionar Aceptar

Docente: Docente: Ing. Ferly Urday Luna

Página 26 de 128

Estadística Aplicada

2. Grabar el archivo creado con el nombre Grafico Circular. 3. Seleccionar B14:C20.

4. Iniciar el asistente para gráficos y seleccionar las opciones mostradas y presionar el boton Finalizar.

Docente: Docente: Ing. Ferly Urday Luna

Página 27 de 128

Estadística Aplicada

5. Finalmente dar el formato al grafico, según se desee. Grafico Nro 1: Distrito de Procedencia de los trabajadores de la empresa DITESSUR

Miraflores 14.71%

Paucarpata 19.12% Selva Alegre 10.29%

J.L.B.y R. 26.47% Cayma 5.88%

Cerro Colorado 20.59% Characato 2.94%

Histograma con su polígono de frecuencias Un histograma se construye dibujando barras contiguas que tienen como base la amplitud de cada intervalo y como alturas las frecuencias respectivas, sin ninguna separación entre las respectivas clases. Un polígono de frecuencias, es un grafico de líneas que une las marcas de clase de cada intervalo a la altura de la frecuencia simple, ya sea absoluta o acumulada. Se creará, un grafico con los datos de la hoja “F>Que y F0. P  

Donde:

Ai

= P(Ai )P(S Ai )  S P(S)

P(S)=P(A1 )×P  S  +P(A2 )×P  S  +...+P(An )×P  S   A1   A2   An 

Docente: Ing. Ferly Urday Luna

Página 46 de 128

Estadística Aplicada

La regla de Bayes nos permite comparar la probabilidad previa (o a priori) P(Ai) con la probabilidad posterior (o aposteriori) P(Ai/S), la regla de Bayes da el porcentaje de la contribución de P(Ai ∩ S) con respecto a P(S).

Ejemplo de aplicación Se tiene dos urnas, en la primera hay dos bolas blancas y tres bolas negras, mientras que en la segunda tiene cuatro bolas blancas y una negra. Se elige una urna al azar y se extrae una bola. Calcular: a) La probabilidad de que la bola extraída sea blanca. b) La probabilidad de haber elegido la primera urna, supuesto que la bola extraída ha sido blanca. Solución Sea A1 el suceso de elegir la primera urna y sea A2 el suceso de elegir la segunda urna y S el suceso de extraer la bola blanca. El punto (a), pide calcular: Como las urnas son elegidas al azar, entonces P(A1)=P(A2) = 1/2 P(S)=P(A1 )×P  S  +P(A2 )×P  S   A1   A2  1 2 1 4 3 P(S)= × + × = 2 5 2 5 5 El punto (b), pide calcular: 1 2 × P(A )P(S A ) 1 A 2 5 1 1 P  1 = = =  S  P(A )×P  S  +P(A )×P  S  1 × 2 + 1 × 4 3  A    1 2  1  A2  2 5 2 5 Ejercicios de aplicación 1. Tres máquinas denominadas A, B y C, producen un 43%, 26% y 31% de la producción total de una empresa respectivamente, se ha detectado que un 8%, 2% y 1.6% del producto manufacturado por estas máquinas es defectuoso, a. Se selecciona un producto al azar y se encuentra que es defectuoso, ¿cuál es la probabilidad de que el producto haya sido fabricado en la máquina B?, b. Si el producto seleccionado resulta que no es defectuoso, ¿cuál es la probabilidad de que haya sido fabricado en la máquina C? 2. Tres máquinas, A, B y C, producen el 45%, 30% y 25%, respectivamente, del total de las piezas producidas en una fábrica. Los porcentajes de producción defectuosa de estas máquinas son del 3%, 4% y 5%. Seleccionamos una pieza al azar; calcular la probabilidad de que sea defectuosa. Tomamos, al azar, una pieza y resulta ser defectuosa; calcula la probabilidad de haber sido producida por la máquina B. ¿Qué máquina tiene la mayor probabilidad de haber producido la citada pieza defectuosa? 3. La fábrica de enlatados PORTOLA SA produce 5000 envases diarios. La máquina A produce 3000 de estos envases, de los que el 2% son defectuosos y la máquina B produce los 2000 restantes de los que se sabe que el 4% son defectuosos. Determinar la probabilidad de que un envase elegido al azar sea defectuoso. Si se escoge un envase y este es bueno, ¿Cuál es la probabilidad que haya sido hecho en la maquina B? 4. El volumen de producción en tres plantas diferentes de una fabrica es de 500 unidades en la primera, 1000 unidades en la segunda y 2000 en la tercera.

Docente: Ing. Ferly Urday Luna

Página 47 de 128

Estadística Aplicada

Sabiendo que el porcentaje de unidades defectuosas producidas en cada planta es el 1%, 0.8% y 2% respectivamente. Calcula la probabilidad de que al seleccionar una unidad al azar sea defectuosa. 5. En un día cualquiera cuatro maquinas M1, M2, M3 y M4 producen un bien de consumo en las siguientes proporciones: M1 produce el doble de M4, M3 produce el triple de M4, mientras que M1 produce la mitad de M2. Las producciones no defectuosas son respectivamente 95%, 95%, 90% para M1, M2 y M3. Si se elige al azar un articulo de la producción de un día y se encuentra que la probabilidad de que resulte no defectuoso es 0.93%. a) ¿Cuál es el porcentaje de producción no defectuosa de M4? b) ¿De que maquina es más probable que provenga un articulo defectuoso?

Docente: Ing. Ferly Urday Luna

Página 48 de 128

Estadística Aplicada

Capitulo 6: Variables Aleatorias

6 Σ Variables Aleatorias Distribución de variables aleatorias Variable aleatoria Fenómeno aleatorio: es todo fenómeno sobre el cual no se tiene la certeza absoluta de poder explicarlo, en por lo menos algún ámbito o sistema de referencia. Definido así, se deduce que todo fenómeno conocido es o fue aleatorio alguna vez. Por ejemplo, la determinación del sexo de un recién nacido fue aleatoria hasta antes del alumbramiento, momento en que se alcanza la certeza. No hay ciencia sin experimentos y tampoco hay experimentos sin ciencia. Experimento aleatorio: es todo experimento sobre cuyo resultado no se tiene “a priori” la certeza de su resultado. Por ejemplo, si el experimento es lanzar un dado, se tiene la certeza que hay seis resultados posibles pero nunca se sabe cuál cara saldrá si se trata de un dado normal. Existe un cierto grado de incertidumbre asociado a cada cara posible. Una variable estadística es una característica(Cualitativa o cuantitativa) que se mide u observa en una población. Si la población es aleatoria y la característica es cuantitativa la variable es denominada variable aleatoria. Variable aleatoria: son todas aquellas magnitudes donde cada uno de los valores que pueda tomar, en un sistema de referencia o población, tiene asociada una cierta probabilidad de ocurrencia. Definición: Se denomina variable aleatoria, a una variable estadística definida en un espacio muestral Ω. Una variable aleatoria X es una función definida en W tal que a cada elemento ωi ∈ Ω le asocia el número real x = X(ωi), ver en la figura de la izquierda.

El dominio de la variable aleatoria X es el espacio muestral W y el rango es un subconjunto de los números reales que se denotará por RX, siendo, RX = {x ∈ ℜ / x = X(ω), ω∈Ω }

VARIABLE ALEATORIA DISCRETA La función X es una variable aleatoria discreta, si el rango de X es contable (finito o infinito numerable). Una V.A. discreta asume cada uno de sus valores con cierta probabilidad que denotaremos por PX(Probabilidad inducida por X). En efecto si e

Docente: Ing. Ferly Urday Luna

Página 49 de 128

Estadística Aplicada

rango de la variable aleatoria X es el conjunto finito de números, RX = {1;2;...;Xn} y si B = {xi} es un evento en RX, entonces: P(xi) = P[X = xi] = P[ω ∈ Ω / X(ω) = xi]; ∀ i = 1;2;3;…..

Ejemplo 1 Sea Ω el espacio muestral de lanzar al aire una moneda tres veces consecutivas, esto es,

Ω = {SSS, SSC, SCS, CSS, SCC, CSC, CCS, CCC}. Si X se define en Ω como “el número de caras obtenidas”, entonces, X es una variable aleatoria cuyo rango es el conjunto: RX = {0;1;2;3;4}. En efecto, X = 0; corresponde al elemento elemental {SSS}. X = 1; corresponde a los elementos elementales {SSC}, {SCS}, {CSS}. X = 2; corresponde a los elementos elementales {SCC}, {CSC}, {CSS}. X = 3; corresponde al elemento elemental {CCC}. P[X = 0] = P({SSS}) = 1/8 P[X = 1] = P({SSC o SCS o CSS}) = 3/8 P[X = 2] = P({SCC o CSC o CSS}) = 3/8 P[X = 3] = P({CCC}) = 1/8 En general, sea P una probabilidad definida en un espacio muestral Ω, y X una variable aleatoria definida en Ω cuyo rango es el conjunto de números RX, la probabilidad PX del evento B en RX se define por: PX (B) = P(A) Ω X

A

RX

B P PX

P(A) = PX(B)

Docente: Ing. Ferly Urday Luna

Página 50 de 128

Estadística Aplicada

NOTAS: a) El conjunto de pares (xi; P[X = xi]) es la distribución de probabilidades de la variable aleatoria X. Esta distribución es similar a una distribución de frecuencias relativas, por lo tanto, se pueden calcular las medidas de tendencia central y de dispersión por un proceso similar al que se hizo con la distribución de frecuencias relativas. b) Las probabilidades pi = P[X = xi], xi ∈ RX satisfacen las propiedades:  pi ≥ 0, para cada xi ∈ RX  Σ pi = 1 c) Por extensión para todo número real x ≠xi, siendo xi ∈ RX, se define : P[X = x] = P(∅) = 0

Función de probabilidad de una variable aleatoria discreta Sea X una variable aleatoria discreta. Se denomina función (ley o modelo de distribución) de probabilidad de X a la función f (x) definida por f (x) = P[X = x] para todo x número real y que satisface las siguientes condiciones: i) f (x) ≥ 0 ∀ x ∈ ℜ ii) Σ f (xi) = 1 xi∈RX

Ejemplo 2 Consideremos el experimento de lanzar dos dados y observar los números que aparecen en las caras superiores. Encuentre la función de distribución de probabilidad de la variable aleatoria y grafique para: a) X: suma de los números que aparecen en las caras superiores de los dos dados. b) X: diferencia de los números que aparecen en las caras superiores de los dos dados. c) X: máximo de los dos números que aparecen en las caras superiores de los dos dados. d) Calcular para cada caso P[2 < X ≤ 5]. Solución: El espacio muestral asociado al experimento es: (1-1) (1-2) (1-3) (1-4) (1-5) (1-6) (2-1) (2-2) (2-3) (2-4) (2-5) (2-6) Ω = (3-1) (3-2) (3-3) (3-4) (3-5) (3-6) ={(i;j) / i = 1; 2; 3; 4;5;6} (4-1) (4-2) (4-3) (4-4) (4-5) (4-6) j = 1; 2; 3; 4;5;6 (5-1) (5-2) (5-3) (5-4) (5-5) (5-6) (6-1) (6-2) (6-3) (6-4) (6-5) (6-6) a) En este experimento los posibles valores de x(ω) = i + j, donde ω = {i;j} son 2; 3; 4;...;12. Tenemos que x = 2 corresponde al evento (1-1) con probabilidad 1/36, esto es, P[x = 2] = P[(1-1)] = 1/36. Resolviendo por analogía para los demás casos, llegamos a la siguiente distribución de probabilidad.

xi 2 3 4 5 6 7 8 9 10 11 12 pi ó f (xi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Docente: Ing. Ferly Urday Luna

Página 51 de 128

Estadística Aplicada

Gráfica de la Distribución x 2 3 4 5 6 7 8 9 10 11 12

P(x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Distribución de probabilidad

0

7/36 6/36 5/36 4/36 3/36 2/36 1/36

P(X)

1 2 3 4 5 6 7 8 9 10 11 12

La grafica de una distribución de probabilidades discreta se denomina gráfica de bastones, que consiste en segmentos verticales continuos o punteados de longitud proporcional a la probabilidad respectiva en cada valor xi de la variable (Observar el grafico de arriba) Cálculo de P[2 < X ≤ 5] Para encontrar esta probabilidad se debe hallar: 5

2

3

4

9

1

∑ f (x ) = f (3) + f (4) + f (5) = 36 + 36 + 36 = 36 = 4 i

x i =3

Realice Ud. los puntos (b); (c) y (d) del ejemplo 2.

Función de distribución acumulada de la variable aleatoria discreta. F(x) = P[X ≤ x] Ejemplo 3.- Hallar la función de distribución acumulada del punto (a) del ejemplo 2

f (x)

0 x