Estadistica General Agosto Del 2013

Estadística General ciclo 2013-I UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO FACULTAD DE CIENCIAS FISICAS Y MATEMATICAS ESCUE

Views 40 Downloads 0 File size 757KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Estadística General ciclo 2013-I

UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO FACULTAD DE CIENCIAS FISICAS Y MATEMATICAS ESCUELA PROFESIONAL DE AGRONOMIA

SILABO DE ESTADISTICA GENERAL I.- DATOS GENERALES. Facultad Escuela Profesional Ciclo Académico Ciclo de estudios Código del Curso Pre-requisito Duración del Curso Extensión Horaria Créditos Ambiente de asesoría Docente AYALA.

: : : : : : : : : : :

AGRONOMIA. AGRONOMIA 2013- I Segundo EE 305 Matemáticas I. 17 Semanas 04 Horas (2T, 2P) 03 créditos : Cubículo Nº 3 FACFyM M. Sc. JOSÉ ELÍAS PONCE

II.- SUMILLA. El curso de Estadística General es de naturaleza teórica y práctica. Pertenece al área de formación profesional de la Carrera Profesional de Agronomía. Tiene como propósito desarrollar en los estudiantes la adquisición de conceptos, principios y procesos correspondientes a la aplicación al campo de la Agronomía así como al uso de los métodos estadísticos para la solución de problemas prácticos de la especialidad, esto es, lograr los objetivos en cuanto a las funciones e investigación científica y del perfil profesional correspondiente. El curso está organizado en tres unidades: La primera unidad trata de Estadística Descriptiva; la segunda unidad está dedicada al estudio del Probabilidad; la tercera unidad se ocupa del Estadística Inferencial. III.- OBJETIVOS GENERALES. Al finalizar la asignatura el estudiante estará capacitado para describir y utilizar los métodos estadísticos descriptivos e inferenciales en el campo de la Agronomía. IV. PROGRAMACION ACADEMICA: 4.1. PRIMERA UNIDAD: “ESTADÍSTICA DESCRIPTIVA” 4.1.1. Objetivos Específicos: 4.1.1.1 Conocer la historia de la Estadística 4.1.1.2 Emplear correctamente los términos estadísticos.

1

Estadística General ciclo 2013-I

4.1.1.3 Presentar los datos en forma tabular y gráfica. 4.1.1.4 Describir los datos por medio de sus medidas de resumen. 4.1.2. Temática: ESTRATEGIA DE APRENDIZAJE SEMANA 1RA y 2 DA

3 RA

4 TA a 8 VA

CONTENIDO  Breve historia de la Estadística.  Definición de estadística  Tipos Estadística.  Definición de términos estadísticos.  Recolección de datos. Técnicas  Elaboración de datos  Presentación de datos en tablas de distribución de frecuencias para variable discreta  Presentación de datos en tablas de distribución de frecuencias para variable continúa.  Interpretación de tablas de distribución de frecuencias para los diferentes tipos de variables  Presentación de datos en gráficos. Gráfico de barras  Gráfico de sectores  Gráfico de barras agrupadas  Gráfico de barras compuestas.  Gráfico de ramas y hojas  Pictograma  Gráfico de Cajas  Gráfico de Bastones  Histograma de Frecuencias  Polígono de Frecuencias.  Ojiva ascendente  Ojiva descendente  Medidas de Centralización. Promedio  Mediana  Moda  Cuartiles  Deciles  Percentiles  Medidas dispersión. Desviación estándar  Coeficiente de variación  Medidas de asimetría.  Medidas de Kurtosis.  Primer Examen

DISCUSION SOLUCION GENERALIZACIÓN

Y

DISCUSION SOLUCION GENERALIZACIÓN

Y

DISCUSION SOLUCION Y GENERALIZACIÓN

4.2. SEGUNDA UNIDAD: “PROBABILIDAD” 4.2.1. Objetivos Específicos: 4.2.1.1

Identificar e interpretar correctamente los conceptos fundamentales de probabilidad.

4.2.1.2

Identificar un experimento aleatorio, definir un espacio muestral para un experimento dado.

2

Estadística General ciclo 2013-I

4.2.1.3 Aplicar, los axiomas de Probabilidad y las reglas de probabilidad en la resolución de un problema dado 4.2.1.4

Describir las características y propiedades de las distribuciones especiales de variables aleatorias discretas.

4.2.1.5

Calcular la probabilidad de eventos empleando las distribuciones especiales.

4.2.1.6

Aplicar las distribuciones de probabilidades para resolver problemas reales.

tablas

de

4.2.2. Temática: SEMANA CONTENIDO 9NA

10 MA

11

RA

Introducción Experimento aleatorio Punto muestral, espacio muestral, evento o suceso Tipos eventos. Probabilidad de un evento Propiedades, Regla aditiva general de Probabilidad. Regla aditiva especial de Probabilidad. Probabilidad Condicional. Regla general de la multiplicación. Regla especial de la multiplicación o Probabilidad de Sucesos independientes.  Teorema de Bayes          

    

Distribuciones muestrales La distribución Binomial. La distribución de Poisson. Distribución Hipergeométrica Distribución Normal. Segundo Examen.

ESTRATEGIA DE APRENDIZAJE LECTURA DISCUSION SOLUCION Y GENERALIZACIÓN

DISCUSION SOLUCION Y GENERALIZACIÓN

PROBLEMAS DISCUSION SOLUCION Y GENERALIZACIÓN

4.3. TERCERA UNIDAD: “ESTADÍSTICA INFERENCIAL” 4.3.1. Objetivos Específicos: 4.3.1.1 Realizar estimaciones para la media, proporciones y varianzas poblacionales mediante el intervalo de confianza. 4.3.1.2 Estimar la proporción poblacional a través de un intervalo de confianza. 4.3.1.3 4.3.1.4 4.3.2

Obtener y diferenciar la hipótesis nula y alternativa. Realizar pruebas de hipótesis para promedio, proporciones y varianzas de poblaciones. Temática:

3

Estadística General ciclo 2013-I

SEMANA

Introducción LECTURA Importancia Estimación interválica Intervalo de confianza para estimar el promedio DISCUSION SOLUCION poblacional Y GENERALIZACIÓN  Intervalo de confianza para estimar la diferencia de promedios poblacionales (dos casos)  Intervalo de confianza para estimar la proporción poblacional.  Intervalo de confianza para estimar la diferencia DISCUSION entre proporciones poblacionales. SOLUCION Y  Intervalo de confianza para estimar la varianza GENERALIZACIÓN poblacional Intervalo de confianza para estimar la varianza poblacional.  Intervalo de confianza para estimar la razón de varianzas poblacionales  Hipótesis estadística y prueba de hipótesis.  Prueba de hipótesis: hipótesis unilaterales y bilaterales  Prueba de hipótesis para promedios.  Prueba de hipótesis para la diferencia de promedios poblacionales (dos casos)  Prueba de hipótesis para la proporción poblacional. EJERCICIOS  Prueba de hipótesis para la diferencia entre proporciones DISCUSION  Prueba de hipótesis para la varianza  Prueba de hipótesis para razón. SOLUCION Y  Tercer Examen GENERALIZACIÓN  Examen sustitutorio    

12DA

13RA Y 14 TA

15 TA A 17 MA

V.-

CONTENIDO

ESTRATEGIA DE APRENDIZAJE

METODOLOGÍA Las estrategias metodológicas a utilizar para el mejor aprendizaje son: Concurrir a clases a la hora exacta y con la seguridad de disponer de los prerrequisitos 

    

Durante el ciclo académico se tomarán tres exámenes y las tareas académicas se evaluarán permanentemente teniendo en cuenta que la presentación sean de manera completa y oportuna. El alumno que falte a un examen o no presente trabajos o tareas en la fecha señalada tendrá nota mínima. Se tendrá en cuenta para las exposiciones la Investigación bibliográfica El alumno con el 30% de inasistencia no tendrá derecho a ser evaluado. Para la calificación de los exámenes se empleará la escala vigesimal. Intervenir ya sea en forma voluntaria o cuando se le indique. El promedio final (P.F.) se obtiene de la siguiente forma P.F =

2 P . E . U .+ P .T . A . 3

Donde:

4

Estadística General ciclo 2013-I

P.E.U: Promedio de Exámenes de unidad, el mismo que debe ser mayor o igual a 10.5. P.T.A.: Promedio de Tareas Académicas (Presentación de trabajos, exposición, practicas calificadas, intervenciones)  

VI.-

El alumno para ser aprobado en el curso deberá obtener como promedio final una nota de 10.5 a más. Tendrán derecho a rendir examen sustitutorio todos aquellos estudiantes que cumplieron con rendir todas las evaluaciones y con entregar todos los trabajos, además tengan como promedio de exámenes no menor de 08, el cual reemplazará el menor calificativo del examen de unidad.

MEDIOS Y MATERIALES Utilizaremos los siguientes medios y materiales      

Ambiente Físico: Aula de la Ciudad Universitaria Ejercicios y problemas de esta unidad desarrollados en el aula. Bibliografía Especializada Separatas, fotocopias de textos referentes al tema Textos guías Calculadora científica, etc.

VII. REFERENCIAS BIBLIOGRAFÍCAS: 1. C. CANAVOS, George: “Probabilidades y Estadística – Aplicaciones y Métodos” Ed. Mc. GRAW HILL, 2007.651 páginas. 2. CORDOVA ZAMORA, Manuel: “Estadística Descriptiva e Inferencial”. Ed. MOSHERA S.R.L. Quinta edición. Lima – Perú, 2008. 505 Páginas. 3. DAZA PORTOCARRERO, Jorge: “Estadística Aplicada”. Ed. Megabayte s. a. c Lima Mayo del 2006. 647 Páginas. 4. FREUND, Jhon/ WALPOLE, R: “Estadística Matemática con Aplicaciones”. Ed. Prentice Hall, cuarta edición México - 2007. 622 Páginas 5. DAVID R. ANDERSON. Estadística para Administración y Economía. Sétima Ediciones. Internacional Thomsom Editores 2006. 908 Pág. 6. MITACC MEZA, Máximo: “Tópicos de Estadística Descriptiva y Probabilidades” Ed. Marcos - Lima. 2007.532 Páginas

San

7. MORA C. ARTURO / CID S. LUIS / VALENZUELA H. MARIA: “Probabilidades y Estadística” Universidad de Concepción. Facultad de Ciencias Físicas y Matemáticas Departamento de Estadística. 2006. 427 páginas 8. MOYA CALDERON, Rufino: “Probabilidad e inferencia estadística”. Ed. San Marcos. Lima Perú. 2006. 807 páginas Lambayeque, Agosto del 2013.

5

Estadística General ciclo 2013-I

M. Sc. José Elias Ponce Ayala Docente del curso

ESTADISTICA GENERAL HISTORIA DE LA ESTADÍSTICA La recopilación sistemática de datos económicos y de población se inició en Venecia y Florencia, las ciudades-Estado italianas, durante el Renacimiento. El término ESTADISTICA, derivado de la palabra Estado, se utilizó entonces para referirse a la obtención de datos de interés estatal. Esta idea de recopilación de datos se extendió desde Italia a otros países de Europa occidental. De hecho, durante la primera mitad del siglo XVI, era habitual que los gobiernos europeos obligaran a las parroquias a que registraran los nacimientos, los matrimonios y las defunciones. Debido a las muy escasas condiciones de salud pública, las estadísticas referidas a estos hechos tenían un especial interés. El término Estadística que se utilizó hasta el siglo XVII como una abreviatura de la ciencia descriptiva de los Estados, se identificó cada vez más, en el siglo XIX, con las cifras cuantitativas. Hacia 1830, en Francia e Inglaterra, el término ya fue usado de forma general como sinónimo de la ciencia numérica de la sociedad. Este cambio de significado se debió a que, desde 1800, los gobiernos de Europa Occidental y de Estados Unidos comenzaron a recopilar y publicar sistemáticamente una gran cantidad de registros de censos y de otros tipos de tablas. Aunque a lo largo del siglo XIX la teoría de la probabilidad había sido desarrollada por matemáticos tales como Jacob Bernoulli, Karl Friedich Gauss y Pierre Simon Laplace, su aplicación al estudio de hechos estadísticos fue casi inexistente, ya que la mayor parte de los estadísticos sociales de la época se contentaban con dejar que los datos hablaran por sí mismos. En particular, en esa época los estadísticos no estaban interesados en sacar inferencias a partir de individuos, más bien se centraban en la sociedad en su totalidad. Por consiguiente, no estaban preocupados por el muestreo sino que intentaban obtener censos de la población al completo. Como resultado, la inferencia probabilística sobre la población a partir de muestras era prácticamente desconocida en las estadísticas sociales del siglo XIX No fue hasta finales de este siglo cuando los estadísticos empezaron a preocuparse por inferir conclusiones a partir de los datos numéricos. El movimiento comenzó con los trabajos de Francis Galton sobre el análisis de la influencia de la herencia a través de la utilización de técnicas que actualmente se conocen como análisis de regresión y correlación, que alcanzaron su mayor auge con los trabajos de Karl Pearson. Éste, que desarrolló los contrastes de bondad de ajuste, fue el primer director del laboratorio Galton, fundado por Galton en 1904. Allí, Pearson lideró un programa de investigación con el objetivo de desarrollar nuevos métodos en los que la Estadística se utiliza con fines inferenciales. Su laboratorio potenció que investigadores provenientes de distintas áreas de la ciencia y la industria aprendieran los métodos estadísticos que podían tener aplicación en sus campos. Uno de los primeros estudiantes que acudió a su laboratorio fue W. S. Gosset químico de formación, que demostró su devoción por Pearson y publicó sus propios trabajos bajo el seudónimo de Student. Existe una famosa leyenda que mantiene que Gosset temía publicar sus trabajos, bajo su propio nombre por miedo a que, en la fábrica de cerveza Guinnes, donde laboraba, sus jefes descubrieran que uno de sus químicos realizaba investigaciones estadísticas. Gosset es famoso por el desarrollo de los contrastes de t. Dos de las áreas más importantes de aplicación de la Estadística a principios del siglo XX fueron la biología y la agricultura; todo ello gracias al interés de Pearson y de otros investigadores de su laboratorio, y también a los logros del científico inglés Ronald A. Fisher. La teoría de la inferencia desarrollada por estos investigadores pioneros – y otros entre los que se encuentran Egon Pearson, hijo de Karl Pearson, y el

6

Estadística General ciclo 2013-I

estadístico matemático polaco JersyNeyman- fue lo suficiente general como para tratar una amplia gama de problemas cuantitativos prácticos. Como resultado, tras los primeros años del siglo XX, aumentó muy rápidamente el número de personas, procedente de la ciencia, los negocios y la administración, que empezaron a considerar la Estadística como una herramienta capaz de suministrar soluciones cuantitativas a una gran variedad de problemas científicos y prácticos. En la actualidad, podemos encontrar las ideas estadísticas en muchos ámbitos. La Estadística Descriptiva puede verse en periódicos y revistas. La Inferencia Estadística se ha hecho indispensable en las investigaciones médicas y de salud pública, en la investigación de mercados y en el control de calidad, en la educación, la contabilidad, la economía, en la predicción meteorológica o de las votaciones, y en muestreos, deportes, seguros, en juego de apuestas y en cualquier tipo de investigación que pretenda ser científica. Hoy en día, la Estadística se ha convertido realmente en una pieza integrante de nuestra herencia. LA CAMBIANTE DEFINICION DE LA ESTADÍSTICA La Estadística tiene el objeto de realizar una representación fiable de un Estado en una época determinada (Quetelet, 1849) La Estadística es la única herramienta mediante la cual se puede conseguir una apertura en la formidable espesura de dificultades que entorpece el camino de aquellos que estudian la Ciencia del hombre (Galton, 1889) La Estadística puede considerarse (i) como el estudio de las poblaciones, (ii) como el estudio de las variaciones y (iii) como el estudio de los métodos de reducción de datos (Fisher, 1925). La Estadística es la disciplina científica relativa a la recopilación, el análisis y la interpretación de datos obtenidos mediante la observación o la experimentación. Tiene una estructura coherente basada en la Teoría de la Probabilidad e incluye muchos procedimientos diferentes que contribuyen a la investigación y el desarrollo en todas las ramas de la Ciencia y la Tecnología. (E. Pearson, 1936) La Estadística es el nombre de la ciencia que trata de llevar a cabo inferencias bajo situaciones de incertidumbre; para ello, usa los números para averiguar cuestiones relativas a la naturaleza y la experiencia. (Weaver, 1952). La Estadística se caracteriza en el siglo XX como una herramienta matemática para analizar datos experimentales u observados. (Ross, 2005). Estadística es la ciencia que nos ayuda a recolectar, organizar, presentar, analizar e interpretar datos para una toma de decisión más efectiva.(Alvaro Pintado-Agurto Mejia,2009). CLASIFICACIÓN DE LA ESTADÍSTICA La Estadística puede dividirse en dos partes: descriptiva e inferencial ESTADÍSTICA DESCRIPTIVA.- Se encarga de recopilar, clasificar, presentar y describir un conjunto de datos. ESTADISTICA INFERENCIAL.- Se encarga de interpretar los datos estudiados por las técnicas descriptivas. Ella emplea métodos que hacen posible la estimación de una característica de una población, o la toma de decisiones con respecto a una población basada en los resultados de muestras, es decir, de los datos obtenidos de las muestras se sacan conclusiones que se dan como válidas para todo el universo o población.

7

Estadística General ciclo 2013-I

Es de esperar que el sacar estas conclusiones siempre exista una pequeña probabilidad de error, pues la inferencia es inductiva.

ETAPAS DEL MÉTODO ESTADÍSTICO El método estadístico, parte de la observación de un fenómeno, y como no puede siempre mantener las mismas condiciones predeterminadas o a voluntad del investigador, deja que actúen libremente, pero se registran las diferentes observaciones y se analizan sus variaciones. Para el planeamiento de una investigación, por norma general, se siguen las siguientes etapas: 1.- Planteamiento del problema. 2.- Fijación de los objetivos. 3.- Formulación de la hipótesis. 4.- Definición de la unidad de observación y de la unidad de medida. 5.- Determinación de la población y de la muestra. 6.- La recolección. 7.- Crítica, clasificación y ordenación. 8.- Tabulación. 9.- Presentación. 10.-Análisis. 11.-Publicación. 1. PLANTEAMIENTO DEL PROBLEMA Al abordar una investigación se debe tener bien definido qué se va a investigar y por qué se pretende estudiar algo. Es decir, se debe establecer una delimitación clara, concreta e inteligible sobre el o los fenómenos que se pretenden estudiar, para lo cual se deben tener en cuenta, entre otras cosas, la revisión bibliográfica del tema, para ver su accesibilidad y consultar los resultados obtenidos por investigaciones similares, someter nuestras proposiciones básicas a un análisis lógico; es decir, se debe hacer una ubicación histórica y teórica del problema. 2. FIJACIÓN DE LOS OBJETIVOS Luego de tener claro lo que se pretende investigar, Debemos presupuestar hasta dónde queremos llegar; en otras palabras, debemos fijar cuáles son nuestras metas y objetivos. Estos deben plantearse de tal forma que no haya lugar a confusiones o ambigüedades y debe, además, establecerse diferenciación entre lo de corto, mediano y largo plazo, así como entre los objetivos generales y los específicos. 3. FORMULACIÓN DE LAS HIPÓTESIS Una hipótesis es ante todo, una explicación provisional de los hechos objeto de estudio, y su formulación depende del conocimiento que el investigador posea sobre la población investigada. Una hipótesis estadística debe ser susceptible de docimar, esto es, debe poderse probar para su aceptación o rechazo. 4. DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE MEDIDA La Unidad de Observación, entendida como cada uno de los elementos constituyentes de la población estudiada, debe definirse previamente, resaltando todas sus características; pues, al fin de cuentas, es a ellas a las que se les hará la medición. La unidad de observación puede estar constituida por uno o varios individuos u objetos y denominarse respectivamente simple o compleja.

8

Estadística General ciclo 2013-I

El criterio sobre la unidad de medición debe ser previamente definido y unificado por todo el equipo de investigación. Si se trata de medidas de longitud, volumen, peso, etc., debe establecerse bajo qué unidad se tomarán las observaciones ya sea en metros, pulgadas, libras, kilogramos, etc. Asociado a la unidad de medida, deben establecerse los criterios sobre las condiciones en las cuales se ha de efectuar la toma de la información. 5. DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRA Estadísticamente, la población se define como un conjunto de individuos o de objetos que poseen una o varias características comunes. No se refiere esta definición únicamente a los seres vivientes; una población puede estar constituida por los habitantes de un país o por los peces de un estanque, así como por los establecimientos comerciales de un barrio o las unidades de vivienda de una ciudad. Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí el término infinito no está siendo tomado con el rigor semántico de la palabra; por ejemplo, los peces dentro de un estanque son un conjunto finito; sin embargo, en términos estadísticos, puede ser considerado como infinito. Muestra es un subconjunto de la población a la cual se le efectúa la medición con el fin de estudiar las propiedades del conjunto del cual es obtenida. En la práctica, estudiar todos y cada uno de los elementos que conforman la población no es aconsejable, ya sea por la poca disponibilidad de recursos, por la homogeneidad de sus elementos, porque a veces es necesario destruir lo que se está midiendo, por ser demasiado grande el número de sus componentes o no se pueden controlar; por eso se recurre al análisis de los elementos de una muestra con el fin de hacer inferencias respecto al total de la población. Existen diversos métodos para calcular el tamaño de la muestra y también para tomar los elementos que la conforman, pero no es el objetivo de este curso estudiarlos. Diremos solamente que la muestra debe ser representativa de la población y sus elementos escogidos al azar para asegurar la objetividad de la investigación. 6. LA RECOLECCIÓN Una de las etapas más importantes de la investigación es la recolección de la información, la cual ha de partir, a menos que se tenga experiencia con muestras análogas, de una o varias muestras piloto en las cuales se pondrán a prueba los cuestionarios y se obtendrá una aproximación de la variabilidad de la población, con el fin de calcular el tamaño exacto de la muestra que conduzca a una estimación de los parámetros con la precisión establecida. El establecimiento de las fuentes y cauces de información, así como la cantidad y complejidad de las preguntas, de acuerdo con los objetivos de la investigación son decisiones que se han de tomar teniendo en cuenta la disponibilidad de los recursos financieros, humanos y de tiempo y las limitaciones que se tengan en la zona geográfica, el grado de desarrollo, la ausencia de técnica, etc. Es, entonces, descubrir dónde está la información y cómo y a qué "costo" se puede conseguir; es determinar si la encuesta se debe aplicar por teléfono, por correo, o si se necesitan agentes directos que recojan la información; establecer su número óptimo y preparar su entrenamiento adecuado. 7. CRITICA, CLASIFICACIÓN Y ORDENACIÓN Después de haber reunido toda la información pertinente, se necesita la depuración de los datos recogidos. Para hacer la crítica de una información, es fundamental el conocimiento de la población por parte de quien depura para poder detectar falsedades en las respuestas, incomprensión a las preguntas, respuestas al margen, amén de todas las posibles causas de nulidad de una pregunta o nulidad de todo un cuestionario. Separado el material de "desecho" con la información depurada se procede a establecer las clasificaciones respectivas y con la ayuda de hojas de trabajo, en las que se establecen los cruces necesarios entre las

9

Estadística General ciclo 2013-I

preguntas, se ordenan las respuestas y se preparan los modelos de tabulación de las diferentes variables que intervienen en la investigación. El avance tecnológico y la popularización de los computadores hacen que estas tareas, manualmente dispendiosas, puedan ser realizadas en corto tiempo. 8. LA TABULACIÓN Una tabla es un resumen de información respecto a una o más variables, que ofrece claridad al lector sobre lo que se pretende describir; para su fácil interpretación una tabla debe tener por lo menos: Un título adecuado el cual debe ser claro y conciso. La Tabla propiamente dicha con los correspondientes subtítulos internos y la cuantificación de los diferentes ítems de las variables, y las notas de pie de cuadro que hagan claridad sobre situaciones especiales de la tabla, u otorguen los créditos a la fuente de la información. 9. LA PRESENTACIÓN Una información estadística adquiere más claridad cuando se presenta en la forma adecuada. Los cuadros, tablas y gráficos facilitan el análisis, pero se debe tener cuidado con las variables que se van a presentar y la forma de hacerlo. No es aconsejable saturar un informe con tablas y gráficos redundantes que, antes que claridad, crean confusión. Además la elección de determinada tabla o gráfico para mostrar los resultados, debe hacerse no sólo en función de las variables que relaciona, sino del lector a quien va dirigido el informe. 10. EL ANÁLISIS La técnica estadística ofrece métodos y procedimientos objetivos que convierten las especulaciones de primera mano en aseveraciones cuya confiabilidad puede ser evaluada y ofrecer una premisa medible en la toma de una decisión. Es el análisis donde se cristaliza la investigación. Esta es la fase de la determinación de los parámetros y estadísticos muéstrales para las estimaciones e inferencias respecto a la población, el ajuste de modelos y las pruebas de las hipótesis planteadas, con el fin de establecer y redactar las conclusiones definitivas. 11. PUBLICACIÓN Toda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros estudiosos del mismo problema a quienes se les puede aportar información, conocimientos y otros puntos de vista acerca de él. TIPOS DE DATOS Los especialistas en Estadística analizan un amplia variedad de fenómenos o características, llamadas variables aleatorias. Los datos son los hechos y números, resultantes de la observación de estas variables aleatorias. Indudablemente una variable aleatoria puede tomar diferentes valores o atributos de una observación a otra. Si una característica de nuestro interés puede tomar distintos valores o tienen diferentes resultados, se denomina variable VARIABLE Es una característica o propiedad que puede tomar diferentes valores o atributos. Ejemplo: rendimiento académico, religión, talla, etc. Variable

Valor o atributo

Rendimiento académico

11,12,13

10

Estadística General ciclo 2013-I

Género

Masculino, femenino

Color de ojos

Negros, verdes

Estado civil

Soltero, casado

Atención en restaurante

Buena, mala, regular

Número de hijos

2, 3, 4

Número de TV vendidos

16,14

Peso de cargamento

14.5, 18.23

Talla

1.65, 1.70, 1.92

CLASIFICACIÓN DE VARIABLES Antes de considerar aspectos relacionados con la recopilación, descripción reducción y análisis de datos estadísticos, es necesario distinguir y conocer los diversos tipos de variables que se pueden encontrar en los diversos estudios e investigaciones. Entre los muchos criterios de clasificación, podemos mencionar tres tipos: SEGÚN LA NATURALEZA DE LA VARIABLE 1.- Variables Cualitativas Son aquellas que expresan una cualidad, característica o atributo, tienen carácter cualitativo, sus datos se expresan mediante una palabra, es no numérico. Las variables cualitativas pueden ser: nominal u ordinal. a) Variable Cualitativa Nominal: Son aquellas que establecen la distinción de los elementos en las categorías sin implicar orden entre ellas. Ejemplo:  Lugar de nacimiento (Trujillo, Chiclayo, Salas)  Estado Civil o conyugal (soltero, casado, viudo, divorciado, separado, conviviente)  Idioma de los habitantes de la tierra (castellano, inglés, francés, italiano, chino mandarín, etc.)  Religión que profesa (católico, evangélico, musulmán, etc.) b) Variable Cualitativa Ordinal: Son aquellas que agrupan a los objetos, individuos, en categorías ordenadas, para establecer relaciones comparativas. Ejemplo:  Nivel de pobreza ( no pobre, pobre, muy pobre, extremadamente pobre)  Categoría de un docente universitario ( principal, asociado, auxiliar) 2.- Variables Cuantitativas Son aquellas que expresan el valor de la variable por una cantidad, es de carácter numérico. El dato o valor puede resultar de la operación de contar o medir. Las variables cuantitativas pueden ser: discreta y continua. a) Variable cualitativa discreta: Cuando el valor de la variable resulta de la operación de contar, su valor está representado sólo por números naturales (enteros positivos) Ejemplo:  Número de accidentes de buses en la panamericana norte  Número de hogares por vivienda en el distrito de San Juan de Lurigancho b) Variable cualitativa continúa: Cuando el valor de la variable puede tomar cualquier valor dentro de un

11

Estadística General ciclo 2013-I

rango dado, por tanto se expresa por cualquier número real. Ejemplo:  Producción de azúcar de la fábrica Casagrande en el año 2011  Hectáreas de cultivo de arroz en la Región San Martin en el año 2012 SEGÚN LA RELACIÓN ENTRE VARIABLES 1.- Variables Independientes: (VI) Son las variables explicativas o predictivas, cuya asociación, relación o influencia en la variable dependiente se pretende descubrir en la investigación. Las variables independientes son los que traducen o explican las causas o razones de las variaciones en la variable dependiente. 2.- Variables Dependientes: (VD) Son aquellas que se explican por otras variables, son los efectos o resultados respecto a los cuales hay que buscar un motivo, causas o razón de ser. Es la variable que traduce la consecuencia del efecto de una o varias razones o causas, de otras variables.  Simplificando, en la relación de variables, las causas o antecedentes serían las variables independientes y el efecto o consecuente es la variable dependiente. Ejemplos:  El volumen de ventas (VD) se explica por la inversión en publicidad (VI)  El gasto familiar (VD) depende del ingreso familiar (VI)  Ventas de casas (VD) depende de la tasa de interés (VI) 3.- Variables Intervinientes o Interferentes Son aquellas que coparticipan con la variable independiente condicionando el comportamiento de la variable dependiente. Ejemplos:  El escaso fomento de la educación alimentaria en la población, genera mayor desnutrición infantil en las familias con bajo nivel de instrucción. Educación alimentaria (VI) Desnutrición infantil (VD) Nivel de instrucción (V. Interviniente) 

El bajo nivel de instrucción, es uno los factores que posibilita el poco interés de los padres, en el control de crecimiento y desarrollo de los niños de familias de estrato socio económico bajo. Nivel de instrucción (VI) Crecimiento y desarrollo (VD) Estrato socio económico (V. Interviniente)

ESCALA DE MEDICIÓN DE LAS VARIABLES Las variables no sólo de clasifican, sino también es necesario medirlas. La medición se hace con el fin de diferenciar por comparación, un elemento de otro, en las características de la variable. Este se hace a través de niveles o escalas, entre las cuales tenemos: 1.- Escala Nominal Es el nivel más simple de medición donde las variables en escala nominal son de naturaleza cualitativa solamente permiten establecer categorías sin orden. En este nivel las categorías sólo se nombran o se enumeran, pero no se comparan.

12

Estadística General ciclo 2013-I

Ejemplo:  Lugar de nacimiento (Lambayeque, Lima, Ica, Cuzco, etc.)  Deporte que practica ( Futbol, Básquet, Vóley, Natación)  Colegio de Procedencia (Estatal, Particular) Las variables que sólo tienen dos categorías se llaman variables dicotómicas. 2.- Escala Ordinal Es el segundo nivel de medición donde las variables establecen categorías jerarquizadas, pero no grados de distancia iguales entre ellas; las categorías expresan una posición de orden. Ejemplo:  Orden de mérito académico en un colegio (primero, segundo, tercero, etc.)  Nivel de calificación a alguna autoridad pública ( Muy bueno, bueno, regular, malo y muy malo)  Grado de instrucción (Sin instrucción, inicial, primaria, secundaria, superior no universitaria, superior universitaria, post grado) 3.- Escala de Intervalo Es el tercer nivel de medición, entre cuyos diversos valores que toma la variable existen a la vez, clasificación, orden, y grados de distancia iguales entre las diferentes categorías, es decir, los intervalos son considerados como equivalentes y con un origen convencional, la unidad de medida no necesariamente empieza de cero; sólo sirve como punto o valor de comparación. Ejemplo:  La temperatura  Las puntuaciones obtenidas en un test psicológico  Coeficiente de inteligencia 4.- Escala de Razón o Proporción Es el nivel más alto de medición y donde la variable supone o comprende a la vez todos los casos anteriores: clasificación, orden, distancia y origen único natural. Tiene un cero absoluto, el cero representa la ausencia de la característica estudiada. Ejemplo:  La edad en años  Las distancias  Producto bruto interno Ejemplo: entre la escala de razón y de intervalo  Escala de Razón Antonio tiene una estatura de 1.85 m y Felipe de 1.62 m, entonces Antonio es 114% tan alto como Felipe (1.85/1.62 = 1.14), o simplemente Antonio es 14% más alto que Felipe.  Escala de Intervalo Sin embargo el Coeficiente de Inteligencia) no tiene la cualidad de proporción. Enzo tiene un CI de 130 y Diego de 100, no se puede decir que Enzo es 30% más inteligente que Diego. ORGANIZACIÓN Y PRESENTACIÓN DE INFORMACIÓN ESTADÍSTICA Frente a un conjunto de datos, el primer paso a dar, debe ser expresado y clasificarlo de acuerdo a criterios convenientes, que permitan ver rápidamente todas las características útiles, ya sea directamente o por medio de cálculos posteriores. PRESENTACIÓN DE INFORMACIÓN ESTADÍSTICA La información estadística puede presentarse de dos formas:

13

Estadística General ciclo 2013-I

1.- Mediante cuadros o tablas 2.- Mediante gráficos. Presentación de datos en cuadros estadísticos El cuadro estadístico es el arreglo ordenado en filas y columnas, de los datos estadísticos o características de un fenómeno. También se llama “cuadro de análisis”, cuyo objetivo es ofrecer información estadística de fácil lectura comparación e interpretación. PARTES DE UN CUADRO ESTADÍSTICO. Las partes de un cuadro estadístico son: 1 Número del cuadro; 2 Título; 3 Cuadro propiamente dicho; 4 Las notas explicativas o calce; 5 Fuente. 1.-NÚMERO DEL CUADRO.- Es el código de identificación del cuadro. Este número se escribe a continuación de la palabra” cuadro”, por ejemplo cuadro No 2.5, indica el quinto cuadro del capítulo dos. 2.- TÍTULO.- Es la identificación que preside la tabla y es colocada en la parte superior de la misma. El título debe reunir las condiciones siguientes: a.- ser completo; b.- ser conciso. a.- SER COMPLETO: Un título completo debe indicar claramente cuál es el contenido del cuadro estadístico. Debe responder a las preguntas: Qué, Cómo, Dónde y Cuándo QUE: A qué se refiere la tabla que se estudia. Cuál es el universo que se investiga. Ejemplo Alumnos matriculados COMO: Cómo se estudia, de acuerdo a cuáles características se clasifican los individuos u objetos estudiados. Las variables ubicadas en las filas se identifican con la proposición “según” y las de las columnas con la proposición “por” Ejemplo Por sexo y según especialidad CUANDO: Momento o periodo de tiempo a que se refiere el estudio. Ejemplo Ciclo 2011 - II DONDE: Lugar a que se refiere la información. Ejemplo Universidad Particular de Chiclayo b.- SER CONCISO.- El título debe ser breve, lo más conciso posible, aunque no debe sacrificarse la claridad a la concisión. 3.- CUADRO PROPIAMENTE DICHO.- Es la parte del cuadro que contiene la información y consta de un conjunto de casillas o celdas, dispuestas en columnas y filas. Sus elementos esenciales son: encabezamiento de las columnas, columna principal o matriz y cuerpo. ENCABEZAMIENTO.- Es la primera fila del cuadro, en él se explica las categorías, y el objeto de cada una de las columnas, es decir indica la naturaleza de los datos inscritos en cada una de las celdas que se hallan debajo. Deben ser breves y explícitos. COLUMNA PRINCIPAL O MATRIZ.- Es aquella en que se anotan las categorías o las diferentes clases de la escala de clasificación utilizada. CUERPO.- Es el conjunto de celdas o casillas, que son las intersecciones de filas y columnas, donde están anotados los datos numéricos. 4.- NOTAS EXPLICATIVAS O CALCE O NOTA DE PIE O LLAMADAS: Se usa para aclarar algunos términos o siglas también para indicar que elementos están o no incluidos en algunos de los conceptos del cuadro. 5.- FUENTE.- Sirve para nombrar la publicación, entidad, estudio o fuente de donde se obtuvieron los datos utilizados para construir el cuadro. Hay dos tipos de fuentes: a.- Primaria.- Cuando se obtiene directamente de la unidad de análisis o cuando se recurre a los propios formularios de una encuesta. b.- Secundaria.- Cuando se recurre a documentos, boletines o cuadros estadísticos publicados. CONSTRUCCIÓN DE TABLAS DE FRECUENCIA

14

Estadística General ciclo 2013-I

Las tablas de frecuencia o distribución, son tablas de trabajo estadístico, que presentan la distribución de un conjunto de elementos agrupados o clasificados en las diversas categorías de las variables. Las tablas presentan diversos tipos de frecuencia (absoluta, relativa o acumulada). Para construir una tabla de frecuencias se siguen los siguientes pasos: a.- La clasificación.- que consiste en determinar las categorías, los distintos valores que toman las variables o los intervalos de clase. b.- Tabulación.- que consiste en contabilizar cuantas veces se repite cada uno de los distintos valores o categorías de las variables. TABLA DE VARIABLE CUALITATIVA Ejemplo.- La empresa constructora “Techito” de Chiclayo contrató a 20 obreros para construir un edificio en el cercado de la ciudad, en sus fichas de inscripción de cada obrero se registró su estado civil, los datos son los siguientes:

X 1 ═ Soltero

X 6 ═ Viudo

X 11 ═ Casado

X 16 ═ Casado

X 2 ═ Casado

X 7 ═ Soltero

X 12 ═ Soltero

X 17 ═ Casado

X 3 ═ Viudo

X 8 ═ Divorciado

X 13 ═

X 18 ═

X 4 ═ Soltero

X 9 ═ Casado

X 14 ═ Viudo

X 19 ═ Divorciado

X 5 ═ Divorciado

X 10 ═Casado

X 15 ═ Soltero

X 20 ═ Casado

Divorciado

Soltero

Con esta información construir una tabla de distribución de frecuencia para la variable estado civil (X) y representarla gráficamente. 1.- Clasificación.- Se identifican las clases o categorías que corresponden a la variable cualitativa, las cuales deben ser mutuamente excluyentes. Clases o categorías: Soltero Casado Divorciado Viudo 2.-Tabulación: Se realiza el tarjeo de datos (cuantos datos corresponden a cada clase) Clase Soltero Casado Divorciado Viudo

Conteo ///// / ///// // //// ///

f i ó ni 6 7 4 3

Tabla No 1 Distribución de 20 obreros de la empresa “Techito” de Chiclayo, según su estado Estado civil

No de obreros

f i ó ni

civil. Abril 2012.

hi %

15

Estadística General ciclo 2013-I

Soltero

6

30

Casado

7

35

Divorciado

4

20

Viudo

3

15

Total

20

100

Fuente: Fichas de inscripción, oficina de personal Interpretación: El 30% de obreros son solteros (6), el 35% son casados (7), el 20% son divorciados (4) y el 15 % son viudos (15). Gráfico No 1 Distribución de 20 obreros de la empresa “Techito “de Chiclayo según su estado civil. Abril 2013

TABLA DE VARIABLES CUANTITATIVAS TABLAS DE VARIABLES CUANTITATIVAS DISCRETAS Ejemplo.- Se realiza un estudio para determinar el número de trabajadores que emplea las pequeñas empresas del Departamento de Lambayeque, para lo cual se tomó una muestra de 20 pequeñas empresas determinándose los siguientes datos

X1 ═ 6

X2 ═

X6

X 11 ═ 4

X 16 ═ 3

X 12 ═ 5

X 17 ═ 4

X 13 ═

X 18 ═

═3

X7

5

═4

X3 ═

X8 ═

4

4

6

6

16

Estadística General ciclo 2013-I

X4 ═

X9

4

X 14 ═ 2

X 19 ═ 5

X 15 ═ 4

X 20 ═ 3

═5

X5 ═

X 10

5

═5

Clasificación.- En este caso se identifican los distintos valores que tiene Xi y ubicamos el mayor y menor valor:

X min =2 y X m á x =6

Los diferentes valores que toma la variable Xi los vamos a denotar por Yi ó ni

Y 1=2 Y 2=3 Y 3=4 Y 4 =5 Y 5=6 Tabla No 2 Distribución del número de trabajadores en 20 pequeñas empresas del Departamento de Lambayeque. Agosto 2013. No de trabajadores (

Y i¿

Tarjas

Frecuencia (

2

/

1

3

///

3

4

///// //

7

5

///// /

6

6

///

3

Total

fi )

20

TABLA PARA DATOS CONTINUOS Designemos también el conjunto original de datos u observaciones por x 1 , x 2,…… . , x n siendo n el tamaño del conjunto y donde estos datos son del tipo continuo, para construir una tabla de frecuencia debemos calcular lo siguiente: Clases.- (m, K) se llaman clases a cada uno de los grupos en los que se divide el conjunto de datos. No hay una regla fija para determinar el número de clases, K = 2,5

√4 n

K = 1 + 3,3 log n

17

Estadística General ciclo 2013-I

5

≤ K ≤ 20

Rango. - (R) Diferencia entre la observación que tiene el valor máximo y la observación que tiene el valor minino, también se conoce como recorrido ó amplitud total.

X M −X m

R=

Intervalo de clase (I).- es el cociente que resulta de dividir la amplitud total ó rango entre el número de clases. Una tabla tiene la siguiente forma

Y 'i – 1 ' yi



Y '0 – ' y1 '

Y1



y

y 'i

ni

hi

Ni

Hi

Y1

n1

h1

N1

H1

Y2

n2

h2

N2

H2

Ym

nm

hm

Nm

Hm

' 2

Y 'm – 1 ' ym



Marca de clase.-Es el punto medio de un intervalo o clase Frecuencia absoluta-Llamada también frecuencia absoluta simple, es el número de veces que se repite los valores dentro de las diferentes clases (intervalo) en la que está dividida la información Frecuencia relativa.- se denomina frecuencia relativa del valor de

y i al cociente de la frecuencia absoluta

y i y el número total de observaciones. Se denota por hi hi=

Frecuencia absoutade yi n = i N ú mero tota de observaciones n

Frecuencia absoluta acumulada.- Se llama frecuencia absoluta acumulada correspondiente al valor al número de observaciones menores o iguales a

yi

y i se denota por “ N i 18

Estadística General ciclo 2013-I

N i=n1 +n 2+ n3+ … …+ni : 1

N 1=∑ n j =n1 J =1 2

N 2=∑ n j=n1+ n2 j=1 3

N 3=∑ n j=n1+ n2 +n3 j=1 4

N 4 =∑ n j=n1 +n2 +n 3+ n4 j=1 5

N 5=∑ n j=n1+ n2 +n3 +n 4+ n5 j=1

Y así sucesivamente Frecuencia relativa acumulada.- se llama frecuencia relativa acumulada del valor relativa total de las observaciones menores o iguales a Se denota como “

yi

a a frecuencia

yi

Hi “

H i=h1 +h 2+ … … .+ hi =

n1+ n2+ n3 +… .+ni n

I

H i =∑ h j j=1

Entonces tenemos: 1

H 1=∑ h j=h 1 j=1 2

H 2=∑ h j=h1+ h2 j=1 3

H 3=∑ h j=h1+ h2+ h3 j=1 4

H 4 =∑ h j=h1 +h2 +h3 + h4 j =1

19

Estadística General ciclo 2013-I

5

H 5=∑ h j=h1+ h2+ h3 +h4 + h5 j=1

Así sucesivamente PROPIEDADES DE LAS FRECUENCIAS 1.- Las frecuencias absolutas y las frecuencias acumuladas absolutas son siempre enteros no negativos

ni ≥0 y N i ≥ 0

para i

¿ 1, 2, 3,……., m

2.- La suma de todas las frecuencias absolutas es igual al número total del conjunto de observaciones.

ni=¿ n1+ n2+ … …+nm =n m

∑¿ i=1

3.- Las frecuencias relativas y las frecuencias relativas acumuladas son siempre número fraccionados no negativos, no mayores de uno. 0

≤ hi ≤ 1

0

≤ Hi

para i= 1, 2, ……., m

3.- La frecuencia absoluta acumulada correspondiente al valor de observaciones.

y m coincide con el número total conjunto

m

N m=∑ ni=n i=1

4.- La frecuencia relativa acumulativa correspondiente al valor

y m coincide con la unidad

m

H m=∑ hi=1 i =1

5.- Las frecuencias absolutas acumuladas cumplen las desigualdades siguientes

n1=N 1 ≤ N 2 ≤ … … .≤ N m

Para i = 1, 2, ……, m

6.- Las frecuencias relativas acumuladas cumplen las siguientes desigualdades

h1=H 1 ≤ H 2 ≤ … … .≤ H m

Para i = 1, 2, ………,m

Ejemplo Suponga que se han registrado 50 observaciones referentes a la altura (cm.) de planta de arroz (Oryza sativa L.) al momento de la cosecha 63 43 59 62

36 68 60 63

49 62 67 60

56 27 57 68

64 88 67 67

59 64 62

35 72 51

78 52 81

43 51 60

36 62 53

43 60 64

53 71 76

70 61 44

57 55 73

62 27 56

20

Estadística General ciclo 2013-I

A continuación ordenamos los datos de menor a mayor 27 55 62 73

27 56 62 76

35 56 63 78

36 57 63 81

36 57 64 88

43 59 64

43 59 64

43 60 67

44 60 67

49 60 67

51 60 68

51 61 68

52 62 70

53 62 71

53 62 72

El rango será R = 88 – 27= 61 El número de clases o intervalos será K =m =

4

2,5 √50=6,647 →7

El intervalo será I=

61 =9,17 6,647

A continuación calculamos: Marca de clase

(Y i ) .

- es la semisuma de los límites de clase. Es decir límite inferior más límite superior

entre dos. Frecuencia absoluta (

ni ¿ .−¿ Es el número de observaciones o de datos comprendidos entre los límites

de clase Frecuencia relativa.- se denomina frecuencia relativa del valor de

y i al cociente de la frecuencia absoluta

y i y el número total de observaciones. Se denota por hi

hi=

Frecuencia absoutade yi n = i N ú mero tota de observaciones n

h1 =

n1 5 n n 4 6 = =0,10 h2= 2 = =0,08 h3= 3 = =0,12 n 50 n 50 n 50

h4 =

n4 19 n 11 = =0,38 h5= 5 = =0,22 n 50 n 50

Y así sucesivamente Interpretación

h1

: 0,10 se interpreta como la proporción de plantas cuya altura está comprendida entre 27 y 36 cm. Inclusive

21

Estadística General ciclo 2013-I

h2 : 0,080 se interpreta como la proporción plantas cuya altura varía desde 36 hasta 45 cm. inclusive Y así sucesivamente Frecuencia absoluta acumulada.- Se llama frecuencia absoluta acumulada correspondiente al valor al número de observaciones menores o iguales a

yi

y i se denota por “ N i

N i=n1 +n 2+ n3+ … …+ni Para nuestro ejemplo será: 1

N 1=∑ n j =n1 J =1 2

N 2=∑ n j=n1+ n2=5+ 4=9 j=1 3

N 3=∑ n j=n1+ n2 +n3=5+ 4+ 6=15 j=1 4

N 4 =∑ n j=n1 +n2 +n 3+ n4 =5+4 +6+19=34 j=1 5

N 5=∑ n j=n1+ n2 +n3 +n 4+ n5=5+ 4+ 6+19+11=45 j=1

Y así sucesivamente. Interpretación.-

N 2=9 Significa que hay 9 plantas cuya altura de planta está comprendida entre 27 y 45 cm. Inclusive.. Frecuencia relativa acumulada.- se llama frecuencia relativa acumulada del valor relativa total de las observaciones menores o iguales a Se denota como “

yi

a a frecuencia

yi

Hi “

H i=h1 +h 2+ … … .+ hi =

n1+ n2+ n3 +… .+ni n

I

H i =∑ h j j=1

Para nuestro ejemplo

22

Estadística General ciclo 2013-I

1

H 1=∑ h j=h 1=0,10 j=1 2

H 2=∑ h j=h1+ h2=0,10+0,08=0,18 j=1 3

H 3=∑ h j=h1+ h2+ h3=0,10+ 0,08+0,12=0,30 j=1 4

H 4 =∑ h j=h1 +h2 +h3 + h4=0,10+0,08+0,12+0,38=0,68 j =1 5

H 5=∑ h j=h1+ h2+ h3 +h4 + h5=0,10+ 0,08+0,12+0,38+0,22=0.90 j=1

Así sucesivamente Interpretación:

H 2 = 0,18, es la proporción de las plantas cuya altura de planta varia de 27 à 45 cm. inclusive.

H 3 = 0,30 la proporción de plantas cuya altura de plantas está comprendida entre 27 y 54 cm. inclusive. Así sucesivamente La tabla de distribución de frecuencias será

Y 'i – 1 ' yi



fi

Y 'i

hi

Fi

Hi

27 – 36

31.5

5

0,10

5

0,10

36 – 45

40.5

4

0,08

9

0,18

45 – 54

49.5

6

0,12

15

0,30

54 – 63

58.5

19

0,38

34

0,68

63 – 72

67.5

11

0,22

45

0,90

72 – 81

76.5

4

0,08

49

0,98

81 – 90

85.5

1

0,02

50

1,00

23

Estadística General ciclo 2013-I

Interpretación:

i=¿ 5 plantas de arroz tienen una altura comprendida entre 27 y 36 cm respectivamente. f i =n¿ F2 = 9 plantas de arroz tienen una altura comprendida entre 27 y 45 cm inclusive h4 =0.38 ó 38% de las 50 plantas de arroz tienen una altura comprendida entre 54ny 63 cm inclusive REPRESENTACIÓN GRÁFICA La aplicación de gráficos para la representación del fenómeno estadístico, se le atribuye a William Playfair, a fines del siglo XVIII. Un gráfico es la representación de un fenómeno estadístico por medio de figuras geométricas, (punto, líneas, rectángulo, etc.) cuyas dimensiones son proporcionales a la magnitud de los datos representados. Su objeto principal es la representación de los datos de forma gráfica, que permita de un solo golpe de vista darse cuenta del conjunto de elementos presentados y evidenciar sus variaciones y características. El gráfico es un auxiliar del cuadro estadístico, no lo sustituye sino que lo complementa. VENTAJAS Y DESVENTAJAS DEL GRÁFICO . El gráfico tiene la ventaja sobre el cuadro, de permitir apreciar más rápidamente los datos y abarcar todo su conjunto. La construcción del gráfico se basa en el cuadro estadístico, pero tiene sus limitaciones, como la siguiente: . El gráfico no puede presentar tantos grupos de datos como una tabla. Un cuadro puede tener 4 o más columnas de datos, sin embargo representado esto en un gráfico, dificulta su comprensión. . En los cuadros pueden darse valores exactos, en los gráficos muchas veces solo valores aproximados. PARTES DE UN GRÁFICO. Al igual que en los cuadros estadísticos, en los gráficos se considera las siguientes partes: 1. El título, 2. El gráfico propiamente dicho, 3. Las notas explicativas Sobre el título y las notas explicativas no es necesario redundar, pues vale todo lo expresado con relación a los cuadros estadísticos. IMPORTANCIA Los gráficos son importantes por lo siguiente: a.- Son esenciales en el estudio y presentación de trabajos estadísticos. Los datos trasformados en dibujo permiten un examen visual que constituye, la primera etapa de un análisis e interpretación de datos b.- Permite observar en forma instantánea el comportamiento de la variable o variables materia de estudio. c.-Permite formar una idea bastante aproximada sobre las tendencias de las variables en estudio. Para graficar se utiliza el sistema cartesiano. El eje X o ejes de las abscisas se utiliza para poner la variable en estudio y el eje Y o eje de ordenadas se utiliza para las frecuencias absolutas o relativas.

24

Estadística General ciclo 2013-I

TIPOS DE GRÁFICOS GRÁFICOS PARA VARIABLE CUALITATIVA GRÁFICO DE BARRAS SIMPLES Para su elaboración se debe contar con u tabla o cuadro de entrada simple. En su construcción se debe observar lo siguiente: .- Todas las barras tienen el mismo ancho. .- El espacio entre barra y barra debe ser la misma, y constituye la mitad del ancho de la barra. .- El ancho de la barra debe ser el doble del espacio que se deja entre barra y barra. .- El eje de las ordenas (Y), la longitud entre la escala y escala debe ser la misma que la longitud entre escala y escala del eje de las abscisas (X). .- Preferentemente construir las barras en orden decreciente de magnitud, en orden alfabético, cronológico, etc. Cuadro No 2 Pacientes atendidos en el Hospital Regional Docente “Las Mercedes” Chiclayo, según grado de instrucción. Mayo. 2012. Grado de Instrucción Analfabetos Primaria Secundaria Superior Total

ni ó f i 36 24 16 04 80

hi 45 30 20 05 100

GRAFICA DE BARRAS COMPUESTAS Para su elaboración se debe contar con un cuadro de doble entrada. Ejemplo Graficar la siguiente información. Tabla No 3

25

Estadística General ciclo 2013-I

Pacientes atendidos de intoxicación alcohólica por sexo según grado de instrucción en el Hospital Nacional Almanzor Aguinaga Asenjo de Chiclayo. Agosto 2013. Grado de Instrucción

Sexo Masculino

Analfabeto Primaria Secundaria Superior Total

Femenino

14 8 4 1 27

22 16 12 3 53

Total 36 24 16 4 80

GRAFICO CIRCULAR: Se usa para representar la dimensión de las partes de un fenómeno total. Par su elaboración se utiliza la circunferencia, siendo necesario que los valores absolutos y/o porcentajes sean traducidos a grados Ejemplo Teniendo en cuenta la información del cuadro 5 construir un gráfico circular. Solución Sabemos que la circunferencia tiene un total de los grados par cada una de las clases

360

Analfabetos 100 %

162

x=

45 ×360 100

=

o

100%

360%

x=

20 × 360 100

=

o

72

Primaria

108

, utilizando la regla de tres simple, se encuentran

Secundaria 360%

100%

o

Superior 360%

x=

30 × 360 100

=

100%

360%

x=

5 × 360 100

=

o

18

o

26

Estadística General ciclo 2013-I

HISTOGRAMA O HISTOGRAMA DE DISTRIBUCIÓN DE FRECUENCIAS Puede usarse para representar tanto variable cualitativas como cuantitativas. Es un diagrama en el que se representan las marcas de clase en el eje horizontal y las frecuencias de clase en el eje vertical. Las frecuencias de clase pueden ser representadas por las alturas de barras y estas se colocan adyacentes.

POLIGONO DE FRECUENCIA O POLIGONO DE DISTRIBUCION DE FRECUENCIAS Es similar al histograma, consiste en segmentos de recta que unen los puntos medios determinados por la intersección de los puntos medios de clase, marca de clase y las frecuencias de clase. Así mismo es importante resaltar que: . Es exclusivo para datos cuantitativos. . Se puede elaborar con las frecuencias absolutas, con la frecuencia relativa o el porcentaje. . Es una gráfica de punto y línea sobre el eje cartesiano . Sirve para observar la forma de distribución. . Lo importante en el polígono es mantener el área bajo la curva igual al área acumulada en

el histograma,

para lo cual: Se añade una marca de clase anterior a la primera (restándole una amplitud) Se añade una marca de clase posterior a la última (sumándole la amplitud) Se le adjudica frecuencia igual a cero a estas marcas de clase adicionales. Se grafica utilizando las marca de clase adicionales.

27

Estadística General ciclo 2013-I

MEDIDAS DE TENDENCIA CENTRAL O PROMEDIOS El agrupamiento de la información en clases tiene la ventaja de presentar una serie de observaciones en una forma más compacta. Sin embargo, para muchas aplicaciones, la distribución de frecuencias resulta todavía no muy clara, y nos gustaría contar con un solo valor que represente el orden general de magnitud de los datos observados. Este valor resume u conjunto de datos, el cual señala el centro de los valores Los datos a analizar se obtendrán de una muestra aleatoria de una población grande o directamente de la misma población. Distinguiremos estas dos cosas usando nomenclatura diferente. Así: Muestra n

Número de elementos Media Varianza

Población N µ

x 2 s

σ

2

MEDIA La medida de localización más importante es la media, o valor promedio de una variable. La media proporciona una medida de localización central de los datos. Si los datos son de una muestra, la media se denota ´x ; si los datos son de una población, la media se denota con la letra griega µ. En las fórmulas estadísticas se acostumbra denotar el valor de la primera observación de la variable x con x 1, el valor de la segunda observación de la variable x con x 2 y así sucesivamente. En general, el valor de la iésima observación de la variable x se denota xi .La fórmula para la media muestral cuando se tiene una muestra de n observaciones es la siguiente. Población

Muestra

N

∑ xi μ= La media muestral

x

i=1

N

n

∑ xi

x= i=1 n

un estadístico muestral.

En la fórmula anterior el numerador es la suma de los valores de la n observaciones. Es decir: ∑ xi = X1 + X2 + . . . + Xn

28

Estadística General ciclo 2013-I

La letra griega

: es el símbolo de sumatoria (suma).

Para ilustrar el cálculo de la media muestral, considere el siguiente ejemplo: El número de créditos matriculados por 5 estudiantes es: 16

24

12

16

22

Se emplea la notación x1, x2, x3, x4, x5 para representar el número de créditos matriculados por alumno. x1 = 16

x2 = 24

x3= 12

x4= 16x5 = 22

Por lo tanto, el cálculo de la media muestral, será: =

16+ 24+12+16+ 22 5

=

18

La media muestral del número de créditos matriculados es 18. En la ecuación de la media muestral, se muestra cómo se calcula la media en una muestra de n observaciones. Para calcular la media de una población use la misma fórmula, pero con una notación diferente para indicar que trabaja con toda la población. El número de observaciones en una población se denota N y el símbolo para la media poblacional es µ La media muestral

es un estimador puntual de la media poblacional

.

La media para datos agrupados (datos tabulados) Si los datos han sido clasificados en m clases en una tabla de frecuencia con marca de clase yi y frecuencia absoluta datos está definida por:

x=

f i = 1,2,……..,m, la media aritmética de estos

∑ f i yi n

PROPIEDADES DE LA MEDIA 1.- Si todos los valores observadosx 1, x2, ……….xn son iguales a b (donde b es una constante) entonces la media de una constante es la misma constante M(x) = M (b) = b 2.- Si a cada valor de las observaciones x1, x2, ………xn se le suma ( o se resta) una constante, la media del nuevo conjunto transformado yi= xi constante. Es decir

Donde yi = xi ± b,

b= constante,

b ; es la media aritmética del conjunto original más (o menos) la

i = 1,2,………….,n

29

Estadística General ciclo 2013-I

3.- Si cada valor de un conjunto x1, x2, ………….,xn se multiplica por una constante diferente de cero, la media aritmética del conjunto transformado yi = axi, donde i= 1,2,……,n es la media aritmética del conjunto original multiplicado por la constante. O sea:

4.- La suma algebraica de las desviaciones de cada valor observado x 1, x2,x3,…..xn con respecto a su media es cero. Esta propiedad significa que,

Para datos agrupados esta propiedad se transforma en

m = número de clases

f i = frecuencia absoluta de la clase i yi = punto medio del intervalo i (marca de clase) 5.- Si x1,x2,………,xn, y , y1,y2,……yn son dos conjuntos de observaciones de n valores cada uno, de dos variables X y Y, expresados en las mismas unidades, entonces M(x ± y) = M(x) ± M(y) 6.- En casos especiales, esto es cuando es apropiado hacerlo, la media aritmética se puede utilizar para estimar la cantidad total de una población. Esta propiedad indica que Total = N Media aritmética a partir de sub muestras.- Supongamos que de una población (o de dos poblaciones diferentes) se obtienen dos muestras de tamaños n1 y n2 respectivamente, Sean y las medias aritméticas de las muestras, entonces la media asociada de las n1 + n2 observaciones está dada por

Esto se generaliza para más de dos muestras MEDIA PONDERADA Se utiliza cuando la importancia de las observaciones varía.

X i = Valor de la observación i W i = Peso de la observación i

30

Estadística General ciclo 2013-I

VENTAJAS DE LA MEDIA 1.- Es un concepto familiar a la mayoría de las personas e intuitivamente claro 2.- Es una medida que puede ser calculada y es única. Ya que cada conjunto de datos tiene una y sólo una media. 3.- En el cálculo de la media, es tomada en cuenta cada observación del conjunto de datos. 4.- La media es una medida digna de confianza, porque se determina con mayor certeza que otras características de un conjunto de datos DESVENTAJAS DE LA MEDIA 1.- La media aritmética puede verse afectado por valores extremos que no son representativos del resto de las observaciones. MEDIA GEOMÉTRICA Tiene dos usos principales: 1.- Para promediar porcentajes, índices y cifras relativas. 2.- Para determinar el incremento porcentual promedio en ventas, producción u otras actividades o series económicas de un periodo a otro. La media geométrica (Mg) de un conjunto de n números positivos se define como la raíz n- ésima del producto de los n números. MG

¿ √n X 1 X 2 X 3 … … … . X n

Nota: si uno de los números es cero o negativo no se puede calcular la media geométrica Ejemplo Supóngase que las utilidades obtenidas por una compañía constructora en cuatro proyectos fueron de 2,3,4 y 6 % respectivamente. ¿Cuál es la media geométrica de las ganancias? MG

4

¿ √2 x 3x 4 x 4

MG = 3.46.41 La media geométrica de las utilidades es 3.46%

MEDIA ARMÓNICA (MH) Este promedio se define diciendo que es igual a la media aritmética del reciproco de los valores de una variable.

31

Estadística General ciclo 2013-I

Se aplica cuando se desea promediar datos de una variable dada en forma de tasas, esto es, tanta unidades de un tipo por cada unidad de otra especie; pero también se utiliza para promediar datos inversamente proporcionales. Su mayor uso se realiza en el cálculo de la velocidad promedio Para datos sin agrupar:

Mh

n

¿

1

∑x

n

Para datos agrupados:

n Mh =

n1 n2 n3 n + + + … … .+ m y1 y2 y3 ym

MEDIANA La mediana es otra medida de localización central. Es el punto medio de los valores después de ordenarlos de menor a mayor o de mayor a menor. Este valor indica que a lo sumo el 50% de las observaciones se encuentran por arriba de la mediana y el otro 50% a lo sumo, por debajo de ella. Cuando tiene un número impar de observaciones, la mediana es el valor central. Cuando la cantidad de observaciones es par, no hay un número central. En este caso, la mediana es definida como el promedio de las dos observaciones centrales. CALCULO DE LA MEDIANA (datos sin agrupar) Ordenar los datos de menor a mayor (en forma ascendente). a. b.

Si el número de observaciones es impar, la mediana es el valor central. Si el número de observaciones es par, la mediana es el promedio de las dos observaciones centrales

Apliquemos esta definición para calcular la mediana del número de alumnos matriculados en un grupo horario a partir de la muestra de cinco grupos horarios de la universidad. Los datos en orden ascendente son 32

42

46

46

54

Como n = 5 es impar, la mediana es el valor central. De manera que la mediana del tamaño de los alumnos matriculados en un grupo horario, es 46. Aun cuando en este conjunto de datos hay dos observaciones cuyo valor es 46, al poner las observaciones en orden ascendente se toman en consideración todas las observaciones. Suponga que también desea calcular la mediana del número de créditos matriculados de 12 alumnos de la escuela profesional de Agronomía 12

23

17

26

23

18

17

22

20

21

20

21

22

22

23

23

22

24

Primero ordena los datos de menor a mayor 12

17

17

18

24

26

32

Estadística General ciclo 2013-I

Los dos valores centrales

Como n = 12 es par, se localizan los dos valores centrales: 21 y 22. La mediana es el promedio de estos dos valores. Mediana =

21+22 2

= 21.5

Aunque la media es la medida de localización central más empleada, en algunas situaciones se prefiere la mediana. A la media la influyen datos muy pequeños o considerablemente grandes Por ejemplo, la media de los datos del ejemplo anterior es 20.41. Ahora suponga que el primer estudiante no se matriculó en 12 créditos sino en 4, la media seria 19.75.Podremos ver que la mediana no varía en ningún caso. Al generalizar lo anterior, es posible decir que cuando los datos contengan valores extremos, es preferible usar a la mediana como medida de localización central. LA MEDIANA PARA DATOS AGRUPADOS

Me

¿y

' i−1

[ ]

n −N i−1 2 + cj N i−N i−1

cj = amplitud de la clase mediana Nj = Frecuencia absoluta acumulada de la clase medina n = número de observaciones

y 'i−1 = Límite inferior de la clase mediana VENTAJAS DE LA MEDIANA 1.- La mediana es fácil de entender y puede ser calculada a partir de cualquier clase de datos 2.- La mediana está afectada por el número de observaciones y no por la magnitud de cualquier extremo 3.- Se puede encontrar la mediana inclusive para datos cualitativos ordinal. DESVENTAJAS DE LA MEDIANA 1.- Se debe organizar los datos antes de realizar cualquier tipo de cálculo para determinar la mediana. 2.- La mediana no es adecuada a manipulaciones algebraicas posteriores MODA La tercera medida de localización es la moda. La moda se define como el valor que se presenta con mayor frecuencia. Es decir, la moda es el valor más común o predominante.

33

Estadística General ciclo 2013-I

Para ilustrar cómo identificar a la moda, considere la muestra del tamaño de los cinco grupos de la universidad. El único valor que se presenta más de una vez es el 46. La frecuencia con que se presenta este valor es 2, por lo que es el valor con mayor frecuencia, entonces es la moda. Hay situaciones en que la mayor frecuencia se presenta en dos o más valores distintos. Cuando esto ocurre hay más de una moda. Si los datos contienen más de una moda se dice que los datos son bimodales. Si contienen más de dos modas, son multimodales. En los casos multimodales casi nunca se da la moda, porque dar tres o más modas no resulta de mucha ayuda para describir la localización de los datos. La moda para datos agrupados

'

Mo ¿ Y i−1

nj-1 nj nj+1 cj

j+1 n j −n¿ ¿ n −n ( j j−1 ) +¿ n j−n j−1 ¿ + c j¿

= límite inferior de la clase modal = frecuencia absoluta de la clase premodal = frecuencia absoluta de la clase modal = frecuencia absoluta de la clase posmodal = amplitud de la clase modal

VENTAJAS DE LA MODA 1.- La moda se puede utilizar como una medida de localización tanto para datos cualitativos como cuantitativos 2.- La moda no está indebidamente afectada por valores extremos DESVENTAJAS DE LA MODA 1.- Muy a menudo, no hay un valor modal porque el conjunto de datos no contiene valores que se repitan más de una vez. Otras veces, cada valor es la moda, porque cada uno aparece el mismo número de veces. Claramente, la moda no es una medida útil en estos casos 2.- Cuando el conjunto de observaciones contiene dos, tres o más modas, éstas son difíciles de interpretar y comparar. RELACIÓN ENTRE MEDIA. MEDIANA Y MODA EN DISTRIBUCIONES SIMÉTRICAS Y ASIMÉTRICAS 1.- En una distribución de frecuencias simétrica cuya representación gráfica es acampanada y además unimodal; coinciden exactamente en el mismo valor, media, mediana y moda.

34

Estadística General ciclo 2013-I

2.- Si la distribución tiene la forma acampanada, es unimodal, pero no tiene simetría, las tres medidas toman valores diferentes, y la mediana queda comprendida generalmente entre la moda y la media aritmética MEDIDAS DE POSICIÓN NO CENTRALES O CUANTILES Son medidas de posición que no necesariamente reflejan la tendencia central de la distribución de frecuencias: A este tipo de medidas se les llama cuantiles, que son los valores de la variable que dividen a la distribución en intervalos que contienen el mismo número de observaciones. Los cuantiles más usados son los cuartiles, Q j , los deciles,

D j y los percentiles,

Pj .

PERCENTILES El p – ésimo percentil es un valor tal que, a lo sumo, p por ciento de las observaciones son menores o iguales que este valor y, a lo sumo, (100 – p) por ciento de las observaciones son mayores o iguales que este valor. Calculo del i – ésimo percentil para datos no agrupados Se siguen los siguientes pasos: 1.- Ordenar los datos de forma ascendente. 2.- Calcule un índice k: K=

[ ] i 100

n

Donde i es el percentil de interés y n es la cantidad de observaciones 3.- Si k no es entero, se redondea. El valor del entero inmediato superior que k indica la posición del i – ésimo percentil. Si k es entero, el i – ésimo percentil es el promedio de los valores de los datos ubicados en los lugares k y k – 1. Ejemplo Dada una muestra cuyos valores son: 53 55 70 58 64 57 72 53 69 57 68 53 Calcule los percentiles 30 y 75 Solución 1.- Se ordenan los datos de menor a mayor, esto es: 53

53

53

55

57

57

58

64

68

69

70

72

2.- Cálculo del índice k Para percentil 30

35

Estadística General ciclo 2013-I

¿

K

[ ] i 100

¿

n

[ ]

30 12=3.6 100

3.- Como k no es entero, redondeamos. El lugar del percentil 30 es el siguiente entero mayor de 3.6, es decir, el lugar 4. En este caso el percentil 30 es el valor del dato que ocupa la posición cuarta, o sea 55. Esto significa que el 30% de los datos es menor que 55 y el 70% mayor o igual a 55. Para percentil 75

¿

k

[ ] i 100

n

¿

[ ]

75 12=9 100

Como k es entero se establece que el percentil 75 es el promedio de los valores de los datos noveno y decimo; es por lo tanto.

[

68+69 2

]

¿ 68.5 Esto significa que el 75% de los datos, a lo sumo es menor

que 68.5 y a lo sumo el 25% mayor o igual que 68.5. Cálculo del i – ísemo percentil para datos agrupados Se siguen los siguientes pasos: 1.- Se calcula

¿ 100 , donde i ¿ 1, 2,3,………..,99

2.- Se identifica la clase que contiene el

Pi

por la frecuencia acumulada

3.- Se emplea la fórmula

Pi Donde:

¿Y

' i−1

[

¿ −F k−1 100 +cj f

' Y i−1 = Límite inferior de la clase que contiene a

]

Pi

n= Tamaño de la muestra o población.

j=¿ Tamaño del intervalo de clase c¿ F k−1

¿ Frecuencia acumulada de la clase anterior a la clase que contiene a

f = frecuencia simple de la clase que contiene a

Pi

pi

Ejemplo La tabla siguiente muestra la distribución de las edades de 120 personas '

'

Y i−1−Y i 30 – 40 40 – 50 50 – 60 60 – 70 70 – 80 80 – 90 90 - 100

f i ó ni

Fi ó N i

1 3 11 21 43 32 9

1 4 15 36 79 111 120

36

Estadística General ciclo 2013-I

Determine la edad mínima del 25% de las personas de más edad Solución La edad minina del 25% de las personas de más edad es el percentil 75, en ese sentido tenemos que encontrar las frecuencias acumuladas 1.- Se calcula

¿ 100

¿

2.- La clase que contiene al

75 x 120 =90 100 P75 es 70 – 80

3.- Utilizando la fórmula

Pi

P75

[

¿ −F k−1 100 ' ¿ Y i−1+ c j f ¿ 80+10

[

90−79 32

]

]

¿ 83.44

CUARTILES Dividen a la masa de datos en cuatro grupos iguales. El primer cuartil, ordenados a su izquierda, y el otro 75% a su derecha. El segundo cuartil,

Q1

deja el 25% de los datos

Q 2 , deja el 50% de los datos a

su izquierda y el otro 50% a su derecha, este valor coincide con la mediana, mientras que el tercer cuartil,

Q3

deja el 75% de los datos ordenados a su izquierda y el otro 25% a su derecha. Calculo de los cuartiles para datos ordenados. Los cuartiles son solo percentiles específicos; por lo tanto, los pasos para calcular los percentiles se pueden aplicar en forma directa para calcular los cuartiles. Esto es: Q 1=¿ Primer cuartil o percentil 25

Q2=¿ Segundo cuartil o percentil 50 Q 3=¿ Tercer cuartil o percentil 75

Ejemplo Los siguientes datos representan los sueldos mensuales para una muestra de 12 Ingenieros Agrónomos. 2850 2950 3050 2880 2755 2710 2890 3130 2940 3325 2920 2880 Determine el

Q1 y Q3

Solución

37

Estadística General ciclo 2013-I

Cuartil uno,

Q1

1.- Se ordenan los datos en forma ascendente 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325

Q1 es igual que calcular el P25 , en ese sentido se calcula el índice K

2.- Calcular el

k

¿

[ ] i 100

n

¿

[ ]

25 12=3 100

Como K es entero se establece que el percentil 25 es el promedio de los valores de los datos tercero y cuarto; es por lo tanto

[

2850+2880 2

]

¿ 2865. Esto significa que el 25% de los Ingenieros Agrónomos

tienen un salario mensual superior a 2865. Cuartil tres,

Q3 :

Implica calcular el percentil 75, entonces: 1.- Calcula el índice K k

¿

[ ] i 100

n

¿

[ ]

75 12=9 100

Como K es entero se establece que el percentil 75 es el promedio de los valores de los datos noveno y décimo;

es por lo tanto,

[

2950+3050 2

]

¿ 3000. Esto significa que el 75% de los Ingenieros Agrónomos

tienen un salario menor a 3000 y el otro 25% un salario mensual superior a 30000

Q1

Q2

Q3

2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 2865

2905

3000

Cálculo de cuartiles para datos no agrupados

Q1=Y

Q3=Y

' i−1

[

' i−1

3n −F k−1 4 +c j f

[ ]

n −F k−1 4 +c j f

Q2=Y

' i−1

[ ]

n −F k−1 2 +c j f

]

Donde

38

Estadística General ciclo 2013-I

' Y i−1=¿ Limitre inferior de la clase que contiene al cuartil i

n=Número de datos F k−1 =¿ Frecuencia acumulada de la clase anterior de la clase que contiene al cuartil i f = frecuencia de clase simple de la clase que contiene al cuartil

c j = tamaño del intervalo de clase Ejemplo Una empresa decide evaluar a sus empleados. La clasificación se lleva a cabo mediante la aplicación de un test que arroja los siguientes puntajes '

'

Y i−1−Y i 0 20 40 60 80

-

20 40 60 80 100

f i ó ni 94 140 160 98 8

Determine: a.- La puntuación que es excedida por el 75% de los trabajadores 2.- La puntuación que supera a las puntuaciones del 75% de los trabajadores. Solución a.- En este caso Se debe calcular el primer cuartil

Q1=Y

' i−1

( Q1 )

[ ]

n −F k−1 4 +c j f

Debemos encontrar las frecuencias acumuladas

Y 'i−1−Y 'i 0 20 40 60 80

-

20 40 60 80 100

f i ó ni 94 140 160 98 8

Fi 94 234 394 492 500

Luego

39

Estadística General ciclo 2013-I

n 500 = 4 4

El lugar del cuartil 1 es la posición

= 125. Es decir, que el cuartil está ubicado en la clase 20 –

40. Por lo tanto:

Q1=Y

' i−1

[ ]

n −F k−1 4 +c j f

=

20+20

[

125−94 140

]

= 24.43

Esto quiere decir que el 75% de los trabajadores tienen una calificación mayor a 24.43 b.- La puntuación que supera a las puntuaciones del 75% de los trabajadores, corresponde al valor del tercer curatil. El lugar del tercer cuartil es la posición

3n 4

=

3 x 500 4

= 375. Es decir, que el cuartil está ubicado

en la clase 40 - 60. Por lo tanto

Q3=Y

' i−1

[

3n −F k−1 4 +c j f

]

= 40 +20

[

375−234 160

]

= 57.625

Esto quiere decir que el 25% de los trabajadores tiene una puntuación mayor a 57.625 MEDIDAS DE DISPERSIÓN Las medidas de dispersión tratan de describir cuan agrupados o alejados están los datos observados de su promedio. Entre más dispersos estén las observaciones individuales, mayor es la medida de dispersión, y menos adecuado será el promedio como medida descriptiva. Por eso, es importante que después de elegir y calcular un promedio se determina el grado de variación de las observaciones o datos individuales. Las medidas de dispersión o de variabilidad más usadas son: RANGO O AMPLITUD DE VARIACIÓN La medida de la dispersión de un conjunto de datos es el rango. Se calcula mediante la diferencia entre el valor más grande y el más pequeño Rango = Valor mayor - Valor menor El rango de los siguientes datos 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 Será: Rango = Valor mayor - Valor menor Rango = 3325 - 2710 = 615

40

Estadística General ciclo 2013-I

Aunque el rango es la medida de variabilidad más fácil de calcular, rara vez se usa como única medida. La razón es que el rango se basa sólo en dos observaciones y, por tanto, los valores extremos tienen una gran influencia sobre él. RANGO INTERCUARTILICO (RIC) Una medida que no es afectada por los valores extremos es el rango intercuartílico (RIC). Esta medida de variabilidad es la diferencia entre el tercer cuartil Q3 y el primer cuartil Q1. En otras palabras, el rango intercuartílico es el rango en que se encuentra el 50% central de los datos. RIC=

Esta medida excluye al 25% más alto y al 25% más bajo de los datos. VARIANZA La varianza es una medida de variabilidad que utiliza todos los datos. La varianza está basada en la diferencia entre el valor de cada observación (x 1) y la media. A la diferencia entre cada valor x 1 y la media ( cuando se trata de una muestra, µ cuando se trata de una población) se le llama desviación respecto de la media. Si se trata de una muestra, una desviación respecto de la media se escribe (x i si se trata de una población se escribe (xi

), y

µ.). Para calcular la varianza, estas desviaciones respecto de

la media se elevan al cuadrado. Si los datos son de una población, el promedio de estas desviaciones elevadas al cuadrado es la varianza poblacional. La varianza poblacional se denota con la letra griega

. En una población en la que hay

N observaciones y la media poblacional es , la varianza poblacional se define como sigue

σ

2

2 ∑ ( x i−μ ) =

N

En la mayor parte de las aplicaciones de la estadística, los datos a analizar provienen de una muestra. Cuando se calcula la varianza muestral, lo que interesa es estimar la varianza poblacional

, la varianza

muestral que se obtiene constituye un estimador no sesgado de la varianza poblacional. Por esta razón, la varianza muestral, que se denota por s2, se define como sigue. VARIANZA MUESTRAL 2 ∑ ( x i−x ) s= 2

n−1

41

Estadística General ciclo 2013-I

La varianza para datos agrupados será calculada empleando la siguiente fórmula:

Tal como se ha definido, la varianza muestral es un buen estimador de la varianza poblacional. PROPIEDADES DE LA VARIANZA 1.- La varianza de un conjunto de observaciones x1,x2,…………..xn siempre es un número no negativo V(x) ≥ 0 2.- La varianza de una constante es cero. Esto significa que si x1 = x2 =………..= xn= b entonces: V(b) = 0 3.- Si a cada observación x1, x2, ………,xn se le adiciona o se le resta una constante nuevo conjunto de valores y 1,y2,………,yn, donde yi=xi b, conjunto original. Es decir

b 0, la varianza del

i = 1,2,….,n, coincide con la varianza del

V(y) = V (x ± b) = V(x) 4.- Si a cada valor de un conjunto x1,x2,……xn, se multiplica por una constante a, la varianza del nuevo conjunto de valores y1,y2,…………yn, donde yi = axi, i= 1,2,…,n es igual a la varianza del conjunto original multiplicada por el cuadrado de la constante. Es decir: V(y) = a2 V(x) Varianza calculada a partir de sub muestras Si

y

son las medias aritméticas de dos submuestras de tamaño n1 y n2 respectivamente y sus varianzas correspondientes. Entonces la varianza de la muestra de tamaño n = n1

+ n2 está dada por =

DESVIACIÓN ESTÁNDAR

42

Estadística General ciclo 2013-I

La desviación estándar se define como la raíz cuadrada positiva de la varianza. Continuando con la notación adoptada para la varianza muestral y para la varianza poblacional, se emplea s para denotar la desviación estándar muestral y

para denotar la desviación estándar poblacional.

La desviación estándar se obtiene de la raíz cuadrada de la varianza como sigue. Desviación estándar muestral

S=

Desviación estándar poblacional

Lla desviación estándar se mide en las mismas unidades que los datos originales. Por esta razón es más fácil comparar la desviación estándar con la media y con otros estadísticos que se miden en las mismas unidades que los datos originales. CARACTERISTICAS DE LA DESVIACIÓN ESTANDAR. 1. 2. 3.

Es confiable. Tiene la misma unidad de medida que los datos originales. No cambia de valor cuando se suma una constante a cada observación de un conjunto de datos.

COEFICIENTE DE VARIACIÓN (CV) En algunas ocasiones se requiere un estadístico descriptivo que indique cuán grande es la desviación estándar en relación con la media. Es decir nos indica la cantidad de veces que la desviación estándar contiene a la media aritmética. Esta medida es el coeficiente de variación (coeficiente de variabilidad) y se representa como porcentaje. CV =

Población CV =

[

σ x 100 μ

Muestra

]

CV =

[

s x 100 x

]

CARACTERÍSTICAS DEL COEFICIENTE DE VARIABILIDAD 1.- No tiene unidad de medida 2.- No aplicable cuando la distribución tiene media cero 3.- Se afecta su valor cuando se suma una constante K a cada observación de un conjunto

de datos.

4.- No cambia de valor cuando se multiplica por una constante K a cada una de las observaciones. Calificación de una distribución de datos, según el grado de dispersión:

43

Estadística General ciclo 2013-I

Coeficiente de variabilidad (%) 0 0 ¿ CV Moda

44

Estadística General ciclo 2013-I

Sesgo negativo o a la izquierda

Media < Mediana < Moda

COEFICIENTE DE APUNTAMIENTO O CURTOSIS Analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución, es decir, estudia la distribución de frecuencias en la zona central. La mayor o menor concentración de frecuencias alrededor de la media y en la zona central de la distribución, dará lugar a una distribución más o menos apuntada. Así es por lo que a la curtosis también se le llama apuntamiento. Si el valor de la curtosis es positivo, se dice que los datos tienen una distribución leptocúrtica (es más apuntada o puntiaguda que la distribución normal); en caso contrario, si la curtosis es negativa, se dice que los datos tienen una distribución platicúrtica (es menos apuntada o puntiaguda que la distribución normal). Si la curtosis es cero, entonces los datos se distribuyen siguiendo una distribución normal, y se dice que en este caso la distribución mesocúrtica. Para medir la curtosis se puede emplear las siguientes fórmulas: 4

k=

∑ (x i−x ) 4

nsx

–3

k=

[

1 Q 3 −Q1 2 P 90 −. P10

]

Donde

90=¿ Percentil noventa P¿

Q3=¿ Cuartil tres 1=¿ Cuartil uno Q¿

P10=¿ Percentil diez

CARACTERISTICAS DEL COEFICIENTE DE CURTOSIS 1.- No tiene unidades de medida 2.- Se aplica a distribuciones unimodales que sean simétricas o ligeramente asimétricas. 3.- No le afecta las operaciones de suma y multiplicación por una constante c aplicada a cada observación.

xi



2 4 8 2 16

( x i−x ) 4 0 16 4 24

2

4

( x i−x ) 16 0 256 16 288

x =4 2 Varianza s x = 8 Media

Reemplazamos y calculamos el coeficiente de curtosis

45

Estadística General ciclo 2013-I

4

k=

∑ (x i−x ) ns

4 x

–3

=

288 ( 4 ) (64)

- 3 = -1.875

Al tener el coeficiente de curtosis un valor negativo, la distribución será platicurtica.

CARACTERISTICAS DEL COEFICIENTE DE ASIMETRIA DE PEARSON 1.- No tiene unidad de medida 2.- Se aplica a distribuciones unimodales 3.- Su valor debe encontrarse en el intervalo de -3 a 3 Ejemplo Una muestra de digitadoras de texto reveló que su rapidez media de tecleo es de 87 palabras por minuto, con una media de 73. La desviación estándar es de 16.9 palabras por minuto. ¿Cuál es el coeficiente de asimetría? Interprete su respuesta. Solución Reemplazando

sk=

3( Media−Mediana) 3(87−73) = =2.49 s 16.9

Existe considerable asimetría con sesgo positivo en la distribución de la rapidez de tecleo. Algunas operadoras muy rápidas hacen que la media sea mayor que la mediana o la moda. TEORÍA DE PROBABILIDADES Introducción El análisis de la incertidumbre tiene un papel cada vez más importante en la sociedad moderna. La incertidumbre es una característica fundamental de cualquier entorno en el que se toman decisiones. En Economía, Finanzas, Administración, Ingeniería, Medicina y otras disciplinas encontramos problemas que requieren un razonamiento cuantitativo de fenómenos aleatorios. La base de este razonamiento es la teoría de probabilidades. La teoría de probabilidades no solo permite analizar la incertidumbre, sino también hacer inferencias estadísticas de futuros eventos y acerca de las características de una población basándose en información muestral.

46

Estadística General ciclo 2013-I

Teoría de probabilidades (ciencia de la incertidumbre) Debido a que existe una incertidumbre considerable al tomar decisiones, resulta importante que todos los riesgos implícitos conocidos, se evalúen en forma científica. Ayuda en esta evaluación la teoría de la probabilidad, a la que frecuentemente se denomina "ciencia de la incertidumbre". El empleo de tal teoría probabilística permite a quien toma decisiones, analizar con información limitada los riesgos y minimizar el azar inherente. Por ejemplo, al lanzar un nuevo producto o aceptar un embarque recién llegado que contenga partes defectuosas. Modelos matemáticos Modelo determinístico Cuando las condiciones bajo las cuales se verifica el experimento determinan el resultado de este. Por ejemplo, si sé: deja caer un cuerpo en el vacío, desde una altura h, la velocidad que alcanza es: v=

√ 2 gh

Este modelo determina la velocidad con la que el cuerpo cae al fondo. Modelo no deterministico o probabilidad. Cuando las condiciones bajo las cuales se verifica el experimento no determinan el resultado de este. Según el fenómeno que se estudie, se determinará el tipo de modelo a usarse. Por ejemplo, si se quiere saber cuántos autos llegan a una gasolinera entre las 7 y 8 a.m., con base a los datos históricos se puede diseñar un modelo que brinde un resultado aproximado con cierto grado de confiabilidad. Análisis combinatorio Es la rama de la matemática que estudia los diversos arreglos o selecciones que se pueden formar con los elementos de un conjunto dado, los cuales permiten resolver muchos problemas prácticos. Por ejemplo, se puede averiguar cuántos números diferentes de teléfonos, placas o loterías se pueden formar utilizando un conjunto dado de letras y dígitos. Además el estudio y comprensión del análisis combinatorio es una herramienta de mucha utilidad para poder resolver y comprender problemas sobre probabilidades. Principios fundamentales del análisis combinatorio En la mayoría de problemas de análisis combinatorio se observa que una operación o actividad aparece en forma repetitiva y es necesario conocer las formas o maneras en que se pueda realizar dicha operación. Para dichos casos es útil conocer determinadas técnicas o estrategias de conteo que faciliten el cálculo señalado. El análisis combinatorio también se define como una manera práctica y abreviada de contar. Las operaciones o actividades que se presentan son designadas como eventos o sucesos. A continuación se presentan algunos ejemplos donde es necesario utilizar el análisis combinatorio: ~ Señalar las maneras diferentes de vestir de una persona, utilizando un número determinado de prendas de vestir. ~ Ordenar 5 artículos en 7 casilleros. ~ Contestar 7 preguntas de un examen de 10.

47

Estadística General ciclo 2013-I

~ Designar 5 personas de un total de 50 para integrar una comisión. ~ Sentarse 4 personas en una fila de 5 asientos. -~ Escribir una palabra de 7 letras utilizando 4 consonantes y 3 vocales. Principio de multiplicación Si un evento o suceso puede ocurrir, en forma independiente, de "m" maneras diferentes y otro suceso de "n" maneras diferentes, entonces el número de maneras distintas en que pueden ocurrir ambos sucesos es: m x n. Ejemplo En la etapa final del fútbol profesional de primera división, cuatro equipos: CRISTAL (A), BOYS (B), CIENCIANO (C), UNIVERSITARIO (D) disputan el primer y segundo lugar (campeón y subcampeón). ¿De cuántas maneras diferentes estos equipos pueden ubicarse en dichos lugares? Solución Método 1: utilizando el diagrama de árbol. Primer lugar

A

B

C

D

Segundo Lugar B

AB

C

AC

D

AD

A

BA

C

BC

D

BD

A

CA

B

CB

D

CD

A

DA

B

DB

C

DC Total 12

Existen 12 maneras diferentes en que estos equipos se pueden ubicar en el primer y segundo lugar Método 2 Utilizando el principio de multiplicación

1

0

2

o

48

Estadística General ciclo 2013-I

4

x

3

no de maneras = 12

Explicación a) El primer lugar puede ser ocupado por cualquiera de los cuatro equipos. b) El segundo lugar puede ser ocupado por cualquiera de los otros tres equipos que restan. c) Por el principio de multiplicación, se observa que el evento del primer lugar se presenta de 4 maneras y el del segundo lugar de 3 maneras distintas, entonces el número de maneras totales será: 4 x 3 = 12

Principio de adición Si un evento A se puede realizar de "m" maneras y otro evento B se puede realizar de "n" maneras diferentes, además, no es posible que ambos eventos se realicen juntos (A ∩ B = ∅ ), entonces el evento A o el evento B se realizarán de (m + n) maneras. Ejemplo Un repuesto de automóvil se vende en 6 tiendas de la Victoria o en 8 tiendas de Breña. ¿De cuántas formas se puede adquirir el repuesto? Solución Por el principio de adición: Victoria o Breña 6 formas + 8 formas = 14 formas Ejemplo Se desea cruzar un río, para ello se dispone de 3 botes, 2 lanchas y 1 deslizador. ¿De cuántas formas se puede cruzar el río utilizando los medios de transporte señalados? Solución Aplicando el principio de adición se tiene: Bote 3

Lancha ó

2

Deslizador ó

1

No.de maneras = 3 + 2 + 1 = 6

49

Estadística General ciclo 2013-I

Recuerda a) Si se desea que se realicen los eventos A y B, entonces se utiliza el principio de multiplicación. b) Si se desea que se realicen los eventos A o B, entonces se utiliza el principio de adición. Métodos de conteo En diferentes casos se tomará de algún conjunto parte de sus elementos o todos ellos, para formar diferentes agrupaciones, que se van a distinguir por el orden de sus elementos o por la naturaleza de alguno de ellos. Si los elementos que forman una agrupación son diferentes entre sí, serán llamados agrupaciones sin repetición y si alguno de ellos es igual se dirá que son agrupaciones con repetición. Entre los métodos de conteo más conocidos se tiene: permutación, variación y combinación. Permutación Es un arreglo de todos o parte de un conjunto de objetos considerando el orden en su ubicación; cuando en el arreglo solo entran parte de los elementos del conjunto se llama variación. Es importante resaltar que el orden es una característica importante en la permutación, cuando variamos el orden de los elementos se dice que permutamos dichos elementos. Ejemplo Determinar los diferentes arreglos o permutaciones que se pueden hacer con las letras a, b y c tomadas de dos en dos. Solución Método 1: Sea el conjunto {a, b, c}, entonces los arreglos pueden ser: ab, ba, ac, ca, bc, cb Número de arreglos = 6 Método 2: (principio de multiplicación)

3

x

2

= 6

no de arreglos = 6 Explicación: a) El primer casillero puede ser ocupado por cualesquiera de las tres letras, existiendo 3 posibilidades. b) El segundo casillero puede ser ocupado por cualesquiera de las otras dos letras restantes, existiendo 2 posibilidades.

50

Estadística General ciclo 2013-I

Teorema (permutación lineal con elementos diferentes) "El número de permutaciones de "n" objetos diferentes, tomados en grupos de k elementos (siendo k

P

y denotado por

Pnk =

n k

≤ n)

estará dado por:

n! (n−k )!

Donde: n, k



NyO

≤ k ≤ n

Estas permutaciones son llamadas lineales, porque los objetos son ordenados en una línea recta de referencia. Ejemplo En una carrera de 400 metros participan 10 atletas. ¿De cuántas formas distintas podrán ser premiados los tres primeros lugares? Solución Método 1: (usando la fórmula de permutación lineal) Se buscan las diferentes ternas (k = 3) que se pueden formar con los 10 atletas (n = 10). 10

P3 =

10 ! 7!

= 720

Método 2: Empleando el principio de multiplicación.

1o

10

2. °

x

9

3. °

x

8

= 720

Explicación a) El primer casillero (MEDALLA DE ORO) puede ser ocupado por cualquiera de los diez atletas, existiendo 10 posibilidades. b) El segundo casillero (MEDALLA DE PLATA) puede ser ocupado por cualquiera de los nueve atletas restantes, existiendo 9 posibilidades. c) El tercer casillero (MEDALLA DE BRONCE) puede ser ocupado por cualquiera de los ocho atletas restantes, existiendo 8 posibilidades. Recordar a) n!=lx2x3x...x (n-1)xn b) 0!=1

51

Estadística General ciclo 2013-I

c) 1!=1 d) n!=(n-1)!x n Permutación circular Son agrupaciones donde no hay primer ni último elemento, por hallarse todos en una línea cerrada. Para hallar el número de permutaciones circulares que se pueden formar con "n" objetos distintos de un conjunto, hay que considerar fija la posición de un elemento, los (n -1) restantes podrán cambiar de lugar de (n -1)! formas diferentes, tomando todas las posiciones sobre la circunferencia relativa al primer punto. El número de permutaciones circulares será: n Pc = (n-l)!

Ejemplo ¿De cuántas formas diferentes pueden sentarse alrededor de una mesa circular un padre y sus 5 hijos? Solución Se trata de una permutación circular: 6 P1 = (6-1)!=5!=120

Combinación Es cada uno de los diferentes arreglos que se pueden hacer con parte o todos los elementos de un conjunto dado sin considerar el orden en su ubicación. El número de combinaciones de "n" elementos diferentes tomados de "k" en "k", con k por:

c nk =



n, está dado

n! ( n−k ) ! k !

Ejemplo Se dispone de 5 puntos no colíneales, ¿cuál es el máximo número de triángulos que se podrán formar? Solución Para dibujar un triángulo solo es necesario 3 puntos en el plano, razón por la cual se tomarán 3 puntos (k = 3) de un total de 5 puntos (n = 5). Además no importa el orden, ya que el triangulo ABC es igual al CBA; por lo tanto, se trata de una combinación 5

c 3=

5! 2! 3 !

= 10

Observación Si de una población N se extrae una muestra sin reemplazo de n elementos, entonces:

52

Estadística General ciclo 2013-I

a) Si el orden es importante, entonces se trata de permutaciones, porque se buscan ordenaciones. b) Si el orden no es importante, entonces se trata combinaciones porque se buscan agrupaciones. Si de una población N se extrae una muestra con reemplazo de n elementos, entonces: c) El número de muestras posibles se calcula mediante:

N

n

Ejemplo Una señora tiene 3 frutas: manzana, fresa y piña. ¿Cuántos sabores diferentes de jugo podrá preparar con estas frutas? Solución Se puede escoger una o dos frutas de las tres o las tres frutas de las tres, además en este caso no importa el orden; por lo tanto, usamos el principio de adición aplicado a la combinación:

n

o

de maneras diferentes =

3

3

3

c 1 +c 2+ c 3

n° de maneras diferentes = 3 + 3 + 1 = 7 Total de sabores diferentes = 3 + 3 + 1 = 7 Ejemplo Se desea formar un comité de 7 seleccionados: 4 físicos y 3 matemáticos, de un grupo de 8 físicos y 6 matemáticos. ¿De cuántas maneras podrá seleccionarse? Solución 1 ° Se selecciona 4 físicos de 8, en

8 c 4 formas:

8

c 4 =70 2. ° Se selecciona 3 matemáticos de 6, en

6

c3

6

c 3=20 3. ° Se aplica el principio de multiplicación: 8

c4 x

6

c3

= 70x20 = 1400

Probabilidades: ¿Qué es una probabilidad? En general, es cuantificar la posibilidad de que algo sucederá. Así por ejemplo: El pronóstico meteorológico anuncia que hay un 70% de que el fenómeno de El Niño sea mínimo, en intensidad, en el año 2007.

53

Estadística General ciclo 2013-I

Definición de probabilidad Valor entre cero y uno, inclusive, que describe la posibilidad relativa de que ocurra un evento. Se utilizan dos palabras claves en el estudio de la probabilidad: experimento y evento. Experimento Se denomina experimento a la reproducción controlada de un fenómeno cualquiera que ocurre en la naturaleza y cuyo resultado en cada prueba depende del azar. Es también un proceso que conduce a la ocurrencia de una, y solamente una, de varias observaciones posibles. Experimento

Resultados (eventos)

Lanzar una moneda al aire

Cara, sello

Lanzar un dado Control de calidad

1,2, ...,6 Defectuoso, no defectuoso

Resultado Lo que resulta específicamente de un experimento. Espacio muestral (Ω) Es el conjunto de todos los resultados posibles de un experimento aleatorio. Dependiendo de las características del conjunto que se genera, se puede tener: 1. Espacios muestrales discretos 1.1 Espacios muestrales finitos Son aquellos conformados por un número finito de elementos. 1.2 Espacios muestrales infinitos numerables Si Ω es un conjunto numerable; es decir, si es posible asociar un número natural con cada elemento de Ω

2. Espacios muestrales continuos o no numerables

Si Ω es un conjunto no numerable; es decir, si no es posible asociar un número natural con cada elemento de Ω. Evento

Es cualquier subconjunto de un espacio muestral Ω. Los eventos se identifican mediante letras mayúsculas. Ejemplo

Experimento aleatorio = E = {Elección de un alumno de la Facultad de Ciencias Económicas y Empresariales}

54

Estadística General ciclo 2013-I

Sobre Ω se pueden definir eventos tales como: A = El alumno es de sexo femenino.

B = El alumno es de sexo masculino. C = El alumno es recién ingresante. Tipos de eventos Eventos mutuamente excluyentes Dos eventos A y B son mutuamente exc1uyentes si no tienen elementos comunes; es decir, si no pueden ocurrir simultáneamente. A = El alumno tiene más de 20 años. B = El alumno tiene menos de 18 años. Eventos complementarios Dos eventos A y B son complementarios SI son mutuamente excluyentes y su unión es el espacio muestra: A = El alumno tiene 18 años o más. B = El alumno tiene menos de 18 años. Propiedades de operaciones con eventos

−¿ B = A ∩ B' (Diferencia)

l. A

2. A' = Ω - A (Complemento) 3. A

∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) (Distributiva)

4. A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) (Distributiva) 5. (A

∪ B)' = A' ∩ B' (Ley de De Morgan)

6. (A

∩ B)' = A' ∪ B' (Ley de De Morgan)

7. Ω' =

8. Si A 9. Ω

∅ ; ∅ '= Ω; (A')' = A

A �B , entonces A ∪ B = B y A ∩ B = A ∩ A = A; Ω ∪ A= Ω; A ∪ A' = Ω; A ∩ A' = ∅

10.A ∩ A = A; A ∪ A = A Probabilidad de un evento

Se llama probabilidad a cualquier función, p, que asigna a cada evento A un valor numérico p(A), verificando los siguientes axiomas o postulados:

55

Estadística General ciclo 2013-I

~O

≤ p ( A ) ≤ 1, para cada evento A en Ω

~ p (Ω) = 1

~ Para cualquier número finito o infinito de eventos mutuamente exc1uyentes en Ω, se cumple: p(

A2 ) ∪ p ( A 3 ) ∪ … … . Si A 1 ∪ A 2 ∪ A3 ∪ … . ¿= p ( A1 ) ∪ p ¿

A 1 ∩ A 2 ∩ A 3 ∩ ….. ∅ Enfoques de la probabilidad Se analizarán dos enfoques de la probabilidad, el punto de vista objetivo y subjetivo. Probabilidad objetiva Se subdivide en probabilidad clásica y probabilidad empírica. Probabilidad clásica Se basa en la consideración de que los resultados de un experimento son igualmente probables. Así: Probabilidad de un evento:=

no de resultados favorables o éxitos no total de resultados posibles

Ejemplo Consideramos el experimento de tirar un dado. ¿Cuál es la probabilidad del evento (suceso) "obtener un número par"? Solución Sea: A = El número que sale al tirar el dado es par. P(A) =

3 1 = 6 2

Ejemplo Calcular la probabilidad de que en una carrera de 12 caballos, acertar a los tres que llegan primero en el orden de su llegada a la meta. Solución Se debe determinar el número de arreglos posibles de tres caballos de los 12 que hay. Como sí interesa el orden, entonces se utiliza la fórmula de permutación: 12

P3 =

12 ! ( 12−3 ) !

= 1320

Entonces hay 1320 grupos de tres caballos, como interesa uno, entonces:

56

Estadística General ciclo 2013-I

A = Acertar a los tres caballos que llegan primero en el orden de su llegada a la meta. p(A)=

1 - = 0.00076 1320

Ejemplo Una caja contiene dos calcetines blancos y dos azules. Si se eligen dos aleatoriamente, ¿cuál es la probabilidad de que sean del mismo color? Solución

C24=

4! = 6, posibilidades de elegir dos calcetines ( 4−2 ) ! 2 !

Sea el evento: A = Los dos calcetines extraídos son del mismo color. p(A) =

2 1 = 6 3

Probabilidad empírica La probabilidad de que un evento ocurra a largo plazo se determinará. Observando en qué fracción de tiempo sucedieron eventos semejantes en el pasado. Probabilidad de un evento:=

no de veces que ocurrió en el pasado no total de observaciones

Ejemplo Se efectuó un estudio de 780 graduados en Administración de Empresas en la Universidad de Jaén. Este experimento reveló que 450 de los 780 no estaban empleados según su principal área de estudios en la universidad. ¿Cuál es la probabilidad de que un graduado específico en Administración esté empleado en un área distinta a la principal de sus estudios en la universidad? Solución Sea: A = Graduado empleado en otra área. p (A) =

450 780

= 0.58 == 58%

Por lo tanto, la probabilidad de que un egresado esté empleado en un área distinta a la de sus estudios es del 58%. Probabilidad subjetiva Posibilidad de que suceda un evento específico asignado por una persona con base en cualquier información que se disponga.

57

Estadística General ciclo 2013-I

Algunas reglas de probabilidad Reglas de adición Regla especial de adición Si dos eventos A y B son mutuamente excluyentes, la regla indica que la probabilidad de que ocurra uno u otro de los eventos es igual a la suma de probabilidades. P (A o B) = p (A

∪ B) = p (A)+p (B)

Observación 1 Dos eventos son mutuamente excluyentes cuando no pueden ocurrir al mismo tiempo. Ejemplo En el experimento de tirar un dado, el evento "un número par" y el evento "un número impar" son mutuamente excluyentes. Si se observó un número par, no podría caer un número impar al mismo tiempo. Observación 2 Los eventos colectivamente exhaustivos constan de todos los posibles resultados de un experimento y constituyen su espacio muestral. Así los eventos colectivamente exhaustivos de lanzar un dado son: 1, 2, 3, 4, 5, y 6. Además, debido a que existe la certeza de que uno de estos eventos ocurrirá, la suma de sus probabilidades es igual a 1. Esto es: p (1 ó 2 ó 3 ó 4 ó 5 ó 6) = 1 Regla del complemento Sea A un evento cualquiera, entonces se tiene que: p (A) + p (A') = 1, de donde p (A') = 1- p (A) Ejemplo Se ha de entrevistar a un grupo selecto de empleados de la empresa ORION S.A., con respecto a un plan de pensiones. Se efectuarán entrevistas detalladas a cada uno de los empleados seleccionados en la muestra. Estos se clasificarán como sigue: Clasificación Supervisores Mantenimiento Producción Gerencia Secretaria Total

no de empleados 120 50 1460 302 68 2000

¿Cuál es la probabilidad de que la primera persona seleccionada: a) Sea empleada de mantenimiento o secretaria? b) No sea de gerencia?

58

Estadística General ciclo 2013-I

Solución Sean los siguientes eventos: B = El empleado seleccionado al azar es de mantenimiento. E = El empleado seleccionado al azar es secretaria. D = El empleado seleccionado al azar es de gerencia. a)

p (B o E) = p (B)+ p(E), por ser mutuamente excluyentes. P (B o E) =p(B

50 68 + =0.059 200 2000

∪ E) =

b) p(D') = 1- p (D) = 1-

302 2000

= 0.849

Cuando los eventos no son mutuamente excluyentes, es decir, existe la posibilidad de que ocurran simultáneamente, aparece la siguiente regla: Regla general de adición Es la probabilidad que mide la posibilidad de que dos o más eventos ocurran en forma simultánea: p (a o b) = p(a) + p(b) - p(a y b) o equivalentemente p (A U B) = p(A)+ p (B)- p(A

∩ B)

Propiedades 1. p (

∅ )=O

2. Si

A �B , entonces p (A) ≤ p (B)

3. Si A, B Y C son tres eventos cualesquiera en Ω, entonces:

∪ B ∪ C) = p (A) + p (B) + p (C)- p (A ∩ B)- p (A ∩ C) - p (B ∩ C) + p(A ∩ B ∩ C)

P (A

4. p (A ∪ B

∪ C)

≤ p(A)+ p (B)+ p(C)

Ejemplo ¿Cuál es la probabilidad de que una carta elegida al azar de una baraja americana sea un as o un corazón? Solución Sea: A = La carta elegida es as. B = La carta elegida es de corazones.

59

Estadística General ciclo 2013-I

Los eventos A y B no son mutuamente excluyentes, porque existe la posibilidad de que salga un as y que sea de corazones, por lo tanto: p (A o B) = p (A) + p (B)- p (A y B)

∪ B ) = p (A) + p (B) – p (A ∩ E)

p (A p(A) =

4 1 = 52 13

p( B) =

p (A

∪ B ¿=

1 1 1 + − 13 4 52

p (A

∪ B ¿=

4+ 13−1 52

p (A

∪ B ¿=

16 52

13 1 = 52 4

p (A y B)

¿

1 52

= 0.3077 = 30.77%

Ejemplo Como parte de un programa de servicios de salud para los empleados de la empresa Don Carlos S.A., se efectúan anualmente exámenes clínicos de rutina. Se descubrió que el 8% de los empleados tiene el colesterol alto, el 15% sufre de gastritis y el 3% tiene el colesterol alto y sufre de gastritis. a)

¿Cuál es la probabilidad de que un empleado seleccionado al azar tenga el colesterol alto o sufra de gastritis? b) Muestre esta situación en forma de un diagrama de Venn.

Reglas de multiplicación Regla especial de multiplicación Sean A y B dos eventos independientes, entonces: P (A y B) = p(A). p (B) También se cumple que si A y B son independientes, entonces: P (A\E) = p(A) o P (B \ A) = p (B)

60

Estadística General ciclo 2013-I

Eventos independientes Dos eventos son independientes si la ocurrencia de uno no altera la probabilidad de ocurrencia del otro. Ejemplo Una moneda es lanzada dos veces al aire, ¿cuál es la probabilidad de que las dos veces se obtenga cara? Solución sea: A = Obtener cara en el primer lanzamiento. B = Obtener cara en el segundo lanzamiento. p (A) =

1 2

p (B) =

1 2

El que resulte cara en el segundo lanzamiento no depende si salió cara o no en el primero, es por eso que A y B son eventos independientes. Por la tanto: P (A y B) = p(A) · p (B)=

1 1 1 × = 2 2 4

Ejemplo Una máquina automática introduce legumbres en una bolsa de plástico. La experiencia indica que algunos paquetes tuvieron menos peso, y algunos otros pesos de más, pero la mayoría fueron satisfactorias. Veamos el siguiente cuadro: Peso del paquete

Probabilidad

Insuficiente

0.025

Satisfactorio

0.900

Excedido

0.075

a) ¿Cuál es la probabilidad de seleccionar tres paquetes de la línea de procesamiento de alimentos y encontrar que a los tres les falta peso? b) ¿Qué significa esta probabilidad? Solución a) Sea F = Paquete seleccionado que le falta peso. p (F) = 0.025 p (F y F y F)= (F) ·p (F) ·p (F) = (0.025)(0.025)(0.025) p (F y F y F) = 0.000015625 b) Descubrir que a los tres paquetes les falte peso es poco probable.

61

Estadística General ciclo 2013-I

Observación Si dos eventos no son independientes, se dice que son dependientes. Con un ejemplo ilustraremos esta idea: Supongamos que hay 10 rollos de película fotográfica en una caja y se sabe que tres están defectuosos. Se selecciona uno: p (D) =

3 10

Probabilidad de que sea defectuoso.

p (D') =

7 10

Probabilidad de que no sea defectuoso.

Después se elige un segundo rollo de la caja, sin devolver el primero, la probabilidad de que este sea defectuoso dependerá si el primero lo fue, de ser así es: p(

D2 ) =

2 9

Probabilidad de que el segundo rollo extraído sea defectuoso dado que el primero lo fue.

p(

D'2 ) =

3 9

Probabilidad de que el segundo rollo extraído no sea defectuoso dado que el primero fue bueno.

Este tipo de análisis nos ayuda a definir la probabilidad condicional. Probabilidad condicional Es la probabilidad de que ocurra un evento en particular dado que otro evento ha ocurrido. p(A y B) = p(A). p (B\A) p (B \ A) =

p( A y B) p(A )

p (B \ A) =

p( A ∩ B) p( A)

P (B \ A) = Probabilidad de que ocurra B dado que ya ocurrió A. Del ejemplo anterior: ¿cuál es la probabilidad de escoger un defectuoso seguido de otro defectuoso? p(A y B) = p (A) p (B\A) p(A y B) =

3 2 × =¿ O.067 10 9

Donde: A = Primer rollo defectuoso.

62

Estadística General ciclo 2013-I

B = Segundo rollo defectuoso. Propiedades de la probabilidad condicional 1. p (A

∩ B) = p(A) p (B\A), si p (A ¿ 0)

2. p (A

∩ B ∩ C) = p(A) p(B\A) p(C\A ∩ B),

si p (A 3. p (

¿ O; p (A ∩ B)

¿ O

∅ \A)= 0, si p(A ¿ O)

4. p (A'\B) = l- p (A\B) 5. p (A

∪ C\B) = p (A \B) + p (C \B)- p (A ∩ C\B)

6. p (A\B) + p (A'\B) =1, si p(B)

¿ O.

Recuerde que: P (A ∩ B) = p (A y B) Ejemplo De una baraja completa de 52 cartas, se extrae una "mano" de 5 cartas. ¿Cuál es la probabilidad de obtener dos espadas, dos corazones y un diamante? Solución p ( E1 y E2 y C 1 y C 2 yD ¿=¿

p(

E2 /¿ E1 ¿ p ( C 1 / E1 y E 2 ) p ( C 2 / p ( E1 ) p ¿ E1 y E2 y C 1 ¿ p ( D / E 1 y E2 y C 1 y C 2 )

E1 y E2 y C 1 y C 2 yD ¿=

13 12 13 12 13 × × × × 52 51 50 49 48

= 0.001014

Pero esta es solo una parte, el total de posibilidades será una permutación de ellas, pero es una permutación con repetición ya que las espadas se repiten dos veces y los corazones también dos veces, entonces:

p(

13 12 13 12 13 × × × × 5! 52 51 50 49 48 ) 2 !2! E1 y E2 y C 1 y C 2 yD ¿=¿

= 0.0304

Tablas de contingencia Una tabla de contingencia es una distribución, una matriz, en cuyas filas y columnas los individuos de una población se clasifican en función de dos variables. También se le conoce con el nombre de tabla de doble entrada. Por ejemplo, la siguiente es una tabla de contingencia en la que 300 personas se han clasificado según el sexo y por su adicción al tabaco.

63

Estadística General ciclo 2013-I

Hombres Mujeres Total

Fumadores 120 50 170

No fumadores 60 70 130

Total 180 120 300

En los márgenes de la tabla se indican las sumas de filas y columnas. Las tablas de contingencia nos ayudan a calcular los valores de probabilidad. Una tabla de probabilidad puede crearse dividiendo cada valor de las casillas por el total, que en el ejemplo anterior sería 300. Los resultados se muestran en la siguiente tabla:

Hombres Mujeres Total

Fumadores 120/300 50/300 170/300

No fumadores 60/300 70/300 130/300

Total 180/300 120/300 300/300

Por lo tanto, la tabla de probabilidades quedaría de la siguiente manera:

Hombres Mujeres Total

Fumadores 0.4 0.1667 0.5667

No fumadores 0.2 0.2333 0.4333

Total 0.6 0.4 1

Los valores en los márgenes de la tabla se llaman probabilidades marginales. Por ejemplo, elegida una persona al azar la probabilidad de que esta sea hombre es p (H) = 0.6 y la probabilidad de seleccionar una mujer es p (M) = O.4 A las probabilidades en las celdas de la estructura principal de la tabla se les denomina probabilidades conjuntas y muestran la probabilidad de la intersección de dos eventos. Por ejemplo, la probabilidad de seleccionar una mujer y que esta sea fumadora es p (M y F) = 0.167. También se puede calcular probabilidades condicionales por ejemplo, si se ha elegido un fumador ¿qué probabilidad hay de que sea mujer? Nos piden que calculemos p (M \ F), esto es: p (M \ F) =

p ( M y F ) 0.1667 = 0.5667 p (F )

= 0.2942

Por lo tanto, hay una probabilidad del 29.42% de que sea mujer dado que es fumador la persona elegida. Diagramas de árbol o arborigrama Es una representación gráfica útil para organizar cálculos que abarcan varios datos. Cada segmento en el árbol es una etapa del problema.

64

Estadística General ciclo 2013-I

Para la elaboración de un arborigrama se empieza trazando un punto en la izquierda, que representa el punto central de un tronco. Ilustremos lo anterior mediante un ejemplo: Ejemplo Un club nocturno tiene los siguientes datos sobre la edad y el estado civil de 140 clientes.

Edad Menor de 30 Mayor o igual a 30 Total

Estado Soltero 77 28 105

civil Casado 14 21 35

Total 91 49 140

a) ¿Cuál es la probabilidad de encontrar un cliente menor de 30 y soltero? b) Si un cliente tiene menos de 30 años, ¿cuál es la probabilidad de que sea soltero? Solución Sean los siguientes eventos: A = Cliente menor de 30 años. B = Cliente mayor o igual a 30 años. S = Cliente soltero. C = Cliente casado. Trabajamos un diagrama de árbol para ubicar los datos. Probabilidad condicionada

Probabilidad conjunta

P(S/A)

77 91 91 140

49 140

S

A

C

14 91

B

p(A y S) = p(A y C) =

p(A)p(S/A)

=

= 0.55

p(A)p(C/A)

91 77 × = 140 91

= 0.10

91 14 × 140 91

14 91 28 49

S

p (B y S) =

p(B)p(S/B)

= 0.20

=

49 28 × 140 49 65

Estadística General ciclo 2013-I

21 49

a.- p (A y S) =

b.- p (S \ A)=

C

p (B y C) =

p(B)p(C/B)

= 0.15

=

40 21 × 140 49

77 =¿ 0.55 Probabilidad de que un cliente sea menor de 30 y soltero 140 77 91

= 0.85 Probabilidad de que un cliente sea soltero dado que es menor de 30 años.

También se puede asociar a cada diagrama de árbol una tabla de contingencia Y viceversa. Para el ejemplo se ene

Edad A B Totales

Estado Soltero p (A y S) p (B y S) p(S)

civil Casado p (A y C) p (B y C) p(C)

Totales p (A) p (B) 1

Los datos obtenidos en el diagrama de árbol los reemplazamos en la tabla, esto es:

Edad A B Totales

Estado Soltero 0.55 0.2 0.75

civil Casado 0.1 0.15 0.25

Totales 0.65 0.35 1

Teorema de Bayes p (A \ B) y p (B \ A), pueden parecer similares, en concepto existe diferencia apreciable entre las probabilidades que representan. Por ejemplo: si A es el evento de que las ventas en época navideña sean altas en un área específica y B es el evento de que el clima sea bueno, entonces p (A \ B) es la probabilidad de que las ventas sean altas dado que el clima es bueno, mientras que p (B \ A) es la probabilidad de que el clima sea bueno dado que las ventas son altas. Existen muchas probabilidades en Estadística en que intervienen estas parejas de probabilidades condicionadas, el teorema de Bayes que se verá a continuación, permite expresar la relación matemática entre las probabilidades de la forma p (A \ B) y p (B \ A), pero para ello se necesitan algunos conceptos previos. Probabilidad a priori Probabilidad inicial con base en el nivel actual de información. Probabilidad a posteriori Es una probabilidad con base en información adicional. El teorema de Bayes proporciona un método para calcular este tipo de probabilidades. Teorema de Bayes

66

Estadística General ciclo 2013-I

Si se conoce la probabilidad de B en cada uno de los componentes de un sistema excluyente de eventos, entonces si ocurre B, se puede calcular la probabilidad (a posteriori) de ocurrencia de cada A ¡

p(A¡\B) =

A1 B ¿ ¿ p( A1) p ¿ ¿

Observación Si los sucesos

A 1 , A 2 , A3 , … … , A k

se consideran casos posibles del suceso B, entonces Bayes

permite determinar la probabilidad de que uno de los

A i ocurra siempre que B haya ocurrido.

Ejemplo La Dra. Blanquita ha estado enseñando Estadística Básica durante muchos años. Se sabe que el 80% de los estudiantes terminarán los problemas asignados. Determinó, que de los estudiantes que cumplen con su trabajo el 90% aprobará el curso. De aquellos estudiantes que no lo hacen así, el 60% será aprobado. Eduardo López tomó Estadística durante el último semestre con la profesora Blanquitaa y recibió una calificación aprobatoria. ¿Cuál es la probabilidad de que sí haya hecho sus tareas? Solución Sea: A = Estudiante que cumple con su trabajo. A' = Estudiante que no cumple con su trabajo. B = Estudiante que aprueba. B' = Estudiante que no aprueba. p (A) = 0.8 => p (A') = 0.2 p (B\A) = 0.9 ;p (B\A') = 0.6 p (B'\A) = 0.1; p (B'\ A') = 0.4 P(B) = 0.9

P(A) =0.8

P( 1

B

¿ p(A y B) = p(A)p( A p(A y B) = (0.8)(0.9)= 0.72

' B ¿=¿ 0. '

B p(A y ) A p(A y B '' ¿= ( 0.8 ) ( 0.1 )=0.08 B ¿=p ( A ) p ¿

67

Estadística General ciclo 2013-I

B yB ) A' y B ¿= ( 0.2 )(' 0.6 )=0.12 ) ¿= p ( A ) p ¿

P(B) =0.6 P( A ' ¿=¿ 0. 2

p( A p( A P( B ' ¿=¿ 0. 4

' '

B' ' p( A ' y B' ' ) p( A y B ' A ' ¿= p( A ) p¿ ¿= p ( 0.2 ) p ( 0.4 ) =0.08

Por definición de probabilidad condicional tenemos: p(

A )= B

A p( )= B

p( A y B) P(B) p ( A) p

( BA )

p (B)

Tener en cuenta que p (B) no es discernible de inmediato. Aquí es donde participa el teorema de Bayes. Existen dos razones por las que Eduardo López haya aprobado el curso. Puede haber hecho los trabajos asignados y aprobar el curso o puede no haber hecho los trabajos asignados y también aprobar el curso, es decir: p (B) = p (A y B) + p (A’ y B) p (B) = 0.12p (A). p (B \ A) + p (A'). p (B \ A') Cuando se hace la sustitución en el denominador de la fórmula 1 se tiene:

P(

P(

A ¿ = B

p( A) p( p ( A) p

B ) A

( BA )+ p ( A ) p( AB )

A 0.72 0.72 ¿= = B 0.72+0.12 0.84

'

'

= 0.86 = 86%

Por lo tanto, hay un 86% de probabilidad de que Eduardo López haya hecho sus tareas dado que recibió una calificación aprobatoria. Ejemplo El departamento de crédito de la tienda departamental Saga Falabel1a en Piura, informó que 30% de sus ventas son en efectivo, 30% son pagadas con cheques en el momento de la adquisición y 40% son a crédito. Se tiene que 20% de las compras en efectivo, 90% de las pagadas con cheques y 60% de las adquisiciones al crédito, son por más de US$50. La Sra. Milagritos acaba de comprar un vestido que cuesta US$ 120. ¿Cuál es la probabilidad de que haya pagado por él en efectivo?

68

Estadística General ciclo 2013-I

Distribución de probabilidades Variable aleatoria Una variable aleatoria de un espacio muestral Ω es la regla que asigna un valor numérico a cada resultado de Ω, es decir, es una función de Ω en el conjunto de los números reales. Las variables aleatorias son: Variable aleatoria discreta Variable que solo puede tomar ciertos valores claramente separados, que resultan de contar algún elemento de interés. Generalmente toma valores enteros. Ejemplo Sea el experimento: Inspeccionar un embarque de 50 radios, y sea la variable aleatoria X = Cantidad de radios defectuosos Entonces los valores que puede tomar la variable X serian: X = {0, 1,2, …………. ,50} Variable aleatoria continúa Es aquella que resulta principalmente de la medición y puede tomar cualquier valor, al menos dentro de un rango dado. X = Peso de un cliente Entonces los valores que pueden tomar la variable serian: X = {60, 5, 60,35,…………} Distribución de probabilidades de una variable discreta. Enumeración de todos los resultados de un experimento junto con la probabilidad asociada a cada resultado. Ejemplo Suponga que está interesado en el número de caras que se obtienen al lanzar 3 veces una moneda. ¿Cuál es la distribución de probabilidades para el número de caras? Solución: Resultado posible CCC CCS CSC SCC SSC SCS CSS SSS

X = Número de caras 3 2 2 2 1 1 1 0

69

Estadística General ciclo 2013-I

Como se aprecia, la variable X solo toma los valores: 0, 1, 2, 3, La distribución probabilística para los eventos 0,1,2 y 3 resultantes será:

(X)

Número de caras 0 1 2 3

P(X) 1/8 = 0.125 3/8 = 0.375 3/8 = 0.375 1/8 = 0.125

Media, variancia y desviación estándar de una distribución de probabilidades Media o valor esperado de una variable aleatoria Si X es una variable aleatoria discreta que puede asumir valores de

x 1 , x 2 , x 3 , … .. , x n , con probabilidad

p1 , p2 , p3 , … .. , pn , respectivamente, se define su valor esperado o media, como sigue: n

∑ [ xi p ( xi )]

µ = E (x) =

i=1

Variancia y desviación estándar La media no describe el grado de dispersión o variación de una distribución. La variancia si lo hace. Si comparamos las dos, la variancia nos permite confrontar la variación en dos distribuciones que tengan la misma media n

σ

2

=

∑ [ ( xi −μ )2 p ( x i ) ] i=1

La desviación estándar

σ =√ σ 2 Ejemplo El señor Pérez ofrece tres tamaños de refrescos (pequeño, mediano, grande) como complemento de las tortas que vende Las bebidas se venden a 50,75 y 90 céntimos, respectivamente. De los pedidos, 30% son para el tamaño pequeño, 50% para el mediano y 20% para el grande. a.- Es esta una distribución de tipo discreta? ¿Por qué? b.- Calcule la cantidad media cobrada por un refresco. c.- ¿Cuál es la variancia de los cobros por bebida y su desviación estándar? X 50 75 90

pX) 30% = 0.30 50% = 0.50 20% = 0.2

Xp(X) 15 37.5 18 70.5

X–µ – 20.5 4.5 19.5

( x−μ )2 p ( X ) 126.075 10.125 76.050 212.250

70

Estadística General ciclo 2013-I

a.- Es del tipo discreta b.- µ = 70.5 cm.

σ

c.-

2

= 21.250

σ = 14.57 cm. Distribución de probabilidades binomial. La distribución probabilística binomial es un ejemplo de una distribución probabilística discreta la cual tiene muchas aplicaciones en la vida diaria. Las características de la distribución binomial son: 1.- El resultado de cada ensayo o realización de un experimento se clasifica en una de dos categorías mutuamente excluyentes: éxito o fracaso. Esta clasificación no implica que un resultado sea bueno y el otro malo 2.- La variable aleatoria es el resultado de contar el número de éxitos en una cantidad fija de ensayos. 3.- La probabilidad de éxito permanece igual en cada ensayo 4.- Los ensayos son independientes, lo cual significa que el resultado de un ensayo no afecta el resultado de algún otro p(x) =

n! x ! ( n−x ) !

x

( n−x )

p q

n= Número de ensayos x= Numero de éxitos p = Probabilidad de éxito en cada ensayo q = Probabilidad de fracaso en cada ensayo Ejemplo La probabilidad de que un operario haga menos de 10 piezas en una jornada de trabajo es de 0.20. Determine la probabilidad de que la próxima semana (6 días) en tres días haga menos de 10 piezas por semana. Solución Sea la variable aleatoria X = Numero de días que el operario hace menos de 10 piezas por jornada de trabajo n=6

p = 0.2

q = 0.8

71

Estadística General ciclo 2013-I

p(x) =

p(x=3) =

n! x ! ( n−x ) ! 6! 3 ! ( 6−3 ) !

px q( n−x ) 0.23 0.8(6−3 )

p(x=3) = 0.0819 Ejemplo Cuando un cliente hace compras en una tienda por departamentos, un sistema computarizado de información contable verifica de manera automática si él o ella ha excedido su límite de crédito. Registros pasados indican que la probabilidad de que los clientes excedan su límite de crédito es de 0.05. Suponga que en un día cualquiera, 20 clientes hacen pedidos y que el número de clientes que ha excedido su límite de crédito detectado por el mismo sistema computarizado de información de contabilidad se distribuye como una variable aleatoria binomial. a.- ¿Cuál es la probabilidad de que ningún cliente exceda su límite? b.- ¿Cuál es la probabilidad de que un cliente exceda su límite? c.- ¿Cuál es la probabilidad de que dos o más excedan su límite?

Distribución probabilística de Poisson Es aplicable a casos en los cuales se desea obtener la probabilidad de un evento sobre un intervalo de tiempo o espacio en el cual se cumplen los siguientes supuestos a.- Se tiene un conjunto de intervalos contiguos de la misma amplitud b.- La probabilidad de éxito es la misma en cada intervalo c.- La ocurrencia del evento en uno de los intervalos es independiente de la ocurrencia del evento en cualquiera de los otros. La distribución de Poisson tiene muchas aplicaciones como por ejemplo, el número de clientes que llegan a un establecimiento por unidad de tiempo, número de usuarios que llegan a un punto de servicio y van formando una cola, etc. p (X) =

λx e−λ x!

λ = Es la media aritmética del número de ocurrencias (éxitos) en un intervalo de tiempo de oportunidad específico (de tiempo, de superficie, de volumen, etc.) e = constante de Euler (2.71828) X = Numero de ocurrencias (éxitos) p(x) = Es la probabilidad que se va a calcular para un valor dado de X

72

Estadística General ciclo 2013-I

λ =En el caso de Poissón puede calcularse como

λ = np

Observación: La media y la varianza de una distribución de Posón coinciden, esto es:

λ = σ2

Ejemplo Un cultivador de semillas hibridas tiene problemas de gusanos barrenadores de maíz. Una exploración aleatoria de 5000 mazorcas revela estos datos: muchos de ellos no tenían gusanos, algunos tenían uno, unos cuantos dos y así sucesivamente. El agricultor contó 3500 gusanos en las 5000 mazorcas. a.- ¿Cuál es la probabilidad de que una mazorca seleccionada al azar no contenga

barrenadores?

b.- ¿Cuál será la probabilidad de que una mazorca seleccionada al azar contenga uno, dos tres, cuatro, cinco, seis barrenadores? Solución: Determinamos el promedio de gusanos en una mazorca

λ =

3500 5000 x

p (X) = p (X =0) =

= 0.7 −λ

λ e x!

0.70 e−0.7 0!

= 0.4966

p (x = 1) = 0.3476 p (x = 2) = 0.1217 p (x = 3) = 0.0284 p (x = 4) = 0.005 p (x = 5) = 0.0097 p (x = 6) = 0.0001 Distribución probabilística normal Es una distribución de probabilidad continua. La distribución probabilística normal y su curva normal tienen la siguiente característica: 1.- La curva normal tiene la forma de una campana y presenta un solo valor máximo en el centro. La media, mediana y moda son iguales.

73

Estadística General ciclo 2013-I

Luego la mitad del área bajo la curva se encuentra a un lado (o por encima del valor central) y la otra mitad al otro lado (o por debajo) 2.- La distribución probabilística normal es simétrica con respecto a su media 3.- La curva normal decrece uniformemente en ambas direcciones a partir del valor central. Es asintótica, lo cual significa que la curva se acerca cada vez más al eje X, pero nunca llega a tocarlo. Esto es, los puntos extremos de la curva se extienden indefinidamente en ambas direcciones La distribución normal estándar tiene media igual a 0 y desviación estándar igual a 1. Valor z (o desvió normal z) es la diferencia (desviación) entre un valor seleccionado, denotado por X y la media poblacional µ, dividida entre la desviación estándar de la población.

Z=

X−μ σ

Áreas bajo la curva normal 1.- Aproximadamente el 68% del área bajo la curva normal está dentro más una y menos una

desviación

estándar respecto de la media. Esto se expresa así µ ± 1σ 2.-Aproximadamente el 95% del área bajo la curva normal está dentro más dos y menos dos desviaciones estándar respecto de la media. Esto se expresa así µ ± 2σ 3.- Aproximadamente el 99% del área bajo la curva normal está dentro más tres y menos tres desviaciones estándar respecto de la media. Esto se expresa así µ ± 3σ

Ejemplo Una máquina expendedora de gaseosa se ajusta para servir 7.00 onzas de liquido por vaso. La desviación estándar es de 0.10 onzas ¿Cuál es la probabilidad de que la máquina sirva a.- Entre 7.10 y 7.25 onzas de gaseosa b.- 7.25 onzas o más c.- Entre 6.8 y 7.25 onzas ERROR DE MUESTREO Diferencia entre el estadístico de una muestra y el parámetro de la población correspondiente DISTRIBUCION MUESTRAL DE LA MEDIA Distribución de probabilidad de todas las posibles medias de las muestran de un determinado tamaño demuestra de la población Ejemplo Paty Industrias, cuenta con siete empleados de producción a quienes se le considera la población). En la siguiente tabla se incluyen los ingresos por hora de cada empleado

74

Estadística General ciclo 2013-I

EMPLEADO

INGRESO POR HORA

EMPLEADO

INGRESO POR HORA

Juan

$7

Esther

$7

Diana

7

Gabriela

8

Julio

8

Steffany

9

Eduardo

8

1.- ¿Cuál es la media de la población? 2.- ¿Cuál es la distribución muestral de la media para muestra de tamaño 2? 3.- ¿Cuál es la media de la distribución muestral? 4.- ¿Cuál es la desviación estándar de la distribución muestral? 5.- Encuentre el factor de corrección ESTIMACIÓN PUNTUAL Y POR INTERVALO Toda inferencia que se haga sobre una población tendrá necesariamente, que basarse en estadísticos muestrales, esto es, en funciones de la información muestral. La elección apropiada de estos estadísticos dependerá de cuál sea el parámetro de interés de la población. El verdadero parámetro será desconocido, y un objetivo será estimar su valor. Para estudiar la estimación de un parámetro desconocido, debe considerarse dos posibilidades: Estimación puntual y estimación por intervalo. Parámetros y estadísticos La media µ y la desviación estándar

σ

de una variable aleatoria poblacional X son conocidos como

parámetros y la media x y la desviación estándar s de una muestra son conocidos como estadísticos. En general a cualquier característica numérica de una población se le conoce como parámetro y a cualquier cantidad calculada de una muestra aleatoria se le conoce como estadístico. Los estadísticos se usan para estimar parámetros. Estimación puntual Es el valor calculado, a partir de la información de muestreo, que se emplea para estimar el parámetro de población. El estadístico muestral usado para estimar un parámetro de la población se llama estimador, y un valor observado específico se denomina estimación. Cuando la estimación de un parámetro de la población está dada solamente por un número, se denomina estimación puntual. Por ejemplo la media muestral es un estimador de la media poblacional y un x valor simple de

x

es un estimación puntual.

Se dice que:

75

Estadística General ciclo 2013-I

x es el estimador puntual de la media poblacional µ s es el estimador puntual de la desviación estándar poblacional

σ

p es el estimador puntual de la proporción poblacional p. Luego a los valores numéricos obtenidos para puntuales del parámetro. Ejemplo:

x , s , p en una determinada muestra se les llama estimados

A continuación se muestra el salario anual de 10 trabajadores de una fábrica y los datos si concluyeron con un programa de adiestramiento general: Salario anual ($)

x1 x2 x3 x4 x5 x6 x7 x8 x9 x 10

¿Programa de adiestramiento Gerencial? Si Si Si Si No Si No Si No No

9 094.3 3 263.9 9 643.5 9 984.9 7 621.6 5924 9 092.3 1 404.4 3 957.7 5 109.7

=

= 6

509.63

= 9.09 S ═ 3.01 ═ 0.4 Luego para una muestra de 10 trabajadores de una fábrica, el estimado puntual de soles, el de

es de $ 6 509.63 nuevos

es de 3.01 y el de p es 0,4

Propiedades de los estimadores puntuales Son tres: Insesgo, eficiencia, consistencia Insesgo: Si el valor esperado del estadístico de muestra es igual al parámetro poblacional que se estima, se dice que este estadístico es un estimador insesgado del parámetro poblacional.

76

Estadística General ciclo 2013-I

Eficiencia. Suponga que se puede usar una muestra aleatoria simple de “n” elementos para obtener dos estimadores puntuales del mismo parámetro poblacional. En este caso, preferiríamos usar el estimador puntual con la menor desviación estándar, porque tiende a proporcionar estimados más cercanos al parámetro poblacional. Se dice que el estimador puntual con la menor desviación estándar tiene una mayor eficiencia relativa que el otro. Consistencia. En términos generales un estimador puntual es consistente si sus valores tienden a acercarse al parámetro de la población conforme se incrementa el tamaño de la muestra. En otras palabras, un tamaño grande de muestra tiende a proporcionar un mejor estimador puntual que un tamaño pequeño Estimación por intervalo de confianza Un intervalo de confianza, es una gama de valores obtenidos a partir de datos de muestreo, de modo que el parámetro ocurre dentro de esta variedad de valores con una probabilidad pre establecida llamada nivel de confianza. Intervalo de confianza para la media de una población normal: varianza poblacional conocida. Supongamos que tenemos una muestra aleatoria de “n” observaciones procedentes de una población con distribución normal con una media µ y una varianza media muestral es viene dada por:

. Si

es conocida y el valor observado de la

, entonces el intervalo de confianza del 100 (1-

{

- Zσ



µ ≤

+Z σ

para la media poblacional,

} = 1-

Error muestral Es el valor absoluto de la diferencia entre un estimador puntual insesgado y el parámetro poblacional que estima se llama error muestral. Para el caso en el que la media de una muestra estima a una media poblacional, el error muestral es: E═

77

Estadística General ciclo 2013-I

Ejemplo.Un proceso produce bolsas de azúcar refinada. El peso del contenido de estas bolsas tiene una distribución normal con desviación estándar de 15 gramos. Los contenidos de una muestra aleatoria de 25 bolsas tienen un peso medio de 100 gramos. Calcule un intervalo de confianza del 95% para el verdadero peso medio de todas las bolsas de azúcar producidas por el proceso.

{

x −z

{100– 1,96

σ σ ≤ μ ≤ x+ z √n √n

}

= 1– α

100 +1,96

} =0,95

{94.12

Intervalo de confianza para la media de una población con varianza desconocida y tamaño de muestra grande Supongamos que tenemos una muestra de “n” observaciones procedentes de una distribución con media µ. Sean y s la media y la desviación estándar de la muestra observada, respectivamente, entonces si n es grande, n≥ 30 una buena aproximación de un intervalo de confianza del 100 (1 – α)% para la media dada por:

78

Estadística General ciclo 2013-I

{

–z

÷z

} = 1–

Ejemplo.Se extrajo una muestra aleatoria de 172 estudiantes de Agronomía y se les pidió que evaluasen unas determinadas condiciones de trabajo en una escala de 1 (no importante) a 5 (extremadamente importante). La “seguridad de trabajo “recibió una calificación media de 4.38 con una desviación estándar muestral de 0.70. Calcule un intervalo de confianza del 99% para la media poblacional

{

–z

{4.38 – 2.576 {4.2427

+z

} = 1–

4.38 + 2.576

} = 0.95

} = 0,99

Intervalos de confianza para una proporción de la población Una estimación puntual para una proporción poblacional se obtiene dividiendo el número de éxitos de una muestra entre el número total muestreado. Mientras que para encontrar los intervalos de confianza debemos tener en cuenta lo siguiente: {

–z

}=1–

Como p no se conoce

Dónde:

valor asignado por el nivel de confianza

79

Estadística General ciclo 2013-I



═ es la proporción muestral

n═ es el tamaño de la muestra Ejemplo.En una muestra aleatoria de 900 votantes, el 55 % prefiere al candidato demócrata de presidente. Halle un intervalo de confianza aproximado para la proporción de todos los votantes que prefieren al candidato demócrata con un nivel de confianza del 90% {

–z

}=1–

═ 0.0165 {

– 1.645(0.0165) }=1– {0.5229

}=1–

Ejemplo.Se realizó una investigación de mercado para estimar la proporción de amas de casa que puedan reconocer la marca de un limpiador con base en la forma y el color del recipiente. De 1400 personas 420 pudieron reconocer (identificar) la marca del producto. Si se utiliza el grado de confianza del 99% ¿Cuál serán los intervalos de confianza? {

–z

}=1–

80

Estadística General ciclo 2013-I



═0,30

═ 0.0122 {

– 2.576(0.0122)

{0.2686

}=1–

}=1–

Intervalos de confianza usando la distribución t Cuando la población bajo estudio tiene una distribución normal, o aproximadamente normal, pero no se conoce la desviación estándar de la población, y el tamaño de la muestra es menor de 30, no podemos usar la distribución normal para determinar intervalos de confianza para la media de la población. En este caso usaremos la distribución t se Student. Recordemos que la distribución de t de Student se utiliza cuando se cumple con las siguientes condiciones. 1.- La muestra es pequeña 2.desconocida 3.- La población es normal. Características de la distribución t de Student La distribución t de Student fue desarrollada en 1908 por William S. Gossett, un maestro cervecero de la Guinness Brewey de Irlanda, quien publicó su investigación con el seudónimo de Student. Gossett desarrolló una nueva teoría estadística sobre muestras pequeñas al trabajar con muestras pequeñas y en experimentos donde intervenían temperaturas en esta cerveza. A él le interesaba el comportamiento exacto de la expresión:

Cuando s debía usarse como estimador de . En particular le preocupaba la discrepancia entre s y cuando se calculaba s a partir de una muestra pequeña. Al igual que la distribución normal estandarizada, la distribución t tiene forma de campaña y es simétrica alrededor de la media cero, pero es más achatada que la distribución normal estandarizada debido a su mayor dispersión.

La distribución t tiene las siguientes características: 1.- Al igual que la distribución Z, la distribución t es una distribución de variable continua. 2.- Es acampanada y simétrica 3.- No hay una sola distribución t, sino una familia de distribuciones t.

81

Estadística General ciclo 2013-I

4.- La distribución t es más extendida y menos aguda en el centro, que la distribución Z. Sin embargo a medida que “n” aumenta la curva de la distribución t se aproxima a la distribución normal estandarizada. El intervalo de confianza para la media poblacional usando la distribución t, está dado por: .{



{

S

+



S

+

}=1–

}=1–

Ejemplo.Una tienda está interesada en conocer los gastos en prendas de vestir de los estudiantes universitarios en el primer mes del ciclo académico. La media y la desviación estándar de una muestra aleatoria de nueve alumnos fueron de $ 15 782 y $ 3889, respectivamente. Suponiendo que la población sigue una distribución normal, calcule el intervalo de confianza del 95% para el gasto medio poblacional. {



{

S

+



En las tablas

S

+

}=1–

}=1–

═ 2.3060

{15782–2.3060 {12792.65554

+2.3060

}=1– }=1–

Intervalo de confianza para la varianza de una población normal.

82

Estadística General ciclo 2013-I

Cuando una variable aleatoria sigue una distribución de Chi cuadrado con (n-1). Este resultado es clave para construir un intervalo de confianza para la varianza poblacional cuando se toman muestras de una población normal.

= Supongamos que se dispone de una muestra aleatoria de n observaciones procedentes de una población con distribución normal con varianza confianza del 100(1-

. Si la varianza muestral observada es

, entonces el intervalo de

para la varianza poblacional viene dado por

Ejemplo Un fabricante quiere estimar la variabilidad de los niveles de impurezas de los envíos de materia prima de un determinado proveedor. Extrae para ello una muestra de quince envíos y comprueba que la desviación estándar muestral en la concentración de los niveles de impurezas es de 2.36%. Supóngase que la población es normal. a.- Calcule el intervalo de confianza del 95% para la varianza poblacional. b.- Sin hacer los cálculos, determine si un intervalo de confianza del 99% tendría una longitud mayor, menor o igual a la del intervalo calculado anteriormente Solución a.-

n═ 15

g.l.═ 14

═0.05

83

Estadística General ciclo 2013-I

2.99

13.85

Por lo tanto, diremos que el intervalo de confianza del 95% para la variabilidad de impurezas discurre entre 2.99% y 13.85% b.- El intervalo de confianza del 99% para la varianza poblacional será más ancho Estimación por intervalo para la diferencia entre dos medias poblacionales Se puede hacer comparaciones como: El promedio de diámetros de tallos de plantas tratadas dos tipos diferentes de nutrientes. Las producciones promedio en una planta química que usa materias primas suministradas por dos proveedores diferentes. Cuando muestras aleatorias independientes de tamaño n1 y n2 observaciones han sido seleccionadas de entre poblaciones con medias µ1 y µ2 y variancias

2 2 σ 1 y σ 2 respectivamente, la prueba estadística será

( x1− x2 ) −( μ1 −μ 2)



Z=

σ 21 σ 22 + n1 n2 2 2 σ 1 , σ 2 no se conocen, el estimador del estadístico será

Pero si n1 y n2 son grandes (mayores de 30) y

( x1− x2 ) −( μ1 −μ 2)



Z=

s21 s22 + n1 n2

El intervalo de confianza en este caso será: {

( x 1−x 2 )

–z





σ 21 σ 22 + ≤ μ −μ ≤ ( x1− x2 ) + z n1 n 2 1 2

En caso de que las muestras sean grandes (mayores de 30) y

2

2

σ1 , σ2

σ 21 σ 22 + n1 n 2

} =1-

α

no se conocen, el intervalo se podrá

calcular de la siguiente forma: {

( x 1−x 2 )

–z



2

2

s 1 s2 + ≤ μ −μ ≤ ( x 1−x 2 ) + z n1 n2 1 2



2

2

s 1 s2 + n 1 n2

} =1- α

84

Estadística General ciclo 2013-I

Ejemplo: Las resistencia al desgaste de dos tipos de llantas para automóvil se compararon en muestras de pruebas de camino de n1 = n2 = 100 llantas para cada tipo. El número de millas hasta el completo desgaste se definió como una cantidad específica de desgaste de las llantas. Los resultados de la prueba se muestran a continuación

LLANTA 1

LLANTA 2

X 1=26400 Millas

X 2=25100millas

2

2

S 1=144000

S 2=1960000

Estime (µ1 - µ2), la diferencia en la media de millas hasta el completo desgaste, usando un intervalo de confianza del 99%. ¿Hay diferencia en el promedio de calidad de desgaste para los dos tipos de llantas?

μ Solución: La estimación puntual de (¿ ¿ 1−μ 2) ¿ es ( x 1−x 2 ) = 26 400 – 25100 = 1300 millas El error estándar =



σ 21 σ 22 + n1 n 2

Que se puede estimar como =

=





2

2

s1 s1 + n1 n 2

1440 000 1960 000 + 100 100

= 184,4 millas

El intervalo de confianza se calcula como: { ( x 1−x 2 ) – z

1300-2,58





s 21 s22 + ≤ μ −μ ≤ ( x 1−x 2 ) + z n1 n2 1 2

1440 000 1960 000 + ≤ μ1−μ 2 ≤ 1300+2,58 100 100 {1300 – 2,58(184,4) {824,2





s 21 s22 + n1 n2

} =1-

α {

1440 000 1960 000 }= 0,99 + 100 100

≤ μ 1−μ2 ≤ 1300+2,58(184,4)} = 0,99 ≤ μ 1−μ2 ≤ 1775,8 } = 0,99

Estimación por intervalo de la diferencia entre dos proporciones poblacionales

85

Estadística General ciclo 2013-I

Se pueden hacer comparaciones como: Los porcentajes de germinación se semillas tratadas y semillas no tratadas con un fungicida La proporción de votantes mujeres y la proporción de votantes hombres que están a favor de una enmienda de igualdad de derechos Suponga que las muestras aleatorias independientes de las observaciones n1 y n 2 han sido seleccionadas

p1 y p2 , respectivamente La distribución muestral de la diferencia entre

de poblaciones con parámetros proporciones muestrales:

^p

(

1

^p 2) ¿



La media muestral de ( El error estándar es=

Que se estima como =



^p

1

x1 x2 − n1 n2 - ^p 2) es p1 – p2

(

)

p1 q1 p2 q2 + n1 n2



^p 1 q^ 1 ^p 2 q^ 2 + n1 n2

La estimación puntual:

{

( ^p 1 – ^p 2 ) – Z





^p 1 q^ 1 ^p 2 q^ 2 ^p 1 q^ 1 ^p 2 q^ 2 + < p 1 – p 2< ( ^p 1 – ^p 2 )+ Z + n1 n2 n1 n2

}

=1–



Ejemplo: La propuesta de un bono para la construcción de una escuela será enviada a los votantes en la siguiente elección municipal. Una parte importante del dinero derivado de esta emisión de bonos se empleará en construir escuelas en una zona de rápido desarrollo de la ciudad y lo demás se usará para renovar y actualizar los edificios escolares del resto de ésta. Para evaluar la viabilidad de la propuesta de un bono, a una muestra aleatoria de n1=50 residentes de la zona de rápido desarrollo y n2=¿ 100 de las otras partes de la ciudad, se les preguntó si piensan votar por la propuesta. Los resultados se dan a continuación: Sección en desarrollo

Resto de la ciudad

Tamaño muestral

50

100

Número a favor de la propuesta

38

65

0.76

0.65

Proporción a favor de la propuesta

Estime la diferencia en las proporciones verdaderas a favor de la propuesta del bono con un 99% de intervalo de confianza. ( ^p 1 – ^p 2) = 0,76 – 0,65 = 0,11



^p 1 q^ 1 ^p 2 q^ 2 + n1 n2



(0.76)(0,24) ( 0,65 ) (0,35) = 0,0770 + 50 100 ^p 1 q^ 1 ^p 2 q^ 2 ^p 1 q^ 1 ^p 2 q^ 2 ( ^p 1 – ^p 2 ) – Z + < p 1 – p 2< ( ^p 1 – ^p 2 )+ Z + = 1– ∝ n1 n2 n1 n2

{



=



}

86

Estadística General ciclo 2013-I

{ 0,11 – ( 2,58 ) (0,0770)< p 1 – p 2