Modulo de Aprendizaje 2019 1

3B-3 MÓDULO DE APRENDIZAJE UNIDAD ACADÉMICA DE ESTUDIOS GENERALES ESTADÍSTICA Autores: Mg. Agustina Ramírez Torres Mg. G

Views 405 Downloads 142 File size 1MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

3B-3 MÓDULO DE APRENDIZAJE UNIDAD ACADÉMICA DE ESTUDIOS GENERALES ESTADÍSTICA Autores: Mg. Agustina Ramírez Torres Mg. Gonzalo Juan Fernández Romero Mg. Dina Ñuflo Valdivia

Lima – Perú 2019

Módulo de Aprendizaje Estadística Unidad Académica de Estudios Generales Mg. Jorge Antonio Gonzales Miranda Coordinadora Mg. Agustina Ramírez Torres Autores: Mg. Agustina Ramírez Torres Mg. Gonzalo Juan Fernández Romero Mg. Dina Ñuflo Valdivia Corrección de estilo: Lic. Aram Roosell Simangas Villalobos

ÍNDICE GENERAL

Página

UNIDAD I: CONCEPTOS BÁSICOS DE ESTADISTICA 1. Conceptos Básicos y Variables 2. El muestreo 3. Instrumento de recolección y elaboración de la matriz de datos UNIDAD II: ESTADISITCA DESCRIPTIVAUNIDIMENSIONAL 4. Tabla de frecuencias y gráficas 5. Medidas de tendencia central y posición 6. Medidas de dispersión 7. Medidas de forma de distribución de datos 8. Ejercicios de repaso para el examen 1 UNIDAD III: ESTADÍSTICA BIDIMENSIONAL Y REGRESIÓN LINEAL SIMPLE 9. Tablas y gráficas bidimensionales 10. Asociación de variables categóricas 11. Correlación lineal 12. Regresión Lineal simple UNIDAD IV: TEORÍA DE PROBABILIDADES 13. Probabilidad de eventos simples y condicional 14. Probabilidad total y teorema de Bayes 15. Trabajo de investigación formativa BIBLIOGRAFÍA ANEXOS

05 11 14 18 27 37 41 41 43 52 56 59 66 69 71 73

Introducción La estadística contribuye con el análisis estadístico de datos que requieran las instituciones gubernamentales, educativas, empresarial, investigación científica. En este sentido, el propósito de la Guía de práctica de Estadística es que el estudiante adquiera la comp técnicas estadísticas en el tratamiento y análisis de datos cuantitativos a nivel básico. El contenido de este módulo está dividido en cuatro unidades de aprendizaje de acuerdo a los temas del contenido del sílab La Primera unidad corresponde a la identificación conceptos básicos. Medición y clasificación de variables. Población,muestra y recolección de datos para realizar un estudio. En la segunda unidad se realiza el análisis descriptivo de datos con una sola variable, cuyos resultados se presentan en tabl gráficas y estadísticos de resumen los que describen la frecuencia de ocurrencia de la característica en estudio. La tercera unidad correspondeal análisis descriptivo bidimensional, con la finalidad de estudiar la asociación de variables en tablas de de barras agrupadas y los estadísticos de asociación como el coeficiente de correlación de Pearson. Formulación del modelo simple para estimar la ocurrencia de nuevos valores de la variable dependiente. La cuarta unidad hace una introducción a las probabilidades para estimar la ocurrencia de ciertos fenómenos aleatorios, mediante la pr simple, probabilidad condicional y teorema de Bayes. Los resultados se obtienen con el complemento de Excel MegaStat, los cuales se redactarán en Word y se trabajará en equipo individual. Los autores Lima, Marzo 2019

Tema 1 Conceptos Básicos y Variables

1.1. Competencia a desarrollar Utiliza los conceptos de básicos de estadística para determinar la población, muestra, unidad de estudioy clasifica las variables según su na medición. 1.2. Contenido del tema 1 Estadística Es la ciencia que proporciona un conjunto de métodos, técnicas y procedimientos para recolectar, procesar, organizar, presentar fin de describirlas características de un estudio, realizar estimaciones o generalizaciones válidas (Córdova M. 2003).Según el objetiv tenemos: Estadística descriptiva y la estadísticainferencial. Estadística Descriptiva Son métodos y técnicas relacionados a la recolección, organización, presentación e interpretación de resultados, que permiten d las características de un conjunto de datos. Comprende el uso de gráficos, tablas, diagramas y criterios para el análisis. EstadísticaInferencial Son métodos y técnicas que hacen posible la estimación de una o más características de una población para tomar decisiones, basadas en Estas conclusiones tienen cierto margen de error y probabilidad de ocurrencia. Población Es el conjunto de todas las unidades de estudio que contienen características observables de naturaleza cualitativa o cuantitativa que se p un tema de estudio. La población de estudio lo conforman todos los sujetos, elementos o entes con características similares en quienes se tiene interés en estu lugar y periodo de tiempo. Esta población puede ser un conjunto finito o infinito. Por ejemplo la población de estudiantes ingresantes de u periodo 2019-I. Muestra Es un grupo de unidades de debidamente seleccionados de una población con el propósito de investigar determinadas características de la Unidad de estudio Es el sujeto de interés que va a ser investigado y es único, posee características medibles determinado por el objetivo del estudio. Dato Es el valor nominal o numérico que se obtiene al medir la característica de la unidad de estudio. Variable Es unacaracterística medible, observable en una unidad de estudio y el valor medido varían en cada unidad de una población ejemplo: sexo, sector económico, edad, grado de instrucción,talla, peso,hijos por familia, etc. Clasificación de las variables Según la naturalezade recolección de datos se clasifican en:

 Variables cualitativas; Llamadas también categóricas, expresan atributos sin orden cuyos valores se miden en escala nom orden que se miden en escala ordinal.  Variables cuantitativas; Llamadas también numéricas, son valores que expresan cantidades y se mide en escala d se clasifican en continuas y discretas. Escala de medición de las variables La medición de las variables se hace con un instrumento que asigna valores (categorías o números) a una variable estadística, obtención de datos en las unidades de estudio. Las escalas de medición son: Nominal, ordinal, intervalo y proporción Escala nominal Admite dos o más valores a una variable, el cual permite percibir las diferencias y semejanzas entre las unidades de estudio q por ejemplo, la variable sexo tiene dos valores: masculino y femenino. Escala ordinal Los valores asignados a la variable expresan orden o grados en forma ascendente o descendente, el cual permite comparar en que” o “menor que” a cada categoría medida en la unidad de estudio, como por ejemplo, la variable grado de instrucció ordinales: primaria, secundaria y superior. Escala de intervalo Los valores numéricos asignados a la variable permite comprobar cuantas veces es diferente entre dos valores medidos. Esta número positivo, número negativo y el valor cero indica medición de la variable, que es un “cero relativo” como por ejempl 0°C, -8°C. Escala de razón Mide valores numéricos a partir de cero y números positivos, donde el valor cero indica el inicio de medición (cero ejemplo, el peso de una persona es 50 kg. Ejemplo 1 Un importador de juguetes realizó una encuesta a 85 clientes en diciembre del 2018 para conocer el perfil del comprador de s siguiente campaña navideña. Las variables a medir son: la edad del niño, sexo, calidad del producto, cantidad de juguetes qu a. De acuerdo al texto identifica:

Población de estudio

Todos los clientes que visitaron la tienda del importador en diciembre 2018

Muestra

Los 85 clientes que visitaron la tienda del importador en diciembre 2018

Unidad de estudio

Cada cliente que visitó la tienda del importador en diciembre 2018

b.

Clasifica las variables según su naturaleza y escala de medición. Variables Tipo de variable Escala de medición

Edad del niño

Cuantitativo continua

Sexo

Cualitativo nominal

Nominal

Calidad del juguete

Cualitativo ordinal

Ordinal

Cantidad de juguetes comprados

Cuantitativo discreta

Razón

Razón

IZAJE

OS GENERALES

Juan Fernández Romero via

Página

05 11 14 18 27 37 41 41 43 52 56 59 66 69 71 73

nes gubernamentales, educativas, empresarial, ingenierías, tadística es que el estudiante adquiera la competencia para aplicar las

acuerdo a los temas del contenido del sílabo. lasificación de variables. Población,muestra y muestreo. Métodos de

iable, cuyos resultados se presentan en tablas de frecuencias, e la característica en estudio. studiar la asociación de variables en tablas de contingencia, gráficos ación de Pearson. Formulación del modelo de regresión lineal

e ciertos fenómenos aleatorios, mediante la probabilidad de un evento

redactarán en Word y se trabajará en equipo como también en forma

d de estudioy clasifica las variables según su naturaleza y escala de

ara recolectar, procesar, organizar, presentar y analizar datos con el válidas (Córdova M. 2003).Según el objetivo de análisis estadístico

nterpretación de resultados, que permiten describir apropiadamente amas y criterios para el análisis.

a población para tomar decisiones, basadas en el resultado de muestras.

e naturaleza cualitativa o cuantitativa que se pueden medir relacionado a

as similares en quienes se tiene interés en estudiarlo considerando el lo la población de estudiantes ingresantes de una universidad en el

e investigar determinadas características de la población.

eterminado por el objetivo del estudio.

udio.

varían en cada unidad de una población o muestra, por amilia, etc.

sin orden cuyos valores se miden en escala nominal, y atributos con

e expresan cantidades y se mide en escala de intervalo o proporción,

tegorías o números) a una variable estadística, el cual permite la : Nominal, ordinal, intervalo y proporción

as y semejanzas entre las unidades de estudio que se van a medir, como

te o descendente, el cual permite comparar en niveles como “mayor por ejemplo, la variable grado de instrucción toma los valores

s es diferente entre dos valores medidos. Esta medición puede ser un ble, que es un “cero relativo” como por ejemplo, la temperatura: 24°C,

valor cero indica el inicio de medición (cero absoluto) u origen, por 2018 para conocer el perfil del comprador de sus productosen la calidad del producto, cantidad de juguetes que compra, etc.

iciembre 2018

embre 2018

e 2018

Valores (datos) 1 año 5 años Masculino Femenino Mala Regular Buena 0, 1, 2, 12,….

1.3. Preguntas de aplicación Problema 01: El gerente de la Administradora de Fondos de Privado de Pensiones de Jubilación SECURITEX S.A (AFP), sabe que cuentan con una ca asegurados. Ante la aprobación de nuevas leyes por el estado, es necesario realizar un estudio sobre algunas características fidelizar a sus afiliados y no retiren sus fondos ante nuevas políticas de inversión. Para el estudio, se seleccionó una muestra repres para aplicarles una encuesta, y algunas de las variables consideradas fueron el número de miembros por afiliado, el tipo de segu seguro, edad, sexo, satisfacción por la inversión de sus fondos y grado de instrucción. De acuerdo al texto contestar el siguie 1. Se pide identificar los conceptos estadísticos relacionando las frases y colocando la letra que corresponda.

(

) Variable

(

) Parámetro

a) Del total de afiliados, el número promedio de miembros por familia de cada afiliado es de 5 miembros. b) De los 654 afiliados seleccionados para el estudio, el 25% cuenta con un seguro de vida.

(

) Muestra

c) Se observó que el Sr. Pérez, uno de los 654 clientes elegidos, tiene grado de instrucción superior.

(

) Población

d) Según los resultados del estudio en los 654afiliados de la AFP, el gerente estima que la pensión promedio mensual de jubilación de todos los asegurados que cumplieron los65años fue de 870 soles. e) La AFP SECURITEX cuenta con 985 537 afiliados.

( ) Unidad de estudio (

) Inferencia

f) El Sr. Pérez es uno de los afiliados de la AFP SECURITEX.

(

) Dato

g) Se ha seleccionado a 654 afiliados que participen de una encuesta.

(

) Estadístico

h) El grado de instrucción de los afiliados.

2.- Con la información recolectada a través de las de datos, como se muestra a continuación: Tabla 1. Matriz de datos de los afiliados de la AFP SECURITEX N°

Edad del afiliado

Sexo

Miembros por familia

Tipo de seguro

características

Pago mensual (S/)

de

Estudios

Retira su fondo

1

35

M

3

Salud

60

Superior

Si

2

24

F

1

Vida

54

Superior

No

3

42

F

1

Salud

55

Secundaria

Si

:

:

:

:

:

:

:

40

M

4

Salud

:

:

:

:

55

F

2

Salud

120 : 654

: 80 : 65

Primaria

las

unidades

No

:

:

Superior

Si

De la matriz de datos se pide clasificar las variables según su naturaleza y escala de medición.

de estudioselecciona

RITEX S.A (AFP), sabe que cuentan con una cartera de 985 537 izar un estudio sobre algunas características importantes para ra el estudio, se seleccionó una muestra representativa de 654 clientes úmero de miembros por afiliado, el tipo de seguro, pago mensual del ucción. De acuerdo al texto contestar el siguiente cuestionario. ndo la letra que corresponda.

por familia de cada afiliado es de 5

l 25% cuenta con un seguro de vida.

dos, tiene grado de instrucción superior.

de la AFP, el gerente ión de todos los asegurados que

encuesta.

icas

de

las

unidades

de estudioseleccionadasse elaboró una matriz

Satisfacción por inversión de fondos Insatisfecho Muy satisfecho Poco satisfecho : Poco satisfecho : Insatisfecho

escala de medición.

Variable

Tipo de variable

Escala de medición

Problema 02: Clasifica las variables según su naturaleza y escala de medición en las casillas que están en blanco. Nº

Variable

1

Edad de los congresistas

2

Estatura de los deportistas de un club

3

Sueldo de los empleados de una empresa

4

Profesión de los empresarios de Gamarra

5

Distrito de residencia de los estudiantes

6

8

Grado de instrucción de los clientes de un banco Nivel de satisfacción de los usuarios de ESSALUD Peso de recién nacidos en un hospital

9

Tiempo de tratamiento con un antidepresivo

7

10

Tipo de variable

Escala de medida

Valores (Ej. Datos)

Número de hijos de los trabajadores de una empresa Problema 03: La gerente de Recursos Humanos de una empresa ha elaborado una prueba de aptitud (evaluados en una escala de 1 a 100) pa ofertados; los que obtengan las mejores calificaciones serán los mejores candidatos para cubrir la plaza de dos secretarias, un administrador y un contador. Respondiendo al llamado se presentaron 21 postulantes aptos según el perfil requerido, los resul aptitud en promedio fue de 73 puntos, uno de los postulantes tiene estudios de Doctorado y 20 años de experiencia. a. De acuerdo al texto, identifique lo siguiente:

Población de estudio Muestra Unidad de estudio Estadístico

medición

.

Valores (Ej. Datos)

en una escala de 1 a 100) para los 5 puestos de trabajo plaza de dos secretarias, uno para seguridad, un el perfil requerido, los resultados de la prueba de os de experiencia.

b.

Identifica las variables mencionadas en el estudio y clasifique según su naturaleza y escala de medición Variable

Tipo de variable

Escala de medida

Valores

Problema 04: Un grupo de investigadores tienen el propósito de conocer cuáles son las condiciones socioeconómicas de las familias resident Ventanilla. Para el estudio se ha determinado entrevistar a 300 familias elegidas aleatoriamente. La encuesta se realizó e distrito y algunas características estudiadas son: Tamaño familiar:Número de miembros en la familia Ingresos:Ingreso familiar mensual Estudios:Grado de instrucción alcanzado por el jefe de familia Vivienda:Tipo de material de la vivienda (Prefabricado, material noble, Quincha) a. Complete las casillas en blanco identificando en enunciado del problema lo siguiente:

Población de estudio Muestra Unidad de Estudio b.

Determine y clasifique las variables según su naturaleza y escala de medición Variable Tipo de variable Escala de medida

Valores

Problema 05: Bendezú Vilma y Chirinos Claudia realizaron una investigación en 76 adolescentes embarazadas nuevas y continuadoras de 13 determinar las características sociodemográficas, culturales y familiares de adolescentes embarazadas atendidas en los co Gineco-Obstetricia del Hospital Daniel Alcides Carrión del Callao en los meses de enero a marzo del 2015. Entre a muestran que el 40.9% tuvo 16 años de edad, el 80.3% no asistieron a ningún programa de educación sexual y planificac inicio de relaciones sexuales del 60.5% fue a los 15 años de edad, el 68.4% mencionan que sus padres no le prestan atención y sufrido violenciapor parte de sus padres. a. Identifica los conceptos estadísticos y relaciona las frases colocando la letra que corresponda

(

) Variable

(

) Parámetro

(

) Muestra

(

) Población

b) Todas lasadolescentesembarazadas atendidas en consultorios de Gineco- obstetricia durante el periodo de estudio. c) De las 76 adolescentesparticipantes en el estudio, el 81.6% declara haber sufrido violencia por sus progenitores. c) Se observó que una adolescente de las 76estudiadas, no asistió al programa de educación sexual y planificación familiar. i) Del total de adolescentes atendidas en consultorios de Gineco- obstetricia,68.4% refieren que sus padres no les prestan atención.

a y escala de medición

micas de las familias residentes en el distrito de e. La encuesta se realizó en distintas zonas del

Valores

uevas y continuadoras de 132,cuyo objetivo es barazadas atendidas en los consultorios externos de marzo del 2015. Entre algunos resultados educación sexual y planificación familiar, la edad de dres no le prestan atención y el 81.6% declaran haber

a

obstetricia durante el

ber sufrido violencia

e educación sexual y

o- obstetricia,68.4%

( ) Unidad de estudio (

) Dato

(

) Estadístico

1.4 Bibliografía 1. Ávila, RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A. 2. Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.). Lima: Moshera. 3. Newbold, P., Carlson, WL.,Tghorne, B. (2008). Estadística para Administración y Economía. (6ª ed.). España:Edit. Pearson Educación 4. Black, K. (2008). Estadística en los negocios. (2ª ed.). México: Grupo Editorial Patria S.A.

Tema 2 ElMuestreo 2.1 Competencia a desarrollar Determina el tipo de muestreo en la selección de muestras probabilísticas y no probabilísticas que se debe aplicar en un estudio. 2.2 Contenido del tema 2 Cuando una población de estudio no se puede estudiar todas las unidades, ya sea por la gran cantidad de unidades o por el costo que implic seleccionar una muestra representativa utilizando un método de selección llamado muestreo. Muestreo Es el proceso de seleccionar los individuos o elementos (unidades de estudio) que conformarán la muestra representativa de una d estudio con el propósito de hacer inferencias. Esta selección se hace utilizando un muestreo probabilístico o no probabilístico según el dise Tipos de muestreo  Muestreo probabilístico Son métodos probabilísticos que se basan en el principio que cada unidad de estudio de la población tenga igual probabilidad de ser selecc asegurar la representatividad de la muestra extraída, de tal modo que sea útil para hacer inferencias sobre dicha población. Esto probabilísticos puede realizarse de forma manual o mediante software y son: Muestreo aleatorio simple, muestreo sistemático, mue muestreo por conglomerados.  Muestreo no probabilístico Es útil para estudios exploratorios y cuando el muestreo probabilístico es muy costoso. La muestra extraída no da certeza de representati todos los sujetos de la población tienen la misma probabilidad de ser elegidos. Por lo general, la selección de las unidades de la muestra se criterios del investigador, procurando en la medida de lo posible que sea representativa. Entre los métodos de muestreo no probabi Accidental, por selección de criterio, por cuotas y bola de nieve. Ejemplo 2 Un candidato a la alcaldía de cierto distrito, solicita los servicios de una encuestadora para que realicen un estudio con la fin gasto promedio mensual en alimentación en las familias de su comuna. El responsable del estudio ha seleccionado aleatoriament residentes en el distrito; los resultados revelan que las familias en promedio gastan en alimentación 650 soles mensuales. Determ muestra, muestreo, unidad de estudio, variables, estadístico y parámetro: Solución Población de estudio: Todas las familias que son residentes del distrito Unidad de estudio: Cada una de las familias que vive en el distrito M residentes del distrito Variable de estudio: Gasto mensual en alimentación Tipo de variable: Cuantitativa continua Escala de medición: Razón Muestreo: Aleatorio sistemático Estadístico: Gasto promedio en alimentación de las 200 familias es 650 soles. Parámetro: Gasto promedio estimado en alimentación de las familias del distrito es de 650 soles. 1.3 Preguntas de aplicación Problema 01: El departamento de control de calidad de ANCORP S.A. ante las quejas de sus clientes, decide investigar si sus productos cumplen con las e exacto en el etiquetado de bolsas de arroz superior de 5kg. Para comprobar la sospecha, selecciona al azar 5 bolsas de un lote de producción

El departamento de control de calidad de ANCORP S.A. ante las quejas de sus clientes, decide investigar si sus productos cumplen con las e exacto en el etiquetado de bolsas de arroz superior de 5kg. Para comprobar la sospecha, selecciona al azar 5 bolsas de un lote de producción

durante 3 semanas consecutivas y registra su peso luego de ser pesadas en una balanza calibrada. Si se comprueba la veracidad de la sospecha la máquina de llenado debe ser regulada. Los resultados revelan que el peso medio fue determinar:

j) En el periodo de estudio se atendió a 132 adolescentes embarazadas. k) La joven Alisson es una adolescente atendida en el periodo de estudio. l) Edad de inicio de relaciones sexuales de las adolescentes embarazadas.

ografía RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A. a, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.). Lima: Moshera. d, P., Carlson, WL.,Tghorne, B. (2008). Estadística para Administración y Economía. (6ª ed.). España:Edit. Pearson Educación S.A. P: 1-13. K. (2008). Estadística en los negocios. (2ª ed.). México: Grupo Editorial Patria S.A.

estreo tencia a desarrollar tipo de muestreo en la selección de muestras probabilísticas y no probabilísticas que se debe aplicar en un estudio. nido del tema 2 oblación de estudio no se puede estudiar todas las unidades, ya sea por la gran cantidad de unidades o por el costo que implica la investigación, se debe na muestra representativa utilizando un método de selección llamado muestreo.

o de seleccionar los individuos o elementos (unidades de estudio) que conformarán la muestra representativa de una determinada población de propósito de hacer inferencias. Esta selección se hace utilizando un muestreo probabilístico o no probabilístico según el diseño de la investigación. streo obabilístico probabilísticos que se basan en el principio que cada unidad de estudio de la población tenga igual probabilidad de ser seleccionado en la muestra para presentatividad de la muestra extraída, de tal modo que sea útil para hacer inferencias sobre dicha población. Estos métodos de muestreos s puede realizarse de forma manual o mediante software y son: Muestreo aleatorio simple, muestreo sistemático, muestreo estratificado y r conglomerados. probabilístico studios exploratorios y cuando el muestreo probabilístico es muy costoso. La muestra extraída no da certeza de representatividad, debido a que no tos de la población tienen la misma probabilidad de ser elegidos. Por lo general, la selección de las unidades de la muestra se hace bajo determinados investigador, procurando en la medida de lo posible que sea representativa. Entre los métodos de muestreo no probabilísticos más utilizados son: or selección de criterio, por cuotas y bola de nieve.

a la alcaldía de cierto distrito, solicita los servicios de una encuestadora para que realicen un estudio con la finalidad de estimar el dio mensual en alimentación en las familias de su comuna. El responsable del estudio ha seleccionado aleatoriamente cada 15 a 200 familias n el distrito; los resultados revelan que las familias en promedio gastan en alimentación 650 soles mensuales. Determinar la población, streo, unidad de estudio, variables, estadístico y parámetro:

estudio: Todas las familias que son residentes del distrito Unidad de estudio: Cada una de las familias que vive en el distrito Muestra: 200 familias l distrito studio: Gasto mensual en alimentación Tipo de variable: Cuantitativa continua dición: Razón Muestreo: Aleatorio sistemático asto promedio en alimentación de las 200 familias es 650 soles. asto promedio estimado en alimentación de las familias del distrito es de 650 soles. ntas de aplicación Problema 01: nto de control de calidad de ANCORP S.A. ante las quejas de sus clientes, decide investigar si sus productos cumplen con las especificaciones de peso etiquetado de bolsas de arroz 5kg. Para comprobar la sospecha, selecciona al azar 5 bolsas de un lote de producción

nto de control de calidad de ANCORP S.A. ante las quejas de sus clientes, decide investigar si sus productos cumplen con las especificaciones de peso etiquetado de bolsas de arroz 5kg. Para comprobar la sospecha, selecciona al azar 5 bolsas de un lote de producción

durante 3 semanas consecutivas y registra su peso luego de ser pesadas en una balanza calibrada. Si se comprueba la veracidad de la sospecha la máquina de llenado debe ser regulada. Los resultados revelan que el peso medio fue de 4999 gr. Se pide determinar:

:Edit. Pearson Educación S.A. P: 1-13.

en un estudio.

o por el costo que implica la investigación, se debe

representativa de una determinada población de babilístico según el diseño de la investigación.

obabilidad de ser seleccionado en la muestra para dicha población. Estos métodos de muestreos reo sistemático, muestreo estratificado y

certeza de representatividad, debido a que no nidades de la muestra se hace bajo determinados de muestreo no probabilísticos más utilizados son:

un estudio con la finalidad de estimar el ccionado aleatoriamente cada 15 a 200 familias soles mensuales. Determinar la población, que vive en el distrito Muestra: 200 familias

ductos cumplen con las especificaciones de peso

e an que el peso medio fue de 4999 gr. Se pide

Variable

Tipo de variable

Escala de medición

Valores

a. Población:                                                                                                                                          b. Muestra:                                                                                                                                             c. Unidad de estudio:                                                                                                                              d.Tipo de muestreo:                                                                                                                              

Problema 02: En las oficinas administrativas del MINSA, en el área de Logística trabajan 150 personas, se desea saber sobre el manejo del encargado del estudio tiene que seleccionar una muestra representativa de 30 trabajadores, y luego se debe aplicar el cu recolectar datos. Se pide presentar el listado de los números seleccionados utilizando un muestreo aleatorio simple y la tabla considerando como arranque fila5 y columna3. Población de estudio:                                                                                                                              Muestra de estudio:                                                                                                                                Listado de los 30 números seleccionados aleatorio simple:

1

11

21

2

12

22

3

13

23

4

14

24

5

15

25

6

16

26

7

17

27

8

18

28

9

19

29

10

20 30 Problema 03: El alcalde de Lima está interesado en evaluar el nivel de satisfacción sobre el servicio de transporte urbano “Corredor Azul” la continuidad del contrato. El encargado del estudio realizó una encuesta a 375 personas, quienes fueron seleccionados según jóvenes, 175 adultos y 50 adultos mayores. Se pide identificar: a. Población:                                                                                                                                          b. Muestra:                                                                                                                                             c. Unidad de estudio:                                                                                                                             d.Tipo de muestreo:                                                                                                                              

Variable(s)

Tipo de variable

Escala de medición

Valore s

Problema 04: El4 de octubre del 2014, IPSOS Perú realizó una encuesta de opinión sobre la intención de voto, respecto a las preferencias po alcaldía de Lima, la cual reveló que el 46.6% votaría por Luis Castañeda. Este resultado proviene de una muestra de 2140 electores hábiles, seleccionados por muestreo bietápicod provincia de Lima. Se pide determinar:

Valores

                                                                                               

e desea saber sobre el manejo del estrés laboral. El jadores, y luego se debe aplicar el cuestionario para muestreo aleatorio simple y la tabla de números aleatorios

                         Muestra de estudio: do de los 30 números seleccionados utilizando muestreo

e transporte urbano “Corredor Azul” de Lima, para sustentar s, quienes fueron seleccionados según el grupo de edad, 150

                                                                                              

Valore s

e voto, respecto a las preferencias políticas para ocupar la

eccionados por muestreo bietápicode los 42 distritos de la

Variable a. b. c. d.

1

Tipo de variable

Escala de medición

Valores

Población:                                                                                                                                    Unidad de estudio                                                                                                                        Muestreo:                                                                                                                                    Muestra:                                                                                                                                      

Problema 05: Se tiene el listado de 30 estudiantes que participaronde un curso virtual en cierta institución. Se pide seleccionar una muestra 8 estudiantes que deben participar en un estudio de FocusGroup con el propósito de conocer la satisfacción del curso desarrollado. Rocío 11 Alejandro 21 José

2

Gustavo

12

Norma

22

Luis

3

Javier

13

Jacobo

23

Ana Luisa

4

Tomás

14

Natalia

24

Viviana

5

Ana

15

Susana

25

Santiago

6

Lucía

16

Edith

26

Ulamer

7

Ernesto

17

Samuel

27

Marcos

8

Celinda

18

Roberto

28

Lely

9

Jorge

19

Carlo

29

Antonieta

10 Willian 20 Rousse 30 Pablo Indique el arranque y el listado de los 8 estudiantes seleccionados utilizando un muestreo aleatorio sistemático. 2.4 Bibliografía 1. Ávila, RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A. 2. Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.). Lima: Moshera. 3. Black, K. (2008). Estadística en los negocios. (2ª ed.). México: Grupo Editorial Patria S.A. 4. Martínez, C. (2005). Estadística y Muestreo. (12ª ed.) Colombia. Editorial Eco Ediciones.

Tema 3 Instrumento de recolección y elaboración de la base de datos 3.1 Competencia a desarrollar Elaborala matriz de datos en Excel con las variables consideradas en el instrumento de recolección de datos. 3.2 Contenido del tema 3 Técnicas de recolección de datos Requiere la elección de una técnica y de un instrumento que permita medir las características de las unidades de estudio en una muest acuerdo con Hernández, Fernández y Baptista (2010), “Recolectar datos implica elaborar un plan detallado de procedimientos qu reunir datos con un propósito específico” (p.198). Entre las técnicas de recolección tenemos: Encuesta Documentos Entrevista Observación Instrumentos Recurso que usa el investigador para registrar información y son: cuestionarios, guías de observación, inventario y escalas. Todo instrumen comprobarse la confiabilidad y validez, con la finalidad de garantizar datos útiles y confiables. La elaboración del instrumento se ha operacionalización de variables. Con los datos obtenidos de los sujetos implicados en el estudio, es necesario organizar la información recolectada para el procesamiento d puede hacerse de forma manual o con el uso de un software como Excel, SPSS, Stata, Statgraphics, Minitab, entre otros. El uso de software para el procesamiento de datos, nos permite el manejo de muestras o poblaciones con gran número de unidades y la ob con mayor velocidad. Elaboración de la base de datos Es el traslado de la información recogida mediante los instrumentos de recolección de datos a un software estadístico o Excel, el investigador procesar y obtener resultados que describan la magnitud del problema en estudio. Una base de datos contiene todos los regist población en estudio lista para ser procesada en cualquier momento. Para el procesamiento de datos se realizará usando el complemento MegaStat de Excel. 3.3 Preguntas de aplicación Problema 01: El Director del Centro Geriátrico RENACER del distrito del Rímac, ha realizado un estudio con el propósito de describir el estad enfermedades más frecuentes que presentan los pacientes que fueron atendidos en el primer trimestre del año 2016. Se elaboró una ficha de datos para recolectar información de las histo paciente como se muestra a continuación:

Se obtiene Información de historias clínicas, registros físicos o electrónicos para investigar un tema de interés. Información proporcionada por los mismos sujetos sobre opiniones con un moderador sobre un tema de interés. El investigador recopila datos de manera sistemática observando la ocurrencia de los hechos.

Información proporcionada por los mismos sujetos sobre opiniones, conocimientos de un tema de interés.

Valores

                                                                                                             

ión. Se pide seleccionar una muestra aleatoria sistemática de

aleatorio sistemático.

datos.

nidades de estudio en una muestra o población. De an detallado de procedimientos que nos conduzca a

nventario y escalas. Todo instrumento de medición debe elaboración del instrumento se hace en base al cuadro de

ecolectada para el procesamiento de datos, la misma que nitab, entre otros. on gran número de unidades y la obtención de los resultados

a un software estadístico o Excel, ello le permite al se de datos contiene todos los registros de la muestra o

el propósito de describir el estado nutricional y las

a recolectar información de las historias clínicas de cada

Centro Geriátrico RENACER- Rímac FICHA DE DATOS SERVICIO: Enfermería ACTIVIDAD: Estado nutricional de pacientes hospitalizados 1. Sexo: 1) Masculino 2) Femenino 2. Peso………………………. 3. Talla………………………. 4. Edad………………………. 5. Diagnóstico: 1) Enfermo Mental 2) Físicamente enfermo 3) Retrasado mental 6. Lugar de Destino: 1) Hogar de familiares 2) No ha dejado el Geriátrico 3) Fallecido 4) Hospital 5) Sanatorio particular 6) Otro Geriátrico

Se pide a usted que elabore una base de datos en Excel y debe grabar como Pacientes Geriátricos. Base de datos de pacientes del Centro geriátrico Renacer Fuente: Enfermería, Renacer

Problema 02: El Director de recursos humanos de la empresa Credisa Philco S.A. ha diseñado un cuestionario, con el propósito de conocer c compañeros de trabajo. La aplicación de la encuesta se hizo enviando al correo de los trabajadores, luego será devuelto con l trabajador. El cuestionario fue el siguiente:

Nº 1

Sexo Masculino

Peso 72

Talla

Edad

1.68

29

Diagnóstico

Destino

Enfermo mental

Hogar de familiares

2

Masculino

67

1.68

35

Enfermo mental

No ha dejado el Geriátrico

3

Femenino

52

1.55

34

Físicamente enfermo

No ha dejado el Geriátrico

4

Masculino

74

1.72

36

Enfermo mental

No ha dejado el Geriátrico

5

Femenino

54

1.57

25

Retrasado mental

No ha dejado el Geriátrico

6

Femenino

48

1.55

20

Enfermo mental

No ha dejado el Geriátrico

7

Femenino

55

1.60

31

Físicamente enfermo

No ha dejado el Geriátrico

8

Femenino

51

1.60

89

Físicamente enfermo

Fallecido

9

Masculino

55

1.63

42

Retrasado mental

No ha dejado el Geriátrico

10

Masculino

53

1.68

41

Enfermo mental

No ha dejado el Geriátrico

11

Femenino

62

1.55

47

Físicamente enfermo

No ha dejado el Geriátrico

12

Masculino

60

1.66

41

Físicamente enfermo

Hogar de familiares

13

Masculino

51

1.54

87

Enfermo mental

No ha dejado el Geriátrico

14

Femenino

55

1.59

56

Retrasado mental

Fallecido

15

Femenino

55

1.57

50

Retrasado mental

No ha dejado el Geriátrico

16

Femenino

52

1.57

28

Físicamente enfermo

Otro Geriátrico

17

Masculino

67

1.69

35

Retrasado mental

No ha dejado el Geriátrico

18

Femenino

52

1.59

23

Físicamente enfermo

No ha dejado el Geriátrico

19

Femenino

48

1.56

39

Retrasado mental

Hospital

20

Masculino

65

1.68

42

Enfermo mental

No ha dejado el Geriátrico

21

Femenino

48

1.56

72

Enfermo mental

Sanatorio particular

22

Masculino

68

1.69

52

Enfermo mental

No ha dejado el Geriátrico

23

Femenino

57

1.62

31

Físicamente enfermo

No ha dejado el Geriátrico

24

Masculino

70

1.72

35

Físicamente enfermo

Otro Geriátrico

25

Masculino

59

1.67

42

Físicamente enfermo

No ha dejado el Geriátrico

26

Femenino

68

1.68

29

Enfermo mental

Hogar de familiares

27

Femenino

59

1.60

61

Retrasado mental

No ha dejado el Geriátrico

28

Femenino

57

1.53

18

Enfermo mental

Hospital

29

Femenino

51

1.61

64

Retrasado mental

No ha dejado el Geriátrico

30

Masculino

61

1.68

51

Físicamente enfermo

No ha dejado el Geriátrico

31

Femenino

52

1.57

30

Físicamente enfermo

Hogar de familiares

32

Femenino

65

1.64

35

Retrasado mental

No ha dejado el Geriátrico

33

Masculino

57

1.66

40

Físicamente enfermo

Sanatorio particular

34

Masculino

57

1.58

76

Retrasado mental

Hospital

35

Masculino

68

1.73

59

Físicamente enfermo

No ha dejado el Geriátrico

36

Femenino

46

1.54

71

Enfermo mental

Sanatorio particular

37

Femenino

48

1.52

62

Enfermo mental

No ha dejado el Geriátrico

38

Femenino

51

1.58

65

Enfermo mental

Hospital

39

Masculino

75

1.73

51

Retrasado mental

No ha dejado el Geriátrico

40

Femenino

64

1.65

18

Retrasado mental

Otro Geriátrico

.

con el propósito de conocer como es la relación entre es, luego será devuelto con los datos llenos de cada

Cuestionario de opinión referente a la relación entre compañeros Estimado colaborador, con la finalidad de mejorar la relación entre compañerismo, responda siguiente cuestionario con toda sinceridad indicando la opción que usted considere correcta. 1) Edad..………… 2) ¿Cuántos años de educación concluidos tiene?………….. 3) Género  Masculino  Femenino 4) Ingreso semanal…………...…..………. 5) Tiempo que fue ascendido a ocupar un cargo superior……………….. 6) Área de trabajo  Administración  Ventas Producción 7) Relación de compañerismo  Muy buena Buena  Regular  Mala

el Base de datos de pacientes delos empleados CREDISA PHILCO Empleado

Edad

Años_Educ

Género

Ingresos

Promoción

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49

35 64 33 23 33 60 37 25 39 35 35 49 34 50 49 39 61 59 25 20 37 24 33 30 43 56 35 35 42 34 50 34 41 44 27 40 33 38 41 32 58 28 18 33 34 48 21 26 39

20 14 15 14 12 14 14 13 18 16 12 13 12 14 4 16 12 16 16 11 13 12 10 16 13 16 15 16 16 12 14 12 13 16 17 13 16 19 15 12 14 16 12 16 9 17 14 16 18

Masculino Femenino Femenino Masculino Femenino Masculino Femenino Femenino Masculino Masculino Femenino Masculino Femenino Femenino Masculino Masculino Femenino Femenino Masculino Masculino Femenino Femenino Masculino Femenino Masculino Femenino Masculino Masculino Femenino Femenino Femenino Femenino Masculino Femenino Femenino Masculino Femenino Masculino Masculino Femenino Masculino Femenino Masculino Femenino Femenino Femenino Femenino Femenino Masculino

783 257 405 202 252 357 150 180 608 384 310 766 333 158 275 642 320 266 331 105 357 243 333 300 252 361 427 147 237 313 241 303 164 179 204 263 216 487 184 148 537 170 115 177 118 328 163 447 756

1 5 5 1 1 3 2 5 4 3 2 5 1 1 4 1 5 2 1 1 4 1 2 2 1 1 2 1 5 4 2 2 5 5 2 1 4 1 4 2 5 1 2 5 2 4 3 3 5

Area Administración Ventas Producción Producción Ventas Administración Ventas Ventas Administración Ventas Ventas Administración Producción Ventas Producción Producción Producción Producción Ventas Ventas Ventas Producción Producción Ventas Ventas Ventas Producción Ventas Ventas Ventas Ventas Producción Ventas Producción Producción Ventas Ventas Producción Ventas Ventas Administración Ventas Ventas Ventas Ventas Administración Ventas Producción Administración

Compañerismo Regular Mala Mala Regular Mala Mala Mala Regular Mala Regular Buena Mala Muy buena Buena Mala Mala Mala Mala Mala Mala Buena Regular Mala Regular Mala Mala Mala Regular Mala Regular Mala Regular Mala Regular Regular Regular Mala Mala Buena Buena Regular Mala Muy buena Mala Regular Regular Mala Mala Mala

50

29

17

Femenino

Fuente: Recursos Humanos Credisa Philco S.A.

501

1

Producción

Buena

Se pide elaborar la base de datos en Excel correspondiente a los empleados de Credisa Philco S.A. 3.4 Bibliografía 1. Ávila, RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A. 2. Álvarez, R. (2007). Estadística aplicada a las ciencias de la salud. Madrid: Díaz de Santos. 3. Daniel W. (2009). Bioestadística - Base para el Análisis de las Ciencias de la Salud. (4ª ed.) México: Editorial Limusa S.A. 4. Balzarini, M., Tablada, M. (2011). Introducción a la Bioestadística. Brujas: Córdova.

estionario con toda

A PHILCO

a

Editorial Limusa S.A.

Tema 4 Tablas de frecuencias y gráficas 4.1 Competencia a desarrollar Elabora e interpreta tablas de frecuencias y gráficas de variables cuantitativas o cualitativas. 4.2 Contenido del tema 4 Organización y presentación de datos Los métodos para organizar y presentar los resultados son las tablas de frecuencias y las gráficas, las mismas que sirven para resumir datos, para que el investigador pueda analizar y tomar decisiones. Tablas de distribución de frecuencias Es una tabla de distribución de los datos agrupados en categorías o clases mutuamente excluyentes de acuerdo a la escala de medición de categoría indica el número de observaciones conocido como frecuencias y son: Frecuencia absoluta simple (fi).- es la cantidad de datos pertenece a una clase o categoría. Frecuencia relativa simple (hi).-representa la proporción de datos que pertenecen a una clase y se obtiene:

ℎ𝑖 =

𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 = 𝑓𝑖

𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠

𝑛

Frecuencia porcentual (hi%).- es la frecuencia relativa simple multiplicada por 100% y se calcula: hi% = hix100% Una tabla de distribución de frecuencias de tener las siguientes partes: Número de la tabla, encabezados de las columnas, cuerpo y fuente

Tabla 1. Título de la tabla Variable

Frecuencia

Proporción

Porcentaje

X1

f1

h1=f1/n

h1=(f1/n)*100

X2

f2

h2= f2/n

h2= (f2/n)*100









Xk

fk

hk= fk/n

hk= (fk/n)*100

Total

n

1

100%

Enumeración y título Encabezados

Cuerpo Fuente: (persona o entidad que recolecta los datos)

La suma de las frecuencias absolutas simples es el total de la muestra (n). La suma de las frecuencias relativas simples es igua frecuencias porcentuales suma 100%. Gráficas estadísticas Es la representación de datos en forma visual llamado gráfica, para ello se debe considerar el tipo de la variable y su escala d tales como: Variables cualitativas: gráfico de barras, gráfico de sectores Variables cuantitativas discretas: gráfico de bastones Variables cuantitativas continuas: histograma de frecuencias, polígono de frecuencias, ojivas, líneas, diagrama de caj dispersión, etc.

Distribución de frecuencias para variables cualitativas Si los datos fueron medidos en escala nominal la tabla de frecuencias contiene las categorías, las frecuencias absolu relativas. Ejemplo 3 La clínica Vargas realizó un estudio a 54 pacientes que fueron dados de alta durante el mes de febrero 2018y cancelaron los se tarjeta de créditocomo: Visa (V), Mastercard (M), Dinner (D) y Otras (O). Los datos son:

áficas, las mismas que sirven para resumir y ver la tendencia de los

tes de acuerdo a la escala de medición de los valores.Cada clase o

clase y se obtiene:

a:

abezados de las columnas, cuerpo y fuente. Por ejemplo:

Enumeración y título Encabezados

Cuerpo Fuente

de las frecuencias relativas simples es igual a 1y la suma de las

nsiderar el tipo de la variable y su escala de medición de los valores,

cuencias, ojivas, líneas, diagrama de cajas y bigotes, gráfico de

ene las categorías, las frecuencias absolutas y las frecuencias

e el mes de febrero 2018y cancelaron los servicios médicos con

V

V

M

D

M

M

V

D

V

V

V

V

D

V

O

V

V

V

V

D

V

O

V

D

M

D

M

O

M

M

O

M

V

V

D

M

V

M

M

V

O

M

M

O

D

D

M

D

V

V

D

O

V

V

a) Elabora una tabla de frecuencias. b) Interpreta las frecuencias: f2, h3, h1% c) elabore un gráfico de barras. Solución a) Tabla de frecuencias Tabla 2. Distribución de pagos delos pacientes con alta según tarjeta de crédito

Tarjetas

Frecuencias

Proporción

Porcentajes

MASTERCARD

14

0.26

26%

VISA

22

0.41

41%

DINNER

11

0.20

20%

OTROS

7

0.13

13%

54

1.00

100%

Total

Fuente: ClínicaVargas b) Interpretación de frecuencias Interpretación de la segunda frecuencia absoluta f2= 22; 22 de 54 clientes que fueron dados de alta usaron tarjeta VISA para cancelar los servicios médicos de la clínica. Interpretación de la tercera frecuencia relativa (proporción) h3= 0.20; El 0.20 de 54 clientes que fueron dados de alta pagaron con tarjeta VISA los servicios médicos de la clínic Interpretación de la primera frecuencia relativa porcentual h1% = 26%; El 26% de 54 clientesque fueron dados de alta cancelaron con tarjeta VISA los servicios médicos de la clínica.

c) Gráfico de barras Gráfico 1. Pago de pacientes con alta s egún tipo de tarjeta de créditoFuente: ClínicaVargas Ejemplo 4 Un

es tudio

ej

30%

20% MASTERCARD

VISA

50% 41% 40% 26% 20% 10% 0%

13%

DINNER

OTROS

b) Datos: Total de encuestados: n = 586. Perfil configurado como privado es el 26%: nx0.26 = 586x0.26 = 152.36 = 152 Respuesta: 152 encuestados han configurado su perfil de Facebook como privado.

Distribución de frecuencias para variables cuantitativas discretas El resumen de los datos cuantitativos discretos debe presentarse en una tabla de frecuencias y su representación gr Ejemplo 5 Los siguientes datos corresponden a una encuesta realizada por Stat Marka un grupo de padres de familia de una c está conformada por 88 familias. Unade las preguntas fue ¿cuántos hijos vivos tiene usted en su familia? las respuestas se muestra en la siguiente tabla: Tabla 3. Cantidad de hijos familia

rvicios médicos de la clínica.

A los servicios médicos de la clínica.

rvicios médicos de la clínica.

aVargas Ejemplo 4 Un

es tudio

ejecutado

por

el

Pew

Res earch

Center's

Internet

&

American

Life Project(http://www.pewinterne

recuencias y su representación gráfico es bastones.

o de padres de familia de una comunidad, la muestra

la:

Hijos

Frecuencia

1

7

2

22

3

31

4

15

5

10

6

3

Total

88

a. Elabora el gráfico de bastones Gráfico 3. Distribución de hijos por familia de la comunidad Fuente: Elaboración propia Distribución de frecuencias para una variable cuantitativa continua El resumen de los datos cuantitativos continuos correspondiente a una sola variable debe presentarse en una tabla de frecuencias agrupada también clases y su gráfica se representa con histograma de frecuencias, polígono de frecuencias, ojivas, diagrama de cajas simple. 1. Elaboración de una tabla de distribución de frecuencias agrupadas en intervalos El procedimiento es el siguiente: 1) Calcular el rango (R) o recorrido de los datos, el cual se define:

R = Valor máximo – valor mínimo

2)

Determinar el número de clases o intervalos (K) por el método de Sturges:

r familia de la comunidad

una variable cuantitativa continua vos continuos correspondiente a una sola variable debe presentarse en una tabla de frecuencias agrupadas en intervalos o llamado esenta con histograma de frecuencias, polígono de frecuencias, ojivas, diagrama de cajas simple. distribución de frecuencias agrupadas en intervalos

ido de los datos, el cual se define:

= Valor máximo – valor mínimo

úmero de clases o intervalos (K) por el método de Sturges:

K = 1+3.32* log(n) 3) 𝑪=� �

Determinar la Amplitud o anchura (C) de los intervalos, definido como:

4) Determinar los límites de cada intervalo o clase, se recomienda entre 5 y 20 intervalos. Ejemplos de intervalos que se puede utilizar: [10 - 20] Intervalo cerrado [10 – 20> Intervalo semicerrado

1,517

3

0.10

3

0.10

[ 1,634 - 2,102 >

1,751

5

0.17

8

0.27

[2,102 - 1,634 >

1,985

10

0.33

18

0.60

[ 1,400 - 2,336 >

2,219

5

0.17

23

0.77

[ 2,336 - 2,570 >

2,453

5

0.17

28

0.93

[ 2,570 - 2,804 >

2,687

2

0.07

30

1.00

30

1.00

Total

Fuente: Recursos Humanos, BIGDATA Marca de clase (Xi): por ejemplo X1= (1,400+1,634)/2

2. Elaboración de tablas de frecuencias y gráficas de variables cualitativas, usando el complemento de Excel MegaStat. En Excel encontraremos el símbolo del complemento MegaStat en el menú DATOS y aparecerá el siguiente cuadro de diálogo, se debe seguir la siguiente secuenc Ingresar rango de datos que están en Excel (sin la etiqueta) Seleccionamoslas categorías de la variable cualitativadigitadas en una columna aparte

2. Elaboración de tablas de frecuencias agrupadas y gráficas de variables cuantitativas, usando el complemento de Excel M la siguiente secuencia: Ingresar rango de datos que están en Excel (Sin la etiqueta) 4.3 Preguntas de aplicación Problema 01: El Higher Education Research Institute de UCLA cuenta con estadísticas sobre las áreas que son más elegidas por los estudia Las cinco más elegidas son arte y humanidades (A), administración de negocios (N), ingeniería (I), política (P) y ciencias socia Times Almanac, 2006). Otras áreas (O), como biología, física, ciencias de la computación y educación se agruparon todas en ha seleccionado una muestra de 64 estudiantes de recién ingreso y los datos se muestra a continuación:

to de Excel MegaStat. e seguir la siguiente secuencia:

el complemento de Excel MegaStat, se debe seguir

s elegidas por los estudiantes de nuevo ingreso. olítica (P) y ciencias sociales (S) (The New York ón se agruparon todas en una sola categoría. Se

S O N A

P E A I

P O N I O I P O O N O O O A E N S O N O A O I O I O N P S O I A N O S S O O I N O N N I A A P O O I O N N O P N a) Construya la tabla de frecuencia. b) Elabore la gráfica de barras. c) ¿Qué porcentaje de estudiantes de nuevo ingreso elige estudiar administración? d) ¿Cuál es el área más elegida por los estudiantes de nuevo ingreso? ¿Qué porcentaje de los estudiantes de nuevo ingreso elig

Problema 02: Con los datos del problema 01 de la página 17 [Pacientes Geriátricos]. Sav. procesar y presentar los resultados entablas y grá interpretación en un documento Word, considerando el siguiente cuestionario: 1. Elabore una gráfica de barras para la variable Diagnóstico médico e interprete los resultados. 2. Elabore una tabla de frecuencias agrupadas en tres intervalos () de la variable Edad e frecuencia relativa de mayor valor. ¿Qué porcentaje de pacientes tiene más de 60 años? 3. Elabore una tabla de frecuencias agrupadas en intervalos de igual amplitud utilizando el método de Sturges de la variable Talla. ¿C frecuente? 4. Elabore un histograma de frecuencias y analice la simetría de la distribución de datos de la variable Talla. 5. Obtener el estado nutricional de cada paciente: primero calcular el índice de masa corporal (IMC) para cada paciente; segundo en una nueva variable, considerando los siguientes intervalos y etiquetas (agrupar: muy obeso); esta nueva variable será el ESTADO NUTRICIONAL. 6. Elaborar un gráfico para la variable estado nutricional. ¿Qué porcentaje de pacientes se encuentran con sobrepeso? ¿Cuántas perso peso? 7. Elabore una gráfica para la variable Lugar de destino. ¿Cuántos pacientes fallecieron en el centro geriátrico? 8. Elabore un polígono de frecuencias para la variable peso y analice la forma de distribución de datos. 9. Elabore un diagrama de cajas para el IMC de los pacientes y analice la forma de distribución de la variable. 10. Describa tres conclusiones. Problema 03: Con los datos del problema 02 de la página 17 [Credisa Philco]. Xls. procesar y presentar tablas de frecuencias y gráficas interpretación de resultados en un documento Word, debe considerar las siguientes preguntas del cuestionario: 1. ¿Qué porcentaje de empleados son mujeres? 2. Elabore una gráfica de barras para la variable relación de compañerismo. ¿Qué porcentaje de personas tienen buena relación entre trabajo? 3. Elabore una tabla de frecuencias agrupadas en 4 intervalos para la edad. ¿Qué porcentaje de empleados tiene más de 50 4. Elabore una tabla de frecuencias agrupadas en tres intervalos ([4 a 11], [12 a 16], [17 a 20]) para la variable años de educación. ¿C más de 17 años de educación? ¿Qué porcentaje de personas tienen menos de 11 años de estudios? 5. Elabore una tabla de frecuencias agrupadas en intervalos de igual amplitud por el método de Sturges de la variable ingresos. ¿Qu personas tienen ingresos superiores a 700 soles? ¿Qué porcentaje de trabajadores tienen entre 300 a 500 soles? 6. ¿Qué tipo de simetría presenta la variable edad? Sustentar con una gráfica. 7. Analizarla simetría de la distribución de datos del tiempo (años) para ser ascendido a un cargo superior con un histogram 8. Analizar la simetría de la distribución de datos de la variable ingresos mediante un diagrama de cajas y polígono de frecuencias. 9. Elabore una gráfica para la variable área de trabajo. ¿Qué porcentaje de trabajadores son vendedores? ¿Cuántos trabajadores son administrativos? 10.Describa tres conclusiones. Problema 04: El siguiente histograma corresponde a la distribución de litros de yogurt, elaborado por la planta productora Dos Patitos SAC. En un per días). Considere como valor mínimo y máximo el límite inferior y límite superior, se pide: a) Elaborar la tabla de frecuencias agrupadas en intervalos. b) ¿Qué porcentaje de días se elaboraron más de 500 mil litros de yogurt? c) ¿Cuántos días se elaboraron entre 420 a 640 mil litros de yogurt?

d) ¿Qué tipo de distribución presentan los datos?

Problema 05: El gerente de logística de una empresa industrial, ha observado que el pago por energía consumida en la planta de producción este se ha incrementado. En tal sentido, se solicitó al jefe de la planta que realice un informe sobre el consumo diario de ene agosto en el 2016. Se sabe que el consumo máximo de energía fue de 20 KW/hr (kilowatts por hora), los datos del consumo KW/hr se detalla en la siguiente tabla: Tabla 2. Consumo de energía de la planta de producción de Lima este

tudiantes de nuevo ingreso elige esta área?

ar los resultados entablas y gráficas con su respectiva

s de 60>) de la variable Edad e interpretar la Sturges de la variable Talla. ¿Cuál es la talla más

e

para cada paciente; segundo categorizar dicho IMC 9] como bajo peso, [19.01 a 24.99] peso normal, será el ESTADO NUTRICIONAL. n con sobrepeso? ¿Cuántas personas están con bajo

geriátrico? . ariable.

as de frecuencias y gráficas con su respectiva uestionario:

nas tienen buena relación entre compañeros de

de empleados tiene más de 50 años? variable años de educación. ¿Cuántas personas tienen

s de la variable ingresos. ¿Qué porcentaje de 500 soles?

argo superior con un histograma de frecuencias. as y polígono de frecuencias. es?

tora Dos Patitos SAC. En un periodo de 2 meses (60

mida en la planta de producción de la zona de Lima sobre el consumo diario de energía durante el mes de r hora), los datos del consumo diario de energía en

20 18

15

16

14 12 10 8

6

17

10 8

7 3

4

2 0 200 -310 310 - 420 420 - 530 530 - 640 640 - 750 750 - 860

Litros de yogurt (miles)

Consumo de energía en KW/hr 10 - 14 14 - 18 18 - 22 22 - 25 Total

Marca de clase Xi

Frecuencia fi

Porcentaje hi%

Fi

4 6 12 8 30

Fuente: Elaboración propiaa) Completar la tabla de frecuencias b) Interpretar las frecuencias : f3, h4 %, F2 y H3%c) ¿Qué porcentaje

Tema 5 Medidas descriptivas detendencia central y posición 5.1 Competencia a desarrollar Calcula las medidas descriptivas de tendencia central y de posición demostrando su capacidad de interpretación y análisis de resu 5.2 Contenido del tema 5 Medidas de descriptivas de resumen Las medidas de resumen descriptivas de una variable numérica (también se denomina estadísticos descriptivos), tiene como propós una muestra con un solo valor, se obtiene por procedimientos matemáticos y es útil para aproximar los parámetros. Las medidas de dividen en cuatro grupos: Medidas de tendencia central: Media, mediana y moda. Medidas de Posición: Percentiles o cuantiles. Medidas de dispersión: Rango, varianza, desviación estándar y coeficiente de variación Medidas de forma: coeficiente de asimetría y coeficiente de curtosis. 5.2.1Medidas de tendencia central Las medidas de tendencia central son valores calculados que tienden a ubicarse en la parte central de las observaciones y describen el cen datos. Las medidas de tendencia central más usuales son: a) Media aritmética o promedio.- Es un valor que representa el centro a un conjunto de datos en una muestra o población, medido en esc obtiene mediante la suma de todos los datos y se divide entre el tamaño de la muestra. Es sensible a la presencia de valores extremos (dat valor del promedio representativo. La fórmula de la media para datos no agrupados es:

Hi

%, F2 y H3%c) ¿Qué porcentaje de días s obrepas ó el his torial de cons umo de energía en la planta? 4 .4 Bibliografía1. Córdova, M. (2003). Es tadís tica D

de interpretación y análisis de resultados de los datos.

os descriptivos), tiene como propósito resumir los datos de los parámetros. Las medidas de resumen descriptivas se

as observaciones y describen el centro de la distribución de

uestra o población, medido en escala de intervalo o razón. Se presencia de valores extremos (dato atípico) porque altera el

Pr omedio muestral  X  i1

n

Pr omedio poblacional     x i1

xi

i

N

La fórmula de la media para datos agrupados es:



x f i i

Pr omedio muestral  i1 n X  Pr omedio poblacional     i1

Donde: Xi : Dato (datos no agrupados) o marca de clase (datos agrupados) fi : Frecuencia absoluta de cada clase n : Tamaño de muestra N : Tamaño d la población En Excel usar la función escribiendo: =PROMEDIO(DATOS)

Ejemplo 7 En la caseta de peaje en la autopista a Ramiro Prialé, se ha registrado el número de vehículos por hora que ingresaron durant 19de septiembre del 2015, con la finalidad de conocer la afluencia de vehículos que recorren esta vía, los datos son: 39, 31, 2 Datos:

medio muestral  X  i1

n

nal     x i1

xi

i

N

e la media para datos agrupados es:



x f i i

i1

n

x. f N i

i

os agrupados) fi : Frecuencia absoluta de cada clase

DATOS)

a registrado el número de vehículos por hora que ingresaron durante las 7 am hasta 12 pm del fluencia de vehículos que recorren esta vía, los datos son: 39, 31, 23, 18, 15

39 x1

31 x2

23 x3

18 x4

15 x5

Solución

X   x x  x  x  x  x i

1

2

i1

3

4



5

n

39  31 23 18 15  126  25.2

5

5

5

Interpretación.-En la autopista Ramiro Prialé, en promedio circulan 25 automóviles por hora entre las 7 am a 12 pm. a) Mediana (Me).- Es un valor que indica el centro de un conjunto de datos ordenados, cuyos valores son medidos en escala ordi una medida robusta porque no se ve afectada por la presencia de datos atípicos, por eso se utiliza cuando la distribución de la mediana representa que el 50% de los datos son menores o iguales a dicho valor y el otro 50% son datos mayores al valor m

El 50% de los datos son menores o iguales a la mediana

El 50% de los datos son mayores a la mediana

Dato mínimo

MEDIANA

  

Dato máximo

Mediana para datos no agrupados: Primero ordenartoda la muestra de datos de menor a mayor Ubicar la posición de la mediana mediante: �(𝑛 +1) Calcular el valor de la mediana con los datos ubicados en la posición central

Mediana para datos agrupados es: Donde:

−�

𝑛

𝑖−1

𝑀𝑒 = LI + C(2 𝑓

𝑀𝑒

)

LI : Límite inferior de la posición de la clase mediana C : Amplitud de clase mediana Fi-1: Frecuencia absoluta acumulada anterior a la clase mediana fMe: Frecuencia absoluta simple de la posición de la clase m la muestra En Excel usar la función y escriba: =MEDIANA(DATOS) Ejemplo 8 Los datos siguientes corresponden a las estaturas (en metros) de peruanos varones de 18 años de edad. Calcular la estatura

1.78

1.55

1.82

1.60

1.65

1.50

1.70



39  31 23 18 15  126  25.2 5

5

rculan 25 automóviles por hora entre las 7 am a 12 pm. unto de datos ordenados, cuyos valores son medidos en escala ordinal, intervalo o razón. Es de datos atípicos, por eso se utiliza cuando la distribución es asimétrica. El valor o iguales a dicho valor y el otro 50% son datos mayores al valor mediano.

El 50% de los datos son mayores a la mediana MEDIANA

Dato máximo

de menor a mayor e: �(𝑛 +1) tos ubicados en la posición central

+ C(2

)

: Amplitud de clase mediana mediana fMe: Frecuencia absoluta simple de la posición de la clase mediana n : Tamaño de

tros) de peruanos varones de 18 años de edad. Calcular la estatura mediana.

Solución Como el tamaño de la muestra n es 7, por tanto “n” es impar Procedimiento: Primero: Ordenar los datos de menor a mayor

1° 2° 3° 4° 5° 6° 1.5 1.55 1.60 16.5 1.70 1.78 Segundo:Determinar la posición del valor mediano: La posición de la mediana es 4° Tercero: Como la posiciónde la mediana es 4°, entonces el valor Mediano es: Me = 1.65 Interpretación.- El 50% de los 7 peruanos varones con 18 años tienen una estatura menor a 1.65 y el otro 50% tienen una est metros. Ejemplo 9 Se ha registrado las edades en años cumplidos a 6 estudiantes ingresantes a la escuela de Farmacia en una universidad, cuyos 18, 27. Se pide calcular la mediana de las edades En este caso la muestra es 6 estudiantes, es un número par Procedimiento: Primero: Ordenar los datos de menor a mayor

3° 20

4° 21 1° 5° 6° 2° 25 27 18 Segundo:Determinar la posición del valor mediano: La posición de la mediana es la 3° y 4° Tercero: Como la posiciónde la mediana20es la 3° y 4°, Cuando el tamaño de la muestra es un número par, la mediana se obtiene sumando los datos ubicados en la posición central: Calcular la mediana: Me =(201+21)/2 = 20.5 Interpretación.- El 50% de 6 alumnos, tienen menos de 21 años y el otro50% tiene más de 21 años. b) Moda (Mo).- La moda en un conjunto de datos observados, es el dato que se presenta con más frecuencia. Se cal medidas en escala nominal, ordinal, intervalo o razón. a. Si en el conjunto de datos no se repite ningún valor la moda no existe. b. Cuando se repite más veces un solo valor existe una sola moda y su distribución UNIMODAL. c. Cuando se repiten el mismo número de veces dos valores, hay dos modas y la distribución es BIMODAL. d. Cuando se repite el mismo número de veces más de dos valores presenta varias modas, la distribución es MULTIMODAL.

(a) Sin moda

La distribución de la variable presentarán las siguientes gráficas (b) Unimodal (c) Bimodal (d) Multimodal Moda para datos no agrup En una muestra o población es el dato que más veces se repite Moda para datos agrupados en intervalos: 𝑀𝑜 = 𝐿𝐼 + 𝐶 ( 𝑑1 ) 𝑑1 + 𝑑2

mpar

7° 1.82 de la mediana es 4° r Mediano es: Me = 1.65 tienen una estatura menor a 1.65 y el otro 50% tienen una estatura superior a 1.65

ngresantes a la escuela de Farmacia en una universidad, cuyos datos son: 20, 21, 25, 20,

la mediana es la 3° y 4° obtiene sumando los datos ubicados en la posición central:

el otro50% tiene más de 21 años. os, es el dato que se presenta con más frecuencia. Se calcula para variables

existe. su distribución UNIMODAL. os modas y la distribución es BIMODAL. presenta varias modas, la

ble presentarán las siguientes gráficas Bimodal (d) Multimodal Moda para datos no agrupados: ón es el dato que más veces se repite os agrupados en intervalos: 𝑜 = 𝐿𝐼 + 𝐶 ( 𝑑1 ) 𝑑1 + 𝑑2

6 4

5

5

5

5

5

8 6 4 2

2

6 4

6 4

4

2

2

0

0 1

2

3

4

5

5

5

4

3

2

3

4

5

5

5

5

4

5

3

2

2

2

2

0

0

1

6 4

1

2

3

4

5

1

2

3

Donde: LI : Límite inferior de la posición de la clase modal C : Amplitud de clase modal d1: Frecuencia clase modal menos frecuencia anterior a la clase modal=fmo-fantfmo d2: Frecuencia clase modal menos frecuencia poster modal=fmo-fpostfmo n : Tamaño de la muestra En Excel usar la función y escriba: = MODA(DATOS) Ejemplo 10 Los datos siguientes corresponden a las edades en años cumplidos de 10 alumnos ingresantes a la universidad en un period 18 29 21 22 21 20 21 20 19 21 ¿Cuál es la edad más frecuente de los ingresantes a la universidad en ese periodo académico? El dato que más veces se repite es 21 Entonces la moda es: Mo = 21 Interpretación.- En los 10 alumnos ingresantes a la universidad en el periodo académico, la edad más frecuente fue de 21 años. 5.2.2 Medidas de posición - Cuantiles Las medidas de posición o denominados también cuantiles, son valores que indican la posición de un dato respecto al conjunto de da menor a mayor y se calcula para variables de escala ordinal, intervalo o razón. El número de divisiones que se realice al histograma más utilizados son: cuartiles, quintiles, deciles, percentiles, etc. Los cálculos consisten en hallar la posición del cuantil y luego calcu En general nos interesa los percentiles y las fórmulas para calcular son: Percentiles para datos no agrupados: En un conjunto de n datos ordenados el valor del centil o percentil se calcula:

se modal menos frecuencia posterior a la clase

tes a la universidad en un periodo académico.

to que más veces se repite es 21

más frecuente fue de 21 años.

un dato respecto al conjunto de datos ordenados de ones que se realice al histograma es a partir de 2, los a posición del cuantil y luego calcular su valor.



La posición del centil: ��

= �(𝒏+�) �𝟎𝟎

 Calcular el valor del centil considerando la posición de ubicación. Percentiles para datos agrupados:

�� = LI + C(

�(

100 𝑓 𝑝�

𝑛

)−�

𝑖−1

)

Donde: LI : Límite inferior de la posición de la clase percentil k C : Amplitud de clase percentil k K :posición del percentil k Fi-1: Frecuencia absoluta acumulada anterior a la clase percentil k Pk Frecuencia absoluta simple de la posición de la clase percentil k n : a) Cuartiles (Qk).- Son tres valores calculados (Qk = 1, 2, 3) que dividen al conjunto de datos en 4 partes iguales y cada una de ellas represe Q1 Q2 Q3 Donde: Q1 : Es el cuartil 1 cuyo valor calculado representa al 25% de los datos menores o igual al valor encontrado y el 75% son datos mayores Q2 : Es el cuartil 2 cuyo valor calculado representa al 50% de los datos menores o iguales al valor encontrado y el 50% de datos restante son Q3 : Es el cuartil 3 cuyo valor calculado representa al 75% de los datos menores o iguales al valor encontrado y el 25% de datos son mayores En Excel usar la función y escriba: =PERCENTIL(DATOS) Ejemplo 11 Se ha registrado la estatura de 100 personas del sexo masculino que participaron en una maratón de 10k, cuyos datos se muestran en la tab agrupada.

25%

25%

25%

25%

Estatura

fi

hi

Fi

Hi

150 - 155

5

0.5

5

0.5

156 - 162

9

0.9

14

0.14

163 - 169

22

0.22

36

0.36

170 - 176

32

0.32

68

0.68

177 - 183

15

0.15

83

0.83

184 - 190

13

0.13

96

0.96

100

1.0

191 - 196 Total

4 100

0.4 1.0

¿Entre qué estaturas se encuentra el 50% de maratonistas con una estatura estándar? Solución  Se debe calcular elquartil1 y cuartil 3 (percentil 25 y percentil 75)  Primero se calculará el Q1

1.- Calculando la posición del Q1: k(n/4) = 1(100/4)= 25 2.- Ubicar la posición 25 en la columna de frecuencias absolutas acumuladas, Fi = 36 3.- Para reemplazar en la fórmula se necesita: C �(𝑛) − �𝑖−1

e la posición de la clase percentil k n : Tamaño de la muestra artes iguales y cada una de ellas representa el 25% de total.

encontrado y el 75% son datos mayores. ncontrado y el 50% de datos restante son mayores. ncontrado y el 25% de datos son mayores.

e 10k, cuyos datos se muestran en la tabla de frecuencias

ndar?

100/4)= 25 reemplazar en la fórmula se necesita: C = 6, LI= 163, fQk = 22

�� = LI + C(

1 � = 163 + 6

Del mismo modo hallamos Q3

3 100 − 68 � = 177 + 6 15

4

100

4 𝑓 ��

− 14

22

)

= 166

4

= 179

En el histograma se observa la posición de Q1 y Q3 Percentiles 25 y 75 150

166

170

179

180

190

Altura (cm) en 100 varones

160

Interpretación.- El 50% de maratonistas con estatura estándar tienen entre 166 cm a 179 cm. b) Deciles (Dk).- Dividen al conjunto de datos en 10 partes iguales y son 9 valores calculados (Dk= 1, 2, 3,…,9), cada una de ellas representa D1 D2 ……….. D9 La interpretación del decil 1 y decil 3 es: D1 :Es el decil 1 cuyo valor calculado indica que el 10% de los datos son menores al valor encontrado y el 90% son mayores. D3: Es el decil 3 cuyo valor indica que el 30% de los datos son menores al valor encontrado y el 70% son mayores. c) Percentiles (Pk).- Dividen al conjunto de datos en 100 partes iguales y son 99 valores calculados (Pk= 1, 2, 3,…, 99), cada una de ellas re total. P1 P2 ……….. P99

10%

10%

..…….

10%

1%

1%

..…….

1%

190

2, 3,…,9), cada una de ellas representa el 10% de los datos.

y el 90% son mayores. on mayores. (Pk= 1, 2, 3,…, 99), cada una de ellas representa el 1% de un

Ejemplo 12 Con los datos del ejemplo 9 ¿Cuál es la estatura mínima del 30% de maratonistas con mayor estatura?  Se debe calcular elpercentil 70 P70:El percentil de orden 70 deja por debajo al 70% de las observaciones y por encima queda el 30%. Reemplazando en la fórmula de percentiles tenemos: �( 𝑛 ) − �𝑖 −1 � = LI + C( 100 ) 𝑓



70 = 177 + 6

𝑝�

100

− 68

100

15

= 177.8

Interpretación.- El 30% de maratonistas con mayor estatura miden más de 177.8 cm. 5.4 Preguntas de aplicación Problema 01: El jefe de recursos humanos de una empresa está interesado en analizar el impacto económico de horas extras de trabajo pagadas a sus empleados de la gestión anterior. Los datos fueron extraídos del registro de control de cada trabajador y son:

2 1 2 3

5 3 1 1

4 4 5 3

5 1 2 4

2 2 1 3

1 2 3 2

4 2 2 1

3 1 2 2

a. b. c. d.

Elabore una tabla de frecuencias En promedio se ha pagado              horas extras a los empleados de la empresa. ¿Cuántas horas extras como máximo se ha pagado al 50% de empleados? Se pagaron con frecuencia                      horas extras de trabajo.

Un grupo de investigadores deciden investigar la evolución de los ingresos en las familias de una comunidad. Para el que tuvieron las familias en alguna entidad bancaria desde enero hasta agosto del 2016. Asumiendo que las familias aume medida que sus ingresos aumenten. En el estudio fueron consideradas 25 familias que cuentan al menos 400 soles de ahorro, en la tabla de distribución de frecuencias. Tabla 3. Distribución de los ahorros en las familias de la comunidad

mplo 12 mínima del 30% de maratonistas con mayor estatura? ular elpercentil 70 0% de las observaciones y por encima queda el 30%. ula de percentiles tenemos: ) − �𝑖 −1 ( 100 )

𝑓

𝑝�

00

− 68

100

15

= 177.8

77.8 cm.

pacto económico de horas ueron extraídos del registro

dos de la empresa. mpleados? ajo.

los ingresos en las familias de una comunidad. Para ello, se observó los ahorros sta agosto del 2016. Asumiendo que las familias aumentarían sus ahorros a das 25 familias que cuentan al menos 400 soles de ahorro, cuyos datos se muestran

Ahorro en soles

Xi

fi

400 - 500

hi

hi%

Fi

Hi

Hi%

0.20

500 - 600

2

600 - 700

6

13

700 - 800

0.12

800 - 900

0.12

900 - 1000

25

Total

25

1.00

Se pide calcular e interpretar lo siguiente: a. El valor dela frecuencia f3=                                                                                                          b. El valor de la frecuencia H4%=                                                                                                       c. ¿Cuántas familias tienen ahorros entre 700 a 900 soles?                                                                  d. Porcentaje de familias que ahorran menos de 600 soles                                                                  e. Porcentaje de familias que ahorran al menos 500 soles                                                                   f. ¿Cuál es el promedio de ahorros por familia?                                                                                   g. Cantidad de ahorro más frecuente por familia                                                                                h. Cantidad máxima de ahorro del 50% de las familias                                                                         i. Cantidad mínima de ahorro del 20% de las familias con mayores ahorros en alguna entidad bancaria es                                                                                                                                    j. Construya el polígono de frecuencias ¿Qué forma tiene esta distribución de frecuencias?                                                                        

12 10 8 6 4 2 0

La compañía AXE S.A. es una distribuidora de diferentes tipos de bebidas peruanas al por mayor. El gerente de ventas d comportamiento de las llamadas telefónicas para hacer pedido de productos durante los meses de febrero y marzo del año 20 investigación, delega a su secretaria que registre el número de llamadas por día que hacen sus clientes a la central telefónica Los datos son los siguientes:

                                                               tidad bancaria es

ón

de

yor. El gerente de ventas desea conocer el febrero y marzo del año 2016. Para ejecutar la entes a la central telefónica.

30 40 29 56 35 30

Área urbana

Área rural

38 48 46 58 38 22

35 36 29 28 30 35 36 37 50 20 25 56 30 27 52 44 41 31 31 31 39 28 49 52 40 39 38 40 27 24 30 32 26 25 24 60 55 48 37 31 20 24 26 23 22 28 27 48 a. Elabore una tabla de frecuencias agrupada en intervalos por el método de Sturges. b. Calcular e interpretar promedio, Mediana y moda c. ¿Cuáles son los valores que contienen al 50% del promedio de llamadas recibidas? d. El 15% de los 60 días tuvieron un máximo de                              llamadas Problema 04: Se ha realizado la evaluación del peso de los recién nacidos en el hospital nacional de la ciudad de Arequipa con la finalidad de comparar los pesos promedios, cuyas madres de estos recién nacidos viven tanto en el área ru

2950

3200

3500

3350

3340

3900

3470

3350 2560 3270 3850 2780 3560 3900 4230 4500 3050 4510 3810 2940 3210 3240 3150 3300 3750 3280 3700 2480 4220 3930 4030 3280 3080 3460 2600 2870 3230 3590 3700 3620 1. Calcular e interpretar las medidas de tendencia central de los recién nacidos del hospital de Arequipa. 2. Comparar el peso medio y mediano de los recién nacidos según el área de residencia. 3. ¿Cuál es el valor del peso que divide al 20% de los recién nacidos con menor peso? 4. ¿Cuánto debe ser el peso de cualquier recién nacido para decir que tiene mejor peso que el 80% de la población? 5. Si consideramos como niños con peso normal al 70% de la población ¿Cuáles serían los límites de normalidad del peso? 6. El 10% de recién nacidos alcanzaron un peso máximo de                                  gramos. Problema 05: Un equipo de médicos desea investigar la cantidad de Zinc en cierto tipo de preparados infantiles. Se ha tomado 100 gram se ha evaluado la cantidad de zinc en mg de las principales marcas del mercado, cuyas mediciones se presentan a continuación:

5.1

3.0

3.6

4.2

4.8

5.4

5.7

5.8

5.5

5.8

4.1

3.7

3.5

4.4

4.7

5.0

5.6

5.0

5.5

5.8

3.8

4.6

4.3

5.7

1. ¿Cuál es el promedio de zinc en los preparados infantiles? 2. ¿Cuál es la cantidad frecuente de zinc de los preparados infantiles? 3. La cantidad máxima de zinc del 50% de los preparados infantiles es de                                     4. El 80% de los preparados infantiles tiene una cantidad máxima de                   gramos de zinc. 5. Si usted desea adquirir uno de estos preparados que tenga la mayor cantidad de zinc y se encuentre por encima del 5% superior ¿Cuál sería la cantidad de zinc para que sea considerado en su compra? 6. ¿Cuánto es el valor máximo de zinc del 10% que tienen los preparados infantiles con menor contenido de zinc? 5.4 Bibliografía 1. Córdova M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera. 2. Black, K. (2008). Estadística en los negocios. (2ª ed.). México: Grupo Editorial Patria S.A. 3. Daniel W. (2002). Bioestadística. Base para el Análisis de las Ciencias de la Salud. México: Editorial Limusa S.A. 4.Samuels, M, Witmer, J. (2012). Fundamentos de Estadística para las ciencias de la vida. (4ª ed.)California: Pearson

la ciudad de cién nacidos viven tanto en el área rural y área urbana.

dos del hospital de Arequipa. ncia. ? peso que el 80% de la población? n los límites de normalidad del peso? amos.

os infantiles. Se ha tomado 100 gramos de este alimento y

                           gramos de zinc. antidad de zinc y se considerado en su compra? menor contenido de zinc?

orial Limusa S.A. . (4ª

Tema 6 Medidas descriptivas de Dispersión

6.1 Competencia a desarrollar Calcula las medidas descriptivas de dispersión demostrando su capacidad de interpretación y análisis de los datos en un estudio. 6.2 Contenido del tema 6 Medidas de Dispersión Son valores que nos permiten conocer sobre la variabilidad o concentración de los datos, nos indica que tan cercano o lejano están los dato central, se calcula para variables medidas en escala de intervalo y razón, entre las más importantes tenemos: El rango, Rango inte desviación estándar y el coeficiente de variación. a) Rango (R).- Llamado también amplitud, indica entre que valores se encuentra el conjunto de datos. Es la diferencia entre el valor mayo de la variable, es sensible cuando hay presencia de valores extremos llamado dato atípico. R=X

Dato máximo –XDato mínimo

En Excel usar la función = MAX(Datos) – MIN(Datos) b) Rango Intercuartílico (RIC).- Concentra al 50% de datos alrededor del promedio eliminando la influencia de los valores extremos, es la cuartil (Q3) y el primer cuartil (Q1), no es sensible a datos atípicos.

RIC = Q3 – Q1 En Excel usar la función: = PERCENTIL(Datos,0.75) – PERCENTIL(Datos,0.25) c) Varianza (S2).- Mide la variabilidad u homogeneidad de los datos. Es la media de los cuadrados de las diferencias entre cada valor de la aritmética de la distribución, es sensible a datos atípicos. La fórmula de la varianza para datos sin agrupar es:

Varianza muestral  S 



2

( X i1 i

n1 

Varia poblacional    nza N 2

(X X) i

2

i1

La fórmula de la varianza para datos agrupados es: 

(X X) f i

2

Varianza muestral  S  n 1 2



Varia nza

i1

(X X) f i

2

poblacional    N 2

i1

apacidad de interpretación y análisis de los datos en un estudio.

ncentración de los datos, nos indica que tan cercano o lejano están los datos respecto a su valor lo y razón, entre las más importantes tenemos: El rango, Rango intercuartílico, varianza,

ores se encuentra el conjunto de datos. Es la diferencia entre el valor mayor y el menor de los datos emos llamado dato atípico.

dedor del promedio eliminando la influencia de los valores extremos, es la diferencia entre el tercer os.

ENTIL(Datos,0.25) atos. Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media

 X)

2

n1 

(X X) i

2

ados es: 

(X X) f i

2

Varianza muestral  S  n 1 2



i1

(X X) f i

2

poblacional    N 2

i1

En Excel usar la función: = VAR(Datos) d) Desviación Estándar.-Se conoce también como desviación típica, mide la dispersión o distanciamiento de los datos respecto al valor central. Se obtiene calculando la raíz cuadrada positiva de la varianza.

Desviación muestral Desv

S 

poblacional    iació En Excel usar la función: = DESVEST(Datos) n e) Coeficiente de variación.- Es una medida de dispersión relativa porque carece de unidad de medida, se utiliza cuando se q

grado de dispersión de dos conjuntos de datos que no tienen las mismas unidades o cuando las medias son diferentes, el coefi Pearson mide la proporción de dispersión de los datos respecto a su media y se define como el cociente entre la desviación típica y el valor aritmética.

Coe var iación muestral  CV  fici ent Coeficient e de var poblacional  CV   e de

X

S

*100

iación

X

En Excel usar la función = DESVEST(datos)/PROMEDIO(datos) Ejemplo 13 Un profesor ha registrado el tiempo de tardanza en minutos de 10 estudiantes que llegaron después de los 10 minutos de toler datos son los siguientes: Calcule e interprete el rango y el rango intercuartílico Solución El rango R = XDato máximo –XDato mínimo = 20 - 2 = 18. Significa que los 10 estudiantes llegaron entre 2 a 20 minutos tarde después de la tolerancia tiene una amplitud de 18 minuto El rango intercuartílico = RIC = 12.25 – 5= 7.25 Significa que la dispersión en el 50% de los datos centrales del tiempo de tardanza es igual a 7.25 minutos. Ejemplo 14 Un inversionista sabe que la rentabilidad mensual es importante para seguir creciendo. Ante la oportunidad de abrir tomar una decisión y recoge información de las ganancias mensuales de dos tipos de negocios, la rentabilidad de 6 meses son los siguientes:

2

5

(X

10

8

15

3

20

7

5

13

i

 X )2 N

 (x

 x) n 1

2

i

Negocio A

245

280

300

286

270

297

Negocio B

102

86

298

265

144

173

ide la dispersión o ndo la raíz cuadrada positiva de la varianza.

e de unidad de medida, se utiliza cuando se quiere comparar el s o cuando las medias son diferentes, el coeficiente de variación de cociente entre la desviación típica y el valor absoluto de la media

S

*100 *100

ue llegaron después de los 10 minutos de tolerancia a la clase, los

a tolerancia tiene una amplitud de 18 minutos.

e tardanza es igual a 7.25 minutos.

uir creciendo. Ante la oportunidad de abrir un negocio debe

s:

a) Calcule las medidas de dispersión: varianza, desviación estándar y coeficiente de variación b) ¿En qué negocio, la rentabilidad presenta mayor dispersión? c) ¿En qué negocio la rentabilidad presenta menor dispersión en el 50% central? d) ¿Cuál de los negocios ofrecerá mayor ganancia? Solución a) Calculando los estadísticos tenemos:

Estadísticos

Negocio A

Negocio B

Promedio

279.67

178.00

Varianza

409.87

7478.00

Desviación estándar

20.25

86.48

coeficiente de variación

7.24

48.58

b) c) Estadísticos

El negocio            que presenta mayor rentabilidad porque                                                           Calculando el rango intercuartílico Negocio A Negocio B

Cuartil 1

272.95

114.39

Cuartil 3

294.25

242

21.3

127.61

RIC

El negocio            que presenta menor rentabilidad porque                                                          d) El negocio            presenta mayor ganancia de                                                                          

6.3 Preguntas de aplicación Problema 01: Se está realizando un estudio de mercado, para lo cual se pretende lanzar una nueva marca de estetoscopio moderno, el cu distribuidor exclusivo desde Lima. Se hizo una encuesta a 200 personas que trabajan en diferentes hospitales de Lima y se preguntó estaríadispuesto a pagar por el producto. Los resultados de los datos se muestran en siguiente tabla de frecuencias: Precio(Soles)

Xi

Frecuencias

[140 – 180>

40

[180 – 220>

45

[220 – 260>

44

[260 – 300>

39

[300 – 340>

32

Total

200

Fi

Xifi

a. Calcular el precio promedio esperado que paguen los encuestados por el producto. b. El precio mínimo que conviene lanzar el producto al mercado es de S/.218 y sólo se importará el producto, si por lo menos encuestados están dispuestos a pagar por lo menos dicho precio. ¿Qué decisión debe tomar el importador según los resultados recolectada por encuesta? c. Calcular e interpretar el coeficiente de variación. ¿Los datos son homogéneos? d. Entre que valores se encuentra el precio medio del producto del 50% de los encuestados.

Problema 02: Con los datos del problema 04 de la página 36 referente al peso de recién nacidos en el Hospital Nacional de Arequipa. Se p a. Calcular la desviación estándar por cada grupo de recién nacidos, los que provienen del área rural y área urbana. b. En la evaluación de los pesos en recién nacidos cuyas madres residen en el área rural y área urbana ¿Se puede afirmar que el peso de ambos grupos de recién nacidos son homogéneos? Problema 03: En el problema 02 de la página 17, utilice el archivo de datos [CredisaPhilco.xls] para contestar las siguientes preguntas: a. Calcular e interpretar el promedio de los sueldos por área de trabajo b. El ingreso mensual de los trabajadores por área de trabajo presentan diferencias en la variabilidad de los datos. b. Elabore un diagrama de cajas para el ingreso mensual por área de trabajo ¿Se observa la presencia de datos atípicos? c. En las edades de los trabajadores de hombres y mujeres ¿En cuál de los grupos existe mayor variabilidad? d. En los años de estudios de los trabajadores de empleados ¿Se puede afirmar que son homogéneos? 6.4 Bibliografía 1. Ávila RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A. 2. Black, K. (2008). Estadística en los negocios. (2ª ed.). México: Grupo Editorial Patria S.A. 3. Córdova M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. 5ª ed. Lima: Moshera. 4. Samuels, M, Witmer, J. (2012). Fundamentos de Estadística para las ciencias de la vida. (4ª ed.)California: Pearson.

Tema 7 Medidas de asimetría y curtosis

7.1 Competencia a desarrollar Calcula e interpreta las medidas descriptivas de asimetría, curtosis y el diagrama de cajas, demostrando su capacidad de análisis en compo cuantitativos. 7.2 Contenido del tema 7 Medidas descriptivas de forma Son valores que nos permite observar el comportamiento o distribución de los datos respecto a su centro. Entre ellos tenemos los apuntamiento llamado también curtosis: a) Asimetría.- Indica la distribución del conjunto de datos en forma horizontal, es decir a través del eje X. Compara la forma que tiene lo histograma con la distribución normal. Una distribución de datos es simétrica cuando la mediana, moda y media aritmética tienen valores similares. Silos datos tienen distribu derecha, las frecuencias (absolutas o relativas) descienden más lentamente por la derecha. Si las frecuencias descienden más lentamen distribución es asimétrica a la izquierda. Entre los índices de asimetría tenemos: Coeficiente de Asimetría de Pearson está dado por la fórmula:

3( X  Me)

nte de variación

al?

                                  

                                                           

nueva marca de estetoscopio moderno, el cual será vendido por un en diferentes hospitales de Lima y se preguntó por el precio que iente tabla de

oducto. y sólo se importará el producto, si por lo menos la mitad de los debe tomar el importador según los resultados de la información

os? encuestados.

dos en el Hospital Nacional de Arequipa. Se pide: el área rural y área urbana. y área urbana

para contestar las siguientes preguntas:

a variabilidad de los datos. la presencia de datos atípicos? os existe mayor variabilidad? omogéneos?

a S.A. Moshera. de la vida. (4ª ed.)California: Pearson.

demostrando su capacidad de análisis en comportamiento de los datos

respecto a su centro. Entre ellos tenemos los índices de asimetría y

ravés del eje X. Compara la forma que tiene los datos a través del

valores similares. Silos datos tienen distribución asimétrica a la ha. Si las frecuencias descienden más lentamente por la izquierda, la

Q  Q  2Me QQ AS  3

3

1

1

As 

Si As = 0, la distribución es simétrica Si As > 0, la distribución es asimétrica a la derecha Si As < 0, la distribución es asimétrica a la izquierda. Los tipos de asimetría se observa en las representaciones gráficas: b) Curtosis.- Indica la distribución del conjunto de datos en forma vertical, es decir, a través del eje Y. Mide el grado de elev datos. Se definen 3 tipos de distribuciones, según su grado de curtosis:  Distribución mesocúrtica: presenta un grado de concentración medio, alrededor de los valores centrales de la variable (el distribución normal).  Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable.

 Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la v La fórmula está dado por:

S

o también

métrica imétrica a la derecha simétrica a la izquierda. erva en las representaciones gráficas: ución del conjunto de datos en forma vertical, es decir, a través del eje Y. Mide el grado de elevación de la distribución de istribuciones, según su grado de curtosis: presenta un grado de concentración medio, alrededor de los valores centrales de la variable (el mismo que presenta una presenta un elevado grado de concentración alrededor de los valores

icúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable. o por:

1(P  P ) K=

75

25

2(P  P ) 90

10

 0.263 =

 0.263



la

ldistribución

es

la

ldistribución

es

ldistribución

es

   0.263

la

Los tipos de curtosis se observa en las representaciones gráficas: c) Diagrama de cajas.- Es una gráfica que describe la distribución de un conjunto de datos numéricos tomando como referen cuartiles como medida de posición y el valor del rango intercuartílico como medida de referencia de dispersión, está com rectángulo que contiene el 50% de datos centrales y dos líneas extendidas en el lado inferior y superior del rectáng Además, nos permite apreciar visualmente el tipo de distribución de los datos (simétrica o asimétrica) y la identificación de v atípicos). Dato atípico (outliers).- Son aquellos datos que se encuentran fuera del intervalo [Q1 - 1,5(RIC); Q3 + 1,5(RIC)]y generalmente asteriscos. Pasos para trazar un diagrama de cajas 1) Calcularlos cuartiles: Q1,Q2,Q3 2) Trazar un rectángulo con los extremosQ1,y Q3, dentro de la caja ubicar Q2 y trazar una recta vertical que divida en dos el 3) Se ubican los límites mediante el rango intercuartil,  El límite superior está a 1,5(RIC) arriba (o a la derecha) de Q3  El límite inferior está a 1,5(RIC) debajo (o ala izquierda) de Q1 4) Se trazan los bigotes desde los extremos de las cajas hasta los valores mínimo y máximo dentro de los límites inferior y sup 5) Se marcan con un asterisco (*) las localizaciones de los valores atípicos. La siguiente figura presenta un diagrama de cajas con datos hipotéticos.

En Excel en el complemento MegaStat, se debe seguir la siguiente secuencia: 6.3 Preguntas de aplicación Problema 01: La facultad de administración de una universidad desea conocer quienes ocupan los primeros puestos una vez finalizado el año acadé considerado el promedio ponderado de los estudiantes que culminaron sus estudios en ese periodo académico, cuyas notas se siguiente tabla de frecuencias.

leptocúrti ca platicúrti ca mesocúrtica

unto de datos numéricos tomando como referencia los valores de los medida de referencia de dispersión, está compuesto por un das en el lado inferior y superior del rectángulo llamados bigotes. (simétrica o asimétrica) y la identificación de valores extremos (datos

valo [Q1 - 1,5(RIC); Q3 + 1,5(RIC)]y generalmente están representados por

y trazar una recta vertical que divida en dos el rectángulo.

mo y máximo dentro de los límites inferior y superior.

meros puestos una vez finalizado el año académico. Por tanto, se ha s en ese periodo académico, cuyas notas se muestran en la

Rendimiento académico

Xi

fi

09 - 11

2

11 – 14

13

14 – 17

11

17 - 19

4

Total

30

Xi fi

Fi

a) Calcule la nota mínima para estar considerado en el quinto superior. b) ¿Qué tipo de asimetría presentan la distribución de las notas? c) Calcula e interpreta el coeficiente de curtosis.

Problema 02: Cierta universidad brinda capacitaciones con cursos presenciales y virtuales a sus docentes con el propósito de mejo académica. Para que un docente sea contratado en la próxima convocatoria, Recursos humanos lleva un control de capacitación docente en ambas modalidades, los datos son los siguientes: Virtual Presencial

2 3 0 5 2 0 1 1 2 1 3 4 2 2 3 5 3 4 1 2 5 5 4 2 1 3 5 4 a) ¿Qué tipo de asimetría presentan las distribuciones del número de capacitaciones por modalidad? b) ¿Cuál de las modalidades tiene mayor presencia en el número de capacitaciones? c) Calcula e interpreta el coeficiente de curtosis.

Problema 03: El administrador de un hospital ordenó un estudio del tiempo que un paciente debe esperar antes de ser tratado por el p urgencias. Los datos que presentamos a continuación fueron tomados durante un día normal.

s docentes con el propósito de mejorar la calidad cursos humanos lleva un control de asistencia a la

or modalidad?

esperar antes de ser tratado por el personal de la sala de

Tiempo de espera (min) 1 -6 6-11 11-16 16-21 21-26 TOTAL

X

i

f

i

h

i

F

i

H

i

3 12 15 8 2 40 a) Calcule el mínimo de tiempo de espera para estar considerado como tiempo aceptable b) ¿Qué tipo de asimetría presentan la distribución del tiempo de espera? c) Calcular e interpretar el coeficiente de curtosis. Problema 04: En el siguiente diagrama de cajas, muestra la distribución de los ingresos de los directivos de un grupo de empresas. ¿la distribución de los ingresos es homogénea? justifique

7.4 Bibliografía 1. Ávila, RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A. 2. Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera. 3. Samuels, M, Witmer, J. (2012). Fundamentos de Estadística para las ciencias de la vida. (4ª ed.) California: Pearson. 4. Daniel, W. (2002). Bioestadística. Base para el Análisis de las Ciencias de la Salud. México: Editorial Limusa S.A.

Tema 9 Tablas de contingencia y gráficas con dos variables

9.1 Competencia a desarrollar Elabora tablas de contingencias y gráficos de barras agrupadas para describir la relación y/o asociación de dos variables cualitativas con in 9.2 Contenido del tema 9 Estadística bidimensional Estudia aquellos problemas en los que intervienen de manera simultánea dos variables (X,Y), buscandoalgún tipo de relación ambas y la forma en que la variable independiente (X) explica el comportamiento de la dependiente (Y). Así, por ejemplo, se puede tiene el hábito de fumar con el cáncer al pulmón, los ingresos de las familias con los gastos, o qué relación existe entre lospesos y las personas. La presentación de resultados para variables cualitativas será con las tablas de frecuencias bidimensionales o llamado t gráfica de barras agrupadas, gráfica de barras apiladas. TABLA DE CONTINGENCIA

un grupo de empresas.

ed.) California: Pearson.

ables

dos variables cualitativas con interpretación de resultados.

candoalgún tipo de relación que puede existir entre (Y). Así, por ejemplo, se puede estudiar larelación que ción existe entre lospesos y las estaturas de un grupo de

s bidimensionales o llamado tablas de contingencia, adas.

k

Y X

y1

y2

...

yj

...



yl

fi.  ni.

i1

x1

f

f



f



f

n

1.

x2

f

f

22



f



f

n

2.



11 21

12







xi

f

i1

f

i2











k2



xk

f

k1

f

1j 2j



… f

ij

… kj

2l





… f

n

il

… …

f

1l

i.



… f

n

kl



 .j f

k n

.j j1

n

.1

n

.2



n

.j



n

.l

n.. 

k.





fij  n

i1 j1

Esta tabla de contingencia contiene: X: variable independiente o factor, toma los valores x1, x2,...,xn, Y: Variable dependiente o resultado, toma los valores, y1, y2 Tres totales: total para filas (ni.), total para columnas (n.j) y el total general (n) fij : Distribución de frecuencias absolutas con hij : Distribución de frecuencias relativas (o porcentual Pij) conjuntas Xi : Categorías o clases de la variable X Yj : Categorías o clases de la variable Y n : total de sujetos de la muestra Distribuciones marginales A partir de una distribución bidimensional se obtiene las distribuciones marginales:

- Marginal de X; expresa como se distribuye X en la población total al margen de la variable Y

o resultado, toma los valores, y1, y2,...,yn. ibución de frecuencias absolutas conjuntas es de la variable X marginales

riable Y

X

pi

n

i.

X1 … xi … xk

p1

n

1.



… pi

n

i.



… pk

n

k.

n 1 - Marginal de Y; expresa como se distribuye Y en la población total al margen de la variableX n.j pj

Y y1 … yj



… yl



n.1

p1

n.i

… pj

n.l

… Pl

n 1 Distribución de frecuencias condicionales A partir de una distribución bidimensional en cada fila (o columna) aparecen las distribuciones de frecuencias condic - Distribución de X condicionado a Y X

Yj

X/Y =yj

X1

f

f

… xi



… xk

1j

f

ij

1j/n.j=f1/j

… f /n

ij .j =fi/j

… f

kj

… f

kj/n.j=fk/j

1 - Distribución de Y condicionado a X X i. Y/X =xi

n

.j

Y y1

f

… yj







yl

f

i1

f

ij

l.

f /n

i1 1.=f1/i

… f /n

ij i. =fj/i

… f

kj/ni.=fl/i

i. 1 Ejemplo 15 Un grupo de estudiantes investigó el consumo de tabaco en personas adultas entre 30 a 65 años yuna de las preguntas fue ¿Usted es fumador de tabaco? y como alternativas son: Fumador, No fumador, Exfumador. Los dato presentan en la tabla a continuación: n

Tabla1. Consumo de tabaco en personas adultas según hábitos y género

al de Y; expresa como se distribuye Y en la población total al margen de la variableX

n de frecuencias condicionales e una distribución bidimensional en cada fila (o columna) aparecen las distribuciones de frecuencias condicionales: ón de X condicionado a Y

ución de Y condicionado a X

e estudiantes investigó el consumo de tabaco en personas adultas entre 30 a 65 años yuna de as fue ¿Usted es fumador de tabaco? y como alternativas son: Fumador, No fumador, Exfumador. Los datos recolectados se n la tabla a continuación: Tabla1. Consumo de tabaco en personas adultas según hábitos y género

Hábito de fumar tabaco (Yj)

Sexo (Xi)

Total (ni.)

Fumador

No Fumador

Exfumador

Varón

30

50

20

100

Mujer

30

10

10

50

60

60

30

150

Total (n.j)

Fuente: Grupo investigador Preguntas: a) Interprete las frecuencias: f12, n.1 b) De los resultados de la tabla 1 complete los espacios en blanco c) Elabore la tabla de frecuencia relativa conjunta porcentual con respecto al total d) Elabore la tabla de frecuencia relativa conjunta porcentual con respecto al total de filas e) Elabore la tabla de frecuencia relativa conjunta porcentual con respecto al total de columnas f) Construya la gráfica de barras apiladas porcentual Solución a) Frecuencias absolutas conjuntas: f12 = 50 ; De las 150 personas encuestadas hay 50 que son varones y no son fumadores n = 60 ; De las 150 personas encuestadas 60 son fumadores b) Completando los espacios en blanco con resultados de la tabla El número de personas que son fumadores y son del sexo femenino son                                Del total de encuestados,              exfumadores. c) Elaboración de una tabla de frecuencias relativas conjunta porcentual con respecto al total general: Pij=(fij*100) Tabla 2. Consumo de tabaco en personas adultassegún hábitos y género .1

Sexo (Xi)

Hábito de fumar tabaco (Yj)

Total (pi)

Fumador

No Fumador

Exfumador

Varón

20%

33%

13%

66%

Mujer

20%

7%

7%

34%

40%

40%

20%

100%

Total (pj)

Interpretación de una frecuencia relativa conjunta porcentual p11=(30*100)/150 =20% De las 150 personas adultas encuestadas, hay un 20% que son varones y son fumadores. Distribuciones frecuencias condicionales 1. Tabla de frecuencias relativas porcentual respecto al total de filas, es la tabla de frecuencias de Y condicionada a X: pij Tabla 3. Consumo de tabaco en personas adultassegún hábitos por género

Sexo (Xi)

Hábito de fumar tabaco (Yj)

Total (pi)

Fumador

No Fumador

Exfumador

Varón

30%

50%

20%

100%

Mujer

60%

20%

20%

100%

40%

40%

20%

100%

Total (pj)

especto al total especto al total de filas especto al total de columnas

no son fumadores

on                                Del total de encuestados,                                    son

porcentual con respecto al total general: Pij=(fij*100)/n ero

0*100)/150 =20% s y son fumadores.

las, es la tabla de frecuencias de Y condicionada a X: pij= (fij*100)/ni nero

Interpretación p11%=30*100/100 = 30% De 100 varones adultos, hay un 30% que son fumadores. 2. Tabla de frecuencias relativas porcentual respecto al total de columnas, es la tabla de frecuencias de X condicionada a Y Tabla 4. Consumo de tabaco en personas adultassegún géneropor hábitos

Sexo (Xi) Varón Mujer Total (pj)

Hábito de fumar tabaco (Yj)

Total (pi)

Fumador

No Fumador

Exfumador

50%

83%

67%

50%

17%

33%

100%

100%

100%

67% 0,33 100%

Interpretación p11=(30*100)/60 = 50% De 60 fumadores adultos, el 50% son varones. Gráfico de barras apiladas porcentual Gráfico1. Consumo de tabaco por género de personas adultas de 30 a 65 años Fuente: Grupo investigador Ejemplo 16 de un gráfico de barras agrupadas En el gráfico 2, muestra el porcentaje de hogares peruanos con los datos del Censo Nacional de Población y Viviend respectivamente. Los datos fueron obtenidos de los Censos realizados por el INEI. Gráfico 2. Perú: Hogares según sexo del jefe de hogar, 1993 y 2007 Fuente: INEI- Censos Nacionales de población y vivienda

100% 80% 60% 40% 20% 0%

Fumador

No Fumador

Exfumador

Varón

20% 20%

7% 33%

Mujer

7% 13%

n fumadores. columnas, es la tabla de frecuencias de X condicionada a Y:pij= (fij*100)/nj hábitos

0 a 65 años

con los datos del Censo Nacional de Población y Vivienda del año 1993 y 2007 dos por el INEI. 2007

Del total de familias peruanas censadas, tiene como jefe de hogar a un hombre en un 76.7% según el censo del año 1993 y en el cens Elaboración de tablas de contingencia y gráficas con MegaStat La secuencia es como se muestra Elaboración de tablas de cruzadas usando tablas dinámicas 1. Cada columna corresponde a una variable con sus datos y en la primera fila digitar su nombre. 2. Ubique el cursor en cualquier celda de la matriz de datos. 3. Haga clic en la opción Insertar de la barra de menú. 4. Elegir donde crear la tabla dinámica: o Nueva hoja de cálculo 5. Arrastre las variables que se encuentran en el cuadro de diálogo - Una variable en fila: Zona de la ciudad - La otra variable en columna: Forma de pago - Cualquiera de las variables a  de valores 6. Luego nos muestra la siguiente tabla 7. Para obtener los porcentajes con el total general, o total de fila, o total de columna hacer clic en cualquier celda de la tabla valores como… % total, o % fila, o % columna. Luego mostrará la tabla en porcentajes.

Cuenta de Zona de la ciudad Rótulos de fila

Rótulos de columna Contado

Crédito Total general

Centro Norte Sur

15 10 14

19 14 28

Total general

39

61

como jefe de hogar a un hombre en un 76.7% según el censo del año 1993 y en el censo del 2007 es de 71.5%. cas con MegaStat

las dinámicas n sus datos y en la primera fila digitar su nombre. triz de datos. e menú.

el cuadro de diálogo

eneral, o total de fila, o total de columna hacer clic en cualquier celda de la tabla y seleccione Mostrar uego

Crédito Total general 34 24 42 100

9.3 Preguntas de aplicación Problema 01: Se extrae una muestra aleatoria de 200 habitantes de una ciudad para analizar la actitud frente a un cierto proyecto de alcaldía. siguiente: Opiniones de los habitantes según área de residencia respecto al proyecto

Opinión del proyecto

Área de Residencia Sub-Urbano 35

Rural

Total

A favor

Urbano 30

En contra

60

25

15

100

Total

90

60

50

200

a. Construya la tabla de frecuencias conjunta relativa respecto al total b. Construya la tabla de frecuencias conjunta relativa respecto al total de las columnas. c. Construya la tabla de distribución porcentual del área de residencia condicionado a la opinión respecto al proyec d. Interprete la frecuencia conjunta para cada una de las tablas del ítem a, b, c Problema 02: Una compañía de seguros analizó la frecuencia con que 2000 asegurados (1000 hombres y 1000 mujeres) usaron el hospital. La en la tabla: Atención de asegurados según género y uso del hospital

Servicio de Hospital

Hombres

Mujeres

Usaron el hospital

100

150

No usaron el hospital

900

850

a) Calcule la proporción de hombres entre los individuos que usaron el hospital. b) De las mujeres ¿Qué porcentaje no usaron el hospital? c) Construya la distribución porcentual el uso del hospital condicionado según sexo del asegurado. d) Elaborar una gráfica de barras agrupadas porcentual. Problema 03: En una investigación se tiene como propósito conocer la tendencia de los alumnos en continuar sus estudios, según l encuestado, mostró el siguiente cuadro: Interés de estudiantes según clase social y continuidad de sus estudios

¿Pretende continuar sus estudios? SÍ NO Total

Alta 200 100 300

Clase Social Media 220 380

Total Baja 380 720

800 1200 2000

a) ¿Usted diría que la distribución de las respuestas afirmativas es igual a la de las respuestas negativas? Compare de frecuencia relativa porcentual respecto al total de columnas. b) Del total de la clase media,                                             de estudiantes desean continuar sus estudios (en porcent decimales) c) ¿Existen dependencia entre los dos factores? De una medida cuantificadora de dependencia. d) Construya la distribución porcentual de la clase social condicionado a la pretensión de continuidad de los estudios. Problema 04: El gerente de ventas de la firma ARCOR, encarga la realización de un estudio a una investigadora de mercados con la finalida ventas de sus cuatro productos Premium dependen al

grupode clientesclasificados en cuatro grupos. La muestra aleatoria de las ventas de productos se observa en la siguie Clasificación de consumidores según grupos de clientesy productos Premium

ar la actitud frente a un cierto proyecto de alcaldía. El resultado fue el

al al de las columnas. idencia condicionado a la opinión respecto al proyecto. tem a, b, c

s (1000 hombres y 1000 mujeres) usaron el hospital. La información se resume

l hospital.

do según sexo del asegurado.

a de los alumnos en continuar sus estudios, según la clase social del

es igual a la de las respuestas negativas? Compare construyendo una tabla

studiantes desean continuar sus estudios (en porcentaje considerando dos

ficadora de dependencia. o a la pretensión de continuidad de los estudios.

studio a una investigadora de mercados con la finalidad de determinar si las

a de las ventas de productos se observa en la siguiente tabla. mium

Grupo de Clientes

Productos Premium Total 1 2 3 4 Profesionales 30 35 55 40 160 Comerciantes 155 50 125 80 410 Obreros 130 30 105 50 315 Amas de Casa 35 15 20 45 115 Total 350 130 305 215 1000 a) Construya la tabla de frecuencias conjunta relativa respecto al total b) Interpreta las casillas sombreadas en porcentajes, respecto al total, total de fila y total de columna c) Elabora la gráfica de barras agrupadas Problema 05: Caso ventas de la Distribuidora Exito El gerente general de la Compañía distribuidora Éxito S.A., ha solicitado al reciente nombrado gerente de ventas un informe sobre el vendedores dentro de las línea de productos de consumo masivo, como las ventas de café y avena. Su mercado objetivo son las cafete panaderías y bodegas de la ciudad. Para el estudio el gerente de ventas ha planteado los siguientes objetivos:  Conocer el promedio de las ventas de café y avena por zona  Conocer la tendencia de las ventas por zona y forma de pago  Conocer el promedio y variabilidad de las ventas de café y avena por zona La información se recolectó en base a 100 puntos de ventas de la empresa distribuida en las diferentes zonas en las variables siguientes en el archivo Distribuidora Éxito.xls.  Zona de distribución en la ciudad: 1) Norte, 2) Centro, 3) Sur  Monto de las ventas en café: Monto vendido del producto al mes por punto de venta en soles  Monto de las ventas en avena: Monto vendido del producto al mes por punto de venta en soles  Forma de pago: Forma de pago del cliente por el producto comprado 1) Contado, 2) Crédito Se pide lo siguiente: a. Construir una tabla cruzada para la variable venta de café (X) agrupado en3 intervalos de igual amplitud con Zona de la ciudad siguientes frecuentas conjuntas: f32, h13%, h32%, f2., f.3 b. Elabore una tabla de frecuencias relativas de la variable venta café (agrupada 3 intervalos) condicionado a zona de ubi En la zona sur ¿Qué porcentaje de puntos de venta vendieron entre 786 a 1483 soles? c. Construir una gráfica de barras agrupadas entre las variables Zona de la ciudad y forma de pago. Interprete los resultados. d. Calcular los estadísticos de resumen: media, mediana, desviación estándar y coeficiente de variación por cada zona de la c de la ciudad presenta mayor variabilidad en la venta de café? e. Elabore una tabla de contingencia para las ventas de avena agrupado en 3 intervalos con zona de la ciudad. Interprete una frecuen una frecuencia absoluta. f. Elabore una conclusión para cada objetivo. 9.7. Bibliografía 1. Webster, A. (2006). Estadística aplicada a los negocios y la economía. (3° ED.) Colombia: MCGRAW HILL. 2. Samuels, M, Witmer, J. (2012). Fundamentos de Estadística para las ciencias de la vida. (4ª ed.)California: Pearson. 3. Levine, D. (2014). Estadística para la Administración.(6ª ed.) México: Pearson. 4. Montesinos, L, Bayonas, Y, Cerna, E, Llanos, K, Pajuelo, S. (2016).Estadística descriptiva y probabilidad.(1ª ed) Lima: Fondo

Tema 10 Asociación de variables cualitativas

10.1 Competencia a desarrollar Determina la asociación de dos variables cualitativas haciendo uso del estadístico Chi cuadrado con interpretación de resultados. 10.2 Contenido del tema 10 Estadístico Chi cuadrado de independencia Se utiliza para determinar la asociación entre variables dos variables cualitativas nominales u ordinales, se calcula organizando los datos contingencia con frecuencias observadas y busca contrastar con hipótesis estadísticas si las categorías de las variables X e Y son indepen La fórmula del estadístico Chi cuadrado de independencia es:

umna

nte de ventas un informe sobre el desempeño de los 15 . Su mercado objetivo son las cafeterías, restaurantes, tes objetivos:

ntes zonas en las variables siguientes y los datos se muestran

ual amplitud con Zona de la ciudad (Y), e interpretar las

valos) condicionado a zona de ubicación de la sucursal.

go. Interprete los resultados. e de variación por cada zona de la ciudad ¿Cuál de las zonas de la ciudad. Interprete una frecuencia relativa conjunta y

bia: MCGRAW HILL. a. (4ª ed.)California: Pearson.

a y probabilidad.(1ª ed) Lima: Fondo Editorial USIL.

o con interpretación de resultados.

s, se calcula organizando los datos en una tabla de ías de las variables X e Y son independientes.

k

l



(f ij

x i1 e 2

j1

ij

 Donde: fij : son las frecuencias observadas de la muestra eij : son las frecuencias esperadas , se obtiene: e ij 

 f  f . j i.

n

k: número de categorías de la variable en fila l: número de categorías de la variable en columna El proceso para contrastar la independencia de variables X e Y es el siguiente: 1. Formular las hipótesis estadísticas y son dos: Hipótesis nula (Ho), Hipótesis alterna o trabajo (H1) Ho: La variable X es ind H1: La variable X es dependiente de la variable Y 2. Determinar el nivel de significancia (probabilidad de error):  = 0.05 3. Estadistico de prueba: Chi cuadrado de independencia 4. Calcular el P-Valor con MegaStat o cualquier software estadísitco 5. Criterio de Decisión: Si el P-Valor ≤  se rechaza Ho 6. Conclusión; se concluye con la hipótesis que no fue rechazada acompañdo del nivel de significancia Ejemplo 17 El consejo de administración de Comunicatel S.A. quiere determinar si la opinión de sus accionistas respecto a una posible independiente del número de acciones que poseen, las acciones se agrupó por el número de acciones en tres categorías accionistas proporciona la siguiente tabla:

k

l

e) ij

1 j1

ij

servadas de la muestra eij : son las frecuencias esperadas , se obtiene: 

 f  f . j i.

n

fila columna a de variables X e Y es el siguiente: on dos: Hipótesis nula (Ho), Hipótesis alterna o trabajo (H1) Ho: La variable X es independiente de la variable Y iable Y probabilidad de error):  = 0.05 independencia quier software estadísitco e rechaza Ho s que no fue rechazada acompañdo del nivel de significancia

tel S.A. quiere determinar si la opinión de sus accionistas respecto a una posible fusión de la empresa es e poseen, las acciones se agrupó por el número de acciones en tres categorías. Una muestra de 500

Número acciones

de

Distribución de acciones de los socios según opinión a la posible fusión Opinión respecto a una posible fusión Total A favor

En contra

Indecisos

Menos de 200

25

18

21

64

De 200 a 1000

93

62

67

222

Más de 1000

82

70

62

214

Total

200

150

150

500

Fuente: Comunicatel S.A. Contraste la hipótesis respectiva con un nivel de significación del 5%. Solución 1. Formulación de las hipótesis estadísticas Ho: La opinión de los accionistas respecto a una posible fusión es independiente al número de acciones que poseen. H1: La opinión de los accionistas respecto a una posible fusión no es independiente al número de acciones que posee 2. Nivel de significancia:  0.05 3. Estadístico de prueba: Chi cuadrado de independencia = 1.53 El cálculo del estadístico Chi cuadrado con MegaStat se obtiene con la siguiente secuencia: Selección de los datos organizados en una tabla de contingencia

Luego seleccionar OK y se obtiene el valor de Chi cuadrado como se muestra a continuación 4. P-Valor = 0.8218 5. Decisión: Como el P-Valor = 0.8218 > 0.05 NO se rechaza la hipótesis Ho 6. Conclusión: Con un nivel de significación del 5%, la opinión de sus accionistas respecto a una posible fusión es independiente del número de accio 10.3 Preguntas de aplicación Problema 01: Una encuestadora seleccionó una muestra de 800 votantes y se les clasificó de acuerdo a su nivel de ingresos como: Bajo, Medio, alto, y según su opinión con respecto a una reforma en la constitución política del país de los que Sin decisión. Las frecuencias observadas se dan en la siguiente tabla. Opiniones respecto a la reforma en la constitución política según nivel de ingresos

posible fusión

nte al número de acciones que poseen. independiente al número de acciones que poseen.

nte secuencia:

ación

ble fusión es independiente del número de acciones que poseen.

o a su nivel de ma en la constitución política del país de los que están A favor, En contra,

OPINION

INGRESOS Bajo

Medio

Alto

200

130

70

En contra

60

60

80

Sin decisión

40

60

100

A favor

¿Existen dependencia entre las variables? Realice la contrastación de hipótesis a un nivel de significancia de 0.05. Problema 02: Un grupo de estudiantes de Psicología realizaron un estudio sobre el manejo de la ansiedad en las actividades acad estudios en su carrera profesional. Con la finalidad de conocer esta problemática, se desea comparar la ansiedad de los con el sexto ciclo de la facultad de medicina de una universidad. A un nivel se significancia de 5% el manejo de ansiedad e estudios. Tabla 2. Niveles de ansiedad de los estudiantes según ciclo de estudios

Niveles de ansiedad Leve Moderada Severa Total

Primer 15 28 36 79

Ciclo de estudios Sexto 28 20 18 66

de hipótesis a un nivel de significancia de 0.05.

obre el manejo de la ansiedad en las actividades académicas y el nivel de a problemática, se desea comparar la ansiedad de los estudiantes del primer d. A un nivel se significancia de 5% el manejo de ansiedad está asociado al nivel de

dios

Problema 03: Un grupo de médicos realizaron un estudio con la finalidad de evaluar el hábito de fumar como factor de riesgo del cáncer d seleccionan 2 muestras aleatorias, una de pacientes con esta enfermedad y la otra de personas sin esta condición y fueron fumadores o no. A continuación se brinda la información obtenida: Distribución de personas con cáncer al pulmón según hábito de fumar Hábito de fumar

Cáncer de pulmón

Total



No

Si

11

13

24

No

10

46

56

Total

21

59

80

Contrastar la hipótesis si la proporción de fumadores difiere en enfermos con cáncer al pulmón y no enfermos. Considere un 5%. Problema 04: Se hizo un estudio en niños de 10 a 12 años, que consiste en experimentar la efectividad de dos métodos de higiene bucal en l método A y el método B. Después de un año, se observó el desarrollo de caries, en el estudio participaron un total de 200 niño observados de los tratamientos fueron clasificados por la cantidad de caries en tres categorías: Bajo, moderado, alto como se muestra en Desarrollo de caries Tratamientos

TOTAL

Bajo

Moderado

Alto

A

8

40

34

82

B

84

22

12

118

TOTAL

92

62

46

200

A un nivel de s ignificancia de 5% s e puede afirmar que el des arrollo de caries es tá relacionado al tipo de tratamiento.10.4 Bibliografía1.

Tema 11 Correlación lineal simple

11.1 Competencia a desarrollar Determina la asociación variables con gráficas y el coeficiente de correlación de Pearson, demostrando su capacidad de interpretación estudio correlacional. 11.2 Contenido del tema 11 Correlación Cuando se realiza un estudio de correlación entre dos variables cuantitativas medidas en escala de intervalo o razón, se tiene qué medida sus valores se relacionan y cuál es su tendencia que puede ser directa o inversa. El análisis consiste en observar esta asocia dispersión y el coeficiente de correlación de Pearson. Gráfico de dispersión Es una gráfica representa la relación de los valores observados (xi,yi), considerando la variable X como independiente y a la variable Y c valores de la variable independiente X se grafica en el eje horizontal, mientras que los valores de la variable dependiente Y en el eje ve relación observada en el diagrama de dispersión puede ser lineal directa o inversa, como se observa en las siguientes gráficas: Relación lineal directa Relación lineal inversa Coeficiente de correlación de Pearson Mide la fuerza y dirección de la relación entre dos variables cuantitativas en una escala que varía entre +1 y -1, esto significa una relación directa o inversa. La fórmula es:

el hábito de fumar como factor de riesgo del cáncer del pulmón, se ermedad y la otra de personas sin esta condición y se les preguntó si enida:

mos con cáncer al pulmón y no enfermos. Considere un nivel de significancia de

ntar la efectividad de dos métodos de higiene bucal en la prevención de caries, el de caries, en el estudio participaron un total de 200 niños. Según los resultados

es categorías: Bajo, moderado, alto como se muestra en la siguiente tabla.

á relacionado al tipo de tratamiento.10.4 Bibliografía1. Webs ter, A. (2006). Es tadís tica aplicada a los negocios y la economía. (3°ed.) Colombia: MCGRA

e Pearson, demostrando su capacidad de interpretación de resultados en un

ivas medidas en escala de intervalo o razón, se tiene interés en determinar en ta o inversa. El análisis consiste en observar esta asociación con el gráfico de

ndo la variable X como independiente y a la variable Y como dependiente. Los que los valores de la variable dependiente Y en el eje vertical. El tipo de la sa, como se observa en las siguientes gráficas:

a escala que varía entre

R

La covarianza está dado por:

Covx, y 

cov(X, Y) Sx Sy

 i1

j 1

x f

ij

n

 xy

Interpretación del coeficiente de correlación de Pearson, está dado en el siguiente cuadro.

Y)

 y

n el siguiente cuadro.

Ejemplo 18 Se tiene las calificaciones de 40 alumnos en psicología evolutiva y en estadística con calificación de 1 a 10, los datos son los si X calif. enPsicol.

Y calif. en Estad.

3 4 5 6 6 7 7 8 10

Número de alumnos.

2 5 5 6 7 6 7 9 10

4 6 12 4 5 4 2 1 2

¿Cuál es la relación entre las notas en estadística con las notas de psicología? Solución: Se pide determinar la correlación de X e Y: Disponemos los datos de la siguiente forma:

xi 3 4 5 6 6 7 7 8 10

yi 2 5 5 6 7 6 7 9 10

ni 4 6 12 4 5 4 2 1 2 40

Promedios:

nixi 12 24 60 24 30 28 14 8 20 220



Covarianza:

xy





2

niy 2 i 16 150 300 144 245 144 98 81 200 1378

i

36 96 300 144 180 196 98 64 200 1314

 224  5,6

i i

N s

nix

 220  5,5 y  n y

n x i i

x

niyi 8 30 60 24 35 24 14 9 20 224

4 0

N

4 0

 x.y  1336  (5,3).(5,6)  33,4  30,8  2,6 4 0

n x y i i i

N

1314

n Varianza de X:

s2 

 x  x2

i i

N Desviación estándar de X:

s

 (5,6)  32,85  30,25  2,6 4 0 2

2



x

 1,61 1378 n

Varianza de Y:

s  2

i

i

N Desviación estándar de Y:

s y

y

y

2

 4 0

2

 (5,6)  3,09 2

 1,75

nixiyi 24 120 300 144 210 168 98 72 200 1336

Calculando el coeficiente de correlación:

r

s

s .s x

x

s2

2,6 3,09

r  2,6 (1,61).(1,75) y resulta

xy y

 0,92

e 1 a 10, los datos son los siguientes:

La correlación es positiva, es decir, a medida que aumenta la nota de estadística aumenta también la nota en psicología. Su valor está indica que se trata de una correlación fuerte, las estimaciones realizadas están cerca de los valores reales. 11.3 Preguntas de aplicación Problema 01: Los siguientes datos corresponden a grupo de estudiantes y se quiere determinar la existencia o no de asociación entre las calificaciones en las asignaturas de Matemática con el número de horas de estudio diario fuera de clase y qué tipo d los datos siguientes:

Nº horas de estudio Calificativos

3 18

2

2

1

1

3

1

0.5

2

1

12

16

12

10

14

13

8

14

11

Problema 02: Un consultor quiere averiguar si el salario de los empleados depende del índice de desempeño en el trabajo. Una manera consiste en examinar la relación entre dicho índice y el salario del empleado. Para ello, se seleccionó una muestra de 8 emple información sobre el salario (en cientos de soles) y el índice de desempeño (medido en escala de 1 al 10; donde 1 significa pésimo y 10 si óptimo).Determine la relación entre las variables de estudio. Índice de desempeño

9

7

8

4

Salario (S/.)

36

25

33

15

7 28

5

5 19

20

6 22

Problema 03: Un profesor investiga las notas que obtuvieron 10 alumnos en Matemática y en Estadística con calificación de 1 a 10, son: Alumnos Matemática Estadística 1 6 6,5 2 4 4,5 3 8 7 4 5 5 5 3,5 4 6 7 8 7 5 7 8 10 10 9 5 6 10 4 5

a)

Elabore la gráfica de dis pers iónb)

¿Exis te correlación entre las dos variables ? 11.4 Bibliografía1.

Webs ter, A. (2006). Es tadís

Tema 12 Regresión lineal simple

12.1 Competencia a desarrollar Determinala relación de variables en unaecuación de regresión lineal simple para explicar el tipo de relación de la variable dependi la independiente, demostrando capacidad de interpretación de resultados. 12.2 Contenido del tema 12 Regresión lineal Regresión lineal simple, es método estadístico que nos permite formular un modelo matemático, sustentado en el método de los m de los métodos de estimación) para predecir el valor promedio de la variable dependiente para un nivel dado en función de la variable inde (predictora), de modo que ambas variables se expresan en una relación funcional de las variables (X,Y), esta función es f(x), tal que yi = f(x se puede conocer el valor de y. Por ejemplo, el precio de una prenda está en función del costo de la tela por metro. Gráfico de dispersión Enel gráficode dispersión se observa el tipo de la relación que presentan las dos variables que puede ser lineal o no lineal (una curva), com siguientes gráficas: Relación lineal directa Relación lineal inversa Relación no lineal Modelo de regresión lineal simple, está definido por la ecuación de una recta:

�𝑖 = �0 + �1�𝑖 + 𝑒𝑖�

Donde: Yi: Variable dependiente Xi: Variableindependiente eij: Error aleatorio, variables no observables que se asume normalidad β1: Parámetro que expresa la pendiente de la recta, indica la variación de Yi cuando la variable Xi varía en una unidad. La fórmula para est

la nota en psicología. Su valor está próximo a 1 lo que reales.

de dio diario fuera de clase y qué tipo de relación presentan

empeño en el trabajo. Una manera de verificar lo anterior, e seleccionó una muestra de 8 empleados y se recolectó

10; donde 1 significa pésimo y 10 significa

adística con calificación de 1 a 10, los datos recolectados

ía1.

Webs ter, A. (2006). Es tadís tica aplicada a los negocios y la economía. (3° ed.) Colombia: MCGRAW HILL.2.

Anális is de regres ión y

de relación de la variable dependiente en función de

o, sustentado en el método de los mínimos cuadrados (uno l dado en función de la variable independiente , esta función es f(x), tal que yi = f(xi). Para cada valor de x la por metro.

r lineal o no lineal (una curva), como se observa en las

en una unidad. La fórmula para estimar β1 es:

�1 =

𝑖=1 𝑛

𝑛

�𝑖 �𝑖 − ( 𝑛 �𝑖

𝑖=1

𝑖=1

𝑛

𝑖=1

�2 𝑖 − ( 𝑛 �𝑖 /𝑛)2

β0: Parámetro que es el punto de intersección de la recta con el eje de las ordenadas.

�0 = � − �1�

Bondad de ajuste del modelo Consiste en analizar el grado de asociación lineal entre la variable dependiente y la independiente así como determinar la proporción de variabilidad de la variable dependiente explicada por la independiente. Los

a) El coeficiente de correlación de Pearson que es R b) El coeficiente de determinación que es R2 El valor del coeficiente de determinación está en un rango de 0 a 1. Ejemplo19 Una empresa comercializadora de productos lácteos desea conocer si existe relación entre el gasto que se realiza en publicida incremento de las ventas en miles de soles, para lo cual realiza el análisis de la conducta de estas dos variables en los Los datos recolectados son los siguientes:

𝑖=1

�𝑖 )/𝑛

�𝑖 /𝑛)2

de la recta con el eje de las ordenadas.

− �1�

ndiente y la independiente así dependiente explicada por la independiente. Los estadísticos son:

ste relación entre el gasto que se realiza en publicidad en miles de soles y el sis de la conducta de estas dos variables en los nueve últimos meses.

Publicidad Ventas (S/.)

12 14 15 10 19 13 15 19 18 48 55 52 42 67 43 48 69 55 Solución 1. Gráfico de dispersión, para poder determinar la tendencia de los datos procederemos a realizar con MegaStat o Excel el Gráfico Dispersión de las ventas con publicidad

9

11

75 70 65 60 55 50 45 40 15

13

17

Publicidad en miles de soles

19

21

En el gráficode dispersión se observa una relación positivacon tendencia lineal, a medida que se aumenta la inversión incrementolas ventas. 2. Correlación de Pearson Obtenemosla matriz de correlaciones con MegaStat

Publicidad Ventas Publicidad 1.000 Ventas 0.885 1.000 Con un coeficiente de correlación de Pearson, R = 0.885, significa que las variables ventas la inversión en publicidad muy fuerte. 3. Regresión Lineal Regression output

variables Intercept Publicidad

coefficients 13.0972 2.6750

std. error

t (df=7)

p-value

8.1518

1.607

0.5330

5.019

.1522 0.0015

zar con MegaStat o Excel el gráfico de dispersión.

que se aumenta la inversión en publicidad hay

as la inversión en publicidad indica una correlación

Con el resultado del CUADRO DE COEFICIENTES, definimos la ecuación de regresión estimada:

𝑽𝒆𝒏𝒕𝒂𝒔 = �𝟑. 𝟎𝟗𝟕 + 𝟐. 𝟔𝟕𝟓 �𝒖𝒃𝒍𝒊𝒄𝒊𝒅𝒂𝒅

Interpretación de los coeficientes de regresión: o = 13.097 Es el promedio de ventas cuando no hay inversión en publicidad (X = 0) 1 = 2.675 Por cada sol que se invierte en publicidad las ventas se incrementan en 2.675 soles 4. Bondad de ajuste de la ecuación de regresión lineal Coeficiente de determinación, R2 = 0.783 Se concluye que la variable gasto en publicidad explica en un 78.3% la variación de las ventas. Por tanto la ecuación de regresión estimada se puede utilizar para realizar predicciones de las ventas porque las var correlación muy fuerte. Ejemplo 20 Una compañía de seguros considera que el número de vehículos (Y) que circulan por una determinada autopista a más de 120 función del número de accidentes (X) que ocurren en ella. Durante 5 días se recolectódatos y se muestra en la siguiente tabla:

X Y

5 7 2 1 9 15 18 10 8 20 a) Elabore el gráfico de dispersión y calcula el coeficiente de correlación lineal. b) Encuentre el modelo de regresión lineal simple c) Si ayer se produjeron 6 accidentes, ¿cuántos vehículos podemos suponer que circulaban por la autopista a más de d) ¿Es buena la predicción? Solución: a) Gráfico de dispersión

25

20 15 10 5 0 0

2

Nú4mero de a6ccidentes 8

10

En el gráfico de dispersión se observa una relación lineal positiva entre el número de accidentes y la velocidad que reco si hay aumento de velocidad aumenta el número de accidentes. Completando la pregunta a, se debe realizar los cálculos de la siguiente forma:

y = 1. 2 2 + 6. 8 2 5 x909 R = 0. 9 ²

TES, definimos la ecuación de regresión estimada:

𝒊𝒄𝒊𝒅𝒂𝒅

sión: ando no hay inversión en publicidad (X = 0) publicidad las ventas se incrementan en 2.675 soles egresión lineal

idad explica en un 78.3% la variación de las ventas. mada se puede utilizar para realizar predicciones de las ventas porque las variables muestran una

número de vehículos (Y) que circulan por una determinada autopista a más de 120 km/h, puede ponerse en ocurren en muestra en la siguiente tabla:

ula el coeficiente de correlación lineal. al simple ¿cuántos vehículos podemos suponer que circulaban por la autopista a más de 120 km/h?

20 15 10 5 0 0

2

Nú4mero de a6ccidentes 8

10

a una relación lineal positiva entre el número de accidentes y la velocidad que recorren los vehículos, es decir a el número de accidentes. realizar los cálculos de la siguiente forma:

Accidentes xi

Vehículos con más de 120km/h yi

5 7 2 1 9

15 18 10 8 20

24

71  4 ,8

x   x  24

N 5 i



s 

2

y N i

y

2

r

;

xiyi

25 49 4 1 81

225 324 100 64 400

75 126 20 8 180

160

1113

409

y

2i

y

y

160

 71  14 ,2 s  N 5 i

2

x

 5

2

x  N i

1113

2

s

a) Por tanto:

2i

x

2



i i

N

2

2

xy  14 ,2  20,96 ; s 13,64

5

 4 ,8  8,96

 x.y 

4 09  4 ,8.14 ,2 =13,64 5

xy

 s .s x

y

 0,996 8,96. 20,96

b) Cálculos para la recta de regresión de y sobre x:

y  y  s (x  x) y 14 ,2  13,64 (x  4 ,8) ; xy

2

y 14 ,2  1,53(x  4 ,8)

8,96

Por tanto la recta de regresión de y sobre x: y =6,89 + 1,53x

Para x = 6, y 14 ,2  1,53(6  4 ,8) , es decir, y = 16,04. Podemos suponer que ayer circulaban 16 vehículos por la autopista a más de 120 km/h a) La predicción hecha es buena ya que el coeficiente de correlación está muy próximo a 1. 12.3 Preguntas de aplicación Problema 01: La tabla siguiente muestra las notas que obtuvieron 8 alumnos en un examen, las horas de estudio dedicadas a su preparación la televisión por semana previos al examen.

Nota 5 6 7 3 5 8 4 9 Horas de estudio 7 10 9 4 8 10 5 14 Horas de TV 7 6 2 11 9 3 9 5 a) Elabore las gráficas de dispersión correspondientes a: Nota-estudio y Nota-TV. b) ¿Qué tipo de relación se observa en las gráficas de las variables estudiadas? ¿En qué caso estimas que hay una correlación m c) Calcular e interpretar el coeficiente de correlación de Pearson: Nota-estudio y nota-TV. ¿Qué conclusión puede d precisión respecto a la nota que obtuvo una persona en el examen: el tiempo que dedicó al estudio o el tiempo que ded d) Encuentre las rectas de regresión correspondientes a: Nota-estudio y Nota-TV y estime para un alumno cualquiera en el examen: a) Las horas que estudió. b) Las horas que vio la TV

Problema 02: La tabla adjunta muestra el índice de mortalidad de una muestra de población en función del consumo diario de cigarrillos:

160

5

 4 ,8  8,96 2

4 09

 4 ,8.14 ,2 =13,64

,53(x  4 ,8)

culos por la autopista a más de 120 km/h.

as de estudio dedicadas a su preparación y las horas que vieron

ué caso estimas que hay una correlación más fuerte? io y nota-TV. ¿Qué conclusión puede deducirse con más que dedicó al estudio o el tiempo que dedicó a ver la televisión? TV y estime para un alumno cualquiera que sacó una nota 2

nción del consumo diario de cigarrillos:

Número de cigarrillos x 3 5 6 15 20 Índice de mortalidad y 0,2 0,3 0,4 0,5 0,7 a) Determina el coeficiente de correlación e interpreta el resultado. b) Hallar la recta de regresión de y sobre x e interpretar los coeficientes de regresión. c) Evaluar la recta de regresión ¿Es buen modelo para pronosticar el índice de mortalidad d) ¿Cuál será el índice de mortalidad para un consumidor de 40 cigarrillos diarios? Problema 03 Se llevó a cabo un proyecto de investigación para determinar si existe alguna relación entre los años de servicio y las puntuac los empleados. El objetivo del estudio es predecir la tasa de eficiencia (Y) de un empleado con base a su tiempo de servicio (X son: a. Empleado 1 2

x

y

1

2

17 6

3

4

8

6

5

2

5

6

1

2

15

8

2

y

1

xy

2

4

2

5

3

7

x

4 8

3

Total

a) Construya el gráfico de dispersión e interprete la tendencia de los datos. b) Calcule e interprete el coeficiente de correlación de Pearson. c) Formule el modelo de regresión lineal e interprete el coeficiente de regresión. d) Calcule e interprete el coeficiente de determinación. e) Si un trabajador tiene ocho años de servicio, ¿Cuál es la tasa de eficiencia estimada? Comente la validez de su resultado Problema 04 Se desea pronosticar el costo de viajar en un avión comercial. Alguna de las variables que contribuyen son el tipo de avión, di número de pasajeros, cantidad de equipaje, etc. Se realiza un estudio solo en el tipo de avión Boeing 737 que vuela 500 comparables durante la misma estación del año. ¿Puede el número de pasajeros pronosticar el costo de vuelo en esas rutas? a. La variable independiente es:                                                                     b. La variable dependientes es :                                                                     c. ¿Existe relación entre las variables número de pasajeros y costo? ¿Qué tipo de relación es?                                                                                                     d. La ecuación de regresión es:                                                                                            e. Interprete los parámetros estimados

Vuelos

1

2

3

4

5

6

7

8

9

10

Número de pasajeros

61

63

67

69

70

74

76

81

86

91

95

4 280

4 080

4 4 20

4 170

4 4 80

4 300

4 820

4 700

5110

5130

564 0

Costo (miles $)

11

f. ¿En qué porcentaje el número de pasajeros es explicado por el costo?                                   g. El modelo estimado sirve para realizar pronósticos futuros?                                                    

Problema 05 La compañía Data WireS.A aumentó la productividad de 70 mil a 90 mil libras por semana cuando instituyó un prog capacitación. Este programa fue aplicado durante un periodo de 18 meses. Los datos recolectados son el número total de capacitación y la cantidad de producción por semana de cierto producto que fueron tomadas una vez al mes durante este tiem Con los resultados de los datos se muestra a continuación responder el cuestionario:

s años de servicio y las puntuaciones de eficiencia de n base a su tiempo de servicio (X). Los datos muestrales

ente la validez de su resultado

tribuyen son el tipo de avión, distancia recorrida, n Boeing 737 que vuela 500 millas en rutas el costo de vuelo en esas rutas?

de relación

12 97 5560

        

mana cuando instituyó un programa básico de lectados son el número total de horas acumuladas en una vez al mes durante este tiempo.

Scatterplot of Productividad vs Hora_acum

0

90000 85000 80000 75000 70000 2000 Hora_acum

1000

3000

Modelo

4000

R 1 a.

R cuadrado

Resumen del modelo R cuadrado corregida

.988a .976 .975 1005.64 4

Variables predictoras : (Cons tante), Horas acumuladas de capacitación Coef icientesa Coeficientes

es tandarizados

Coeficientes no es tandarizados

Modelo 1

B (Cons tante)

Error típ.

70880.252

Error típ. de la es timaci ón

Beta

394 .54 6

t

Sig. 179.650

Horas

5.093 .198 acumuladas

de a. Variable dependiente: P roductividad (en libras por s emana) capacitación

0.000

.988

25.735

.000

Se pide a usted: a. Analizar la posible relación de las variables con el gráfico de dispersión. b. Interpretar el coeficiente de correlación de Pearson. c. Formule el modelo de regresión lineal e interprete el coeficiente de regresión d. Evaluar la bondad de ajuste del modelo estimado ¿Qué tan bueno es para realizar estimaciones? Problema 05 Los siguientes datos representan una muestra del consumo de agua por día y la mayor temperatura para ese día.¿Puede prono agua de una ciudad por medio de la temperatura? Las variables son: Y : Cantidad de agua usada (millones de galones) X : Temperatura (grados Fahrenheit) Algunos resultados que se tienen son los siguientes:

y 2  152711



x 2  4 9584

xi * yi  86006



 1025 yi



 608 xi

Scatterplot of Uso_agua vs Temperatura 225 200 175 150 125 100 75 50 40 50 Temperatura

60

70

80

90

100

110

Se pide a us ted:b. Analizar la pos ible relación de las variables en el gráfico de dis pers ión.c. Interpretar el coeficiente de correlación de P

Tema 13 Experimentos y probabilidades

13.1 Competencia a desarrollar Resuelven problemas de probabilidades aplicando los diferentes teoremas y propiedadesdemostrando su proceso y capacidad de análisis establecido. 13.2 Contenido del tema 13 Conceptos básicos de probabilidades La teoría de la probabilidadse ocupa de estudios de experimentos aleatorios del cual la ocurrencia de resultados no se puede predeci probabilidad es una medida de la certidumbre asociada a un suceso (evento) futuro cuyo resultado es un número entre 0 y 1 (o entr es improbable que ocurra cuando es cercano a 0 y se tiene la certeza que ocurra cuando la probabilidad es cercana a 1. Experimento aleatorio (ε) Es cualquier experimento u operación cuyo resultado no puede predecirse con exactitud antes de realizarse el experimento. Espacio muestral Es el conjunto formado por todo los resultados posibles del experimento aleatorio. Denotaremos por la notación  (omega) o con la let Evento Es un subconjunto del espacio muestral. Tipos de eventos Suceso seguro; está formado por todos los posibles resultados, es decirS, el espacio muestral. Ejemplo1 Tirando un dado se obtiene una puntuación que sea menor que 4, más de 5 Evento imposible; carece de elementos Ejemplo 2 Al tirar un dado obtener una puntuación de 7 A = { } Operaciones con eventos Sean los eventos A y B que ocurren en el espacio muestral a) Unión de eventos:Sean los eventos de A y B eventos dependientes, entonces AUB se obtiene: AUB={w ϵ / w ϵ A ó w ϵ B} = A + B – A



modelo Error típ. de la es timaci ón

.975 1005.64 4

Horas acumuladas de capacitación

ntesa entes

arizados

8

25.735

.000

sión.

e regresión s para realizar estimaciones?

r día y la mayor temperatura para ese día.¿Puede pronosticarse el consumo de

ados Fahrenheit)

 608

s pers ión.c. Interpretar el coeficiente de correlación de Pears on.d. Formule el modelo de regres ión lineal e interprete el coeficiente de regres ióne. Evaluar

piedadesdemostrando su proceso y capacidad de análisis en el tiempo

cual la ocurrencia de resultados no se puede predecir con exactitud. La futuro cuyo resultado es un número entre 0 y 1 (o entre 0% y 100%). Un suceso e ocurra cuando la probabilidad es cercana a 1.

e con exactitud antes de realizarse el experimento.

io. Denotaremos por la notación  (omega) o con la letra S

acio muestral.

AUB se obtiene: AUB={w ϵ / w ϵ A ó w ϵ B} = A + B – A B

A

B

Probabilidad de un evento simple La probabilidad es una medida de la incertidumbre que toma valores comprendidos entre 0 a 1. Sea el suceso o evento A del e probabilidad de A denotada por P(A) es la razón entre el número de resultados favorables al suceso A y el número total de res muestral. 𝑛 𝐴 = �ú𝑚𝑒𝑟𝑜𝑑𝑒𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠𝑑𝑒𝑙𝑒𝑣𝑒𝑛𝑡𝑜𝐴 �𝐴 = 𝑛𝑠

�ú𝑚𝑒𝑟𝑜𝑑𝑒𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠𝑑𝑒𝑙𝑒𝑠𝑝𝑎𝑐𝑖𝑜𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙

Donde: 0 ≤ (PA) ≤1 13.3 Preguntas de aplicación Problema 01 El 60% de la población de una determinada ciudad lee el periódico A, el 35% el B y un 15% ambos. Elegido un ciudadano al azar, calcular la probabilidad de: a) Ser lector de algún periódico                            b) No leer ninguno                               c) Leer solo el periódico A                               d) Leer solo uno de los dos periódicos                   

Problema 02 Una pareja al planificar una familia está interesada en tener 3 hijos, de acuerdo a esto determine los siguientes eventos: A: Todos los hijos del mismo sexo A= {                                                                    } B: Exactamente un varón B= {                                                                    } C: Por lo menos dos varones C= {                                                              } D: A lo más una mujer D= {                                                                    } Problema 03 Es frecuente que hombres y mujeres no estén de acuerdo en opinar acerca de seleccionar una pareja. Sin embargo, un grupo investigación en parejas constituidas y aplicaron una encuesta a 1000 personas entre 20 a 30 años de edad. Una de la lo más importante para su futura pareja ser capaz de comunicar sus sentimientos (S) o el vivir bien con esa persona (V).La informació resume en la siguiente tabla:

SEXO

OPINIÓN Total Sentimientos (S) Vivir bien (V) Hombres (H) 350 200 550 Mujeres (M) 360 90 450 Total 710 290 1000 Si se selecciona al azar una persona del grupo de 1000, calcule las siguientes probabilidades:

a) P(S) b) P (H) c) P(S U V) d) P(S U M) Problema 04 La probabilidad de que un hombre viva 10 años más es 1/4, y la probabilidad de que su esposa viva 10 años más es 1/3. Encon que (i) ambos estén vivos dentro de 10 años, se pide calcular: a) Por lo menos, uno esté vivo dentro de 10 años b) Ninguno de los dos esté vivo dentro de 10 años c) Solamente la esposa este viva dentro de 10 años Problema 05 Tres mujeres compiten por un puesto de secretaria ejecutiva. Las candidatas A y B tienen la misma oportunidad de ganar el doble de oportunidad que las candidatas A y B. ¿Cuál es la probabilidad de que gane C? ¿Cuál es la probabilidad de que A no Problema 06 La probabilidad de que se venda el producto A es 15%, el producto B es el 5% y la probabilidad que se vendan ambos producto promoción es 4% ¿Cuál es la probabilidad que se venda el producto A o el producto B dicho día? Problema 07 En una clase de Administración Financiera hay 6 mujeres y 4 hombres según el número de inscritos. Se han elegido al azar a 7 probabilidad de elegir más mujeres que hombres? Problema 08 En cada uno de los enunciados califique como verdadero (V) o falso (F) y arguméntelo: a) La probabilidad de la unión de dos eventos independientes es P(AUB) = P(A) + P(B) ( )

b) La probabilidad de la unión de dos eventos dependientes es P(AUB) = P(A) + P(B) ( ) c) La probabilidad de la intersección de dos eventos no puede ser mayor que cualquiera desus probabilidades individuales. ( )

d) Un evento y su complementario son mutuamente excluyentes. ( ) e) Las probabilidades individuales de un par de eventos no pueden sumar más de 1. ( ) f) Si dos eventos son mutuamente excluyentes, también deben son eventos exhaustivos. ( ) 13.4 Bibliografía 1. Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera. 2. Webster, A. (2006). Estadística aplicada a los negocios y la economía. (3° ed.) Colombia: MCGRAW HILL. 3. García, J.(2005). Estadística descriptiva y nociones de probabilidad. España: Thomson Editores. 4. Montesinos, L, Bayonas, Y, Cerna, E, Llanos, K, Pajuelo, S. (2016).Estadística descriptiva yprobabilidad.(1ª ed) 1Lima: F

Tema 14 Probabilidad condicional y teorema de Bayes

14.1 Competencia a desarrollar Resuelven problemas de probabilidad condicional y aplica elteorema de Bayes demostrando su proceso y capacidad de análisis en el tiempo 14.2 Contenido del tema 14 Probabilidad condicional En un espacio muestral, la probabilidad condicional se define como la probabilidad de un evento A dado que ha ocurrido el evento B. 𝑛 𝐴 ∩ 𝐵 = �ú𝑚𝑒𝑟𝑜𝑑𝑒𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠𝑑𝑒𝑙𝑒𝑣𝑒𝑛𝑡𝑜𝐴∩ 𝐵 � 𝐴/𝐵 =

B

idos entre 0 a 1. Sea el suceso o evento A del espacio muestral  ; la favorables al suceso A y el número total de resultados del espacio

𝑝𝑎𝑐𝑖𝑜𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 ambos.

o a esto determine los siguientes eventos:        } B: Exactamente un varón B=

    } D: A lo más una mujer

D=

eleccionar una pareja. Sin embargo, un grupo de estudiantes realizó una s entre 20 a 30 años de edad. Una de las preguntas fue ¿Qué es el vivir bien con esa persona (V).La información de las respuestas se

obabilidades:

M) que su esposa viva 10 años más es 1/3. Encontrar la probabilidad de

s A y B tienen la misma oportunidad de ganar, pero la candidata C tiene ue gane C? ¿Cuál es la probabilidad de que A no gane?

a probabilidad que se vendan ambos productos por medio de una cto B dicho día?

número de inscritos. Se han elegido al azar a 7 personas ¿Cuál es la

éntelo: + P(B)

(

)

P(B) ( ) r que cualquiera desus ( )

( ) e 1. ( ) austivos. ( )

Moshera. bia: MCGRAW HILL. Editores. stica descriptiva yprobabilidad.(1ª ed) 1Lima: Fondo Editorial USIL.

su proceso y capacidad de análisis en el tiempo establecido. evento A dado que ha ocurrido el evento B.

𝑛𝐵

�ú𝑚𝑒𝑟𝑜𝑑𝑒𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠𝑑𝑒𝑙𝑒𝑣𝑒𝑛𝑡𝑜𝐵

Probabilidad total El espacio muestral se divide en Ai particiones mutuamente excluyentes, y ocurre un evento común B en todas las particione total de un evento B está dado por: Por tanto la probabilidad del evento B es: P(B) =P(A1) P(B|A1) + … +P(A4) P(B|A4) � 𝐵 = 𝐴𝑖 � 𝐵/𝐴𝑖 Donde: 0 ≤ (PB) ≤1 Teorema de Bayes Si ocurre el evento B, podemos calcular la probabilidad (a posteriori) de ocurrencia de cada evento particularAi.

� 𝐴𝑖/𝐵 = � 𝐵/𝐴𝑖 �𝐵

Ejemplo 23 En esta aula el 70% de los alumnos son hombres.De ellos el 10% son fumadores. El 20% de las mujeres son fumadoras. ¿Cuál es seleccionar una persona, ésta sea fumadora? Solución Sean los eventos: H: Hombre F: Fuma

0,1 0,7

Hombre 0,9

Estudiante 0,3

Fum

0,2

No fuma

Fum

Mujer 0,8

No fuma

P(F) = P(F∩H) + P(F∩M) = P(F|H) P(H) + P(F|M) P(M) = 0,1 · 0,7 + 0,2 · 0,3 = 0,13 13.3 Preguntas de aplicación Problema 01 Una empresa tiene tres firmas proveedoras de un mismo artículo. La firma A produce el 2% de fallados y provee el 25% de las necesidad produce el 5% de fallados y provee el 30% de las necesidades de la empresa. La firma C produce un 3% de fallados y provee el 45% de las empresa. a. En las operaciones se detecta un artículo fallado, ¿cuál es la probabilidad de que provenga de A? b. Si se detecta un artículo bueno, ¿cuál es la probabilidad de que no provenga de C? c. Si se sabe que el artículo no proviene de C, ¿cuál es la probabilidad de que sea bueno? Problema 02 Un ambulante que vende periódicos y otros artículos encuentra que el 60% de sus clientes le compra (solo) periódicos y 20% le compra productos ¿Qué porcentaje de sus clientes le compran solamente otras cosas que no sean periódicos, asumiendo que todos los clientes le compran Problema 03 En la ciudad de Arequipa, el canal 5 emite un reporte informativo “Buenos días Perú” en la mañana, y otro 24 horas”, en la noche. El 10 ciudad sintonizan el programa por la mañana, 30% ven el programa por la noche y 7% ven ambos programas ¿Cuál es el porcentaje de las ninguno de estos dos programas informativos? Problema 04 Análisis S.A., una pequeña firma consultor está negociando dos contratos. La Gerencia piensa que la probabilidad de ganar el prime el ganador tendrá ventaja definitiva en la negociación del segundo contrato. La Gerencia cree, que si Análisis S.A. gana el primer contr probabilidad de ganar el segundo, pero si pierde el primer contrato, la probabilidad de ganar el segundo disminuirá a 0.10. a. ¿Cuál es la probabilidad de que Análisis SA. pierda ambos contratos? b. ¿Cuál es la probabilidad de que el Análisis S.A. gane el segundo contrato? Problema 05 Consideremos una población en la que cada individuo es clasificado según dos criterios: es o no portador de HIV y pertenece o no a cierto grupo de riesgo que denominaremos R. La correspondiente tabla de probabilidades es:

�ú𝑚𝑒𝑟𝑜𝑑𝑒𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠𝑑𝑒𝑙𝑒𝑣𝑒𝑛𝑡𝑜𝐵

nte excluyentes, y ocurre un evento común B en todas las particiones. Por tanto la probabilidad

d (a posteriori) de ocurrencia de cada evento particularAi.

� 𝐴𝑖/𝐵 = � 𝐵/𝐴𝑖 �𝐵 10% son fumadores. El 20% de las mujeres son fumadoras. ¿Cuál es la probabilidad que al

firma A produce el 2% de fallados y provee el 25% de las necesidades de la empresa. La firma B mpresa. La firma C produce un 3% de fallados y provee el 45% de las necesidades de la

babilidad de que provenga de A? no provenga de C? ad de que sea bueno?

e el 60% de sus clientes le compra (solo) periódicos y 20% le compra periódicos con otros

ue no sean periódicos, asumiendo que todos los clientes le compran algo?

Buenos días Perú” en la mañana, y otro 24 horas”, en la noche. El 10% de las familias de esta por la noche y 7% ven ambos programas ¿Cuál es el porcentaje de las familias que no ven

ntratos. La Gerencia piensa que la probabilidad de ganar el primer contrato es de 60%, y que contrato. La Gerencia cree, que si Análisis S.A. gana el primer contrato va a tener un 70% de la probabilidad de ganar el segundo disminuirá a 0.10. os? ontrato?

según dos criterios: es o no portador s R. La correspondiente tabla de probabilidades es:

Cliente Pertenece al grupo de riesgo (B) No pertenece al grupo de riesgo (B’) Total

Portador (A) 0.003 0.003

No portador (A’) 0.017 0.977

a) Calcula la probabilidad de que un individuo sea portador b) Calcula laprobabilidad de que sea portador y pertenezca al grupo de riesgo. c) Dado que una persona seleccionada al azar pertenece al grupo de riesgo, ¿cuál es laprobabilidad de que sea portador? Problema 06 En el Cuzco, el hotel de turistas clasifica sus clientes en tres categorías los clientes que llegaron por agencia de viaje, por independiente. La gerencia desea determinar la relación entre el tipo de cliente y el tipo de pago. Ha seleccionado 230 c durante el mes de febrero del año pasado y los ha clasificado en la siguiente tabla:

ál es laprobabilidad de que sea portador?

es que llegaron por agencia de viaje, por negocios y de forma nte y el tipo de pago. Ha seleccionado 230 clientes de los que hospedó

Cliente Agencia de Viaje Independiente Hombre de Negocios

Tipo de pago Tarjeta de crédito 65 30 50

Efectivo 45 30 10

¿Cuál es la probabilidad de que si se selecciona un cliente al azar de esta muestra? a. El cliente sea hombre de negocios b. El cliente sea hombre de negocios y pague al crédito e. El cliente sea hombre de negocios o pague en efectivo d. Supongamos que el cliente es independiente ¿Cuál es la probabilidad de que pague al crédito? e. Los dos eventos: ser un cliente de agencia de viaje y pagar al crédito ¿son independientes? Explíquelo. Problema 07 Una compañía constructora está considerando el construir un centro comercial. Un elemento de decisión para la construcción proyecto de una autopista. Si el consejo municipal aprueba esta autopista hay una probabilidad de 0.90 que la compañía comercial. Pero si la autopista no es aprobaba la probabilidad es de sólo 0.20. Basándose en la información disponib compañía estima que hay una probabilidad de 0.60 que la autopista sea aprobada. a. ¿Cuál es la probabilidad que la compañía construya el centro comercial? b. Dado que el centro comercial fue construido, ¿cuál es la probabilidad que la autopista haya sido aprobada? Problema 08 La información de la siguiente tabla presenta la clasificación de estudiantes universitarios de acuerdo a la preferencia de la carrera profesional elegida y el género.

ESPECIALIDAD Administración Ingeniería Contabilidad TOTAL

GÉNERO Masculino 120 90 47 257

TOTAL Femenino 90 50 55 195

210 140 102 452

Se desea elegir un estudiante en la muestra: a) ¿Cuál es la probabilidad que pertenezca a la especialidad de Ingeniería? b) ¿Cuál es la probabilidad que el estudiante sea un estudiante de administración dado que es mujer? c) ¿Cuál es la probabilidad que el estudiante sea de la carrera de Contabilidad? d) ¿Cuál es la probabilidad de elegir un estudiante del género femenino y estudie Ingeniería? e) Si el estudiante elegido es del género masculino ¿Cuál es la probabilidad que estudie Contabilidad? f) ¿Cuál es la probabilidad de elegir un estudiante de Ingeniería o Contabilidad? Problema 09 La National HighwayTraffic Safety Administration (NHTSA) realizó una investigación para saber si los conductores de E usando sus cinturones de seguridad (Associated Press, 25 de agosto de 2003). Los datos muestrales fueron los siguientes: Conductores que emplean el cinturón

Región Sí No Noreste 148 52 Oeste 162 54 medio Sur 296 74 Oeste 252 48 Total 858 228 a) ¿Cuál es la probabilidad de que en Estados Unidos un conductor lleve puesto el cinturón? b) Un año antes, la probabilidad en Estados Unidos de que un conductor llevara puesto el cinturón era 0.75. El director de NHTSA, doctor Jeffrey Runge esperaba que en 2003 la probabilidad llegara a 0.78. ¿Estará satisfecho con los resultados del estudio del 2003?

c) ¿Cuál es la probabilidad de que se use el cinturón en las distintas regiones del país? d) ¿En qué región se usa más el cinturón? Problema 10 Una empresa que produce pasta de dientes está analizando el diseño de cinco empaques diferentes. Suponiendo que existe que los clientes elijan cualquiera de los empaques, ¿cuál es la probabilidad de selección que se le asignaría a cada diseño de e se pidió a 100 consumidores que escogieran el diseño que más les gustara. Los resultados se muestran en la tabla siguiente. ¿ creencia de que existe la misma posibilidad de que los clientes elijan cualquiera de los empaques? Explique

e al crédito? n independientes? Explíquelo.

emento de decisión para la construcción es la existencia del probabilidad de 0.90 que la compañía construya el centro Basándose en la información disponible el presidente de la

pista haya sido aprobada?

arios de acuerdo a

do que es mujer?

eniería? ie Contabilidad?

ción para saber si los conductores de Estados Unidos están os muestrales fueron los siguientes:

era ara a

?

aques diferentes. Suponiendo que existe la misma posibilidad de ión que se le asignaría a cada diseño de empaque? En un estudio, ados se muestran en la tabla siguiente. ¿Confirman estos datos la

Diseño 1 2 3 4 5

Problema 11 Un médico cirujano se especializa en cirugías estéticas. Entre sus pacientes, el 20% se realizan correcciones faciales, un 35% im restante en otras cirugías correctivas. Se sabe además, que son de género masculino el 25% de los que se realizan correcciones faciales, 40% otras cirugías correctivas. Si se selecciona un paciente al azar, determine: a. Calcula la probabilidad de que sea de género masculino b. Si resulta que es de género masculino, ¿Cuál es la probabilidad que se haya realizado una cirugía de implantes mamarios? 14.4 Bibliografía 1. Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera. 2. Webster, A. (2006). Estadística aplicada a los Negocios y la Economía.(3ra ed.) Colombia: McGraw Hill. 3. García, J.(2005). Estadística descriptiva y nociones de probabilidad. España: Thomson Editores. 4. Montesinos, L, Bayonas, Y, Cerna, E, Llanos, K, Pajuelo, S. (2016).Estadística descriptiva yprobabilidad.(1ª ed) 1Lima: F

Bibliografía1.Córdova, M. (2003). Es tadís tica Des criptiva e Inferencial. Aplicaciones . (5ª ed.) Lima: Mos hera. 2.Ávila, RB. (20

Número de veces que fue elegido 5 15 30 40 10

ujano se especializa en cirugías estéticas. Entre sus pacientes, el 20% se realizan correcciones faciales, un 35% implantes mamarios y el as cirugías correctivas. Se sabe además, que son de género masculino el 25% de los que se realizan correcciones faciales, 15% implantes mamarios y as correctivas. Si se selecciona un paciente al azar, determine: obabilidad de que sea de género masculino e es de género masculino, ¿Cuál es la probabilidad que se haya realizado una cirugía de implantes mamarios? afía (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera. (2006). Estadística aplicada a los Negocios y la Economía.(3ra ed.) Colombia: McGraw Hill. 005). Estadística descriptiva y nociones de probabilidad. España: Thomson Editores. L, Bayonas, Y, Cerna, E, Llanos, K, Pajuelo, S. (2016).Estadística descriptiva yprobabilidad.(1ª ed) 1Lima: Fondo Editorial USIL.

ografía1.Córdova, M. (2003). Es tadís tica Des criptiva e Inferencial. Aplicaciones . (5ª ed.) Lima: Mos hera. 2.Ávila, RB. (2010). Es tadís tica Elemental. Lima

aciales, un 35% implantes mamarios y el cciones faciales, 15% implantes mamarios y

rios?

.(1ª ed) 1Lima: Fondo Editorial USIL.

2.Ávila, RB. (2010). Es tadís tica Elemental. Lima: Es tudios y ediciones R.A.3.Webs ter, A. (2006). Es tadís tica Aplicada a los Negocios y la Econom