Citation preview

Apuntes de Estadística Descriptiva 2° Parte: Introducción a las Probabilidades Para la Carrera de Administración (2017)

Elaborado por: Manuel Francisco Hurtado Sánchez, Lic. Estad. MsC. Profesor adscrito al Dpto. de Ingeniería - USAT Director de Información Estadística USAT CONTENIDO Tema 1: Definición de probabilidad Tema 2: Tema 3: Tema 4: Chiclayo, marzo del 2016

4° UNIDAD:

1.

PROBABILIDADES

Experimento aleatorio [ ξ ]: Es cualquier realización que puede presentarse de distintas maneras, pero que en el momento de su realización se presenta de una única forma. También podemos decir que un experimento aleatorio es aquel que proporciona diferentes resultados aun cuando se repita siempre de la misma manera. Ejemplos. ξ1 : Lanzar una moneda ξ2 : Lanzar un dado ξ3 : Contar las imperfecciones de un metro de tela. ξ4 : Inspeccionar la calidad de un producto ξ5 : Resultado de una operación financiera ξ6 : Observar si una persona que pasa delante de un establecimiento comercial decide ingresar a éste. ξ7 : Observar si una persona que ingresó a un establecimiento comercial compró algo. ξ8 : Observar la velocidad de lectura de un estudiante ξ9 : Medir la presión arterial de un paciente ξ10 : Medir la temperatura de un paciente En todos estos ejemplos, es fácil darnos cuenta, que si los experimentos se repiten varias veces se pueden obtener resultados diferentes, incluso en el último ejemplo siempre habrá la posibilidad de observar cambios en las mediciones aun cuando sean muy pequeños, estos siempre estarán presentes. En algunos casos los cambios en las mediciones podrían ser tan pequeños que fácilmente se pueden considerar como despreciables, en cambio en otros casos los cambios podrían ser tan fuertes al grado que las conclusiones del experimento no son muy evidentes.

2.

Espacio muestral [ Ω ]. En un conjunto matemático, cuyos resultados están asociados a cada uno de los resultados posibles del experimento aleatorio, mediante la relación epiyectiva, es decir que,  Cada resultado del experimento aleatorio está asociado con un único elemento del espacio muestral y

2

 Cada elemento del espacio muestral está asociado con al menos un resultado posible del experimento aleatorio.

Un espacio muestral puede ser discreto o continuo. Se dice que es discreto cuando está formado por un conjunto finito (o infinito contable) de elementos; en cambio se dice que es continuo cuando está formado con un conjunto infinito no numerable de elementos. Los espacios muestrales discretos suelen construirse con la técnica del diagrama del árbol. Ejemplo de espacios muestrales: 1. Para el experimento del lanzamiento de una moneda. Si estamos interesados en el lado de la moneda que queda hacia arriba, el espacio muestral será: Ω = { C , S }, donde C = cara; S = Sello 2. Para el experimento del lanzamiento de dos dados. Si estamos interesados en el número que queda hacia arriba en cada dado, el espacio muestral será:

1,1 2,1  3,1 2   1,2,3,4,5,6  1, 2, 3, 4, 5, 6 1, 2, 3, 4, 5, 6   4,1 5,1  6,1

1,2 2,2 3,2 4,2 5,2 6,2

1,3 2,3 3,3 4,3 5,3 6,3

1,4 2,4 3,4 4,4 5,4 6,4

1,5 2,5 3,5 4,5 5,5 6,5

1,6  2,6 3,6   4,6  5,6   6,6 

Note aquí, que el espacio muestral tiene 6x6=36 elementos, es decir 36 pares ordenados en los que el primer número representa el número de puntos del 1° dado y el segundo número representa el número de puntos del 2° dado. 3. Para el experimento de contar imperfecciones en un metro de tela. Aquí el interés ya está establecido, el espacio muestral será: Ω = { 0, 1, 2, 3, …… }

3

4. Para el experimento de inspeccionar la calidad de un producto. Aquí el interés será si el producto es bueno o malo. Ω = { B , M } ; donde B = Bueno ; M = Malo 5. Para el experimento del resultado de una operación financiera. Aquí el interés será si el que hace la operación financiera, gana, solo recupera su inversión o pierde: Ω = { G, R , P } ; donde G = Gana ; R = Recupera ; P = Pierde 6. Para el experimento de observar si una persona que pasa frente a un establecimiento comercial, decide entrar o no ha dicho establecimiento. Aquí el interés será si la persona entra o no entra al establecimiento comercial: Ω = { E , NE } ; donde E = Entra ; NE = No entra 7. Para el experimento de observar si una persona que ingresó a un establecimiento comercial, decide comprar algo o no. Aquí el interés será si la persona compra algo o no compra: Ω = { C , NC } ; donde C = Compra algo ; NC = No compra algo 8. Para el experimento de observar la velocidad de lectura de un estudiante. Aquí el interés es el número de palabras leídas por minuto, el espacio muestral será: Ω = { 1 , 2, 3, 4, 5, 6, ….. } = Conjunto de los números naturales 9. Para el experimento de medir la presión arterial de un paciente. Aquí el interés serán dos número correspondientes a la presión diastólica y a la presión sistólica medidos en milímetros de mercurio: Ω = { Ps / Pd ϵ N}; donde Pd = Presión diastólica (mmHg) Ps = Presión sistólica (mmHg) N = Conjunto de los números Naturales 10. Para el experimento de medir la temperatura de un paciente. Aquí el interés será conocer la temperatura del paciente: Ω = { T / T ϵ R}; donde T = Temperatura del paciente (grados centígrados) R = Conjunto de los números reales 3. Evento [ A ]: Definimos como evento a cualquier subconjunto del espacio muestral, incluido el mismo espacio muestral Ω y el conjunto vacío Φ. Los eventos pueden ser expresados por extensión o por compresión. Ejemplo 1: En el espacio muestral del experimento de lanzar dos dados legales podemos definir los siguientes eventos: A1 = Sale el mismo número en ambos dados: A1 = {(1,1), (2,2), (3,3), (4,4), (5,5), (6,6)} :

Notación por compresión Notación por extensión

A2 = Sale un 6 en el primer dado : A2 = {(6,1), (6,2), (6,3), (6,4), (6,5), (6,6)} :

Notación por compresión Notación por extensión

4

A3 = La suma de puntos es menor que cinco: A3 = {(1,1), (1,2), (1,3), (2,1), (2,2), (3,1)} :

A2

(1,1) (2,1)  (3,1)    (4,1) (5,1)  (6,1)

Notación por compresión Notación por extensión

A1

(1,2) (2,2) (3,2) (4,2) (5,2) (6,2)

(1,3) (2,3) (3,3) (4,3) (5,3) (6,3)

(1,4) (2,4) (3,4) (4,4) (5,4) (6,4)

(1,5) (2,5) (3,5) (4,5) (5,5) (6,5)

(1,6)  (2,6)  (3,6)   (4,6)  (5,6)  (6,6) 

A3

Ejemplo 2: Para el experimento de medir la temperatura de un paciente, podemos definir los siguientes eventos: E1 = Tiene una temperatura menor a 37 °C E1 = {X / 0 ≤ X < 37} E2 = Tiene una temperatura entre 36 y 38 °C inclusive E2 = {X / 36 ≤ X ≤ 38} E3 = Tiene una temperatura superior a 38 °C E3 = {X / X > 38} Recordemos que el espacio muestral es Ω = { X / X ϵ R+} ; donde X = Temperatura corporal de un paciente (°C),

5

Ejemplo 3: Para el experimento de disparar a un blanco tres veces y si solo nos interesa si el disparo da o no en el blanco, el espacio muestral será el siguiente: Ω = { (0,0,0), (0,0,1), (0,1,0), (0,1,1), (1,0,0), (1,0,1), (1,1,0), (1,1,1) } Donde: 0 y 1 representen una falla y un acierto respectivamente.

El diagrama del árbol para construir el espacio muestral será:

Podemos definir los eventos: M = La persona no acierta en el blanco tres veces seguidas M = { (0,0,0) } N = La persona acertará una vez y fallará en dos ocasiones N = { (0,0,1), (0,1,0), (10,0) }

3.1. Eventos especiales: Evento cierto  : Es aquel que cuando se realiza el experimento aleatorio, éste siempre ocurre, y viene a ser el mismo espacio muestral Evento imposible  : Es aquel que cuando se realiza el experimento aleatorio, éste nunca puede ocurrir, y viene a ser el conjunto vacío, el cual no tiene elementos.

3.2. Operaciones con eventos: En muchas situaciones interesan eventos que en realidad son combinaciones de dos o más eventos, formados al tomar

6

uniones, intersecciones y complementos; de aquí la necesidad de estudiar las operaciones que se pueden hacer con eventos. Como ya hemos dicho, que un evento es un subconjunto del espacio muestral y siendo el espacio muestral un conjunto asociado a todos los elementos del experimento aleatorio, es fácil deducir que existe un isomorfismo entre teoría de eventos y teoría de conjuntos, es decir que todo lo que se cumple en conjuntos, se cumple también en eventos. Así podemos convenir en la siguiente manera de leer los eventos y representarlos usando diagramas de venn:

A A

Ocurre el evento A

A’

No ocurre el evento A

A B

Ocurre el evento A o el evento B

A B

Ocurre el evento A y el evento B

A B  

Los eventos A y B son disjuntos o mutuamente excluyentes

A B

El evento A está contenido en el evento B

Ejemplo 1: Sea Ω = { 1, 2, 3, 4, 5, 6, 7, 8, 9 }, A = {1, 3, 5, 7}, B = {6, 7, 8, 9}, C = {2, 4, 8}, y D = {1, 5, 9}. Los elementos que corresponden a los siguientes eventos usando el siguiente diagrama ven serán.

7

a.

A B = { 7 }

b.

( A'B)  C = { 8 }

c.

B'C = { 1, 2, 3, 4, 5 }

d.

( B'C )  D = {1, 5 }

e.

A'C = {2, 4, 8 }

f.

( A'C )  D = ɸ

4. Probabilidad de un evento: Es un número real comprendido entre cero y uno [0 , 1], que expresa una medida del grado de incertidumbre acerca de la ocurrencia de un evento, antes que este ocurra. Existen dos enfoques para obtener la probabilidad de un evento, uno objetivo y otro subjetivo. 4.1. Enfoque Objetivo: En este enfoque la probabilidad de un evento puede entenderse como una medida real del grado de incertidumbre acerca de la ocurrencia de un evento antes que este ocurra. El enfoque objetivo se suele utilizar en aquellas situaciones en donde es posible que un experimento aleatorio pueda ser repetido muchas veces bajo las mismas condiciones, tal como ocurre en los juegos del azar o en fenómenos de Ingeniería En este enfoque, la probabilidad de un evento depende de la naturaleza del experimento aleatorio, por lo tanto tiene un único valor el cual debe ser calculado. Aquí podemos distinguir nuevamente dos clases de probabilidad, la probabilidad matemática o de Laplace y la probabilidad por frecuencia relativa

8

4.1.1. Probabilidad matemática o de Laplace: Esta probabilidad se basa en un modelo razonable del sistema que se estudia mediante un experimento aleatorio. Esta probabilidad se aplica en aquellas situaciones en que cada uno de los elementos del espacio muestral son equiprobables, es decir tienen la misma probabilidad de ocurrir, por ejemplo, cuando lanzamos una moneda legal, la probabilidad de obtener una cara es la misma que la probabilidad de obtener un sello [ P(C) = P(S) = 0.5 ], o cuando lanzamos un dado legal, también tenemos que la probabilidad de ocurrencia de cada uno de los resultados es la misma, así: [ P(1) = P(2) = … = P(6) = 1/6 ]. La probabilidad matemática o de Laplace, de un evento A, se define como el cociente entre número de casos “igualmente probables” favorable a la ocurrencia de ese evento y el número todos de casos “igualmente probables”.

P( A) 

N º de casos igualmente probables favorables al evento A N º total de casos igualmente probables

P( A) 

N ( A) N ( )

Nota: Tenga presente que una posibilidad no es una probabilidad, la probabilidad es una medida de la posibilidad.

Ejemplo 1. Considere que lanzamos un dado legal sobre una superficie regular, ¿cuál será la probabilidad de obtener en el lado superior un número mayor de cuatro puntos?. El espacio muestral es: Ω = {1, 2, 3, 4, 5, 6} A Si el dado es legal, es decir físicamente simétrico y equilibrado, entonces cada uno de estos resultados deben ser igualmente probables o equiprobables, por lo que debemos tener:

P(1)  P(2)  P(3)  P(4)  P(5)  P(6) 

1 6

Sea el evento A = Sale un número mayor que 4, entonces los elementos de dicho evento son: A = {5, 6}, por lo que su probabilidad será:

9

P( A) 

N ( A) 2   0.333 N ( ) 6

Ejemplo 2. Considere que lanzamos dos dados legales sobre una superficie regular, ¿cuál será la probabilidad de obtener en el lado superior, números cuya suma sea menor que cinco puntos?. Es espacio muestral y el evento de interés de muestran a continuación: A

(1,1) (2,1)  (3,1)    (4,1) (5,1)  (6,1)

(1,2) (2,2) (3,2) (4,2) (5,2) (6,2)

(1,3) (2,3) (3,3) (4,3) (5,3) (6,3)

(1,4) (2,4) (3,4) (4,4) (5,4) (6,4)

(1,5) (2,5) (3,5) (4,5) (5,5) (6,5)

(1,6)  (2,6)  (3,6)   (4,6)  (5,6)  (6,6) 

En este caso nuevamente cada uno de los elementos del espacio muestral son equiprobables

P(1,1)  P(1,2)  P(1,3)    P(6,6) 

1 36

Sea el evento A = la suma de puntos es menor que cinco A = {(1,1), (1,2), (1,3), (2,1), (2,2), (3,1)}

P( A) 

N ( A) 6   0.1666 N () 36

4.1.2. Probabilidad por frecuencia relativa: Esta probabilidad se basa en el modelo conceptual de la repetición de un experimento aleatorio. Aquí la probabilidad de un evento se interpreta como el valor límite de la proporción de veces en que aparece el evento en n repeticiones del experimento aleatorio, cuando n tiende a ser muy grande (n →∞ )

P( A)  Lim

n

n( A) k n

Ejemplo: Considere que en una gran encuesta a 2000 personas adultas se preguntó entre otras cosas por el estado civil, encontrando la siguiente distribución de frecuencias. Tabla N° Estado civil de 2000 personas adultas de la ciudad de Lambayeque. Diciembre del 2011

10

Estado Civil

N° de personas (ni)

Proporción de personas (pi)

(Ai)

N (Ai)

Probabilidad: P(Ai)

Soltero

680

0.34

Casado

720

0.36

Conviviente

340

0.17

Divorciado

60

0.03

Separado

140

0.07

Viudo

60

0.03

Total (n)

2000

1

Aquí, debido a que el tamaño de muestra es suficientemente grande ( n  0 ), las frecuencias relativas pueden ser consideradas como probabilidades, es decir que, si de la población de referencia seleccionamos aleatoriamente una persona adulta, la probabilidad que sea soltera será 0.34, así sucesivamente. 4.2. Enfoque subjetivo: En este enfoque, la probabilidad de un evento puede interpretarse como el grado de creencia de que ocurra el evento. Aquí puede suceder que personas diferentes no duden en asignar probabilidades diferentes al mismo evento. Así por ejemplo la probabilidad de que un negocio sea exitoso para el sujeto A podría ser igual a 0.25; en cambio para el sujeto B este mismo evento podría tener una probabilidad igual a 0.40; incluso podría variar en una misma persona, de un tiempo a otro, dependiendo de su estado de ánimo u optimismo para emprender un nuevo negocio. En todos los casos dichas probabilidades serían igualmente lícitas, puesto que son sus creencias. Este enfoque suele ser utilizado en situaciones en que el experimento aleatorio no es posible repetirlo muchas veces bajo las mismas condiciones, tal como ocurre en los fenómenos sociales en donde no se puede repetir la historia. 5. Axiomas de probabilidad Los axiomas de probabilidad son premisas que no requieren demostración; pero que sobre las cuales se construye la teoría de probabilidades. i. La probabilidad de un evento es un número real no negativo: P( A)  0 ii. La probabilidad del espacio muestral es igual a uno. P()  1 iii. Si A1, A2, A3, …. Es una sucesión finita o infinita de eventos mutuamente excluyentes de un mismo espacio muestral, entonces:

11

P( A1  A2  A3  . . . )  P( A1 )  P( A2 )  . . . 6. Algunas reglas de probabilidad En base a los tres axiomas de probabilidad, se pueden deducir muchas reglas que tienen aplicaciones importantes.

i. Si A y A’ son eventos complementarios en un espacio muestral

P( A' )  1  P( A)

ii. La probabilidad del evento imposible siempre es cero:

Ω:

P()  0

Ω ɸ iii. Si A y B son eventos de un mismo espacio muestral, tal que

A  B , entonces:

P( A)  P( B)

iv. Si A y B son dos eventos cualquiera de un mismo espacio muestral Ω, entonces:

P( A  B)  P( A)  P( B)  P( A  B)

v. Si A, B y C son tres eventos cualquiera de un mismo espacio muestral Ω, entonces:

P( A  B  C )  P( A)  P( B)  P(C )  P( A  B)  P( A  C )  P( B  C )  P( A  B  C )

12

Esta regla podría ser extendida a la reunión de más de tres eventos usando el mismo razonamiento.

Ejemplo 1. En la ciudad de Chiclayo, las probabilidades son 0.86, 0.35 y 0.29 de que una familia escogida aleatoriamente para una encuesta por muestreo tenga un aparato de TV con tecnología LED, un aparato de TV con tecnología LCD, o ambas clases de aparatos respectivamente. ¿Cuál es la probabilidad de que una familia posea cualquiera de los dos o ambos aparatos? Solución Sea: A = La familia tiene un televisor con tecnología LED B = La familia tiene un televisor con tecnología LCD Entonces tenemos: P(A) = 0.86

P(B) = 0.35

P(A∩B) = 0.29

P( A  B)  P( A)  P( B)  P( A  B) = 0.86 + 0.35 - 0.29 = 0.92 Ejemplo 2. Cerca de la llegada al desvío por vía de evitamiento norte de la ciudad de Chiclayo, las probabilidades son 0.23 y 0.24, de que un camión parado al costado de la pista, tendrá frenos defectuosos o neumáticos muy gastados. También, la probabilidad es de 0.38 de que un camión parado en esta zona tendrá frenos defectuosos o neumáticos muy gastados. ¿Cuál es la probabilidad de que un camión parado al costado de la pista tendrá los frenos defectuosos y los neumáticos muy gastados?. Solución Sea: A = El camión tiene frenos defectuosos B = El camión tiene los neumáticos muy gastados

13

Entonces tenemos: P(A) = 0.23

P(B) = 0.24

P(AυB) = 0.38

Sabemos que P( A  B)  P( A)  P( B)  P( A  B) entonces debemos tener que

P( A  B)  P( A)  P( B)  P( A  B) = 0.23 + 0.24 - 0.38 = 0.09 Ejemplo 3. Si una persona acude con su dentista, supongamos que la probabilidad de que le limpie la dentadura es de 0.44, la probabilidad de que le tape una caries es 0.24, la probabilidad de que se le extraiga un diente es 0.21 , la probabilidad de que se le limpie la dentadura y le tape una caries es 0.08, la probabilidad de que le limpie la dentadura y le extraiga un diente es 0.11, la probabilidad de que le tape una caries y le saque un diente es 0.07 y la probabilidad de que le limpie la dentadura, le tape una caries y le saque un diente es 0.03. ¿Cuál es la probabilidad de que a una persona que acude con su dentista se le haga por lo menos uno de estos tres procedimientos?

Solución Sea: A = Limpieza de dentadura B = Tapar caries C = Extraer un diente Entonces tenemos: P(A) = 0.44

P(B) = 0.24

P(C) = 0.21

P(A∩B) = 0.08

P(A∩C) = 0.11

P(B∩C) = 0.07

P(A∩B∩C) = 0.03

Sabemos que:

P( A  B  C )  P( A)  P( B)  P(C )  P( A  B)  P( A  C )  P( B  C )  P( A  B  C ) = 0.44 + 0.24 + 0.21 - 0.08

- 0.11

-

0.07

+ 0.03

= 0.66

7. Probabilidad condicional Dados dos eventos A y B con P(B) > 0, la probabilidad condicional de A dado B, expresada como P(A/B), representa la fracción de veces que ocurre A sabiendo que ha ocurrido B. Su cálculo corresponde al cociente entre la probabilidad de que ocurra A y B (ambos) y probabilidad de que ocurra B.

14

P( A / B) 

P( A  B) P( B)

Esto significa que el suceso B ocurrirá una fracción P(B) veces y, asimismo A y B (ambos) ocurrirá una fracción P( A  B) de las veces. El cociente

P( A  B) / P( B) indica la proporción de veces que cuando ocurre B, ocurre también A. Esto es, Si ignoramos las veces en que B no ocurre, y consideramos solo aquellas en que ocurre, el cociente P( A  B) / P( B) corresponde a la fracción de veces que A también sucederá. Esto es precisamente lo que significa la probabilidad condicional de A dado B. La probabilidad condicional de A dado B también podría ser entendida como la probabilidad de A en un nuevo espacio muestral reducido dado por B

A

B

A∩B

En cambio aquí, el evento B funciona como un espacio muestral reducido

Aquí, las probabilidades P(A), Ω y P(A∩B) están definidas P(B) sobre el espacio muestral Ω.

P(A/B) = # (A∩B) / # (B)

P(A/B) = P(A∩B) / P(B)

En efecto, es fácil probar que las dos expresiones que aparecen en la figura anterior son equivalentes.

P( A  B) P( A / B) A P( B)

# ( A  B) # ( )  # ( B) # ( )



# ( A  B) # ( B)

Ejemplo 1: Consideremos el lanzamiento de tres monedas, en donde el espacio muestral es: Ω = { ccc, ccs, csc, scc, css, scs, ssc, sss} Donde: P(ccc) = P(ccs) = P(csc) = ….. = P(sss) = 1/8 ¿Cuál es la probabilidad de que la primera moneda sea cara?

15

Naturalmente esta probabilidad es ½, lo que podemos establecer de manera más formal establecer como P(cara en la primera moneda)= P( ccc, ccs, csc, css ) =4/8 = ½. Pero consideremos que sabemos que en dos de las tres monedas ha salido cara. ¿Cuál es ahora la probabilidad de que la primera moneda sea cara?. La cuestión es que ha cambiado nuestra información disponible, es decir nuestro nivel de ignorancia, y en consecuencia habrán cambiado las probabilidades correspondientes. De hecho, si sabemos que dos de las tres monedas han salido cara los resultados posibles son ccs, csc y scc. Dado que los tres resultados son(en este caso) equiprobables, y puesto que solo en los dos primeros la moneda es cara, podemos concluir que: si sabemos que en dos de las tres monedas ha salido cara, entonces la probabilidad de que la primera moneda sea cara es 2/3. Más exactamente, hemos calculado una probabilidad condicional. Esto es, hemos determinado que bajo la condición de que sabemos que dos de las tres monedas han salido cara, la probabilidad condicionada de que la primera sea cara es 2/3, lo que matemáticamente se expresa como: P(cara en la primera moneda | cara en dos monedas) =2/3. La barra vertical | establece “bajo la condición” o “dado que”. En este ejemplo, A es el suceso de que la primera moneda sea cara, mientras que B es el suceso de que haya salido cara en dos monedas. Por tanto en términos matemáticos, A= {ccc, ccs, csc, css}, B= {ccs, csc, scc } y A ∩B ={ccs. csc}. En consecuencia se ha calculado:

P( A / B) 

P( A  B) P(ccs, csc) 2/8    2 / 3. P( B) Pccs, csc,scc 3 / 8

Por otra parte, y de forma análoga, podemos calcular P(cruz en la primera moneda | cara en dos monedas) =1/3. Vemos por tanto que condicionar un suceso (como es el caso de “cara en la primera moneda”) o bien disminuirla (como en “cruz en la primera moneda”).

16

Ejemplo 2: Considere que se dispone la siguiente información relacionada con el comportamiento de un gran número de clientes: Intención de comprar algo

Decisión: compra algo Total Si (B)

No

Si (A)

1100

100

1200

No

500

800

1300

Total

1600

900

2500

Sea Los eventos: A = El cliente visita el establecimiento comercial con la intención de comprar algo B = El cliente que visita el establecimiento comercial compra algo (lo que estaba buscando) Considerando la probabilidad como una frecuencia relativa, podemos calcular la probabilidad de a dado B del siguiente modo:

P( A) 

# ( A) 1200   0.48 # () 2500

P( B) 

# ( B) 1600   0.64 # () 2500

P( A  B) 

P( A / B) 

# ( A  B) 1100   0.44 # () 2500

P( A  B) 0.44   0.6875 P( B) 0.64

Es exactamente lo mismo cuando consideramos al evento B como un espacio muestra reducido, en el cual, en el cual calculamos la misma probabilidad:

P( A / B) 

# ( A  B) 1100   0.6875 # ( B) 1600

Finalmente note que la definición de P(B/A) conduce inmediatamente a la fórmula del producto

P( A  B)  P( A) P( B / A).

17

Esto nos permite calcular la probabilidad conjunta de A y B conociendo la probabilidad de A y la probabilidad condicional de B dado A. La probabilidad condicional nos permite expresar el teorema “ley de la probabilidad total, versión no condicionada”, de una forma diferente y algunas veces más útil. 8. Regla de la multiplicación i. Para dos eventos: Supongamos que A y B, son dos eventos cualquiera del mismo espacio muestral Ω,

P( A  B)  P( A) P( B / A) ii. Para varios eventos: Supongamos que A1, A2, …, Ak, son k eventos cualquiera del mismo espacio muestral Ω,

P( A1  A2  A3  ...  Ak )  P( A1 ) P( A2 / A1 ) P( A3 / A1  A2 )...P( Ak / A1  ...  Ak 1 ) Ejemplo 1: Si seleccionamos aleatoriamente dos personas en sucesión de un conjunto de 240 personas de los cuales 15 tienen presión alta, ¿Cuál es la probabilidad de que ambas personas tengan presión alta? Solución: Si suponemos probabilidades iguales para cada selección (que es lo que queremos decir al seleccionar aleatoriamente personas), la probabilidad de que la primera persona tenga presión alta es 15/240, y la probabilidad de que la segunda persona también tenga presión alta dado que la primera persona tenía presión alta es 14/239. Así la probabilidad de que ambas personas tengan presión alta es 15/240.14/239 = 7/1912 = 0.003661 También lo podemos presentar del siguiente modo: Sea: A1 = La primera persona seleccionada tiene presión alta A2 = La segunda persona seleccionada tiene presión alta A1∩A2 =Ambas personas seleccionadas tienen presión alta P(A1∩A2) = P(A1)P(A2/A1) = (15/240).(14/239) = 0.003661

18

Esto supone que estamos muestreando sin reemplazo; esto es la primera persona seleccionada no se regresa a la población antes de que de seleccionar la segunda persona. Ejemplo 2: Encuentre las probabilidades de sacar aleatoriamente dos ases de una baraja ordinaria de 52 cartas de juego, si muestreamos a) Sin reemplazo; b) Con reemplazo. Solución: a) Si la primera carta no se reemplaza antes de que se saque la segunda, la probabilidad de sacar dos ases en sucesión es

4 3 1 . . 52 51 121 b) Si la primera carta se reemplaza antes de que se saque la segunda, la probabilidad correspondiente es

4 4 1 . . 52 52 169 Ejemplo3: Una caja de vacunas contiene 20 vacunas, de las cuales cinco están defectuosas. Si se seleccionan tres vacunas aleatoriamente y se sacan de la caja en sucesión sin reemplazo, ¿Cuál es la probabilidad de que las tres vacunas estén defectuosas? Solución: Si A es el evento de que el primer fusible este defectuoso, B es el evento de que el segundo fusible este defectuoso, y C es el evento de que el tercer fusible sea defectuoso, entonces P(A)=5/20, P(B|A)=4/19, P(C|A∩B)=3/18 y la sustitución en la formula nos da :

P( A  B  C ) 

5 4 3 . . 20 19 18



1 114

9. Eventos independientes Si A y B son dos eventos cualesquiera de un mismo espacio muestral Ω, entonces decimos que estos dos eventos son independientes si la ocurrencia o no ocurrencia de cualquiera de los dos no afecta la probabilidad de ocurrencia del otro.

19

Con símbolos, dos eventos A y B son independientes si, P( B / A)  P( B) o en forma equivalente P( A / B)  P( A) , siempre que las probabilidades condicionales existan, es decir que P( A)  0 y también P( B)  0 . Si esta igualdad lo remplazamos en la regla de multiplicación para dos eventos, obtenemos que:

P( A  B)  P( A) P( B / A)  P( A).P( B)

Por lo que finalmente podemos decir que, dos eventos A y B son independientes si y solo si:

P( A  B)  P( A).P( B) Generalizando para k eventos, tenemos que los eventos A1, A2, …, Ak, son independientes si y sólo si la probabilidad de la intersección de cualquiera 2, 3, … , o k de estos eventos es igual al producto de sus probabilidades respectivas. Para tres eventos A, B y C, por ejemplo, la independencia requiere que:

P( A  B)  P( A).P( B) P( A  C )  P( A).P(C ) P( B  C )  P( B).P(C ) P( A  B  C )  P( A).P( B) P(C )

Cada una de las tres ecuaciones anteriores se cumplen, pero no la ecuación P( A  B  C )  P( A).P( B) P(C ) . En este caso los sucesos A,B y C son independientes parejas, pero no en conjunto. Finalmente los eventos A1, A2, …, Ak, son Conjuntamente Independientes si y sólo si

P( A1  A2  A3  ....  Ak )  P( A1 ) P( A2 ) P( A3 )...P( Ak )

20

Ejemplo La figura muestra un diagrama de Venn con probabilidades asignadas a sus diversas regiones. A B

¼

1/4

¼1/4 C

Verifique que A y B son independientes, que A y C son independientes que B y C son independientes pero que A, B y C no son independientes. Solución: Como se puede ver en el diagrama, P(A)=P(B)=P(C) =1/2, P(A∩B)= P(A∩C)= P(B∩C)= ¼ y P(A∩B∩C) =1/4. Así,

1  P( A  B) 4 1 P( A).P(C )   P( A  C ) 4 1 P( B).P(C )   P( B  C ) 4

P( A).P( B) 

Pero

P( A).P( B).P(C ) 

1  P( A  B  C ) 8

A propósito del ejemplo anterior se le puede dar una interpretación “real” al considerar un cuarto grande que tiene tres interruptores separados que controlan las luces del techo. Estas luces estarán encendidas cuando los tres interruptores estén “hacia arriba” y por tanto también cuando uno de los interruptores este “hacia arriba” y los otros dos estén “hacia abajo”. Si A es el evento que el primer interruptor este “hacia arriba”, B es el evento que el segundo interruptor este “hacia arriba” y C es el evento de que el tercer interruptor este “hacia arriba”, el diagrama de Venn de la figura anterior muestra un posible conjunto de probabilidades asociado con que los interruptores estén “hacia arriba” o “hacia abajo” cuando las luces del techo estén están prendidas.

21

Ejemplo: Encuentre las probabilidades de obtener: a) Tres caras en tres lanzamientos aleatorios de una moneda balanceada; b) Cuatro, seis y después otro número en cinco lanzamientos aleatorios de un dado balanceado. Solución:

a) Al multiplicar las probabilidades respectivas, obtenemos:

1 1 1 1 . .  2 2 2 8

b) Al multiplicar las probabilidades respectivas, obtenemos:

1 1 1 1 5 5 . . . .  6 6 6 6 6 7776

Ejemplo: Supongamos que tiramos un dado equilibrado de seis caras y una moneda también equilibrada. Podemos expresarlo como:

Ω={1c,2c,3c,4c,5c,6c,1s,2s,3s,4s,5s,6s}.

Si A es el suceso correspondiente a que aparezca un 5 a tirar el dado y B a que la moneda caiga como cruz, entonces P(A)=P({5c,5s}) = 2/12 = 1/6, y P(B)=P({1s,2s,3s,4s,5s,6s})= 6/12 =1/2. Además P(A∩B) = P({5s}) = ½, que es igual a (1/6)(1/2). De ahí que en este caso A y B sean independientes. 10. Probabilidad total i. Para dos eventos: Para cualquier par de eventos A y B de un mismo espacio muestral Ω, entonces:

P( B)  P( B  A)  P( B  A' )

22

ii. Para varios eventos: Supongamos que A1, A2, …, Ak, constituye una partición del espacio muestral Ω, es decir que

Ai  Aj    i  j y

n

A , i

i 1

entonces: P( B)  P( B  A1 )  P( B  A2 )  ...  P( B  Ak ) , o también se puede expresar como: k

P( B)   P( A j ) P( B / A j ) j 1

Ejemplo 1: Una clase está formada por un 60% de chicas y 40% de chicos. Supongamos que el 30% de las chicas y el 20% de los chicos llevan el pelo largo. Si se escoge un alumno de la clase al azar, ¿Cuál es la probabilidad de que el alumno seleccionado lleve el pelo largo? Para resolverlo, llamemos A1 al conjunto de chicas y A2 al conjunto de chicos, con lo cual A1 , A2  es una partición de la clase. Llamemos además B al conjunto de todos los alumnos con pelo largo. Nos interesa calcular P(B), que por el teorema ley de probabilidad total resulta:

P( B)  P( A1 ) P( B / A1 )  P( A2 ) P( B / A2 )  (0.6)(0.3)  (0.4)(0.2)  0.26 , es decir, existe un 26% de probabilidad de que el alumno seleccionado al azar lleve el pelo largo.

23

Ejemplo 2 : La terminación de un trabajo de construcción se puede retrasar a causa de una huelga. Las probabilidades son 0.60 de que habrá una huelga, 0.85 de que el trabajo de construcción se termine a tiempo si no hay huelga y 0.35 de que el trabajo de construcción termine a tiempo si hay huelga. ¿Cuál es la probabilidad de que el trabajo de construcción termine a tiempo? Solución: Si B es el evento de que el trabajo de construcción se terminara a tiempo y A es el evento de que habrá una huelga, se nos dan P(A) = 0.60, P(B|A')=0.85 y P(B/A)=0.35. Nos valemos de que A∩B y A‫∩׳‬B son mutuamente excluyentes y de la forma alternativa de la regla de multiplicación, podemos escribir:

P( B)  P( A  B)  ( A'B)

 P( A  B)  P( A'B)  P( A) P( B / A)  P( A' ) P( B / A' ) Entonces al sustituir los valores numéricos dados obtenemos:

P( B)  (0.60)(0.35)  (1  0.60)(0.85)  0.55

Ejemplo 3: Los miembros de una empresa de consultoría rentan automóviles de tres agencias de renta de automóviles: 60% de la agencia 1, 30% de la agencia 2 y 10% de la agencia 3. Si 9% automóviles de la agencia 1 necesita una afinación, 20% de los autos dela agencia 2 necesita una afinación, y 6% de los autos de la agencia 3 necesitan una afinación, ¿cuál es la probabilidad de que un automóvil rentado, entregado una fiesta necesite una afinación? Solución: Si B es el evento de que un automóvil necesita una afinación y A1, A2 y B3 son los eventos de que el automóvil venga de las agencias1, 2 ó 3, tenemos

24

P( A1 )  0.60, P( A2 )  0.30, P( A3 )  0.10, P( B | A1 )  0.09, P( B | A2 )  0.20 y

P( B | A3 )  0.06 . Al sustituir esos valores en la fórmula del teorema anterior obtenemos:

P( B)  (0.60)(0.09)  (0.30)(0.20)  (0.10)(0.06)  0.12 Así 12% de los automóviles rentadas entregados a esta empresa necesitaran una afinación. Con respecto al ejemplo precedente, supongamos que nos interesa la siguiente pregunta: si un automóvil rentado entregado a la empresa de consultoría necesita una afinación, ¿Cuál es la probabilidad de que haya venido de la agencia de renta 2? Para responder a preguntas de esta clase, necesitamos el siguiente teorema, llamado el teorema de Bayes.

11. Teorema de Bayes. Sea A1 ,

A2 , .... , An  una partición del espacio muestral Ω, es decir que

  in1 Ai , además Ai  A j   ,  i  j . Entonces si B es un evento cualquiera con P( B)  0 , se verifica que:

P( Ai / B) 

P( Ai  B) P( B)

 i  1, 2, 3, .... , n

o también:

P( Ai / B) 

P( Ai ) P( B / Ai ) k

 P( A )P( B / A ) j 1

j

j

Demostramos el cálculo:

P( A) P( A) P( A  B) P( A  B) P( B / A)    P( A | B) P( B ) P( B) P( A) P( B) Conduce al resultado anterior. Las aplicaciones estándar de la fórmula del producto, la ley de probabilidad total y el teorema de Bayes corresponden a sistemas de dos etapas. La respuesta de este tipo de sistemas puede considerarse que ocurre en dos etapas. En general se conocen las probabilidades relativas a la primera etapa y las probabilidades condicionales para la segunda etapa. La fórmula del producto se utiliza para calcular probabilidades conjuntas de ambas etapas, la ley de la probabilidad total

25

para calcular probabilidades de la segunda etapa, y el Teorema de Bayes para calcular probabilidades de la primera etapa habiendo ocurrido alguno de los sucesos de la segunda etapa.

Ejemplo 1. Supongamos que un artículo es manufacturado por tres fábricas, sean 1, 2 y 3. Se sabe que la primera produce el doble de artículos que la segunda y que ésta y la tercera producen igual número de artículos (durante un período de producción dado). Se sabe también que la primera y la segunda producen 2% de defectuosos, y la tercera produce 4% de defectuosos. Se colocan juntos todos los artículos producidos en una fila y se escoge uno al azar, el cual resulta ser defectuoso. ¿Cuál será la probabilidad de que lo haya producido la primera fábrica?. Este es un caso típico de aplicación del teorema de Bayes. Usando la notación anterior necesitamos calcular P(A1/B), lo cual lo podemos obtener usando el teorema de Bayes:

P( A1 / B) 

P( A1 ) P( B / A1 ) k 3

 P( A )P( B / A ) j 1

j

j

El teorema de Bayes también es conocido como la fórmula para la probabilidad de las “causas”. Puesto que las Ai son una partición del espacio muestral, uno y solo uno de los eventos Ai ocurre (esto es, uno de los sucesos Ai debe ocurrir y solamente uno). Por lo tanto la fórmula anterior nos da la probabilidad de una Ai particular (esto es una “causa”), dado que el suceso B ha ocurrido. Para aplicar este teorema debemos conocer las P(Ai) y las P(B/Ai). Para nuestro ejemplo, los cálculos son presentados en el siguiente cuadro:

26

P( A1 / B) 

0.02  0.5  0.40 0.02  0.5  0.02  0.25  0.04  0.25

27

Ejercicios 3:

1. En un grupo de 200 estudiantes universitarios, 138 están matriculados en un curso de Psicología, 115 están inscritos en un curso de sociología y 91 están inscritos en ambos cursos. ¿Cuántos de estos estudiantes no están inscritos en ninguno de los cursos?. 2. Explique por qué hay un error en cada una de las siguientes declaraciones: a)

La probabilidad de que Jean apruebe el examen de la barra de abogados es 0.66 y la probabilidad de que no lo pase es ‫־‬0.34.

b)

La probabilidad de que el equipo de casa gane un juego de futbol venidero es 0.77, la probabilidad de que se empate el juego es 0.08 y la probabilidad de que gane o empate el juego es 0.95.

c)

Las probabilidades de que una secretaria cometa 0, 1, 2, 3, 4, 5 o más errores al mecanografiar un informe son, respectivamente, 0.12, 0.25, 0.36, 0.14, 0.09 y 0.07.

d)

Las probabilidades de que un banco reciba 0, 1, 2, 3 o más cheques malos en un día dado son, respectivamente, 0.08, 0.21, 0.29 y 0.40.

3. Suponga que piensa que la probabilidad de obtener un A (es decir: 19 o 20 puntos), en Estadística es 0.6, y que la probabilidad de obtener un A en comportamiento organizacional es de 0.8. Si estos eventos son independientes, cuál es la probabilidad de obtener un A en Estadística y en Comportamiento Organizacional? 4. En los últimos años compañías de tarjetas de crédito han hecho un gran esfuerzo por lograr nuevas cuentas entre estudiantes universitarios. Suponga que una muestra de 200 estudiantes en una universidad indicó la siguiente información de si el estudiante poseía una tarjeta de crédito bancaria y/o una tarjeta de crédito para viaje y entretenimiento Tarjeta de Tarjeta de Crédito para viajes y Total crédito bancario entretenimiento Si No 60 60 120 Si 15 65 80 No 75 125 200 Total Suponga que se sabe que el estudiante tiene una tarjeta de crédito bancaria, ¿Cuál es la probabilidad de que ella o él, tengan una tarjeta de crédito para viaje y entretenimiento.?

5. hay noventa aspirantes para un trabajo en el departamento de noticias de una estación de televisión. Algunos son egresados de la universidad y algunos no, algunos de ellos tienen al menos tres años de experiencia y algunos no la tienen, el análisis exacto es:

28

Formación

Egresados de la Universidad

No Egresados de la universidad

Al menos tres años de experiencia

18

9

Menos de tres años de experiencia

36

27

Experiencia

Si el orden en que el gerente de la estación entrevista a los aspirantes es aleatorio, G es el evento que el primer aspirante entrevistado sea un egresado de la universidad, y T es el evento de que el primer aspirante entrevistado tenga al menos tres años de experiencia, determine cada una de las siguientes probabilidades directamente de los asientos y de los reglones y columnas de la tabla: a) P(G  T ); b) P(G  T ); c) P(G T ); d) P(G T´).

6. La probabilidad de sobrevivir a una cierta operación de trasplante es 0.55. si un paciente sobrevive la operación, la probabilidad de que su cuerpo rechace el trasplante en menos de un mes es 0.20. ¿Cuál es la probabilidad de que sobreviva a estas etapas críticas? 7. Los registros médicos muestran que una entre diez personas en una cierta ciudad tiene deficiencia tiroidea. Si se escogen aleatoriamente 12 personas en esta ciudad y se les hace un análisis, ¿Cuál es la probabilidad de que al menos una de ellas tenga una deficiencia tiroidea? 8. Si 5 de los diez camiones repartidores de una compañía no satisfacen los estándares de emisión y tres de ellos se seleccionan para una inspección, ¿cuál es la probabilidad de que ninguno de los camiones seleccionados satisfará los estándares de emisión? 9.

Una tienda departamental que factura a sus clientes una vez al mes ha encontrado que si un cliente paga oportunamente en un mes, la probabilidad es 0.90 de que él o ella pague también oportunamente el siguiente mes-, sin embargo, si un cliente no paga oportunamente en un mes, la probabilidad de que él o ella pague oportunamente el mes siguiente es solamente 0.40. a) ¿Cuál es la oportunidad de que un cliente que paga oportunamente en un mes también pagara oportunamente los tres meses siguientes? b) ¿Cuál es la probabilidad de que un cliente que no paga oportunamente en un mes tampoco pagara oportunamente los siguientes dos meses y después haga un pago oportuno al mes siguiente de ello?

10. Por experiencia se sabe que en la asignatura de Estadística Descriptiva de una Universidad, el 40% de todos los estudiantes están matriculados con el

29

Profesor Saavedra, 25% con el profesor Hurtado y 35% con la profesora Oliva. También se sabe que el 75% de los estudiantes del profesor Saavedra aprueban la asignatura, 70% de los estudiantes del Profesor Hurtado aprueban la asignatura y 80% de los estudiantes de la Profesora Oliva también aprueban la asignatura. ¿Cuál es la probabilidad de que un estudiante de dicha asignatura apruebe?

11. Por experiencia se sabe que en una cierta industria 60% de todos los litigios entre los trabajadores y la administración son por salarios, 15% por las condiciones de trabajo y 25% son sobre aspectos de prestaciones. También 45% de los litigios por salarios se resuelven sin huelgas, 70% de los litigios por condiciones de trabajo se resuelven sin huelgas y 40% de los litigios acerca de prestaciones se resuelven sin huelgas. ¿cuál es la probabilidad de que un litigio entre trabajadores y la administración se resuelva sin una huelga? 12. En una cierta comunidad, 8% de todos los adultos mayores de 50 años tienen diabetes. Si un servicio de salud en esta ciudad diagnostica correctamente a 95% de las personas con diabetes como enfermas de diabetes e incorrectamente diagnostica a 2% de todas las personas sin diabetes como enfermas de diabetes, encuentre la probabilidad de que a) El servicio de salud comunitario diagnosticara a un adulto mayor de 50 años como enfermo de diabetes b) Una persona mayor de 50 diagnosticada con diabetes por el servicio de salud realmente tenga la enfermedad.

30

1. Variables Aleatorias. a.

Definición: Sea

 un experimento aleatorio y

 el espacio muestral asociado

con el experimento. Una función X que asigna a cada uno de los elementos

s   , un número real X (s ) se llama Variable aleatoria.

Ejemplo. Sea el experimento aleatorio superficie

regular,

entonces

 el

= Lanzar tres monedas legales sobre una espacio

muestral

debe

ser

  ccc, ccs, csc,scc, css, scs, ssc, sss, considere también que la variable aleatoria X =

Número de caras al lanzar tres monedas legales sobre una superficie regular, entonces el Rango o conjunto de valores que podría tomar esta variable será: RX  0,1,2,3

La función de Probabilidad, que para el caso de variables discretas, toman el nombre de función de cuantía, puede ser por extensión o por compresión a través de una función, así

31

Por extensión:

Por Compresión: 3 𝑃(𝑥) = ( ) × (0.5)3 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑥 = {0, 1, 2, 3} 𝑥

b.

Función de Probabilidades Llamaremos a p(x) función de probabilidades o función de cuantía por tratarse de una variable discreta, siempre que cumpla con las dos condiciones siguientes: i)

p( xi )  0

ii)



, i  1,2,3,4,....

p ( xi )  1

Como ejemplo consideremos el experimento aleatorio de lanzar cuatro monedas legales sobre una superficie regular, y definamos la variable X = Número de caras al lanzar cuatro monedas legales sobre una superficie regular, por lo tanto X debe tomar los valores 0, 1, 2, 3, 4. Para determinar la función de cuantía

f (x) debemos

observar que el número de formas en que pueden caer las cuatro monedas es

#   número de posibilidades

número de repeticiones

 24  16

Donde: Número de posibilidades = Número de caras de una moneda = 2 Número de repeticiones = Número de monedas lanzadas o en forma equivalente número de veces que se lanza una misma moneda.

4

El número de formas en que pueden aparecer x caras es   ; por lo tanto: x

 

32

 4   x p( x)   4 2

;

x  0,1,2,3,4

Se puede verificar que:

i)

4   x p( x)   4  0 2 4

ii)

 x 0

4

p( x)   x 0

 4    x  1 24

 4   x Por lo que concluimos que p( x)   4 es una función de cuantía. 2

A menudo, la distribución de probabilidades de X se suele representar por el rango y su función de cuantía, es decir que, la distribución de la variable X de nuestro ejemplo se puede representar así:

Podemos calcular los valores de la función de cuantía para cada uno de los valores de X:

Para x  0 :

 4    4   4 4! 0  1 entonces p(0)   4  1  0.0625       2 16  x   0  0!4!

33

Para x  1 :

Para x  2 :

Para x  3 :

Para x  4 :

 4    4   4 4! 1  4 entonces p(0)   4  4  0.25       2 16  x  1  1!3!

 4    4  4 4! 2  6 entonces p(2)   4  6  0.375       2 16  2   2  2!2!

 4    4   4 4! 3  4 entonces p(3)   4  4  0.25       2 16  x   3  3!1!

 4    4   4 4! 4  1 entonces p(4)   4  1  0.0625       2 16  x   4  4!0!

Si lo escribimos en una tabla, debemos tener: Número de caras X

Probabilidad P(X)

0 1 2 3 4

0.0625 0.2500 0.3750 0.2500 0.0625

Total

1

Y al graficarlo tenemos:

34

Conviene resaltar que

p(x) da las frecuencias relativas con que se presenta cada

uno de los valores de x . Así, si suponemos que las cuatro monedas se lanzan un gran número de veces, debemos esperar que no aparezcan caras ( x  0 ) en 1 16 aproximadamente de las tiradas; esperamos que aparezca una cara ( x  1 ) en la cuarta parte aproximadamente de las tiradas, y así sucesivamente. Decimos aproximadamente porque ya estamos familiarizados con las fluctuaciones que acompañan los sucesos aleatorios. Los resultados de un experimento real de lanzamientos de 4 monedas pueden verse en la siguiente tabla. Se lanzaron 4 monedas 160 veces, contando el número de caras aparecidas en cada prueba. Resultado del lanzamiento de 4 monedas 160 veces Número de Probabilidad Ocurrencias Ocurrencias caras X P(X) efectivas esperadas 0 0.0625 6 10 1 0.2500 41 40 2 0.3750 56 60 3 0.2500 45 40 4 0.0625 12 10 Total 1 160 160 Conocida la función de cuantía de una variable aleatoria x , podemos dar respuesta a cualquier cuestión probabilística relativa a x . Así por ejemplo, para la variable X = Número de caras al lanzar de las 4 monedas, la probabilidad de obtener 2 caras es:

35

 4   2 6 P( x  2)  p(2)   4   0.375 2 16 La probabilidad de que el número de caras sea inferior a 3 es

 4  4  4       0 1 2 1 4 6 11 p( x)  p(0)  p(1)  p(2)   4   4   4      0.6875 2 2 2 16 16 16 16

2

P( x  3)   x 0

La probabilidad de que el número de caras esté entre 1 y 3, ambos inclusive es,

3

P(1  x  3)   x 1

 4  4  4       1 2 3 4 6 4 14 p( x)  p(1)  p(2)  p(3)   4   4   4      0.875 2 2 2 16 16 16 16

Supongamos que deseamos calcular la probabilidad condicional de que un número de caras sea menor que tres cuando se sabe que dicho número es menor que cuatro. Sea A el suceso “aparecen menos de tres caras”, es decir,

A  x : x  0,1,2 Sea B el suceso “aparecen menos de cuatro caras”; esto es,

B  x : x  0,1,2,3 Deseamos calcula P(A/B). Por definición de probabilidad condicional,

P( A / B)  Ahora bien:

P( A  B) P( B)

A  B  x : x  0,1,2

Luego

4

2

2

P( A  B)   p ( x)  x 0

  x 

   11 24 16

x 0

También

36

4

3

3

P( B)   p( x)  x 0

  x 

   15 24 16

x 0

De donde:

P( A / B)  P( x  3 / x  4) 

11 / 16 11  15 / 16 15

La interpretación frecuencial es la siguiente: Supongamos que cuatro monedas ideales se lanzan un gran número de veces y se registra el número de caras de cada tirada solamente en los casos en que aparecen menos de cuatro caras. La fracción de estos casos (donde aparecen menos de cuatro caras) en que aparecen menos de tres caras será aproximadamente 11/15. c.

Valor esperado: 𝑬(𝑿) = 𝝁 El valor esperado de una variable aleatoria se define como un número real al cual tienden los valores de la variable en el largo plazo; también se suele entender como el centro de masa de su distribución de probabilidades y matemáticamente el valor esperado se define como la suma de los productos de cada uno de los valores de la variable por sus correspondientes probabilidades, así: 𝐸(𝑋) = 𝜇 = ∑𝑚 𝑖=1 𝑥𝑖 . 𝑝(𝑥𝑖 ), Donde m = número de valores diferentes de la variable

d.

Varianza: 𝑽(𝒙) = 𝝈𝟐 Es un índice de variabilidad de la variable respecto a su valor esperado, expresado en unidades cuadráticas. Matemáticamente la varianza viene a ser el valor esperado de las desviaciones cuadráticas de la variable, respecto a su valor esperado. 𝑚 2

2

𝑉(𝑥) = 𝜎 = 𝐸(𝑥 − 𝜇) = ∑(𝑥𝑖 − 𝜇)2 . 𝑝(𝑥) 𝑖=1

Para el ejemplo de la variable X = N° de caras al lanzar tres monedas legales, el valor esperado y la varianza será:

37

2. La distribución Binomial: Sea  un experimento aleatorio de Bernoulli, es decir que tiene las siguientes características: i. Solo admite dos resultados posibles, el suceso E = Éxito y el suceso F = Fracaso ii. Ambos resultados o sucesos son independientes iii. La probabilidad de obtener un éxito P(E) = p se mantiene constante en cualquier ejecución del experimento aleatorio, donde 0≤ p ≤ 1 Definimos la variable de Bernoulli x como

xi

1

: Éxito (E)

0

: Fracaso (F)



Y su función de cuantía será: p si

xi

 1

para todo

0≤ p ≤ 1

q si

xi

 0

para todo

q=1–p

P( xi )  y

Con lo cual es fácil notar que el valor esperado de esta variable es

p+q=1

E ( xi )  p

varianza V ( xi )  pq Si el experimento  se puede repetir n–veces, (n ≥ 2) y definimos la variable aleatoria: n

X

 x1  x2  ...  xn   xi , i 1

Es decir que:

38

y su

X = Número de éxitos en las n-repeticiones del experimento de Bernoulli 

.

Esta variable así definida es discreta y se llama variable aleatoria Binomial, la cual sigue la ley de probabilidades Binomial, caracterizada por: Rango de la variable X:

RX  0, 1, 2, 3, .... , n

X ~

Para todo:

Función de cuantía:

n P( X  x)  p ( x)    p x q n x  x

y

0  p 1

q  1 p

Esta distribución se suele denotar como: X ~ B(n, p) donde n y p son conocidos como los parámetros de la distribución binomial y vienen a ser, n = número de veces que repite el experimento de Bernoulli  y p es la probabilidad de éxito en cada repetición dicho experimento, la cual es constante. Valor esperado: 𝐸(𝑋) = 𝑛𝑝 La varianza:

𝑉(𝑋) = 𝑛𝑝𝑞,

𝑑𝑜𝑛𝑑𝑒 𝑞 = 1 − 𝑝

La forma de la función de cuantía depende del valor de p. Así por ejemplo para una Binomial con n=10 y tres valores de p=0.2, 0.5 y 0.8, tenemos que la función de cuantía es P(X = x) X 0 1 2 3 4 5 6 7 8 9 10

B(10, 0.20) 0.107374182 0.268435456 0.301989888 0.201326592 0.088080384 0.026424115 0.005505024 0.000786432 7.3728E-05 4.096E-06 1.024E-07

Σ

1

P(X = x)

P(X = x)

B(10, 0.50) 0.000976563 0.009765625 0.043945313 0.1171875 0.205078125 0.24609375 0.205078125 0.1171875 0.043945313 0.009765625 0.000976563

B(10, 0.80) 1.024E-07 0.000004096 7.3728E-05 0.000786432 0.005505024 0.026424115 0.088080384 0.201326592 0.301989888 0.268435456 0.107374182

1

1

Cuyas gráficas son:

39

Ejemplo. Sea el experimento aleatorio  = Lanzar una moneda legal tres veces sobre una superficie regular, y deseamos estudiar la variable aleatoria X = Número de caras en dicho experimento.

El experimento de Bernoulli básico es  = Lanzar una moneda legal, en donde los posibles resultados son Ω = {C , S}, donde C = cara y S = Sello. En este espacio muestral, definimos la variable aleatoria de Bernoulli 1

: Cara (Éxito)

0

: Sello (Fracaso)

xi  Con P(C) = P(X=1) = 0.5 = p y Como el experimento aleatorio 

P(S) = P(X=0) = 0.5 = 1 - p

se repite n = 3 veces, entonces el espacio muestral

completo de los 3 lanzamientos de la moneda debe ser:

  ccc, ccs, csc,scc, css, scs, ssc, sss  c, s

3

,

Entonces la variable aleatoria X = Número de caras al lanzar tres monedas legales sobre una superficie regular se puede expresar como:

40

3

X

 x1  x2  x3   xi i 1

esta variable será:

donde, cada xi

puede ser 0 ó 1, por lo que el rango de

RX  0, 1, 2, 3

La función de cuantía es: Rango de la variable X: X

RX  0, 1, 2, 3

~

3   x

x 3 x Función de cuantía: P( X  x)  p ( x)   0.5  (1  0.5)

Esta función de cuantía genera las siguientes probabilidades:

Ejemplo 2:Una Agencia de Turismo, informa que un puente elevadizo en particular en su ruta, queda levantado bloqueando el tránsito de autos el 20% del tiempo. Ud.

41

Ha de pasar un auto por dicha ruta una vez al día en los próximos 7 días, y desea predecir el número de los mismos en que el puente estará en la posición elevada, cuando Ud. se acerque. a. Esta situación se adapta al modelo Binomial de probabilidades?. Explique por qué. b. Calcule la probabilidad de que el puente se halle levantado cada vez que Ud. se acerque. c.

Cuál es la probabilidad de que esté en posición elevada exactamente en tres de sus siete viajes?

d. Calcule la probabilidad de que esté elevado exactamente una vez. e. Calcule la probabilidad para todos los valores de la variable y grafíquelo.

f.

Determine el valor esperado y desviación estándar del número de días en que encuentra el puente elevado.

SOLUCIÓN a). El experimento de Bernoulli básico es  = Transitar en auto una vez al día en la ruta en la cual existe un puente elevadizo, en donde los posibles resultados son Ω = {Elevado, Posición normal}. En este espacio muestral, definimos la variable aleatoria de Bernoulli.

xi 

1

: Puente elevado (Éxito=E)

0

: Puente no elevado (Fracaso=F)

Con P(E) = P(X=1) = 0.2 = p y Como el experimento aleatorio 

  E, F 

7

ser

P(F) = P(X=0) = 0.8 = 1 – p = q

se repite siete veces, el espacio muestral debe

,

Entonces la variable aleatoria X = Número de días a la semana que encuentra el auto encuentra el puente elevado se puede expresar como: 7

x1  . . .  x7   xi

donde cada xi

rango de esta variable será:

RX  0, 1, . . . , 7



X

i 1

puede ser 0 ó 1, por lo que el

Esta variable seguirá una distribución Binomial B(7, 0.2), con función de cuantía: Rango de la variable X: X

RX  0, 1, . . . , 7

~

7  x

x 7 x Función de cuantía: P( X  x)  p( x)     0.2  0.8

42

7

b) P( X  7)  p (7)     0.2  0.8 7 7

7

7 7

c) P ( X  3)  p (3)     0.2  0.8 3

7 1 

3

d) P( X  1)  p (1)     0.2  0.8

e)

1

71

 0.000013

7 3

 0.114688

 0.367002

Esta función de cuantía genera las siguientes probabilidades:

f) E(x) = n.p = 7 x 0.2 = 1.4 veces

DE( x)  npq  7  0.2  0.8  1.12  1.0583 La Distribución Binomial también aparece cuando de un lote o población finita de N elementos, de los cuales A de estos elementos poseen una cualidad específica en estudio y el resto (N–A) no lo poseen, se seleccionan n elementos usando un muestreo con reemplazo, tal que n < A. En este contexto se define la variable

43

aleatoria X = Número de elementos en la muestra que poseen la cualidad específica en estudio. Esta variable sigue una Distribución Binomial con parámetros n y p, donde n es el tamaño de muestra y p es la probabilidad de obtener un elemento que tenga la cualidad en estudio en cualquier extracción de los elementos de la muestra, usando un muestreo con reemplazo (p = A/N).

Nota: Si el muestreo fuera sin reemplazo pero se tiene la fracción de muestreo

f 

n  0 (en la práctica se considera que la fracción de muestreo tiende a N

cero cuando

f 

n  0.05 ) entonces se puede considerar que variable N

aleatoria X = Número de elementos en la muestra que poseen la cualidad específica en estudio, se distribuye aproximadamente como una Binomial con parámetros n y p, donde se asume que p permanece aproximadamente constante debido a que la fracción de muestreo es menor al 5% (f < 0.05). Ejemplo 3: Un auditor de registros contables sabe por larga experiencia que el 10% de los registros contables tendrán algún tipo de defecto que requerirá un ligero reajuste. Suponga que el total de registros que el auditor debe examinar son N= 500, pero por diversas razones decide examinar una muestra de n = 20 registros contables: a) ¿Cuál es el número esperado de registros defectuosos en la muestra? b) ¿Cuál es la probabilidad de que: i. Ninguno necesite arreglo? ii. Por lo menos 1 requerirá arreglo?

44

iii. Más de 2 requerirá arreglo? iv. Elabore una gráfica de la función de cuantía.

SOLUCIÓN Población N = 500 Muestra sin reemplazo n = 20 Fracción de muestreo f = n/N = 20/500 = 0.04 < 0.05 Probabilidad de obtener un registro defectuoso p = 0.10 (Asumimos constante debido a que la fracción de muestreo f < 0.05).

Variable aleatoria: X = Número de marcos defectuosos en la muestra La distribución de la variable X es una B(20, 0.10), Rango Rx = {0, 1, 2, 3, 4, 5, 6, …., 20} X

~

 20  x 20 x P( X )  p( x)   0.1 .0.9 x  a) Número esperado de defectuosos en la muestra: E(x) = n.p = 20 x 0.1 = 2

b) i.

ii.

iii.

 20  0 200 P( X  0)  p(0)   0.1 .0.9  0.920  0.12157665 0 

P( X  1)  1  P( X  0)  1  0.12157665  0.87842335

P( X  3)  1  P( X  2)  1  0.67692681  0.32307317

P( X  3)  1  P( X  0)  P( X  1)  P( X  2)



P( X  3)  1  0.121576655  0.270170344  0.285179807  P( X  3)  1  0.676926805   0.323073195

Distribución B(20, 0.1)

45

46

3. Distribución Geométrica a.

Definición. Se denomina experimento geométrico a las repeticiones independientes de un experimento de Bernoulli hasta obtener el primer éxito, En cada ensayo de Bernoulli puede ocurrir un éxito (E) con probabilidad p o un fracaso (F) con probabilidad q=1-p, siendo 0 𝑘 + 𝑠 /𝑋 > 𝑘] = 𝑃[𝑋 > 𝑠], 𝑘, 𝑠 ∈ 𝑍 +

Ejemplo. Un vendedor a domicilio hace llamadas telefónicas a clientes potenciales. La probabilidad de vender en cada llamada es de 0.02. a. Calcule la probabilidad de que a la sexta llamada sea su primera venta. b. Calcule el valor esperado del número de llamadas hasta obtener su primera venta. c. ¿Qué probabilidad hay de que su primera venta ocurra después de más de 5 llamadas, si ya se hizo tres llamadas sin éxito? SOLUCIÓN Sea X el número de llamadas hasta conseguir una venta. Sus posibles valores son: 1, 2, 3, …, etc. El modelo de probabilidad de X es Geométrica de parámetro p=0.02, esto es: 𝑃(𝑋 = 𝑘) = (0.02)[0.98]𝑘−1 , 𝑘 = 1,2,3, … a. Luego la probabilidad de que la sexta llamada sea su primera venta es: 𝑃[𝑋 = 6] = (0.02)(0.98)5 = 0.018 b. El valor esperado del número de llamadas necesario para concretar la primera venta es. 1 𝐸(𝑋) = = 50 0.02 c. El evento “Sabiendo que ya hizo tres llamadas sin éxito y se quiere conocer la probabilidad hacer más de cinco llamadas hasta que obtenga un éxito”, entonces:

48

𝑃[𝑋 > 3 ∧ 𝑋 > 5] 𝑃(𝑋 > 5) 1 − 𝑃(𝑋 ≤ 5) = = 𝑃[𝑋 > 3] 𝑃[𝑋 > 3] 1 − 𝑃(𝑋 ≤ 3) 1 − 0.09608 0.90392 = = = 0.9604 1 − 0.05881 0.94119

𝑃(𝑋 > 5⁄𝑋 > 3) =

Forma abreviada de cálculo: 𝑃(𝑋 > 5⁄𝑋 > 3) =

𝑃(𝑋 ≥ 6) 𝑝𝑞 6−1 + 𝑝𝑞 7−1 + 𝑝𝑞 8−1 + 𝑝𝑞 9−1 + ⋯ = 𝑃(𝑋 ≥ 4) 𝑝𝑞 4−1 + 𝑝𝑞 5−1 + 𝑝𝑞 6−1 + ⋯

𝑃(𝑋 > 5⁄𝑋 > 3) =

𝑃(𝑋 ≥ 6) 𝑝[𝑞 5 + 𝑞 6 + 𝑞 7 + 𝑞 8 + ⋯ ] = = 𝑃(𝑋 ≥ 4) 𝑝[𝑞 3 + 𝑞 4 + 𝑞 5 + ⋯ ]

𝑞5 + 𝑞6 + 𝑞7 + 𝑞8 + ⋯ 𝑞 2 (𝑞3 + 𝑞 4 + 𝑞 5 + ⋯ . ) = 𝑞3 + 𝑞4 + 𝑞5 + ⋯ 𝑞3 + 𝑞4 + 𝑞5 + ⋯ . = 𝑞 2 = 0.982 = 0.9604

𝑃(𝑋 > 5⁄𝑋 > 3) =

4.

La distribución Hipergeométrica: Sea N una población finita formada por un número pequeño de individuos, objetos o medidas, de los cuales una parte A de estos elementos tienen una cualidad que estamos interesados en estudiar. Considere que de esta población se selecciona una muestra aleatoria sin reemplazamiento tamaño n.

49

Variable aleatoria: X = Número de elementos en la muestra La distribución de la variable X es una B(20, 0.10),

Valor Esperado:

Varianza:

E( X ) 

nA N

A  N  n  nA  V (X )    1    N  1  N  N 

Desviación estándar: DE X   V  X  Ejemplo1. Para evitar que lo descubran en la aduana, un viajero ha colocado 6 tabletas de narcótico en una botella que contiene 9 píldoras de vitamina que son similares en apariencia. Si el oficial de la aduana selecciona tres tabletas aleatoriamente para analizarlas, ¿Cuál es la probabilidad de que el viajero sea arrestado por posición de narcóticos?. Cuál será el número esperado y desviación estándar del número de tabletas de narcóticos en la muestra?. Calcule la probabilidad para todos los valores de la variable número de tableas de narcótico en la muestra y grafíquela. SOLUCIÓN

50

N=9 A=6 n=3 X = Número de tabletas que contiene narcóticos

El rango de X será: Máx {X} = Mín {n, A } = Mín {3, 6} = 3 Mín {X} = Máx { 0, (n-(N-A)) } = Máx { 0, (3-(9-6) } = Máx {0, 0 } = 0 La distribución de X es: RX: {0, 1, 2, 3} X

~  6  3     x  3  x   P( X  x )  p( x )  9   3

Se pregunta por: P(viajero arrestado) = P(X ≥ 1) = ? P(X ≥ 1) = 1 - P(X = 0)

 6  9  6     0  3  0   P( X  1)  1   1  0.011905  9    3

E( X ) 

 0.988095

nA 3  6 18   2 N 9 9

 9  3  3  6  6  DE  X   V  X     1    0.5  0.7071  9  1  9  9 

51

Ejemplo1.a. Repita el ejemplo anterior, pero esta suponga que el oficial de la Aduana selecciona una muestra de cinco tabletas. SOLUCIÓN N = 9,

A = 6,

n=5 y

X = Número de tabletas que contiene narcóticos

El rango de X será: Máx {X} = Mín {n, A } = Mín {5, 6} = 5 Mín {X} = Máx { 0, (n-(N-A)) } = Máx { 0, (5-(9-6) } = Máx {0, 2 } = 2 La distribución de X es: RX: {2, 3, 4, 5} X

~  6  3     x  5  x   P( X  x )  p( x )   9   5

Se pregunta por: P(viajero arrestado) = P(X ≥ 1) = ?

P(X ≥ 1) = P(Rx) = P(2) + P(3) + P(4) + P(5)

 6  9  6     2  5  2   P ( X  2)   0.11905  9   5  6  9  6     3  5  3   P( X  3)   0.47619  9   5

52

 6  9  6     4 5  4   0.35714 P( X  4)     9   5  6  9  6     5  5  5   P( X  5)   0.04762  9   5 X = N° de Tabletas de narcóticos en la muestra

X 2 3 4 5 Suma

E( X ) 

P(x) 0.11905 0.47619 0.35714 0.04762 1.00000

P(X ≤ x ) 0.11905 0.59524 0.95238 1.00000

X. P(x) 0.23810 1.42857 1.42857 0.23810 3.33333 E(X) = µ

(X - µ) -1.3333 -0.3333 0.6667 1.6667

(X - µ)^2.P(x) 0.21164 0.05291 0.15873 0.13228 0.55556 V(X) = σ²

nA 5  6 30    3.3333 N 9 9

 9  5  5  6  6  DE  X   V  X     1    0.55556  0.74536  9  1  9  9  Ejemplo 2. Considere que una caja que contiene 15 artículos, 10 de los cuales son aceptables. Se selecciona una muestra de 4. a) ¿Cuál es la probabilidad de que exactamente 3 sean aceptables? b) ¿Cuál es la probabilidad de que los 4 sean aceptables? c) ¿Cuál es la probabilidad de al menos uno sea aceptable? SOLUCIÓN

53

N = 15,

A = 10,

n=4

X = Número de artículos aceptables en la muestra

La distribución de X es:

a) Se pregunta por: P(X = 3) = ? 10 15  10     3  4  3   P( X  3)   0.4396 15    4 

b) Se pregunta por: P(X = 4) = ? 10 15  10     4  4  4   P( X  4)   0.1538 15    4 

c) Se pregunta por: P(X ≥ 1) = ? P(X ≥ 1) = 1- P(X = 0)

10 15  10     0  4  0   P( X  1)  1  P( X  0)  1   1  0.0037  0.9963 15    4  Ejemplo 3. En un anaquel de un supermercado hay 15 productos. Suponga que 6 de los 15 productos tienen fecha de vencimiento pasada. Si seleccionamos cinco productos al azar para examinar su fecha de vencimiento. ¿Cuál es la probabilidad de que dos de los productos examinados tengan fecha de vencimiento pasada?.

54

SOLUCIÓN N = 15 A=6 n=5 X = Número de productos con fecha de vencimiento pasada. La distribución de X es:

Se pregunta por P(X = 2 ) = ?

 6 15  6   6  9        2  5  2   2  3   P( X  2)  p(2)    0.41958 15  15      5  5 

Ejemplo 4. En un anaquel de un supermercado hay 15 productos. Suponga que 10 de los 15 productos tienen fecha de vencimiento pasada. Si seleccionamos 8 productos al azar para examinar su fecha de vencimiento. Identifique la distribución de probabilidades y calcule la probabilidad de que 4 de los productos examinados tengan fecha de vencimiento pasada, además obtenga las probabilidades para cada uno de los valores de la variable y grafíquelo. SOLUCIÓN N = 15 A = 10 n=8 X = Número de productos con fecha de vencimiento pasada. La distribución de X es una hipergeométrica con parámetros N=15, A=10 y n=8, con rango dado por: Xmin = Máx{0, n-(N-A)} = Máx {0, 8-(15-10)} =Máx{0,3} = 3 XMáx = Mín {n, A} = Mín {8, 10} = 8

55

La Distribución de Probabilidades quedará del siguiente modo

Se pregunta por P(X = 4 ) = ?

10 15  10     4  8  4   P ( X  4)  p ( 4)   15    8 

10  5      4  4   0.1632 15    8 

Encontramos las probabilidades para cada uno de los valores de la variable, y lo graficamos

5.

Distribución de Poisson: Sea una variable aleatoria X = Número de ocurrencias por unidad de medición (minuto, hora, centímetro, metro cuadrado, etc,) de la cual se conoce la tasa media de ocurrencias por unidad denotada por λ, la cual se mantiene constante durante el período de estudio. Esta variable sigue una distribución de Poisson, la cual debe su nombre a su creador, el Matemático Francés Simenon Poisson (1781–1840). La distribución de Poisson tiene como parámetro a la tasa media de ocurrencias λ, y mide la probabilidad de un evento aleatorio sobre algún intervalo de tiempo o espacio.  

La distribución de Poisson tiene los siguientes supuestos para su aplicación: La probabilidad de ocurrencia del evento es constante para dos intervalos cualesquiera de tiempo o espacio.

56



La ocurrencia del evento en un intervalo es independiente de la ocurrencia de otro intervalo cualquiera. Dados estos supuestos, la distribución puede expresarse como: Rango: Rx = {0, 1, 2, 3, 4, …. } X

~

Función de cuantía P( X  x)  p( x) 

e x x!

X : Número de veces que ocurre el evento

:

Número promedio de ocurrencias por unidad de tiempo o de espacio (o tasa promedio de ocurrencias por unidad de tiempo o de espacio)

e  2.71828

Base del logaritmo natural

Valor esperado: E[x] = λ Varianza

: V[x] = λ

La forma de esta distribución va cambiando con el valor de su parámetro λ

X

P(X: λ =0.8)

P(X: λ=2.5)

P(X: λ=5)

P(X: λ=10)

0

0.44933

0.082084999

0.006737947

4.53999E-05

1

0.35946

0.205212497

0.033689735

0.000453999

2

0.14379

0.256515621

0.084224337

0.002269996

3

0.03834

0.213763017

0.140373896

0.007566655

4

0.00767

0.133601886

0.17546737

0.018916637

5

0.00123

0.066800943

0.17546737

0.037833275

6

0.00016

0.027833726

0.146222808

0.063055458

7

0.00002

0.009940617

0.104444863

0.090079226

8

0.003106443

0.065278039

0.112599032

9

0.000862901

0.036265577

0.125110036

10

0.000215725

0.018132789

0.125110036

11

4.90285E-05

0.008242177

0.113736396

12

0.00343424

0.09478033

13

0.001320862

0.072907946

14

0.000471736

0.052077104

15

0.000157245

0.03471807

16

4.91392E-05

0.021698794

17

0.012763996

18

0.007091109

19

0.003732163

20

0.001866081

21

0.00088861

22

0.000403914

23

0.000175615

24

7.31728E-05

57

La distribución de probabilidades Poisson a menudo proporciona un buen modelo de la distribución de probabilidad para el número “X” de eventos poco comunes que se presentan en el espacio, tiempo, volumen o cualquier otra dimensión, donde λ es el valor promedio de “X”. Así tenemos que, esta distribución proporciona un buen modelo de la distribución de probabilidad del número X de accidentes automovilísticos, industriales u otra clase de accidentes que ocurren en cierta unidad de tiempo. El número de llamadas telefónicas que atiende un conmutador en un intervalo, el número de partículas radioactivas que se desintegran en cierto período, el número de errores que una mecanógrafa comete en una cartilla, el número de vehículos que doblan en un sentido específico en una bifurcación de la vía rápida en un intervalo de 10 minutos, son otros ejemplos de variables aleatorias con una distribución aproximada a la de Poisson.

Ejemplo 1: Supongamos que estamos interesados en la probabilidad de que exactamente 5 clientes lleguen durante la siguiente hora (o en cualquier hora dada) laboral. La observación simple de las últimas 80 horas ha demostrado que 800 clientes han entrado al negocio. Por lo tanto λ = 10 clientes por hora.

SOLUCIÓN X = Número de clientes por hora que ingresan al negocio. E[X] = λ = 10 clientes por hora La distribución puede expresarse como: Rango: Rx = {0, 1, 2, 3, 4, 5, 6, …. } X

~ Función de cuantía P( X  x)  p( x) 

58

e1010 x x!

P( X  5)  p(5) 

e10105  0.0378 5!

Otros cálculos 5

P( X  5)   x 0

e 10105  0.067085 5!

P X  5  1  P( X  5)  1  0.067085  0.93915

59

P7  X  14  P( X  14)  P X  6  0.91654  0.13014  0.78640

Ejemplo 2. Una compañía de pavimentación local obtuvo un contrato con el municipio para hacer mantenimiento a las vías del centro de la ciudad. Las vías recientemente pavimentadas por esta compañía demostraron un promedio de dos defectos por Km., después de haber sido utilizadas durante un año. Si el municipio sigue con esta compañía de pavimentación, ¿cuál es la probabilidad de que se presenten tres defectos en cualquier kilómetro de vía después de haber tenido tráfico un año?. SOLUCIÓN X = Número de defectos por kilómetro de vía. E[X] = λ = 2 defectos por kilómetro La distribución puede expresarse como: Rango: Rx = {0, 1, 2, 3, 4, 5, 6, …. } X

~ Función de cuantía P( X  x)  p( x) 

P( X  3)  p(3) 

e2 2 x x!

e2 23  0.1804 3!

Nota: Si lo que se desea es conocer la probabilidad de que ocurran X eventos en un intervalo de tiempo “t”, múltiplo del intervalo unitario de referencia de λ, entonces la función de cuantía se modifica en su parámetro por λt, quedando de la siguiente manera. X = Número de eventos por un intervalo de tiempo “t”, La distribución puede expresarse como:

60

con

E[X] = λt

Rango: Rx = {0, 1, 2, 3, 4, 5, 6, …. } X

~ Función de cuantía P( X  x)  p( x) 

e t (t ) x x!

Ejemplo 3. Suponga que en el ejemplo anterior sobre los defectos de pavimentación, deseamos calcular la probabilidad de que se presenten cinco defectos en un intervalo de tres kilómetros de vía después de haber tenido tráfico un año. SOLUCIÓN X = Número de defectos por cada tres kilómetros de vía. E[X] = λt = 2x3 =6 defectos por cada tres kilómetros La distribución puede expresarse como:

Rango: Rx = {0, 1, 2, 3, 4, 5, 6, …. } X

~ Función de cuantía P( X  x)  p( x) 

e23  (2  3) x e6 6 x  x! x!

e 6 65 P( X  5)  p(5)   0.16062 5! Propiedades de la distribución de Poisson:

a. i.

Si X es una variable con distribución de Poisson con parámetro λ y Y es otra variable también con distribución de Poisson pero con parámetro µ, entonces la suma de estas variables generan una nueva variable Z = X + Y con la misma distribución de Poisson, pero con parámetro dado por (λ + µ).

61

b.

Sea Z una variable aleatoria con distribución de probabilidades Poisson con parámetro λ. Sea “p” una probabilidad de que la variable Z adquiera un atributo particular y “(1-p)” es la probabilidad de que no lo adquiera, entonces se generan dos variables X y Y con la misma distribución de Poisson cada una de ellas, pero con parámetros (pλ) y (1-p)λ respectivamente. Estas dos características son conocidas como la propiedad de reproducción de la distribución de Poisson.

Ejemplo: El siguiente gráfico se muestra un flujo de tráfico en una zona urbana, en donde el número de vehículos que pasan por un punto dado en un intervalo de tiempo unitario sigue una distribución de Poisson con sus correspondientes parámetros en cada una de los sectores de las vías. Estos parámetros son deducidos usando la propiedad de reproductividad de la Distribución de Poisson.

62

6.

Aproximación de la distribución de Poisson a la Binomial: Suponga que X es una variable aleatoria Binomial con parámetros n y p, es decir que

X  Bn, p . Cuando n   y

p  0 tal que el producto np se mantiene

constante, el cual lo denotamos por  , es decir que Binomial

Bn, p 

  np ; entonces la distribución

puede ser suficientemente bien aproximada por la distribución de

Poisson con parámetro

  np . en la práctica se considera que n   cuando

n  30 y que p  0 cuando p  0.05 . A continuación se muestra dos ejemplos de la aproximación Poisson a la Binomial. La única ventaja de usar la distribución de Poisson en lugar de la Binomial es por facilidad de cómputo. λ = 50*0.02= 1

X

B(50, 0.02)

P(λ=1)

0 1 2 3 4 5 6 7 8 9 10

0.364170 0.371602 0.185801 0.060670 0.014548 0.002732 0.000418 0.000054 0.000006 0.000001 0.000000

0.367879 0.367879 0.183940 0.061313 0.015328 0.003066 0.000511 0.000073 0.000009 0.000001 0.000000

λ = 200*0.03= 6 X

B(200, 0.03)

P(λ=6)

0

0.002261

0.002479

63

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

0.013987 0.043043 0.087860 0.133828 0.162250 0.163086 0.139788 0.104301 0.068817 0.040652 0.021716 0.010578 0.004731 0.001955 0.000750 0.000268 0.000090 0.000028 0.000008 0.000002

0.014873 0.044618 0.089235 0.133853 0.160623 0.160623 0.137677 0.103258 0.068838 0.041303 0.022529 0.011264 0.005199 0.002228 0.000891 0.000334 0.000118 0.000039 0.000012 0.000004

Por lo tanto es fácil deducir que para las condiciones especificadas anteriormente de una distribución Binomial, podría utilizarse la Distribución de Poisson como una distribución aproximada, con la cual se obtendrán probabilidades suficientemente próximas a su valor verdadero Binomial. Ejemplo: Un vendedor de productos electrónicos espera que el 2% de las unidades vendidas fallen durante el período de garantía. Se hace un seguimiento de 500

64

unidades independientes para determinar su desempeño durante el tiempo de garantía. a) ¿Cuál es la probabilidad de que ninguna de las unidades fallen durante el período de garantía? b) Cuál es el número esperado de unidades que fallan durante el período de garantía? c) ¿Cuál es la probabilidad de que fallen más de dos unidades durante el período de garantía?

SOLUCIÓN X = Número de unidades que fallan en periodo de garantía. n = 500 : Número de unidades en el período de garantía p = 0.02 : Probabilidad de que una unidad falle en el período de garantía La distribución verdadera de X ~ B(500, 0.02), Como n   y p  0 , Entonces se puede usar la distribución de Poisson como una distribución aproximada, así: X ~ Poisson con   np  500  0.02  10 Por lo tanto:

P( X  0) 

a)

e10  (10)0  0.000045 0!

El valor de esta probabilidad con su distribución verdadera es

 500  (0.02)0 (0.98)500  0.000041 P( X  0)   0  La ventaja de usar la distribución aproximada es solamente por facilidad de cómputo. b)

E X     np  500  0.02  10 2

c)

P( X  2)  1  P X  2  1   x 0

e10  (10) x x!

P( X  2)  1  0.000045  0.000454  0.002270  P( X  2)  1  0.002769   0.997231

65

EJERCICIOS PROPUESTOS 4

1. Una caja contiene 8 focos de luz eléctrica, tres de los cuales son defectuosos. De la caja se selecciona al azar un foco y se la prueba, repitiéndose la operación hasta que aparezca un defectuoso. Sea X la variable aleatoria que se define como el número de extracciones necesarias hasta que aparezca el primer foco defectuoso. Determine la distribución de probabilidades de X, si las extracciones son sin reposición. Respuesta a) Valores: 1, 2, 3, 4, 5, 6, Probab.: 21/56, 15/56, 10/56, 6/56, 3/56, 1/56

2. En una encuesta sobre corretaje reporta que el 30% de los inversionistas individuales ha utilizado a un corredor de descuento; esto es, uno que no cobra las comisiones completas. En una muestra seleccionada al azar de nueve inversionistas, ¿Cuál es la probabilidad de que: a. Exactamente dos de los individuos de la muestra hayan empleado a un corredor de descuento? b. Exactamente cuatro de ellos hayan utilizado a un corredor de este tipo?. c. Entre tres y cinco individuos inclusive hayan utilizado a un corredor de este tipo? d. Más de cinco individuos hayan utilizado un corredor de este tipo?

3. Un estudiante debe obtener por lo menos el 60% de respuestas correctas en un examen con 18 preguntas diseñadas cada pregunta con dos alternativas de verdadero o falso. Si el estudiante lanza una moneda para determinar la respuesta a cada pregunta, ¿Cuál es la probabilidad de que el estudiante pase? 4. El 75% de la mercadería que recibe un comerciante del fabricante A es de calidad excepcional, mientras que el 80% de la mercadería que recibe del fabricante B es de calidad excepcional. El 60% de la mercadería lo recibe de A y el resto de B. Si seleccionan 4 unidades de la mercadería, ¿Cuál es la probabilidad que se encuentren 2 unidades que sean de calidad excepcional?. Rpta. p=0.77, X~B(4,p), P[X=2]=0.188

5. Un vendedor a domicilio compra diariamente 10 unidades de un producto a $2.00 cada una. Por cada producto gana 13 $ si lo vende o pierde 1 $ además del costo si no lo vende en el día. Si la probabilidad de venta de cada unidad es de 0.2 y si las ventas son independientes. a. Hallar la distribución de probabilidades del número de unidades vendidas. b. Calcular la utilidad esperada del vendedor Rpta. a) B(10, 0.2),

b) $2

6. Una empresa de electrodomésticos ha creado una nueva lavadora que realiza una serie de funciones que no hace ninguna otra. Se está planeando una demostración, pero les preocupa algunos problemas iniciales de producción que han hecho que, en un 3% de las nuevas lavadoras aparezcan determinados problemas. Entonces, Si se seleccionan exactamente 40 lavadoras al azar ¿Qué probabilidad tendrían que por lo menos 2 no funcionen bien? 7. En un proceso de producción, la probabilidad de que se produzca cada artículo que cumpla con ciertas especificaciones es de 0.99. En determinado momento se plantea el objetivo de producir 150 artículos que cumplan con las especificaciones; pero al mismo tiempo se decide detener el proceso de producción, tan luego se produzca el primer artículo que no cumpla con las especificaciones.

66

a. ¿Cuál es la probabilidad de lograr el objetivo b. Si después de producir 100 artículos, aún no se detenido el proceso. ¿Cuál sería la probabilidad de lograr el objetivo? Rpta. X= # de artículos producidos hasta que ocurra el primer defectuoso, X~G(0.01), k = 1, 2, etc. a) P[X>150]=(0.99)150, b) P[X>150/X>100]=(0.99)50

8. Una compañía petrolera ha sido designada para perforar pozos en la amazonía peruana hasta obtener un resultado exitoso. La compañía estima en 0.7 la probabilidad de no hallar petróleo en cada pozo que perfora a. Suponga que la compañía petrolera cree que una serie de exploraciones será rentable si el número de pozos perforados hasta que ocurra el primer éxito es menor o igual que 5. Calcule la probabilidad de que la exploración no será rentable si ya fueron perforados 3 pozos y en ninguno de ellos se encontró petróleo. Rpta. X= # de perforaciones hasta obtener éxito, X~G(p), p=0.3,

a) P[X>5/X>3]=(0.7) 2,

.

9. Como subgerente de una empresa de materias primas Ud. debe contratar a 10 personas entre 30 candidatos, 22 de los cuales tienen título universitario. ¿Cuál es la probabilidad de que 5 de los que Ud. contrate tengan título universitario? 10. De los 15 altos ejecutivos de un negocio de importaciones y exportaciones, se seleccionan 12 para ser enviados a Japón a estudiar un nuevo proceso de producción. Ocho de los ejecutivos ya tienen algo de entrenamiento en el proceso. ¿Cuál es la probabilidad de que cinco de los enviados tengan algo de conocimiento sobre el proceso antes de partir para el lejano oriente? 11. Un determinado producto industrial es embarcado en lotes de 20 unidades. Se escogen 5 ítems al azar de un lote y se rechaza el lote si se encuentra 2 o más defectuosos; en caso contrario se acepta el lote. Calcular la probabilidad de aceptar un lote que tiene tres defectuosos si los ítems se escogen uno por uno: a. Con reposición b. Sin reposición Rpta: a) X~B(5, 0.15), P[X≤1] =0.8352,

b) X~H(20, 3, 5), P(X ≤ 1] = 0.8596

12. A un conmutador de la oficina principal de una empresa llegan llamadas a un promedio de dos por minuto y se sabe que tienen distribución de Poisson. Si el operador está distraído por un minuto, cuál es la probabilidad que el número de llamadas no respondidas sea: a. ¿Cero?, b. ¿por lo menos una? Y c. ¿Entre tres y cinco inclusive? 13. Un proceso de fabricación utilizado para hacer artefactos plásticos Incas presentan una tasa de defectuosos de 5 por cada 100 unidades. Las unidades se envían a los distribuidores en lotes de 200. Si la probabilidad de que más de tres salgan defectuosos supera el 0.3, Ud. planea vender en su lugar, camisetas Gratefull Dead. ¿Cuál artículo agregará Ud. al inventario? 14. Usted compra partes para bicicleta de un proveedor en Lima que tiene tres defectos por cada 100 partes. Ud. está en el mercado para comprar 150 partes pero no aceptará una probabilidad de más de 0.50 de que más de dos partes sean defectuosas. ¿Ud. le comprará a dicho proveedor?

67

7. Distribución Normal 1. Distribución normal o campana de Gauss-Laplace Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución. En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal  Caracteres morfológicos de individuos (personas, animales, plantas,...) de una

especie, p.ejm. tallas, pesos, diámetros, perímetros,... )  Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de

una misma cantidad de abono.  Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo

grupo de individuos, puntuaciones de examen.  Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un

medio,...  Errores cometidos al medir ciertas magnitudes.  Valores estadísticos muestrales, por ejemplo : la media.  Otras distribuciones como la binomial o la de Poisson son aproximaciones normales,

...

Y en general cualquier característica que se obtenga como suma de muchos factores. 2. FUNCIÓN DE DENSIDAD El modelo de la función de densidad que corresponde a la distribución normal viene dado por la fórmula de Gauss:  1 f ( x)  e  2

 x   2 2 2

Donde:

  media

  Desviacion estándar  2  Varianza

  3.14159265 ... e  2.718281828 ... x  var iable

aleatoria

La representación gráfica de esta función de densidad es:

68

 1      2 

Propiedades de la función de densidad Normal i. Rango de X: Conjunto de los números reales ii. La función de densidad tiene un máximo en iii. iv. v. vi. vii.

1   :  ,    2 

Dos puntos de inflexión: en X     y X     Es asíntota El eje horizontal X Simétrica respecto a la media  Numéricamente coinciden   Me  Mo Aproximadamente: P(    X     )  0.6827

P(  2  X    2 )  0.9545 P(  3  X    3 )  0.9973 viii. Monotonía: creciente (,  ) , decreciente ( , ) ix. Es siempre positiva f ( x)  0 La distribución normal queda definida por dos parámetros, su media y su varianza y la representamos así N(μ, σ2). Para cada valor de μ y σ2 tendremos una función de densidad distinta, por lo tanto la expresión N(μ, σ2) representa una familia de distribuciones normales.

69

3. FUNCIÓN DE DISTRIBUCIÓN La función de distribución está definida por:  1 P( X  x )  F ( x )   e    2 x

 t   2 2 2

dt

Tiene las siguientes propiedades de la función de distribución: 1. F(x) es continua 2. F(x) es monótona no decreciente. 3. F(-∞) = 0 y F(+∞) = 1

F(x) es el área sombreada de esta gráfica

4. TIPIFICACIÓN O ESTANDARIZACIÓN Si la variable X es 𝑁(𝜇, 𝜎 2 ) entonces la variable tipificada de X es 𝑍 = 𝑋−𝜇 𝜎

y sigue también una distribución normal pero con   0 y   1, es

decir N (0,1)

Por tanto su función de densidad es

f ( z) 

1 e 2



z2 2

;

70

 z 

y su función de distribución es

F ( z )  P( Z  z )  f ( z ) 

1 2



t



e



t2 2

dt

siendo la representación gráfica de esta función como se muestra en la siguiente figura

Característica de la distribución normal tipificada (reducida, estándar)   

No depende de ningún parámetro Su media es 0, su varianza es 1 y su desviación típica es 1. La curva f(z) es simétrica respecto el eje OY

71

1  0.399 2  Tiene dos puntos de inflexión en z =1 y z = -1 

Tiene un máximo en este eje e igual a:

Cálculo de probabilidades usando la Distribución Normal estándar: 1° Caso: Dado el evento, encontrar una probabilidad: Sea X una variable aleatoria con distribución normal con media 10 y varianza 4, calcule la probabilidad de los siguientes eventos: (Note que µ = 10 y σ2 = 4 y σ = 2)

a. b. c. d. e. f. g. h.

P(X2]+0.6xP[Z>0.67]=0.4x0.0228+0.6x0.2514=0.15996 b) 0.4x0.0228/0.15996

84

MUESTREO 1. MUESTREO: El Muestreo es parte de la Estadística. En su formulación más general, puede decirse que su función básica es determinar qué parte de una realidad en estudio a la que suele llamarse población debe examinarse con la finalidad de hacer inferencia sobre el todo de la población de la que procede. El muestreo es, una herramienta de la investigación científica; según Cochran W. Tiene como objetivo desarrollar métodos de selección de muestras y de estimación, que proporcionen, al menor costo posibles, estimaciones con la suficiente exactitud para nuestros propósitos.

2. VENTAJAS DEL MUESTREO.2.1.1.1.1. COSTO REDUCIDO.Si los datos se obtienen únicamente de una pequeña fracción del total, los gastos son menores que los que se realizarían si se llevara a cabo un censo completo. En poblaciones muy grandes se pueden obtener resultados lo suficientemente exactos cuando se analizan muestras que representan sólo una pequeña fracción de la población. 2.1.1.1.2. MAYOR RAPIDEZ.Los datos pueden ser recolectados y resumidos más rápidamente con una muestra que con una enumeración completa. Esta es una consideración vital cuando se necesita la información con urgencia. 2.1.1.1.3. MAS POSIBILIDADES.Para obtener la información en ciertos tipos de encuestas, se utilizan los servicios de personal altamente calificado o equipo muy especializado de disponibilidad limitada. Por lo tanto, en estos casos el censo completo es impracticable y como alternativa a la obtención de datos por muestreo, solo existe la de no obtenerlos. De ahí que las encuestas basadas en el muestreo tengan más posibilidades y flexibilidad respecto a la información que puede obtenerse. 2.1.1.1.4. MAYOR EXACTITUD.Debido a que al reducir el volumen de trabajo se puede emplear personal más capacitado y someterlo a un entrenamiento intensivo y debido también a que en estas condiciones será factible la supervisión cuidadosa del trabajo de campo y del procesamiento de los datos, una muestra puede producir resultados más exactos que la enumeración completa. 2.1.1.1.5. ÚNICO MÉTODO DE ESTUDIO.Hay situaciones en las que la observación de unidades implica la destrucción de las mismas, el muestreo en el único método lógico de obtener datos para tener información de la población.

TERMINOLOGÍA TÉCNICA:

85

2.1.1.1.6. UNIDAD DE OBSERVACIÓN.Son los elementos de la población sobre los cuales se medirán las variables de interés. Ésta es la unidad básica, a veces llamada elemento. En los estudios de poblaciones humanas la unidad de observación son los individuos. Ejemplo: En una investigación sobre el estado nutricional y el rendimiento escolar de los niños del nivel primario; la unidad de observación son los niños del nivel primario. 2.1.1.1.7. POBLACION.Es el conjunto de todas las unidades de análisis cuyas características se van a estimar. Una población debe definirse en términos de su contenido, extensión y tiempo

Ejemplo: Estudiantes del Colegio Nacional San José de Chiclayo, matriculados en el año 2013 Una población en estudio debe estar definida sin ambigüedad, de manera que no dé lugar a confusiones. 2.1.1.1.8. POBLACION OBJETIVO.La población objetivo está constituida por todos los elementos (unidades de observación), sin límite a través del tiempo y del espacio, que constituyen el objetivo final de la generalización o inferencia. POBLACION MUESTRAL.La población muestral está constituida por una parte o un subconjunto de la población objetivo. Está determinada y delimitada en el tiempo y en el espacio y de cuyos elementos en la práctica se obtiene la muestra para realizar el estudio.

2.1.1.1.9. MUESTRA.Una muestra es un conjunto de unidades, una porción del total, que nos representa la conducta del universo en su conjunto. Una muestra, en un sentido amplio, no es más que eso, una parte del todo que llamamos universo y que sirve para representarlo. Sin embargo, no todas las muestras resultan útiles para llevar a cabo un trabajo de investigación. Lo que se busca al emplear una muestra es que, observando una porción relativamente reducida de unidades, se obtengan conclusiones semejantes a las que lograríamos si estudiáramos el universo total. Cuando una muestra cumple con esta condición, es decir, cuando nos refleja en sus unidades lo que ocurre en el universo, la llamamos muestra representativa. Por lo tanto, una muestra representativa contiene las características relevantes de la población en las mismas proporciones en que están incluidas en tal población. Sus conclusiones son susceptibles de ser generalizadas al conjunto del universo, aunque para ello debamos añadir un cierto margen de error en nuestras proyecciones. Las muestras pueden ser clasificadas, en una primera división en probabilísticas y no probabilísticas.

86

En las muestras probabilísticas, la característica fundamental es que todo elemento del universo tiene una determinada probabilidad de integrar la muestra, y esa probabilidad puede ser calculada matemáticamente con precisión. En las muestras no probabilísticas ocurre lo contrario y el investigador no tiene idea del error que puede estar introduciendo en sus apreciaciones. 2.1.1.1.10.

UNIDAD DE MUESTREO.-

La unidad de muestreo y la unidad de análisis son las mismas, pero hay casos en que no lo son. Una unidad de muestreo puede contener un conjunto de unidades de observación o, incluso, un conjunto de unidades de muestreo correspondientes a una etapa posterior de selección. Ejemplo:

Podríamos querer estudiar a las personas, pero no tenemos una lista de todos los individuos que pertenecen a la población objetivo. En vez de esto, la vivienda sirven como las unidades de muestreo y las unidades de observación son los individuos que viven en una vivienda. 2.1.1.1.11. MARCO MUESTRAL.-

Un marco muestral es una lista de unidades de muestreo de tal forma que se pueda seleccionar de allí, las unidades que constituirán la muestra. El marco muestral es indispensable, al menos cuando se trata de realizar un muestreo probabilístico. Debe ser actualizado (sin omisiones ni duplicaciones.) Ejemplos de marcos muestrales: 1. La guía telefónica 2. Padrón de empresas públicas y privadas 3. Un plano de la ciudad. 4. Mapa de un país. 5. El listado de alumnos. 6. Área de un terreno de cultivo. 2.1.1.1.12.

PLAN MUESTRAL.-

Conjunto se reglas o especificaciones para seleccionar una muestra. 2.1.1.1.13. DISEÑO MUESTRAL.- El diseño muestral comprende el método de selección y estimación, el cual debe ser indicado en todo estudio muestral. Ejemplo: Los Estilos de vida de los residentes en distrito de Chiclayo Variable en estudio: Estilos de Vida. Escala de medida: Nominal Unidad de Observación: Cada uno de los residentes del distrito de Chiclayo Población Objetivo: Todos los residentes

87

Población Muestral: Todos los residentes del distrito de Chiclayo Ejemplo: Si se desea estudiar factores que influyen, para drogarse, en los Jóvenes de una determinada ciudad, no se podría tener información sobre cuántos son, dónde viven, como se llaman, por lo que sería imposible extraer una muestra de estos Jóvenes. El investigador tendría que tomar una muestra de casas para poder llegar a los Jóvenes.

3. TIPOS DE MUESTREO

4. MUESTRAS NO ALEATORIAS Si consideramos que no precisamos cifras exactas sobre la representatividad estadística de nuestros resultados, podríamos plantearnos el usar una muestra no aleatoria (o "no probabilística"), lo que significa que elegiremos a voluntad nuestra. Podemos considerar que esto puede ayudarnos a obtener los elementos que

88

necesitamos estudiar directamente y, además, actuar sin los tediosos procesos de selección aleatoria y verificación estadística. Sin embargo, hay una desventaja: corremos un gran riesgo de obtener demasiado sesgo en la muestra. No seremos capaces siquiera de advertir la presencia, y menos aún la cantidad, de sesgo si hacemos personalmente la selección de la muestra. Y la presencia de sesgo puede hacer imposible generalizar nuestros resultados. Un modo de reducir el sesgo hasta cierto punto es dejar a otra persona o grupo la selección de los elementos. Estas muestras son bastante útiles en aquellas situaciones en las cuales no es posible utilizar un muestreo probabilista, es decir cuando no es posible disponer de un marco muestral para la selección de los elementos de la muestra. Su utilización está reservada solo para aquellos investigadores que conocen la estructura de la población y tienen un criterio suficientemente bueno para conseguir representatividad; incluso si se dispone de un buen criterio para conseguir representatividad es posible obtener mayor precisión a más bajos costos que con un muestreo probabilista. Entre los tipos comunes de muestras no aleatorias se incluyen, Muestra de "casos típicos" o los "mejores" casos es algo bastante tradicional en historia del arte: estudiar solamente los "grandes maestros". La idea es que éstos representan lo más auténtico de su época. Tal selección deliberada por parte del investigador tiene no obstante riesgos serios, que se tratan en el punto Delimitar el objeto de estudio. Muestra de conveniencia. Un grupo existente, por ejemplo la gente en una reunión, podría ser designado como muestra. Este es un método fácil y barato, pero el sesgo suele ser imposible de estimar. El método es popular en las demostraciones de cursos sobre métodos, pero raramente usado en la investigación profesional. Muestra de voluntarios es creada cuando todos los miembros de la población tienen la oportunidad de participar en la muestra. Un ejemplo es la respuesta voluntaria de los clientes que llega a una empresa; igualmente, las respuestas que un investigador recibe a un anuncio en un periódico pidiendo a la gente sus opiniones. Una muestra de voluntarios suele ser una alternativa bastante sensata; no obstante, el investigador debe considerar cuidadosamente los riesgos de sesgo. Hay dos cuestiones que plantearse: ¿Es cierto que todos los miembros de la población bajo muestreo tenían las mismas oportunidades de ser incluidos en la muestra? Por definición, los voluntarios difieren de la media de la población en su mayor actividad. La cuestión crucial entonces es ¿difieren del resto de la población también en otros aspectos?. Muestra bola de nieve. Cuando se entrevista a miembros de un grupo, podemos pedir a las personas que nos indiquen otros individuos en ese grupo que estén en la

89

mejor posición para dar información sobre ese tema; podríamos también pedirles que nos indicasen personas que compartan sus puntos de vista y también otras que sean de opinión opuesta. Entonces entrevistaremos a nuevos individuos y continuaremos del mismo modo hasta que no obtengamos nuevos puntos de vista de nuevos entrevistados. Este es un buen método por ejemplo para recoger los distintos puntos de vista existentes en un grupo, pero su inconveniente es que no obtenemos una idea exacta de la distribución de las opiniones. En el momento de diseñar una muestra no aleatoria, debemos siempre tener en mente la población. ¿Es representativa la muestra? ¿Son válidos los resultados en la población? Recordemos también que no tenemos que incluir elementos que no sean miembros de la población en nuestra muestra.

Por ejemplo, podríamos decidirnos (de forma bastante sensata) por investigar las preferencias de los clientes de electrodomésticos entrevistando a vendedores. O podríamos estudiar las historias de vida de arrendatarios mediante un cuestionario a administradores de casas o caseros. La idea es factible, ya que esta gente habitualmente conoce mucho sobre el tema. Sin embargo, los "especialistas" no pueden ser tomados como muestra de "no especialistas". Son dos poblaciones diferentes. No debiéramos generalizar los resultados de "especialistas" a ninguna otra población que no sea la de "especialistas", cualquiera que sea el campo del que tratemos. En los ejemplos de arriba, podríamos tal vez continuar transformando los resultados a partir de los especialistas en hipótesis que más tarde verificaríamos con una muestra apropiada de la población "real" o de no especialistas, que serían en los ejemplos citados, respectivamente, los consumidores y los arrendatarios. En otras palabras, podríamos usar la entrevista de los especialistas sólo como un estudio preliminar. 5. Tamaño de Muestras no aleatorias No hay fórmula para determinar el tamaño de una muestra no aleatoria. Con frecuencia, especialmente en investigaciones cualitativas, podemos simplemente ampliar gradualmente nuestra muestra y analizar los resultados siempre que continúen llegando nuevos casos con información relevante o nueva; en cambio, cuando en los casos nuevos ya no se presenta información nueva, podemos concluir que nuestra muestra está saturada, y terminaremos el trabajo de muestreo. Este método es, sin embargo, muy vulnerable al muestreo sesgado, con lo que tenemos que ser muy cuidadosos y asegurarnos que no omitimos a ningún grupo de nuestra población. Antes de decidir el tamaño de una muestra no aleatoria, tal vez debamos leer cómo debe ser evaluada la representatividad de los resultados a partir de una muestra no aleatoria. De otro modo podríamos sufrir una sorpresa bastante desagradable

90

cuando estemos intentando, demasiado tarde, definir la población en que nuestros resultados puedan ser declarados válidos.

6. ERROR DE MUESTREO: Recordemos que la muestra descansa en el principio de que las partes representan al todo y, por tal, refleja las características que definen a la población de la cual fue extraída, lo cual nos indica que es representativa. Es decir, que para hacer una generalización exacta de una población, es necesario tomar una muestra representativa. Por lo tanto, la validez de la generalización depende de la validez y tamaño de la muestra. Cuando trabajamos con muestras, generalmente se presentan dos tipos de errores: Error sistemático. Llamado de distorsión o sesgo de la muestra, se presentan por causas ajenas a la muestra:  Situaciones inadecuadas: se presentan, por ejemplo, cuando el encuestador tiene

dificultades para obtener la información y la sustituye por la que más fácilmente está a su alcance, que no siempre es la más confiable.  Insuficiencia en la recolección de datos: hay distorsión por falta de respuestas,

o respuestas inadecuadas, ya sea por ignorancia o falta de datos relativos a los elementos incluidos. Distorsiones del encuestador causadas por prejuicios, interés personal o por fallas en la aplicación de instrumentos.  Errores de cobertura a causa de que no se han incluido elementos importantes y

significativos para la investigación que se realiza.  Error de muestreo o muestral. Cualquiera sea el procedimiento utilizado y la

perfección del método empleado, la muestra diferirá de la población. A esta diferencia se la denomina error de muestreo.

Cuando una muestra es aleatoria o probabilística, es posible calcular sobre ella el error muestral. Este error indica el porcentaje de incertidumbre, es decir, el riesgo que se corre de que la muestra elegida no sea representativa. Si trabajamos con un error calculado en 5%, ello significa que existe un 95% de probabilidades de que el conjunto muestral represente adecuadamente al universo del cual ha sido extraído. A medida que incrementamos el tamaño de la muestra, el error muestral tiende a reducirse, pues la muestra va acercándose más al tamaño del universo. Del mismo modo, para una muestra determinada, su error será menor cuanto más pequeño sea el universo a partir del cual se la ha seleccionado. Así, para un universo de 10.000 casos, una muestra de 200 unidades tendrá un error mayor que una de 300; una muestra de 200 casos, por otra parte, tendrá un error mayor si el universo tiene 10.000 unidades que si éste posee solamente 2.000.

91

Para fijar el tamaño de la muestra adecuado a cada investigación, es preciso primero determinar el porcentaje de error que estamos dispuestos a admitir. Una vez hecho esto, deberán realizarse las operaciones estadísticas correspondientes para poder calcular el tamaño de la muestra que nos permite situarnos dentro del margen de error aceptado. A veces, sin embargo, el tamaño de la muestra queda determinado previamente por consideraciones prácticas; en tales casos, no hay otra alternativa que aceptar el nivel de error que su magnitud acarree. Si una muestra extraída de la población, se denomina error de muestreo para esa muestra, a la diferencias que existe entre una estimación muestral y el parámetro poblacional obtenido por un censo completo. El error de muestreo es inherente al uso de métodos de muestreo, y el error estándar cuantifica su magnitud. 

Si  es el parámetro de interés y  es un estimador de  , debemos especificar 

un límite para el error de estimación; esto es, debemos especificar que  y  difieran en valor absoluto en una cantidad menor que  

Simbólicamente: Error de estimación = /    /   Debemos establecer también una probabilidad ( 1   ), que especifica la fracción de las veces en muestreo repetido en que requerimos que el error de estimación sea menor que  . Esta condición puede ser establecida como P{Error de estimación <  }= 1  

6.1.1.1.1.1.1.

MUESTREO ALEATORIO SIMPLE

Es un procedimiento de selección de una muestra por el cual todos y cada uno de los elementos de la población tienen igual probabilidad de ser incluidos en la muestra, Además, si se toma la muestra de tamaño n, cualquier muestra posible de

n

elementos tiene la misma probabilidad de ser extraída que cualquier otra

combinación de

n

elementos, ya sea que la muestra se seleccione con o sin

reposición. Una muestra aleatoria simple se extrae por selección aleatoria empleando los números aleatorios, este proceso ofrece la oportunidad de que todos los elementos que no han sido sacados previamente tengan igual probabilidad de pertenecer a la muestra.

Este tipo de muestreo es eficiente en poblaciones pequeñas y homogéneas, para la cual se dispone de listas adecuadas (marco muestral) y cuando la dispersión

92

geográfica de los elementos muestrales no constituye un problema; así es relativamente fácil y barato seleccionar las unidades muestrales. El inconveniente en poblaciones grandes es conseguir una lista completa o exacta de la población (marco muestral). Otro problema conexo es el costo de determinar el número de elementos de la muestra y recabar información a partir de cada elemento (poblaciones heterogéneas) Por ejemplo, la muestra puede contener elementos que se hallan muy dispersos por lo tanto, para efectuar entrevistas personales se requieren fuertes desembolsos por concepto de viaje.

1.1. Tamaño de muestra para estimar un Media Poblacional:

n

Z 2   2 2

d2 

Z 2   2

93

2

N

Donde:

n  Tamaño de muestra Z

 Desvío Normal para una confianza (1   ) . (Sus valores se obtienen de la 2

distribución normal estándar).

2  d



Varianza poblacional (Generalmente tiene un valor desconocido) Nivel de precisión (Máximo error de muestreo al estimar la media poblacional tolerada por el investigador)

N =

Tamaño total de la población

Valores de Z 

para distintos niveles de confianza 2

Probabilidad de confianza (1   ) 0.90 0.95 0.99

Probabilidad de significancia: ( ) 0.10 0.05 0.01

94

𝑍∝ 1.281 1.645 2.326

 2  0.050 0.025 0.005

Z

2

1.645 1.960 2.576

Técnicas de estimación de la varianza 1° Posibilidad: Utilizar la varianza

s2

2

de población similar

2

2° Posibilidad: Utilizar la varianza s de la misma población obtenida en un estudio anterior resiente. 3° Posibilidad: Si la variable en estudio tiene distribución normal, la varianza puede ser estimada determinando el máximo y el mínimo y utilizando la propiedad de la distribución Normal que aproximadamente 0.9973 del área se encuentra en el intervalo

  3

, por lo que la varianza estimada podrá ser

estimada utilizando la siguiente fórmula:

 Máximo  Mínimo  ˆ 2    6 

2

4° Posibilidad: Si la distribución de la variable es del tipo triangular I otriángular II , la desviación estándar  podrá ser estimada utilizando la siguiente aproximación:

95

ˆ  0.24Máximo Mínimo

5° Posibilidad: Utilizando una muestra piloto, de donde podrá obtenerse la varianza muestral



2

s2

y utilizarla como un estimador de la varianza poblacional

para efectos del cálculo del tamaño de muestra. Es decir que:

ˆ 2  s 2

Ejemplo: Se desea estimar el peso promedio de una población de 400 estudiantes ingresantes a una Universidad. En base a una muestra preliminar de

96

10 de estos estudiantes que acudieron a su control médico en la Dirección de Bienestar universitario, se estima una desviación estándar de 6.6 Kgr. Si deseamos tener un máximo error de muestreo de 1.5 Kgr. y una confianza de 0.95.¿Cuál será el tamaño de muestra mínimo requerido? La fórmula a utilizar será:

Z 2   2

n

2

d2  Población N = Confianza (1-α) Significancia (α) (1-α/2) Z Error DE(x) = σ =

Z 2   2 2

N

400 0.95 0.05 0.975 1.960 1.500 6.6

Tamaño de muestra n = 63

1.96 2  6.6 2 n  63 1.96  6.6 2 2 1 .5  400

Ejemplo 2 Se desea diseñar una muestra para propósitos de estimar el rendimiento académico promedio de los estudiantes de una escuela profesional de una universidad en donde hay un total de 800 matriculados. Por información histórica el rendimiento académico de estos estudiantes tiene una distribución del tipo triangular I, con un mínimo de 07 puntos y un máximo de 19 puntos. La estimación del rendimiento promedio poblacional se lo desea hacer con una precisión de 0.6 puntos y una confianza de 0.95. ¿Cuál será el diseño de muestra? SOLUCIÓN Análisis para el tipo de muestreo La variable en estudio es X = Rendimiento académico, la cual tiene una distribución del tipo triángulo I con un mínimo de 07 y un máximo de 19 puntos

97

Entonces el estimador de la desviación estándar será: 𝜎 = 0.24 (19 − 7) = 2.88 1

Y el estimador de la media será: 𝜇 = 7 + 3 (19 − 7) = 11 El coeficiente de variación será 𝐶𝑉(𝑋) =

𝜎 𝜇

=

2.88 11

= 0.26 = 26% < 33%

Entonces se trata de una población homogénea por lo que un muestreo aleatorio simple garantizará la representatividad de la muestra. Cálculo del tamaño de muestra: Como se quiere estimar la media poblacional 𝜇, con una precisión 𝑑 = 0.6 𝑝𝑢𝑛𝑡𝑜𝑠 y una confianza (1 − 𝛼) = 0.95 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑍𝛼⁄2 = 1.96 , la formula para el tamaño de muestra será 𝑍𝛼2⁄2 × 𝜎 2

𝑛=

𝑑2 +

𝑍𝛼2⁄2 × 𝜎 2 𝑁

Reemplazando tenemos: 𝑛=

1.962 × 2.882 = 79.7 ≈ 80 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑛𝑡𝑒𝑠 1.962 × 2.882 0.62 + 800

Elementos de la muestra: Seleccionar 80 números aleatorios diferentes menores o iguales a N = 800. Los estudiantes enumerados en el marco muestral con los números aleatorios seleccionados anteriormente, constituirán los elementos de la muestra.

1.2.

Tamaño de muestra para estimar una Proporción Poblacional:

98

n

Z 2  pq 2

d2 

Z 2  pq 2

N

Donde:

n  Tamaño de muestra Z

p

 Desvío Normal para una confianza (1   ) . (Sus valores se obtienen de la 2

distribución normal estándar).  Proporción muestral esperada o conjeturada por el investigador

q  1  p  Complemento de la proporción muestral d  Nivel de precisión (Máximo error de muestreo al estimar la proporción poblacional N =

tolerada por el investigador) Tamaño total de la población

Estimación de la proporción para calcular el tamaño de muestra: 1° Posibilidad: El investigador asigna un valor para P considerando un valor que él puede esperar encontrar cuando realice el muestreo, siempre que este valor se encuentre entre 0.25 y 0.75. 2° Posibilidad: Cuando p < 0.25, se considerará que estamos investigando una característica rara, por lo que debe abandonarse dicho valor y se asume p = 0.5, se procede de manera similar cuando p>0.75, también se abandona y se remplaza por 0.5, con lo cual estaremos asumiendo una máxima varianza, puesto que el producto

99

p.q tiende a cero cuando p tiende a cero o a 1; en cambio toma su máximo valor cuando p = 0.5.

Ejemplo 1 Se desea diseñar una muestra para estimar la proporción P de facturas con algún error en su emisión, durante el último mes en un restaurante. Se sabe que en total se emitieron un total 3500 facturas llenadas a mano y que están enumeradas de 1 a 3500 y contenidas en un archivador. Se desea tener una precisión de 0.04 y una confianza de 0.95, cuál debe ser el tamaño de muestra mínimo necesarios para satisfacer estos requisitos de estimación?. No se dispone de ninguna información acerca de la proporción de facturas con errores en su emisión. SOLUCIÓN Propósito del muestreo: Estimar la proporción de facturas con errores en su emisión Población N = 3500 Precisión: d = 0.04 Confianza: (1 − 𝛼) = 0.95 → 𝑍𝛼⁄2 = 1.96 Proporción esperada de facturas con errores de emisión 𝑝 = 0.5 Por lo tanto 𝑞 = 1 − 𝑝 = 1 − 0.5 = 0.5

𝑍𝛼2⁄2 × 𝑝𝑞

1.962 × 0.5 × 0.5 𝑛= = = 512.4 ≅ 512 𝑓𝑎𝑐𝑡𝑢𝑟𝑎𝑠 2 𝑍𝛼2⁄2 × 𝑝𝑞 2 + 1.96 × 0.5 × 0.5 2 0.04 𝑑 + 3500 𝑁

Ejemplo 2

100

Se desea determinar el tamaño de muestra para estimar la proporción de mujeres P con infección vaginal entre las que acuden al servicio de Obstetricia del Hospital Regional Docente Las Mercedes de Chiclayo: De acuerdo a la información histórica, del Hospital Regional Docente Las Mercedes de Chiclayo, se conoce que, la proporción de infecciones vaginales en encontrado en el período 2010 – 2012 es p = 0.3. Se estima que en el período de investigación de enero a junio del 2013, llegarán al servicio de obstetricia un total de 668 mujeres. Si deseamos tener una confianza de 0.95 y un máximo error de muestreo d = 0.05, ¿Cuál deberá ser el tamaño de muestra mínimo requerido? La fórmula a utilizar en este caso es:

Z 2  pq

n

2

d2 

Z 2  pq 2

N

Para una confianza (1-α) = 0.95 tenemos que Zα = 1.96 Proporción de infecciones vaginales p = 0.30 Entonces: q = 1 - p = 0.70 Máximo error de muestreo o nivel de precisión d = 0.05 Remplazando en la fórmula tenemos:

n

1.96 2  0.3  0.7  218 2 1 . 96  0 . 3  0 . 7 0.05 2  668

Respuesta: Se debe obtener una muestra de n = 218 mujeres. La selección puede ser sistemática con arranque aleatorio con un intervalo de selección k = N/n = 3, es decir una cada tres mujeres.

1.3.

Tamaño de muestra para probar hipótesis acerca de la Media Poblacional: 1° Caso:

H o :   o

101

H a :   o 2

 Z  Z    2   2   n

2

Donde:

  Probabilidad de error tipo I, o nivel de significancia de la prueba 







Probabilidad de error tipo II

  o

102

2° Caso:

H o :   o H a :   o

Z n

ó H a :   o  Z    2 2



2

Donde:

  Probabilidad de error tipo I, o nivel de significancia de la prueba 







Probabilidad de error tipo II

  o

Ejemplo. Un productor de capsulas de uña de gato afirma que la demanda promedio de su producto en el mercado es de 1000 capsulas por día. En una muestra piloto de 36 días seleccionados en forma aleatoria, se encuentra una media de 850 y una desviación estándar de 160 capsulas diarias. ¿Qué tamaño de muestra será necesario para probar la afirmación hecha por el productor ( 𝐻𝑜 : 𝜇 = 1000), contra la alternativa de la sospecha del investigador en el sentido que este promedio podría ser menor que lo que propone el productor (𝐻𝑎 : 𝜇 < 1000), utilizando los mismos riesgos o probabilidades de error tipo I y Tipo II iguales a 0.01?. Solución Utilizaremos la siguiente fórmula

Z n

 Z    2 2



2

Donde: 𝛼 = 𝛽 = 0.01 𝑍𝛼 = 𝑍𝛽 = 2.33 Como no se conoce 𝜎 entonces usaremos su estimador proveniente de la muestra piloto 𝑠 = 160, además deseamos la distancia máxima del estimador al valor verdadero no exceda en más de 80 unidades, esto es que 𝛿 = |𝑥 − 𝜇| = 80 ≡ 8% 𝑑𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝜇𝑜 , por lo que el tamaño de muestra será 𝑛=

(2.33 + 2.33)2 × 1602 = 86.7 ≈ 87 𝑑í𝑎𝑠 802

103

3° Caso:

H o : 1  2

H a : 1  2 2

 Z  Z   ( 2   2 )   1 2  n 2 2 Donde:

  Probabilidad de error tipo I, o nivel de significancia de la prueba 







4° Caso:

Probabilidad de error tipo II

1  2

H o : 1  2 H a : 1  2

 Z n

ó

H a : 1  2

 Z    ( 12   22 ) 2



2

Donde:

  Probabilidad de error tipo I, o nivel de significancia de la prueba    

Probabilidad de error tipo II

1  2

Ejemplo Se desea calcular el tamaño de muestra para comparar la aptitud promedio de dos poblaciones de estudiantes preuniversitarios mediante una prueba unilateral en donde se sospecha que el rendimiento de la segunda población es mayor que el de la primera, para lo cual se tomaron dos muestras aleatorias previas de tamaños 20 y 25 respectivamente, encontrando las desviaciones estándar respectivas de 8 y 7 puntos las cuales serán consideradas como estimadores de las desviaciones estándar poblacionales. Se desea tener una confianza y potencia para la prueba igual a 95%. Se supone que la diferencia

104

entre las medias poblacionales es de 6 puntos. Calcule el tamaño de muestra para cada población. SOLUCIÓN Para calcular un tamaño de muestra para probar una hipótesis unilateral de comparación de dos medias poblacionales, corresponde utilizar la siguiente fórmula:

 Z n

 Z    ( 12   22 ) 2



2

Donde: Potencia igual a confianza e igual a 0.95, entonces (1 − 𝛽) = (1 − 𝛼) = 0.95, entonces 𝑍𝛽 = 𝑍𝛼 = 1.645 𝜎12 = 𝑠12 = 82 = 64 𝜎22 = 𝑠22 = 72 = 49 𝛿 = |𝜇1 − 𝜇2 | = 6

(1.645 + 1.645)2 × (64 + 49) 𝑛= = 34 62

1.4.

Tamaño de muestra para probar hipótesis acerca de la Proporción Poblacional: 1° Caso:

H o : P  Po

H a : P  Po  Z Po Qo  Z  pq    n 2

2

2

Donde:

  Probabilidad de error tipo I, o nivel de significancia de la prueba

105









Probabilidad de error tipo II

p  Po

 1  Po

Qo p



q

 1 p

proporción muestral

H o : P  Po

2° Caso:

H a : P  Po

Z n



ó

Po Qo  Z 

H a : P  Po pq



2

2

Donde:

  Probabilidad de error tipo I, o nivel de significancia de la prueba    

Qo

Probabilidad de error tipo II

p  Po

 1  Po

p  proporción muestral q  1 p

Ejemplo . Un auditor se encuentra realizando una auditoría a una empresa en la cual encuentra un total de 2480 cuentas por cobrar. Toma una muestra aleatoria previa de 40 de de ellas y encuentra que 10 de tienen deudas de más $700, lo cual le hace pensar que la proporción poblacional de tales cuentas podría ser menor a 0.30, pero el contador afirma que el 30% de tales cuentas por cobrar son de más de $700 cada una ¿Cuántas cuentas por lo menos deberá examinar aleatoriamente para para probar la afirmación del contador con una precisión 𝛿 = |𝑝 − 𝑃𝑜 | = 0.06 y una confianza (1 − 𝛼) = 0.95 y una potencia para la prueba de (1 − 𝛽) = 0.90,

106

SOLUCIÓN Propósito del muestreo: probar

𝐻𝑜 : 𝑃 = 0.3 𝐻𝑎 : 𝑃 < 0.3

Entonces

𝑃𝑜 = 0.3

𝑦 𝑄𝑜 = 0.7

N = 2480 𝑀𝑢𝑒𝑠𝑡𝑟𝑎 𝑝𝑟𝑒𝑣𝑖𝑎 𝑛𝑝 = 40, 𝑎 = 12,

𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠

𝑝=

12 = 0.03 𝑦 𝑞 = 1 − 0.3 = 0.7 40

𝑃𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 𝑑 = 0.04 𝐶𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 (1 − 𝛼) = 0.95 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑍𝛼 = 1.645 𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 (1 − 𝛽) = 0.90 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑍𝛽 = 1.282 𝑃𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 𝛿 = |𝑝 − 𝑃𝑜 | = 0.06 2

(𝑍𝛼 √𝑃𝑜 𝑄𝑜 + 𝑍𝛽 √𝑝𝑞) 𝐸𝑙 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑠𝑒𝑟á: 𝑛 = 𝛿2

2

(1.96√0.3 × 0.7 + 1.282√0.25 × 0.75) 𝑛= = 476 0.062 Respuesta: Se requiere seleccionar una muestra aleatoria de 476 cuentas por pagar.

3° Caso:

H o : P1  P2 H a : P1  P2

 Z  n 2

 p1  p2 q1  q2  / 2 2



Z

p1q1  p2 q2  

Donde:

2

  Probabilidad de error tipo I, o nivel de significancia de la prueba 







4° Caso:

Probabilidad de error tipo II

P1  P2

H o : P1  P2 H a : P1  P2

ó

107

H a : P1  P2

Z n



 p1  p2 q1  q2  / 2



Z

p1q1  p2 q2



2

2

Donde:

  Probabilidad de error tipo I, o nivel de significancia de la prueba  



Probabilidad de error tipo II



P1  P2

Ejemplo: Se desea determinar el tamaño de muestra para probar una hipótesis de comparación de proporciones. Ho : P1 = P2 contra Ha: P1 < P2, donde: P1 : Proporción de complicaciones en intervenciones quirúrgicas con protocolo. P2 : Proporción de complicaciones en intervenciones quirúrgicas sin protocolo. De acuerdo a la información histórica, del Hospital Regional Docente Las Mercedes de Chiclayo, se conoce que, cuando se sigue el protocolo, la proporción de complicaciones quirúrgicas es 0.01, y cuando no se sigue el protocolo esta proporción es de 0.18. Si deseamos tener una confianza de 0.95 y también una potencia para la prueba de hipótesis de 0.95, ¿Cuál deberá ser el tamaño de muestra mínimo requerido? La fórmula a utilizar en este caso es:

Z n



 p1  p2 q1  q2  / 2



Z

p1q1  p2 q2

2

n = tamaño de muestra para cada grupo Confianza de la prueba: (1-α) = 0.95 entonces Zα = 1.645 Potencia de la prueba: (1-β) = 0.95 entonces Zβ = 1.645 Proporción de complicaciones quirúrgicas con protocolo p1 = 0.01 Proporción de complicaciones quirúrgicas sin protocolo p2 = 0.18 Entonces: q1 = 1 - p1 = 0.99

y

q2 = 1- p2 = 0.82

Remplazando en la fórmula tenemos:

108



2

1.645 n

0.01  0.180.99  0.82  / 2  1.645 0.01  0.182

0.01  0.99  0.18  0.82



2

 62

Respuesta: Se debe obtener una muestra de 62 observaciones de cada uno de los grupos.

1.5.

Tamaño de muestra para probar hipótesis de estudios de Casos y Controles:

Ho :

P1  P2

Ha :

P1  P2  Z 2 pq  Z  p1q1  p2 q2   2   n

2

2

Donde:

  Probabilidad de error tipo I, o nivel de significancia de la prueba 



p1

 Casos

p2

 Controles

Probabilidad de error tipo II

p2  p2 2 q  1 p p 

: Proporción mancomunada

  P1  P2 Ejemplo: Se necesita calcular el tamaño de muestra para una investigación con diseño de casos y controles, para probar una hipótesis de que la proporción de partos exitosos con método de inducción es mayor a la proporción de partos exitosos cuando no se usa este tratamiento. ´ Sea: P1 = Proporción de inducción exitosa de partos con un tratamiento P2 = Proporción de inducción exitosa de partos con un tratamiento

La Hipótesis en prueba es:

109

Ho: P1=P2 contra Ha: P1>P2 La fórmula que corresponde ser utilizada es:

Z n



2 pq  Z  p1q1  p2 q2

 p1  p2 2



2

𝑛 = Tamaño de muestra mínimo para cada grupo: Casos y controles Z𝛼 = 1.645 : Desvío normal para una significancia del 0.05 Z𝛽 = 1.645 : Desvío normal para una significancia de 0.05 𝑝1 = 0.8

:Proporción de inducción exitosa del parto usando el tratamiento

(Caso)

𝑝2 = 0.6

:Proporción de partos exitosos sin usar tratamiento (control)

q1 = 1 − p1 = 1 − 0.8 = 0.2 q1 = 1 − p1 = 1 − 0.8 = 0.2

𝑝=

𝑝1 +𝑝2 2

=

0.8+0.6 2

= 0.7

y

𝑞 = 1 − 𝑝 = 1 − 0.7 = 0.3

Reemplazando en la fórmula tenemos: 2

(1.645 × √2 × 0.7 × 0.3 + 1.645 × √0.8 × 0.2 + 0.4 × 0.4) 𝑛= = 111 (0.8 − 0.6)2 Respuesta: El tamaño de muestra será n1 = 111 casos y n2 = 111 controles

1.1.1.

Muestreo Aleatorio Estratificado (MAE):

En este tipo de muestreo, la población es dividida en L subpoblaciones o estratos, de tamaños Nh cada uno de ellos de los cuales se selecciona nh elementos respectivamente, de modo tal, que en cada estrato, cada uno de los elementos tengan la misma probabilidad de ser incluidos en la muestra. Este proceso genera muestras representativas siempre que la

110

variabilidad en cada subpoblación no exceda el 33%, aun cuando la población general dicha variabilidad sea mayor que el 33%.

Notaciones en muestreo aleatorio estratificado 𝑁 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑔𝑒𝑛𝑒𝑟𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 ℎ = 𝐼𝑛𝑑𝑖𝑐𝑎 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 𝐿 = 𝐼𝑛𝑑𝑖𝑐𝑎 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑒𝑠𝑡𝑟𝑎𝑡𝑜𝑠 𝑁ℎ = 𝑁ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ 𝑁ℎ 𝑃𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑒𝑛 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑑𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ 𝑁 𝑛 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑔𝑒𝑛𝑒𝑟𝑎𝑙 𝑛ℎ = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ 𝑊ℎ =

𝑋̅ℎ =

ℎ ∑𝑁 𝑖=1 𝑥ℎ𝑖 = 𝑀𝑒𝑑𝑖𝑎 𝑑𝑒 𝑑𝑒 𝑋 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ 𝑁ℎ

𝑆ℎ2 =

ℎ ̅ 2 ∑𝑁 𝑖=1(𝑥ℎ𝑖 − 𝑋ℎ ) = 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑝𝑟á𝑐𝑡𝑖𝑐𝑎 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ 𝑁ℎ − 1

ℎ ∑𝑛𝑖=1 𝑥ℎ𝑖 𝑥̅ℎ = = 𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ 𝑛ℎ

𝑠ℎ2 =

ℎ ∑𝑛𝑖=1 (𝑥ℎ𝑖 − 𝑥̅ℎ )2 = 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ 𝑛ℎ − 1

El cálculo del tamaño de muestra depende del propósito del muestreo, es decir del parámetro que se pretende estimar y del modo de asignación o reparto de tamaño general de muestra a cada uno de los estratos.

111

Tamaño general de muestra para estimar la media poblacional con asignación de Neyman en el MAE. Este tipo de asignación toma en cuenta el tamaño y dispersión interna de cada estrato 𝑛=

(∑ 𝑊ℎ 𝑆ℎ )2 ∑ 𝑊ℎ 𝑆ℎ2 𝑉+ 𝑁

N = Tamaño general de la Población n = Tamaño general de muestra 𝑊ℎ =

𝑁ℎ 𝑁

= Ponderación del estrato h en la población

Sh = Desviación estándar en el estrato h. 𝑑

2

𝑉 = (𝑍 2 ) = Varianza deseada al estimar la media poblacional 𝛼⁄2

Tamaño de la muestra en los estratos: 𝑛ℎ =

𝑊ℎ 𝑆ℎ ×𝑛 ∑ 𝑊ℎ 𝑆ℎ

Ejemplo:

Se desea investigar el nivel de competencias básicas de comprensión lectora y Matemáticas en estudiantes del 5° de secundaria de tres instituciones educativas representativas de Chiclayo: Colegio Nacional San José, Colegio Nacional Elvira García y García y el Colegio Nacional Magdalena Sofía. Como antecedente de esta investigación se dispone de las notas promedio en ambos cursos, las cuales utilizaremos para diseñar la muestra. RENDIMIENTO ACADÉMICO EN LENGUAJE Y MATEMÁTICAS DE ESTUDIANTES DE 5° DE SECUNDARIA DE TRES INSTITUCIONES EDUCATIVAS DE CHICLAYO EN DICIEMBRE DEL 2012 Institución Educativa Elvira García Magdalena Sofía San José

N° de Estudiantes 148 152 150

Promedio. Lenguaje 14.20 13.82 14.75

Desv. Estánd. Lenguaje 2.25 2.36 2.52

Promedio. Matemática 13.94 14.11 14.92

Desv. Estánd. Matemática 3.22 2.59 3.05

Como la investigación comprende dos variables, que son la Comprensión Lectora y Matemáticas, entonces haremos el cálculo del tamaño de muestra estratificado para cada una de las variables y al final nos quedaremos el tamaño de muestra más grande. Elegimos un nivel de confianza de 0.95 y un error de muestreo de aproximadamente igual a 3.5% del promedio general en los tres colegios, cuyo valor resulta ser igual a 0.5 puntos, con lo cual la varianza deseada V será obtenida del siguiente modo: SOLUCIÓN

112

= 0.95

Confianza (1-α/2)

𝑍𝛼⁄2 = 1.96

Desvío Normal

Precisión (3.5% de la media)

d = 0.5

Media estratificada 𝑥̅𝑠𝑡 = ∑3ℎ=1 𝑊ℎ 𝑥̅ℎ = 14.255 Varianza deseada: V=(d/Z)2 = 0.06507944 Calculo del tamaño de muestra general para investigar competencias básicas de comprensión lectora:

𝑛=

(∑ 𝑊ℎ 𝑆ℎ )2 (2.3786)2 = = 73 ∑ 𝑊ℎ 𝑆ℎ2 0.06507944 + 5.6697 𝑉+ 𝑁 450

Tamaño de muestra para los estratos (colegios): 𝑛1 =

𝑊1 𝑆1 0.7406 ×𝑛= × 73 = 23 ∑ 𝑊ℎ 𝑆ℎ 2.3786

𝑛2 =

𝑊2 𝑆2 0.7980 ×𝑛= × 73 = 24 ∑ 𝑊ℎ 𝑆ℎ 2.3786

𝑛3 =

𝑊3 𝑆3 0.8400 ×𝑛= × 73 = 26 ∑ 𝑊ℎ 𝑆ℎ 2.3786

Cuadro de cálculos del tamaño de muestra para investigar competencias básicas de Lenguaje en tres instituciones Educativas de Chiclayo Institución Educativa (Estrato h) Elvira García Magdalena Sofía San José Total

N° de Estudiantes Nh 148 152 150 450

Promedio en Lenguaje 14.20 13.82 14.75

Desv. Estánd. Lenguaje Sh 2.25 2.36 2.52

Ponderación: Wh 0.329 0.338 0.333 1.000

Wh. Sh 0.7406 0.7980 0.8400 2.3786

Wh.Sh^2 1.6675 1.8854 2.1168 5.6697

muestra del estrato: nh 23 24 26 73

Calculo del tamaño de muestra general para investigar competencias básicas de comprensión Matemáticas:

(∑ 𝑊ℎ 𝑆ℎ )2 (2.9521)2 𝑛= = = 103 ∑ 𝑊ℎ 𝑆ℎ2 0.06507944 + 8.7850 𝑉+ 450 𝑁

Tamaño de muestra para los estratos (colegios): 𝑛1 =

𝑊1 𝑆1 1.0591 ×𝑛 = × 103 = 37 ∑ 𝑊ℎ 𝑆ℎ 2.9521

113

𝑛2 =

𝑊2 𝑆2 0.8763 ×𝑛 = × 103 = 31 ∑ 𝑊ℎ 𝑆ℎ 2.9521

𝑛3 =

𝑊3 𝑆3 1.0167 ×𝑛 = × 103 = 35 ∑ 𝑊ℎ 𝑆ℎ 2.9521

Cuadro de cálculos del tamaño de muestra para investigar competencias básicas de Matemáticas en tres instituciones Educativas de Chiclayo Institución Educativa (Estrato h)

N° de Desv. Estánd. Estudiantes Promedio en Matemáticas Ponderación: Nh Matemáticas Sh Wh Elvira García 148 13.94 3.22 0.329 Magdalena Sofía 152 14.11 2.59 0.338 San José 150 14.92 3.05 0.333 Total 450 1.000

Wh. Sh 1.0591 0.8763 1.0167 2.9521

Wh.Sh^2 3.4107 2.2734 3.1008333 8.7850

muestra del estrato: nh 37 31 35 103

Conclusión: Para la investigación nos debemos quedar con este último tamaño por ser el más grande Estimador puntual y confidencial de la media poblacional El estimador puntual de la media poblacional 𝝁, es la media muestral estratificada 𝑥𝑠𝑡 , el sub índice st es para indicar que corresponde a un muestreo estratificado. Es decir que 𝜇̂ = 𝑥̅𝑠𝑡 𝐿

𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑖𝑓𝑖𝑐𝑎𝑑𝑎: 𝑥̅𝑠𝑡

∑𝐿ℎ=1 𝑥̅ℎ 𝑁ℎ = = ∑ 𝑥̅ℎ 𝑊ℎ 𝑁 ℎ=1

Varianza de la media muestral estratificada 𝐿

𝑉(𝑥̅𝑠𝑡 ) =

Siendo 𝑓ℎ =

𝑛ℎ 𝑁ℎ

𝑆2 2 ℎ ∑ 𝑊ℎ 𝑛ℎ ℎ=1

𝐿

𝑁ℎ − 𝑛ℎ 𝑆2 2 ℎ (1 ( ) = ∑ 𝑊ℎ − 𝑓ℎ ) 𝑁ℎ 𝑛ℎ ℎ=1

= 𝐹𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑒𝑜

Estimador de la varianza de la media muestral estratificada 𝐿

𝐿

ℎ=1

ℎ=1

𝑠ℎ2 𝑁ℎ − 𝑛ℎ 𝑠ℎ2 2 2 ̂ (1 − 𝑓ℎ ) 𝑉 (𝑥̅𝑠𝑡 ) = 𝑣(𝑥̅𝑠𝑡 ) = ∑ 𝑊ℎ ( ) = ∑ 𝑊ℎ 𝑛ℎ 𝑁𝑛 𝑛ℎ Intervalo de confianza de (1 − 𝛼) para la media poblacional 𝜇 ∶ 𝑥̅𝑠𝑡 ± 𝑍𝛼⁄2 √𝑣(𝑥̅𝑠𝑡 )

114

Donde: 𝑍𝛼⁄2 = 𝐷𝑒𝑠𝑣𝑖𝑜 𝑁𝑜𝑟𝑚𝑎𝑙 𝑝𝑎𝑟𝑎 𝑢𝑛𝑎 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 (1 − 𝛼) Ejemplo Obtenga un intervalo de confianza de 0.95 para la media poblacional del rendimiento académico en Lenguaje, a partir de una muestra obtenida con un muestreo estratificado, cuyas medidas de resumen se muestran en el siguiente cuadro.

Institución educativa “h”

Número total de estudiantes en la institución educativa h: 𝑁ℎ

Muestra de estudiantes de la institución educativa h. 𝑛ℎ

Promedio muestral de Lenguaje en la institución educativa h: 𝑥̅ℎ

Elvira García (1) Magdalena Sofía (2) San José (3)

148 152 150

23 24 26

14.20 13.82 14.75

Total

450

73

Desviación estándar muestral de Lenguaje en la institución educativa h: 𝑠ℎ

2.25 2.36 2.52

Estudiantes de instituciones educativas de Chiclayo: Elvira García, Magdalena Sofía y San José.

Elvira García: N1 = 148

Magdalena Sofía: N2 = 148

N1=23 𝑥̅1 = 14.2 𝑠1 = 2.25

N1=23 𝑥̅2 = 13.82 𝑠2 = 2.36

San José: N3 = 148

N1=23 𝑥̅3 = 14.75 𝑠3 = 2.52

Solución

Institución Educativa Elvira García Magdalena Sofía San José

N° de Estudiantes 𝑁ℎ 148 152 150

Muestra 𝑛ℎ 23 24 26

Promedio. Lenguaje 𝑥̅ℎ

Desv. Estánd. Lenguaje 𝑠ℎ

14.200

2.25

13.820

2.36

14.750

2.52

115

Ponderación 𝑁ℎ 𝑊ℎ = 𝑁

𝑥̅ℎ 𝑊ℎ

𝑊ℎ2

𝑠ℎ2 (1 − 𝑓ℎ ) 𝑛ℎ

0.3289

4.6702

0.02011

0.3378 0.3333

4.6681 4.9167

0.02230 0.02243

Suma

450

73

14.2550

0.06484

𝐿

𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑖𝑓𝑖𝑐𝑎𝑑𝑎: 𝑥̅𝑠𝑡 = ∑ 𝑥̅ℎ 𝑊ℎ = 14.255 𝑝𝑢𝑛𝑡𝑜𝑠 ℎ=1

Estimador de la varianza de la media estratificada 𝐿

𝑉̂ (𝑥̅𝑠𝑡 ) = 𝑣(𝑥̅𝑠𝑡 ) = ∑ 𝑊ℎ2 ℎ=1

𝑠ℎ2 (1 − 𝑓ℎ ) = 0.06484 𝑝𝑢𝑛𝑡𝑜𝑠 2 𝑛ℎ

El intervalo de confianza para la media es, 𝜇: 𝑥̅𝑠𝑡 ± 𝑍𝛼⁄2 √𝑉̂ (𝑥̅𝑠𝑡 ) Para el ejemplo, el intervalo de confianza de 0.95 para la media será: 𝜇: 14.255 ± 1.96√0.06484 13.76 < 𝜇 < 14.32 Tamaño general de muestra para estimar la proporción poblacional con asignación de Neyman en el MAE. Cuando el diseño de muestra es el Estratificado con asignación de Neyman (Este tipo de asignación se utiliza cuando los costos de muestreo es igual en cada uno de los estratos), el tamaño general de muestra se calcula con la siguiente fórmula: 2

Donde:

(∑ 𝑊ℎ √𝑝ℎ 𝑞ℎ ) 𝑛= ∑ 𝑊ℎ 𝑝ℎ 𝑞ℎ 𝑉+ 𝑁

N = Tamaño general de la Población n = Tamaño general de muestra Wh = Nh/N = Ponderación del estrato h en la población V = (d/𝑍𝛼⁄2 )2 = Varianza deseada al estimar la media poblacional ph = Proporción estimada en el estrato h. qh = 1-ph Tamaño de muestra en los estratos: 𝑛ℎ =

𝑊ℎ √𝑝ℎ 𝑞ℎ ∑ 𝑤ℎ √𝑝ℎ 𝑞ℎ

×𝑛

Ejemplo de diseño y muestra para estimar una proporción

116

Población: La población lo constituyen los 6120 estudiantes de la USAT matriculados en el semestre académico 2011-I, clasificados según carrera profesional. Muestra: Se utilizará un muestreo estratificado para estimar la proporción de estudiantes con calidad de sueño Deficiente. Las unidades elementales o informantes son cada uno de los estudiantes. Se elige un nivel de confianza de 0.95 y un nivel de precisión de 0.05 Cálculo del tamaño de muestra. El tamaño de muestra se calcula para estimar la proporción de estudiantes con calidad de sueño deficiente, mediante un muestreo estratificado con asignación de Neyman, la cual asigna un tamaño de muestra a los estratos teniendo en cuenta el tamaño del estrato y la dispersión interna del estrato. Suponiendo que los costos de muestreo dentro de cada estrato es el mismo. Estudiantes de la USAT matriculados en el semestre 2011-I

P = Proporción de estudiantes con calidad de sueño deficiente

N = 6120

Administración Admi de empresas

N1 = 1141

Psicología

Administración hotelera

N18 = 301

N2 = 291

d = 0.05 (1-α)=0.95

n1 = 69

n18 = 30

n2 = 18

Tamaño general de muestra n = 413 El tamaño general de muestra:

(Wh ph  qh ) 2 , n Wh ph  qh  V N Donde

d  V   z

2

Varianza deseada del estimador de la proporción

117

pst = Estimado estratificado de P

Asumimos: Una confianza (1-α) de 0.95, para el cual, el desvío normal es Z = 1.96 Una precisión (máximo error de muestreo tolerado) d  0.05 Entonces la varianza deseada debe ser: 2

 0.05  V    0.000651  1.96  Los cálculos se muestran en la siguiente tabla, con lo cual, el tamaño de muestra es: n

(0.474033) 2  327 0.225107 0.000651  6120

La asignación de Neyman del tamaño de muestra a los estratos se hace con la fórmula: nh 

Wh ph  qh

W

h

ph qh

n

por razones de conseguir estabilidad para los estimadores por carrera profesional, se corrige el tamaño de muestra a un mínimo de 30, con lo cual se tiene una muestra corregida de 535 estudiantes, tal como se puede apreciar en el siguiente cuadro.

Cuadro N° 2 Cálculo del tamaño de muestra estratificado con asignación de Neyman para estudiantes de la USAT matriculados en el semestre académico 2011-I. Matriculados

ESTRATO (h) (2011-I): Nh Carrera profesional ADM. DE EMPRESAS ADM. HOTELERA Y DE SERVICIOS CONTABILIDAD

N Wh  h N

Proporción de estudiantes con calidad de sueño deficiente

qh  1  ph

Wh

ph qh

Wh ph qh

nh

nh (corr )

ph

1131

0.1848

0.3

0.7

0.084686

0.038808

58

58

289

0.0472

0.25

0.75

0.020438

0.00885

14

30

479

0.0783

0.3

0.7

0.035882

0.016443

25

30

118

ECONOMÍA EDUCACIÓN (inicial, Prim. y Secundaria.) COMUNICACIÓN DERECHO ARQUITECTURA ING. CIVIL Y AMB. ING. DE SIST. Y COMP. ING. ENERGÉTICA ING. INDUSTRIAL ING. MECÁNICA ELÉCTRICA ING. NAVAL ENFERMERÍA MEDICINA ODONTOLOGÍA PSICOLOGÍA TOTAL

177

0.0289

0.3

0.7

0.013244

0.006069

9

30

254

0.0415

0.25

0.75

0.017970

0.00778125

12

30

220 703 234 320

0.0359 0.1149 0.0382 0.0523

0.4 0.4 0.4 0.4

0.6 0.6 0.6 0.6

0.017587 0.056289 0.018714 0.025622

0.008616 0.027576 0.009168 0.012552

12 39 13 18

30 39 30 30

398

0.0650

0.6

0.4

0.031843

0.0156

22

30

9 415

0.0015 0.0678

0.4 0.6

0.6 0.4

0.000735 0.033215

0.00036 0.016272

1 23

9 30

71

0.0116

0.6

0.4

0.005683

0.002784

4

30

28 589 296 207 300 6120

0.0046 0.0962 0.0484 0.0338 0.0490 1.0000

0.4 0.4 0.7 0.6 0.4

0.6 0.6 0.3 0.4 0.6

0.002254 0.047128 0.022180 0.016559 0.024005 0.474033

0.001104 0.023088 0.010164 0.008112 0.01176 0.225107

2 32 15 11 17 327

28 32 30 30 30 556

El estimador de la proporción poblacional y su varianza, El estimador de la proporción poblacional P es la proporción muestral estratificada 𝑝𝑠𝑡 , es decir que 𝑃̂ = 𝑝𝑠𝑡 = 𝑃𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑖𝑓𝑖𝑐𝑎𝑑𝑎:

𝑝𝑠𝑡 = ∑𝐿ℎ=1 𝑝ℎ 𝑊ℎ

El estimador de la varianza de la proporción muestral estratificada 𝑝 𝑞 𝑁 −𝑛 𝑉̂ (𝑝𝑠𝑡 ) = 𝑣(𝑝𝑠𝑡 ) = ∑𝐿ℎ=1 𝑊ℎ2 ℎ ℎ ( ℎ ℎ ) 𝑛ℎ

𝑁ℎ −1

Intervalo de confianza para la proporción poblacional 𝑃 ∶ 𝑝𝑠𝑡 ± 𝑍𝛼⁄2 √𝑝𝑠𝑡

Ejemplo Obtenga un intervalo de confianza para la proporción poblacional de estudiantes con calidad de sueño deficiente en los estudiantes de la Facultad de Ciencias Empresariales Estrato (h)

𝑁ℎ

𝑊ℎ

𝑝ℎ

𝑞ℎ

𝑝ℎ 𝑊ℎ

ADM. DE EMPR. ADM. HOTELERA CONTABILIDAD ECONOMÍA

1131 289 479 177

0.5448 0.1392 0.2307 0.0853

0.3 0.25 0.3 0.3

0.7 0.75 0.7 0.7

0.1634 0.0348 0.0692 0.0256

119

𝑊ℎ2

𝑝ℎ . 𝑞ℎ 𝑁ℎ − 𝑛ℎ ( ) 𝑛ℎ 𝑁ℎ − 1 0.001020 0.000248 0.000425 0.000162

𝑛ℎ 58 14 25 9

0.2930

2076

Suma

Proporción estratificada 𝑝𝑠𝑡 = 0.2930

0.001855

y su varianza 𝑣(𝑥̅𝑠𝑡 ) = 0.001855

Intervalo de confianza del 0.95 será: 𝑃 ∶ 0.293 ± 1.96√0.001855 0.209 < 𝑃 < 0.377 1.1.2.

Muestreo por conglomerados (PC):

En este tipo de muestreo, la población es dividida en M subpoblaciones o conglomerados, de tamaños Nj cada uno de ellos. En la 1° etapa se seleccionan m conglomerados, de los cuales se selecciona nj elementos respectivamente, de modo tal, que en cada conglomerado, cada uno de los elementos tengan la misma probabilidad de ser incluidos en la muestra. Este proceso genera muestras representativas aun cuando la variabilidad en cada conglomerado exceda el 33%.

Este tipo de muestreo consiste en Tamaño de Muestra por conglomerados en dos etapas con probabilidades proporcionales al tamaño: o Supongamos que se tiene una población de N unidades de análisis divididas en M conglomerados de tamaños N1, N2, ... , NM conocidos.

120

o Por ejemplo tenemos un censo actualizado de un sector de salud que tiene 2 189 individuos distribuidos en 8 manzanas del siguiente modo: Manzana: 1 Tamaño : 114

2 222

3 525

4 308

5 205

6 191

7 414

8 210

o Se seleccionará una muestra de exactamente n elementos en dos etapas: o Obtener m conglomerados o unidades de primera etapa (UPE) de modo que a las mayores les correspondan mayores probabilidades de selección y luego tomar exactamente c individuos en cada UPE ( n = m x c ) Por ejemplo; de una población de 2189 viviendas agrupadas en 8 conglomerados, se desea seleccionar una muestra de por conglomerados de n = 200 viviendas, agrupadas en m = 4 conglomerados cada uno de un tamaño C = 50 viviendas. N = 2189,

n = 200,

m = 4 y c = 50.

Pasos: 1. Crear una lista de las UPE (conglomerados) y obtener los tamaños acumulados Di = N1 + N2 + ... + Ni a lo largo de la misma: Marco muestral de Unidad Primaria Elemental (UPE) UPE i

Tamaño Ni

Tamaño acumulado Di

1

114

114

2

222

336

3

525

861

4

308

1169

5

205

1374

6

191

1565

7

414

1979

8

210

2189

2° Calcular el intervalo de selección I.

I En el ejemplo 𝐼 =

2189 4

= 547.25 ≈ 547

121

N m

3°. Seleccionar un número aleatorio R entre 1 e I. En nuestro caso de 1 en 547. Supongamos que al seleccionar un número aleatorio se obtiene R = 369 Se calculan los números Z1 =R,

Z2 =R+I,

Z3 = R+2I …. Zm = R+(m-1)I

En nuestro caso estos m = 4 números son: 369, 916, 1 463, 2 010

Asociar cada uno de estos números con una UPE del modo siguiente: se selecciona en cada caso la primera UPE cuyo tamaño acumulado supere o iguale al número en cuestión. De este modo, 369 identifica a la manzana 3 ( pues C3 = 861 es el primer valor que supera 369); 916 identifica a la UPE número 4 por ser 1 169 el primer acumulado que lo supera; 1 463 a la manzana 6 y 2 010 a la última. Así en el ejemplo han quedado elegidos los conglomerados que ocupan los lugares 3, 4, 6 y 8 del listado UPE i 1 2 3 4 5 6 7 8

Tamaño Ni 114 222 525 308 205 191 414 210

Tamaño acumulado Di 114 336 861 1169 1374 1565 1979 2189

Zi

369 916 1463 2016

Hacer una selección simple aleatoria de exactamente individuos de cada UPE elegida en el paso anterior.

122

c = 50

Ejercicios 6 (Muestreo) 1. Una muestra aleatoria simple de 40 familias se obtuvo de un área de la ciudad que contiene 14 848 familias. El número de personas por familia en la muestra obtenida fue como sigue: 4 7

12 6 5 5

8 11

4 5 7 5 9 7 4 5 6 3 5 9 6 5 6 5

11 3

6 11

7 6

6 4

8 6

4 6

8 6

3 7

¿Calcule el tamaño de muestra necesario para estimar el número promedio de personas por familias en la ciudad con un máximo error de muestreo de 0.2 y una confianza de 0.95. 2. Se desea estimar la media poblacional del promedio ponderado de los estudiantes universitarios del primer ciclo de una universidad. Se sabe que en dicha universidad hay un total de 1967 estudiantes en el 1° ciclo. Se obtuvo una muestra piloto de 30 estudiantes, en donde se obtiene una desviación estándar de 1.6 puntos. Si estamos dispuestos a tolerar un máximo error de muestreo de 0.5 para la media poblacional, y además tener una confianza de 0.95. ¿Cuál será el tamaño de muestra mínimo requerido si pensamos en utilizar un muestreo aleatorio simple? 3. En un distrito en donde hay 4000 casas, el porcentaje de propietarios va ser estimado con una muestra, con un error de muestreo no mayor al 3%. El porcentaje verdadero de propietarios se piensa que está entre 45 y 65%. ¿Qué tan grande debe ser una muestra para tener una confianza de 0.95? 4. En una región con N = 1000 viviendas, determinar el tamaño de muestra necesario para que, con un grado de confianza del 95%, la estimación de la proporción de viviendas sin agua corriente no difieran en más de 0.1 del valor verdadero de dicha proporción. 5. Un investigador desea determinar el tamaño de muestra para investigar el efecto en la disminución complicaciones post operatorias, cuando se respeta estrictamente los protocolos que existen para intervenciones quirúrgicas en un hospital de Chiclayo. El investigador tiene una información histórica de las últimas 200 intervenciones quirúrgicas en donde ha observado que el 15% de dichas intervenciones presentaron complicaciones (en su mayoría, infecciones), y espera que respetando el protocolo, esta proporción pueda bajar hasta el 2%. Cuál será el tamaño de muestra para este diseño que es del tipo caso – control, si quiere tener una confianza de 0.95 y una potencia de 0.90? 6. Se quiere estimar la proporción de recetas del nuevo recetario que no utilizan productos animales. Planeamos extraer una muestra aleatoria simple de las N = 1251 recetas, y queremos utilizar un intervalo de confianza al 95% con un margen de error de 0.03. 7. Las familias de un pueblo se van a muestrear para estimar la cantidad promedio de bienes por familia que se pueden convertir en dinero en efectivo rápidamente. Las familias se estratifican en un estrato de renta alta y otro de renta baja. Se piensa que una casa en el estrato de renta alta tiene cerca de 9

123

veces más bienes que los existentes en una casa en el estrato de renta baja, y se espera que Sh sea proporcional a la raíz cuadrada de la media del estrato. Existen 4 000 familias en el estrato de renta alta y 20 000 familias en el estrato de renta baja. ¿Cómo distribuiría una muestra de 1000 familias entre los dos estratos? 8. La información que aparece a continuación, representa la estratificación de todas las propiedades agrícolas en una Región, clasificadas por tamaño promedio de hectáreas de maíz por propiedad en cada estrato. También se dispone de las medidas de resumen de una muestra previa de 160 propiedades. Tamaño de la propiedad en (hectáreas): Estrato h

Número de propiedades 𝑵𝒉

Muestra previa 𝒏𝒉

Promedio de hectáreas de maíz ̅𝒉 𝒚

Desviación estándar 𝒔𝒉

Número de propiedades que utilizan abono orgánico: 𝒂𝒉

0-40 41-80 81-120 121-160 161-200 201-240 241- Más

394 461 391 334 169 113 148

32 36 30 25 15 10 12

5.4 16.3 24.3 34.5 42.1 50.1 63.8

8.3 13.3 15.1 19.8 24.5 26.0 35.2

8 10 12 7 4 2 3

Total o media

2010

160

26.3

a. Calcule el tamaño de muestra para estimar el tamaño promedio poblacional de las propiedades con una precisión de 5 hectáreas y una confianza de 0.95 b. Calcule el tamaño de muestra para estimar la proporción poblacional de las propiedades que utilizan abonos orgánicos, con una precisión de 0.04 hectáreas y una confianza de 0.95 c. Con la información de la muestra previa calcule un estimador de intervalo de 0.95 para el tamaño promedio poblacional de las propiedades. d. Con la información de la muestra previa calcule un estimador de intervalo de 0.95 para la proporción poblacional de las propiedades que utilizan abonos orgánicos. 9. Se desea estimar la proporción de familias que consumen Leche fresca en uno de los pueblos jóvenes aledaños de la USAT durante el mes de julio del 2017, un mes después de las sanciones impuestas a la leche “Pura Vida” del Grupo Gloria del Perú. De un estudio anterior sobre las características

124

socioeconómicas de dicho pueblo joven realizado en el 2016, se sabe que la proporción de hogares en los que se consumía leche fresca fue de 0.30 y que en el lugar existen un total de 1189 familias residentes en viviendas agrupadas en 37 manzanas. Si deseamos tener una precisión para la estimación de 0.05 y una confianza de 0.95, Cuál será el tamaño de muestra para el propósito de esta investigación? (considere para este cálculo usar un muestreo aleatorio simple). Considerando una cantidad fija de 20 viviendas por manzana seleccionada para un muestreo por conglomerados con probabilidades proporcionales al tamaño, ¿Cuáles serán las manzana seleccionadas?.

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37

Zona 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

N° Mz.

n° de viviendas

N° Acum

21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 Suma

24 29 31 32 36 39 36 38 34 32 22 42 23 54 42 22 55 30 20 23 38 48 25 26 29 25 22 24 38 36 29 43 28 27 28 29 30 1189

24 53 84 116 152 191 227 265 299 331 353 395 418 472 514 536 591 621 641 664 702 750 775 801 830 855 877 901 939 975 1004 1047 1075 1102 1130 1159 1189

Zi

10. Se desea estimar la proporción de familias que consumen Leche fresca en el pueblo joven San Martín de Lambayeque durante el mes de junio del 2017, una semana después de las sanciones impuestas a la leche “Pura Vida” del Grupo Gloria del Perú. De un estudio anterior sobre las

125

características socioeconómicas, de dicho pueblo joven, hecha por un grupo de Investigadores de la UNPRG en el 2016, se sabe que en el lugar existen un total de 2987 familias residentes en viviendas agrupadas en 113 Manzanas. Estas manzanas fueron agrupadas en cinco zonas residenciales o estratos, de las que se sabe además del número de viviendas por estrato, se sabe también la proporción de familias que consumen leche fresca. Tal como aparece en el siguiente cuadro. Se desea estimar la proporción de familias en la población del P.J. San Martín que consumen leche fresca, para lo cual en considera utilizar un diseño de muestra estratificada combinado con el conglomerado en donde cada estrato sería la zona y el conglomerado la manzana de viviendas. Se desea tener una precisión para la estimación de 0.04 y una confianza de 0.95, además se considera un número fijo de 10 viviendas por manzana seleccionada por lo que las manzanas o conglomerados deberán ser seleccionados con probabilidades proporcionales al tamaño del conglomerado. Calcule primero el tamaño de muestra estratificado (muestra general y muestra para cada estrato) y en cada estrato seleccione los conglomerado con probabilidades proporcionales al tamaño y de cada conglomerado seleccione 10 viviendas y en dad vivienda solo entreviste a una familia.

126

Diseño de muestra para estimar la proporción de familias que consumen Leche Fresca en el P.J. STM 2016 N° Viviendas Ponderación Proporción Zona N° por estrato Wh ph (Estrato) h Mz. Nh

Estrato 1 N° n° de Mz. viviendas 1 27 2 30 3 11 4 14 5 12 6 18 7 24 8 13 9 29 10 18 11 15 12 19 13 14 14 15 15 19 16 25 17 18 18 32 19 19 20 38 Suma 410

1 2 3 4 5

20 37 16 20 20

410 994 354 714 515

0.137 0.333 0.119 0.239 0.172

Total

113

2987

1.000

Estrato 2 N° n° de Mz. viviendas 21 24 22 19 23 31 24 32 25 36 26 39 27 36 28 38 29 34 30 22 31 22 32 22 33 23 34 24 35 22 36 22 37 20 38 20 39 20 40 23 41 28 42 28 43 25 44 26 45 29 46 25 47 22 48 24 49 18 50 26 51 29 52 43 53 28 54 27 55 28 56 29 57 30 Suma 994

Zona 3 n° de N° Mz. viviendas 58 29 59 22 60 18 61 17 62 15 63 13 64 30 65 26 66 29 67 28 68 23 69 24 70 24 71 23 72 23 73 10 Suma 354

127

0.25 0.3 0.35 0.25 0.36

Zona 4 N° n° de Mz. viviendas 74 13 75 31 76 35 77 38 78 39 79 29 80 42 81 45 82 31 83 12 84 37 85 42 86 42 87 45 88 45 89 49 90 40 91 39 92 51 93 36 Suma 741

Zona 5 N° n° de Mz. viviendas 94 15 95 4 96 38 97 31 98 31 99 32 100 37 101 44 102 56 103 15 104 20 105 17 106 26 107 27 108 16 109 18 110 34 111 18 112 21 113 15 Suma 515