Cap Tulo 09

Otras distribuciones de probabilidad 81 Capítulo 9. Otras distribuciones de probabilidad. 9.1 La distribución multinom

Views 94 Downloads 0 File size 64KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Otras distribuciones de probabilidad 81

Capítulo 9. Otras distribuciones de probabilidad.

9.1 La distribución multinomial. Ejemplo: El 30% de todos los vehículos que llegan por una calle a cierta intersección, giran hacia la izquierda, el 20% giran a la derecha y el 50% restante siguen derecho. Si en un determinado momento se encuentran en dicha intersección 8 autos detenidos por la luz roja del semáforo ¿cuál es la probabilidad de que 3 giren hacia la izquierda, 2 giren a la derecha y 3 sigan de frente? Aplicando el teorema generalizado de la multiplicación, y considerando independencia entre lo que hagan los conductores: P = (0,3) 3 (0,2) 2 (0,5) 3

8! 3! 2!3!

Se puede generalizar esta fórmula de probabilidad para los casos en que, de una muestra de N elementos, x1 tengan cierta característica, x2 tengan otra característica,..., y xk tengan otra característica; siendo p1 , p2 ,..., pk , las probabilidades de que un elemento tenga cada una de las características mencionadas, de tal forma que ∑xi sea igual a N, y ∑ pi sea igual a 1. Entonces:

P=

n! ( p1 ) x1 ( p 2 ) x2 ... ( p k ) xk x1! x 2 !... x k

es denominada probabilidad multinomial, por parecerse mucho a la probabilidad binomial, con la diferencia de que presenta k posibilidades para cada elemento de la muestra, en lugar de dos. A la distribución conjunta de x1, x2,...,xk, se le conoce como distribución multinomial. Considerada en forma independiente, cada variable Xi es binomial con parámetros pi y N; por lo tanto tiene un valor esperado igual a npi y una varianza igual a npi(1 – pi).

9.2 La distribución de una proporción. Si la variable binomial X, que representa el número de elementos de una muestra de tamaño n que poseen cierta característica, se divide entre n, resulta otra variable aleatoria, X/n, que representa la proporción de elementos de la muestra, que tienen dicha característica. A la proporción de elementos de la población que poseen tal característica se le ha denominado p. Se ha visto que la variable estandarizada:

Z=

X ± 0,5 − np npq

se distribuye normalmente cuando np y nq > 5. Si se divide cada término de la fracción entre n, resulta lo siguiente:

Otras distribuciones de probabilidad 82

X 1 1 ± − p p1 ± −p n 2 n 2 n z= = pq pq n n

donde a la proporción X/n se le ha denominado p1. Esta última expresión nos dice que la proporción p1 se distribuye normalmente alrededor de p, con desviación estándar igual a pq / n .

p1

p

Es importante resaltar que esta nueva variable p1 es discreta, aunque no tome valores enteros. Como se puede ver, la desviación estándar disminuye al aumentar el tamaño de la muestra, lo cual se expresa en el siguiente gráfico, donde σ 1 < σ 2 < σ 3.

σ1 σ2 σ3 p

p1

Se deduce fácilmente que conforme aumenta el tamaño de la muestra, la variabilidad de p1 disminuye, y por lo tanto los valores de p1 que se puedan obtener estarán más cerca de p.

Otras distribuciones de probabilidad 83

Ejemplo: 1. En la fabricación de cierto tipo de pernos se ha determinado que, en promedio, el 15% de la producción no es de calidad óptima. Ante esta situación, el jefe de mantenimiento decidió hacer algunos cambios en el proceso de producción, con el propósito de bajar considerablemente dicho porcentaje. Suponiendo que los cambios que se hizo no hubieran bajado el porcentaje de productos que no son de calidad óptima, ¿cuál es la probabilidad de que en una muestra de 200 pernos se encuentre que el porcentaje que no son de calidad óptima sea del 10% o menos? np = 200(0,15) = 30 > 5 nq = 200(0,85) = 170 > 5

σ=

0,10 −

z=

(0,15)(0,85) = 0,02525 200

1 − 0,15 2(200) 0,02525

= –2,08 ; P = 0,0188

Como se puede ver, es muy poco probable que en una muestra de 200 pernos se encuentre que el porcentaje que no son de calidad óptima sea del 10% o menos; por lo tanto se puede concluir que es muy probable que el verdadero porcentaje de pernos que no son de calidad óptima ya no sea el 15% sino menor. 9.2.1 Determinación del tamaño de una muestra para estimar una proporción de una población infinita

Generalmente se desea determinar proporciones (o porcentajes, que es lo mismo) poblacionales que resultan de interés para las fábricas, empresas, o para la sociedad; pero esto no es posible porque las pòblaciones de interés suelen ser muy grandes. Por ejemplo, se desea saber: • El porcentaje de productos defectuosos que elaboran en una fábrica. • El porcentaje de clientes que no están satisfechos con el servicio que dan los empleados de un banco. • El porcentaje de ciudadanos que aprueban la gestión del presidente de un país. • El porcentaje de familias que consumen un determinado jabón. • El porcentaje de familias que ven un determinado programa de TV. Como no es posible determinar tales porcentajes (o proporciones), porque se necesitaría invertir mucho dinero y/o mucho tiempo en encuestar a toda la población, se recurre a la estimación de dicha proporción poblacional, extrayendo una muestra de la población y calculando la proporción muestral correspondiente. Por ejemplo, para estimar el porcentaje de familias de Piura que compran un determinado jabón, bastará con extraer una muestra de 400 familias y encuestarlas. Si hay 75 familias que lo compran, la proporción muestral será:

x 75 p1 = = = 0,1875 = 18,75% n 400 Pero este es el porcentaje de familias de la muestra que compran ese jabón, que puede ser una buena estimación del porcentaje de familias de Piura que compran dicho jabón; pero no es igual. Lógicamente, mientras más grande sea la muestra, p1 será mejor estimación de p. ¿Pero qué tan grande debe ser la muestra? La respuesta lógica será: lo más grande que sea posible. ¿Y hasta cuánto será posible? Esto dependerá del presupuesto y del tiempo disponibles.

Otras distribuciones de probabilidad 84

Generalmente, para definir el tamaño de una muestra el interesado se fija los siguientes parámetros, limitados por el dinero y tiempo disponibles. Confiabilidad Cuando se quiere estimar una proporción poblacional, el interesado quiere tener cierta confiabilidad de acertar. Por ejemplo, podría querer estar 95% seguro de acertar el verdadero valor de la proporción poblacional. Para tener dicha confiabilidad, necesitará un determinado tamaño de muestra. Si quisiera una confiabilidad mayor, necesitará, lógicamente, una muestra más grande. Error muestral A la diferencia entre la proporción muestral hallada y la verdadera proporción poblacional (desconocida) se le llama error muestral. e = | p1 – p| Cuando se quiere estimar una proporción poblacional, el interesado quiere aproximarse lo más que pueda a dicha proporción. Lógicamente, mientras más grande sea la muestra, más se acercará a la proporción poblacional, y por lo tanto menor será el error muestral.

Si la población es bastante grande (N → ∞), seguramente np y nq > 5, y por lo tanto p1 se distribuye normalmente alrededor de p, como se ha visto anteriormente. Para efectos prácticos, se suele considerar infinita una población conformada por 100 000 elementos ó más. Ejemplo: En la siguiente figura se representa la distribución de una proporción muestral p1 cuando se quiere estimar una proporción poblacional p con una confiabilidad del 95% de que el error muestral no supere el 5%.

95%

p - 0,05

p

p + 0,05

Como se ve en la figura, el máximo error muestral que se puede cometer es 5%. Entonces, en general, para p1 = p + emax la variable estandarizada z será:

z=

p1 − p pq n

=

emax pq n

De esta expresión se puede despejar n:

n=

z 2 pq 2 emax

p1

Otras distribuciones de probabilidad 85

Donde: •

z: queda determinado por la confiabilidad que se desee.



pq: será 0,25 en el peor de los casos. (el máximo valor que puede tener pq es 0,25).



emax : es el máximo error muestral que se está dispuesto a cometer.

Con la ayuda de la tabla que proporciona áreas bajo la curva normal, se puede determinar el valor de la variable estandarizada z que corresponde a una determinada confiabilidad. Por ejemplo, para una confiabilidad del 95%, el área de la cola derecha a partir de (p + emax) es 0,025; a esta área le corresponde un valor de z = 1,96. Aplicación de la fórmula para determinar n: Ejemplo 1:

¿Cuál será el tamaño de muestra necesario para estimar el porcentaje de familias de Piura que compran un determinado jabón, si se quiere tener una confiabilidad del 95% de que el error muestral no supere el 5%?

n=

z 2 pq 1,96 2 × 0,25 = = 384,16 2 emax (0,05) 2

Será necesario entonces entrevistar a 385 familias. (Nótese que con 384 el error muestral superaría el 5%). O sea que si el verdadero valor de p fuese 0,20; es decir, si realmente el 20% de las familias de Piura compran cierto jabón, y con una muestra de 385 familias se determina, por ejemplo, p1 = 0,1875 = 18,75%, entonces el error muestral hubiese sido: e = 0,1875 – 0,20 = – 0,0125 = – 1,25% El resultado de esta encuesta se hubiese expresado de la siguiente manera: El porcentaje de familias de Piura que consume dicho jabón es: p = 18,75% ± 5% Como resultado de dicha encuesta se afirma entonces que el porcentaje de familias de Piura que consume dicho jabón está comprendido entre 13,75% y 23,75%. Como se ve, la encuesta ha acertado con el resultado; pero, ¿qué tan probable era acertar? Precisamente había una probabilidad del 95% de acertar, y por lo tanto había una probabilidad del 5% de no acertar. Ejemplo 2:

Si se desea estrechar el rango de la estimación, es decir, bajar el máximo error muestral posible, será necesario aumentar el tamaño de la muestra, como se ve en el siguiente ejemplo: Sean: confiabilidad = 95% y emax = 2% n=

z 2 pq 1,96 2 × 0,25 = = 2401 2 e max (0,02) 2

O sea que si el verdadero valor de p fuese 0,20; es decir, si realmente el 20% de las familias de Piura compran cierto jabón, y con una muestra de 2401 familias se determina, por ejemplo, p1 = 0,1924 = 19,24%, entonces el error muestral hubiese sido: e = 0,1924 – 0,20 = – 0,0076 = – 0,76% El resultado de esta encuesta se hubiese expresado de la siguiente manera: El porcentaje de familias de Piura que consume dicho jabón es: p = 19,24% ± 2% Como resultado de dicha encuesta se afirma entonces que el porcentaje de familias de Piura que consume dicho jabón está comprendido entre 17,24% y 21,24%.

Otras distribuciones de probabilidad 86

9.2.2 Determinación del tamaño de una muestra estratificada para estimar proporciones de los estratos de una población infinita.

Si se quiere estimar una proporción poblacional para cada uno de los estratos en que se ha dividido una población, se tendrá que fijar la confiabilidad y el máximo error muestral que se desea tener en cada uno de estos estratos. Prácticamente, es como si se considerase cada estrato como una subpoblación Para decidir el tamaño de cada uno de los estratos de la muestra se pueden seguir dos métodos: Método 1: Estratos de la muestra proporcionales a los estratos de la población.

Ejemplo: ¿Cuál debe ser el tamaño de una muestra y cómo debe estar constituida, para estimar el porcentaje de familias de Piura de los estratos socioeconómicos AB, C y D que compran un determinado jabón, si se quiere tener una confiabilidad del 95% de que el error muestral no supere el 5% en ningún caso? Supóngase que en Piura los estratos socioeconómicos tienen la siguiente distribución: Estrato socioeconómico Porcentaje

AB 11,3

C 33,7

D 55

Si la muestra fuese de tamaño n = 385 familias, debería estar conformada de la siguiente manera: Estrato socioeconómico ni

AB C D 43,51 129,75 211,75

Por lo tanto, redondeando: nAB = 44 ; nC = 130 ; nD = 212 Pero si se considerasen estas “submuestras”, cuando se expresen los resultados de la encuesta para cada estrato, se tendrá que considerar el error muestral máximo que se comete con cada estrato, y éste se tendrá que calcular a partir de la misma fórmula que se ha deducido anteriormente:

z 2 pq n= 2 emax Dado el tamaño de una muestra (o submuestra), el error muestral máximo será entonces:

emax = z

pq n

Para cada estrato: eAB max = 1,96

0,25 = 0,1477 = 14,77 % 44

eC max = 1,96

0,25 = 0,0860 = 8,60 % 130

eD max = 1,96

0,25 = 0,0673 = 6,73 % 212

Como se ve, aunque los errores muestarles para la estimación en los estratos C y D no son tan grandes, para el estrato más pequeño (el AB), el error muestral es demasiado grande: 14,77%.

Otras distribuciones de probabilidad 87

Si se quisiera mantener las proporciones de los estratos, de tal manera que el error muestral del estrato más pequeño, es decir, el máximo de los errores muestrales, no supere el 5%, la muestra del estrato AB tendría que ser: nAB =

1,96 2 × 0,25 0,05 2

= 385 familias.

De esta manera, el error muestral máximo del estrato más pequeño será: eAB max = 5%. Si esta submuestra representa el 11,3%, la muestra completa será de tamaño: n = 385 × 100 / 11,3 =3 407,08 ⇒ 3407 familias. Y su error muestral máximo será: emax = 1,96

0,25 = 0,0168 = 1,68 % 3407

El tamaño de la submuestra del estrato C será: nC = 3407 × 33,7 / 100 = 1 148,16 ⇒ 1 148 familias. Y su error muestral máximo será: eC max = 1,96

0,25 = 0,0290 = 2,89 % 1148

El tamaño de la submuestra del estrato D será: nD = 3407 × 55 / 100 = 1 873,85

⇒ 1 874 familias.

Y su error muestral máximo será: eD max = 1,96

0,25 = 0,0226 = 2,26 % 1874

En la siguiente tabla se muestran las submuestras y sus errores muestrales máximos: Estrato socio-económico Tamaño de la submuestra Error muestral máximo AB 385 5% C 1148 2,89% D 1874 2,26% Total 3407 1,68%

De esta forma, si, por ejemplo, las encuestas realizadas mostrasen los siguientes resultados: Estrato socio-económico Familias consumen jabón J % que consumen jabón J AB 34 8,83% C 210 18,29% D 412 21,99%

Se deduce fácilmente, para toda la muestra, el porcentaje de familias que consumen jabón J: p1 =

34 + 210 + 412 = 0,1925 = 19,25% 3407

También se podría calcular este porcentaje como una media ponderada: p1 =

8,83 × 11,3 + 18,29 × 33,7 + 21,99 × 55 = 19,25% 100

Otras distribuciones de probabilidad 88

Finalmente, ¿qué porcentaje de familias de Piura, de los distintos estratos, se estima que compran el jabón J? PAB = 8,83% ± 5% PC = 18,29% ± 2,89% PD = 21,99% ± 2,26% El porcentaje estimado de familias de Piura que consumen jabón J será: P = 19,25% ± 1,68% Método 2: Estratos de la muestra no proporcionales a los estratos de la población.

El método 1 tiene un inconveniente que salta a la vista: el número de encuestas que hay que hacer es muy grande. ¿Cómo se podría evitar esto, sin llegar a tener algún error muestral máximo muy elevado? Una solución posible es considerar el mismo error muestral máximo para cada estrato; así se tendría el mismo tamaño de muestra. Ejemplo: Si se decide tener una confiabilidad del 95% de que el error muestral máximo de cada estrato sea el 5%, se tendría: nAB =

nC =

nD =

1,96 2 × 0,25 0,05 2 1,96 2 × 0,25 0,05 2 1,96 2 × 0,25 0,05 2

= 385 familias.

= 385 familias.

= 385 familias.

Una vez realizadas las encuestas y obtenidos los porcentajes de familias que compran jabón J, se tendrá que calcular el porcentaje de familias de todo Piura que consumen ese jabón. Supóngase que en las encuestas se obtuvieron los siguientes resultados: Estrato socio-económico Familias consumen jabón J % que consumen jabón J AB 31 8,05% C 74 19,22% D 93 24,16%

Se deduce, para toda la muestra, el porcentaje de familias que consumen jabón J: p1 =

8,05 × 11,3 + 19,22 × 33,7 + 24,16 × 55 = 20,67% 100

¿Qué porcentaje de familias de Piura, de los distintos estratos, se estima que compran el jabón J? PAB = 8,05% ± 5% PC = 19,22% ± 5% PD = 24,16% ± 5% El porcentaje estimado de familias de Piura que consumen jabón J será: P = 19,25% ± ¿? %

Otras distribuciones de probabilidad 89

¿Cuál será el error muestral máximo para la muestra completa? emax = 1,96

0,25 = 0,0288 = 2,88 % 1155

9.3 La distribución de la diferencia de dos proporciones. Sean dos universos independientes donde px y py representan proporciones de elementos con cierta característica. Si de ambos universos se extraen dos muestras de tamaño Nx y Ny, donde x e y indican la cantidad de elementos de cada muestra que tienen dicha característica, de modo que: p1 =

Y X ; p2 = ny nx

Si ambas proporciones p1 y p2 se distribuyen normalmente alrededor de px y py; entonces la diferencia (p1 – p2) también se distribuye normalmente alrededor de la diferencia (px - py). Si p1 y p2 son independientes, la desviación estándar de (p1 – p2) será, según se vio al final del capítulo 4:

σ (2p1 − p2 ) = σ 2p1 + σ 2p2

σ (2p

1 − p2 )

=

px qx p y q y + nx ny

La variable estandarizada correspondiente será: z=

( p1 − p2 ) − ( p x − p y ) ± f .c. px qx p y q y + nx ny

donde el factor de corrección (f.c.) es:

f .c. =

nx + n y 1 1 + = 2n x 2n y 2n x n y

Ejemplo: El Laboratorio de Electrónica de la UDEP necesita una gran cantidad de componentes electrónicos, que puede comprar a dos fábricas A y B. Los representantes de ambas fábricas han presentado sus cotizaciones, resultando más atractiva la de la fábrica A. Considerando esto, dicho laboratorio decide comprarle únicamente a la fábrica A si la proporción de componentes defectuosos es la misma en ambas fábricas, y, con mayor razón, si tal proporción es menor en la fábrica A. Bajo las suposición de que la proporción de componentes defectuosos es la misma en ambas fábricas, ¿cuál es la probabilidad de que, seleccionando aleatoriamente 180 y 200 componentes de las fábricas A y B, se encuentren 12 y 10 defectuosos, respectivamente? n1 = 180 ; p1 = 12/180 = 0,0667 n2 = 200 ; p2 = 10/200 = 0,05 Para determinar la desviación estándar de (p1 – p2) es necesario conocer pA y pB. En vista que estas proporciones son desconocidas, y asumiendo que son iguales, se puede estimar: pA = pB = p’ =

x+ y nx + n y

Otras distribuciones de probabilidad 90

Entonces: p' =

12 + 10 = 0,31579 ; 180 + 200

q’ = 1 – p’ = 0,68421

De esta manera la varianza resulta:

σ (2p

1 − p2 )

1 1 = p' q '  +  n   x ny 

y el factor de corrección: f.c.=

z=

= 0,31579 × 0,68421  1 + 1   180 200 

180 + 200 = 5,28 x 10-6 2(180)(200) (0,0667 − 0,05) − 0 − 5,28 × 10 −6

P = 0,3632

0,00228

= 0,35

= 0,00228

Otras distribuciones de probabilidad 91

Problemas propuestos. 1. 2. Las compañías de auditoría generalmente seleccionan una muestra aleatoria de los clientes de un banco y verifican los balances contables reportados por el banco. Si una compañía de este tipo se encuentra interesada en estimar la proporción de cuentas para las cuales existe una discrepancia entre el cliente y el banco, ¿cuántas cuentas deberán seleccionarse de manera tal que con una confiabilidad del 99%, la proporción de la muestra se encuentre a menos de 0,02 de la proporción real? 3. Un estudiante de Estadística quiere estimar la proporción de familias de la Urb. Miraflores que ve un determinado programa de televisión. Debido al elevado número de familias, resultaría muy laborioso tomar los datos de todas éstas. El alumno desea tomar una muestra y estimar dicha proporción con una probabilidad de no exceder un error de ± 10% .¿Qué tamaño de muestra debe tomar? 4. Un dado tiene tres caras rojas, dos blancas y una azul. Si este dado se lanza nueve veces, ¿cuál es la probabilidad de que cada uno de los colores aparezca tres veces?