Binomial

M.Sc. Edgar Eloy Carpio Vargas 2.1 Prueba Binomial. Variable de respuesta de dos categorías (dicotómicas) medidas nomin

Views 162 Downloads 0 File size 194KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

M.Sc. Edgar Eloy Carpio Vargas

2.1 Prueba Binomial. Variable de respuesta de dos categorías (dicotómicas) medidas nominales u ordinales. Esta prueba se emplea cuando los resultados del experimento se expresan en dos categorías dicotómicas (dos clases). Los dos tipos de resultados pueden ser: “masculino o femenino”; “miembro o no miembro”, “si o no”; “éxito o fracaso”; “negro o blanco”; “pasa o no pasa”, etc.). La distribución Binomial es la distribución de muestras de las proposiciones observadas en muestras tomadas al azar de una población de dos categorías. La prueba Binomial, en este caso se basa en la Distribución Binomial. En una prueba del signo, la Ho supone que para cada sujeto la ocurrencia de un resultado de diferencia "+" es tan probable como un "-". Ahora si existe interés en probar una Ho más general, según la cual la probabilidad de un "+" no sea igual a la probabilidad de un "-" se usa la prueba Binomial. Suposiciones en la que se fundamenta la prueba Binomial son: 1) Cada una de las n observaciones se puede clasificar según tenga o no la característica de interés. 2) Las n observaciones son independientes. 3) La probabilidad p de obtener la característica de interés permanece constante en todo el procedimiento de muestreo. Procedimiento Paso 1. Plantear la hipótesis nula y alterna. Paso 2. Elegir el nivel de significancia: Paso 3. Determinar la prueba estadística teniendo en cuenta: n: número total de casos observados, cantidad de muestra o experimentos a realizar. Determinar las frecuencias de ocurrencia observadas en cada una de las dos categorías (éxito para la menor) Escoger el método para encontrar la probabilidad entre los siguientes casos: Muestras pequeñas a) Si n  25 y P = Q (Muestras pequeñas con equiprobabilidad), para hallar el valor de p, se puede usar la tabla D o la fórmula. b) Si n  25 y Si P  Q, calcular las probabilidades asociadas utilizando formula simplificada binomial. Se debe obtener la probabilidad acumulativa desde 0 hasta el valor predicho X (o su complementaria si es más corta). ( = )=

Donde: P = proporción de casos esperados en una de las categorías Q = 1- P; proporción de casos esperados en la otra categoría Muestras grandes. Una muestra se considera “grande” si n >25. En este caso usar la aproximación de la binomial con la normal usando la formula corregida por continuidad. Paso 4. Región crítica: Muestras pequeñas: Si p  α, se rechaza Ho.

1

M.Sc. Edgar Eloy Carpio Vargas

Muestras grandes: Si p  α, se rechaza Ho. La tabla A proporciona probabilidades asociadas de p de una cola (para dos colas duplicar el valor de p). Aproximación de la Binomial con la normal Se puede demostrar que a medida que n (o N) incrementa, la distribución nula de B tiende a una normal. Esta es rápida cuando p es cercano a ½ y lenta cuando p es próxima 0 y 1. En otras palabras, se transforma el valor x de frecuencia observada a unidades tipificadas (Z), cuidando de efectuar la corrección por continuidad. También para su uso observe las siguientes condiciones: ≥ 5

≤9

La media y la varianza para B: =

=



=

=

La aproximación está dada por: =



=





(0,1)

Pero, para pasar de una distribución discreta (binomial) a una distribución continua (normal), es necesario realizar la corrección por continuidad que consiste en. =

( ∓ 0.5) −



(0,1)

Cuando B < np, añadimos 0.5 Cuando B > np, sustraemos 0.5 Potencia eficiencia Debido a que no hay técnicas paramétricas aplicados a datos medidos en una escala nominal carece de sentido inquirir en la potencia eficiencia. Al ser dicotomizado como continuo si en los datos resultantes se emplea la binomial puede actuar disipadoramente. En esos casos la potencia-eficiencia es del 95% con n de 6, disminuyendo a una eficiencia eventual (asintótica) de 2/π = 63%. Sin embargo, si los datos se presentan básicamente a la dicotomía, aunque la variable tenga en la base una distribución continua, la prueba binomial no tiene alternativa más poderosa. Análisis de la prueba Binomial Ejemplo 33. En un estudio de opiniones sobre la película de Mandingo en Canadá, se determino que la película les gusto al 30% del auditórium. Con la esperanza de que a los Británicos les gustará más esta película, se presenta en un auditorio Británico. La noche en que se presenta la película, solo asisten tres personas aparte del investigador. Ellos están separados lo suficiente para suponer que no han venido juntos y por lo tanto las respuestas serán independientes (no influenciadas). Luego de terminada la película, se pregunta su opinión acerca de la película a las tres personas, de los cuales dos personas opinaron que les gustó la película y obviamente la tercera opino que no. Se quiere probar, si los datos de este escaso auditorio son consistentes frente a los datos obtenidos en Canadá. 1)

Hipótesis estadística: 2

M.Sc. Edgar Eloy Carpio Vargas

2) 3)

Ho: Los datos son consistentes. La disposición hacia la película por Británicos es la misma a los Canadienses. P = 0.30 H1: Los datos no son consistentes. Existe mejor disposición hacia la película por parte de los Británicos. P > 0.30 Nivel de significancia = 0.05 Estadística de prueba, Binomial. Variable: opinión de la película Variable respuesta: Les gusto o no les gusto; dos categorías. Para mostrar los patrones de posibles resultados de la distribución x con características del ejemplo (con este procedimiento se calcula probabilidades establecidas en las tablas). Distribución nula de B P = 0.3 y Q = 0.70 (Resultados predichos, Canadienses). x = 2 de n = 3; (Británicos) Puesto que se toma una muestra sin reemplazo, hay 2n patrones de resultados posibles, en este caso 23 = 8. Tabla 16. Patrones de resultados posibles de la distribución B con 2 éxitos, n =3, P = 0.3 y Q = 0.7

Resultados posibles 1 2 3 4 5 6 7 8 4)

Persona 1 2 3 G G G N G G G N G G G N N N G N G N G N N N N N

Éxitos 3 2 2 2 1 1 1 0

Prob (0.3)(0.3)(0.3) (0.7)(0.3)(0.3) (0.7)(0.3)(0.3) (0.7)(0.3)(0.3) (0.7)(0.7)(0.3) (0.7)(0.7)(0.3) (0.7)(0.7)(0.3) (0.7)(0.7)(0.7)

0.027 0.189

0.441 0.343

Cuando B=1, significa que, la verdadera proposición de las personas a las que les gusta la película es 30%. Nuestro interés es cuando x=2, entonces, P(x=2) = 0.189, p(0.189) > α=0.05, no se rechaza la hipótesis nula. De esta manera, 3 personas no proporcionan evidencia confiable de que el auditorio canadiense aprecie el trabajo más que los británicos. La distribución nula de B siempre será asimétrica, excepto cuando p = 0.5 (este caso es idéntico a la prueba del signo). Uso de la formula simplificada para el ejercicio anterior. Conocemos que: n = 3; P = 0.3; Q = 0.7; x = 2, ( = 2) =

=

3 (0.3) (0.7) = 3(0.3) (0.7) = 0.189 2

Ejemplo 34. En un estudio sobre los efectos del estrés, un experimentador enseño a 18 estudiantes dos métodos diferentes para hacer un nudo. La mitad de los estudiantes aprendió antes el método A y la otra mitad, aprendió antes el método B. Mas tarde (después en un examen final a 4 horas) se pidió a cada sujeto que hiciera de nuevo el nudo. La predicción era que los sujetos retrocederían al método aprendido antes (el estrés induciría regresión). Cada sujeto fue clasificado de acuerdo al método aprendido antes o el aprendido después al pedírsele atar el nudo estando bajo tensión. 3

M.Sc. Edgar Eloy Carpio Vargas

Método para atar el nudo escogido bajo estrés Método escogido Aprendido aprendido Total Antes Después 16 2 18 Variable: Efectos de la tensión. Variable de respuesta: Aprendió uno de los dos métodos, antes o después. 1)

2) 3)

Hipótesis estadística: Ho: No existe diferencia entre la probabilidad de usar el método aprendido bajo tensión antes y la probabilidad de usar el método aprendido después. P1 = P2 = 0.5 H1: La probabilidad de usar el método aprendido bajo tensión antes es mayor a la probabilidad de usar el método aprendido después. (P1>P2) Nivel se significancia: α = 0.01 Estadística de contraste. Los datos se presentan en dos categorías, los métodos fueron asignados al azar. n=18; P=0.5; Q=0.5 existe la misma probabilidad de elegir el método; x = 2 (el menor) Tomemos x: el número de sujetos que usaron bajo tensión el segundo método.

4)

Decisión:

( = 2) =

18 (0.5) (0.5) 2

= 153(0.5) (0.5)

= 0.0005836

=

18! (0.5) (0.5) 2! (18 − 2)!

(0.0005836) < (0.01), Se rechaza Ho

Usando la tabla D. Para n = 18; P= 0.5; Q = 0.5 y x=2, p = 0.001 Decisión: p(0.001) < α(0.01). Se rechaza Ho La probabilidad de usar el método aprendido bajo tensión antes es mayor a la probabilidad de usar el método aprendido bajo tensión después con 1% de significancia. Note que cuando P =Q, puede usarse el complemento de B, en el ejemplo el complemento de x=2 es x=16. Entonces, 18 (B = 16) = (0.5) (0.5) = 153(0.5) (0.5) = 0.0005836 16 Más no funciona cuando p≠q (pruebe esta aseveración)

Ejemplo 35. Para casos de presión sanguínea alta, una droga particular es efectiva en el 60% de los pacientes. Se asegura que una droga nueva es más efectiva que la anterior. Para resolver se realiza la prueba en 10 voluntarios con presión sanguínea alta y de la prueba 8 de ellos manifestaron una mejoría sustancial ¿Confirman estos datos tal afirmación? use α = 0.05. Solución Variable: presión sanguínea alta Variable respuesta: Mejora o no mejora Muestra pequeña, n = 10; P = 0.6; Q = 0.4; x=8 Una prueba adecuada sería de una cola 1)

Hipótesis estadística: 4

M.Sc. Edgar Eloy Carpio Vargas

Ho: La modificación no es diferente a la original; P=0.6. La nueva droga no es más efectiva. H1: La modificación es más efectiva a la original; P>0.6. La nueva droga es más efectiva. 2) 3)

Nivel de significancia: α = 0.05 Estadística de contraste. Como P≠Q, entonces se usa la formula. ( = 8) =

4)

(0.6) (0.4) = 45(0.6) (0.4) = 0.1209

Decisión p(0.1209) > α(0.05). No se rechaza Ho. No existe evidencia que la nueva droga es mejor a la original.

Ejemplo 36. Cien estudiantes contestan una pregunta de opción múltiple con 5 alternativas como parte de un examen. Veintinueve de ellos dan con la respuesta correcta. ¿Es este resultado mejor que el que se esperaría al azar si ninguno de ellos supiera la respuesta? Solución Hipótesis estadística: Ho: Los resultados obtenidos son similares; P = (1/5)=0.2 H1: Los resultados son mejores de lo que se hubiera esperado al azar; P > 0.2 2) Nivel de significancia: = 0.05 3) Estadística de contraste. Variable: pregunta de opción múltiple Variable respuesta: Respuesta correcta o respuesta incorrecta. Muestra grande n = 100; La pregunta tiene 5 alternativas, solo una de ellas es correcta. Una prueba adecuada sería, de cola derecha debido a que se quiere probar si es mejor. 1)

X: respuesta correcta P=0.2, Q = 0.8, x = 29. = (100)(0.2) = 20

= =

= (100)(0.2)(0.8) = 16

x(29) > np(20) entonces se resta 0.5. Utilizando la formula: =

4)

( ∓ 0.5) −

=

(29 − 0.5) − 20 √16

= 2.125

Decisión: Hallemos la probabilidad usando la tabla A. El valor de p, para Z (2.125) es 0.0166. Entonces; p(0.0166) < α( 0.05). Se rechaza Ho. Los resultados son mejores de lo que se hubiera esperado al azar. Nota: para comparar Z calculada con Z crítica podemos usar las tablas de distribución acumulativa normal. Como valor puntual. Zt = Z0.05= 1.645 entonces: Z( 2.125) > Zt (1.645). Se rechaza Ho

Ejemplo 37. Un profesor de educación física de un colegio desea saber si es posible concluir que menos del 40% de los atletas participan en competencias deportivas principalmente por beneficios que derivan para la salud y el buen estado físico. Supongamos que se escoge un nivel de significancia de 5%. Para poder llegar a una decisión, se tomó una muestra de 16 atletas y se les entrevistó para determinar cuál es su razón por participar en los deportes. Luego de la encuesta se determinó que dos de los atletas participan principalmente por razones de salud y 5

M.Sc. Edgar Eloy Carpio Vargas

buen estado físico. ¿Es el hecho de que en una muestra de 16, dos tengan la característica de interés incompatible con la hipótesis de que el 40% o más de la población tienen la característica de interés?

1)

2) 3)

Solución Hipótesis estadística: Ho: La participación de los atletas es por obtener beneficios de salud y buen estado físico. P = 0.4 H1: Menos de 40% de los atletas participan en los deportes por beneficios de salud y buen estado físico. P < 0.4 Nivel de significancia: = 0.05 Estadística de contraste. Variable: Participación en deportes Variable respuesta: salud y buen estado físico o no. Muestra pequeña n = 16; P = 0.4; Q = 0.6; x = 2 Una prueba adecuada sería de una cola Izquierda, (x = 2) =

4)

16 (0.4) (0.6) 2

= 120(0.4) (0.6)

= 0.015

Decisión. p(0.015) < α(0.05): Se rechaza Ho. Menos de 40% de los atletas participan en los deportes por beneficios de salud y buen estado físico. El profesor tenía la razón. Suponiendo que se decidido resolver el ejercicio por una prueba de dos colas, entonces: 1) Ho: P = 0.4 H1: P ≠ 0.4. 2) α = 0.05 3) Estadística de contraste. 16 (x = 2) = (0.4) (0.6) = 120(0.4) (0.6) = 0.015 2 4) Decisión p = 2(0.015)=0.030 (nueva probabilidad para dos colas) Entonces p(0.030) < α (0.05). Se rechaza Ho.

Ejercicios del capítulo: 1)

En una maternidad ocurrieron 18 nacimientos en una semana, 11 de los cuales fueron varones. La hipótesis de trabajo es que la proporción de sexos es la habitual. ¿Existe evidencia significativa que pruebe que la proporción de sexos no es la habitual?

2)

El profesor del curso de regresión enseñó a un grupo de 20 alumnos dos formas de obtener un modelo de regresión simple (matricial y mínimos cuadrados). Seleccionó 10 al azar y enseñó primero el método matricial y más tarde el método de mínimos cuadrados; con el otro grupo procedió al revés: primero mínimos cuadrados y luego el matricial. Finalizado el curso, les tomó un examen final a los mismos 20 alumnos. ¿Puede concluir que por el estrés del examen habría una tendencia a usar el método aprendido antes? En un laboratorio que fabrica medicamento en ampollas, históricamente 10% de la producción presenta fallas de cierre hermético. Para probar la calidad de un lote fabricado se extraen 5 muestras al azar y se verifican. Si encuentran por lo menos una fallada se devuelve todo el lote, en caso contrario sale a la venta. Si se encuentran lotes con dos o más falladas se devuelven todo el lote. Si se encuentran lotes con tres o más falladas se devuelven todo el lote. ¿Con cuál de las tres políticas se tiene un nivel aceptable (1%) de rechazos?

3)

4)

En 90 pacientes se probó un nuevo medicamento y 10 de ellos no se curaron en el plazo previsto. La idea es aceptar la droga si logra mejoría en el 75% de los casos. ¿Qué decisión se debe tomar a la luz de estos resultados experimentales? 6

M.Sc. Edgar Eloy Carpio Vargas

5)

Se tiene enumerado 50 sobres con un nuevo fármaco y 50 sobres con placebo. Se introduce todos ellos enumerados en una caja con la finalidad de extraer aleatoriamente y administrarlos a 50 pacientes. Al cierre del estudio se conoce los siguientes resultados. Tratamiento con fármaco o placebo Si

No

No

Si

Si

Si

Si

Si

No

No

Si

Si

Si

Si

No

Si

Si

No

No

Si

Si

Si

No

Si

Si

Si

No

Si

Si

No

No

Si

No

Si

Si

No

No

Si

No

No

No

No

No

Si

No

No

Si

No

No

No

Se desea conocer si la proporción de pacientes tratados con el fármaco es igual a la proporción de pacientes tratados con placebo. 6) En una prueba de falso-verdadero un estudiante contestó correctamente 60 preguntas de un total de 100. Se desea probar si el estudiante conocía la materia ¿Cómo se plantearía la hipótesis? ¿El estudiante habrá contestado sin estudiar?, use α = 0.05.

7