Unidad 5 Estadistica Inferencial 1

TECNOLÓGICO NACIONAL DE MÉXICO INSTITUTO TECNOLÓGICO DE OAXACA INGENIERIA EN GESTION EMPRESARIAL UNIDAD 5 “ Pruebas de

Views 866 Downloads 7 File size 2MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

TECNOLÓGICO NACIONAL DE MÉXICO INSTITUTO TECNOLÓGICO DE OAXACA INGENIERIA EN GESTION EMPRESARIAL

UNIDAD 5 “ Pruebas de hipótesis con dos muestras y varias muestras con datos categóricos “

ESTADISTICA INFERENCIAL I

PROFESOR: ING. SERGIO ISIDRO LÓPEZ PÉREZ ALUMNO: RIOS LOPEZ ARMANDO FECHA DE ENTREGA: 29 DE MAYO DEL 2019 HORA: 17:00 – 18:00 HRS.

SEMESTRE: CUARTO

GRUPO : G

2

INDICE 5.1 PRUEBA Z PARA LA DIFERENCIA ENTRE DOS PROPORCIONES. 4 5.2 PRUEBA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.

9

5.3 PRUEBA PARA LA DIFERENCIA EN N PROPORCIONES Z.

14

5.4 PRUEBA DE INDEPENDENCIA (JI-CUADRADA).

17

5.5 PRUEBAS DE CONTINGENCIA (JI-CUADRADA).

22

5.6 PRUEBAS DE BONDAD DE AJUSTE.

28

5.7 APLICACIONES

34

BIBLIOGRAFIA

35

5.1 PRUEBA Z PARA LA DIFERENCIA ENTRE DOS PROPORCIONES. Esta prueba se basa en la aproximación normal de la distribución binomial. Queremos comparar dos proporciones, p1 y p2, observadas en dos grupos distintos de tamaños n1 y n2, respectivamente. Esta prueba es utilizable cuando los tamaños muestrales n1 y n2 son grandes, para poder aplicar el Teorema Central del Lim ́ ite. El objetivo de una prueba de dos muestras es determinar si las dos muestras independientes fueron tomadas de dos poblaciones, las cuales presentan la misma proporción de elementos con determinada característica. La prueba se concentra en la diferencia relativa (diferencia dividida entre la desviación estándar de la distribución de muestreo) entre las dos proporciones muestrales. Diferencias pequeñas denotan únicamente la variación casual producto del muestreo (se acepta H0), en tanto que grandes diferencias significan lo contrario (se rechaza H0). El valor estadístico de prueba (diferencia relativa) es comparado con un valor tabular de la distribución normal, a fin de decidir si H0 es aceptada o rechazada. Una vez más, esta prueba se asemeja considerablemente a la prueba de medias de dos muestras.

4

EJERCICIOS 1.- Una muestra de 87 mujeres trabajadoras profesionales mostró que la cantidad promedio que pagan a un fondo de pensión privado el 5% de su sueldo. Una muestra de 76 hombres trabajadores profesionales muestra que la cantidad que paga un fondo de pensión privado es 6.1% de su sueldo. Un grupo activista de mujeres desea demostrar que las mujeres no pagan tanto como los hombres en fondos de pensión privados. Si se usa alfa = 0.01 ¿Se confirma lo que el grupo activista de mujeres desea demostrar o no? Paso 1. Determinar la hipótesis Nula “Ho” y Alternativa “Ha”. Nótese que este problema es de una cola. Ho: Lo que pagan las mujeres en el fondo de pensión es mayor a lo que pagan los hombres Ha: Lo que pagan las mujeres en el fondo de pensión es menor a lo que pagan los hombres Paso 2. Determinar el nivel de significancia. Definida por el analista, en este caso se desea usar α = 0.01. Gráficamente el nivel de significancia se distribuye en la curva de distribución normal como se muestra en la figura:

5

Paso 3.
 Calcular los intervalos que implican ese nivel de significancia Para dicho nivel de significancia el valor de Z es: Z=-2.326 Gráficamente queda de la siguiente manera:

Paso 4.

6

2.- En un estudio de infección de vías urinarias no complicadas, los pacientes fueron asignados para ser tratados con trimetoprim / sulfametoxazol o fosfomicina / trometamol. 92% de los 100 tratados con fosfomicina/ trometamol mostraron curación bacteriológica mientras que el 61% de los 100 manejados con trimetoprim / sulfametoxazol se curó la infección. Cuando comparamos proporciones de muestras independientes, debemos primero calcular la diferencia en proporciones. El análisis para comparar dos proporciones independientes es similar al usado para dos medias independientes. Calculamos un intervalo de confianza y una prueba de hipótesis para la diferencia en proporciones. La notación que usamos para el análisis de dos proporciones es el mismo que para una proporción. Los números inferiores son para distinguir los dos grupos.

Parámetros

Población 12

Muestra 12

Proporción

π1 π2

p1 p2

Desviación estándar

√π1(1-π2) √π2(1- π2)

√p1(1-p1) √p2(1- p2)

En el estudio de infección de vías urinarias, la proporción en el grupo de fosfomicina/ trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61 Diferencia en proporciones = 0.92-0.61=0.31
 ES = √[(0.92(1-0.92)/100 + 0.61(10.61)/100] = 0.056 El intervalo de confianza al 95% sería:
 0.31 ± 1.96 (0.056) = 0.31±0.11 = 0.2 a 0.42
 El intervalo de confianza al 95% sería: 1.96 (0.056) = 0.31±0.11 = 0.2 a 0.42 Hipótesis

nula:

Cuando

comparamos

dos

proporciones

de

poblaciones

independientes es usualmente que las dos proporciones son iguales. Ho: π1 = π2
 Es lo mismo que si la diferencia en las proporciones de las dos

7

poblaciones es igual a 0. Ho: π1 - π2 = 0 Hipótesis alternativa:
 Es usualmente que las dos proporciones no son iguales.
 H1: π1 ≠ π2
 Es lo mismo que la diferencia en proporciones no es igual a cero.
 H1: π1 – π2 ≠ 0. 0.92 de éxito para fosfomicina / trometamol y 0.61 para trimetoprim / sulfametoxazol ES = 0.019 (p1-p2) – 0 0.31 - 0 z= -------------- = -----------= 16.3 ES(p1-p2) 0.019 P30, el estadígrafo de prueba es: se distribuye normal estándar. Regla de decisión: se determina de acuerdo a la hipótesis alternativa (si es bilateral o unilateral. En el caso de muestras pequeñas se utiliza la distribución Binomial. No lo abordaremos por ser complicado y poco frecuente su uso. Diferencia entre las proporciones de dos poblaciones La situación más frecuente es suponer que existen diferencias entre las proporciones de dos poblaciones, para ello suelen enunciarse las hipótesis de forma similar al caso de las medias:

Ho: p1 = p2 Þ p1 - p2 = 0 H1: p1 ¹ p2 Puede la hipótesis alternativa enunciarse unilateralmente.

9

Estimación de la Diferencia de dos Proporciones En la sección anterior se vio el tema de la generación de las distribuciones muestrales, en donde se tenía el valor de los parámetros, se seleccionaban dos muestras y podíamos calcular la probabilidad del comportamiento de los estadísticos. Para este caso en particular se utilizará la distribución muestral de diferencia de proporciones para la estimación de las mismas. Recordando la formula:

Despejando P1-P2 de esta ecuación:

Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos estimar, por lo que se utilizarán las proporciones de la muestra como estimadores puntuales:

10

EJERCICIOS 1.- Se considera cierto cambio en un proceso de fabricación de partes componentes. Se toman muestras del procedimiento existente y del nuevo para determinar si éste tiene como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y 80 de 2000 artículos del procedimiento nuevo también lo son, encuentre un intervalo de confianza de 90% para la diferencia real en la fracción de defectuosos entre el proceso actual y el nuevo. Solución: Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y nuevo, respectivamente. De aquí, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. con el uso de la tabla encontramos que z para un nivel de confianza del 90% es de 1.645.

0.0017 12.592 se rechaza Ho. Se procederá a calcular los valores esperados de cada celda. Como los grados de libertad son 6, esto quiere decir que necesitamos calcular únicamente 6 frecuencias esperadas, y las faltantes se encuentran por diferencia. Se calcularán los valores esperados E11, E12, E13, E21, E22 y E23. Como se necesitan los totales de renglón y columna se mostrarán en la tabla: Rango Instructor

Satisfacción en el

Profesor

Profesor

Profesor

Total

Mucha Regular Poca

40 78 57

asistente 60 87 63

asociado 52 82 66

63 88 64

215 335 250

Total

175

210

200

215

800

trabajo

25

Satisfacción

Instructor

Profesor

Total

asistente

Profesor asociado

Profesor

Mucha

40

60

52

63

215

Regular

(47.03) 78

(56.44) 87

(53.75) 82

(57.78) 88

335

Poca

(73.28) 57

(87.94) 63

(83.75) 66

(90.03) 64

250

Total

(54.69) 175

(65.62) 210

(62.50) 200

(67.19) 215

800

Decisión y justificación:
 Como el valor de 2.75 es menor que el de tabla 12.592, por lo tanto no se rechaza Ho y se concluye con un el trabajo y el rango son independientes.

=0.05 que la satisfacción en

2.- En un estudio de un taller, se reúne un conjunto de datos para determinar si la proporción de defectuosos producida por los trabajadores es la misma para el turno matutino, vespertino o nocturno. Se reunieron los siguientes datos: Matutino

Defectuosos No defectuosos

Vespertino 45 905

Nocturno 55 890

70 870

Utilice un nivel de significancia de 0.025 para determinar si la proporción de defectuosos es la misma para los tres turnos.

26

Solución: Ho; La proporción de artículos defectuosos es la misma para los tres turnos. H1; La proporción de artículos defectuosos no es la misma para los tres turnos. Grados de libertad: (r-1)(c-1) = (2-1)(3-1)=(1)(2) = 2 Regla de decisión: Si X2R 7.378 no se rechaza Ho. Si X2R > 7.378 se rechaza Ho. Se procederá a calcular los valores esperados de cada celda. Como los grados de libertad son 2, esto quiere decir que necesitamos calcular únicamente 2 frecuencias esperadas, y las faltantes se encuentran por diferencia.Se calcularán los valores esperados E11, y E22. Como se necesitan los totales de renglón y columna se mostrarán en la tabla: Matutino

Defectuosos No defectuosos Total

Vespertino 45 905 950

55 890 945

Nocturno

Total 70 870 940

170 2665 2835

Decisión:Si se busca este valor dentro de la tabla de ji-cuadrada con 2 grados de libertad nos dará un valor de P aproximado a 0.04. Si se observa el valor de la jicuadrada calculada de 6.29 con el valor de tabla de 7.378, se llega a la decisión de no rechazar Ho. Sin embargo sería riesgoso concluir que la proporción de defectuosos producidos es la misma para todos los turnos por tener un valor de P de 0.04.

27

5.6 PRUEBAS DE BONDAD DE AJUSTE. Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan

a

una

determinada

distribución,

esta

distribución

puede

estar

completamente especificada (hipótesis simple) o perteneciente a una clase paramétrica (hipótesis compuesta). Una hipótesis estadística se definió como una afirmación o conjetura acerca de la distribución f(x,q) de una o más variables aleatorias. Igualmente se planteó que la distribución podía tener uno o más parámetros desconocidos, que denotamos por q y que la hipótesis se relaciona con este parámetro o conjunto de parámetros En otros casos, se desconoce por completo la forma de la distribución y la hipótesis entonces se relaciona con una distribución específica f(x,q) que podamos asignarle al conjunto de datos de la muestra. El primer problema, relacionado con los parámetros de una distribución conocida o supuesta es el problema que hemos analizado en los párrafos anteriores. Ahora examinaremos el problema de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribución. Las pruebas estadísticas que tratan este problema reciben el nombre general de “Pruebas de Bondad de Ajuste”. Se analizarán dos pruebas básicas que pueden aplicarse: La prueba Chi - Cuadrado y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categoría de lo que en estadística se denominan pruebas de “Bondad de Ajuste” y miden, como el nombre lo indica, el grado de ajuste que existe entre la distribución obtenida a partir de la muestra y l a distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están basadas en la hipótesis nula de que no hay diferencias significativas entre la distribución muestral y la teórica. Ambas pruebas están basadas en las siguientes hipótesis: H0: f(x,q) = f0(x,q) H1: f(x,q) 1 f0(x,q)

28

Donde f0(x, q) es la distribución que se supone sigue la muestra aleatoria. La hipótesis alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. Si se desea examinar otra distribución específica, deberá realizarse de nuevo la otra prueba suponiendo que la hipótesis nula es esta nueva distribución. Al especificar la hipótesis nula, el conjunto de parámetros definidos por q puede ser conocido o desconocido. En caso de que los parámetros sean desconocidos, es necesario estimarlos mediante alguno de los métodos de estimación analizados con anterioridad. Para formular la hipótesis nula deberán tenerse en cuenta los siguientes aspectos o criterios: a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribución que siguen los tiempos de falla de unos componentes, podríamos pensar en una distribución exponencial, o una distribución gama o una distribución Weibull, pero en principio no consideraríamos una distribución normal. Si estamos analizando los caudales de un río en un determinado sitio, podríamos pensar en una distribución logarítmica normal, pero no en una distribución normal. b) Histograma. La forma que tome el histograma de frecuencia es quizás la mejor indicación del tipo de distribución a considerar.

29

Prueba de independencia

EJERCICIOS

Ejercicio de Bondad de Ajuste 1.- La distribución del número de entrevistas conseguidas por los 56 alumnos que participaron en el proyecto fue la siguiente: Compruebe la hipótesis a un nivel La distribución del número de entrevistas conseguidas por de los 56 alumnos qu significación del 95% participaron en el proyecto fue la siguiente: No. De Entrevistas 0 1 2 3 4 Solución:

No. De Alumnos 6 16 23 9 2

Compruebe la hipótesis a un nivel de significación del 95%

Solución: Paso 1. Redactar las hipótesis (Nula y Alternativa)
 La hipótesis Nula siempre se Paso 1.del Redactar hipótesis (Nula y Alternativa) redacta como una afirmación patrón las esperado:

La hipótesis Nula siempre se redacta como una afirmación del patrón esperad H0: Todos los estudiantes tienen la misma probabilidad de conseguir el mismo número de entrevistas.H0: Todos los estudiantes tienen la misma probabilidad de conseguir el mism número de entrevistas. H1: No Todos los estudiantes tienen la misma probabilidad de conseguir el mismo H1: No Todos los estudiantes tienen la misma probabilidad de conseguir el m número de entrevistas.número de entrevistas. Paso 2. Determinar losPaso grados de libertad los grados de libertad 2. Determinar

Clasificaciones -1 G.L.= Clasificaciones G.L.= -1 G.L.= No. De entrevistas -1 G.L.= No. De entrevistas -1
 G.L.= 5-1 = 4 G.L.= 5-1 = 4 Paso 3. Determinar el punto Crítico

2 Paso 3. Determinar elΧpunto Crítico (GL;α) Buscamos en la tabla de la distribución Chi-cuadrado con 4 grad libertad por el lateral y en la parte superior de la tabla el nivel de significaci Χ2 (GL;α) Buscamos 0,05. en la tabla de la distribución Chi-cuadrado con 4 grados de Encontramos que el valor crítico es 9,49 libertad por el lateral y en la parte superior de la tabla el nivel de significación de 0,05. Encontramos que el valor crítico es 9,49

30

G.L.= 5-1 = 4 Paso 3. Determinar el punto Crítico

Χ2 (GL;α) Buscamos en la tabla de la distribución Chi-cuadrado con 4 grado libertad por el lateral y en la parte superior de la tabla el nivel de significació 0,05. Encontramos que el valor crítico es 9,49

Prueba de independencia

Paso 4. Calcular las Esperanzas Paso 4. Calcular las Esperanzas Como el patrón esperado es que todos los estudiantes realicen el mismo número de entrevistas calcula un promedio entre las el númeroeldemismo número Como el patrónseesperado es que todos losobservaciones estudiantes yrealicen entrevistas. de entrevistas se calcula un promedio entre las observaciones y el número de entrevistas.

No. De Entrevistas

O

E

0 1 2 3 4

6 16 23 9 2 56

11,2 11,2 11,2 11,2 11,2 56

2,41 2,06 12,43

La sumatoria hasta aquí ya demuestra que sobrepasa el punto crítico lo que indica que se rechaza la H0

Paso 5.5.Tomar decisión. Paso Tomar la la decisión rechazala la hipótesis hipótesis nula con un un 5% 5% de significación. SeSe rechaza nula con de significación.

2.- Si un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de una lin ́ ea de ensamblaje y él desea verificar sobre la base de los datos que siguen, los números de llantas con defectos observadas en 200 dia ́ s, si es cierto que el 5% de todos los neumáticos tienen defecto; es decir, si el muestrea una población binomial con n = 10 y p = 0.05 Paso 1. Establecer la hipótesis Ho: La población es binomial

31

Ha: La población no es binomial Paso 2.- Establecer la estadiś tica de prueba

Paso 3 Definir el nivel de significancia y la zona de rechazo

Paso 4. Calcular el estadístico de prueba

y la probabilidad de 2 ó más = 1.0 -0.599 -0 .315 = 0.086 Ahora ya podemos encontrar las frecuencias esperadas:

32


 200 (0.599) = 119.8 200(0.315) = 63 200 (0.086) = 17.2

Como 8.26 es mayor que 5.99, se rechaza la hipótesis nula con un nivel de significancia de 0.05. Conclusión
 Se concluye que el porcentaje verdadero de neumáticos con defecto no es el 5%.

33

5.7 APLICACIONES Para la ocurrencia de dos eventos, en la cual se desea observar si son dependientes o independientes. La distribución ji cuadrada sirve para todas las inferencias sobre la variancia de una población. Existen muchos problemas para los cuales los datos son categorizados y los resultados expuestos en forma de conteos o cuentas. Se pueden aplicar en: un conjunto de calificaciones de un examen final puede ser representado como una distribución de frecuencias.Estos valores son cuentas: él numera de datos que caen en cada celda. En una encuesta determinada se podría preguntar a unas personas si votarían por los candidatos A, B o C, por lo general, los resultados se indican en una gráfica que informa acerca del número de votantes para cada categoría posible.

34

BIBLIOGRAFIA Berenson/Levine.(1991). Estadística para administración y economía. 1ª edición.Mc-Graw Hill Interamericana de mexico.estado de México. Irwin R. Miller/John E. Freud/Richard Johnson.(1992).probabilidad y estadística para ingenieros. 4ª edición. Traducido por Ing. Virgilio González Pozo.Prentice-Hall Hispanoamericana. Impreso en México. Leonard Kazmier/Alfredo Díaz Mata.(1993).estadística aplicada a la administración y a la economía.2ª edición. Traducido por Alfredo Díaz Mata. Mc-Graw Hill Interamericana de México de C.V.Impreso en México. http://www.virtual.unal.edu.com/cursos/sedes/marizales/403006/lecciones/ capituloes/tema7.html http://www.facmed.unam.mx/eptos/salud/sencenseneza/planunico/spi/a ntologia2012/s.pdf http://eecrib.com/doc/82253086/unidad-iv-pruebas-de-hipotesis-con-dosmuestras-y-varias-muestras-de-datos-numericos. http://www.itchihuahua.edu.mx/academic/industrial/estadistica1/cap04c. html

35