Apuntes u2 Mtc 1014

2.1 Inferencia estadística. 2.1.1 Concepto. La inferencia estadística es el conjunto de métodos y técnicas que permiten

Views 239 Downloads 41 File size 2MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

2.1 Inferencia estadística. 2.1.1 Concepto. La inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir de la información empírica proporcionada por una muestra, cual es el comportamiento de una determinada población con un riesgo de error medible en términos de probabilidad. 2.2.2 Muestreo. Selección de un conjunto de personas o cosas que se consideran representativos del grupo al que pertenecen, con la finalidad de estudiar o determinar las características del grupo. "para hacer una buena encuesta se necesita antes hacer un buen muestreo"

Técnica empleada en esta selección.

En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población), se selecciona una muestra, entendiendo por tal una parte representativa de la población. El muestreo es por lo tanto una herramienta de la investigación científica, cuya función básica es determinar que parte de una población debe examinarse, con la finalidad de hacer inferencias sobre dicha población. La muestra debe lograr una representación adecuada de la población, en la que se reproduzca de la mejor manera los rasgos esenciales de dicha población que son importantes para la investigación. Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la población, es decir, ejemplificar las características de ésta. Los errores más comunes que se pueden cometer son: 1. Hacer conclusiones muy generales a partir de la observación de sólo una parte de la Población, se denomina Error de Muestreo. 2. Hacer conclusiones hacia una Población mucho más grande de la que originalmente se tomó la muestra, se denomina Error de Inferencia. En la estadística se usa la palabra población para referirse no sólo a personas sino a todos los elementos que han sido escogidos para su estudio y el término muestra se usa para describir una porción escogida de la población.

TIPOS DE MUESTREO Existen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: Métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos. I.

Muestreo probabilístico:

Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos: Muestreo aleatorio simple. El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande.

Muestreo aleatorio sistemático. Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k. El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una

homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y las 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos. 3.Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,…etc). La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales. Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. Afijación Optima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación. 4.- Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos. II. Métodos de muestreo no probabilísticos A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos, aun siendo conscientes de

que no sirven para realizar generalizaciones (estimaciones inferenciales sobre la población), pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de se elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando, en la medida de lo posible, que la muestra sea representativa. En algunas circunstancias los

métodos estadísticos y

epidemiológicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilístico, por ejemplo los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la población. Entre los métodos de muestreo no probabilísticos más utilizados en investigación encontramos: 1.- Muestreo por cuotas: También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en Gijón. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión. 2.- Muestreo intencional o de conveniencia: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. También puede ser que el investigador seleccione directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). 3.- Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc. 4.- Muestreo Discrecional · A criterio del investigador los elementos son elegidos sobre lo que él cree que pueden aportar al estudio.

2.1.3 Estimación

Introducción

Tradicionalmente, los problemas de inferencia estadística se dividen en problemas de estimación y pruebas de hipótesis, aunque en realidad todos son problemas de decisión y, por tanto, se pueden manejar con un enfoque unificado. La diferencia principal entre las dos clases de problemas es que en los problemas de estimación debemos determinar el valor de un parámetro (o los valores de varios parámetros) de un conjunto posible de alternativas, mientras que en las pruebas de hipótesis debemos decidir si aceptamos o rechazamos un valor especifico, o un conjunto de valores específicos, de un parámetro (o los de varios parámetros).

Características de un estimador

Puesto que los estimadores son variables aleatorias, uno de los problemas clave de la estimación puntual es estudiar las distribuciones muestrales. Por ejemplo, cuando estimamos la varianza de una población con base en una muestra aleatoria, difícilmente podemos esperar que el valor de S 2 que obtenemos será realmente igual a  2 , pero nos tranquilizaría, al menos, saber si podemos esperar que esté cerca. También, debemos decidir si usar una media de la muestra o una mediana de la muestra para estimar la media de una población, sería importante saber, entre otras cosas, si X o X es más probable que nos dé un valor que sea en realidad cercano. Así, se pueden usar diversas propiedades estadísticas de los estimadores, para decidir que estimador es más apropiado en una situación dada, cual nos expone a un riesgo más pequeño, cuál nos dará la mayor información al costo más bajo, y así sucesivamente. Las propiedades de los estimadores más conocidas son insesgabilidad, varianza mínima, eficiencia, consistencia, suficiencia y robustez.

Estimación por intervalos

La estimación puntual es una forma común para expresar las estimaciones, deja espacio para muchas preguntas. Por ejemplo, no nos dice en cuánta información se basa la información, ni nos dice nada sobre el tamaño posible del error. Como en el caso de la estimación puntual, los métodos de estimación de intervalo se juzgan por sus diversas propiedades estadísticas. Por ejemplo, una propiedad deseable es que la longitud de un intervalo de confianza de 1   100% sea tan corta como sea posible; otra propiedad deseable es que la longitud esperada, sea tan pequeña como sea posible.

2.1.4 Prueba de hipótesis. Introducción Todo mundo toma decisiones en la vida diaria. Algunas de estas decisiones son de fundamental importancia y otras son aparentemente insignificantes. Todas las decisiones siguen el mismo patrón básico, se ponderan las alternativas; luego, con base en las convicciones y preferencias personales, y cual sea la evidencia disponible, se llega a una decisión y e emprende la acción idónea. La prueba de hipótesis estadística sigue casi el mismo proceso, excepto de implicar información estadística. En esta sección se desarrollaran muchos de los conceptos y actitudes de la prueba de hipótesis, a la vez que se consideraran varias situaciones de toma de decisiones sin emplear la estadística. Problemas como cuando un ingeniero tiene que decidir con base en datos muestrales si el verdadero promedio de vida de cierta clase de neumático es, por lo menos, 22,000 millas, cuando un agrónomo tiene que decidir con base en experimentos si una clase de fertilizante produce un rendimiento más alto de frijol de soya que otro, y cuando un fabricante de productos farmacéuticos tiene que decidir con base en muestras si 90 por ciento de todos los pacientes que reciben un nuevo medicamento se recuperarán de cierta enfermedad, se pueden traducir al lenguaje de las pruebas estadísticas de hipótesis. En el primer caso podríamos decir que el ingeniero tiene que probar la hipótesis de que  , el parámetro de una población exponencial, es por lo menos 22,000; en el segundo caso podríamos decir que el agrónomo tiene que decidir si 1  2 , donde 1 y 2 son las medias de dos poblaciones normales; y en el tercer caso podríamos decir que el fabricante tiene que decidir si  , el parámetro de una población binomial, es igual a 0.90. En cada caso se debe suponer, por supuesto, que la distribución escogida describe correctamente las condiciones experimentales; esto es, la distribución proporciona el modelo estadístico correcto. Una Hipótesis estadística es una afirmación o conjetura acerca de la distribución de una o más variables aleatorias. Si una hipótesis estadística especifica completamente la distribución, se conoce como Hipótesis simple; si no, se conoce como Hipótesis compuesta. Una hipótesis simple debe, por consiguiente, especificar no solo la forma funcional de la distribución subyacente, sino también los valores de todos los parámetros. Así, en el ejemplo que trata de la efectividad del nuevo medicamento, la hipótesis 𝜃 = 0.90 es simple, suponiendo, claro está, que especificamos el tamaño de la muestra y que la población es binomial. Sin embargo, en el primero de los

ejemplos anteriores la hipótesis es compuesta ya que 𝜃 ≥ 22,000 no asigna un valor específico al parámetro 𝜃. Para poder construir un criterio apropiado para probar hipótesis estadísticas, es necesario que también formulemos Hipótesis alternativas. Para ilustrar esto, supongamos que seguimos el ejemplo que trata de la vida de los neumáticos, podríamos formular la hipótesis alternativa de que el parámetro θ de la población exponencial es menos de 22,000; en el ejemplo que trata con las dos clases de fertilizantes, podríamos formular la hipótesis alternativa 𝜇1 = 𝜇2 ; y en el ejemplo que trata del nuevo medicamento, podríamos formular la hipótesis alternativa de que el parámetro 𝜃 de la población binomial dada es solo 0.60, que es la tasa de recuperación de la enfermedad sin el nuevo medicamento. Frecuentemente, los estadísticos formulan como sus hipótesis exactamente lo contrario de lo que quieren demostrar. Por ejemplo, si queremos demostrar que los estudiantes de una escuela tienen un promedio de IQ más alto que los de otra escuela, podríamos formular la hipótesis de que no hay diferencia: la hipótesis 𝜇1 = 𝜇2 . Con esta hipótesis sabemos qué esperar, pero este no sería el caso si formulamos la hipótesis 𝜇1 > 𝜇2 , a menos que especifiquemos la diferencia real entre 𝜇1 𝑦 𝜇2 . De igual forma, si queremos demostrar que una clase de mineral tiene un porcentaje más alto de contenido de Uranio que otra, podríamos formular la hipótesis de que los dos porcentajes son iguales; y si queremos demostrar que hay una mayor variabilidad en la calidad de un producto de la que hay en la calidad de otro, podríamos formular la hipótesis de que no hay diferencia; esto es,  1   2 . En vista de las suposiciones de “no hay diferencia”, hipótesis como éstas nos llevan al término Hipótesis nula, pero hoy en día este término si es válido para cualquier hipótesis que quisiéramos probar. Confiabilidad y Significancia Confiabilidad: Cuando hablamos de confiabilidad, hablamos de nivel de confianza y lo expresamos como porcentaje. Por ejemplo, “establezca con un nivel de confianza del 95 %, que la proporción de productos defectuosos, no pasa de 30, …….” Significancia: Cuando hablamos de significancia, hablamos de nivel de significancia y lo expresamos como una fracción. Por ejemplo, “de acuerdo a la evidencia mostrada, podemos decir, con un nivel de significancia de 0.05, que los datos muestreados, tienen una distribución normal” Errores tipo I y tipo II 1. El rechazo de la hipótesis nula cuando es verdadera se llama Error de tipo I: la probabilidad de cometer un error de tipo I se denota con  . 2. La aceptación de la hipótesis nula cuando es falsa se llama Error de tipo II; la probabilidad de cometer un error de tipo II se denota con  .

Antes de seguir adelante, necesitamos ver los cuatro posibles resultados que podrían manifestarse de que la hipótesis nula sea verdadera o falsa, y de que la decisión sea “rechazar H 0 ” o “no rechazar H 0 ”.

Cuatro posibles resultados en una prueba de hipótesis Decisión estadística basada en la información

H0

H0

es verdadera

es falsa

No se rechaza H 0

Decisión correcta cuya probabilidad es 1  

Se comete el Error tipo II con probabilidad 

Se rechaza H 0

Se comete el Error tipo I con probabilidad 

Decisión correcta cuya probabilidad es 1  

Ejemplo: En una fábrica, el supervisor ha percibido que el nivel del café en los envases… Pag. 315-321 Potencia de la prueba Cuando se toma una decisión, sería bueno siempre tomar la decisión correcta. Esto, sin embargo, no es posible en estadística porque tomamos nuestras decisiones con base en información muestral. Lo mejor que podemos esperar es controlar la probabilidad con la que ocurre un error. Ya dijimos que la probabilidad asignada al error tipo I es  . La probabilidad del error tipo II es  . Para controlar estos errores asignamos una pequeña probabilidad a cada uno de ellos. Los valores de probabilidad para  y  que se usan con más frecuencia son 0.01 y 0.05 La probabilidad asignada a cada error depende de su gravedad; cuando más grave sea el error, menos dispuestos estamos a hacer que ocurra, y, por tanto, se asignará un probabilidad más pequeña.  y  son probabilidades de errores, cada una bajo condiciones separadas, y no se pueden combinar. En consecuencia, no es posible determinar una sola probabilidad para tomar una decisión incorrecta. Del mismo modo, las dos decisiones correctas están claramente separadas y cada una tiene su propia probabilidad; 1   es la probabilidad de una decisión correcta cuando la hipótesis nula es verdadera; y 1   es la probabilidad de una decisión correcta cuando la hipótesis nula es falsa. 1   Recibe el nombre de potencia de la prueba estadística, porque es la medida de la capacidad de una prueba de hipótesis para rechazar una hipótesis nula falsa, una característica muy importante. La prueba de una hipótesis estadística es la aplicación de un conjunto explícito de reglas para decidir si aceptamos la hipótesis nula o la rechazamos en favor de la hipótesis alternativa. Suponga, por ejemplo, que un estadístico desea probar la hipótesis nula    0 contra la hipótesis alternativa   1 . Para tomar una decisión, generará datos muestrales por medio de un experimento y después calculará el valor de un estadístico de prueba, que le dirá qué acción tomar para cada resultado posible del espacio muestral. El procedimiento de prueba, por consiguiente, divide los valores posibles del estadístico de prueba en dos regiones: una región de aceptación para H0 y una región de rechazo para H0. Es costumbre referirse a la región de rechazo para H0 como la región critica de la prueba, y a la probabilidad de obtener un valor del estadístico de prueba dentro de la región critica, cuando H0 es verdad,

como el tamaño de la región critica. Así, el tamaño de una región critica es justamente la probabilidad  de cometer un error de tipo I. Ésta probabilidad también se llama el nivel de significancia de la prueba. Ejercicio: Con respecto al fabricante del nuevo medicamento, suponga que éste quiere probar la hipótesis nula   0.90 contra la hipótesis alternativa   0.60 Su estadístico de prueba es x , el número de éxitos observados (recuperaciones) en 20 intentos, y aceptará la hipótesis nula sí x  14 ; de otra manera la rechazará. Encuentre  y  . Solución: La región de aceptación para la hipótesis nula es x  15,16,17,18,19 y 20 y, correspondientemente, la región de rechazo (o región crítica) es x  1, 2, 3,......14 Por consiguiente, de la tabla I:   P  x  14;   0.90  0.0114 y   P  x  14;   0.60  0.1255 Conclusión: Como β > α se comete un Error tipo II, por tanto rechazamos la hipótesis nula.

Utilizando el software Minitab, las gráficas de las probabilidades quedan así:

Gráfica de distribución

Gráfica de distribución

Normal, Media=10, Desv.Est.=1

0.4

0.4

0.3

0.3 Densidad

Densidad

Normal, Media=10, Desv.Est.=1

0.2

0.2

0.1

0.1

0.1256 0.0

0.0114 10 X

12.3

=DISTR.BINOM.N (14, 20,0.9, 1)=0.0114

0.0

8.85

10 X

=1-DISTR.BINOM.N (14, 20,0.6, 1)=0.1256

Un buen procedimiento de prueba es aquel donde ambas  y  son pequeñas, de ese modo nos da una buena oportunidad de tomar la decisión correcta. La probabilidad de un error tipo II en el ejemplo es más bien alta, pero esta se puede reducir al cambiar en forma apropiada la región critica. Por ejemplo, si usamos la región de aceptación x  15 en este ejemplo de manera que la región critica sea x  15 , se puede comprobar con facilidad que esto haría   0.0433 y   0.0509 . Así, aunque se ha reducido la probabilidad de un error de tipo II, se ha vuelto más grande la probabilidad de un error de tipo I.

La única forma en que podemos reducir las probabilidades de ambos tipos de errores es aumentar el tamaño de la muestra, pero mientras n se mantenga fija, esta relación inversa entre las probabilidades de errores de tipo I y de tipo II es típica de los procedimientos de decisión estadísticos. En otras palabras, si la probabilidad de un tipo de error se reduce, la del otro tipo de error aumenta.

2.1.5 Método clásico de estimación puntual. Estimación puntual Cuando usamos el valor de una estadística para estimar un parámetro de población, llamamos a esto estimación puntual, y nos referimos al valor de la estadística como un estimador puntual del parámetro. Por ejemplo, si usamos el valor de X para estimar la media de una población, una proporción muestral observada para estimar el parámetro  de una población binomial, o un valor de S 2 para estimar una varianza de población, en cada caso usamos una estimación puntual del parámetro en cuestión. Estas estimaciones se llaman estimadores puntuales porque en cada caso un número único, o un punto único en el eje real, se usa para estimar el parámetro. Correspondientemente, nos referimos a las estadísticas mismas como estimadores puntuales. Por ejemplo, X se puede usar como un estimador puntual de  , en cuyo caso x es un punto estimado de este parámetro. En forma similar, S 2 se puede usar como un estimador puntual de  2 , en cuyo caso s 2 es un estimador puntual de este parámetro. Aquí usamos la palabra “puntual” para distinguir entre estimadores y estimaciones. 2.1.6 Estimador insesgado. Se dice que un estimador es insesgado si la media de la distribución del estimador es igual a la del parámetro. Estimadores insesgados son la Media muestral (estimador de la media de la población) y la Varianza muestral (estimador de la Varianza poblacional)

̅⇒𝝁 𝒙 𝒔𝟐 ⇒ 𝝈𝟐 2.2 Intervalos de confianza. Intervalo de confianza para la media Para ilustrar cómo se puede evaluar el tamaño posible de los errores en la estimación puntual, supongamos que la media de una muestra aleatoria se va a usar para estimar la media de una población normal con varianza conocida  2 .

Teorema 1: Si 𝑥̅ , la media de una muestra aleatoria de tamaño n de una población normal con la varianza conocida  2 , se va a usar como un estimador de la media de la población, la probabilidad es 1   de que el error será menor que

z 

 n

2

Ejemplo: Un equipo de expertos en eficiencia intenta usar la media de una muestra aleatoria de tamaño n  150 para estimar el promedio de la aptitud mecánica de los trabajadores de una línea de ensamble en una industria grande. Si basados en la experiencia, los expertos en eficiencia pueden suponer que   6.2 para esos datos, ¿Qué pueden afirmar con probabilidad de 0.99 acerca del error máximo de su estimación? Solución: Sustituimos n  150 ,   6.2 y z  2.575 en la expresión para el error máximo, y obtenemos 2

2.575 

6.2  1.30 , así, los expertos en eficiencia pueden afirmar con probabilidad de 0.99 que 150

su error será menor que 1.30 Intervalo de confianza para µ, con σ conocida Como x es un estimador suficiente de la media de una población normal con varianza conocida  2 , lo utilizaremos para obtener un intervalo de confianza de  de una población de este tipo. Teorema 2: Si x es el valor de la media de una muestra aleatoria de tamaño n de una población normal con la varianza conocida  2 , entonces

x  z  2

 n

    z  2

 n

Es un intervalo de confianza de 1    100% para la media de la población.

Ejemplo: Si una muestra aleatoria de tamaño n  20 de una población normal con la varianza

 2  225 tiene la media x  64.3 , construya un intervalo de confianza del 95% para la media de la población  . Solución: Sustituimos n  20 ,   15 , x  64.3 y z0.025  1.96 en la fórmula del intervalo de confianza, y obtenemos

64.3  1.96 

15 15    64.3  1.96  20 20

57.7    70.9

Intervalo de confianza para µ, con σ desconocida y muestra pequeña Cuando estamos tratando con una muestra aleatoria de una población normal, n  30 y

 es desconocida, no podemos usar la fórmula anterior, debemos usar Teorema 3: Si x y s son los valores de la media y la desviación estándar de una muestra aleatoria de tamaño n de una población normal con la varianza  2 desconocida, entonces

x  t

2

, n 1



s s    x  t , n1  2 n n

Es un intervalo con 1    100% de confianza para la media de la población.

Ejemplo: Un fabricante de pinturas quiere determinar el tiempo promedio de secado de una pintura de muros interiores. Si para 12 áreas de prueba del mismo tamaño ha obtenido una media de tiempo de secado de 66.3 minutos y una desviación estándar de 8.4 minutos, construya un intervalo de confianza del 95% para la media verdadera  . Solución:

Al sustituir x  66.3 , s  8.4 y

t0.025, 11  2.201 , el intervalo de confianza del 95% para  se

vuelve 66.3  2.201 

8.4 8.4    66.3  2.201  12 12

61.0    71.6

Esto significa que podemos afirmar con 95% de confianza que el intervalo de 61.0 minutos a 71.6 minutos contiene el verdadero promedio del tiempo de secado de la pintura. Intervalo de confianza para la diferencia de medias

Para muestras aleatorias independientes de poblaciones normales

Z

X

1

 12

Tiene



 X 2    1  2 

la

n1



 22

distribución

P  Z  Z  Z 2

Teorema 4: Si X 1 tamaño n1

n2

2

normal

estándar.

Si

sustituimos

esta

expresión

por

Z

en

  1  nos da la siguiente fórmula para el intervalo de confianza para    1

y

X 2 son los valores de las medias de muestras aleatorias independientes de

y n2 de poblaciones normales con las varianzas conocidas  12

 X  X   Z

* 2

12

n1



 22

n2

 1  2   X  X   Z * 2

y  22 , entonces

12

n1



 22

n2

Es un intervalo de confianza del 1   100% para la diferencia entre las dos medias de las poblaciones

2

Ejemplo: Construya un intervalo de confianza del 94% para la diferencia entre las vidas medias de dos clases de focos, dado que una muestra aleatoria de 40 focos de la primera clase duró en promedio 418 horas de uso continuo y 50 focos de la segunda clase duraron en promedio 402 horas de uso continuo. Las desviaciones estándar de las poblaciones se sabe que son

1  26 y  2  22 .

Solución: Para   0.06, Z0.03  1.88 , Por consiguiente, el intervalo de confianza del 94% para 1  2 es

 418  402 1.88*

262

2

40

 22

50

2  1  2   418  402   1.88* 26

40

 22

2

50

6.3  1  2  25.7

Por tanto, estamos 94% seguros de que el intervalo de 6.3 a 25.7 horas contiene la diferencia real entre las vidas medias de las dos clases de focos. El hecho de que ambos límites de confianza son positivos sugiere que en promedio la primera clase de focos es superior a la segunda. EJERCICIOS DE LA UNIDAD II Tema: Intervalos de confianza para la media 11.15 Un estudio del crecimiento anual de ciertos cactus mostro que 64 de ellos, seleccionados aleatoriamente en una región desértica crecieron en promedio 52.80 mm con una desviación estándar de 4.5 mm Construya un intervalo de confianza del 99 % para el verdadero promedio de crecimiento anual de la clase de cactus dada. 11.19 Un experto en eficiencia quiere determinar la cantidad promedio de tiempo que tarda la cuadrilla de un foso en cambiar un juego de cuatro neumáticos a un auto de carreras. Use la fórmula propuesta para calcular el tamaño de la muestra (n) que se necesita para que el experto en

eficiencia pueda afirmar con 95% de probabilidad que la media de la muestra diferirá de µ, la cantidad a ser estimada, en menos de 2.5 segundos. Se sabe por estudios previos que 𝜎 = 12.2 𝑠𝑒𝑔𝑢𝑛𝑑𝑜𝑠}. 𝜎2 𝑛 = [𝑧𝛼⁄2 ∗ ] 𝑒 11.21 La longitud de los cráneos de 10 esqueletos fósiles de una especie extinta de pájaros tiene una media de 5.68 cm y una desviación estándar de 0.29 cm. Suponga que esas mediciones están distribuidas normalmente, encuentre un intervalo de confianza del 95 % para la media de la longitud de los cráneos de esta especie de pájaro. Tema: Intervalos de confianza para la diferencia de medias 11.25 Un estudio de dos clases de equipo de fotocopiado muestra que 61 averías del equipo de la primera clase se llevaron en promedio 80.7 minutos en ser reparadas con una desviación estándar de 19.4 minutos, mientras que 61 averías del equipo de la segunda clase se llevaron en promedio 88.1 minutos en ser reparadas con una desviación estándar de 18.8 minutos. Encuentre un intervalo de confianza del 99 % para la diferencia entre los verdaderos promedios del tiempo que toma reparar las averías de las dos clases de equipo de fotocopiado. 11.27 Las siguientes son las capacidades calóricas del carbón de dos minas (en millones de calorías por tonelada): Mina A: 8 500 8 330 8 480 7 960 8030 Mina B: 7 710 7 890 7 920 8 270 7 860 Suponga que los datos constituyen muestras aleatorias independientes de poblaciones normales con varianzas iguales, construya in intervalo de confianza del 99 % para la diferencia entre los promedios verdaderos de las capacidades calóricas del carbón de las dos minas.

3.6 Prueba de hipótesis para la media

En esta sección examinaremos las pruebas concernientes a la media de una población que se usan más ampliamente. Todas las pruebas en esta sección se basan en la teoría de la distribución normal, se supone que las muestras provienen de poblaciones normales o que son suficientemente grandes para justificar las aproximaciones normales. Suponga que queremos probar la hipótesis nula   0 contra una de las alternativas

  0 ,   0 y   0 sobre la base de una muestra aleatoria de tamaño n de una población normal con la varianza conocida  2 . Como indicamos anteriormente, los niveles de significancia que más comúnmente se usan son 0.05 y 0.01 y como hemos visto en ejemplos anteriores: z y z

dan 2

z0.05  1.645, z0.01  2.33, z0.025  1.96 y z0.005  2.575 Ejemplo 10: En relación con el ejemplo 1, el diseño del experimento para contrastar la hipótesis del supervisor especifica que debe seleccionar una muestra de 16 envases obtenidos al azar de la línea de producción. Si la muestra arrojo una media de X  302.5 gr , ¿a qué decisión se llega con un nivel de confianza del 95%, suponiendo que la muestra proviene de una población distribuida normalmente, con varianza  2  9 ? Solución: H a :   300 i. La hipótesis estadística es: H 0 :   300 ii. Estadístico de prueba: La población de interés X  " Contenido de café en los envases " está normalmente distribuida, así que no interesa el tamaño de la muestra y como se conoce la varianza de la población  2  9 , entonces el estadístico de prueba es: X  que tiene una distribución normal estándar. Z  n iii. Regla de decisión: Por ser una prueba de cola derecha se tiene que para α=0.05, el valor crítico es: 𝑍1−𝛼 = 𝑍0.95 = 1.645. Luego la regla de decisión es: Rechace H0 si 𝒁𝑪𝒂𝒍𝒄 > 𝟏. 𝟔𝟒𝟓 iv. Decisión estadística: Los datos con los que se cuenta son: ̅ = 𝟑𝟎𝟐. 𝟓, 𝝈𝟐 = 𝟗, 𝝈 = 𝟑. 𝒏 = 𝟏𝟔, 𝑿 ̅ −𝝁 𝑿

Con estos datos resulta que 𝒁𝑪𝒂𝒍𝒄 = 𝝈

⁄ 𝒏 √

v.

=

𝟑𝟎𝟐.𝟓−𝟑𝟎𝟎 𝟑⁄ √𝟏𝟔

𝟐.𝟓

𝟏𝟎

⁄𝟒

𝟑

=𝟑 =

= 𝟑. 𝟑𝟑𝟑, por tanto, la

decisión es: “rechácese H0” ya que 𝑍𝐶𝑎𝑙𝑐 = 3.333 > 1.645 Decisión técnica: Se presenta la probabilidad de un error tipo I, controlada con el nivel de significancia α; la decisión estadística de rechazar H0 implica aceptar Ha, y como la hipótesis alternativa establece que µ>300, entonces la decisión técnica debe ser “”detener el proceso de producción y llamar al personal especializado para que ajuste la máquina envasadora).

Ejemplo 11: Suponga que por experiencia se sabe que la desviación estándar del peso de paquetes de 8 onzas de galletas de cierta pastelería es de 0.16 onzas. Para comprobar si su producción está bajo control en un día dado, esto es, comprobar si el peso promedio verdadero de los paquetes es 8 onzas, los

empleados seleccionan una muestra aleatoria de 25 paquetes y encuentran que la media de su peso es x = 8.091 onzas. Puesto que la pastelería pierde dinero cuando μ > 8 y el cliente pierde cuando μ < 8, pruebe la hipótesis nula μ = 8 contra la hipótesis alternativa μ ≠ 8 al nivel 0.01 de significancia. Solución

H0 :   8 H1 :   8

  0.01 Rechace la hipótesis nula si z ≤ -2.575 o z ≥ 2.575 donde z 

x  0



n 8.091  8 0.091   2.8438 Al sustituir x  8.091, 0  8,   0.16 y n  25, obtenemos z  0.16 0.0320 25 Puesto que z  2.8438 excede a 2.575, se debe rechazar la hipótesis nula y se deben hacer ajustes apropiados en el proceso de producción. Ejemplo 12: Suponga que 100 neumáticos que cierto fabricante produce duraron en promedio 21, 819 millas con una desviación estándar de 1, 295 millas. Pruebe la hipótesis nula   22, 000 millas contra la hipótesis alternativa   22, 000 millas en el nivel 0.05 de significancia. Solución:

H 0 :   22, 000 1. H1 :   22, 000

  0.05 2. Rechace la hipótesis nula si z  1.645, donde z 

x  0



n 3. Al

sustituir

x  21,819, 0  22,000,   1, 295 y n  100,

obtenemos

21,819  22, 000 181   1.3977 1, 295 12.95 100 4. Puesto que z  1.3977 es mayor que 1.645, no se puede rechazar la hipótesis nula; no hay evidencia real de que los neumáticos no son tan buenos como se supone bajo la hipótesis nula. z

3.7 Prueba de hipótesis para la diferencia de medias

Supongamos que estamos tratando con muestras aleatorias independientes de tamaño n1 y n2 de dos poblaciones normales que tienen las medias 1 y 2 y las varianzas conocidas  12 y  22 y que queremos probar la hipótesis nula 1  2   donde  es una constante dada, contra una de las alternativas 1  2   , 1  2   o 1  2   Aplicando la técnica de la razón de verosimilitud, llegaremos a una prueba basada en la siguiente formula: x  x  z 1 2

 12 n1



 22 n2

Ejemplo 13: Se hace un experimento para determinar si el contenido promedio de nicotina de una clase de cigarrillos excede al de otra clase en 0.20 miligramos. Si n1  50 cigarrillos de la primera clase tuvieron un contenido promedio de nicotina de x1  2.61 mg con una desviación estándar de s1  0.12 mg , en tanto que n2  40 cigarrillos de la otra clase tuvieron un contenido promedio de nicotina de

x2  2.38 mg con una desviación estándar de s2  0.14 mg , pruebe la hipótesis nula 1  2  0.20 contra la hipótesis alternativa 1  2  0.20 en el nivel 0.05 de significancia. Tome la decisión con base en el Valor  p que corresponde al valor del estadístico de prueba apropiado. Solución: 1. H 0 : 1  2  0.20

H 0 : 1  2  0.20

  0.05 2. Use la estadistica de prueba z, donde x  x  z 1

 12 n1



 22 n2

3. Sustituyendo los datos : 2.61  2.38  0.20 z  1.08 2 2 0.12 0.14     50 40

ESTADISTICA Y CONTROL DE CALIDAD Buscamos este valor en la tabla de la Distribución normal: 0.07 0.08 0.9 1.0 0.1401 1.1

0.09

Este valor corresponde a una cola, por tanto, Valor  p  2  0.1401  0.2802

4. Puesto 0.2802  0.05 , no se puede rechazar la hipótesis nula; es decir que, la diferencia entre 2.61  2.38  0.23 y 0.20 no es significativa. Esto significa que la diferencia bien podría atribuirse al azar NOTA: Cuando n1 y n2 son pequeñas y  1 y  2 son desconocidas, no se puede usar la prueba anterior. En tal caso debemos usar

x  x  t 1 2 1 1 sp  n1 n2

con

s

2 p

n1  1 s12   n2  1 s22   n1  n2  2

Las regiones críticas apropiadas de tamaño  para probar la hipótesis nula 1  2   , contra las alternativas 1  2   , 1  2   o 1  2   bajo las suposiciones dadas son, respectivamente,

t  t

2

, n1  n2  2

, t  t , n1  n2 2 y t  t , n1  n2 2 .

Ing. Fernando Loera Rivera Docente Ingeniería industrial Tecnológico Nacional de México ITSU

ESTADISTICA Y CONTROL DE CALIDAD

3.8 Prueba de hipótesis para la proporción Si el resultado de un experimento es el número de votos que un candidato recibe en una votación, el número de defectos encontrados en una pieza de tela, el número de niños que se ausentan de la escuela en un día dado,….., nos referimos a estos datos como datos de conteo. Los modelos apropiados para el análisis de los datos de conteo son la distribución binomial, la distribución de Poisson, la distribución multinomial y algunas de las demás distribuciones discretas que se estudiaron en la materia de PROBABILIDAD Y ESTADÍSTICA. En esta sección presento una de las pruebas más comunes basada en datos de conteo, una prueba concerniente al parámetro  de la distribución binomial. Así, podríamos probar con base en una muestra si la verdadera proporción de curaciones de cierta enfermedad es 0.90 o si la verdadera proporción de defectos que salen en una línea de ensamble es 0.02 Ejemplo 14: Si x  4 de n  20 pacientes sufrieron efectos secundarios serios a causa de un nuevo medicamento, pruebe la hipótesis nula   0.50 contra la hipótesis alternativa   0.50 en el nivel 0.05 de significancia. En este caso  es la proporción verdadera de pacientes que sufren efectos secundarios serios a causa del nuevo medicamento. Solución:

H 0 :   0.50

1.

H A :   0.50

2.

Use la estadística de prueba X, el número observado de éxitos.

  0.05 Valor  p es2  0.0059  0.0118

3.

x  4 , y puesto que P  X  4  0.0059

4.

Puesto que el Valor-p es menor que 0.05, se debe rechazar la hipótesis nula; y concluimos que

el

  0.50

Si usamos tamaños grandes de n, podemos usar las siguientes formulas:

z

x  n n 1   

Como una variable aleatoria que tiene la distribución normal estándar.

Ing. Fernando Loera Rivera Docente Ingeniería industrial Tecnológico Nacional de México ITSU

ESTADISTICA Y CONTROL DE CALIDAD De otra manera, podemos probar la hipótesis nula   0 contra las alternativas    0 ,    0 o

  0 usando respectivamente las regiones criticas Tamaño de muestra

Hipótesis nula

Hipótesis alternativas

  0

Estadístico de prueba z  z 2

n  100

  0   0

  0

Y la siguiente formula:

z

x  n 0

n 0 1   0 

o

z  z

z   z

1   x    n 0 2 z n 0 1   0 

Si usamos la corrección por continuidad, usamos el signo menos cuando x excede a n0 y el signo de más cuando x es menor que n0 3.9 Prueba de hipótesis para la diferencia de proporciones En muchos problemas de investigación aplicada, debemos decidir si las diferencias observadas entre proporciones muestrales, o los porcentajes, son significativos o si se pueden atribuir a la suerte. Por ejemplo, si el 6 por ciento de los pollos congelados en la muestra de un proveedor falla en cumplir ciertos estándares y solo 4 por ciento en la muestra de otro proveedor falla en cumplir los estándares, quizá deseamos investigar si la diferencia entre estos dos porcentajes es significativa. Para indicar un método general de manejar los problemas de esta clase, suponga que x1 , x2 , ....., xk son los valores observados de k variables aleatorias independientes

X1 , X 2 ,......., X k que tienen distribuciones binomiales con los parámetros n1 y 1 , n2 y  2 y nk y  k . Si las n son suficientemente grandes, podemos aproximar las distribuciones de las variables aleatorias independientes: a) Zi 

X i  nii

nii 1  i 

para i  1, 2, ....., k

con distribuciones normales estándar,

xi  nii   2   i 1 ni i 1   i  k

y , podemos entonces considerar

2

como un valor

de una variable aleatoria que tiene la distribución ji cuadrada con k grados de libertad. Para probar la hipótesis nula, 1  2  .....  k  0 (contra la alternativa

Ing. Fernando Loera Rivera Docente Ingeniería industrial Tecnológico Nacional de México ITSU

ESTADISTICA Y CONTROL DE CALIDAD “que al menos una de las  no es igual a 0 ”), podemos usar así la región critica

 xi  ni0  2 , donde    i 1 ni 0 1   0  2

k

 2  2, k

b) Cuando no se especifica 0 , esto es, cuando solo nos interesa la hipótesis nula

1  2  .....  k sustituimos

ˆ 

x1  x2  ....  xk n1  n2  ....  nk k

2  



i 1

por



la

estimación

y la región crítica se vuelve

ponderada

 2  2, k 1 , donde

 n ˆ 1  ˆ  xi  niˆ

2

i

La pérdida de 1 grado de libertad, esto es, el cambio de la región crítica de  2  2 , k a

 2  2, k 1 se debe al hecho de que se sustituye una estimación por el parámetro desconocido  .

Presento ahora una fórmula alternativa para la estadística ji cuadrada inmediata anterior, la cual, se presta más rápidamente a otras aplicaciones. Si arreglamos los datos como en la tabla siguiente

Muestra 1

Éxitos x1

Fracasos n1  x1

Muestra 2

x2

n2  x2

Muestra k

…… xk

……. nk  xk

Refirámonos a sus elementos como frecuencias de celda observadas f ij , donde el primer subíndice indica el renglón y el segundo subíndice indica la columna de esta tabla k x 2. Bajo la hipótesis nula 1  2  .....  k  0 las frecuencias de celda esperadas para la

primera columna son ni 0 para i  1, 2, ....., k y para las de la segunda columna son ni 1  0  . Cuando no se conoce  sustituimos en su lugar, como antes, la estimación ponderada ˆ , y 0

calculamos las frecuencias de celda esperadas como

Ing. Fernando Loera Rivera Docente Ingeniería industrial Tecnológico Nacional de México ITSU

ESTADISTICA Y CONTROL DE CALIDAD



ei1  niˆ

y e2  ni 1  ˆ



para i  1, 2, ....., k

El alumno podrá como ejercicio demostrar que la 2 2 k k 2  f e  xi  niˆ ij ij también se puede escribir  2   2   ˆ ˆ eij i 1 ni 1   i 1 j 1



estadística ji cuadrada

  

Ejemplo 15: Determine, con base en los datos muestrales de la siguiente tabla, si la proporción verdadera de compradores que favorecen el detergente A sobre el detergente B es la misma en las tres ciudades: Número que favorece al detergente A 232 260 197

Los Angeles San Diego Indio

Número que favorece al detergente B 168 240 203

400 500 400

Use el nivel de significancia de 0.05 Solución: 1.

H 0 : 1   2  3 H A : 1 ,  2 y 3 no son todas iguales

  0.05 2.

Rechace

la

hipótesis

3

2

 2  

nula

 fij  eij 

La estimación ponderada de Las



frecuencias

2

ˆ 

es

232  260  197 689   0.53 400  500  400 1300 de

celda

e11  400  0.53  212

y e12  400  0.47   188

e21  500  0.53  265

y e22  500  0.47   235

e31  400  0.53  212

y e32  400  0.47   188 2

Y la sustitución en la fórmula para

 232  212    2

212

2

donde

eij

i 1 j 1

3.

2  2  0.05, 2  5.991

si

 260  265  265

esperadas

son:

nos da 2

197  212   212

2

168 188   188

Ing. Fernando Loera Rivera Docente Ingeniería industrial Tecnológico Nacional de México ITSU

2

 240  235   2235

2

 203 188   188

2

 6.48

ESTADISTICA Y CONTROL DE CALIDAD 4.

Puesto que

 2  6.48

excede a 5.991, se debe rechazar la hipótesis nula; en otras palabras, las

proporciones verdaderas de compradores que favorecen el detergente A sobre el detergente B en las 3 ciudades no son las mismas.

3.10 Prueba de hipótesis para la varianza Hay varias razones por las que es importante probar las hipótesis concernientes a las varianzas de las poblaciones. En lo que concierne a las aplicaciones directas, un fabricante que tiene que cumplir con especificaciones rígidas tendrá que efectuar pruebas sobre la variabilidad de su producto, tal vez un maestro desea saber si ciertas aseveraciones son verdaderas acerca de la variabilidad que puede esperar en el desempeño de un estudiante, y quizá un farmacéutico tiene que comprobar si la variación en la potencia de una medicina está dentro de los límites permisibles. En lo que concierne a aplicaciones indirectas, las pruebas acerca de las varianzas a menudo son prerrequisitos para las pruebas concernientes a otros parámetros. Las pruebas que veremos en esta sección son: 1. Prueba de la hipótesis nula de que la varianza de una población normal es igual a una constante dada 2. Prueba de la igualdad de las varianzas de dos poblaciones normales (a la que nos referiremos en la sección 3.11)

Ing. Fernando Loera Rivera Docente Ingeniería industrial Tecnológico Nacional de México ITSU

ESTADISTICA Y CONTROL DE CALIDAD La primera de estas pruebas es esencialmente, dada una muestra aleatoria de tamaño n de una población normal, queremos probar la hipótesis nula  2   02 contra las alternativas  2   02 ,  2   02 o  2   02 . Así que podemos escribir las regiones críticas para probar la hipótesis nula contra las dos alternativas de un lado como Donde

 2  2, n1 y  2  12 , n1

n  1 S 2    2 2

0

Ejemplo 16: Suponga que el espesor de una parte usada de un semiconductor es su dimensión crítica y que las 2 mediciones del espesor de una muestra aleatoria de 18 de dichas partes tiene la varianza S  0.68 , donde las mediciones son en milésimas de pulgada. El proceso se considera que está bajo control si la variación del espesor está dada por una varianza no mayor que 0.36 Suponga que las mediciones constituyen una muestra aleatoria de una población normal, pruebe la hipótesis nula de 0.05 de significancia.

 2  0.36

contra la hipótesis alternativa

 2  0.36

en el nivel

SOLUCION:

H 0 :  2  0.36 1.

H A :  2  0.36

  0.05 2. Rechace

la

hipótesis

nula

 2  2 , n1 ,

si

donde

2 

 n  1 S 2  02

y

2 2, n1  0.05,17  27.587

3. Sustituimos S 2  0.68,  02  0.36

y

n  18, y obtenemos  2 

17  0.68  0.36

 32.11

4. Puesto que  2  32.11  27.587 , la hipótesis nula debe rechazarse y el proceso para la manufactura de las partes debe ajustarse. Advierta que si  hubiera sido 0.01, no se 2 podría haber rechazado H 0 , puesto que  2  32.11 no excede a 0.01, 17  33.409 . Esto sirve para indicar una vez más que la elección del nivel de significancia debe hacerse por adelantado, para evitar la tentación de escoger un valor que casualmente satisfaga nuestros fines. Ejemplo 17: En una empacadora de leche en polvo se ha observado que queda demasiado espacio vacío en los botes cuyo contenido neto es de 1000 gr y se decide optimizar el costo de los botes mediante el ahorro de material para su elaboración; el proceso natural de compactación de la leche envasada debería de darse con una varianza menor que 400 cm3. En una muestra de 15 botes seleccionados al azar se mide la diferencia entre el volumen que ocupa el producto al ser enlatado y el que ocupa después de ocurrida la compactación. La varianza de los 15 datos muestrales es S2 = 349.7 cm3. ¿A qué decisión llegaran con estos datos? Solución:

Ing. Fernando Loera Rivera Docente Ingeniería industrial Tecnológico Nacional de México ITSU

ESTADISTICA Y CONTROL DE CALIDAD 1. Hipótesis estadística: Si los fabricantes tienen la razón, la hipótesis es: H 0 :  2  400 H a :  2  400 2. Estadístico de prueba: Como el tamaño de la muestra es n = 15, la normalidad de la población original X = “Diferencia en el volumen” debe estar garantizada para que el n  1 S 2  2 estadístico de prueba   tenga una distribución Chi-cuadrada con 14 gl  02 3. Regla de decisión: Para un nivel de significancia   0.05 y una prueba de cola derecha se tiene 2 Se rechaza H0 si  2  0.05, 14 2 Si buscamos en tablas, encontramos que 0.05, 14  6.57 mismo valor que nos da el software Minitab, además de las regiones de rechazo y aceptación de H0

Gráfica de distribución Chicuadrado, df=14

0.09 0.08

Región de aceptación de H0

0.07

Densidad

0.06 0.05 0.04 0.03 0.02

0.05

0.01 0.00

0

6.57 X

Región de rechazo de H0

4. Decisión estadística: Para obtener el estadístico de prueba calculado se tienen los datos  n  1 S 2  14  349.7   12.2395 , por n  15, S 2  349.7,  02  400 , entonces  2   02 400 2 tanto, la decisión estadística es: Se acepta H0 porque  2  12.2395  6.5706  0.05, 14 5. Decisión técnica: Al aceptar H0 nos enfrentamos a la posibilidad de cometer el error tipo II consistente en no reducir el tamaño de los botes cuando en realidad sí sea factible efectuar este proceso de optimización de las ganancias por el ahorro de material. Y al no tener controlada la probabilidad de cometer este error es recomendable investigar la misma situación con un tamaño de muestra más grande para reducir la probabilidad de cometer el error de tipo II. 3.11 Prueba de hipótesis para la relación de varianzas.

Estas pruebas se emplean cuando el interés se concentra en comparar las varianzas de dos poblaciones, en particular al seleccionar el estadístico de prueba adecuado en la prueba de hipótesis para dos medias con varianzas desconocidas, se tiene que decidir si ambas varianzas son

Ing. Fernando Loera Rivera Docente Ingeniería industrial Tecnológico Nacional de México ITSU

ESTADISTICA Y CONTROL DE CALIDAD iguales, o sea que

X t

1

 X 2    1  2  Sp

1 1  n1 n2

 12   22 , (en cuyo caso empleamos el estadístico de prueba con S

2 p

n1  1 S12   n2  1 S 22   ) o no lo son, es decir que  2   2 , (en n1  n2  2

cuyo caso aplicamos el estadístico de prueba t 

X

1

1

2

 X 2    1  2 

S12 S22  n1 n2 Para tener bases bien fundadas para cimentar esta decisión efectuamos la prueba de hipótesis para dos varianzas de población en: Dos colas: H0:  12   22 Ha:  12   22

Cola derecha:

H0:  12   22

Ha:  12   22

Cola izquierda:

H0:  12   22

Ha:  12   22

S12  12  , sin embargo, S22  22 cuando la prueba de hipótesis se hace bajo el supuesto de que H0 es cierta, podemos considerar S12 2 2 que  1   2 por lo que dicho estadístico se reduce a F  2 S2 El valor crítico para una prueba en cola izquierda es F , n 2 1, n1 1 que puede ser obtenido de En general, el estadístico de prueba para esta situación es: F 

la igualdad Fn2 1, n1 1,  

1 Fn1 1, n2 1, 1

y buscando Fn1 1, n2 1,1 en tablas.

El valor crítico para cola derecha es Fn1 1, n2 1,1 y los valores críticos para la prueba de dos colas se obtienen con Fn 1, n 1, 1 y Fn 1, n 1, 1 1

2

2

2

1

2

Ejemplo 18: La homogeneización del conocimiento es una característica de gran relevancia para los investigadores. Se está estudiando si entre el método onomatopéyico y el del silabario hay diferencias en la homogeneidad de los resultados de la enseñanza de la lectura a los niños que ingresan a la primaria sin saber leer. Se conformaron dos grupos, cada uno de 25 alumnos seleccionados al azar y se asignó a un grupo –también seleccionado al azar- un profesor especialista en el método onomatopéyico, siendo el otro grupo atendido por un especialista en el

Ing. Fernando Loera Rivera Docente Ingeniería industrial Tecnológico Nacional de México ITSU

ESTADISTICA Y CONTROL DE CALIDAD método del silabario. Al fin del año escolar una prueba estándar de lectura dio los siguientes resultados: Método onomatopéyico S12  128.4 S12  166.7 Método del silabario ¿Estos datos dan evidencia significativa para afirmar que entre ambos métodos existe una diferencia en el grado de homogeneidad del aprendizaje? Solución: 1. Hipótesis estadística: Homogeneidad y heterogeneidad son conceptos que se miden con la varianza, por eso el planteamiento estadístico es: H0:  12   22 Ha:  12   22

2. Estadístico de prueba: Los tamaños de muestra n1  n2  25 , sin ser pequeños, no son lo suficientemente grandes; entonces el requisito es que ambas poblaciones se distribuyan S12 aproximadamente en forma normal para que el estadístico de prueba F  2 tenga una S2 distribución F-Fisher con n1  1  n2  1  24 gl en el numerador y en el denominador. 3. Regla de decisión: Si   0.05 , para una prueba de dos colas los valores críticos que determinan las regiones de aceptación y de rechazo de H0 son F24, 24, 0.975  2.27 y

F24, 24, 0.025 

1 F24, 24, 0.975



1  0.4405 , la regla de decisión es: 2.27

Se rechaza H0 si FCalc  F24, 24, 0.025  0.4405 o si FCalc  F24, 24, 0.975  2.27 Gráfica de distribución F, df1=24, df2=24

1.2 1.0

Densidad

0.8 0.6 0.4 0.2 0.025 0.0

0

0.025

0.4405

2.27 X

Ing. Fernando Loera Rivera Docente Ingeniería industrial Tecnológico Nacional de México ITSU

ESTADISTICA Y CONTROL DE CALIDAD 4. Decision estadística: Con los datos S12  128.4 y S12  166.7 obtenemos el estadístico de

S12 128.4 F 2   0.7702 , siendo la decisión estadística S2 166.7

prueba calculado:

“Aceptar H0” porque F24, 24, 0.025  FCalc  F24, 24, 0.975 , esto es, cae en la zona de aceptación de H0 es decir, 0.4405  0.7702  2.27 Gráfica de distribución F, df1=24, df2=24

1.2 1.0

Densidad

0.8 0.6 0.4 0.2 0.025 0.0

0

0.025

0.4405

2.27 X

0.7702

5. Decisión técnica: Aceptando la hipótesis nula H0 quedamos expuestos a cometer el error tipo II y como no tenemos controlada la probabilidad de cometer este error no podemos afirmar que no hay diferencias de homogeneidad entre ambos métodos. Se recomienda investigar entonces otro tipo de factores que pueden influir en tal diferencia para repetir el experimento con un mayor número de alumnos.

Ing. Fernando Loera Rivera Docente Ingeniería industrial Tecnológico Nacional de México ITSU