Unidad 3 Estimacion y Prueba de Hipotesis

ESTADÍSTICA UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS. 3.1 MUESTREO ALEATORI

Views 41 Downloads 0 File size 392KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS. 3.1 MUESTREO ALEATORIO. Claramente, la confiabilidad de las conclusiones obtenidas concernientes a una población dependen de si la muestra se tomó adecuadamente, para que represente a la población lo suficientemente bien. Uno de los problemas importantes de la inferencia estadística es precisamente cómo obtener una muestra. Una manera de hacer esto para poblaciones finitas es asegurar que cada miembro de la población tenga la misma probabilidad de estar en la muestra, lo cual se denomina, muestra aleatoria. Una muestra aleatoria puede lograrse para muestras de poblaciones relativamente pequeñas extrayendo lotes, o de manera equivalente, usando una tabla de números aleatorios, especialmente construida para tales propósitos. Ejercicio. ¿Cuántas muestras distintas de n podemos tomar de una población finita de tamaño N, cuando a)

n=2 y

N=12

b)

n=3 y

N=100 ?

Hay

=66 (122)= 12.11 2!

Hay

100.99.98 = =161,700 (100 ) 23 3!

muestras distintas.

muestras distintas.

3.1.1 ALEATORIO SIMPLE. Con base en el resultado de que hay

( Nn )

muestras distintas de tamaño n de una

población finita de tamaño N, presentaremos la siguiente definición de una muestra aleatoria (en ocasiones conocida también como muestra aleatoria simple) de una población finita:

1 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Una muestra de tamaño n de una población finita de tamaño N es una variable aleatoria si se selecciona de manera tal que cada una de las

misma probabilidad,

( Nn )

muestras posibles tiene la

1 , N de ser seleccionada. n

()

Ejercicio. Tome una muestra aleatoria de tamaño

n=12

de la población consistente en las

cantidades de impuestos sobre las ventas cobradas por 247 farmacias de una ciudad en diciembre de 1990 numerando las farmacias como 001,002,003… y 247 (digamos, en el orden en que aparecen en el directorio telefónico) leyendo números aleatorios de tres dígitos de la segunda página de la tabla XI, usando la vigesimasexta, la vigesimaseptima y la vigesimaoctava columnas empezando en el sexto renglón y continuando pagina abajo. Siguiendo estas instrucciones, obtenemos

046 230 079 022119 150 056 064 193 232 040 146 Donde ignoramos los números mayores que 247; si cualquier número se hubiera repetido, también lo habríamos ignorado. Los doce números que tenemos aquí son los números asignados a las farmacias; las cifras de impuestos sobre las ventas correspondientes constituyen la muestra aleatoria deseada.

3.1.2 SISTEMÁTICO. En algunos casos, la manera más práctica de efectuar un muestreo consiste en seleccionar, digamos, cada vigésimo nombre de una lista, cada decimasegunda casa de un lado de una calle, cada quincuagésima pieza de una línea de ensamble y así sucesivamente. Esto se conoce como muestreo sistemático y se puede integrar un elemento de azar en esta clase de muestreo usando números aleatorios para seleccionar la unidad en la que se debe comenzar. Aunque una muestra sistemática puede no ser una muestra aleatoria de acuerdo con la definición, a menudo es razonable tratar las muestras sistemáticas como si fueran muestras aleatorias; de hecho, en algunos casos las muestras sistemáticas en realidad pueden ser mejores que las muestras aleatorias simples por que las primeras se extienden en forma más regular sobre las poblaciones enteras. Ejercicio.

2 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Si tenemos una población formada por 100 elementos y queremos extraer una muestra de 25 elementos, en primer lugar debemos establecer el intervalo de selección que será igual a

100/25=4 . A continuación elegimos el elemento

de arranque, tomando aleatoriamente un número entre el 1 y el 4, y a partir de él obtenemos los restantes elementos de la muestra. 2, 6, 10, 14,..., 98

3.1.3 ESTRATIFICADO. Si tenemos información acerca de la constitución de una población (es decir, su composición) y esta es importante para nuestra investigación, podemos mejorar el muestreo aleatorio por medio de la estratificación. Este es un procedimiento que consiste en estratificar (o dividir) en un numero de subpoblaciones o estratos que no se traslapen y luego tomar una muestra de cada estrato. Si los artículos seleccionados de cada estrato constituyen muestras aleatorias simples, el procedimiento completo (primero la estratificación y luego el muestreo aleatorio) se conoce como muestreo aleatorio (simple) estratificado. Esencialmente el objetivo de la estratificación es formar estratos de tal forma que haya alguna relación entre estar en un estrato particular y la respuesta que se busca en el estudio estadístico y que en los estratos separados haya tanta homogeneidad como sea posible. Ejercicio. Se debe tomar una muestra estratificada de tamaño

n=60 de una muestra de tamaño

N=4000, que consta de tres estratos de tamaño

N 1=2000, N 2=1200 y N 3 =800.

¿Si la distribución debe ser proporcional, cuán grande debe ser la muestra tomada de cada estrato? Sustituyendo en la fórmula, obtenemos:

n1=

2000 1200 800 .60=30 n 2= .60=18 n3= .60=12 4000 4000 4000

3.1.4 POR CONGLOMERADOS. Se divide la población en varios grupos de características parecidas entre ellos y luego se analizan completamente algunos de los grupos, descartando los demás. Dentro de cada conglomerado existe una variación importante, pero los distintos conglomerados son parecidos. Requiere una muestra más grande, pero suele simplificar la recogida de muestras. Frecuentemente los conglomerados se aplican a zonas geográficas.

3 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Se divide la población total en un número determinado de subdivisiones relativamente pequeñas y se seleccionan al azar algunas de estas subdivisiones o conglomerados para incluirlos en la muestra general. Si los conglomerados son subdivisiones geográficas, este muestreo se llama también muestreo por áreas. Ejercicio. Suponga que el decano de estudiantes de una universidad quiere saber la opinión de la fraternidad hacia la escuela acerca de cierta disposición nueva. Puede tomar una muestra de conglomerados entrevistando algunos o a todos los miembros de varias fraternidades seleccionadas a azar. Aunque las estimaciones basadas en el muestreo por conglomerados por lo general no son tan confiables como las estimaciones que se basan en muestras aleatorias simples del mismo tamaño, a menudo son más confiables por el costo unitario. 3.1.5 EN DOS ETAPAS. Cuando en el muestreo por conglomerados se prosigue en el análisis y dentro de cada conglomerado se vuelven a seleccionar, también de forma aleatoria, nuevos subconglomera-dos, y así sucesivamente hasta seleccionar las unidades últimas, al muestreo se le denominador etapas o polietápico. El más frecuente de los muestreos por etapas es el bietápico, en el que se seleccionan, en primer término y de forma aleatoria, los conglomerados o áreas, y en una segunda etapa, las unidades últimas o más elementales del conjunto poblacional, sin necesidad de tener que seleccionar ningún otro tipo de unidad intermedia. Ejercicio. Si estadistas del gobierno quieren estudiar la opinión de los profesores de las escuelas primarias estadounidenses hacia ciertos programas federales, podrían estratificar primero el país por estados o algunas otras subdivisiones geográficas. Para tomar medida de cada estrato, podrían usar el muestreo de conglomerados subdividiendo cada estrato en un número determinado de subdivisiones geográficas más pequeñas y finalmente podrían usar un muestreo aleatorio simple o un muestreo sistemático para seleccionar una muestra de profesores de educación primaria de cada conglomerado. 3.2 ESTIMACIÓN PUNTUAL. Un estimador de un parámetro poblacional dado por un numero sencillo se llama estimador puntual del parámetro. Un estimador de un parámetro poblacional dado por dos números entre los cuales se puede considerar que esta el parámetro, se llama estimación por intervalo del parámetro.

3.2.1 PROPIEDADES.

4 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Existe una propiedad que comprende conjuntamente las propiedades de insesgamiento y eficiencia. Se trata del error cuadrático medio. Sea

T , denotado

. El error cuadrático medio de esperado de

T

un estimador del parámetro

θ

ECM (T ) , se define como el valor

(T −θ)2 . ECM (T )=E[(T −θ)2]

Nos referimos al promedio de los cuadrados de las observaciones. Si éste es pequeño, debemos aceptar que hay una tendencia para que los valores así lo será también la diferencia

T −θ ), lo que quiere decir que T tiende a producir ¿

respuestas numéricas próximas al parámetro valores próximos a

θ

T −θ ) sean pequeños, y ¿

θ . El poder que tenga T para producir

depende de dos condiciones básicas. Una es la “fuerza” o

intensidad con la que tiende a dar esos valores (insesgamiento) y la otra es la “fuerza” que tenga para no permitir que se aparte de del camino que lo conduce a

θ

(eficiencia). Estas dos condiciones matemáticamente quedan establecidas y precisadas en el teorema siguiente: TEOREMA Si T es un estimador del parámetro

θ ,

ECM (T )=V [T ] – [θ−E( T )]2

3.2.1.1 INSESGADO. Se dice que un estimador puntual

E ( θ^ ) =θ , para todo valor posible de

θ^,

es un estimador insesgado de

θ , si

θ . En otras palabras, un estimador insesgado

es aquel para el cual la media de la distribución muestral es el parámetro estimado. Si se usa la media muestral

´x

para estimar la media poblacional

μ , se sabe que la

μx´ =μ , por lo tanto la media es un estimador insesgado. 5 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Ejercicio. La media

μ



y varianza

y varianza

2 S^ , son estimadores insesgados de la media de la población

σ 2 , ya que

E ( X´ ) =μ , E ( S^ 2 ) =σ 2 . Los valores de

denominan estimadores insesgados. Sin embargo,

σ , ya que, en general ,

2 S^

´x

y

s^ 2

se

es un estimador sesgado de

E ( S^ 2 ) ≠ σ 2 .

3.2.1.2 CONSISTENTE. Una estadística es un estimador coherente de un parámetro de población, si al aumentar el tamaño de la muestra se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro de la población. Si un estimador es coherente se vuelve más confiable si tenemos tamaños de muestras más grandes. Un estimador es suficiente si utiliza una cantidad de la información contenida de la muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población que se está estimando. Es decir se pretende que al extraer la muestra el estadístico calculado contenga toda la información de esa muestra. Por ejemplo, cuando se calcula la media de la muestra, se necesitan todos los datos. Cuando se calcula la mediana de una muestra sólo se utiliza a un dato o a dos. Esto es solo el dato o los datos del centro son los que van a representar la muestra. Con esto se deduce que si utilizamos a todos los datos de la muestra como es en el caso de la media, la varianza, desviación estándar, etc; se tendrá un estimador suficiente. Ejercicio. Para una población normal, la distribución muestral de la media y la mediana tienen la misma media; es decir, la media de la población. Sin embargo, la varianza de la distribución muestral de medias es más pequeña que aquella de la distribución muestral de medianas. Por consiguiente, la media provee un estimador más eficiente que la mediana.

3.2.1.3 INSESGADO DE VARIACION MINIMA.

6 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

Suponga que

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

θ^ 1

y

θ^ 2

son dos estimadores insesgados de

θ . Entonces, aun

cuando la distribución de cada estimador esté centrada en el valor verdadero de

θ , las

dispersiones de las distribuciones alrededor del valor verdadero pueden ser diferentes. Entre todos los estimadores de varianza mínima. El

θ^

θ que son insesgados, seleccione al que tenga

resultante recibe el nombre de estimador insesgado con

varianza mínima (MVUE, minimum variance unbiased estimator) de

θ .

En otras palabras, la eficiencia se refiere al tamaño de error estándar de la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error estándar, o la menor desviación estándar de la distribución de muestreo. Tiene sentido pensar que un estimador con un error estándar menor tendrá una mayor oportunidad de producir una estimación más cercana al parámetro de población que se está considerando.

Como se puede observar las dos distribuciones tienen un mismo valor en el parámetro sólo que la distribución muestral de medias tiene una menor varianza, por lo que la media se convierte en un estimador eficiente e insesgado. Ejercicio. Si decimos que una distancia es de 5.28 metros, estamos dando un estimador puntual. Si, por otro estamos dando una estimación por intervalo. La confiabilidad de un estimador es el conocimiento de su error o de su precisión.

7 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

3.3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA. 3.3.1 DE LA MEDIA CON

σ

CONOCIDA.

Es conocido de nosotros durante este curso, que en base a la distribución muestral de medias que se generó en el tema anterior, la fórmula para el cálculo de probabilidad es la

z=( x´ −μ) /(σ ⁄ √ n) . Como en este caso no conocemos el parámetro y lo

siguiente:

queremos estimar por medio de la media de la muestra, sólo se despejará

μ

de la

formula anterior, quedando lo siguiente:

μ= x´ ±

zσ √n

De esta fórmula se puede observar que tanto el tamaño de la muestra como el valor de z se conocerán. Z se puede obtener de la tabla de la distribución normal a partir del nivel de confianza establecido. Pero en ocasiones se desconoce

σ

por lo que en esos casos lo

correcto es utilizar otra distribución llamada "t" de student si la población de donde provienen los datos es normal. Para el caso de tamaños de muestra grande se puede utilizar una estimación puntual de la desviación estándar, es decir igualar la desviación estándar de la muestra a la de la población

(s=σ ).

Ejercicio. Las medidas de los diámetros de una muestra aleatoria de 200 balineras hechas por cierta maquina durante una semana mostraron una media de 0.824 centímetros y desviación estándar 0.042 centímetros. Encuentre los límites de confianza del a) 95% y b) 99% para el diámetro medio de todas las balineras. Ya que

n=200

es grande, podemos suponer que



tiene un distribución casi

normal.

8 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

a) Los limites de confianza del 95% son

σ s^ 0.042 X´ ±1.96 =´x ± 1.96 =0.824 ±1.96 =0.824 ± 0.0058 cm ó 0.824 ± 0.006 cm √n √n √ 200 b) Los limites de confianza del 99% son

σ s^ 0.042 X´ ±2.58 =´x ± 2.58 =0.824 ±2.58 =0.824 ± 0.0077 cm ó 0.824 ± 0.008 cm √n √n √ 200

3.3.2 DE LA MEDIA CON

σ

DESCONOCIDA.

En este caso usamos la distribución

t

para obtener los niveles de confianza. En

general, los límites de confianza para las medias de las poblaciones están dados por:

S^ X´ ±t c √n

Ejercicio. Una muestra de 10 medidas del diámetro de una esfera dio una media centimetros y desviación estándar

s=0.06

´x =4.38

centimetros. Encuentre los limites de

confianza del 95% para el verdadero diámetro.

9 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Los limites del 95% están dados por Ya que

X´ ±t 0.975 ( S/ √ n−1) .

v =n−1=10−1=9 , encontramos que t 0.975=2.26

Entonces, usando

´x =4.38

y

s=0.06 , los limites de confianza del 95% requeridos

son

4.38 ± 2.26

0.06 =4.38 ±0.0452 cm √ 10−1

Por consiguiente, podemos tener el 95% de confianza de que las verdaderas medias estarán entre

4.38−0.045=4.335 cm

y

4.38+ 0.045=4.425 cm .

3.3.3 DE LA VARIANZA. El hecho de que

n S 2 /σ 2=(n−1) S^ 2 /σ 2

tenga distribución chi cuadrado con

grados de libertad, nos permite obtener límites de confianza para ejemplo, si

x 20.025

y

x 20.975

son valores de

X2

σ2

o

n−1 σ . Por

para los cuales 2.5% del área esta

en cada cola de la distribución, entonces el 95% del intervalo de confianza es

x 20.025 ≦

n S2 ≦ x20.975 2 σ

O de manera equivalente

x 20.025 ≦

(n−1)S 2 ≦ x 20.975 2 σ

De esto vemos que

σ

puede calcularse en el intervalo

S √n S n ≦σ≦ √ X 0.975 X 0.025 O de manera equivalente

10 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

S^ √ n−1 S^ n−1 ≦σ≦ √ X 0.975 X 0.025 Con el 95% de confianza. De igual manera, se pueden encontrar otros intervalos de confianza. En general es deseable que la amplitud esperada de un intervalo de confianza sea lo más pequeña posible. Para estadísticos con distribuciones muestréales simétricas, tales como la normal y la t, esto se logra usando colas con áreas iguales. Sin embargo, para distribuciones no simétricas, tales como la chi cuadrado, puede ser deseable ajustar las áreas de las colas de manera que se obtenga el menor intervalo. Ejercicio. Se calculó que la desviación estándar de los tiempos de vida de una muestra de 200 bombillas eléctricas es 100 hrs. Encuentre los límites de confianza del a) 95%, para la desviación estándar de todas esas bombillas eléctricas. En este caso se aplica la teoría de muestreo grande. Por consiguiente los límites de confianza para la desviación estándar de la población están dados por

zc

donde calcular

S ± z c σ / √2 n ,

indica el nivel de confianza. Usamos la desviación muestral estándar para

σ .

Los límites de confianza del 95% son

100 ±1.96(100)/ √ 400=100 ±9.8 .

Por consiguiente, podemos tener confianza del 95% de que la desviación estándar de la población estará entre

90.2 y 109.8 hrs .

3.3.4 DE LA PROPORCIÓN. Su pongamos que el estadístico S es la proporción de ‘’éxitos’’ en un muestra de tamaño

n ≥30,

obtenida a partir de una población con distribución binomial en la que

p

es

la proporción de éxitos (es decir, la probabilidad de éxito). Entonces, los limites de confianza para p están dados por la muestra de tamaño

P± z c σ P , donde

n . Usando los valores de

P σP

es la proporción de éxitos en , vemos que los limites de

confianza para proporción de la población están dados por

P± z c





p( 1− p) pq =P± z c n n

11 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

En el caso en que el muestreo se haga de una población infinita o si se hace de una población finita y con reemplazo. De manera similar, los límites de confianza son

P± z c

√ √ pq n

N −n N −1

Si la toma de muestras se hace sin reemplazo de una población de tamaño finito N. Ejercicio. Una encuesta de 100 votantes, escogidos al azar de todos los votantes en un distrito dado, indico que el 55% está a favor de un candidato en particular. Encuentre los limites de confianza del a) 95%, b) 99%.

p poblacional son

a) Los limites de confianza del 95% de la

P± 1.96 σ P=P ± 1.96





( 0.55 ) (0.45) p(1− p) =0.55 ±1.96 =0.55 ±0.10 n 100 p .

Donde usamos la proporción muestral de 0.55 para estimar b)

Los

limites

de

confianza

del

99%

para

p

son

0.55 ±2.58 √ ( 0.55 ) (0.45)/100=0.55± 0.13 . 3.4 ESTIMACIÓN POR INTERVALOS DE CONFIANZA. 3.4.1 DE LA DIFERENCIA DE DOS MEDIDAS CON Si

S 1 y S2

son

dos

estadísticos

muestrales

σ

cuya

CONOCIDAS. distribución

muestral

es

aproximadamente normal, los limites de confianza para las diferencias de los parámetros poblacionales correspondientes a

S 1 y S2 , están dados por

S 1−S2 ± z c σ S =S 1−S 2 ± z c √ σ 2S +σ 2S 1−S2

1

2

Mientras que los limites de confianza para la suma de los parámetros de la población están dados por

S 1 +S 2 ± z c σ S =S1 + S2 ± z c √σ 2S +σ 2S 1−S 2

1

2

12 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Siempre y cuando las muestras sean independientes. De manera similar, los limites de confianza para a diferencia de dos proporciones de poblaciones, donde las poblaciones son infinitas, están dados por

P1−P2 ± z c

Donde



P 1(1−P1) P2 (1−P2) + n1 n2

P1 y P2

n1−n2

son las dos proporciones muestrales y

son los tamaños de

las dos muestras obtenidas de la población. Ejercicio. En una muestra aleatoria de 400 adultos y 600 adolescentes que veían cierto programa de televisión, 100 adultos y 300 adolescentes dijeron que les gusto. Construya los limites de confianza del 95% para la diferencia en proporciones de todos los adultos y adolescentes que vieron el programa y lo encontraron de su agrado. Los limites de confianza para la diferencia en proporciones de los dos grupos están dados por

P1−P2 ± z c



P 1 Q 1 P2 Q 2 + n1 n2

Donde los subíndices 1 y 2 se refieren a adolescentes y adultos, respectivamente, y

Q1=1−P1 , Q2=1−P2 P2=100/ 400=0.25

los

complementos.

P1=300/600=0.50

Aquí

y

son respectivamente, la proporción de adolescentes y adultos a

los que les gusto el programa. a) Limites de confianza del 95%:

0.50−0.25± 1.96 √ ( 0.50 ) (0.50)/600+ ( 0.25 ) (0.75)/ 400=0.25 ± 0.06 . Por consiguiente, podemos tener confianza del 95% de que la diferencia verdadera de proporciones este entre 0.19 y 0.31.

3.4.2 DE LA DIFERENCIA DE DOS MEDIDAS CON

σ

DESCONOCIDAS.

13 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Si se tienen dos poblaciones con medias

μ1

y

μ2

y varianzas

respectivamente, un estimador puntual de la diferencia entre la estadística

μ1

y

2

σ1

y

2

σ2 ,

μ2 está dado por

´x 1−´x 2 .

Por tanto. Para obtener una estimación puntual de

μ1

−¿

μ2 se seleccionan dos

muestras aleatorias independientes, una de cada población, de tamaño

n1 y n 2 , se

´x 1−´x 2 , de las medias muestrales.

calcula la diferencia

Recordando a la distribución muestral de diferencia de medias:

z=

( ´x1 −´x2 ) −( μ1 – μ2 )



σ 21 σ 22 + n1 n2

3.4.2.1 CON

σ

IGUALES.

Supongamos ahora que las varianzas son desconocidas pero iguales (

σ 1=σ 2=σ ¿ .

La

distribución de la diferencia de medias muestrales es ahora

z=

( ´x1 −´x2 ) −( μ1 – μ2 )



σ 21 σ 22 + n1 n2

Tenemos que eliminar el parámetro

σ , para lo cual utilizaremos los distribuciones

muestrales asociadas a las cuasi-varianzas muestrales El nuevo estadígrafo de contraste es de la forma

t=

( ´x 1−´x 2 )



1 1 s + n1 n2

=t n +n −2 1

2

14 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Los dos estadísticos toman exactamente el mismo valor por lo que pueden utilizarse indistintamente. Usaremos el calculado a partir de la cuasi-varianzas porque son estimadores insesgados de la varianza poblacional. En este caso es necesario que las varianzas sean iguales para poder despejarlas y eliminarlas en el cálculo del estadígrafo de contraste. La comprobación de la igualdad de varianzas se hará posteriormente aunque sea un paso previo a la decisión del tipo de contraste. Ejercicio. Un artículo publicado dio a conocer los resultados de un análisis del peso de calcio en cemento estándar y en cemento contaminado con plomo. Los niveles bajos de calcio indican que el mecanismo de hidratación del cemento queda bloqueado y esto permite que el agua ataque varias partes de una estructura de cemento. Al tomar diez muestras de cemento estándar, se encontró que el peso promedio de calcio es de 90 con una desviación estándar de 5; los resultados obtenidos con 15 muestras de cemento contaminado con plomo fueron de 87 en promedio con una desviación estándar de 4.

Supóngase que el porcentaje de peso de calcio está distribuido de manera normal y que las dos poblaciones normales tienen la misma desviación estándar. a) Encuentre un intervalo de confianza del 95% para la diferencia entre medias de los dos tipos de cemento. El estimador combinado de la desviación estándar es:

S p=

( n−1 ) S2x +(m−1) S 2y 52 ( 10−1 ) + 42 (15−1) = =19.52 n+m−2 10+15−2

3.4.2.2 CON

σ

DIFERENTES.

Para hacer inferencias estadísticas sobre dos poblaciones, se necesita tener una muestra de cada población. Las dos muestras serán dependientes o independientes de acuerdo a la forma de seleccionarlas. Si la selección de los datos de una población no está relacionada con la de los datos de la otra, son muestras independientes. Si las muestras se seleccionan de manera que cada medida en una de ellas pueda asociarse naturalmente con una medida en la otra muestra, se llaman muestras dependientes. Cada dato sale de alguna fuente; una fuente es algo, una persona o un objeto, que produce datos. Si dos medidas se obtienen de la misma fuente, se puede pensar que las medidas están pareadas. En consecuencia dos medidas que se obtienen del mismo conjunto de fuentes son dependientes. Note que si dos muestras son dependientes, entonces necesariamente tienen el mismo tamaño. 15 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Si se tienen dos muestral aleatorias dependientes de tamaño n, donde cada elemento de la primera muestra es pareja de un elemento de la segunda, entonces estas dos muestras dan lugar a una de parejas o a unas diferencias, como lo indica la siguiente figura. La muestra de diferencias

d=x 1 – x 2

se puede pensar como una muestra de la población

de diferencias de datos pareados de dos poblaciones. La media de la población de diferencias es igual a la diferencias de las medias poblacionales. En consecuencia se ve que la media de la población de diferencias es igual a la diferencia entre las medias poblacionales. Siguiendo la misma línea de razonamiento, se puede demostrar que, para dos muestras dependientes, la media de sus diferencias muestrales es igual a la diferencia entre sus medias muestrales. Esto es, si

d=x 1 – x 2 , entonces

´ x´ 1 – ´x 2 d= Si se tiene una muestra aleatoria de n pares de datos y si las diferencias d se distribuyen normalmente, entonces el estadístico:

´ d−μ d Sd

√n Tiene una distribución muestral que es una distribución

t con

gl=n−1 , donde S d

representa la desviación estándar de la muestra de puntajes diferencia.

t=

´ d−μ d Sd √n

Donde

g .l=n−1 . Límites del intervalo de confianza para

μ1−μ2 . Cuando se usa

muestras dependientes

μ1−μ2= d´ ± t

Sd

√n

Ejercicio. Se hizo un estudio para definirse si los ejercicios aeróbicos reducen el ritmo cardiaco de una persona durante el descanso, y al examinar a diez voluntarios antes y después de 16 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

seguir un programa de ese tipo durante seis meses, sus pulsaciones, en latidos por minuto, dieron los siguientes registros:

Use

Voluntario

1

2

3

4

5

6

7

8

9

10

Antes

73

77

68

62

72

80

76

64

70

72

Después

68

72

64

60

71

77

74

60

64

68

α =0.05

para calcular si los ejercicios aeróbicos reducen el ritmo cardiaco durante

el reposo. Calcule el valor de P.

Ensayo de hipótesis: H 0 ; μ A −μ D =0 H 1 ; μ A −μ D >0

Para calcular el valor de

P

se interpola entre 0.10 y 0.05, con 9 grados de libertad

obteniendo un área de 0.0574, pero como el ensayo es bilateral este sería un valor de

P/2, por lo tanto el valor de

P=(2)( 0.0574)=0.1148

17 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Calcula el intervalo de confianza del

95

para la diferencia de medias poblacionales del

es

– 0.53

ejercicio anterior.

μ A −μD =d´ ±t

SD

√n

=2 ± 2.262

3.53 √ 10

El intervalo de confianza del

95

y 4.53

y como contiene a cero,

no podemos concluir que la dieta sea efectiva para cambiar el peso. 3.4.2.3 DE DOS MEDIAS APAREADAS. En este caso se trata de comparar dos métodos o tratamientos, pero se quiere que las unidades experimentales donde se aplican los tratamientos sean las mismas, ó lo más parecidas posibles, para evitar influencia de otros factores en la comparación. Este es un

procedimiento de estimación para la diferencia de dos medias cuando las muestras son dependientes y las varianzas de las dos poblaciones no necesariamente son iguales. Las muestras pareadas involucran un procedimiento en observaciones se equiparan de la manera más próxima características relevantes. Los dos grupos de observaciones aspecto o "tratamiento". Toda diferencia subsiguiente en los dicho tratamiento. Las ventajas de las muestras pareadas son: 1)

Pueden utilizar muestras muy pequeñas.

2)

Se encuentran varianzas más pequeñas.

3)

Menos grados de libertad se pierden en el análisis.

el cual varios pares de posible, en términos de son diferentes sólo en un dos grupos se atribuye a

4) Resulta un error de muestreo más pequeño (la variación entre observaciones reduce debido a que corresponden de la forma más próxima posible). Otro método para utilizar muestras pareadas a diferencia de la situación que se describió cuando las muestras son independientes, las condiciones de las dos poblaciones no se signan de forma aleatoria a las unidades experimentales. Más bien, cada unidad experimental homogénea recibe ambas condiciones poblacionales; como resultado, cada unidad experimental tiene un par de observaciones, una para cada población. Sea

X i el valor de tratamiento I y Y i el valor del tratamiento II en el i-ésimo sujeto.

d i= X i−Y i 18 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Diferencia de los tratamientos en el i-ésimo sujeto. Ejercicio. Se asume que se tienen puntajes de la prueba de 10 empleados antes y después de habérseles impartido capacitación laboral adicional. Establezca un intervalo de confianza del 90% para la media de la diferencia en el puntaje antes y después de la capacitación. Los puntajes aparecen en la tabla: Empleado

Puntaje antes de

Puntaje después de

La capacitación del

La capacitación del

empleado

empleado

di

d i2

1

9.0

9.2

-0.2

0.04

2

7.3

8.2

-0.9

0.81

3

6.7

8.5

-1.8

3.24

4

5.3

4.9

0.4

0.16

5

8.7

8.9

-0.2

0.16

6

6.3

5.8

0.5

0.25

7

7.9

8.2

-0.3

0.09

8

7.3

7.8

-0.5

0.25

9

8.0

9.5

-1.5

2.25

10

8.5

8.0

-0.5

0.25

7.4

7.9

-5.0

7.38

Encontrar estimador puntual insesgado

¿ −5 ´ d= =−0.5¿ Estimador puntual insesgado de 10

μd ¿

Determinar la variable aleatoria función del estimador y del parámetro cuya distribución este definida.

19 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

T=

´ d−μ d sd / √ n

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Con

n−1 grados de libertad.

Determinar los valores de la variable aleatoria definida en el paso (2) de acuerdo a la probabilidad establecida.

P (−1.8333 ≤t ≤1.833 ) =0.90

Establecer la desigualdad con los valores de la variable aleatoria definidos en el paso y la expresión definida en el paso.

´ α S d < μ D < d+ ´ t α Sd d−t 2 √n 2 √n Encontrar los límites inferiores y superiores dentro de los cuales se encuentra el parámetro Límite superior de confianza:

μd =−5+ 1.8333

0.736 =−0.073 √ 10

Límite inferior de confianza

μd =−5+ 1.8333

0.736 =−0.0927 √ 10

Debido a que se restan los puntajes posteriores al entrenamiento de los puntajes anteriores al entrenamiento, produciendo valores negativos, se puede estar 90% seguro de que la media de los puntajes posteriores al entrenamiento está entre 0.073 y 0.927 más altos. 3.4.3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA DE LA RAZÓN DE DOS VARIANZAS. Supóngase que se tienen dos poblaciones normales e independientes con varianzas desconocidas

σ 21

y

σ 22 , respectivamente. De este par de poblaciones, se tienen

disponibles dos muestras aleatorias de tamaños

n1

y

n2 , respectivamente, sean 20

ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

2

S1

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

2

S2

y

las dos varianzas muestrales. Se desea conocer un intervalo de confianza

(1−α ) por ciento para el cociente de las dos varianzas, σ 21 /σ 22 .

del 100

Para construir el intervalo de confianza para el cociente de dos varianzas poblacionales, se coloca la varianza muestral mayor en el numerador del estadístico F. Ejercicio. Se obtienen al azar dos muestras de tamaños 16 y 10 respectivamente, de dos poblaciones con distribución normal. Si sus varianzas son 24 y 18, respectivamente, encuentre los limites de confianza del a) 98% para el cociente de las varianzas. a) Tenemos

m=16, n=10, s21=20, s22=18, así que:

s^ 21=

m 2 16 s= ( 24 )=25.2 m−1 1 15

s^ 22=

m 2 10 s= ( 18 )=20 m−1 2 9

( ) ( )

3.4.4 ESTIMACIÓN POR INTERVALOS DE CONFIANZA DE LA DIFERENCIA DE DOS PROPORCIONES. En la sección anterior se vio el tema de la generación de las distribuciones muestrales, en donde se tenía el valor de los parámetros, se seleccionaban dos muestras y podíamos calcular la probabilidad del comportamiento de los estadísticos. Para este caso en particular se utilizará la distribución muestral de diferencia de proporciones para la estimación de las mismas. Recordando la formula:

Z=

( p1 −p 2 )−( P1−P2 )



P1 q1 P2 q2 + n1 n2

Despejando

P1−P2 de esta ecuación:

Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el despeje nos queda las dos proporciones poblacionales y es precisamente lo que 21 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

queremos estimar, por lo que se utilizarán las proporciones de la muestra como estimadores puntuales:

P1−P2=( p1− p2 )± z



P1 q1 P2 q 2 + n1 n2

Ejercicio. Se considera cierto cambio en un proceso de fabricación de partes componentes. Se toman muestras del procedimiento existente y del nuevo para determinar si éste tiene como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y 80 de 2000 artículos del procedimiento nuevo también lo son, encuentre un intervalo de confianza de 90% para la diferencia real en la fracción de defectuosos entre el proceso actual y el nuevo. Sean

P1

y

P2

las proporciones reales de defectuosos para los procesos actual y

P1=75/1500=0.05 y

nuevo, respectivamente. De aquí, uso de la tabla encontramos que

P1−P2=( p1− p2 )± z

z

para un nivel de confianza del 90% es de 1.645.



P1 q1 P2 q 2 + n1 n2



( 0.05 )( 0.95 ) ( 0.04 ) ( 0.96 ) + 1500 2000

¿ ( 0.05−0.04 ) ±1.645

P1=80 /2000=0.04 . Con el

−0.0017< P1−P2 μ0

y comprar la maquina

nueva solo si se puede rechazar la hipótesis nula. b) El fabricante debería usar la hipótesis alternativa

μ< μ0

y comprar la maquina nueva

a menos de que se rechace la hipótesis nula.

3.5.3 NIVEL DE SIGNIFICACIÓN Y REGLAS DE DECISIÓN. Al probar una hipótesis dada, la probabilidad máxima con la que queremos tomar el riesgo de un error tipo I se llama nivel de significancia de la prueba. Esta probabilidad se especifica antes de que se hayan tomado muestras, para que los resultados obtenidos no influyan en nuestra decisión. En la práctica, niveles de significancia de 0.05 ó 0.01 son habituales, aunque se pueden usar otros valores. Si por ejemplo, al diseñar una prueba de hipótesis escogemos un nivel de significancia de 0.05 ó 5%, entonces hay una probabilidad de 5 en 100 de que rechacemos la hipótesis cuando deberíamos aceptarla, es decir, siempre que la hipótesis nula sea verdadera, tenemos cerca del 95% de confianza de que tomaremos la decisión 25 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

correcta, en tales casos decimos que rechazamos la hipótesis con un nivel de significancia de 0.05, lo cual significa que podemos estar equivocados con probabilidad de 0.05. Nuestra elección del estándar mínimo para una probabilidad aceptable, o el nivel de significancia, es también el riesgo que asumimos al rechazar una hipótesis nula cuando es cierta. Mientras más alto sea el nivel de significancia que utilizamos para probar una hipótesis, mayor será la probabilidad de rechazar una hipótesis nula cuando es cierta. Ejercicio. Una marca de nueces afirma que, como máximo, el 6% de las nueces están vacías. Se eligieron 300 nueces al azar y se detectaron 21 vacías. Con un nivel de significación del 1%, ¿se puede aceptar la afirmación de la marca? Enunciamos las hipótesis nula y alternativa:

H 0 : p ≤ 0 . 06 H 1 : p>0 . 06 Zona de aceptación

α =0 . 01 z α =2 . 33 . Determinamos el intervalo de confianza:

(

−∞; 0.06+2.33

Verificación.



p=

)

( 0.06 ) ( 0.94 ) =(−∞ ; 0.092 ) 300 21 =0.07 300

Decisión: Aceptamos la hipótesis nula

H 0 . Con un nivel de significación del

1%.

3.5.4 ERRORES DEL TIPO I y II. Si rechazamos una hipótesis cuando da la casualidad que es verdadera, decimos que se ha cometido un error de tipo I. Si, por el contrario, aceptamos una hipótesis cuando esta ha debido rechazarse, decimos que se ha cometido un error de tipo II. En cualquier caso, se ha tomado una mala decisión o se ha hecho un error de juicio. 26 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Para que cualquier prueba de hipótesis o las reglas de decisión sean adecuadas, se deben diseñar de manera que reduzcan los errores de la decisión. Esto es sencillo ya que, para un tamaño muestral dado, el intento de disminuir un tipo de error va generalmente acompañado del incremento en el otro tipo de error, En la práctica, un tipo de error puede ser más grave que el otro, de manera que debemos inclinarnos a favor de una limitación del error más grave. La única manera de reducir ambos tipos de error es incrementando el tamaño de la muestra, lo cual puede o no ser posible.

Ejercicio. Suponga que el miembro de la comisión de planificación en realidad toma la muestra y obtiene

´x =41 . 8

minuto. ¿Qué decisión tomaran los miembros de la comisión de

planificación y estarán cometiendo un error si en realidad a)

μ=42. 5 minutos

b)

μ=41. 2 minutos?

Ya que

´x =41 . 8

cae en el intervalo de 40.5 a 44.4, aceptaran la hipótesis nula de que

en promedio los automóviles permanecen en el área de estacionamiento momentáneo durante 42.5 minutos. a) dado que la hipótesis nula es verdadera y se acepta, no estarán cometiendo un error b) Puesto que la hipótesis nula es falsa pero se acepta, estarán cometiendo un error tipo II

3.6 PRUEBAS DE HIPÓTESIS.

27 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

3.6.1 PARA LA MEDIA. Las suposiciones para esta prueba son mínimas. La población o distribución de interés tiene una media

μ

y una varianza

en la media muestral

σ

2

, conocida. El estadístico de prueba se basa

X´ , por lo que también se supondrá que la población está

distribuida de manera normal o que se aplican las condiciones del teorema del límite central. Esto significa que la distribución de

es aproximadamente normal con una

2

media

μ y una varianza

Aquí

´ S= X , la media muestral;

σ s=σ X´ =σ / √ n , donde



σ /n .

σ

μs =μ X´ =μ

,

la

media de

la

es la desviación estándar de la población y

población;

n

es el

tamaño muestral. La variable estandarizada está dada por:

Z=

´ X−μ σ /√n

Cuando es necesario, la desviación estándar muestral, estimar

σ . Para probar la hipótesis nula

H0

¿ s ¿ o s^ ¿ , se utiliza para

de que la media de la población es

μ=a podemos usar el estadístico. Entonces si la hipótesis alterna es la prueba de dos colas, podemos aceptar

H0

(o al menos no rechazarla) al nivel de

significancia de 0.05 si para una muestra particular de tamaño

−1.96 ≤

μ ≠ a , usando

n con media

X´ .

x´ −a ≤ 1.96 σ /√n

Y podemos rechazarla de otra manera. Para otros noveles de significancia podemos cambiar de manera apropiada, para probar

H0

en contra de la hipótesis alternativa de

que la media de la población es mayor que a, podemos usar la prueba de una cola y aceptar

H 0 (o al menos no rechazarla) al nivel de 0.05 si

28 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

x´ −a −1.645 σ /√n

Ejercicio. Se calculo que el tiempo de vida medio de una muestra de 100 bombillas fluorescentes producidas por una compañía es de 1570 horas con desviación estándar de 120 horas. Si

μ

es el tiempo de vida medio de todas las bombillas producidas por la compañía,

pruebe la hipótesis

μ=1600

horas en contra de una hipótesis alterna

μ ≠1600

horas, usando un nivel de significancia de 0.05. Encuentre el valor de

P en la prueba.

Debemos decidir entre dos hipótesis

H 0 : μ=1600 h rs H 1 : μ ≠ 1600 hrs

Se debe usar una prueba de dos colas ya que

μ ≠1600 hrs

incluye los valores

más grandes y más pequeños que 1600. Para una prueba de dos colas con nivel de significancia de 0.05, tenemos la siguiente regla de decisión: 1) Rechazar la rango

H0

si el valor

z

de la media muestral esta por fuera del

−1.96 a1.96 .

29 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

2) De otra manera aceptar

H0

(o abstenerse a tomar la decisión).

El estadístico bajo consideración es la media muestral



muestral de

μ

donde

y

σ

μ X´ =μ

tiene media

X´ . La distribución

y desviación estándar

σ X´ =σ / √ n ,

son la media y la desviación estándar de la población de

todas las bombillas producidas por la compañía. Bajo la hipótesis

H 0 , tenemos

μ=1600 h rs

σ X´ =σ / √ n=120/ √ 100=12 ,

y

usando la desviación estándar muestral como un estimador de

´ Z ¿( X−1600)/12=(1570−1600)/12=−2.50 −1.96 a1.96 , rechazamos la

H0

σ . Dado que

se encuentran fuera del rango de

al nivel de significancia de 0.05.

3.6.2 PARA LA PROPORCIÓN. S=P ,

Aquí

la proporción de ‘’éxitos’’ en una muestra;

proporción de éxitos en la población y donde

Z=

n

μs =μ p= p , donde

es el tamaño muestral;

p es la

σ s=σ p =√ pq /n ,

q=1− p . La variable estandarizada está dada por

P− p √ pq/n

En el caso

P= X /n , donde

X

es el número verdadero de éxitos en una muestra, se

convierte en:

Z=

X−np √ npq

Se pueden hacer observaciones similares a las hechas atrás sobre pruebas de una y dos colas para medias. Ejercicio.

30 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Tenemos dos grupos, A y B, cada uno de 100 personas que sufren una enfermedad. Se le da un suero al grupo A, pero no al grupo B (grupo de control); para lo demás, ambos grupos se manejan de manera idéntica. Se encontró que en los grupos Ay B, 75 y 65 personas, respectivamente, se recuperaron de la enfermedad. Pruebe la hipótesis de que el suero ayuda a curar la enfermedad usando un nivel de significancia de 0.01.

p1

Sean

p2 , respectivamente, las proporciones de la población curada usando el

y

suero sin usar el suero. Debemos decidir entre estas dos hipótesis.

H 0 : p1 =p 2

. Y las diferencias observadas de deben al azar, es decir, el suero

H 1 : p1 > p2

no es efectivo

H0 ,

Bajo la hipótesis



μP −P =0 ; σ P − P = pq 1

2

1

2

y el suero es efectivo

(



1 1 1 1 + = ( 0.70 ) (0.30) + =0.0648 n 1 n2 100 100

)

Donde usamos como estimado de dos

grupos

muestrales,

dados

(

p

)

la proporción promedio de curas en los

(75+85)/200=0.70 ,

por

y

donde

q=1− p=0.30 . Entonces:

Z=

P1−P2 0.750−0.650 = =1.54 σ P −P 0.0648 1

2

Con base en una prueba de una cola con nivel de significancia e 0.01, podemos rechazar la hipótesis el valor

z

H0

si solo el valor

z

fuera mayor que 2.33. Dado que

es solo 1.54, debemos concluir que, con este nivel de

significancia, los resultados se deben al azar.

3.6.3 PARA LA VARIANZA. 31 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Para probar la hipótesis

H0

de que una población normal tiene varianza

σ

2

,

consideramos las variables aleatorias

X 2=

1

n S2 (n−1) S = σ2 σ2

La cual tiene la distribución chi cuadrado con muestra aleatoria de tamaño

n

de la prueba de dos colas, aceptar

x 20.025 ≦

n−1 grados de libertad. Entonces, si una

S

resulta tener varianza

2

, podemos, sobre la base

H 0 (o al menos no rechazarla) al nivel de 0.05 si

n S2 ≦ x20.975 2 σ

Y rechazarla de otra manera. Se obtiene un resultado similar para el nivel de 0.01 u otro nivel. Para probar la hipótesis de

σ

2

H 1 de que la varianza de la población es mayor que

, podemos aun usar la hipótesis nula

una cola. Así, podemos rechazar

H0

H0

pero ahora emplearemos la prueba de

al nivel de 0.05 (y por consiguiente concluir que

H 1 es correcta) si la varianza S 2 de la muestra particular es tal que n S2 2 > x 0.975 σ2

Y aceptamos

H 0 (o al menos no la rechazamos) de otra manera.

Ejercicio. Suponga que un fabricante de pernos está produciendo pernos de

8 mm de diámetro, y

que los diámetros de estas piezas se distribuyen normalmente; con propósitos de control de calidad, se obtuvo una muestra de 25 pernos de una línea de producción para estimar la varianza de todos los diámetros, la cual resultó ser

2

2

S =0.009 mm

. Con un nivel de

32 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

significancia de 0.05. ¿Se puede concluir que la varianza poblacional es igual o menor

0.01 mm2 ? Datos:

n=25 S 2=0.009 mm2 ¿ 0.05 Establecer la hipótesis

H 0 ; σ 2 ≤ 0.01 H 1 ; σ 2> 0.01 Establecer la estadística de prueba

x 2=( n−1)S2 /σ 2 . Definir el nivel de significancia y

la zona de rechazo.

g .l=24

36.415 Nivel de significancia = 0.05 2

Zona de Rechazo =

X /X ¿

2

¿ 36.415 ¿

Calcular la estadística de prueba.

X 2=

( n−1)S 2 σ2

X 2=

( 24 ) (0.009) =21.6 0.01

Como la

σ

2

esta bajo la hipótesis nula entonces tenemos

33 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Como 21.6 es menor que 36.415 no se rechaza la hipótesis nula con un nivel de significancia de 0.05. Conclusión: Existe evidencia estadística para decir que la varianza poblacional es igual o menor

0.01 mm2 .

3.6.4 PARA LA DIFERENCIA DE MEDIAS. X´ 1

Sean

n1

y

estándar

X´ 2

y

las medias muestrales obtenidas en muestras grandes de tamaños

n2

de poblaciones respectivas con media

σ1

y

μ1

y

μ2

y desviaciones

σ 2 . Considere la hipótesis nula de que no hay diferencia entre las

medias de las poblaciones, es decir,

μ1=μ2 . Reemplazando

μ1=μ2

vemos que la

distribución muestral de diferencias con medias es aproximadamente normal con media y desviación estándar dadas por



σ 21 σ 22 μx´ − ´x =0 σ ´x − ´x = + n1 n2 1

2

1

2

Donde podemos, si es necesario, usar las desviaciones estándar observadas

s1

y

s 2 como estimados de σ 1 y σ 2 . Usando la variable estandarizada dada por

Z=

´ 1− X´ 2 X σ ´x −x´ 1

2

Podemos probar la hipótesis nula en contra de la hipótesis alterna (o de significancia de la diferencia observada) a un nivel adecuado de significancia. Ejercicio. Se evaluaron dos cursos de 40 y 50 estudiantes. En el primer curso la nota promedio fue de 74 con desviación estándar de 8, mientras que en el segundo curso la nota promedio fue de 78 con desviación estándar de 7. ¿Existe alguna diferencia en el rendimiento de los dos cursos con nivel de significancia de 0.05. ¿Cuál es el valor de

p de la prueba?

34 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Supongamos que los dos cursos vienen de dos poblaciones con medias respectivas y

μ1

μ2 . Entonces tenemos que decidir entre estas hipótesis: H 0 : μ 1=μ2

y la diferencia se debe al azar.

H 1 : μ1 ≠ μ 2

y hay una diferencia significativa entre ambos cursos.

H 0 , ambos cursos viene de la misma población. La media y la

Bajo la hipótesis

desviación estándar de la diferencia de medias está dada por



2 2 σ 21 σ 22 8 7 μx´ − ´x =0 σ ´x − ´x = + = + =1.606 n1 n2 40 50 1

2

1

2



y

σ2

Para una prueba de dos colas, los resultados son significativos al nivel de 0.05 si

Z

Donde usamos las deviaciones estándar muestrales como estimadores de

σ1

.Entonces:

Z=

´ 1− X´ 2 74−78 X = =−2.49 σ ´x −x´ 1.606 1

2

esta por afuera del rando

−19.6 a

1.96 . Entonces concluimos que al nivel de 0.05

hay una diferencia significativa en el desempeño de los dos cursos y que probablemente el segundo curso es mejor.

3.6.5 PARA LA DIFERENCIA DE PROPORCIONES. Sean

P1

tamaños

P2

y

n1

y

n2

las proporciones muestrales obtenidas en muestras grandes de de las poblaciones respectivas con proporciones

p1

y

p2 .

Considere la hipótesis nula de que no hay diferencia entre las proporciones de la población, es decir,

p1=¿

p2 , y por lo tanto, de que las muestras se tomaron

realmente de la misma población.

35 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS



μP −P =0 σ P − P = p ( 1−p ) 1

2

1

2

( n1 + n1 ) 1

2

Usando la variable estandarizada

Z=

P1−P2 σ P −P 1

2

Podemos probar diferencias observadas a un nivel apropiado de significancia y de allí probar la hipótesis nula. Ejercicio. Una encuesta hecha a 300 votantes del distrito A y a 200 del distrito B mostro que 56% y 48%, respectivamente, estaban a favor de un candidato dado. Con el nivel de significancia de 0.05 pruebe la hipótesis de que: Hay diferencia entre los distritos.

P1

Sean

P2

y

las proporciones de todos los votantes de los distritos A y B,

respectivamente, que están a favor del candidato.

H 0 : P1 =P 2 , tenemos

Bajo la hipótesis



μP −P =0 σ P − P = p ( 1−p ) 1

2

1

Donde

2

usamos

( n1 + n1 )=√(0.528)( 0.472)( 3001 + 2001 )=0.0456 1

como

2

estimadores

de

p

y

q

los

valores

( 0.56 ) ( 300 ) + ( 0.48 ) (200)/ 500=0.528 y 1−0.528=0.472 , tenemos

Z=

P1−P2 0.560−0.480 = =1.75 σ P −P 0.0456 1

2

Si solamente queremos determinar si hay una diferencia entre los distritos, debemos decidir entre la hipótesis

H 0 ; P1 =P 2 y H 1 ; P1=P2 , lo que involucra una prueba de

dos colas. Con base en una prueba de dos colas con nivel de significancia de 0.05, debemos rechazar

H 0 , si Z esta fuera del intervalo -1.96 a 1.96. Dado que

Z =1.75 36

ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

esta dentro del intervalo, no podemos rechazar

H0

con este nivel de significancia, es

decir, no hay diferencia significativa entre los dos distritos.

3.6.6 PARA LA RELACIÓN DE VARIANZAS. En algunos problemas queremos decidir si dos muestras de tamaño respectivamente, cuyas varianzas son

2

s1

y

m

y

n ,

2

s 2 , provienen o no de poblaciones

normales con la misma varianza, en tales casos, usamos el estadístico.

s21 /σ 21 F= 2 2 s2 /σ 2

Donde

2

σ1

y

2

σ2

son las varianzas de dos poblaciones normales de las cuales se

tomaron las muestras. Supongamos que

H0

denota la hipótesis nula de que no hay

diferencia entre las varianzas de las poblaciones, es decir

2

σ 1=¿

2

σ 2 . Entonces, bajo

esta hipótesis se convierte en:

F=

s^ 21 s^ 22

Para probar esta hipótesis al nivel de 0.10, por ejemplos, primero debemos observar que

F

tiene la distribución

F

con

m−1, n−1

una prueba de dos colas, podemos aceptar

grados de libertad. Entonces, usando

H 0 al nivel de 0.10 si

^s21 F0.05 ≤ 2 ≤ F0.95 ^s2 Y rechazarla de otra manera. Se pueden formular procedimientos similares usando pruebas de una cola en caso de que queramos probar la hipótesis de que la varianza de una población partículas es, de hecho, mayor que la otra. Ejercicio.

37 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Un instructor tiene dos cursos, A y B en una materia en particular. El curso A tiene 16 estudiantes mientras que el B tiene 25. En el mismo examen, a pesar de que no hubo diferencias significativas en las notas promedio, el curso A tuvo una desviación estándar de 9 mientras que el B tuvo una desviación estándar de 12. ¿Podemos concluir que al nivel de significancia de 0.01, la variabilidad del curso B es mayor que el de A? Sol. Usemos los subíndices 1 y 2 para los cursos Ay B, respectivamente. Tenemos entonces,

s 1=9, s2=12, de manera que

9 ¿ ¿ 12 ¿ ¿

2 s^ 1=

n1 2 16 s= ¿ n1−1 1 15

Debemos decidir entre las hipótesis

H 0 ; σ 1=σ 2

, y cualquier variación se debe al azar

H 1 ; σ 2> σ 1

, y la variación del curso B es mayor que la del A

Por lo tanto, la decisión de debe basar en una prueba de una cola de la distribución F. para las muestras en cuestión.

s^ 2 150 F= 22 = =1.74 s^ 1 86.4

El número de grados de libertad asociados con el numerador es el denominador,

r 1=16−1=15 ;

de libertad tenemos del apéndice no podemos rechazar

r 2=25−1=24 ;

para

grados de libertad. Al nivel de 0.01 para 24, 15 grados

F ,

F0.99 =3.99.

Entonces, dado que

F< F 0.99 ,

H 0 al nivel de 0.01.

3.7 AJUSTE DE DISTRIBUCIONES DE FRECUENCIA A DISTRIBUCIONES DE PROBABILIDAD. 38 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

3.7.1 AJUSTE A UNA DISTRIBUCIÓN BINOMIAL. La distribución binomial se caracteriza porque su función de probabilidad viene dada por la expresión siguiente:

()

P ( X=r )=p r= n p r qn −r r Donde r binomial



es el número de éxitos asociado al experimento aleatorio. En una distribución

B (n , p)

se verifica que:

La probabilidad de que aparezca al menos un éxito en las n repeticiones es igual a:

P ( X ≥ 1 )=1−p ( X =0) 

n

La probabilidad de que se produzca un éxito como máximo en las repeticiones se determina como:

P ( X ≤ 1 )=P ( X =0 ) + P( X=1) B

En ocasiones, el cálculo de la probabilidad de una distribución binomial del tipo

(n , p)

resulta muy complicado. Según demostró el matemático francés Abraham de

Moivre (1667-1754), la probabilidad de una distribución binomial aproximarse por medio de una distribución normal de tipo

B (n , p)

N (np , √ npq),

puede

que resulta

particularmente adecuada cuando:  

El valor de n es muy elevado. Tanto np y nq son ≥ más se aproxima

que 5. (Obsérvese que cuanto mayor es

n

y

p a 0.5 tanto mejor es la aproximación realizada).

Para transformar una distribución binomial (de variable discreta) en una normal (de variable continua). Ejercicio. Supongamos que un importador de juguetes recibe mensualmente 100 cajas de una determinada modelo, y cada una de las cajas contiene 4 juguetes. Durante el primer mes, para poder calcular los costes reales de los juguetes, lleva a cabo un estudio en el que 39 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

obtiene:

El empresario calcula en primer lugar el obteniendo media una

B (n=4, p),

0,1,2,3,4

medio de juguetes defectuosos por caja,

μ=0,41 . Si la distribución de juguetes defectuosos por caja fuera la media sería

Para ver si se ajusta o no a la de



m=np=0.41

B (4, 0, 1) ,

, luego despejando,

p=0.102 .

calculamos para esta última la probabilidad

"éxitos" (juguetes defectuosos), y obtenemos:

Y por tanto, en 100 cajas, las "teóricas" apariciones de los valores

0,1,2,3,4

, serían:

65.6 , 29.2, 4.9 ,0.4 y 0 , que son muy similares a las encontradas en la muestra. A partir de aquí, el empresario puede asumir que la probabilidad de que un juguete sea defectuoso es del

10 , podrá hacer previsiones para las 5000 cajas de que va a

constar su próximo pedido.

3.7.2 AJUSTE A UNA DISTRIBUCIÓN DE POISSON. La distribución de Poisson describe el número de sucesos discretos que ocurren en serie, o en una secuencia, y que muestran una independencia de tipo muy particular. Ellos son independientes en cuanto que su ocurrencia en un intervalo de tiempo (de distancia o área) depende sólo del largo del intervalo sobre el cual son contados, pero no depende de donde se ubica el intervalo ni de las ocurrencias en otros intervalos no sobrepuestos. Así los sucesos ocurren aleatoriamente, pero a una tasa temporal media constante. Este tipo de independencia resulta difícil de probar en datos atmosféricos, pero resulta útil en casos en que el grado de dependencia no sea muy fuerte. Los sucesos de tipo Poisson deben ser suficientemente raros para que la probabilidad de ocurrencia de más de uno sea muy pequeña. Otra forma de motivar la ocurrencia de tipo Poisson es como el caso límite de la distribución binomial, con p tendiendo a cero y N tendiendo a infinito. La distribución de Poisson tiene sólo un parámetro, que especifica la tasa promedio de ocurrencia, suele denominarse la intensidad del fenómeno y sus dimensiones son ocurrencias en la unidad de tiempo. La distribución de Poisson es: 40 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

x

Pr ( X =x )=

−μ

μ e x=0,1,2 … x!

Para ajustar la distribución de Poisson a la muestra de datos lo más simple es usar el método de los momentos, es decir se igualan los momentos de la muestra con los momentos de la distribución o población. Recordando que el primer momento es el promedio de la muestra, resulta muy fácil el ajuste en el caso de la distribución de Poisson. Simplemente el promedio, es igual al número de ocurrencias de la v.a. en la unidad de tiempo. 2

(o−e) X =∑ e 2

Ejercicio. Con base en las frecuencias observadas en la tabla anterior, pruebe en el nivel de significancia 0.05 si hay algún indicio de que los dígitos de la tabla XI no se puedan considerar como aleatorios.

H 0 : La probabilidad de cada digito es 0.10 H 1 : No todas las probabilidades son 0.10 α =0.05 Se rechaza la hipótesis nula si

X 2 ≥16.919 , donde

2

(o−e) X =∑ e 2

Y 16.919 es el valor de

x 10.05

para

k −m−1=10−0−1=9 , grados de libertad, de

otra manera, se señala que no hay ningún indicio de que los dígitos de la tabla no se puedan considerar como aleatorios. (Aquí

m=0

por que ninguno de los parametros de

la distribución de la probabilidad se debía estimar apartir de los datos de la muestra). Sustituyendo las frecuencias observadas y esperadas de la tabla de la página 373 en la fórmula para

X 2 , obtenemos

41 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

2

21−25 ¿ ¿ 28−25 ¿ 2 ¿ 33−25 ¿ 2 ¿ ¿ ¿ ¿ X 2=¿ Dado que

X 2 7.92 no es mayor que 16.919, no se puede rechazar la hipótesis nula; en

otras palabras, no hay indicios de que no se puedan considerar los dígitos de la tabla XI como aleatorios.

3.7.3 AJUSTE A UNA DISTRIBUCIÓN NORMAL. Entre las distribuciones probabilísticas de variable continua, la más ampliamente utilizada es la llamada distribución normal, cuya representación gráfica tiene una forma muy conocida en el ámbito de la estadística y las ciencias naturales: la campana de Gauss. El cálculo de las probabilidades asociadas a una distribución normal por medio de integrales resulta, en general, complejo. Por ello, suele utilizarse una función de distribución de apoyo cuya media es 0 y cuya desviación típica es la unidad. Tal función se denomina distribución normal tipificada, y se expresada como

N (0,1).

Se llama tipificación a la operación consistente en cambiar de una variable aleatoria X a otra variable Z de distribución tipificada, por medio de la expresión siguiente:

Z=

X−´x σ

Ejercicio. Pruebe en el nivel de significancia 0.05 si se pueden considerar los datos de la pagina 374 como valores de una variable aleatoria que tiene una distribución binomial.

H 0 : La variable aleatoria tiene una distribución binomial. H 1 : La variable aleatoria no tiene una distribución binomial. α =0.05

42 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Se rechaza la hipótesis nula si

Z=

2

X ≥ 9.488 , donde

X−´x σ

Y 9.488 es el valor de

x 20.05

para

6−1−1=4

grados de libertad; de otro modo se

acepta la hipótesis nula o se reserva la opinión. (Aquí, seis parámetros para obtener

X 2 y m=1 por que

k =6

por que se debían sumar

p se tenía que estimar a partir

de los datos observados.) Sustituyendo las frecuencias observadas y esperadas de la tabla anterior en la fórmula para

X

2

, obtenemos

10−13.7 ¿ 2 ¿ 19−19.6 ¿ 2 ¿ 29−24.9¿ 2 ¿ 26−21.6 ¿2 ¿ 13−13¿ 2 ¿ 3−7.1¿ 2 ¿ ¿ ¿ ¿ ¿ ¿ ¿ X 2=¿ Puesto que

2

X =5

no es mayor que 9.488, no se debe rechazar la hipótesis nula; en

otras palabras, no hay ninguna evidencia real de que la variable aleatoria (el número de autobuses que llegan retrasados por semana) no tenga una distribución binomial.

3.8 ESTADÍSTICA NO PARAMÉTRICA. La mayoría de las pruebas de hipótesis y significancia o reglas de decisión, requieren de varias suposiciones acerca de la distribución de la población de la que se toman las muestras. En la práctica surgen situaciones en las cuales tales suposiciones pueden no 43 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

justificarse o en las que hay duda de que aplican, como en el caso en que una población puede estar altamente sesgada. Debido a esto, los estadísticos han ideado diferentes pruebas y métodos que son independientes de las distribuciones de la población y de sus parámetros asociados. Estas se denominan pruebas no paramétricas. Las pruebas no paramétricas se pueden usar como un método abreviado para reemplazar pruebas más complejas. Son especialmente valiosas al tratar con datos no numéricos, tales como los que surgen cuando los consumidores ordenan cereales u otros productos en orden de preferencia.

3.8.1 PRUEBA DEL SIGNO. Una prueba no paramétrica sencilla para el caso de tales muestras pareadas, es la prueba del signo. Esta prueba consiste en tomar la diferencia entre los números de tornillos defectuosos por día y escribir solamente el signo de la diferencia. También se puede utilizar la prueba de signo para probar la hipótesis nula para observaciones pareadas. Aquí se reemplaza cada diferencia, más o menos dependiendo si la diferencia ajustada,

~ μ1− ~ μ 2=d 0

d i , con un signo

d i−d 0 , es positiva o negativa. A lo

largo de esta sección suponemos que las poblaciones son simétricas. Sin embargo, aun si las poblaciones son asimétricas se puede llevar a cabo el mismo procedimiento de prueba, pero las hipótesis se refieren a las medianas poblacionales en lugar de las medias. La probabilidad de obtener un valor muestral menor que la mediana y la probabilidad de

1 2 . Si los valores de la población

obtener un valor muestral mayor que la mediana son

están distribuidos simétricamente alrededor de la mediana, entonces la mediana media

μ

~ μ y la

son iguales. Solo ocasionalmente nos vemos en una situación que nos

permite suponer la simetría de una población. Los procedimientos que siguen por lo regular se describirán en términos de la mediana

~ μ

pero debemos recordar que en

ciertas situaciones la mediana y la media son iguales. Aunque la prueba del signo es particularmente útil para las muestras pareadas, también se puede usar para problemas que involucran muestras sencillas. Ejercicio.

44 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Con relación a la tablas 10-1, pruebe la hipótesis la hipótesis diferencia entre maquinas I y II, contra la hipótesis

H0

de que no hay

H 1 de que hay diferencia al nivel de

significancia de 0.05. La figura 10-1 es una grafica de la distribución binomial (y de la aproximación normal a ella) que da las probabilidades de X caras en 12 lanzamientos de una moneda

X =0,1, 2, … ,12.

balanceada, donde X

12− X

( )( ) ( )

Pr ( X )= 12 1 X 2

1 2

la probabilidad de X caras es:

12

( )( )

= 12 1 X 2

De donde

Pr ( 0 )=0.00024, Pr ( 1 )=0.00293, P ( 2 ) =0.01611 y Pr ( 3 )=0.05371 .

Dado que

H1

es la hipótesis de que hay una diferencia entre las maquinas, en contra

de la hipótesis de que la maquina I es mejor que la maquina II, usamos una prueba de dos colas. Para el nivel de significancia de 0.05, cada cola tiene la probabilidad asociada

( 12 )( 0.05 )=0.025 .

Ahora agregamos las probabilidades al lado izquierdo hasta que la

suma supere 0.025. Así:

0, 1o 2 ¿=0.00024+0.00293+ 0.01611=0.01928 Pr ⁡¿ caras 0, 1,2 o 3 caras ¿=0.00024+0.00293+ 0.01611+0.05371=0.07299 Pr ⁡¿ Dado que 0.025 es mayor que 0.01928, pero menor que 0.07299, podemos rechazar la hipótesis

H 0 si el numero de caras es 2 o menor (o por simetría, si el numero de caras

es 10 o mayor). Sin embargo, el numero de caras (los signos + de la secuencia) es 3. Por lo tanto, no podemos rechazar

H0

al nivel de 0.05 y debemos concluir que no hay

diferencia entre las maquinas a este nivel.

3.8.2 PRUEBA DE WILCOXON. Se puede notar que la prueba de signo utiliza sólo los signos más y menos de las diferencias entre las observaciones y

μ0 en el caso de una muestra, o los signos más y 45

ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

menos de las diferencias entre los pares de observaciones en el caso de la muestra pareada, pero no toma en consideración la magnitud de estas diferencias. Una prueba que utiliza dirección y magnitud, propuesta en 1945 por Frank Wilcoxon, se llama ahora comúnmente prueba de rango con signo de Wilcoxon. Esta prueba se aplica en el caso de una distribución continua simétrica. Bajo esta condición se puede probar la hipótesis nula

μ=μ 0 . Primero se resta

μ0

de cada

valor muestral y se descarta todas las diferencias iguales a cero. Se asigna un rango de 1 a la diferencia absoluta más pequeña, un rango de 2 a la siguiente más pequeña, y así sucesivamente. Cuando el valor absoluto de dos o más diferencias es el mismo, se asigna a cada uno el promedio de los rangos que se asignarían si las diferencias se distinguieran. Por ejemplo, si la quinta y sexta diferencia son iguales en valor absoluto, a cada una se le asignaría un rango de 5.5. Si la hipótesis

μ=μ 0

es verdadera, el total

de los rangos que corresponden a las diferencias positivas debe ser casi igual al total de los rangos que corresponden a las diferencias negativas. Se representan esos totales como

+¿ −¿ +¿ −¿ w¿ y w¿ , respectivamente. Se designa el menor de w¿ y w¿ con w .

Al seleccionar muestras repetidas esperaríamos que variarían

w . De esta manera se puede considerar a correspondiente variables aleatorias

+¿ w¿ ,

se puede rechazar a favor de la alternativa grande. Del mismo modo, la alternativa grande y favor de

−¿ w¿

+¿ w¿

+¿ −¿ w ¿ y w¿ , y w

−¿ w¿ , y μ< μ0 μ> μ0

y

−¿ w¿ , y por tanto

como valores de las

W . La hipótesis nula sólo si w+ es pequeña y

−¿ w¿

es

se puede aceptar sólo si

+¿ w¿

es

es pequeña. Para una alternativa bilateral se puede rechazar

H 1 si +¿ o −¿ w¿ w¿

μ=μ 0

H0

a

y por tanto w son suficientemente pequeñas. No importa

cuál hipótesis alternativa puede ser, rechazar la hipótesis nula cuando el valor de la estadística apropiada

+¿ −¿ w¿ , w¿ , o W

es suficientemente pequeño.

46 ESQUIVEL REYES GEOVANNI ALEXIS

ESTADÍSTICA

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Dos Muestras con Observaciones Pareadas. Para probar la hipótesis nula de que se muestrean dos poblaciones simétricas continuas con

μ1=μ2 para el caso de una muestra pareada, se clasifican las diferencias de las

observaciones paradas sin importar el signo y se procede como en el caso de una muestra. Los diversos procedimientos de prueba para los casos de una sola muestra y de una muestra pareada se resumen en la siguiente tabla:

No es difícil mostrar que siempre que

n