7 Areas y Volumenes

Jorge Luis Bustos Galindo Autor Profesional en Matemáticas y Estadística Copyright 2016 - Editorial – COLOMBIA Sello Edi

Views 198 Downloads 5 File size 2MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Jorge Luis Bustos Galindo Autor Profesional en Matemáticas y Estadística Copyright 2016 - Editorial – COLOMBIA Sello Editorial Todos los derechos reservados. Ninguna parte de esta publicación puede ser reproducida, almacenada en sistema alguno de tarjetas perforadas o trasmitida por otro medio – electrónico, mecánico, fotocopiador, registrador, etcétera sin permiso previo por escrito del autor. All rights reserved. No part of this publication may be reproduced, stored in a retrieval system, or transmitted in any form by any means, electronic, mechanical, photocopying, recording or otherwise, without the prior writing permission from author.

TABLA DE CONTENIDO PROBABILIDADES ....................................................................................................5 ESPACIO MUESTRAL ......................................................................................................5 EVENTO O SUCESO MUESTRAL ...................................................................................5 PROBABILIDAD CLÁSICA................................................................................................6 AXIOMAS ELEMENTALES DE LA PROBABILIDAD .......................................................6 PROBABILIDAD CONDICIONAL ......................................................................................7 TEOREMA DE LA PROBABILIDAD TOTAL.....................................................................8 TEOREMA DE BAYES ......................................................................................................8 INDEPENDENCIA DE EVENTOS.....................................................................................9 GUÍA DE TRABAJO N° 1 ................................................................................................ 10 DISTRIBUCIÓN DE PROBABILIDAD ............................................................................. 12 VALOR ESPERADO Y VARIANZA DE UNA VARIABLE ALEATORIA ......................... 13 DISTRIBUCIONES DISCRETAS ............................................................................. 16 Distribución Binomial ....................................................................................................... 16 Distribución Hipergeométrica .......................................................................................... 17 Distribución de Poisson ................................................................................................... 18 GUÍA DE TRABAJO Nº 2 ................................................................................................ 19 DISTRIBUCIÓN CONTINUA.................................................................................... 21 DISTRIBUCIÓN NORMAL .............................................................................................. 21 APLICACIONES DE LA DISTRIBUCIÓN NORMAL....................................................... 24 GUÍA DE TRABAJO Nº 3 ................................................................................................ 27 MUESTREO ............................................................................................................. 28 Técnicas de muestreo estadístico................................................................................... 28 Muestreo probabilístico ................................................................................................... 28 Muestreo aleatorio simple (MAS) .................................................................................... 28 Muestreo sistemático....................................................................................................... 29 Muestreo estratificado ..................................................................................................... 29 Estadística Inferencial

Página 2 Jorge Luis Bustos Galindo

Muestreo por estadios múltiples...................................................................................... 30 Muestreo por conglomerados.......................................................................................... 30 Homogeneidad de las poblaciones o sus subgrupos ..................................................... 30 Muestreo no probabilístico .............................................................................................. 31 Muestreo por cuotas ........................................................................................................ 31 Muestreo de bola de nieve .............................................................................................. 31 Muestreo subjetivo por decisión razonada ..................................................................... 31 TAMAÑO DE MUESTRA ......................................................................................... 32 Tamaño de muestra con varianza poblacional conocida ............................................... 32 Población infinita o muestreo con repetición .................................................................. 32 Población finita y muestreo sin repetición....................................................................... 32 Tamaño de muestra proporcional a la población............................................................ 33 Población infinita o muestreo con repetición .................................................................. 33 Población finita y muestreo sin repetición....................................................................... 33 GUÍA DE TRABAJO N° 4 ................................................................................................ 34 PRUEBAS DE HIPÓTESIS ...................................................................................... 35 Planteamiento clásico del contraste de hipótesis ........................................................... 35 Procedimientos de prueba............................................................................................... 36 Errores en el contraste .................................................................................................... 37 Pasos en una prueba de hipótesis .................................................................................. 38 PRUEBAS DE HIPÓTESIS RESPECTO DE LAS MEDIAS EN POBLACIONES NORMALES.............................................................................................................. 39 Pruebas para una muestra .............................................................................................. 39 Varianza poblacional conocida........................................................................................ 39 Varianza poblacional desconocida y muestra pequeña ................................................. 40 Pruebas para dos muestras independientes .................................................................. 41 Pruebas sobre medias cuando las observaciones son pareadas .................................. 43 GUÍA DE TRABAJO N° 5 ................................................................................................ 45 Estadística Inferencial

Página 3 Jorge Luis Bustos Galindo

PRUEBAS DE HIPÓTESIS RESPECTO DE LAS VARIANZAS EN POBLACIONES NORMALES .................................................................................. 47 GUÍA DE TRABAJO N° 6 ................................................................................................ 49 REGRESIÓN Y CORRELACIÓN SIMPLES ............................................................ 50 La recta de regresión....................................................................................................... 50 Estimación de 𝛼 y 𝛽 ......................................................................................................... 50 Estimación de 𝛼 y 𝛽 para el ejemplo hipotético .............................................................. 56 GUÍA DE TRABAJO N° 7 ................................................................................................ 58 MÉTODOS NO PARAMÉTRICOS........................................................................... 60 Prueba de rangos signados............................................................................................. 60 Prueba de independencia................................................................................................ 62 GUÍA DE TRABAJO N° 8 ................................................................................................ 65

Tabla I. Distribución Normal Estándar ........................................................................... 67 Tabla II. Distribución T-Student ...................................................................................... 68 Tabla III. Distribución X2 ................................................................................................. 69 Tabla IV. Distribución F .................................................................................................. 70

Estadística Inferencial

Página 4 Jorge Luis Bustos Galindo

PROBABILIDADES

La probabilidad nos permite estudiar o analizar los fenómenos o procesos llamados aleatorios, es decir, es el cálculo matemático de las posibilidades que existen de que un evento se cumpla o suceda al azar.

ESPACIO MUESTRAL Es el conjunto de todos los resultados posibles de un experimento aleatorio y se denota S. Ejemplo 1. Experimento: Se lanza una moneda una vez.

Entonces el espacio muestral es, S={c, s}.

EVENTO O SUCESO MUESTRAL Un evento o suceso A es un subconjunto del espacio muestral S. Como un evento es un conjunto, podemos combinar eventos para formar nuevos eventos usando las varias operaciones entre conjuntos: (1) 𝐴 ∪ 𝐵 es el evento que ocurre siempre y cuando ocurra o 𝐴 o 𝐵 (o ambos). (2) 𝐴 ∩ 𝐵 es el evento que ocurre siempre y cuando ocurran tanto 𝐴 como 𝐵. (3) 𝐴𝑐 el complemento de 𝐴, es el evento que ocurre siempre y cuando no ocurra 𝐴. Ejemplo 2. Experimento: Lance un dado y observe el número que resulta.

El espacio muestral es, S = {1, 2, 3, 4, 5, 6}. Sea A el evento de que salga un número par, B de que salga un número menor que cuatro y C de que salga un número primo. A={ B={ C={ Encuentre: 𝐴∪𝐶 ={

Estadística Inferencial

Página 5 Jorge Luis Bustos Galindo

𝐵∩𝐶 = { 𝐴𝑐 = {

PROBABILIDAD CLÁSICA Se da el nombre de probabilidad clásica cuando ésta se toma objetivamente (en sentido práctico) y se puede considerar de dos maneras: a priori y a posteriori. Sea S un espacio muestral finito y A un evento del espacio muestral, entonces la probabilidad de A se denota P(A) y se define:

𝑃(𝐴 ) =

𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒𝑙 𝑒𝑣𝑒𝑛𝑡𝑜 𝐴 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒𝑙 𝑒𝑠𝑝𝑎𝑐𝑖𝑜 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑆

Ejemplo 3. Se lanza un dado dos veces; halle la probabilidad de los eventos siguientes: A la suma de los puntos es siete y B la suma de los puntos es menor o igual a cinco. S={ A={ B={ P(A) = P(B) =

AXIOMAS ELEMENTALES DE LA PROBABILIDAD Las reglas generales de probabilidad las podemos dividir en dos grupos. Un primer grupo formado por las reglas que podríamos llamar primarias o básicas, llamadas axiomas. Estas reglas no se aprecian directamente en la solución de problemas, pero son las que dan un soporte lógico a las que se utilizan directamente en la solución de tales problemas y que se llaman teoremas. Establecemos en primera instancia los axiomas. Axioma 1. Si A es un evento del espacio muestral S, entonces P(A) representa un número entre 0 y 1 incluidos. Esto es, 0 ≤ 𝑃(𝐴) ≤ 1. Axioma 2. Si S es el espacio muestral asociado a un experimento aleatorio, entonces P(S) es igual a 1, o sea, 𝑃 (𝑆) = 1. Axioma 3. Si A y B son eventos mutuamente excluyentes, entonces la probabilidad de A o B, 𝑃 (𝐴 ∪ 𝐵 ), es igual a la suma de las probabilidades individuales. Esto es, 𝑃 (𝐴 ∪ 𝐵 ) = 𝑃(𝐴) + 𝑃(𝐵 ) . Dos eventos 𝐴 y 𝐵 se llaman mutuamente excluyentes si son disyuntos, o sea, 𝐴 ∩ 𝐵 = ∅. En otras palabras, 𝐴 y 𝐵 son mutuamente excluyentes si y sólo si no ocurren simultáneamente. A partir de los tres axiomas anteriores se deducen los teoremas que constituyen reglas para calcular probabilidades de situaciones más o menos complejas.

Estadística Inferencial

Página 6 Jorge Luis Bustos Galindo

Teorema 1. Si A es el evento vacío entonces su probabilidad es cero. Es decir, 𝑃 (∅) = 0. Teorema 2. Si A es un evento y A c su complemento, entonces la probabilidad de A c es igual a uno menos la probabilidad de A. Esto es, 𝑃 (𝐴𝑐 ) = 1 − 𝑃 (𝐴) . Ejemplo 4. Suponga que en una urna hay cuatro bolas blancas y seis rojas. De la urna se extrae al azar una bola y sea A: la bola extraída es roja. Hallar la probabilidad de que la bola extraída no sea roja. 𝑃( 𝐴𝑐 ) = Teorema 3. Si A y B son dos eventos del espacio muestral S, entonces 𝑃 (𝐴 ∪ 𝐵 ) = 𝑃(𝐴) + 𝑃(𝐵 ) − 𝑃 (𝐴 ∩ 𝐵 ) . Ejemplo 5. En un curso de 10 hombres y 20 mujeres, la mitad de los hombres y la mitad de las mujeres tienen ojos pardos. Encuentre la probabilidad de que una persona escogida al azar sea hombre o tenga ojos pardos. A={ B={ 𝑃 (𝐴 ∪ 𝐵 ) =

PROBABILIDAD CONDICIONAL Sean A y B dos eventos, la probabilidad condicional de A dado B se denota y se define de la manera siguiente: 𝑃 (𝐴/𝐵 ) =

𝑃 (𝐴 ∩ 𝐵 ) , 𝑃 (𝐵 )

𝑃 (𝐵 ) > 0

𝑃 (𝐵 /𝐴) =

𝑃(𝐴 ∩ 𝐵 ) , 𝑃(𝐴)

𝑃(𝐴) > 0

Igualmente se tiene que

como la probabilidad de B dado A. Ejemplo 6. La oficina de Acción Social lleva a cabo un censo de todas las personas que viven en una pequeña comunidad. Los encuestadores anotan en una relación el número de visitas que una persona hace al centro de salud y las condiciones sanitarias de la vivienda que habita. Los resultados son los siguientes: Tabla 1. Número de visitas que una persona hace al centro de salud y las condiciones sanitarias de la vivienda que habita. Número de visitas Dos o menos Más de dos Total

Condiciones sanitarias Buenas 700 800 1 500

Estadística Inferencial

Malas 100 400 500

Total 800 1200 2 000

Página 7 Jorge Luis Bustos Galindo

Con base en esta tabla, ¿cuál es la probabilidad de que una persona escogida al azar viva en malas condiciones sanitarias, dado que visita dos veces o menos el centro de salud? A={ B={ P(A/B) =

TEOREMA DE LA PROBABILIDAD TOTAL Este teorema o regla de probabilidad total nos indica cómo calcular la probabilidad de un evento A cuando conocemos las probabilidades condicionales 𝑃 [ 𝐴 ⁄𝐵𝑖 ] en donde los 𝐵𝑖 forman una partición del espacio muestral S. Supongamos que {𝐵𝑖 }𝑛𝑖=1 es una partición de un espacio muestral S. Si A es un evento de S. Entonces, 𝑃 [ 𝐴] = 𝑃[ 𝐴 ⁄𝐵1 ] 𝑃[ 𝐵1 ] + 𝑃 [ 𝐴 ⁄𝐵2 ] 𝑃[ 𝐵2 ] + ⋯ + 𝑃[ 𝐴 ⁄𝐵𝑛 ] 𝑃[ 𝐵𝑛 ] = ∑𝑛𝑖=1 𝑃 [ 𝐴 ⁄𝐵𝑖 ] 𝑃[ 𝐵𝑖 ] Ejemplo 7. En una fábrica de tornillos, las máquinas A, B y C fabrican 20, 30 y 50% de la producción total respectivamente. De lo que producen 2, 3 y 5% respectivamente son tornillos defectuosos. Con la producción total se hace un solo lote y se extrae un tornillo; halle la probabilidad de que sea defectuoso. Sean los eventos, A: el tornillo escogido es defectuoso. 𝐵1 :el tornillo proviene de la máquina A. 𝐵2 :el tornillo proviene de la máquina B. 𝐵3 :el tornillo proviene de la máquina C. De lo anterior se tiene que, 𝑃 [ 𝐵1 ] = 0.2, 𝑃 [ 𝐵2 ] = 0.3 y 𝑃 [ 𝐵3 ] = 0.5. Además, 𝑃[ 𝐴 ⁄𝐵1 ] = 0.02, 𝑃 [ 𝐴 ⁄𝐵2 ] = 0.03 y 𝑃 [ 𝐴 ⁄𝐵3 ] = 0.05. Aplicando el teorema o regla de la probabilidad total, 𝑃 [ 𝐴] = (0.02)(0.2) + (0.03)(0.3) + (0.05)(0.5) = 0.038 Hay una probabilidad del 3.8% de que el artículo escogido sea defectuoso.

TEOREMA DE BAYES El teorema o regla de Bayes es una técnica que nos permite obtener la probabilidad condicional de un evento cuando mediante el efecto tratamos de determinar la probabilidad de la causa. Este resultado ha sido muy utilizado para estudiar fenómenos sociales; sin embargo, por el empleo de probabilidades subjetivas ha sido muy cuestionado su uso. El teorema de Bayes trata de responder los interrogantes tales como: si el evento B ocurrió, ¿cuál es la probabilidad de que haya sido generado por el evento 𝐴1 ?,¿Cual por 𝐴2 ?, etc. Sea { 𝐵𝑖 }𝑛𝑖=1 es una partición de un espacio muestral S con 𝑃 [ 𝐵𝑖 ] > 0 y A un evento de S. Entonces, 𝑃 [ 𝐵𝑘 ⁄𝐴] =

𝑃 [ 𝐴 ⁄𝐵𝑘 ] 𝑃[ 𝐵𝑘 ] 𝑃 [ 𝐴 ⁄𝐵1 ] 𝑃[ 𝐵1 ] + 𝑃[ 𝐴 ⁄𝐵2 ] 𝑃[ 𝐵2 ] + ⋯ + 𝑃 [ 𝐴 ⁄𝐵𝑛 ]𝑃[ 𝐵𝑛 ]

Ejemplo 8. A partir del problema de la fábrica de tornillos (ejemplo 7), halle la probabilidad de que el tornillo provenga de la máquina C, dado que es defectuoso. En este caso debemos calcular la probabilidad 𝑃 [ 𝐵3 ⁄𝐴 ], por el teorema de Bayes nos da

Estadística Inferencial

Página 8 Jorge Luis Bustos Galindo

𝑃 [ 𝐵3 ⁄𝐴] =

𝑃 [ 𝐴 ⁄𝐵3 ] 𝑃[ 𝐵3 ] [ ⁄ ] [ ] 𝑃 𝐴 𝐵1 𝑃 𝐵1 + 𝑃[ 𝐴 ⁄𝐵2 ] 𝑃[ 𝐵2 ] + 𝑃[ 𝐴 ⁄𝐵3 ] 𝑃[ 𝐵3 ]

𝑃 [ 𝐵3 ⁄𝐴] =

(0.05)(0.5) 0.025 = = 0.66 (0.02)(0.2) + (0.03)(0.3) + (0.05)(0.5) 0.038

Hay una probabilidad del 66% de que el tornillo defectuoso provenga de la máquina C.

INDEPENDENCIA DE EVENTOS

Cuando la ocurrencia de un evento A no está influenciada ni influye sobre la ocurrencia de otro, decimos que los eventos son independientes. Formalmente la independencia s e define de la manera siguiente: Dados dos eventos A y B, se dicen independientes si cumplen que 𝑃 (𝐴) 𝑃 (𝐵 ) = 𝑃 (𝐴 ∩ 𝐵 ) Ejemplo 9. Suponga que se lanza una moneda dos veces. Sean los eventos, A el primer resultado es “cara” y B el segundo resultado es “sello”. Son mutuamente independientes los eventos. 𝑃 (𝐴) = 𝑃 (𝐵 ) = 𝑃 (𝐴 ∩ 𝐵 )= 𝑃 (𝐴) 𝑃 (𝐵 ) = 𝑃 (𝐴 ∩ 𝐵 )

Estadística Inferencial

Página 9 Jorge Luis Bustos Galindo

GUÍA DE TRABAJO N° 1

1. Explique el significado de los siguientes términos: a. Experimento aleatorio b. Espacio muestral c. Evento o suceso 2. Se lanza una moneda cuatro veces. Encuentre todos los sucesos elementales del espacio muestral.

3. Supongamos que lanzamos una moneda y un dado, y que el espacio muestral S consta de doce elementos: S = C1, C2, C3, C4, C5, C6, S1, S2, S3, S4, S5, S6} a.

b. c.

Exprese explícitamente los siguientes eventos: A = sale cara y un número par} B = {sale un número primo} C = {sale sello y un número impar} Exprese explícitamente el evento: (a) ocurre A o B, (b) ocurre B y C, y (c) no ocurre en A. ¿Cuáles parejas de eventos A, B Y C son mutuamente excluyentes?

4. Determine la probabilidad de cada evento: a. Sale un número impar en el lanzamiento de un dado no cargado. b. Al sacar una sola carta de una baraja de 52 cartas sale una J. c. Sale por lo menos un sello al lanzar tres monedas no cargadas. d. Sale una bola blanca al sacar una sola bola de una bolsa con cuatro bolas blancas, tres rojas y cinco azules. 5. En un curso de 20 hombres y 30 mujeres, un quinto de los hombres y un quinto de las mujeres son becados. Encuentre la probabilidad de que una persona escogida al azar sea mujer o la persona sea becada.

6. En la tabla que sigue se da el cargo y sexo de los empleados de una empresa.

Cargo Operarios Administrativos Directivos Total

Sexo Hombres Mujeres 80 113 30 17 4 6 114 136

Total 193 47 10 250

Recursos humanos de la empresa desea otorgar un premio como estimulo especial y para ello decide seleccionar al alzar uno de los trabajadores. Calcular: (a) la probabilidad de que la persona sea administrativo dado que es mujer y (b) la probabilidad de que la persona sea hombre dado que es directivo. 7. Se lanza un dado no cargado. Considere los eventos: A = {2, 4, 6} B = {1, 2} C = {1, 2, 3, 4}

Estadística Inferencial

Página 10 Jorge Luis Bustos Galindo

a. b. c. d.

Encuentre P(A∩B), P(AUB). Encuentre P(A/B) y P(B/A). Encuentre P(A/C) y P(C/A). ¿Son A y B, B y C y A y C independientes?

8. Sean A y B eventos con P(A) = ⅓, P(B) =¼ , y P(AUB) = ½. a. Encuentre P(A/B) y P(B/A). b. ¿Son A y B independientes? 9. Supongamos que lanzamos tres monedas una vez. Y sea: A = {todas las caras o todas sellos} B = {por lo menos dos caras} C = {cuando más dos caras} a. Encuentre P(AUB), P(AUC) y P(BUC). b. Encuentre P(A/B) y P(C/A). 10. Sean A y B eventos independientes con P(A) = 0.3 y P(B) = 0.4. Encuentre: a. P(A∩B) y P(AUB). b. P(A/B) y P(B/A). 11. En la sala de pediatría de un hospital, el 60% de los pacientes son niñas. De los niños el 35% son menores de 24 meses. El 20% de las niñas tienen menos de 24 meses. Un pediatra que ingresa a la sala selecciona un infante al azar. a. Determine el valor de la probabilidad de que sea menor de 24 meses. b. Si el infante resulta ser menor de 24 meses. Determine la probabilidad que sea una niña. 12. Un médico cirujano se especializa en cirugías estéticas. Entre sus pacientes, el 20% se realizan correcciones faciales, un 35% implantes mamarios y el restante en otras cirugías correctivas. Se sabe además, que son de género masculino el 25% de los que se realizan correcciones faciales, 15% implantes mamarios y 40% otras cirugías correctivas. Si se selecciona un paciente al azar, determine: a. Determine la probabilidad de que sea de género masculino b. Si resulta que es de género masculino, determine la probabilidad que se haya realizado una cirugía de implantes mamarios.

Estadística Inferencial

Página 11 Jorge Luis Bustos Galindo

DISTRIBUCIÓN DE PROBABILIDAD Los experimentos aleatorios originan resultados y los resultados nos permiten tomar decisiones. Un mismo experimento aleatorio se puede llevar a cabo para tomar distintas decisiones. Sin embargo, a pesar de que el propósito sea distinto cuando se lleva a cabo un experimento aleatorio, éste no cambia su comportamiento por el simple hecho de que los propósitos cambien. Lo anterior nos está indicando que una cosa son los distintos resultados de un experimento y otra los propósitos que perseguimos cuando lo realizamos. El medio por el cual expresamos nuestro aspecto de interés al llevar a cabo un experimento aleatorio es el de variable aleatoria. Variable Aleatoria Una variable aleatoria es aquella que asume valores de acuerdo con los resultados de un experimento aleatorio. Las variables aleatorias generalmente son designadas por las letras X, Y, Z. En el siguiente ejemplo se ilustra cómo se asocia una variable aleatoria a un experimento. Ejemplo 1. Se lanza una moneda tres veces. Sabemos que el espacio muestral correspondiente a este experimento aleatorio está dado por: S = {ccc, ccs, csc, css, scc, scs, ssc, sss}. Si de los resultados del lanzamiento de la moneda nos interesa el número de “caras” que se obtienen en cada lanzamiento, entonces definimos la variable X= número de caras en los tres lanzamientos. Los valores posibles de esta variable son: X = 0, que indica que no se obtienen caras, o sea, {sss}. X = 1, que indica que se obtiene una cara, {css, scs,ssc}. X = 2, que indica que se obtiene dos caras, {ccs, csc,scc}. X = 3, que indica que se obtiene tres caras, {ccc}. Por lo anterior se tiene que las probabilidades respectivas son, P[X = 0] = 1/8, P[X = 1] = 3/8, P[X = 2] = 3/8, P[X = 3] = 1/8. Estos resultados se pueden resumir en una tabla como la siguiente, llamada distribución de probabilidad. X P[X = x]

0

1

2 3

1

3

3

1

8

8 8

8

Observemos que la suma de las probabilidades, P[X = 0] + P[X = 1] + P[X = 2] + P[X = 3] =

1 8

3

3

1

8

8

8

+ + + = 1. En general, para cualquier

distribución de probabilidad discreta debe darse que la suma de las probabilidades de todos los valores que pueda asumir la variable aleatoria de un experimento debe ser igual a 1. Ejemplo 2. Consideremos el lanzamiento de dos dados una vez. Sea X= suma de puntos de las dos caras. Hallar la distribución de probabilidad de esta variable aleatoria. X P[X = x]

Estadística Inferencial

Página 12 Jorge Luis Bustos Galindo

Una vez que se haya definido la variable, hallar las siguientes probabilidades: (a) 𝑃 [ 𝑋 ≤ 5] (b) 𝑃 [ 𝑋 > 9]

VALOR ESPERADO Y VARIANZA DE UNA VARIABLE ALEATORIA La distribución de probabilidad de una variable aleatoria proporciona un modelo para distribución teórica de la variable. La distribución de probabilidad de una población es análoga a la distribución de frecuencia relativa de los datos (muestra). Luego, es de esperarse que cada distribución de probabilidad tenga asociada medidas similares a las medidas descriptivas que se han señalado para los datos (muestra). Valor esperado El valor esperado o esperanza matemática de una variable aleatoria X, desempeña o equivale al concepto de la media aritmética (𝑥̅ ). Sea X una variable aleatoria discreta que asume los valores x 1, x 2, x 3, …, x n, con probabilidades respectivas P[X = x 1], P[X = x 2], P[X = x 3], …,P[X = x n] el valor esperado de X se denota y define de la manera siguiente: 𝜇 𝑥 = 𝐸 [ 𝑋] = 𝑥 1 P[ X = 𝑥 1 ] + 𝑥 2 P[ X = 𝑥 2 ] + 𝑥 3 P[ X = 𝑥 3 ] + ⋯ + 𝑥 𝑛 P[ X = 𝑥 𝑛 ] 𝑛

= ∑ 𝑥 𝑖 P[ X = 𝑥 𝑖 ] 𝑖 =1

Ejemplo 3. Consideremos la variable aleatoria X= número de puntos que muestra la cara superior de un dado después de un lanzamiento. Entonces la distribución de probabilidad es, X P[X = x]

1

2

3

4

5 6

1

1

1

1

1

1

6

6

6

6

6

6

El valor esperado o esperanza matemática, 1 1 1 1 1 1 7 𝜇 𝑥 = 𝐸 [ 𝑋] = 1 ( ) + 2 ( ) + 3 ( ) + 4 ( ) + 5 ( ) + 6 ( ) = = 3.5 6 6 6 6 6 6 2 ¿Cómo interpretar este resultado? Si dijéramos que es el puntaje que usted debe esperar que le dé cuando lanza el dado muchas veces, con justa razón podría decir que eso es imposible, puesto que podrán verse en el dado tres o cuatro puntos, pero jamás 3.5 puntos. Estamos de acuerdo con usted, pero le proponemos que no cuente los puntos de cada lanzamiento sino que sume el puntaje de los dos lanzamientos y los promedie, puede hallar la lógica al valor de 3.5. Además se convencerá que lo dicho a cerca de 3.5 es cierto. A pesar de que esta interpretación que le hemos dado al valor de 3.5 es acertada, en la práctica el valor esperado se interpreta de una manera un poco distinta, que en el ejemplo presente es: “si lanzamos el dado un número grande de veces y tomamos la media aritmética de la suma de los distintos puntajes que se van obteniendo entonces, la media tiende a 3.5”. Igual interpretación seria para cualquier otra situación. Ejemplo 4. Supongamos que dos jugadores A y B, se enfrentan en un juego que consiste en el lanzamiento de una moneda al aire. Si sale “cara” A gana $1; pero si sale “sello” A pierde $1. La variable que representa la ganancia de A por cada jugada está dada por:

Estadística Inferencial

Página 13 Jorge Luis Bustos Galindo

$1, 𝑠𝑖𝑠𝑎𝑙𝑒𝑐𝑎𝑟𝑎 𝑋={ −$1, 𝑠𝑖𝑠𝑎𝑙𝑒𝑠𝑒𝑙𝑙𝑜 Si suponemos que la moneda está balanceada, la probabilidad de obtener cara (sello) es 0.5, entonces la variable X tiene la siguiente distribución: X

-$1

P[X = x]

0.5

$1 0.5

Así que el valor esperado de X (ganancia esperada del jugador) está dado por E[X] = (-1)(0.5) + (1)(0.5) = 0, lo que quiere decir que si estas personas juegan un gran número de veces, a la larga no hay ganancias, es decir, no hay ganador ni perdedor. Pero si ahora vamos a suponer que la moneda está diseñada de tal forma que la posibilidad de obtener “cara” es de 2/3 y la de obtener “sello” es de 1/3. En este caso la distribución de X sería: X

-$1

$1

1

2

3

3

P[X = x]

1

2

1

3

3

3

Y la ganancia esperada (por jugada) para a sería E[X] = (−1) ( ) + (1) ( ) = , lo que quiere decir que si juegan unas 3000 veces, se espera que A gane $1000. Propiedades del valor esperado (1)

𝐸 [𝑐 ] = 𝑐, al ser 𝑐 una constante (un número).

(2)

𝐸 [𝑐𝑋] = 𝑐𝐸 [𝑋], al ser 𝑐 una constante y 𝑋 una variable aleatoria.

(3)

𝐸 [𝑋 ± 𝑐 ] = 𝐸 [𝑋] ± 𝑐 , al ser 𝑐 una constante y 𝑋 una variable aleatoria.

(4)

𝐸 [𝑋 ± 𝑌] = 𝐸 [𝑋] ± 𝐸 [𝑌], al ser 𝑋 y 𝑌 variables aleatorias.

(5)

𝐸 [𝑋 2 ] = 𝑥 12 P[X = 𝑥 1 ] + 𝑥 22 P[X = 𝑥 2 ] + 𝑥 32 P[X = 𝑥 3 ] + ⋯ + 𝑥 𝑛2 P[X = 𝑥 𝑛 ] = ∑𝑛𝑖=1 x𝑖2 P[X = 𝑥 𝑖 ], al ser 𝑋 una variable aleatoria.

Ejemplo 5. Una variable aleatoria X tiene distribución de probabilidad como se indica: X P[X = x]

0

1

2

3

1

1

1

1

8

4

2

8

Calcule: (a) E[X – 1] (b) E[X2] (c) E[3X] (d) E[(X + 2)2]

Estadística Inferencial

Página 14 Jorge Luis Bustos Galindo

Varianza y Desviación estándar Así como las medidas de posición tienen su generalización mediante el valor esperado, la variabilidad de los datos (muestra) también tiene su generalización mediante la varianza de la variable. La varianza es una medida del grado de concentración de los valores de la variable aleatoria alrededor de su media 𝜇 𝑥 , mientras más dispersos estén los valores respecto de la media, mayor será la varianza. La cual se denota y define de la manera siguiente: Sea X una variable aleatoria que asume valores x 1, x 2, x 3, …, x n, con probabilidades respectivas P[X = x 1], P[X = x 2], P[X = x 3], …,P[X = x n], la varianza de X se denota y define 𝜎𝑥2 = 𝑉[ 𝑋] = ( 𝑥1 − 𝜇 𝑥 )2 𝑃 [ 𝑋 = 𝑥1 ] + (𝑥 2 − 𝜇 𝑥 )2 𝑃 [ 𝑋 = 𝑥 2 ] + ⋯ + ( 𝑥𝑛 − 𝜇 𝑥 )2 𝑃 [ 𝑋 = 𝑥 𝑛 ] 𝑛

= ∑( 𝑥 𝑖 − 𝜇 𝑥 )2 𝑃 [ 𝑋 = 𝑥 𝑖 ] 𝑖=1

La raíz cuadrada de la varianza se llama desviación estándar y se denota 𝜎𝑥 . Ejemplo 6. Vamos a calcular la varianza para la variable X que corresponde al número de puntos de la cara superior del dado (Ver ejemplo 3). 1 1 1 1 1 𝜎𝑥2 = 𝑉[ 𝑋] = (1 − 3.5) 2 ( ) + (2 − 3.5)2 ( ) + (3 − 3.5) 2 ( ) + (4 − 3.5) 2 ( ) + (5 − 3.5) 2 ( ) 6 6 6 6 6 1 35 2 + (6 − 3.5) ( ) = 6 12 La desviación estándares 𝜎𝑥 = √

35 12

= 1.7

Propiedades de la varianza (1) La varianza no pude ser negativa. (2) Si

𝑐 es una constante, entonces 𝑉[𝑐 ] = 0.

(3)

𝑉 [𝑋] = 𝐸 [𝑋 2 ] − (𝐸 [𝑋])2, al ser 𝑋 una variable aleatoria.

(4)

𝑉 [𝑐𝑋] = 𝑐 2 𝑉 [𝑋], al ser 𝑐 una constante y 𝑋 una variable aleatoria.

(5)

𝑉 [𝑋 ± 𝑐 ] = 𝑉 [𝑋], al ser 𝑐 una constante y 𝑋 una variable aleatoria.

Ejemplo 7. Una variable aleatoria X tiene distribución de probabilidad como se indica (Ver ejemplo 5): X P[X = x]

0

1

2

3

1

1

1

1

8

4

2

8

Calcule: (a) V[X] (b) V[X+1] (c) V[5X]

Estadística Inferencial

Página 15 Jorge Luis Bustos Galindo

DISTRIBUCIONES DISCRETAS Los valores que puede asumir la variable aleatoria en una distribución discreta es X = números enteros.

Distribución Binomial La distribución binomial está ligada a un tipo de experimento llamado ensayo de Bernoulli, en honor a Jacques Bernoulli (1654-1705). Un ensayo de Bernoulli es un experimento aleatorio que sólo puede concluir de dos maneras distintas mutuamente excluyentes e independientes. Uno de los resultados se llama éxito y el otro fracaso. Los ensayos de Bernoulli dan origen a una variable aleatoria y toma sólo dos valores, y cuyos valores de probabilidad (distribución) están dados por la siguiente fórmula: 𝑝, 𝑦 = 1 𝑃 [ 𝑌 = 𝑦] = { 𝑞, 𝑦 = 0 0, 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 En donde p corresponde a la probabilidad de que se dé o de que ocurra un éxito y q = 1 – p, la probabilidad de que ocurra un fracaso. De las definiciones de valor esperado y de varianza dadas anteriormente, se tiene que para una variable con distribución de Bernoulli, su valor esperado es 𝜇 𝑌 = 𝐸 [ 𝑌] = 𝑝 Y su varianza es, 𝜎𝑌2 = 𝑉 [ 𝑌] = 𝑝. 𝑞. Se tiene que la desviación estándar está dada por, 𝜎𝑌 = √𝑝. 𝑞. Un proceso de Bernoulli es una sucesión de ensayos con las características siguientes: (1) En cada ensayo, el éxito tiene una probabilidad p y el fracaso una probabilidad q = 1 – p de ocurrir. (2) La distribución Bernoulli se basa en el supuesto de que la población es infinita y de que la probabilidad de éxito y de fracaso permanece constante durante el proceso. (3) Los ensayos son independientes, es decir, el resultado de cualquier ensayo particular no es afectado por el resultado de cualquier otro ensayo. Suponga que se lleva a cabo un proceso de Bernoulli y sea la variable X = número de éxitos en n ensayos de Bernoulli, tiene valores de probabilidad (distribución), como se indica en la siguiente fórmula: 𝑛 ( ) 𝑝 𝑥 𝑞 𝑛−𝑥 , 𝑥 = 0,1,2, … , 𝑛 𝑃 [ 𝑋 = 𝑥] = { 𝑥 0, 𝑝𝑎𝑟𝑎 𝑐𝑢𝑎𝑙𝑞𝑢𝑖𝑒𝑟 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 𝑛 Siendo p = probabilidad de éxito; q = probabilidad de fracaso y ( ) : combinatoria. 𝑥 Combinatoria: se llama com bi na tori a de x e l e m e ntos tom a dos de n e l e m e ntos, con n ≥ x , a t odas las agrupac iones pos ibles que pueden hac ers e c on los x element os y es t á dada por la fórmula: 𝑛! 𝑛 ( )= 𝑥 (𝑛 − 𝑥) ! 𝑥! donde, 𝑥!: número factorial.

Estadística Inferencial

Página 16 Jorge Luis Bustos Galindo

El número factorial en algunas calculadoras se procede con la opción: SHIFT 𝑿−𝟏

𝑿!

Y la combinatoria se procede en las calculadoras con la opción: nCr Cuando una variable aleatoria tiene valores de probabilidad dados por la fórmula anterior, se dice que la variable tiene distribución binomial. Ejemplo 1. Suponga que el 10% de las partes que produce una máquina automática sea defectuoso. Si se toma al azar una muestra de 20 partes, defina la variable que le permita determinar las probabilidades siguientes: (a) Que en la muestra haya dos partes defectuosas. (b) Que en la muestra haya máximo tres partes defectuosas. (c) Que en la muestra haya 18 partes defectuosas como mínimo. (d) Que en la muestra haya entre dos y cinco partes defectuosas. (e) Que en la muestra haya mínimo tres partes defectuosas. Solución: El problema que nos enfrentamos es el de precisar que se va a tomar como éxito. Para tal propósito el éxito siempre se tomará como aquel aspecto en el cual centramos nuestra atención “partes defectuosas”, por tanto, al definir la variable, X = número de partes defectuosas, entonces p = 10% = 0.1 y q = 90% =0.9; con una muestra de n=20. 20 (a) 𝑃 [ 𝑋 = 2] = ( ) (0.1) 2 (0.9) 20−2 = 190 (0.1) 2 (0.9)18 = 0.2851 2 Hay una probabilidad del 28.51% de que en una muestra de 20 partes, dos sean defectuosas.

Distribución Hipergeométrica La distribución binomial se basa en el supuesto de que la población es infinita y de que la probabilidad de éxito permanece constante, lo cual se consigue en tales poblaciones o cuando se toman muestras con repetición (reemplazo) en poblaciones finitas. Cuando la población es finita y el muestreo se hace sin reemplazo, la probabilidad cambiará para cada nueva observación. En tales circunstancias, se tendrá una distribución de probabilidad que se llama distribución hipergeométrica. Para aplicar la distribución hipergeométrica, ésta debe estar formada por dos grupos de individuos u objetos. Un primer grupo constituido por aquellos individuos que poseen la característica objeto de estudio, y su número de elementos lo denotaremos como N1 y el otro estará conformado por los que no poseen la característica y el número de sus elem entos lo denotamos N2. La variable con distribución hipergeométrica debe ser de la forma: X = número de éxitos en los n ensayos, los valores de probabilidad asociados a esta variable con distribución hipergeométrica están dados por ( 𝑁1 ) ( 𝑁2 ) 𝑥 𝑛− 𝑥 𝑃 [ 𝑋 = 𝑥] = 𝑁 , 𝑥 = 0,1,2, … , 𝑛 𝑠𝑖 𝑛 ≤ 𝑁2 ( ) 𝑛 { 0, 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 Siendo, 𝑁 = 𝑁1 + 𝑁2.

Estadística Inferencial

Página 17 Jorge Luis Bustos Galindo

Ejemplo 2. Suponga que una empresa produce 100 unidades de las cuales 90 son buenas y 10 son defectuosas. Se escogen 20 unidades sin reemplazo; halle la probabilidad de que resulten cinco defectuosas. Solución: X = Unidades defectuosas. N = 100, N1 = 10 y N2 =90. ( 10 ) (90 ) 𝑃[ 𝑋 = 5] = 5 15 = 0.0215 (100 ) 20 Hay una probabilidad del 2.15% de que al escoger 20 unidades, cinco sean defectuosas.

Distribución de Poisson Otra familia de distribuciones de probabilidad, es la llamada distribución de Poisson, llamada así por Simeon Dennis Poisson (1781-1840). Esta distribución es aplicable a muchos procesos en los que ocurren determinados sucesos por unidad de tiempo, espacio, área, volumen, etc. Una variable con distribución de Poisson debe tener la estructura o responder los interrogantes mediante el siguiente planteamiento: X = número de veces que ocurre un suceso en la unidad de tiempo, espacio, área, volumen, etc. Los valores de probabilidad de una variable con distribución de Poisson están dados por, 𝑃 [ 𝑋 = 𝑥] = {

𝑒 −𝜆 𝜆𝑥 , 𝑥 = 0,1,2, … 𝑥! 0, 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜

En donde 𝜆 = 𝜇 𝑥 (promedio de ocurrencia del suceso en la unidad de tiempo, espacio, volumen, etc.), 𝜎𝑥2 = 𝜆 y 𝑥!: número factorial.

𝑒 𝑥 en algunas calculadoras se procede con la opción: SHIFT

La función exponencial

𝑒𝑥

ln

Ejemplo 3. Suponga que el número de llamadas que llegan a un conmutador es de 0.5 por minuto en promedio, halle la probabilidad de que: (a) En un minuto no lleguen llamadas. (b) En un minuto lleguen más de tres llamadas. (c) En tres minutos lleguen más de dos llamadas. (d) ¿Cuántas llamadas se espera que lleguen en cinco minutos? Solución: X = número de llamadas en un minuto. 𝜆 = 0.5 (a) 𝑃 [ 𝑋 = 0] =

𝑒 −0.5(0.5)0 0!

= 0.6065

Hay una probabilidad del 60.65% de que en un minuto no lleguen llamadas al conmutador.

Estadística Inferencial

Página 18 Jorge Luis Bustos Galindo

GUÍA DE TRABAJO Nº 2 1.

Se lanza una moneda cuatro veces. Si de los resultados del lanzamiento de la moneda nos interesa el número de “sellos” que se obtienen en cada lanzamiento, entonces definimos la variable X= número de “sellos” en los cuatro lanzamientos. Hallar la distribución de probabilidad de esta variable aleatoria. Calcule: a. E[X] b. V[X]

2. Una variable aleatoria X tiene distribución de probabilidad como se indica: X 0 1 2 3 P [ X = x]

11 1 1 63 3 6

Calcule: a. E[X + 1] b. E[X2] c. E[2X] d. V[X] e. V[X  1] f. V[8X] 3. Suponga que cierta población, el 65% de los nacimientos registrados son niñas. Si tomamos tres registros, defina la variable que permita calcular las probabilidades que a continuación se piden. a. Que tres registros corresponda a niñas. b. Menos de dos sean niña. 4. Una caja tiene 15 baterías para radio, de las cuales cinco son defectuosas. De la caja se escogen al azar seis baterías. Halle la probabilidad de que: a. Cuatro sean defectuosas. b. Ninguna sea defectuosa. 5. Se ha determinado que en una autopista se da en promedio 10 animales vagabundos muertos por kilómetro. Halle la probabilidad de que en 100 metros, a. Se encuentren dos o más animales muertos. b. Menos de tres animales muertos. 6. Si el 5% de los conductores de transmilenio en Bogotá, son mujeres. Suponga que se selecciona al azar 10 conductores para una encuesta acerca de las condiciones de trabajo. ¿Cuál es la probabilidad: a. Que dos conductores sean mujeres? b. Menos de dos sean mujeres? 7. Una caja tiene 20 bombillos, de las cuales cinco son defectuosos. De la caja se escogen al azar diez bombillos. Halle la probabilidad de que: a. Tres sean defectuosos. b. Ninguna sea defectuoso. 8. El promedio de personas que llegan a la ventanilla de un banco por minuto durante las horas hábiles es una. Halle la probabilidad de que en un minuto: a. No aparezcan clientes. b. Haya tres o más clientes.

Estadística Inferencial

Página 19 Jorge Luis Bustos Galindo

9. Una institución universitaria establece nuevos métodos de aprendizaje y de evaluación, con el resultado donde el 85% de sus estudiantes aprueban todas las asignaturas. Supongamos que se seleccionan 8 estudiantes de dicho plantel, ¿cuál es la probabilidad: a. ¿Exactamente tres aprueben todas las asignaturas? b. ¿Por lo menos dos aprueben todas las asignaturas? 10. El número de clientes que llegan a una corporación de ahorro y vivienda los días sábados es en promedio 40 por hora. ¿Cuál es la probabilidad de que lleguen por lo menos dos clientes en media hora? 11. En la producción de cierto artículo, se sabe que por cada 50 producidos en 30 su terminado es excelente. Si se toma una muestra de 20 artículos, ¿cuál es la probabilidad de que diez sean clasificados excelentes?

12. Plantee y desarrolle un ejercicio (Problema de aplicación en su área de conocimiento) de cada una de las distribuciones de Binomial, Hipergeométrica y Poisson. Cada ejercicio debe ser de su autoría.

Estadística Inferencial

Página 20 Jorge Luis Bustos Galindo

DISTRIBUCIÓN CONTINUA Los valores que puede asumir la variable aleatoria en una distribución continua es X = números reales.

DISTRIBUCIÓN NORMAL Una de las distribuciones continúas y tal vez la más importante es la distribución normal, la cual ocupa un lugar destacado en la inferencia estadística. Su gráfica, que recibe el nombre de curva normal, es la curva en forma de campana , la cual describe de forma aproximada muchos fenómenos que suceden en la naturaleza, tales como la estaturas de los seres humanos, el coeficiente intelectual de las personas, la industria y la investigación. Además, los errores en las mediciones científicas se aproximan hasta límites extremadamente pequeños gracias a la distribución normal. A las anteriores consideraciones podemos agregar otra que nos muestra el porqué de la importancia de la distribución normal; se refiere al aspecto de inferencia estadística y particularmente a lo que tiene que ver con el análisis de datos, puesto que las distribuciones de muchas estadísticas muestrales tienden a la distribución normal, conforme crece el tamaño de muestra.

𝜎

Los valores de probabilidad de eventos definidos mediante una variable aleatoria continua se mantiene mediante valores de integrales definidas de una función llamada función de densidad continua (área bajo la curva). Al ser la normal una variable de tipo continuo, debe tener una función de densidad que nos permita obtener valores de probabilidad relacionados con esta variable. La función de densidad de la variable aleatoria X, con media 𝜇 y varianza 𝜎 2 , es 𝐹(𝑋 ) =

1 (√2𝜋)𝜎

𝑒



(𝑥−𝜇)2 2𝜎2

; 𝑥𝜖𝑅

Cuando nos referimos a una variable aleatoria con distribución normal con media 𝜇 y varianza 𝜎 2 , lo denotamos de la siguiente manera 𝑋~𝑁 (𝜇, 𝜎 2 ). La dificultad que se encuentra al resolver las integrales de las funciones de dens idad normal hace necesaria una tabulación de las áreas de la curva normal para una referencia rápida. No obstante sería una tarea de nunca acabar elaborar una tabla para cada valor posible de 𝜇 y de 𝜎. Afortunadamente, es posible transformar todas las observaciones de cualquier variable aleatoria normal X en un nuevo conjunto de observaciones de una variable aleatoria normal Z, con media cero y varianza 1. Esto puede realizarse por medio de la transformación: 𝑍=

𝑥−𝜇 𝜎

.

Estadística Inferencial

Página 21 Jorge Luis Bustos Galindo

La distribución de una variable aleatoria con media cero y varianza 1, se llama distribución normal estándar. Se denota Z~𝑁 (0, 1) .

Se ha reducido ahora el número requerido de tablas de las áreas de la curva normal a sólo una, la Distribución Normal Estándar (Tabla I), Página 67. A continuación se ilustra gráficamente como obtener los valores de probabilidad, según las siguientes propiedades: (1) P[Z < z] = valor de probabilidad de tabla Ejemplo 1. P[Z < 1.23] = 0.8907

(2) P[Z > z] = 1 – P[Z ≤ z] Ejemplo 2. P[Z > 0.42] = 1 – P[Z ≤ 0.42] = 1 – 0.6628 = 0.3372

(3) P[Z ≤ –z] = 1 – P[Z < z] Ejemplo 3. P[Z ≤ –1.23] = 1 – P[Z < 1.23] = 1 – 0.8907 = 0.1093

Estadística Inferencial

Página 22 Jorge Luis Bustos Galindo

(4) P[Z > – z] = P[Z < z] Ejemplo 4. P[Z > – 2.3] = P[Z < 2.3] = 0.9893

(5) P[Z ≤ z] = 1 ; cuando z ≥ 3.60. Ejemplo 5. P[Z ≤ 4.0] = 1

(6) P[z 1 ≤ Z ≤ z 2] = P[Z ≤ z 2] – P[Z ≤ z 1] Ejemplo 6. P[1.3 ≤ Z ≤ 2.5] = P[Z ≤ 2.5] – P[Z ≤ 1.3] = 0.9938 – 0.9032 = 0.0906

Ejemplo 7. P[–1.24 < Z < 2.3] =

En algunos casos lo que nos interesa es calcular el valor de z t (valor de z de tabla), que satisfaga P[Z ≤ z t ] = valor de probabilidad de tabla. En este caso el proceso es a la inversa. Ejemplo 8. Encuentre el valor de z t , que tiene una probabilidad de 0.9732. Para darle desarrollo a este ejemplo, primero hay que determinar la región (desigualdad) que corresponde a la probabilidad indicada. Como no se da la región, entonces se toma como defecto, menor o menor igual, siendo así, simbólicamente queda: P[Z ≤ z t ] = 0.9732, posteriormente, hay que determinar si el valor de z t es negativo o positivo, para ello, tengamos en cuenta las siguientes condiciones: 𝑷[ 𝒁 < 𝒛 ] ; 𝒛 = {

+𝒛, 𝒔𝒊 𝒆𝒍 𝒗𝒂𝒍𝒐𝒓 𝒅𝒆 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅 : 𝑷 > 𝟎. 𝟓 −𝒛, 𝒔𝒊 𝒆𝒍 𝒗𝒂𝒍𝒐𝒓 𝒅𝒆 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅: 𝑷 < 𝟎. 𝟓

−𝒛, 𝒔𝒊 𝒆𝒍 𝒗𝒂𝒍𝒐𝒓 𝒅𝒆 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅 : 𝑷 > 𝟎. 𝟓 𝑷[ 𝒁 > 𝒛 ] ; 𝒛 = { +𝒛, 𝒔𝒊 𝒆𝒍 𝒗𝒂𝒍𝒐𝒓 𝒅𝒆 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅 : 𝑷 < 𝟎. 𝟓 Como el valor de probabilidad es mayor de 0.5, por tanto el valor de z es positivo y al buscar el valor de probabilidad de 0.9732 en la Tabla I, tenemos que el valor de z t = 1.93.

Estadística Inferencial

Página 23 Jorge Luis Bustos Galindo

Ejemplo 9. Encuentre el valor de z t , para P[Z ≤ z t ] = 0.3707

APLICACIONES DE LA DISTRIBUCIÓN NORMAL Ejemplo 10. Suponga que 𝑋~𝑁 (50 , 100) , encuentre la probabilidad de que asuma: (a) Un valor menor que 66. (b) Un valor entre 45 y 62. (c) Un valor mayor que 71. (d) Halle el valor de x, que tiene una probabilidad del 42.07%. Solución: Como la variable 𝑋~𝑁 (𝜇, 𝜎 2 ) , por lo tanto 𝜇 = 50, 𝜎 2 = 100 y 𝜎 = 10. (a) Para dar solución a la P[X < 66], es necesario realizar la transformación llamada estandarización, con la cual se obtiene el valor de z. 𝑧=

66 − 50 10

= 1.6

Calculando la probabilidad tenemos, P[X < 66] = P[Z < 1.6] = 0.9452.

(d) Para expresar simbólicamente esta probabilidad y como no se da la región (desigualdad) que se está tomando, entonces se procede a tomar por defecto la desigualdad de menor o menor igual, como se ilustra en seguida:

P[X < x] = 0.4207 Como el valor de la probabilidad no se encuentra en la tabla de la Distribución Normal Estándar (Tabla I), entonces se recomienda realizar la gráfica para una rápida visualización de la situación planteada.

Estadística Inferencial

Página 24 Jorge Luis Bustos Galindo

A la anterior expresión de la probabilidad se puede escribir como: P[Z < z] = 0.4207 Como se debe hallar el valor de z y el valor de probabilidad no se encuentra en la Tabla I, esto nos indica que el valor de z es negativo (–z), P[Z < –z] = 0.4207 Aplicando la propiedad 3, 1 – P[Z < z] = 0.4207 Despejando P[Z < z] tenemos, P[Z < z] = 1 – 0.4207 = 0.5793 Éste valor de probabilidad se encuentra en la Tabla I, entonces el valor de z es, z = 0.2 y como debe ser negativo, queda –z = –0.2. El objetivo de este ejercicio es encontrar el valor de x, para ello se toma la fórmula de estandarización y se despeja a x, 𝒁=

𝒙−𝝁 𝝈

𝑿 = 𝝁 + 𝒛𝝈

Sustituyendo en la ecuación de x los valores de 𝜇, z y 𝜎, se tiene X = 50 + (–0.2)(10) = 48

Ejemplo 11. Una fábrica de alimentos empaca productos cuyos pesos están normalmente distribuidos con media de 450 gramos y desviación estándar de 20 gramos. Encuentre la probabilidad de que un paquete escogido al azar pese entre 425 y 486 gramos. Solución: Para este problema tenemos que𝜇 = 450 gramos y 𝜎 = 20 gramos, por lo tanto debemos calcular P[425 ≤ X ≤ 486]. Estandarizando, tenemos: 𝑧1 =

425−450 20

= −1.25

,

𝑧2 =

486−450 20

= 1.8

P[425 ≤ X ≤ 486] = P[–1.25≤ Z ≤1.8] = P[Z ≤ 1.8] – P[Z ≤ –1.25] = P[Z ≤ 1.8] – (1 - P[Z ≤ 1.25]) = 0.9641 – (1 – 0.8944) = 0.8585 Hay una probabilidad del 85.85% de que un paquete escogido al azar pese entre 425 y 486 gramos.

Estadística Inferencial

Página 25 Jorge Luis Bustos Galindo

Ejemplo 12. En un examen la calificación promedio fue 3.5 y la desviación estándar 0.3. Las calificaciones siguen una distribución normal. ¿Qué porcentaje de estudiantes tuvo notas por debajo de 2.0? ¿Qué porcentaje de estudiantes obtuvo notas por encima de 4.0? Solución: Para este problema tenemos que𝜇 = 3.5 y 𝜎 = 0.3, por lo tanto debemos calcular P[X < 2.0] y P[X > 4.0], estandarizamos tenemos 𝑧1 =

2.0−3.5 0.3

= −5

,

𝑧2 =

4.0−3.5 0.3

= 1.67

Para las preguntas tenemos, P[X < 2.0] = P[Z < –5] y P[X > 4.0] = P[Z > 1.67] = 1 – P[Z ≤ 5] = 1– P[Z ≤ 1.67] =1–1 = 1 – 0.9525 =0 = 0.0475 hay una probabilidad del 0% de que los estudiantes obtengan una nota menor de 2.0 y del 4.75% de que obtengan una nota mayor a 4.0.

Estadística Inferencial

Página 26 Jorge Luis Bustos Galindo

GUÍA DE TRABAJO Nº 3

1. Dada una distribución normal, encuentre el área bajo la curva que cae: a. A la izquierda de z = 1.52 b. A la derecha de z =  0.9 c. Entre 1.8 y 2.7 d. A la izquierda de z =  1.93 2. Encuentre el valor z si el área bajo la curva estándar: a. A la derecha es 0.3510 b. Entre 0 y z es 0.4838, con z  0 c. A la izquierda es 0.1234 3. Sea X N(100, 225). Halle las probabilidades siguientes: a. P[X  92.5] b. P[X  76 ] c. P[77.5  X  100] 4. Para la variable definida en el problema 3, halle el valor x que satisface: a. P[X  x] = 0.75 b. P[X  x] = 0.10 c. P[X  x] = 0.05 5. Suponga un test normal de puntuación media de 75 y una desviación estándar de 6, tres estudiantes A, B y C fueron notificados de tener puntuaciones Z normales estándares de 1.8, 0.5 y 0.8 respectivamente. Halle las notas obtenidas por A, B y C. 6. Una fábrica de harina empaqueta en sacos de tela. El saco de harina se acepta como de distribución normal con media y desviación estándar iguales a 25 y 0.5 respectivament e. Si se toma al azar un saco, ¿cuál es la probabilidad de que: a. Pese cuando más 24.75? b. Pese por lo menos 26.25? 7. Una máquina despachadora de refrescos está ajustada para servir en promedio 200 mililitros por vaso. Si la cantidad de refrescos es normalmente distribuidas con una desviación estándar igual a 15 mililitros. a. ¿Qué fracción de los vasos contendrá más de 224 mililitros? b. ¿Cuál es la probabilidad de que un vaso contenga entre 191 y 209 mililitros? c. ¿Cuántos vasos probablemente se derramarán si se utilizan vasos de 230 mililitros en los siguientes 1000 refrescos? d. ¿Bajo qué valor se obtiene el 25% más pequeño de los refrescos? 8. La vida útil de cierta marca de batería para automóvil se admite con distribución normal con media  = 38 meses y desviación estándar  = 2 meses. Si la compañía no desea reemplazar más del 5% de las baterías vendidas, ¿qué tiempo de garantía debe ofrecer? 9. Los estudiantes de cierta escuela secundaria tiene un coeficiente intelectual promedio d e 106 y varianza 256. Al suponer la distribución normal, halle la proporción de estudiantes con coeficiente intelectual. a. Igual o menor que 98. b. Igual o menor que 130. c. Igual o mayor que 127. d. Entre 94 y 118. 10. Plantee y desarrolle un ejercicio (Problema de aplicación en su área de conocimiento) de la distribución de Normal. El ejercicio debe ser de su autoría.

Estadística Inferencial

Página 27 Jorge Luis Bustos Galindo

MUESTREO En estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población. Al elegir una muestra se espera conseguir que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase un estudio de toda la población. Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que consienta no solo hacer estimaciones de la población sino estimar también los márgenes de error correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el resultado sea una muestra representativa, pero sí podemos actuar de manera que esta condición se alcance con una probabilidad alta. En el muestreo, si el tamaño de la muestra es más pequeño que el tamaño de la población, se puede extraer dos o más muestras de la misma población. Al conjunto de muestras que se pueden obtener de la población se denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extracción, sigue la llamada distribución muestral.

Técnicas de muestreo estadístico Existen dos métodos para seleccionar muestras de poblaciones: el muestreo probabilístico o aleatorio (incorpora el azar como recurso en el proceso de selección) y el muestreo no probabilístico o no aleatorio (no se incorpora el azar como recurso en el proceso de selección, es decir, la muestra que se toma es intencionada).

Muestreo probabilístico Forman parte de este tipo de muestreo todos aquellos métodos para los que puede calcular la probabilidad de extracción de cualquiera de las muestras posibles. Este conjunto de técnicas de muestreo es el más aconsejable, aunque en ocasiones no es posible optar por él. En este caso se habla de muestras probabilísticas, pues no es en rigor correcto hablar de muestras representativas dado que, al no conocer las características de la población, no es posible tener certeza de que tal característica se haya conseguido. Las técnicas de muestreos pueden ser: Sin reposición de los elementos: Cada elemento extraído se descarta para la subsiguiente extracción. Por ejemplo, si se extrae una muestra de una "población" de bombillas para estimar la vida media de las bombillas que la integran, no será posible medir más que una vez la bombilla seleccionada. Con reposición de los elementos: Las observaciones se realizan con remplazo de los individuos, de forma que la población es idéntica en todas las extracciones. En poblaciones muy grandes, la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse con reposición aunque, realmente, no lo sea. Con reposición múltiple: En poblaciones muy grandes, la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse con reposición. Para realizar este tipo de muestreo, y en determinadas situaciones, es muy úti l la extracción de números aleatorios mediante ordenadores, calculadoras o tablas construidas al efecto. Pero no es exacto. A continuación se muestran algunas técnicas de muestreo probabilístico.

Muestreo aleatorio simple (MAS): Es aquel en que cada elemento de la población tiene la misma probabilidad de ser seleccionado para integrar la muestra. Cada uno de los elementos de la muestra, se selecciona aleatoriamente uno por uno. Existen dos formas de realizar el muestreo:

Estadística Inferencial

Página 28 Jorge Luis Bustos Galindo

Muestreo con reemplazo: Es aquel en que un elemento puede ser seleccionado más de una vez en la muestra para ello se extrae un elemento de población se observa y se devuelve a la población, por lo que esta forma se pueden hacer infinitas extracciones de la población aun siendo esta finita. Muestreo sin reemplazo: No se devuelve los elementos extraídos a la población hasta que no se hallan extraídos todos los elementos que conforman la muestra. Hay diversos procedimientos para extraer los individuos de una muestra aleatoria: Una de ellas consiste en realizar un sorteo aleatorio con papeles o bolas enumeradas y sacar uno a uno tantos como lo indique el tamaño de la muestra. Otra forma, es utilizar la tabla de números aleatorios pero solamente para poblaciones finitas, la utilización de estas tablas puede realizarse de diferentes modos. También se puede encontrar un intervalo constante (𝑁⁄𝑛 ), para escoger a cada individuo de la muestra seleccionada; por ejemplo, en una institución educativa tienen 90 estudiantes en el grado undécimo y se desea extraer una muestra de 30 estudiantes. En primer lugar se numeran los estudiantes del 1 al 90, luego se calcula el intervalo constante entre cada individuo 𝑁 90 = = 3, se sortea un número al azar del 1 al 3, supongamos que el 2, los siguientes 𝑛

30

estudiantes se obtienen 3 hasta llegar los 30 estudiantes de la muestra, teniendo así los estudiantes seleccionados son: 2, 5, 8, 11,…, 89.

Muestreo sistemático: Se utiliza cuando el universo o población es de gran tamaño, o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevación K= N/n; donde N es el tamaño del universo y n el tamaño de la muestra. Determinar en qué fecha se producirá la primera extracción, para ello hay que elegir al azar un número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno. Esto quiere decir que si tenemos un determinado número de personas que es la población (N) y queremos escoger de esa población un número más pequeño el cual es la muestra (n), dividimos el número de la población por el número de la muestra que queremos tomar y el resultado de esta operación será el intervalo, entonces escogemos un número al azar desde uno hasta el número del intervalo, y a partir de este número escogemos los demás siguiendo el orden.

Muestreo estratificado: Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos con respecto a alguna característica de las que se van a estudiar. A cada uno de estos estratos se le asignaría una cuota que determinaría el número de miembros del mismo que compondrán la muestra. Dentro de cada estrato se suele usar la técnica de muestreo sistemático, una de las técnicas de selección más usadas en la práctica. Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de muestreo estratificado: Asignación proporcional: el tamaño de la muestra dentro de cada estrato es proporcional al tamaño del estrato dentro de la población. Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. Para ello es necesario un conocimiento previo de la población. Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que, dentro de cada uno de estos grupos,

Estadística Inferencial

Página 29 Jorge Luis Bustos Galindo

puede haber cierta homogeneidad. Así, si la población está compuesta de un 55% de mujeres y un 45% de hombres, se tomaría una muestra que contenga también esos mismos porcentajes de hombres y mujeres. Para una descripción general del muestreo estratificado y los métodos de inferencia asociados con este procedimiento, suponemos que la población está dividida en h subpoblaciones o estratos de tamaños conocidos N1, N2,..., Nh tal que las unidades en cada estrato sean homogéneas respecto a la característica en cuestión.

Muestreo por estadios múltiples: Esta técnica es la única opción cuando no se dispone de lista completa de la población de referencia o bien cuando por medio de la técnica de muestreo simple o estratificado se obtiene una muestra con unidades distribuidas de tal forma que resultan de difícil acceso. En el muestreo a estadios múltiples se subdivide la población en varios niveles ordenados que se extraen sucesivamente por medio de un procedimiento de embudo. El muestreo se desarrolla en varias fases o extracciones sucesivas para cada nivel. Por ejemplo, si tenemos que construir una muestra de profesores de primaria en un país determinado, éstos pueden subdividirse en unidades primarias representadas por circunscripciones didácticas y unidades secundarias que serían los propios profesores. En primer lugar extraemos una muestra de las unidades primarias (para lo cual debemos tener la lista completa de estas unidades) y en segundo lugar extraemos aleatoriamente una muestra de unidades secundarias de cada una de las primarias seleccionadas en la primera extracción.

Muestreo por conglomerados: Se utiliza cuando la población se encuentra dividida, de manera natural, en grupos que se supone que contienen toda la variabilidad de la población, es decir, la representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio. Dentro de los grupos seleccionados se ubicarán las unidades elementales, por ejemplo, las personas a encuestar, y podría aplicársele el instrumento de medición a todas las unidades, es decir, los miembros del grupo, o sólo se les podría aplicar a algunos de ellos, seleccionados al azar. Este método tiene la ventaja de simplificar la recogida de información muestral. Cuando, dentro de cada conglomerado seleccionado, se extraen algunos individuos para integrar la muestra, el diseño se llama muestreo bietápico. Las ideas de estratos y conglomerados son, en cierto sentido, opuestas. El primer método funciona mejor cuanto más homogénea es la población respecto del estrato, aunque más diferentes son éstos entre sí. En el segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben ser muy parecidos entre sí.

Homogeneidad de las poblaciones o sus subgrupos: Homogéneo significa, en el contexto de la estratificación, que no hay mucha variabilidad. Los estratos funcionan mejor cuanto más homogéneos son cada uno de ellos respecto a la característica a medir. Por ejemplo, si se estudia la estatura de una población, es bueno distinguir entre los estratos mujeres y hombres porque se espera que, dentro de ellos, haya menos variabilidad, es decir, sean menos heterogéneos. Dicho de otro modo, no hay tantas diferencias entre unas estaturas y otras dentro del estrato que en la población total. Por el contrario, la heterogeneidad hace inútil la división en estratos. Si se dan las mismas diferencias dentro del estrato que en toda la población, no hay por qué usar este método de muestreo. En los casos en los que existan grupos que contengan toda la variabilidad de la población, lo que se construyen son conglomerados, que ahorran algo del trabajo que supondría analizar toda la población. En resumen, los estratos y los conglomerados funcionan bajo principios opuestos: los primeros son mejores cuanto más homogéneo es el grupo

Estadística Inferencial

Página 30 Jorge Luis Bustos Galindo

respecto a la característica a estudiar y los conglomerados, si representan fielmente a la población, esto es, contienen toda su variabilidad, o sea, son heterogéneos.

Muestreo no probabilístico Es aquél para el que no puede calcularse la probabilidad de extracción de una determinada muestra. Se busca seleccionar a individuos que se juzga de antemano tienen un conocimiento profundo del tema bajo estudio, por lo tanto, se considera que la información aportada por esas personas es vital para la toma de decisiones. A continuación se muestran algunas técnicas de muestreo no probabilístico.

Muestreo por cuotas: Es la técnica más difundida sobre todo en estudios de mercado y sondeos de opinión. En primer lugar es necesario dividir la población de referencia en varios estratos definidos por algunas variables de distribución conocida (como el género o la edad). Posteriormente se calcula el peso proporcional de cada estrato, es decir, la parte proporcional de población que representan. Finalmente se multiplica cada peso por el tamaño de n de la muestra para determinar la cuota precisa en cada estrato. Se diferencia del muestreo estratificado en que una vez determinada la cuota, el investigador es libre de elegir a los sujetos de la muestra dentro de cada estrato.

Muestreo de bola de nieve: Indicado para estudios de poblaciones clandestinas, minoritarias o muy dispersas pero en contacto entre sí. Consiste en identificar sujetos que se incluirán en la muestra a partir de los propios entrevistados. Partiendo de una pequeña cantidad de individuos que cumplen los requisitos necesarios estos sirven como localizadores de otros con características análogas.

Muestreo subjetivo por decisión razonada: En este caso las unidades de la muestra se eligen en función de algunas de sus características de manera racional y no casual. Una variante de esta técnica es el muestreo compensado o equilibrado, en el que se seleccionan las unidades de tal forma que la media de la muestra para determinadas variables se acerque a la media de la población. La cual funciona en base a referencias o por recomendación.

Estadística Inferencial

Página 31 Jorge Luis Bustos Galindo

TAMAÑO DE MUESTRA El tamaño de la muestra que debemos escoger para hacer una estimación del parámetro con las características especificadas (nivel de confianza y error de estimación) es un problema que tarde o temprano tenemos que resolver. La determinación el tamaño de la muestra es de importancia debido a que: 

Si se toma una muestra más grande de lo indicada para alcanzar los resultados presupuestados, constituye un desperdicio de recursos (tiempo, dinero, etc.).



Al tomar una muestra demasiado pequeña conduce a menudo a resultados poco confiables.



Cuando elegimos una muestra de tamaño n sólo revisamos una fracción o parte de la población y con base en ella tomamos decisiones que afectan a toda la población. Es evidente que este procedimiento existe una posibilidad de que nos equivoquemos en nuestras decisiones, pero esta posibilidad depende en gran medida del tamaño de muestra de la población que se haya escogido y por tanto analizado.

El tamaño que debe tener la muestra cuando se estima la media o proporción depende del nivel de confianza propuesto para el intervalo, así como el máximo error que estemos dispuestos a admitir entre el valor estimado y el valor real del parámetro que corresponde al error de estimación.

TAMAÑO DE MUESTRA CON VARIANZA POBLACIONAL CONOCIDA. Población infinita o muestreo con repetición Supongamos que hemos fijado en d el error de estimación (precisión) y el nivel de confianza de 100(1 − 𝛼⁄2 ) para la estimación de la media 𝜇 𝑥 de una población normal con varianza desconocida, siendo así, tenemos la ecuación, 𝜎𝑥 𝑑 = 𝑍(1−𝛼⁄2) √𝑛 De la ecuación anterior, se tiene 𝑛=

𝑍 2𝜎 2 𝑑2

Ejemplo 1. Un ingeniero trata de ajustar una máquina dispensadora de gaseosas de tal forma que el promedio del líquido dispensado se encuentra dentro de cierto rango. Sabe que la cantidad de líquido vertida por la máquina sigue una distribución normal con una desviación estándar de 0.15 decilitros. También desea que el valor estimado que vaya a obtener de la media comparado con el verdadero no sea superior a 0.02 decilitros , con una confianza del 95%. ¿De qué tamaño debe escoger la muestra, o sea cuántas mediciones debe realizar para que cumpla el plan propuesto? Solución: La información dada es: 𝜎 = 0.15, d = 0.02 y un nivel de confianza del 95% por lo tanto, el nivel de significancia 𝛼 = 5% y 𝑍(1−𝛼⁄2) = 𝑍0.975 = 1.96. Reemplazando tenemos, 𝑛=

(1.96)2( 0.15) 2 (0.02)2

= 216 .09 ≈ 216 mediciones.

El ingeniero tendría que escoger una muestra de 216 mediciones. Población finita y muestreo sin repetición El tamaño de muestra en una población finita está dado por la ecuación, 𝑛=

𝑁𝑍 2 𝜎 2 (𝑁 − 1) 𝑑 2 + 𝑍 2 𝜎 2

Estadística Inferencial

Página 32 Jorge Luis Bustos Galindo

Ejemplo 2. Para efectos de una planeación económica en cierta zona del país, es necesario estimar entre 10 000 establos lecheros, el número de vacas lecheras por establo con un error de estimación de 4 y un nivel de confianza del 90%. Si se sabe que 𝜎 2 = 1000. ¿Cuántos establos deben visitarse para satisfacer estos requerimientos? Solución: La información dada es: N=10 000,𝜎 2 = 1000, d = 4 y un nivel de confianza del 90% por lo tanto, el nivel de significancia 𝛼 = 10% y 𝑍0.95 = 1.645. Reemplazando tenemos, 𝑛 =(

( 10 000) (1.645) 2(1000 ) 10 000−1)(4) 2 + (1.645) 2( 1000)

= 166 .3 ≈ 166 establos.

Se debe visitar a 166 establos.

TAMAÑO DE MUESTRA PROPORCIONAL A LA POBLACIÓN Población infinita o muestreo con repetición Cuando es el caso de tomar el tamaño de una muestra proporcional a una población infinita o un muestreo con repetición, utilizaremos la fórmula, 𝑧 2 𝑝̅(1 − 𝑝̅ ) 𝑛= 𝑑2 En donde 𝒑 ̅ corresponde a la proporción estimada, d el error de estimación. Cuando no se da estimación alguna de 𝒑 ̅, el cálculo de la muestra se hace tomando a 𝒑 ̅ = 𝟎. 𝟓, o sea, el 50%. Esto arroja por lo general una muestra mucho mayor de la indicada, pero es el precio que debemos pagar por no tener mayor información sobre el caso. Ejemplo 3. Se está planeando una encuesta con el fin de determinar la proporción de familias que carecen de medios económicos para atender los problemas de salud. Existe la impresión de que esta proporción está próxima a un 35%. Se desea determinar un intervalo de confianza del 99% con un error de estimación de 0.05. ¿De qué tamaño debe tomarse la muestra? Solución: La información dada es: 𝑝̅ = 0.35, d = 0.05, un nivel de confianza del 99% por lo tanto, el nivel de significancia 𝛼 = 1% y 𝑍0.995 = 2.575. Reemplazando tenemos, 𝑛=

(2.575) 2 (0.35) (1−0.35) ( 0.05) 2

= 603.3 ≈ 603 familias.

Se debe encuestar a 603 familias.

Población finita y muestreo sin repetición Si el tamaño de la población debe ser tenido en cuenta el tamaño de muestra está dado por 𝑛=

𝑁𝑧 2 𝑝̅(1 − 𝑝̅ ) (𝑁 − 1) 𝑑 2 + 𝑧 2 𝑝̅ (1 − 𝑝̅ )

Ejemplo 4. El decano de una facultad desea realizar una encuesta para determinar la proporción de estudiantes que está a favor del cambio de sede. Y a que entrevistar a 2000 estudiantes es una tarea casi imposible, determine el tamaño de muestra necesario para estimar la proporción de estudiantes que están a favor, con un error de estimación de 0.05 y un nivel de confianza del 95%.

Estadística Inferencial

Página 33 Jorge Luis Bustos Galindo

Solución: La información dada es: N=2000, como se desconoce la proporción, entonces 𝑝̅ = 0.5, d = 0.05, un nivel de confianza del 95% por lo tanto, el nivel de significancia 𝛼 = 5% y 𝑍0.975 = 1.96. Reemplazando tenemos, 𝑛 =(

(2000 ) (1.96)2(0.5)(0.5) 2000 −1) (0.05)2+ (1.96)2(0.5)(0.5)

= 322.3 ≈ 322estudiantes.

Se debe encuestar a 322 estudiantes.

GUÍA DE TRABAJO N° 4 1. Suponga que las estaturas de los hombres tienen distribución normal con desviación estándar de 2.5 pulgadas. ¿De qué tamaño se debe tomar la muestra si se desea determinar un intervalo de confianza del 95% para una media c on un error de estimación de 0.5? 2. Un químico ha preparado un producto diseñado para matar el 80% de un tipo particular de insectos, ¿de qué tamaño se debe escoger la muestra para estimar la verdadera proporción si se requiere un intervalo de confianza del 95% y un error de estimación del 2%? 3. Un técnico desea determinar el tiempo promedio que los operarios tardan en preparar sus equipos. ¿Qué tamaño debe tener la muestra si se necesita una confianza del 95% de que su media muestral estará dentro de 15 segundos del promedio real? Suponga que por estudios anteriores se sabe que 𝜎 = 45 segundos. 4. Se desea estimar el peso promedio de un lote de 500 naranjas. Para ello se va escoger aleatoriamente cierto número de naranjas. Se desea que el error de estimación sea máximo de 2 onzas con un nivel de confianza del 90%. ¿Cuántas naranjas deben seleccionarse? Suponga que 𝜎 = 5. 5. Se desea estimar la proporción de estudiantes que están a favor de la legalización de las drogas prohibidas. El error de estimación se requiere del 1% y un nivel de confianza del 99%. ¿Cuántos estudiantes deben incluirse en la muestra? 6. Se desea estimar la fuerza promedio para levantar a un niño de seis años. Como no se tenía información sobre la varianza de esta población se procedió a tomar una muestra piloto para estimarla; los resultados fueron los siguientes: 2.24, 2.26, 2.47, 1.56, 1.72, 1.48, 2.40, 2.03, 1,72, 2.10, 1.74, 1.55. Si se desea estimar un intervalo del 95% de confianza con un error de estimación de 0.1. ¿De qué tamaño se debe escoger la muestra? Suponga que estos datos provienen de una distribución normal. 7. El jefe de personal de una empresa desea realizar una encuesta para determinar la proporción de trabajadores que está a favor de un cambio del horario de trabajo. Como es imposible consultar a los 500 trabajadores en un lapso razonable, procede a escoger aleatoriamente cierto número de trabajadores para entrevistarlos; determine el número de trabajadores que debe entrevistarse si se desea que la proporción estimada presente un error máximo del 5% y un nivel de confianza del 95%. 8. Plantee y desarrolle un ejercicio (Problema de aplicación en su área de conocimiento) de tamaño de muestra. El ejercicio debe ser de su autoría.

Estadística Inferencial

Página 34 Jorge Luis Bustos Galindo

PRUEBAS DE HIPÓTESIS Dentro de la inferencia estadística, una prueba de hipótesis (también denominado test de hipótesis o prueba de significación) es un procedimiento para juzgar si una propiedad que se supone en una población estadística es compatible con lo observado en una muestra de dicha población. Fue iniciada por Ronald Fisher y fundamentada posteriormente por Jerzy Neyman y Karl Pearson. Mediante esta teoría, se aborda el problema estadístico considerando una hipótesis nula (𝑯𝟎 ) y una hipótesis alternativa (𝑯𝒂 ), y se intenta averiguar cuál de las dos es la hipótesis verdadera, tras aplicar el problema estadístico a un cierto número de experimentos. Está fuertemente asociada a los considerados errores de tipo I y II en estadística, que definen respectivamente, la posibilidad de tomar un suceso falso como verdadero, o uno verdadero como falso. Existen diversos métodos para desarrollar dicho test, minimizando los errores de tipo I y II, y hallando por tanto con una determinada potencia, la hipótesis con mayor probabilidad de ser correcta. Los tipos más importantes son los test centrados, de hipótesis y alternativa simple, aleatorizados, etc. Dentro de los test no paramétricos, el más extendido es probablemente el test de la U de Mann-Whitney.

Planteamiento clásico del contraste de hipótesis Se denomina hipótesis nula a la hipótesis (𝑯𝟎 ) que se desea contrastar. El nombre de "nula" significa “sin valor, efecto o consecuencia”, lo cual sugiere que (𝑯𝟎 ) debe identificarse con la hipótesis de no cambio (a partir de la opinión actual); no diferencia, no mejora, etc. (𝑯𝟎 ) representa la hipótesis que mantendremos a no ser que los datos indiquen su falsedad, y puede entenderse, por tanto, en el sentido de “neutra”. La hipótesis (𝑯𝟎 ) nunca se considera probada, aunque puede ser rechazada por los datos. La hipótesis alternativa (𝑯𝒂 ) es la que establece que el parámetro de la población es diferente del valor del parámetro de la población de la hipótesis nula (𝑯𝟎 ), es también lo que se podría pensar que es cierto o se espera probar que es cierto "sospecha". Por ejemplo, la hipótesis de que dos poblaciones tienen la misma media puede ser rechazada fácilmente cuando ambas difieren mucho, analizando muestras suficientemente grandes de ambas poblaciones, pero no puede ser "demostrada" mediante muestreo, puesto que siempre cabe la posibilidad de que las medias difieran en una cantidad 𝜹 lo suficientemente pequeña para que no pueda ser detectada, aunque la muestra sea muy grande. A partir de una muestra de la población en estudio, se extrae un estadístico (esto es, una valor que es función de la muestra) cuya distribución de probabilidad esté relacionada con la hipótesis en estudio y sea conocida. Se toma entonces como región de rechazo al conjunto de valores que es más improbable bajo la hipótesis, esto es, el conjunto de valores para el que rechazaremos la hipótesis nula si el valor del estadístico observado entra dentro de él. La probabilidad de que se obtenga un valor del estadístico que entre en la región de rechazo aún siendo cierta la hipótesis puede calcularse. De esta manera, se puede escoger dicha región de tal forma que la probabilidad de cometer este error sea suficientemente pequeña. Siguiendo con el anterior ejemplo de la moneda trucada, la muestra de la población es el conjunto de los treinta lanzamientos a realizar, el estadístico escogido es el número total de caras obtenidas, y la región de rechazo está constituida por los números totales de caras iguales o superiores a 25. La probabilidad de cometer el error de admitir que la moneda está trucada a pesar de que no lo está es igual a la probabilidad binomial de tener 25 "éxitos" o más en una serie de 30 ensayos de Bernoulli con probabilidad de "éxito" 0,5 en cada uno, entonces: 0,0002, pues existe la posibilidad, aunque poco probable, que la muestra nos dé más de 25 caras sin haber sido la moneda trucada.

Estadística Inferencial

Página 35 Jorge Luis Bustos Galindo

Procedimientos de prueba Un procedimiento de prueba es una regla con base en datos muestrales, para determinar si se rechaza 𝑯𝟎 . Ejemplo 1. El ingeniero de control de calidad de una fábrica de tornillos tiene la sospecha de que el proceso de producción de tales tornillos no se está cumpliendo la especificación en cuanto la longitud promedio que debe ser de 5 cm, y que ésta, por el contrario, es menor. Si ello es así, será necesario detener la producción para hacer los ajustes del caso. Como podemos apreciar en este caso, la decisión que se tome traerá sus consecuencias; por ello se debe ser consciente al tomar la decisión. En la consideración anterior podemos apreciar dos posibilidades la hipótesis estadística, constituidas por:  La proposición o afirmación que el ingeniero espera aceptar, denominada 𝑯𝒂 , y denominada hipótesis alterna. En nuestro caso esta hipótesis corresponde a la afirmación: “La longitud media de los tornillos es menor de 5 cm”. Simbólicamente la denotaremos 𝑯𝒂 : 𝝁 < 5, siendo 𝜇 = longitud promedio de los tornillos.  La proposición que el ingeniero espera rechazar, denotada 𝑯𝟎 , llamada hipótesis nula, que en el presente caso corresponde a la afirmación: “La longitud promedio de los tornillos es de 5 cm”. Simbólicamente la denotaremos 𝑯𝟎 : 𝝁 = 𝟓. Las dos anteriores hipótesis se escriben conjuntamente de la manera siguiente:

𝑯𝟎 : 𝝁 = 𝟓 𝒗𝒔. 𝑯𝒂 :𝝁 < 5 La escritura nos indica que existe una confrontación de afirmaciones y sólo la evidencia de los datos nos podrá indicar hacia dónde debemos inclinarnos, lo que no requiere decir que queda demostrada, sino que no queda validada ante la evidencia de la muestra. Esto hay que tenerlo en cuenta porque olvidarlo o desconocerlo da origen a las muchas conclusiones erradas que se hacen y que motivan una crítica injustificada a las conclusiones con base en la inferencia estadística. Un procedimiento de prueba se especifica por lo siguiente: 1. Un estadístico de prueba: una función de los datos muestrales en los cuales se basa la decisión de rechazar 𝑯𝟎 o no rechazar 𝑯𝟎 . 2. Una región de rechazo, el conjunto de todos los valores del estadístico de prueba para los cuales 𝑯𝟎 será rechazada. Entonces, la hipótesis nula será rechazada si y solo si el valor observado o calculado del estadístico de prueba se ubica en la región de rechazo. La región de aceptación es un conjunto de valores, determinado bajo ciertas reglas, tal que si el valor de la estadística de prueba cae dentro, la hipótesis nula 𝑯𝟎 se declara no contraria al valor de la estadística (esto no significa que sea verdadera sino que su falsedad no ha sido probada). La región de rechazo, también llamada región crítica, es un conjunto de valores distinto a los anteriores; si la estadística de prueba asume un valor que esté dentro, la hipótesis nula 𝑯𝟎 se declara contraria a la evidencia de la muestra y por lo tanto debe ser rechazada. El valor crítico es aquel número que separa la región de aceptación de la región de rechazo. ̅ < 5, entonces 5 es un valor Así por ejemplo, si la regla de decisión es rechazar 𝑯𝟎 : 𝝁 = 𝟓 si 𝑿 crítico.

Cuando la región de rechazo está localizada en un solo extremo de la curva de la distribución de la estadística de prueba, la prueba se dice de una cola. Cuando la región de rechazo está localizada en ambos extremos la prueba se dice de dos colas.

Estadística Inferencial

Página 36 Jorge Luis Bustos Galindo

Si se trata de una prueba de una media para población normal, las distintas pruebas respecto de las posibilidades para la hipótesis alterna son: 1. 𝐻0 : 𝜇 = 𝑎 𝑣𝑠. 𝑯𝒂 : 𝝁 > 𝑎.

2. 𝐻0 : 𝜇 = 𝑎 𝑣𝑠. 𝑯𝒂 : 𝝁 < 𝑎.

3. 𝐻0 : 𝜇 = 𝑎 𝑣𝑠. 𝑯𝒂 : 𝝁 ≠ 𝒂.

En los casos anteriores la hipótesis nula también puede formularse como 𝐻0 : 𝜇 ≥ 𝑎, para el caso 1, y 𝐻0 : 𝜇 ≤ 𝑎 para el caso 2. Sin embargo, en los cálculos siempre se tomará 𝜇 = 𝑎. En el mejor de los casos podrían desarrollarse procedimientos de prueba para los cuales ningún tipo de error es posible. Pero esto puede alcanzarse solo si una decisión se basa en un examen de toda la población, lo que casi nunca es práctico. La dificultad al usar u n procedimiento basado en datos muestrales es que debido a la variabilidad en el muestreo puede resultar una muestra no representativa. Un buen procedimiento es aquel para el cual la probabilidad de cometer cualquier tipo de error es pequeña. La elección de un valor particular de corte de la región de rechazo fija las probabilidades de errores tipo I y II. Estas probabilidades de error son representadas por α y β, respectivamente.

Errores en el contraste Una vez realizado el contraste de hipótesis, se habrá optado por una de las dos hipótesis, 𝑯𝟎 o 𝑯𝒂 , y la decisión escogida coincidirá o no con la que en realidad es cierta. Se pueden dar los cuatro casos que se exponen en el siguiente cuadro: Estado de naturaleza 𝑯𝟎 es cierta 𝑯𝟎 es falsa

Decisión Aceptar𝑯𝟎 Descartar 𝑯𝟎 Acción correcta Error de tipo I (1 − 𝛼) (𝛼) Error d tipo II Acción correcta (𝛽) (1 − 𝛽)

Estadística Inferencial

Página 37 Jorge Luis Bustos Galindo

Si la probabilidad de cometer un error de tipo I está unívocamente determinada, su valor se suele denotar por la letra griega α, y en las mismas condiciones, se denota por β la probabilidad de cometer el error de tipo II, esto es: 𝑃 (𝑒𝑠𝑐𝑜𝑔𝑒𝑟 𝐻𝑎 / 𝐻0 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎 ) = 𝛼 𝑃 (𝑒𝑠𝑐𝑜𝑔𝑒𝑟 𝐻0 / 𝐻𝑎 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎 ) = 𝛽 En este caso, se denomina Potencia del contraste al valor 1-β, esto es, a la probabilidad de escoger 𝑯𝒂 cuando ésta es cierta 𝑃 (𝑒𝑠𝑐𝑜𝑔𝑒𝑟 𝐻𝑎 / 𝐻𝑎 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎) = 1 − 𝛽 Cuando es necesario diseñar un contraste de hipótesis, sería deseable hacerlo de tal manera que las probabilidades de ambos tipos de error fueran tan pequeñas como fuera posible. Sin embargo, con una muestra de tamaño prefijado, disminuir la probabilidad del error de tipo I, α, conduce a incrementar la probabilidad del error de tipo II, β. Ejemplo 2. En un procedimiento judicial, cuando se acusa a alguien de un asesinato, cuando se llama a juicio se presume que el acusado es inocente, es decir, no culpable hasta que se demuestra lo contrario. El error tipo I corresponde al caso de condenar a un inocente y el error tipo II al dejar libre a un culpable. Cuando tomamos decisiones con base en los datos muestrales, cualquier cosa puede ocurrir, desde lo más grave (cometer el error tipo I) hasta lo más acertado (tomar una decisión correcta), y aun lo menos grave que sería cometer el error tipo II. Ante la gravedad de cometer el error tipo I y ante la imposibilidad de descartarlo, la única alternativa que nos queda es la asignarle una probabilidad, obviamente pequeña, de que éste ocurra; llegamos de esta manera al concepto de nivel de significancia. El nivel de significancia de una prueba corresponde a la probabilidad de cometer el error tipo I. Es decir, es la probabilidad de rechazar 𝑯𝟎 siendo 𝑯𝟎 verdadera. Esta probabilidad se denota con la letra 𝜶 y corresponde al área de rechazo; de tal forma que se igualará al total del área derecha o izquierda, si se trata de pruebas de una cola o se repartirá en partes iguales entre las dos colas, si se trata de una prueba bilateral. Usualmente, se diseñan los contrastes de tal manera que la probabilidad α sea el 5% (0,05), aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar condiciones más relajadas o más estrictas. El recurso para aumentar la potencia del contraste, esto es, disminuir β, probabilidad de error de tipo II, es aumentar el tamaño muestral, lo que en la práctica conlleva un incremento de los costes del estudio que se quiere realizar.

Pasos en una prueba de hipótesis Primer paso. Formular la hipótesis o asegurar que es verdadera. Esta formulación puede ser literal, pero generalmente traducida en término de parámetros (𝜇, 𝜎). Segundo paso. Establecer el tamaño de muestra (n) y el nivel de significancia (𝛼). Tercer paso. Determinar una estadística de prueba o una regla que sea lógica en el contexto del problema formulado por la hipótesis. La estadística de prueba proporciona un número a partir de los datos muestrales. Cuarto paso. Formular una regla de decisión. Esto es, definir la posición que se asumirá para cada resultado posible del experimento. La regla de decisión debe especificar qué valores de la estadística de prueba se toman para aceptar 𝐻0 y cuales para rechazarla. Quinto paso. Recolectar los datos mediante algún procedimiento de muestreo y calcular el correspondiente valor de la estadística de prueba. Sexto paso. Aplicar la regla de decisión. Si el valor de la estadística de prueba cae en la región de rechazo, entonces rechazamos 𝐻0 ; si el valor cae en la región de aceptación, entonces no rechazamos 𝐻0 o mejor dicho, no hay evidencia para rechazarla. El rechazo o no rechazo de la hipótesis nula conduce a una decisión clínica, administrativa, científica, etc.

Estadística Inferencial

Página 38 Jorge Luis Bustos Galindo

PRUEBAS DE HIPÓTESIS RESPECTO DE LAS MEDIAS EN POBLACIONES NORMALES Es un procedimiento estadístico que nos permite decidir si los datos muestrales son consistentes o no con algun valor que hemos fijado para la media de una población normalmente distribuida. Existen dos casos relacionados: cuando la varianza de la población es conocida y cuando ésta es desconocida.

Pruebas para una muestra Varianza poblacional conocida En este caso la prueba estadística se desarrolla con bas e en la distribución normal: √𝑛(𝑥̅ − 𝜇) 𝑍= 𝜎 Ejemplo 1. Los siguientes datos corresponden a la longitud medida en centímetros de 18 pedazos de cable sobrantes en cada rollo utilizado: 9.00, 3.41, 6.13, 1.99, 6.92, 3.12, 7.86, 2.01, 5.98, 4.15, 6.87, 1.97, 4.01, 3.56, 8.04, 3.24, 5.05, 7.37. Basados en estos datos, ¿podemos decir que la longitud media de los pedazos de cables es mayor de 4 cm? Suponga población normal y tome el nivel de significancia 𝛼 = 0.05. Solución: Aplicando los pasos de una prueba de hipótesis tenemos: 1. Hipótesis 𝜇 = Longitud promedio de los pedazos de cable. 𝐻0 : 𝜇 ≤ 4 𝑣𝑠𝐻𝑎 : 𝜇 > 4 2. n = 18, 𝛼 = 0.05. 3. Estadística de prueba. √𝑛(𝑥̅ − 𝜇) 𝑧𝑐 = ~ 𝑁(0, 1) 𝜎 4. Regla de decisión.

Se rechaza H0, si 𝑧𝑐 > 𝑧 ∝. 5. Cálculos. 𝑥̅ = 5.04, 𝜎 = 2.3, 𝑛 = 18 𝑧𝑐 =

√18 (5.04 − 4) 2.3

= 1.918

El valor de tabla (𝑧𝛼 ): 𝑧(1−∝ ) = 𝑧0.95 = 1.645

Estadística Inferencial

Página 39 Jorge Luis Bustos Galindo

6. Decisión.

Como 𝑧𝑐 > 𝑧∝ , entonces se rechaza H0 de que la longitud promedio es menor o igual a 4 cm. Varianza poblacional desconocida y muestra pequeña En este caso se toma como estadística de prueba a la distribución t -student: √𝑛(𝑥̅ − 𝜇) 𝑇= 𝑠 con (n – 1) grados de libertad. Ejemplo 2. Un agrónomo mide el contenido promedio de humedad en cierta variedad de trigo que fue secado especialmente en una muestra de 16 toneladas: 7.2, 6.8, 7.3, 7.0, 7.3, 7.3, 7.5, 7.3, 7.4, 7.2, 7.6, 7.1, 7.4, 6.7, 7.4, 6.9. Si el promedio de humedad excede de 7.1, el proceso de secado debe continuar. ¿Deberá continuarse con el proceso de secado, de acuerdo con esta evidencia? Tome 𝛼 = 5%. Solución: 1. Hipótesis 𝜇 = Contenido promedio de humedad de cada tonelada de trigo. 𝐻0 : 𝜇 ≤ 7.1 𝑣𝑠𝐻𝑎 : 𝜇 > 7.1 2. n = 16, 𝛼 = 0.05. 3. Estadística de prueba. √𝑛(𝑥̅ − 𝜇) 𝑡𝑐 = ~ 𝑡(𝑛 − 1) 𝑠 4. Regla de decisión.

Se rechaza H0, si 𝑡𝑐 > 𝑡∝ . 5. Cálculos. 𝑥̅ = 7.213, 𝑠 = 0.253, 𝑛 = 16 𝑡𝑐 =

√16 (7.213 − 7.1) 0.253

= 1.786

El valor de tabla (𝑡𝛼 ): 𝑡(𝑛−1, 𝛼) = 𝑡(15, 0.05) = 1.753

Estadística Inferencial

Página 40 Jorge Luis Bustos Galindo

6. Decisión.

Como𝑡𝑐 > 𝑡∝ , entonces se rechaza H0de que el promedio de humedad de cada tonelada de trigo es menor o igual a 7.1, ante esta evidencia el proceso de secado debe continuar.

Pruebas para dos muestras independientes Cuando se trata de pruebas de dos medias relacionadas con poblaciones independientes, las hipótesis a probar son: 1. 𝐻0 : 𝜇 1 = 𝜇 2 𝑣𝑠 𝐻𝑎 : 𝜇 1 > 𝜇 2 Equivalente a: 𝐻0 : 𝜇 1 − 𝜇 2 = 0 𝑣𝑠 𝐻𝑎 : 𝜇 1 − 𝜇 2 > 0. Prueba de una cola a la derecha. 2. 𝐻0 : 𝜇 1 = 𝜇 2 𝑣𝑠 𝐻𝑎 : 𝜇 1 < 𝜇 2 Equivalente a: 𝐻0 : 𝜇 1 − 𝜇 2 = 0 𝑣𝑠 𝐻𝑎 : 𝜇 1 − 𝜇 2 < 0.

Prueba de una cola a la izquierda.

3. 𝐻0 : 𝜇 1 = 𝜇 2 𝑣𝑠 𝐻𝑎 : 𝜇 1 ≠ 𝜇 2 Equivalente a: 𝐻0 : 𝜇 1 − 𝜇 2 = 0 𝑣𝑠 𝐻𝑎 : 𝜇 1 − 𝜇 2 ≠ 0. Prueba de dos colas. También se tienen en cuenta dos casos, cuando las varianzas de las poblaciones son conocidas o cuando las varianzas son desconocidas. Si las varianzas poblacionales son conocidas, se utiliza como estadística de prueba la variable con distribución normal estándar: ( 𝑥̅ 1 − 𝑥̅2 ) − (𝜇 1 − 𝜇 2 ) 𝑍= √𝜎12 ⁄𝑛1 + 𝜎22 ⁄𝑛2 Cuando las varianzas poblacionales son desconocidas pero supuestas iguales con muestras pequeñas, se utiliza como estadística de prueba a la distribución t -student: ( 𝑥̅ 1 − 𝑥̅2 ) − (𝜇 1 − 𝜇 2 ) 𝑇= 𝑆𝑝 √1⁄𝑛1 + 1⁄𝑛2 con (n1 + n2 – 2) grados de libertad y donde, (𝑛1 − 1) 𝑆12 + (𝑛2 − 1) 𝑆22 𝑆𝑝2 = (𝑛1 + 𝑛2 − 2) 𝑆𝑝2 se llama varianza ponderada. Ejemplo 3. Mediciones del diámetro transversal del corazón de los adultos del sexo masculino y femenino dieron los resultados siguientes: Grupo Hombres Mujeres

Tamaño de muestra 12 9

𝒙 ̅ en cm. 13.21 11.00

Estadística Inferencial

S en cm. 1.05 1.01

Página 41 Jorge Luis Bustos Galindo

Suponga que las varianzas de las dos poblaciones son iguales. ¿Proporcionan estos datos suficiente evidencia que indique que el diámetro transversal promedio del corazón de los hombres es igual al de las mujeres? Tome 𝛼 = 5%.

Solución: 1. Hipótesis 𝜇 1 =Diámetro transversal promedio de los hombres. 𝜇 2 =Diámetro transversal promedio de las mujeres. 𝐻0 : 𝜇 1 = 𝜇 2 𝑣𝑠𝐻𝑎 : 𝜇 1 ≠ 𝜇 2 2. n1 = 12, n2 =9, 𝛼 = 0.05. 3. Estadística de prueba. 𝑡𝑐 =

( 𝑥̅1 − 𝑥̅ 2 ) − ( 𝜇 1 − 𝜇 2 ) 𝑆𝑝 √1⁄𝑛1 + 1⁄ 𝑛2

~ 𝑡 (𝑛1 + 𝑛2 − 2)

4. Regla de decisión.

Se rechaza H0, si 𝑡𝑐 < −𝑡∝ , 𝑜, 𝑡𝑐 > 𝑡∝ . 5. Cálculos. 𝑆𝑝2 =

(12 − 1)(1.05) 2 + (9 − 1)(1.01) 2 12 + 9 − 2

= 1.0678

𝑆𝑝 = 1.033 (13.21 − 11.00) − 0 𝑡𝑐 = = 4.851 (1.0333) √1⁄12 + 1⁄9 El valor de tabla (𝑡𝛼 ): 𝑡(𝑛1+𝑛2−2,

𝛼)

= 𝑡(19,

0.05)

= 2.093

6. Decisión.

Como𝑡𝑐 > 𝑡∝ , entonces se rechaza H0 de que el diámetro transversal promedio del corazón de los hombres es igual al de las mujeres.

Estadística Inferencial

Página 42 Jorge Luis Bustos Galindo

Pruebas sobre medias cuando las observaciones son pareadas Esta prueba aparece cuando por ejemplo, comparamos los pesos de las personas antes y después de un tratamiento para bajar peso. La aplicación de esta prueba requiere que las unidades que formen la pareja tengan las mismas características, como sucede en los siguientes casos:  Los mismos individuos reciben el tratamiento antes y después.  Las parejas son gemelos que reciben tratamientos distintos.  Dos partes del mismo material son sometidos a tratamientos distintos. El procedimiento estadístico para analizar el comportamiento de la variable de interés se basa en la diferencia de las mediciones de las unidades que forman la pareja y es similar al que se sigue para la prueba de una media al utilizar la distribución t -student, sólo que se toma como estadística de prueba a la variable: √𝑛(𝑥̅ 𝑑 − 𝜇 𝑑 ) 𝑇= 𝑆𝑑 con (n – 1) grados de libertad. 𝑥̅ 𝑑= diferencia promedio de los datos muestrales, S d = desviación estándar de las diferencias. Ejemplo 4. Diez personas fueron sometidas a un test antes y después de recibir ciert a instrucción. Los resultados fueron los siguientes: Individuo Antes Después

1 2 3 4 5 6 7 8 9 10 70 84 88 110 105 100 110 67 79 86 115 148 176 191 158 178 179 140 161 157

¿Proporcionan estos datos evidencia suficiente para decir que la instrucción fue efectiva? Tome 𝛼 = 1%. Solución: 1. Hipótesis 𝜇 𝑑 =diferencia promedio del test aplicado a diez individuos. 𝐻0 : 𝜇 𝑑 ≤ 0 𝑣𝑠𝐻𝑎 : 𝜇 𝑑 > 0 2. n = 10, 𝛼 = 0.01. 3. Estadística de prueba. √𝑛(𝑥̅ 𝑑 − 𝜇 𝑑 ) 𝑡𝑐 = ~ 𝑡(𝑛 − 1) 𝑆𝑑 4. Regla de decisión.

Se rechaza H0, si 𝑡𝑐 > 𝑡∝ .

Estadística Inferencial

Página 43 Jorge Luis Bustos Galindo

5. Cálculos. 𝑥 𝑑 = 45, 64, 88, 81, 53, 78, 69, 73, 82, 71. 𝑥̅ 𝑑 = 70.4, 𝑆𝑑 = 13.385, 𝑛 = 10 √10 (70.4 − 0) 𝑡𝑐 = = 16.63 13.385 El valor de tabla (𝑡𝛼 ): 𝑡(𝑛−1, 𝛼) = 𝑡(9, 0.01) = 2.821 6. Decisión.

Como𝑡𝑐 > 𝑡∝ , entonces se rechaza H0, los datos evidencian que la instrucción fue efectiva.

Estadística Inferencial

Página 44 Jorge Luis Bustos Galindo

GUÍA DE TRABAJO N° 5 1. Una fábrica de pilas garantiza que su producto tiene una vida media de 1000 horas y una desviación estándar de 50. Pruebe la hipótesis de que 𝜇 = 1000 en contraposición de la alterna 𝜇 ≠ 1000 horas, si una muestra aleatoria de 30 baterías tiene una duración promedio de 950 horas. Utilice 𝛼 = 5%. 2. Una muestra aleatoria de 36 refrescos de una máquina despachadora tiene un contenido promedio de 19.8 decilitros, con una desviación estándar de 1.3 decilitros. Pruebe la hipótesis de 𝜇 = 20 decilitros en contraposición a la hipótesis alterna 𝜇 < 20. Use el nivel de significancia 𝛼 = 1%. 3. Los siguientes datos representan el contenido de grasa en los cuerpos de 10 hombres: 4.22, 3.99, 5.41, 4.23, 4.29, 4.62, 4.55, 4.13, 4.23, 4.48. ¿Evidencian estos datos que el contenido promedio de grasa en los hombres es menor de 4.464? Considere 𝛼 = 5% y tome 𝜎 = 0.4. 4. Se espera que dos operarios produzcan en promedio el mismo número de unidades terminadas en el mismo tiempo. Los siguientes datos dan los números de las unidades terminadas para ambos trabajadores en una semana de trabajo. Operario 1 10 9 16 14 11

Operario 2 12 16 16 15 14

Si supone que el número de unidades terminadas diariamente por los trabajadores son variables aleatorias independientes distribuidas normalmente con varianzas iguales, ¿puede concluirse alguna diferencia entre las medias? Tome 𝛼 = 5% . 5. Las siguientes son las distancias en metros que cierto animal se aleja de su morada: 194, 202, 335, 515, 184, 369, 142, 552, 200, 344, 421, 590, 301, 439. ¿Podemos concluir que la distancia promedio en que se aleja es mayor de 338 m? Suponga 𝜎 = 140 y tome 𝛼 = 5%. 6. Pruebe la hipótesis según la cual el contenido promedio de un aceite comestible es de 5 litros. Si los contenidos de una muestra aleatoria de 10 recipientes son: 5.2, 4.7, 5.1, 5.3, 5.1, 4.8, 4.9, 5.4, 5.3, 4.8. Utilice un nivel de significancia de 𝛼 = 1% y suponga que la distribución de los contenidos es normal. 7. Se desea comparar dos métodos para enseñar estadística. Para ello se tomaron 10 pares de estudiantes del mismo nivel de aprovechamiento en estadística. De cada par, a uno se le asigna al azar el método A y al otro al método B. Después de un periodo de cuatro semanas, cada estudiante se sometió a un examen, con las puntuaciones siguientes: Par Método A Método B

1 36 35

2 37 35

3 41 42

4 42 41

5 36 36

6 35 34

7 42 40

8 33 31

9 40 39

10 38 37

¿Proporcionan estos datos suficiente evidencia como para indicar que los niveles medios de aprovechamiento de los métodos son distintos? Sea 𝛼 = 5% . 8. Los siguientes datos son los tiempos que tardan dos grupos de estudiantes para resolver un examen de estadística. Grupo 1 2

100 79

Tiempo mínimo 84 96 107 89 163 95 132 91

Estadística Inferencial

85

Página 45 Jorge Luis Bustos Galindo

Considere que se trata de poblaciones normales de igual varianza y pruebe que el tiempo de duración promedio para responder el examen del grupo 1 es mayor que el promedio del grupo 2. Tome 𝛼 = 2.5%. 9. Los siguientes datos corresponden a los diámetros de dos muestras de arandelas producidas por dos máquinas distintas. Muestra 1 0,91 1,82 1,46 1,95 1,57 1,61 1,32 Muestra 2 1,03 1,99 1,65 2,07 1,66 1,76 1,28 2,01 Considere que los diámetros se distribuyen normalmente y que las varianzas respectivas son 𝜎12 = 0.12 𝑦𝜎22 = 0.13. ¿Evidencian estos datos que los diámetros promedios de las arandelas producidas por las dos máquinas son iguales? Tome 𝛼 = 5%. 10. Cinco personas con exceso de peso se pusieron a dieta durante tres meses. Fueron observados sus pesos al comienzo y al final de la dieta. Estos datos se muestran en la tabla que sigue: Individuo 1 2 3 4 5 Peso inicial 295 305 323 299 310 Peso final 251 259 267 265 263 ¿Se puede concluir según estos datos que la dieta es efectiva? Tome 𝛼 = 10%. 11. Suponga que tienen dos poblaciones X y Y independientes, distribuidas normalmente y de igual varianza. De cada una de estas poblaciones se extrae una muestra. En la tabla que sigue se dan los resultados: Población X Y

Media 4.52 5.31

Desviación estándar 1.40 1.95

Tamaño de muestra 5 23

¿Se puede concluir a partir de estos datos, que 𝜇 𝑌 − 𝜇 𝑋 es mayor de 1? Tome 𝛼 = 5%. 12. Suponga que la varianza de los cocientes intelectuales de los estudiantes de enseñanza secundaria media en una ciudad es de 225. Una muestra aleatoria de 25 estudiantes arroja un coeficiente intelectual de 106. ¿Se puede concluir a partir de estos datos que el coeficiente intelectual medio de los estudiantes es superior a 100? Tome 𝛼 = 5% . 13. Una muestra aleatoria de tamaño n1 = 25, tomada de una población normal con desviación estándar de 𝜎1 = 4.8, tiene una media 𝑋̅1 = 75. Una segunda muestra aleatoria de tamaño n2 = 36, tomada de una población normal diferente con desviación estándar 𝜎2 = 3.5, tiene media 𝑋̅2 = 70. Pruebe la hipótesis de 𝜇 1 = 𝜇 2, en contraposición a la alterna𝜇 1 > 𝜇 2 . Tome 𝛼 = 5%. 14. Se conduce una prueba sobre la potencia de fricción producida por ciertas máquinas lubricadas con dos aceites comerciales. Los resultados fueron: Marca 1 𝑛1 = 9 𝑋̅1 = 10.4 𝑆12 = 1.0

Marca2 𝑛2 = 11 𝑋̅2 = 14.1 𝑆22 = 0.9

Considere que se trata de poblaciones normales con igual varianza. ¿Evidencian estos datos que las potencias promedios son iguales? Tome 𝛼 = 2% .

Estadística Inferencial

Página 46 Jorge Luis Bustos Galindo

PRUEBAS DE HIPÓTESIS RESPECTO DE LAS VARIANZAS EN POBLACIONES NORMALES Las pruebas referentes a varianzas pueden ser para una o dos varianzas. Si se trata de una sola varianza utilizamos como estadístico de prueba la variable con distribución Ji cuadrado: (𝑛 − 1) 𝑆 2 𝑋2 = 𝜎2 y con un valor de tabla (𝑋𝛼2 ):𝑋2 (𝑘, 𝑞) , en donde k = (n – 1) grados de libertad y q la medida de la cola derecha. Ejemplo 1. Se tomó una muestra aleatoria de tamaño n= 25 se obtuvo un valor S=150, con estos datos. Pruebe la hipótesis 𝐻𝑜 : 𝜎 2 = 10 000 vs.𝐻𝑜 : 𝜎 2 > 10 000. Solución 1. Hipótesis 𝐻𝑜 : 𝜎 2 = 10 000 vs. 𝐻𝑜 : 𝜎 2 > 10 000 2. n = 25 3. Estadística de prueba. (𝑛 − 1) 𝑆 2 𝑋𝑐2 = 𝜎2 4. Regla de decisión.

Se rechaza H0, si𝑋𝑐2 > 𝑋𝛼2 . 5. Cálculos. (25 − 1)(150 ) 2 𝑋𝑐2 = = 54 10000 El valor de tabla (𝑋𝛼2 ): 𝑋2 (𝑘, 𝑞) = 𝑋2 (24, 0.05 ) = 36.415 6. Decisión.

Como, 𝑋𝑐2 > 𝑋𝛼2 entonces rechaza H0. Cuando se trata de comparar varianzas se utiliza la variable con distribución F: 𝐹=

𝑆12 𝑆22

Estadística Inferencial

Página 47 Jorge Luis Bustos Galindo

En donde 𝑆12 y 𝑆22 son las varianzas muestrales de las dos poblaciones y con un valor de tabla (Fα): 𝐹 (𝛼,(𝑛1−1),(𝑛2−1)) , con q la medida de la cola derecha, n1grados de libertad del numerador y n2 grados de libertad del denominador. Se recomienda colocar siempre en el numerador la varianza muestral asociada a la varianza poblacional mayor. Esto es, 𝑆2 1

i) Si𝐻𝑎 : 𝜎12 > 𝜎22 , entonces el estadístico de prueba se toma como 𝐹 =

𝑆2 2

ii) Si 𝐻𝑎 : 𝜎22 > 𝜎12, entonces el estadístico de prueba se toma como 𝐹 =

𝑆2 2 𝑆2 1

.

iii) Si 𝐻𝑎 : 𝜎12 ≠ 𝜎22, entonces el estadístico de prueba se toma de tal manera que la mayor de las variables aparezca en el numerador. Ejemplo 2. Se comparó la eficiencia de dos tipos de aceites para evitar el desgaste en ciertas piezas sometidas a intenso trabajo. En trece piezas se utilizó el aceite 1 y en otras trece el aceite 2. Las varianzas muestrales fueron 𝑆12 = 64, 𝑆22 = 16 . Pruebe la hipótesis nula según la cual las varianzas de las dos poblaciones son iguales. Tome 𝛼 = 5% . Solución 1. Hipótesis 𝐻0 : 𝜎12 = 𝜎22 𝑣𝑠. 𝐻𝑎 : 𝜎12 ≠ 𝜎22 2. n1 = 13, n2 = 13, 𝛼 = 0.05. 3. Estadística de prueba. 𝑆12 𝐹𝑐 = 2 𝑆2 4. Regla de decisión.

Se rechaza H0, si 𝐹𝑐 > 𝐹𝛼 , 𝑜, 𝐹𝑐
𝐹𝛼 , entonces rechaza H0, de que las varianzas de las dos poblaciones son iguales.

Estadística Inferencial

Página 48 Jorge Luis Bustos Galindo

GUÍA DE TRABAJO N° 6 1. Se afirma que un dispensador de gaseosas está fuera de control si la varianza de los contenidos excede de 1.0 decilitros. Si una muestra aleatoria de 16 vasos despachados por este dispensador dio una varianza muestral de 1.9 decilitros, ¿qué puede decirse del mismo acerca de si está bajo control? Tome 𝛼 = 5%. 2. Se sabe que el contenido de nicotina de una marca de cigarrillos tiene distribución normal con varianza de 1.3 miligramos. Pruebe la hipótesis de que 𝜎 2 = 1.3, si una muestra aleatoria de 8 de estos cigarrillos tiene una desviación estándar 𝑆 = 1.8. use 𝛼 = 5%. 3. Se conduce una prueba sobre la potencia de fricción producida por ciertas máquinas lubricadas con dos aceites comerciales. Los resultados fueron: Marca 1 𝑛1 = 9 𝑋̅1 = 10.4 𝑆12 = 1.0

Marca2 𝑛2 = 11 𝑋̅2 = 14.1 𝑆22 = 0.9

¿Proporcionan estos datos una evidencia de que 𝜎 2 = 0.16? Tome 𝛼 = 5% . 4. Se compara el nivel de colesterol en la sangre de los pacientes seleccionados al azar y sometidos a dos dietas distintas; una baja en grasa y la otra normal. Las varianzas y tamaños de muestra se dan a continuación: Baja en grasas Normal

𝑆12 = 198 𝑆22 = 435

𝑛1 = 19 𝑛2 = 24

¿Proporcionan estos datos suficiente evidencia que indique una diferencia en la variabilidad de las dos poblaciones de donde se obtuvieron las muestras? Tome 𝛼 = 10%. 5. Una firma fabricante de detergentes elabora dos marcas. Si se encuentra que 56 amas de casa de 200 consultadas prefieren la marca A; y que 29 de 150 la marca B. ¿Es esto evidencia suficiente para sostener que la marca A es preferida a la B? Tome 𝛼 = 1%. 6. Se realizo una encuesta para determinar la diferencia que pueda existir entre las fracciones de casados y solteros entre 20 y 30 años que fuman. Se entrevistaron 200 personas de cada grupo y se encontraron 64 casados y 80 solteros que fuman. ¿Contienen los datos suficiente evidencia que indique que existe una diferencia entre las dos fracciones de fumadores para las dos poblaciones? Tome 𝛼 = 10%.

7. Dos maquinas diferentes A y B se utilizan para producir pernos idénticos que se suponen de 2 pulgadas de longitud. Se toman dos muestras aleatorias de 25 pernos cada una de la producción de ambas máquinas Y arrojan dos varianzas 𝑆12 = 0.03 pulgadas para la máquina A, y 𝑆22 = 0.04 pulgadas para la máquina B. ¿Evidencian estos datos que las varianzas son iguales? Tome 𝛼 = 5%.

8. La desviación estándar de cierto proceso de producción es de 4 pulgadas. Se sospecha que la varianza se ha hecho demasiado grande. Se toma una muestra de 9 partes producidas en dicho proceso y sus medidas son: 5, 7, 2, 4, 8, 9, 8, 6 y 5 pulgadas. Pruebe la hipótesis de que el proceso conserva aún la varianza 𝜎 2 = 4. Tome 𝛼 = 1%.

Estadística Inferencial

Página 49 Jorge Luis Bustos Galindo

REGRESIÓN Y CORRELACIÓN SIMPLES La técnica del análisis de la regresión no es otra cosa que un procedimiento de estimación o predicción. El análisis de la regresión se clasifica generalmente en dos tipos: simple y múltiple. La regresión simple es aquella en que entran solamente dos variables, tales como la regresión de Y respecto a X. La regresión múltiple es aquella en la intervienen tres o más variables, una de las cuales es una variable dependiente, la que se va a asociar con los valores de todas las demás. En este caso trataremos la regresión simple. El estudio se restringirá a la regresión simple solamente, o sea, aquella en que la ecuación que describe la relación entre X y Y es lineal y se representa gráficamente por una recta. Cuando se encuentra que unas variables están relacionadas ent re sí, suele ser útil averiguar cuán estrecha es la relación. El grado de relación entre éstas se denomina también correlación entre las variables. El problema de correlación está íntimamente asociado al de la regresión y es parte integrante del análisis de dos variables.

La recta de regresión Cuando tratamos la estimación observamos que para llevar a cabo tal proceso, partíamos de la propuesta de un modelo para la población, por ejemplo: distribución normal. A partir de este modelo supuesto y mediante una estadística adecuada obteníamos estimadores o estimaciones del parámetro en discusión. En el análisis de dos variables interesa el modelo particular, la recta de regresión de la población. Ésta, la cual se refiere a la población, no puede ser conocida y por tanto, debe ser estimada con base en los datos muestrales y se obtiene la recta de regresión estimada. Como es de esperarse, para dar validez a las conclusiones acerca de la citada recta, hay que fijar ciertos supuestos. Entre los de mayor relevancia están los siguientes: 1. Los valores de la variable dependiente x se toman previamente y de manera arbitraria; se considera que tales valores están libres de errores, por ello la denotamos con letra minúscula y se considera un variable determinística; esto es, s u valor está prefijado de antemano en el experimento. La variable dependiente Y se considera de naturaleza aleatoria y su valor es sólo una respuesta de las tantas que pueden corresponder a un mismo valor de x. 2. Se supone que en la entre x y Y existe una verdadera relación dada por la ecuación 𝑌𝑖 = 𝛼 + 𝛽𝑥 𝑖 + 𝜖𝑖

(1)

donde 𝛼 y 𝛽 son parámetros, es decir, son valores poblacionales y 𝜖𝑖 es un valor aleatorio llamado error o perturbación, determinado por la diferencia entre 𝑌𝑖 y el valor esperado de Y como variable aleatoria determinada por el 𝑥 𝑖 particular.

Estimación de 𝜶 y 𝜷 Con el fin de explicar las nociones básicas de la estimación de la recta de regresión con utilización de los datos muestrales, consideremos el siguiente problema. Ejemplo 1. Suponga que un profesor de estadística desea predecir la nota final que obtendrán en el próximo curso sus estudiantes utilizando como base el puntaje de ingreso de los mismos. Para ello, escogió al azar 10 estudiantes que iniciaron el curso; esperó luego el final de semestre y registró la nota definitiva que obtuvo cada uno de ellos. Los resultados fueron los que se dan en la siguiente tabla.

Estadística Inferencial

Página 50 Jorge Luis Bustos Galindo

Tabla 1. Puntaje de ingreso y nota definitiva en estadística de diez estudiantes. Estudiante Puntaje de ingreso Nota definitiva en estadística 1 39 65 2 43 78 3 21 52 4 64 82 5 57 92 6 47 89 7 28 73 8 75 98 9 34 56 10 52 75 Nuestro propósito es el de determinar una relación matemática (si existe) entre estas variables determinadas por el puntaje de ingreso y nota definitiva en est adística. Lo primero que debe hacerse es precisar cuál va a ser la variable independiente (determinística) y cuál la dependiente (aleatoria). La variable independiente es aquella que representa la característica que parece influir sobre la otra que se toma como respuesta, la que a su vez se constituye en la dependiente. En el caso que nos ocupa parece ser claro que esta variable es la que corresponde al puntaje de ingreso. Lógicamente, fijada ésta como variable independiente, la que representa las notas definitivas en estadística corresponderá a la variable dependiente. Una vez que hemos precisado las variables independiente y dependiente, sería deseable hacer una representación gráfica de los datos muestrales. Esta representación se lleva a cabo en plano cartesiano al registrar en el eje horizontal los valores de la variable independiente, la cual se denota con la x; y en el eje vertical los valores de la variable dependiente que se denota con la Y. Con estos valores individuales se forman las parejas ordenas (x, y) que determina un punto en el plano cartesiano; estos puntos forman en conjunto una nube de puntos que se llama diagrama de dispersión. La construcción de este diagrama es de mucha importancia puesto que a partir de él podemos tener una idea visual de la posible relación entre las variables y de esta forma poder sugerir el modelo que más se pueda ajustar a los datos. El diagrama de dispersión para los datos de la tabla 1 se muestra en la figura 1. Indica que existe una relación (correlación) positiva entre el puntaje de ingreso y la nota definitiva de estadística. Sugiere además que la relación entre las dos variables es de tipo lineal (recta) en promedio, ya que se tendría una recta al trazar una línea de ajuste por el centro de la nube de puntos al partir de la parte inferior de la nube a la superior (figura 2) Figura 1. Diagrama de dispersión de los puntajes de admisión y las notas definitivas en estadística

Estadística Inferencial

Página 51 Jorge Luis Bustos Galindo

Figura 2. Diagrama de dispersión de los puntajes de admisión y las notas definitivas en estadística con la recta o línea de ajuste.

Una vez que se tiene la evidencia o mejor, que resulta razonable considerar una relación de tipo lineal, la tarea siguiente es estimar la verdadera relación. El método más usual para elegir una recta de este tipo es el de mínimos cuadrados, y la resultante se llama recta de mínimos cuadrados. Este nombre se debe a que la suma de cuadrados de las desviaciones verticales de los puntos respecto de esta recta es menor que la suma de los cuadrados de dich as desviaciones respecto de cualquier recta. El procedimiento de los mínimos cuadrados para determinar la recta de regresión parte de que cada 𝑌𝑖 es de la forma 𝑌𝑖 = 𝛼 + 𝛽𝑥 𝑖 + 𝜖𝑖 A partir de esta ecuación de tiene que 𝜖𝑖 = 𝑌𝑖 − (𝛼 + 𝛽𝑥 𝑖 ) y de aquí obtenemos la ecuación cuadrática 𝜖𝑖 2 = [ 𝑌𝑖 − (𝛼 + 𝛽𝑥 𝑖 )] 2. Ahora bien, si se tiene n observaciones (𝑥 𝑖, 𝑌𝑖), entonces ∑𝑛𝑖=1 𝜖𝑖 2 = ∑𝑛𝑖=1[ 𝑌𝑖 − (𝛼 + 𝛽𝑥 𝑖 )] 2. (2), nos da la suma de cuadrados de las desviaciones verticales respecto de la recta 𝑌 = 𝛼 + 𝛽𝑥. El proceso matemático que se sigue es el determinar los valores de 𝛼 y 𝛽 que hacen mínimo a (2). Estos valores los denotamos 𝛼̂ y 𝛽̂, y se obtienen mediante métodos de optimización para funciones de dos variables que se estudian en cursos avanzados de cálculo, razón por la cual lo omitimos aquí. Basta saber que mediante la aplicación del mencionado método obtenemos el sistema de ecuaciones llamado sistema de ecuaciones normales, que sigue

(3)

A partir del sistema de ecuaciones normales despejamos a 𝛼̂ y 𝛽̂, y obtenemos (4) El numerador que aparece en (4) puede ser reconocido como la covarianza de la muestra de x y Y, y el denominador como la varianza de la muestra de los datos x. Esto es, (5)

Estadística Inferencial

Página 52 Jorge Luis Bustos Galindo

Otra forma de expresar el cociente que define a 𝛽̂ es al tomar como numerador 𝑆𝐶𝑥𝑌 = ∑𝑛𝑖=1 𝑥 𝑖 𝑌𝑖 − ∑𝑛𝑖= 𝑥 𝑖 ∑𝑛𝑖=1 𝑌𝑖⁄𝑛 y como denominador 𝑆𝐶𝑥 = ∑𝑛𝑖=1 𝑥 2𝑖 − (∑𝑛𝑖=1 𝑥 𝑖 )2 ⁄𝑛. De esta forma (5) toma la forma, (6) Una vez obtenido el valor de 𝛽̂, se puede calcular el valor de 𝛼̂ al sustituir el valor de 𝛽̂ en cualquiera de las ecuaciones del sistema (3). Si lo hacemos en la primera ecuación se tiene (7) Así pues, que para obtener los valores de 𝛼̂ y de 𝛽̂ es necesario conocer los de n, ∑𝑛𝑖=1 𝑥 𝑖, ∑𝑛𝑖=1 𝑌𝑖, ∑𝑛𝑖=1 𝑥 𝑖 𝑌𝑖 , ∑𝑛𝑖=1 𝑥 2𝑖 . También hay que conocer ∑𝑛𝑖=1 𝑌𝑖2 para cálculos posteriores. Una vez obtenidos los valores de 𝛼̂ y 𝛽̂ formamos la ecuación 𝑌̂ = 𝛼̂ + 𝛽̂ 𝑥 que recibe el nombre de recta estimada o ecuación de predicción. En la tabla 2 aparecen los cálculos de estos términos con base en los datos de la tabla 1. Tabla 2. Cálculo de la regresión del puntaje de ingreso (Y) respecto de la nota definitiva de estadística (x). Puntaje de ingreso x 39 43 21 64 57 47 28 75 34 52 ∑ = 460

Nota definitiva en estadística Y 65 78 52 82 92 89 73 98 56 75 ∑ = 760

De la tabla anterior podemos calcular, 𝑥̅ =

460 10

= 46 y 𝑌̅ =

xY

x2

Y2

2235 3354 1092 5248 5244 4183 2044 7350 1904 3900 ∑ = 36854

1521 1849 441 4096 3249 2209 784 5625 1156 2704 ∑ = 23634

4225 6084 2704 6724 8464 7921 5329 9604 3136 5625 ∑ = 59816

760 10

= 76.

Al reemplazar en la ecuación (4) se tiene que 𝛽̂ =

36854 ⁄10 − (46) (76) 3685.4 − 3496 189.4 = = = 0.766 23634 ⁄10 − (46) 2 2363.4 − 2116 247.4

y en la ecuación (7), 𝛼̂ = 76 − (0.766) (46) = 40.76 De lo anterior se tiene que la ecuación de la recta de regresión (estimada) es 𝑌̂ = 40.76 + (0.766) 𝑥 Que se representa en la figura 3 en donde aparece también el diagrama de dispersión.

Estadística Inferencial

Página 53 Jorge Luis Bustos Galindo

Figura 3. Recta de regresión estimada de las notas en estadística respecto al puntaje de ingreso.

En la estimación de los parámetros de 𝛼 y 𝛽, en realidad lo importante es el parámetro 𝛽 puesto que representa una estimación de la variación promedio de los valores de la variable dependiente Y para cada variación del valor de la variable independiente x. En este ejemplo en particular, el valor de 0.766 para 𝛽 significa que la nota de estadística puede variar, según se estima, es aproximadamente 0.766 e igual sentido que la variación del puntaje de ingreso. La ecuación de regresión lineal basada en datos muestrales se utiliza ampliamente para fines de predicción. Dado un valor x, se puede predecir cuál será el valor de Y asociado, en promedio. Por ejemplo, si un estudiante ingresó con un puntaje de x=60, la nota definitiva provista en estadística será 𝑌̂ = 40.76 + (0.766)(60 ) = 87(aproximadamente) lo cual es una estimación puntual de la media condicional 𝜇 𝑌⁄𝑥 . ¿Cuál buena es entonces esta estimación? O bien, ¿cuál es el grado de precisión del valor predicho? Para responder a esta pregunta hay que considerar la estimación por intervalo que se tratará más tarde. Antes de continuar precisando conceptos es conveniente que expliquemos un poco el porqué y que características buenas tiene la estimación de mínimos cuadrados que hemos hecho. Como ya se señaló, la determinación de la recta mediante el método de “mano alzada” no es lo mejor que podamos hacer. Ahora bien, si tomamos como buen ajuste aquel que minimiza el residuo total, entendiéndose como residuo la distancia vertical del Y observado a la línea ajustada, o sea (𝑌𝑖 − 𝑌̂𝑖 ), donde 𝑌̂𝑖 es el “valor ajustado de 𝑌” o la ordenada de la línea. Véase figura 4. Figura 4. Error cometido al ajustar puntos con una recta.

Estadística Inferencial

Página 54 Jorge Luis Bustos Galindo

El error total se puede intentar minimizar de varias formas como son: 1. Al considerar la suma de todos los errores. Esto es, ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̂𝑖 ). Si se utiliza este criterio, las dos rectas que aparecen en la figura 4 se ajustan bien con las observaciones, a pesar de que el ajuste en a) es intuitivamente un ajuste bueno y b) es muy malo. 2. Hay un problema de signo; en ambos casos los errores positivos neutralizan los negativos y hacen que la suma sea igual a cero. Este criterio debe ser rechazado porque no permite distinguir entre los ajustes buenos y malos. Figura 5. Suma de errores igual a cero.

Como los errores positivos no pueden anularse entre sí con los errores negativos, este criterio eliminaría los malos ajustes, tal como el ajuste de la figura 6b. Sin embargo, todavía tiene una desventaja. Es claro que la figura 6 el ajuste de (b) satisface mejor el criterio de minimizar la suma de los valores absolutos (∑| 𝑌𝑖 − 𝑌̂𝑖 |) que el ajuste (a). Intuitivamente se puede ver que la línea que une en (b) los puntos extremos satisface este criterio mejor que cualquier otra. No obstante, no parece ser la mejor solución al problema puesto que se ignora totalmente el punto medio. Tal vez en ese sentido es mejor el ajuste (a), porque en él se consideran los tres puntos. Figura 6. Dos ajustes que minimizan la suma de los valores absolutos de las desviaciones.

Estadística Inferencial

Página 55 Jorge Luis Bustos Galindo

3. Finalmente, el problema del signo también puede ser superado si se intenta minimizar la 2

suma de los cuadrados de los errores, ∑𝑛𝑖=1 (𝑌𝑖 − 𝑌̂𝑖 ) que ya fue estudiada como los mínimos cuadrados. Su justificación comprende los puntos siguientes: i) Al elevar al cuadrado se suprime el problema del signo. ii) La operación de elevar al cuadrado destaca los errores grandes y cuando se trata de satisfacer este criterio se evitan esos errores siempre que sea posible. Por consiguiente, se toman en cuenta todos los puntos y mediante este criterio, se elige el ajuste en la figura 6ª, el cual es preferible al de la figura 6b. iii) El algebra de mínimos cuadrados es sencilla de manipular. iv) Existen justificaciones teóricas importantes para los mínimos cuadrados, como el criterio de máxima verosimilitud.

Estimación de 𝜶 y 𝜷 para el ejemplo hipotético Ejemplo 2. Supongamos que se tiene una población de 50 personas adultas del género masculino. De esta muestra nos interesa estudiar la relación entre la estatura (Y), medida en centímetros y el peso (x). Tabla 3. Relación de las estatura y los pesos de 50 personas adultas del género masculino.

Estaturas por persona (Y)

Peso (X) 60

65

70

75

80

159

164

164

189

171

160

166

164

170

173

162

167

165

171

175

165

167

166

171

179

168

168

168

172

180

170

169

169

173

184

171

170

171

174

170

172

175

171

173

176

174

177

175

177

175

178

176

178

176 177 Supongamos que para cada valor dado de (X) escogemos aleatoriamente un valor de (Y) mediante un muestreo aleatorio simple (MAS). Ahora organizamos estos valores en una tabla como sigue: 𝑿

60

65

70

75

80

𝒀

162

168

169

175

171

El diagrama de dispersión es:

Estadística Inferencial

Página 56 Jorge Luis Bustos Galindo

Los valores estimados de 𝛼 y de 𝛽 por el método de mínimos cuadrados son: 𝛼̂ = 134 y 𝛽̂ = 0.5. La ecuación de la recta de regresión estimada es 𝑌̂ = 134 + (0.5)𝑥 La verdadera ecuación de la recta de regresión es 𝑌 = 129 + 0.6𝑥 Los valores 𝑌̂ determinados por la anterior ecuación son estimaciones de 𝐸 [ 𝑌⁄𝑋 = 𝑥 0 ], es posible comprobarse fácilmente: Para 𝑋 = 60, se tiene al reemplazar en la ecuación 𝑌̂ = 164 . El valor exacto es 𝐸 [ 𝑌⁄𝑋 = 60] = 165 , como puede verse en la tabla 3. Las demás estimaciones se obtienen de forma similar.

Estadística Inferencial

Página 57 Jorge Luis Bustos Galindo

GUÍA DE TRABAJO N° 7 1. Suponga que al estudiar la relación entre el costo Y y la producción de unidades de camisa x, se estimó una ecuación para la recta de regresión de la forma: 𝑌̂ = 500000 + (1000) 𝑥 a. ¿Qué significado económico tendría 500000? b. ¿Qué significado económico tendría 1000? 2. En la tabla que sigue se dan los tiempos se dan los tiempos de retraso medidos en minutos, en la llegada a sus puestos de trabajo y la antigüedad en años de siete empleados de una compañía, escogidos al azar en un día cualquiera laboral. Tiempo de retraso Antigüedad a. b. c. d. e.

7 8

1 10

10 3

11 5

9 10

10 4

6 8

Determine la variable independiente y la variable dependiente. Construya el diagrama de dispersión Obtenga la ecuación de la recta de regresión Si una persona llega con 8 minutos de retraso, ¿cuántos años de antigüedad se espera que lleve trabajando en la compañía? Si una persona lleva 12 años en la compañía, ¿cuántos minutos se espera que se atrase?

3. Los datos que se dan en la tabla que sigue corresponden a la cantidad de fertilizante (en libras) y la producción de trigo (en toneladas). Fertilizante (Libras) 2 4 5 7 10 11 12 15

a. b. c. d. e.

Producción de trigo (Toneladas) 8 9 11 11 12 14 15 16

Determine la variable independiente y la variable dependiente. Construya el diagrama de dispersión Obtenga la ecuación de la recta de la regresión Estime la producción de trigo cuando se utilicen 13 libras de fertilizante Si se obtiene una producción de 10 toneladas de trigo, ¿cuántas libras de fertilizante se han podido emplear?

4. Diez secretarías de una compañía escogida al azar fueron sometidas a una prueba que consistió en un dictado con cierto tiempo de duración y luego contar el número de errores cometidos al transcribirlos a un computador. Los resultados fueron los siguientes: Tiempo dictado Número de errores

7 8

6 7

5 6

4 6

5 7

8 10

Estadística Inferencial

7 9

8 9

9 10

6 8

Página 58 Jorge Luis Bustos Galindo

a. b. c. d.

Determine la variable independiente y la variable dependiente. Construya el diagrama de dispersión Obtenga la ecuación de la recta de la regresión Si una secretaria se le dicta durante diez minutos, ¿cuántos errores se espera que cometa?

5. Los siguientes datos corresponden a una comparación entre el rendimiento académico a final de año y el puntaje obtenido en una prueba para medir el coeficiente intelectual de diez estudiantes. Promedio C.I.

a. b. c. d. e.

3,6 120

3,7 130

3,8 125

4,6 120

4,9 135

4,4 130

4,4 125

4,2 128

3,6 115

3,2 120

Determine la variable independiente y la variable dependiente. Construya el diagrama de dispersión Obtenga la ecuación de la recta de la regresión Si un estudiante tiene coeficiente intelectual de 118, ¿cuál sería el rendimiento académico? Si un estudiante tuvo un rendimiento académico de 4,0, ¿cuánto se espera que tenga de coeficiente intelectual?

6. El jefe de personal de una empresa cree existe una relación entre la ausencia al trabajo y la edad del empleado. Con el propósito de estudiar el problema tomó en cuenta la edad de diez trabajadores escogidos al azar y contabilizó los días de ausencia durante el año. Los resultados fueron como se observa en la tabla que sigue: Edad Ausencia

a. b. c. d.

25 20

50 5

35 10

20 20

45 8

50 2

30 15

40 12

62 1

40 8

Construya el diagrama de dispersión Obtenga la ecuación de la recta de la regresión Si un trabajador tiene 38 años, ¿cuántos días se espera que falten al año? Si un trabajador faltó 3 días al año, ¿qué edad se puede esperar que tenga este trabajador?

Estadística Inferencial

Página 59 Jorge Luis Bustos Galindo

MÉTODOS NO PARAMÉTRICOS Hemos visto en casi todas las pruebas hasta ahora estudiadas permitían que se estimaran algunos valores desconocidos de los parámetros a partir de valores calculados gracias a muestras elegidas al azar en una población dada. Las hipótesis se enunciaban en función del valor o valores especificados de los parámetros de la población. Como se presentan muchas situaciones en las que no cumplen los supuestos, se han desarrollado recientemente numerosas pruebas estadísticas que no exigen supuestos rigurosos acerca de la distribución de la población y que no requieren enunciar las hipótesis en términos de valores especificados de los parámetros, son por consiguiente, pruebas que se pueden llamar de distribución libre o no paramétricos. El término de distribución libre describe un método de probar hipótesis o de definir un intervalo de confianza que no depende de la naturaleza de la distribución de la población que se esté considerando; el término no paramétrico se utiliza para indicar que no hay hipótesis enunciada en términos de valores especificados de parámetros. No obstante, los métodos no paramétricos tienen sus ventajas por ser fáciles de aplicar. Son relativamente sencillos, claros de exponer y de comprender en comparación con los métodos paramétricos. De ahí que a veces se les llame métodos “abreviados” y que se les emplee a menudo, al aumentar el tamaño de la muestra, incluso en situaciones en que se cumplen en realidad supuestos paramétricos. En esta guía nos ocuparemos al estudio de algunos métodos más frecuentemente empleados.

Prueba de rangos signados La prueba de signos deja completamente de lado la magnitud de la diferencia entre cada par de valores. Frank Wilcoxon, en 1945, sugirió un método para mejorar la prueba de s ignos. Ésta mejora, llamada prueba de rangos signados de Wilcoxon, toma en consideración la magnitud de las diferencias. Para llevarla a cabo, el primer paso consiste en ordenar todos los valores absolutos de las diferencias entre observaciones pareadas, del menor al mayor. El rango de la diferencia más pequeña es entonces 1, el que sigue es 2 y así sucesivamente. Como se asigna rangos a las diferencias independientemente del signo, por ejemplo a las diferencias -1 y +1 se les da el mismo rango, es decir, cada diferencia le corresponde un rango y como se omite el signo entonces ocuparía el mismo rango, entonces se promedia los rangos que le corresponde y ese sería el rango para cada uno de ellos. Una vez ordenadas por rangos las diferencias, se da a cada rango el signo de la diferencia. Se calculan entonces por aparte la suma de de rangos positivos y la suma de los rangos negativos y la suma menor omitido el signo, es la estadística de prueba que se suele designar por T. Si la hipótesis nula según la cual las dos poblaciones tienen idéntica distribución (relativa) es cierta, podría esperarse que las dos sumas sean aproximadamente iguales, y si las dos sumas son muy diferentes entre y sí, habría que concluir que las dos poblaciones no son idénticas; es decir, habría que descartar la hipótesis nula. La estadística de prueba T se puede emplear para pruebas de una o dos colas. Para de una cola es necesario anticipar el signo de la suma de los rangos menor, en caso de ser falsa la hipótesis nula. Si la suma más pequeña tiene signo distinto del que se anticipó, no se rechaza la hipótesis nula. Ejemplo 1. Suponga que se desea averiguar si un periodo de vacaciones aumentaría la productividad de los trabajadores. Suponga además que para este fin se recolectan datos sobre las producciones semanales de 22 trabajadores de una fábrica en la semana anterior y posterior a las vacaciones. Sean X y Y las producciones semanales antes y después de las vacaciones. Como se trata de una prueba de una cola y la hipótesis alterna es la de que un periodo de vacaciones aumentaría la productividad de los trabajadores, se anticipa que la suma menor tiene signo negativo.

Estadística Inferencial

Página 60 Jorge Luis Bustos Galindo

Trabajadores

X

Y

A B C D E F G H I J K L M N O P Q R S T U V

83 85 75 91 80 75 90 65 78 85 83 75 78 80 82 88 85 80 78 81 70 80

79 87 70 93 85 75 80 71 80 88 82 71 75 85 86 85 82 87 78 84 85 81

Diferencias Y–X -4 +2 -5 +2 +5 0 -10 +6 +2 +3 -1 -4 -3 +5 +4 -3 -3 +7 0 +3 +15 +1

Rango

Rango signado Negativo Positivo -12 +4 -15 +4 +15

12 4 15 4 15 19 -19 17 +17 4 +4 8 +8 1.5 -1.5 12 -12 8 -8 15 +15 12 +12 8 -8 8 -8 18 +18 8 +8 20 +20 1.5 +1.5 T= -83.5 126.5 La menor suma es la negativa -83.5 y por consiguiente la estadística de prueba es 83.5, al omitir el signo. El valor T se refiere entonces a la tabla de T construida por Wilcoxon para compararlo con el valor crítico para un valor de significancia dado. En la tabla I se da una porción de la tabla T. La tabla da los valores críticos de T a valores especificados de α de 0.005, 0.01 y 0.025 para una cola y 0.01, 0.02 y 0.05 para dos colas. Para una cola con n = 20, el valor crítico de T a α = 0.01 es 43, el cual o debajo del cual se encuentra la región crítica. Como el valor observado es 83.5, no se rechaza la hipótesis nula o sea que un periodo de vacaciones no obtiene efecto favorable de alguna significancia en la productividad de los trabajadores. Tabla I. Valores críticos de T para la prueba de rangos signados de Wilcoxon.

Estadística Inferencial

Página 61 Jorge Luis Bustos Galindo

Observe que si se desea llevar a cabo una prueba de dos colas el val or crítico 43 viene asociado a un nivel de significancia de 0.02 para n = 20. En pares mayores de 25 la tabla de valores T ya no puede emplearse. Afortunadamente, para n grande la distribución de T es aproximadamente normal y lo usual es emplear el método de aproximación normal. En efecto, T es aproximadamente N [ 𝐸(𝑇) , 𝜎𝑇2 ] con n no inferior de 8. Damos en seguida las fórmulas para calcular la media y la desviación estándar de la distribución T: 𝐸 (𝑇) =

𝑛(𝑛+1) 4

y 𝜎𝑇 = √

𝑛(𝑛 +1)(2𝑛+1) 24

El valor Z se calcula como sigue: 𝑍= En el ejemplo anterior se tiene 𝐸 (𝑇) =

𝑇 − 𝐸 (𝑇) 𝜎𝑇

20 (20 + 1)

= 105 4 20 (20 + 1)(40 + 1) 𝜎𝑇 = √ = 26.78 24 83.5 − 105 𝑍= = −0.83 26.78 Que es mayor que el valor crítico -1.645 con 𝛼 = 5%. Por consiguiente, no se rechaza la hipótesis nula de que el periodo de vacaciones no da por resultado aumento de la productividad. Este resultado es el mismo obtenido por la prueba de signos estudiada antes.

Prueba de independencia Entre todas las aplicaciones que se ofrecen de la distribución Ji cuadrado, es tal vez la prueba de independencia la que mayor empleo tiene. Este procedimiento consiste en probar la hipótesis nula según la cual dos criterios de clasificación cuando se aplican a dos conjuntos de entidades, son independientes. Por ejemplo, probar que el hábito de fumar es independiente del sexo o probar que los retrasos en la llegada al trabajo de las personas que laboran en una empresa es independiente del tiempo de vinculación del trabajador. La clasificación de un conjunto de entidades, de acuerdo con dos criterios, puede presentarse mediante una tabla en la que los renglones (filas) representan los diversos niveles de uno de los criterios de clasificación y las columnas representan los diversos niveles del segundo criterio. Una tabla construida de esta forma se denomina, como una tabla de contingencia. La intersección de un renglón con una columna se denomina celda. La hipótesis nula (H0) corresponde a la proposición: “Los dos criterios de clasificación son independientes”. Si se llega rechazar H0, se concluirá que los dos criterios de clasificación no son independientes en esta población. El procedimiento para realizar la prueba incluye los siguientes pasos básicos: 1. Se especifica cada criterio con sus distintos niveles. Est o determinará los renglones y las columnas. 2. Se registra en cada celda el número de individuos o entidades que satisfacen el nivel dado por el renglón y la columna simultáneamente. 3. Se calculan las frecuencias esperadas, las cuales se colocan en la parte inferior derecha de la celda o al lado de la frecuencia observada, entre paréntesis. 4. Se calcula la suma, valor de la estadística de prueba, 𝑘 (𝑋𝑖 − 𝐸𝑖 ) 2 2 𝑋𝐶 = ∑ 𝐸𝑖 𝑖=1

en donde, 𝑋𝑖 = Número de entidades o individuos clasificados en las celdas 𝑖. 𝐸𝑖 = Frecuencia esperada para la celda 𝑖. k = Número de celdas.

Estadística Inferencial

Página 62 Jorge Luis Bustos Galindo

5. Se busca en la tabla de Ji cuadrado el valor𝑋2[1−𝛼 ,(𝑟−1)(𝑐−1)] , r = número de renglones y c = número de columnas. Si el valor𝑋𝑐2 > 𝑋𝛼2 , entonces se rechaza H0 al nivel de significancia 𝛼. Ejemplo 2. Suponga que se desea averiguar si existe alguna relación entre el nivel de formación académica y el rendimiento laboral para un grupo de 200 empleados. El nivel de formación académica se clasifica en tres clases: escuela media o primaria, escuela superior y escuela de especialización, en tanto que el rendimiento en el trabajo se clasifican como “excelente”, “bueno” o “regular”. La distribución de frecuencia conjunta de las 200 observaciones está representada en la siguiente tabla.

Rendimiento Excelente Bueno Regular Total

Media o primaria 10 (15) 30 (20) 10 (15) 50

Formación académica Superior Especialización 40 (30) 10 (15) 30 (40) 20 (20) 30 (30) 20 (15) 100 50

Total 60 80 60 200

La frecuencia esperada (número que aparece entre el paréntesis) se obtiene al multiplicar el total de la columna por el total del respectivo renglón y dividir por el total de observaciones. Ejemplo de las primeras frecuencias esperadas: 50×60 100×60 50×60 50×80 𝐸1 = = 15, 𝐸2 = = 30, 𝐸3 = = 15, 𝐸4 = = 20, … 200

200

200

200

A partir de la tabla anterior se obtiene 𝑋2𝑋 como sigue: (10 − 15) 2 (40 − 30) 2 (10 − 15) 2 (30 − 20) 2 (30 − 40) 2 (20 − 20) 2 (10 − 15) 2 𝑋𝑐2 = + + + + + + 15 30 15 20 40 20 15 (30 − 30) 2 (20 − 15) 2 +⋯+ + 30 15 2100 2 𝑋𝑐 = = 17.5 120 Este valor calculado se confronta con el valor de tabla Ji cuadrado (𝑋𝛼2 ), con∝= 0.05 tenemos, 𝑋2[1−𝛼,(𝑟−1)(𝑐−1)] = 𝑋2[1−0.05,(3−1)(3−1)] = 𝑋2[0.9,4] = 9.48773 y con ∝= 0.01, 𝑋2[0.99,4] = 13.2767 . El valor calculado es considerablemente superior a estos valores. Así que aunque se fijara el nivel de significancia al 1%, se podría rechazar la hipótesis nula de que no hay relación significativa entre la formación académica de los empleados y su rendimiento en el trabajo. Un caso especial en la prueba de independencia es aquel que emplea una tabla de contingencia de 2x2. Si se utiliza tal tabla pude aplicarse una fórmula simplificada para calcular 𝑋𝑐2 . Suponga que las frecuencias observadas en una tabla de contingencia 2x2, sean a, b, c y d como sigue: Individuos o entidades X Y Total

A a c a+c

B b d b+d

Total a+b c+d n

El valor 𝑋𝑐2 puede calcularse entonces por la fórmula siguiente: 𝑋𝑐2 (

𝑛 (𝑎𝑑−𝑏𝑐 )2 ) 𝑎+𝑏 (𝑎+𝑐 )(𝑐+𝑑)(𝑏+𝑑)

(1)

con (2 – 1)(2 – 1) =1 grado de libertad.

Estadística Inferencial

Página 63 Jorge Luis Bustos Galindo

Con frecuencia se aplica la correlación por continuidad de Yates, análoga a la corrección de continuidad de la aproximación normal a la binomial, para mejorar la aproximación a la probabilidad multinominal exacta. El valor 𝑋2 corregido se calcula así: 𝑋𝑐2 =

𝑛( |𝑎𝑑−𝑏𝑐 |−𝑛⁄2 )2 (𝑎+𝑏)(𝑎+𝑐 )(𝑐+𝑑 )(𝑏+𝑑 )

(2)

Ejemplo 3. En un estudio para determinar si existía relación entre el sexo y el propósito de elegir una carrera técnica se entrevistaron 120 aspirantes a la universidad. Los resultados fueron los siguientes:

Sexo Hombre Mujer Total

Aspira a carrera técnica Si No 40 30 10 40 50 70

Total 70 50 120

Aplicando la fórmula (1) tenemos, 𝑋𝑐2 =

120 (40 × 40 − 10 × 30) 2 70 × 50 × 50 × 70

= 16.56

De la tabla III tenemos que para un grado de libertad el valor crítico 𝑋2 que separa 0.1% superior es 10.828. Por lo tanto, la hipótesis según la cual existe independencia entre el sexo y el propósito de elegir una carrera técnica debe ser rechazada. Si se tiene en cuenta la corrección por continuidad de Yates (2) obtenemos: 𝑋𝑐2 =

120 (|40 × 40 − 10 × 30| − 120/2) 2 70 × 50 × 50 × 70

= 15.06

que es ligeramente menor que el valor antes obtenido, pero aun así la hipótesis de independencia debe ser rechazada.

Estadística Inferencial

Página 64 Jorge Luis Bustos Galindo

GUÍA DE TRABAJO N° 8 1. Se desea determinar la eficacia de cierta dieta para adelgazamiento. Se sometieron a la dieta 17 personas y se les tomaron sus pesos antes y después de la dieta. Los resultados se dan a continuación: Personas Pesos antes Pesos después

A B C D E F G H I J K L M N O PQ 210 197 203 175 234 178 252 230 190 195 154 179 243 195 198 169 217 208 196 195 175 229 170 242 221 213 180 150 173 235 204 193 169 210

Aplique la prueba T de Wilcoxon para determinar si la dieta ha reducido significativamente los pesos de las personas del experimento a un nivel del 1%. 2. Los datos que siguen se reunieron con el propósito de determinar esposos se pueden considerar superiores a las de las esposas. Esposos Esposas

si las edades de los

58 46 30 35 53 20 45 35 38 43 25 22 37 61 78 47 35 25 38 49 21 42 40 38 38 26 24 39 60 68

¿Qué puede decir, de acuerdo con estos datos? Empleando la prueba T de Wilc oxon. Emplee el nivel de significancia 𝛼 = 1%. 3. Se desea determinar si un alza en los salarios incrementaría la producción por hora de los trabajadores. Sea X esta producción por hora antes de alza de salarios y sea Y la misma producción después del alza. Una muestra de 20 trabajadores arroja los siguientes datos: Trabajadores X Y

A B C D E F G H I J K L M N O P Q R S T 91 83 70 64 85 86 91 66 72 60 75 84 71 80 70 85 65 75 75 65 88 87 67 69 83 81 94 67 76 55 74 86 72 90 75 83 75 82 65 67

Utilice la estadística de prueba T para probar la hipótesis nula de que el alza de salarios no tiene efecto sobre la producción horaria de los trabajadores, con la hipótesis alterna de que: a. La producción por hora tras el alza es superior a la de antes del alza a un nivel de significancia del 𝛼 = 1% . b. La producción por hora tras el alza difiere de la producción anterior al alza a un nivel de significancia del 𝛼 = 5% . 4. Suponga que la siguiente es una muestra aleatoria de 1 000 electores clasificados por afiliación a partidos y preferencias de voto sobre determinada cuestión: Preferencia Pro Contra

Izquierdista 400 250

Derechista 150 200

Pruebe la hipótesis según la cual la afiliación al partido no tiene nada que ver con la preferencia del voto. Tome 𝛼 = 5%. 5. Cierta compañía desea determinar si el ausentismo se relaciona con la edad. Se toma una muestra de 200 empleados al azar y se clasifican según edad y causa de ausentismo así: Causa Enfermedad Otras

Edad Menos de 30 40 20

30 – 50 28 36

Más de 50 52 24

¿Se encuentra la edad relacionada con el ausentismo? Tome 𝛼 = 0.01.

Estadística Inferencial

Página 65 Jorge Luis Bustos Galindo

6. Una fábrica de automóviles quieren averiguar si el sexo de sus posibles clientes no ti enen relación con la preferencia del modelo. Se toma una muestra aleatoria de 2 000 posibles clientes y se clasifican así: Sexo Varón Mujer

Modelo I II 350 270 340 400

III 380 260

Pruebe la hipótesis según la cual el sexo no tiene relación con la preferencia del modelo. Tome 𝛼 = 0.01. 7. La administración de cierta firma elaboró una encuesta para determinar si el tipo de empleo se relaciona con preferencias por una póliza de seguros. Una muestra de 300 empleados a los que se entrevistó arrojó los datos siguientes: Tipo de empleados Inspectores Empleados de oficina Obreros

Póliza I 18 42 36

de seguro II III 6 12 24 30 72 60

Pruebe la hipótesis según la cual el tiempo de empleo es independiente de la preferencia por la póliza de seguros. Tome 𝛼 = 0.01.

Estadística Inferencial

Página 66 Jorge Luis Bustos Galindo

Tabla I. Distribución Normal Estándar 𝒁 ~ 𝑵(𝟎, 𝟏) 𝜎=1

Estadística Inferencial

Página 67 Jorge Luis Bustos Galindo

Tabla II. Distribución TStudent

La tabla da áreas 1  y valores 𝑐 = 𝑡1−∝, 𝑟 , donde, 𝑃 [𝑇 ≤ 𝑐] = 1−∝, y donde T tiene distribución t-Student con r grados de libertad.

r

0.75

0.80

0.85

0.90

0.95

0.975

0.99

0.995

1 2 3 4 5

1.000 0.816 0.765 0.741 0.727

1.376 1.061 0.978 0.941 0.920

1.963 1.386 1.250 1.190 1.156

3.078 1.886 1.638 1.533 1.476

6.314 2.920 2.353 2.132 2.015

12.706 4.303 3.182 2.776 2.571

31.821 6.965 4.541 3.747 3.365

63.657 9.925 5.841 4.604 4.032

6 7 8 9 10

0.718 0.711 0.706 0.703 0.700

0.906 0.896 0.889 0.883 0.879

1.134 1.119 1.108 1.100 1.093

1.440 1.415 1.397 1.383 1.372

1.943 1.895 1.860 1.833 1.812

2.447 2.365 2.306 2.262 2.228

3.143 2.998 2.896 2.821 2.764

3.707 3.499 3.355 3.250 3.169

11 12 13 14 15

0.697 0.695 0.694 0.692 0.691

0.876 0.873 0.870 0.868 0.866

1.088 1.083 1.079 1.076 1.074

1.363 1.356 1.350 1.345 1.341

1.796 1.782 1.771 1.761 1.753

2.201 2.179 2.160 2.145 2.131

2.718 2.681 2.650 2.624 2.602

3.106 3.055 3.012 2.977 2.947

16 17 18 19 20

0.690 0.689 0.688 0.688 0.687

0.865 0.863 0.862 0.861 0.860

1.071 1.069 1.067 1.066 1.064

1.337 1.333 1.330 1.328 1.325

1.746 1.740 1.734 1.729 1.725

2.120 2.110 2.101 2.093 2.086

2.583 2.567 2.552 2.539 2.528

2.921 2.898 2.878 2.861 2.845

21 22 23 24 25

0.686 0.686 0.685 0.685 0.684

0.859 0.858 0.858 0.857 0.856

1.063 1.061 1.060 1.059 1.058

1.323 1.321 1.319 1.318 1.316

1.721 1.717 1.714 1.711 1.708

2.080 2.074 2.069 2.064 2.060

2.518 2.508 2.500 2.492 2.485

2.831 2.819 2.807 2.797 2.787

26 27 28 29 30

0.684 0.684 0.683 0.683 0.683

0.856 0.855 0.855 0.854 0.854

1.058 1.057 1.056 1.055 1.055

1.315 1.314 1.313 1.311 1.310

1.706 1.703 1.701 1.699 1.697

2.056 2.052 2.048 2.045 2.042

2.479 2.473 2.467 2.462 2.457

2.779 2.771 2.763 2.756 2.750

40 60 120 

0.681 0.679 0.677 0.674

0.851 0.848 0.845 0.842

1.050 1.046 1.041 1.036

1.303 1.296 1.289 1.282

1.684 1.671 1.658 1.645

2.021 2.000 1.980 1.960

2.423 2.390 2.358 2.326

2.704 2.660 2.617 2.576

Estadística Inferencial

Página 68 Jorge Luis Bustos Galindo

Tabla III. Distribución 𝑿𝟐

𝑋𝛼2 Grados libertad 1 2 3 4 . 5 6 7 8 9

0,1 2,71 4,61 6,25 7,78

0,05 3,84 5,99 7,81 9,49

0,025 5,02 7,38 9,35 11,14

0,01 6,63 9,21 11,34 13,28

0,005 7,88 10,60 12,84 14,86

9,24 10,64 12,02 13,36 14,68

11,07 12,59 14,07 15,51 16,92

12,83 14,45 16,01 17,53 19,02

15,09 16,81 18,48 20,09 21,67

16,75 18,55 20,28 21,95 23,59

10 11 12 13 14 . 15 16 17 18 19 . 20 21 22 23 24 . 25 26 27 28 29 . 30 40 50 60

15,99 17,28 18,55 19,81 21,06

18,31 19,68 21,03 22,36 23,68

20,48 21,92 23,34 24,74 26,12

23,21 24,73 26,22 27,69 29,14

25,19 26,76 28,30 29,82 31,32

22,31 23,54 24,77 25,99 27,20

25,00 26,30 27,59 28,87 30,14

27,49 28,85 30,19 31,53 32,85

30,58 32,00 33,41 34,81 36,19

32,80 34,27 35,72 37,16 38,58

28,41 29,62 30,81 32,01 33,20

31,41 32,67 33,92 35,17 36,42

34,17 35,48 36,78 38,08 39,36

37,57 38,93 40,29 41,64 42,98

40,00 41,40 42,80 44,18 45,56

34,38 35,56 36,74 37,92 39,09

37,65 38,89 40,11 41,34 42,56

40,65 41,92 43,19 44,46 45,72

44,31 45,64 46,96 48,28 49,59

46,93 48,29 49,65 50,99 52,34

40,26 51,81 63,17 74,40

43,77 55,76 67,50 79,08

46,98 59,34 71,42 83,30

50,89 63,69 76,15 88,38

53,67 66,77 79,49 91,95

70 80 90 100

85,53 96,58 107,57 118,50

90,53 101,88 113,15 124,34

95,02 106,63 118,14 129,56

100,43 112,33 124,12 135,81

104,21 116,32 128,30 140,17

Estadística Inferencial

Página 69 Jorge Luis Bustos Galindo

Tabla IV. Distribución F

F 𝛼 =0.10 superior 𝒏𝟏⁄ 𝒏𝟐

1

2

3

4

30

40

60

62.2649

62.529

62.7942

63.0606 63.3281

9.16179 9.24342 9.29263 9.32553 9.34908 9.36677 9.38054

9.39157 9.40813 9.42471 9.44131 9.44962 9.45793 9.46624 9.47456

9.48289 9.49122

5.53832 5.46238

5.39077 5.34264 5.30916 5.28473 5.26619 5.25167

5.23041 5.21562 5.20031 5.18448 5.17636 5.16811 5.15972 5.15119

5.14251

4

4.54477 4.32456

4.19086 4.10725 4.05058 4.00975 3.97897 3.95494 3.93567

3.91988 3.89553 3.87036 3.84434 3.83099 3.81742 3.80361 3.78957

3.77527 3.76073

5

4.06042 3.77972

3.61948

3.2974

3.12279

6

3.77595

3.28876 3.18076 3.10751 3.05455 3.01446 2.98304 2.95774

2.93693 2.90472 2.87122 2.83634 2.81834 2.79996 2.78117 2.76195

2.74229 2.72216

7

3.58943 3.25744

3.07407 2.96053 2.88334 2.82739 2.78493 2.75158 2.72468

2.70251 2.66811 2.63223 2.59473 2.57533 2.55546

2.51422

2.49279 2.47079

8

3.45792 3.11312

2.9238

2.53804 2.50196 2.46422 2.42464

2.3391

2.31618 2.29257

9

3.3603

3.00645

2.81286 2.69268 2.61061 2.55086 2.50531 2.46941 2.44034

2.41632 2.37888 2.33962 2.29832 2.27683 2.25472 2.23196 2.20849

2.18427 2.15923

10

3.28502 2.92447

2.72767 2.60534 2.52164 2.46058 2.41397 2.37715 2.34731

2.3226

2.28405 2.24351 2.20074 2.17843 2.15543 2.13169 2.10716

2.08176 2.05542

11

3.2252

2.85951

2.66023 2.53619 2.45118 2.38907 2.34157

2.24823 2.20873 2.16709 2.12305 2.10001 2.07621 2.05161 2.02612

1.99965 1.97211

12

3.17655

2.8068

2.60552

2.18776 2.14744 2.10485 2.05968 2.03599 2.01149

1.93228 1.90361

13

3.13621 2.76317

2.56027 2.43371 2.34672 2.28298

14

3.10221 2.72647

2.52222 2.39469 2.30694 2.24256 2.19313

15

3.07319 2.69517

2.48979 2.36143 2.27302 2.20808 2.15818 2.11853 2.08621

2.05932 2.01707 1.97222 1.92431 1.89904 1.87277 1.84539 1.81676

1.78672 1.75505

16

3.04811 2.66817

2.46181 2.33274 2.24376 2.17833

2.08798 2.05533

2.02815 1.98539 1.93992 1.89127 1.86556 1.83879 1.81084 1.78156

1.75075 1.71817

17

3.02623 2.64464

2.43743 2.30775 2.21825 2.15239 2.10169 2.06134 2.02839

2.00094 1.95772 1.91169 1.86236 1.83624 1.80901 1.78053 1.75063

1.71909 1.68564

18

3.00698 2.62395

2.41601 2.28577 2.19583 2.12958 2.07854 2.03789 2.00467

1.97698 1.93334 1.88681 1.83685 1.81035 1.78269 1.75371 1.72322

1.69099 1.65671

19

2.9899

2.39702

1.95573

1.86471 1.81416 1.78731 1.75924 1.72979 1.69876

1.66587 1.63077

20

2.97465 2.58925

1.93674 1.89236 1.84494 1.79384 1.76667 1.73822 1.70833 1.67678

1.64326 1.60738

39.8634 49.5000

53.5932 55.8329

2

8.52632 9.00000

3

3.4633

2.60561

3.5202

57.24

6

7

8

9

58.2044 58.9059 59.4389 59.8575

3.45298 3.40451

3.3679

5.24

3.33928 3.31628

2.80643 2.72645 2.66833 2.62413 2.58935 2.56124

2.4801

2.2663

2.304

2.2735

2.39402 2.33102 2.28278 2.24457 2.21352 2.2341

2.128

2.17596 2.10936 2.05802

2.38009 2.24893 2.15823 2.09132

2.0397

10

12

15

20

60.1949 60.7052 61.2203 61.7402

3.26824 3.23801 3.20665 3.19052 3.17408 3.15732 3.14023

2.4041

2.5351

2.38302 2.36136

1.9861

1.95973

2.19535 2.16382

2.13763 2.09659 2.05316 2.00698 1.98272 1.95757 1.93147 1.90429

2.1539

2.0954

2.0171

2.12195

1.98364

1.99853 1.96485

2.05371 2.00953 1.96245 1.93766 1.91193 1.88516 1.85723

1.9117

Estadística Inferencial

120



24 62.002

1

5

5.1337

3.105

1.87591

1.8462

1.828

1.79728

Página 70 Jorge Luis Bustos Galindo

21

2.96096 2.57457

2.36489 2.23334 2.14231 2.07512 2.02325 1.98186 1.94797

1.91967 1.87497 1.82715 1.77555 1.74807 1.71927 1.68896 1.65691

1.62278 1.58615

22

2.94858 2.56131

2.35117 2.21927 2.12794

1.93273

1.90425 1.85925 1.81106 1.75899 1.73122 1.70208 1.67138 1.63885

1.60415 1.56678

23

2.93736 2.54929

2.33873 2.20651 2.11491 2.04723 1.99492 1.95312 1.91888

1.89025 1.84497 1.79643 1.74392 1.71588 1.68643 1.65535 1.62237

1.58711 1.54903

24

2.92712 2.53833

2.32739 2.19488 2.10303 2.03513 1.98263 1.94066 1.90625

1.87748 1.83194 1.78308 1.73015 1.70185

1.64067 1.60726

1.57146

1.5327

25

2.91774 2.52831

2.31702 2.18424 2.09216 2.02406 1.97138 1.92925 1.89469

1.86578

1.77083 1.71752 1.68898 1.65895 1.62718 1.59335

1.55703

1.5176

26

2.90913

2.30749 2.17447 2.08218 2.01389 1.96104 1.91876 1.88407

1.85503 1.80902 1.75957 1.70589 1.67712 1.64682 1.61472

1.5805

1.54368

1.5036

27

2.90119 2.51061

2.29871 2.16546 2.07298 2.00452 1.95151 1.90909 1.87427

1.84511 1.79889 1.74917 1.69514 1.66616

1.6356

1.6032

1.56859

1.53129 1.49057

28

2.89385 2.50276

2.2906

1.83593 1.78951 1.73954 1.68519

1.62519

1.5925

1.55753

1.51976 1.47841

29

2.88703 2.49548

2.28307 2.14941 2.05658 1.98781 1.93452 1.89184 1.85679

1.82741 1.78081

1.7306

1.67593 1.64655 1.61551 1.58253 1.54721

1.50899 1.46704

30

2.88069 2.48872

2.27607 2.14223 2.04925 1.98033 1.92692 1.88412 1.84896

1.81949

1.72227 1.66731 1.63774 1.60648 1.57323 1.53757

1.49891 1.45636

40

2.83535 2.44037

2.22609 2.09095 1.99682 1.92688 1.87252 1.82886

1.76269 1.71456 1.66241 1.60515 1.57411 1.54108 1.50562 1.46716

1.42476 1.37691

60

2.79107 2.39325

2.17741 2.04099 1.94571 1.87472 1.81939 1.77483 1.73802

1.70701 1.65743 1.60337 1.54349 1.51072 1.47554 1.43734

1.3952

1.34757 1.29146

120

2.74781 2.34734

2.12999

1.9923

1.65238

1.32034

1.26457 1.19256



2.70554 2.30259

2.0838

1.94486 1.84727 1.77411 1.71672

2.5191

2.0605

2.15714 2.06447 1.99585

2.0084

1.9427

1.9668

1.90014

1.8652

1.7929

1.89587 1.82381 1.76748 1.72196 1.68425 1.6702

1.63152

1.82

1.7727

1.6012

1.545

1.59872 1.54578 1.48714

Estadística Inferencial

1.656

1.6721

1.48207 1.44723 1.40938 1.4206

1.3676

1.38318 1.34187 1.29513 1.23995

1.1686

1

Página 71 Jorge Luis Bustos Galindo

Tabla Vi. Distribución F (Continuación)

𝛼 =0.05 superior 𝒏𝟏⁄𝒏𝟐

1

2

3

4

df2=1

161.447

199.5

215.707

224.583

230.161 233.986

236.768 238.882

240.543

241.881 243.906

245.949 248.013

249.051

250.095 251.143

252.195 253.252

254.314

2

18.5128

19

19.1643

19.2468

19.2964 19.3295

19.3532

19.371

19.3848

19.3959 19.4125

19.4291 19.4458

19.4541

19.4624 19.4707

19.4791 19.4874

19.4957

3

10.128

9.5521

9.2766

9.1172

9.0135

8.9406

8.8867

8.8452

8.8123

8.7855

8.7446

8.7029

8.6602

8.6385

8.6166

4

7.7086

6.9443

6.5914

6.3882

6.2561

6.1631

6.0942

6.041

5.9988

5.9644

5.9117

5.8578

5.8025

5.7744

5

6.6079

5.7861

5.4095

5.1922

5.0503

4.9503

4.8759

4.8183

4.7725

4.7351

4.6777

4.6188

4.5581

4.5272

6

5.9874

5.1433

4.7571

4.5337

4.3874

4.2839

4.2067

4.1468

4.099

4.06

3.9999

3.9381

3.8742

7

5.5914

4.7374

4.3468

4.1203

3.9715

3.866

3.787

3.7257

3.6767

3.6365

3.5747

3.5107

8

5.3177

4.459

4.0662

3.8379

3.6875

3.5806

3.5005

3.4381

3.3881

3.3472

3.2839

9

5.1174

4.2565

3.8625

3.6331

3.4817

3.3738

3.2927

3.2296

3.1789

3.1373

3.0729

10

4.9646

4.1028

3.7083

3.478

3.3258

3.2172

3.1355

3.0717

3.0204

2.9782

11

4.8443

3.9823

3.5874

3.3567

3.2039

3.0946

3.0123

2.948

2.8962

12

4.7472

3.8853

3.4903

3.2592

3.1059

2.9961

2.9134

2.8486

13

4.6672

3.8056

3.4105

3.1791

3.0254

2.9153

2.8321

14

4.6001

3.7389

3.3439

3.1122

2.9582

2.8477

15

4.5431

3.6823

3.2874

3.0556

2.9013

16

4.494

3.6337

3.2389

3.0069

17

4.4513

3.5915

3.1968

18

4.4139

3.5546

19

4.3807

20

4.3512

5

6

7

8

9

10

12

15

20

24

30

40

60

120



8.5944

8.572

8.5494

8.5264

5.7459

5.717

5.6877

5.6581

5.6281

4.4957

4.4638

4.4314

4.3985

4.365

3.8415

3.8082

3.7743

3.7398

3.7047

3.6689

3.4445

3.4105

3.3758

3.3404

3.3043

3.2674

3.2298

3.2184

3.1503

3.1152

3.0794

3.0428

3.0053

2.9669

2.9276

3.0061

2.9365

2.9005

2.8637

2.8259

2.7872

2.7475

2.7067

2.913

2.845

2.774

2.7372

2.6996

2.6609

2.6211

2.5801

2.5379

2.8536

2.7876

2.7186

2.6464

2.609

2.5705

2.5309

2.4901

2.448

2.4045

2.7964

2.7534

2.6866

2.6169

2.5436

2.5055

2.4663

2.4259

2.3842

2.341

2.2962

2.7669

2.7144

2.671

2.6037

2.5331

2.4589

2.4202

2.3803

2.3392

2.2966

2.2524

2.2064

2.7642

2.6987

2.6458

2.6022

2.5342

2.463

2.3879

2.3487

2.3082

2.2664

2.2229

2.1778

2.1307

2.7905

2.7066

2.6408

2.5876

2.5437

2.4753

2.4034

2.3275

2.2878

2.2468

2.2043

2.1601

2.1141

2.0658

2.8524

2.7413

2.6572

2.5911

2.5377

2.4935

2.4247

2.3522

2.2756

2.2354

2.1938

2.1507

2.1058

2.0589

2.0096

2.9647

2.81

2.6987

2.6143

2.548

2.4943

2.4499

2.3807

2.3077

2.2304

2.1898

2.1477

2.104

2.0584

2.0107

1.9604

3.1599

2.9277

2.7729

2.6613

2.5767

2.5102

2.4563

2.4117

2.3421

2.2686

2.1906

2.1497

2.1071

2.0629

2.0166

1.9681

1.9168

3.5219

3.1274

2.8951

2.7401

2.6283

2.5435

2.4768

2.4227

2.3779

2.308

2.2341

2.1555

2.1141

2.0712

2.0264

1.9795

1.9302

1.878

3.4928

3.0984

2.8661

2.7109

2.599

2.514

2.4471

2.3928

2.3479

2.2776

2.2033

2.1242

2.0825

2.0391

1.9938

1.9464

1.8963

1.8432

Estadística Inferencial

Página 72 Jorge Luis Bustos Galindo

21

4.3248

3.4668

3.0725

2.8401

2.6848

2.5727

2.4876

2.4205

2.366

2.321

2.2504

2.1757

2.096

2.054

2.0102

1.9645

1.9165

1.8657

1.8117

22

4.3009

3.4434

3.0491

2.8167

2.6613

2.5491

2.4638

2.3965

2.3419

2.2967

2.2258

2.1508

2.0707

2.0283

1.9842

1.938

1.8894

1.838

1.7831

23

4.2793

3.4221

3.028

2.7955

2.64

2.5277

2.4422

2.3748

2.3201

2.2747

2.2036

2.1282

2.0476

2.005

1.9605

1.9139

1.8648

1.8128

1.757

24

4.2597

3.4028

3.0088

2.7763

2.6207

2.5082

2.4226

2.3551

2.3002

2.2547

2.1834

2.1077

2.0267

1.9838

1.939

1.892

1.8424

1.7896

1.733

25

4.2417

3.3852

2.9912

2.7587

2.603

2.4904

2.4047

2.3371

2.2821

2.2365

2.1649

2.0889

2.0075

1.9643

1.9192

1.8718

1.8217

1.7684

1.711

26

4.2252

3.369

2.9752

2.7426

2.5868

2.4741

2.3883

2.3205

2.2655

2.2197

2.1479

2.0716

1.9898

1.9464

1.901

1.8533

1.8027

1.7488

1.6906

27

4.21

3.3541

2.9604

2.7278

2.5719

2.4591

2.3732

2.3053

2.2501

2.2043

2.1323

2.0558

1.9736

1.9299

1.8842

1.8361

1.7851

1.7306

1.6717

28

4.196

3.3404

2.9467

2.7141

2.5581

2.4453

2.3593

2.2913

2.236

2.19

2.1179

2.0411

1.9586

1.9147

1.8687

1.8203

1.7689

1.7138

1.6541

29

4.183

3.3277

2.934

2.7014

2.5454

2.4324

2.3463

2.2783

2.2229

2.1768

2.1045

2.0275

1.9446

1.9005

1.8543

1.8055

1.7537

1.6981

1.6376

30

4.1709

3.3158

2.9223

2.6896

2.5336

2.4205

2.3343

2.2662

2.2107

2.1646

2.0921

2.0148

1.9317

1.8874

1.8409

1.7918

1.7396

1.6835

1.6223

40

4.0847

3.2317

2.8387

2.606

2.4495

2.3359

2.249

2.1802

2.124

2.0772

2.0035

1.9245

1.8389

1.7929

1.7444

1.6928

1.6373

1.5766

1.5089

60

4.0012

3.1504

2.7581

2.5252

2.3683

2.2541

2.1665

2.097

2.0401

1.9926

1.9174

1.8364

1.748

1.7001

1.6491

1.5943

1.5343

1.4673

1.3893

120

3.9201

3.0718

2.6802

2.4472

2.2899

2.175

2.0868

2.0164

1.9588

1.9105

1.8337

1.7505

1.6587

1.6084

1.5543

1.4952

1.429

1.3519

1.2539



3.8415

2.9957

2.6049

2.3719

2.2141

2.0986

2.0096

1.9384

1.8799

1.8307

1.7522

1.6664

1.5705

1.5173

1.4591

1.394

1.318

1.2214

1

Estadística Inferencial

Página 73 Jorge Luis Bustos Galindo

Tabla Vi. Distribución F (Continuación)

𝛼 =0.025superior 𝒏𝟏⁄ 𝒏𝟐

1

2

1

647.789

799.5

864.163 899.583

921.847 937.111

948.216 956.656 963.284

968.627 976.707

984.866 993.102 997.249

1001.41 1005.59

1009.8 1014.02

2

38.5063

39

39.1655 39.2484

39.2982 39.3315

39.3552

39.398

39.4146

39.4313 39.4479 39.4562

39.465

39.473

39.481

39.49

39.498

3

17.4434

16.0441 15.4392

15.101

14.8848 14.7347

14.6244 14.5399 14.4731

14.4189 14.3366

14.2527 14.1674 14.1241

14.081

14.037

13.992

13.947

13.902

4

12.2179

10.6491

9.9792

9.6045

9.3645

9.1973

9.0741

8.9796

8.9047

8.8439

8.7512

8.6565

8.5599

8.5109

8.461

8.411

8.36

8.309

8.257

5

10.007

8.4336

7.7636

7.3879

7.1464

6.9777

6.8531

6.7572

6.6811

6.6192

6.5245

6.4277

6.3286

6.278

6.227

6.175

6.123

6.069

6.015

6

8.8131

7.2599

6.5988

6.2272

5.9876

5.8198

5.6955

5.5996

5.5234

5.4613

5.3662

5.2687

5.1684

5.1172

5.065

5.012

4.959

4.904

4.849

7

8.0727

6.5415

5.8898

5.5226

5.2852

5.1186

4.9949

4.8993

4.8232

4.7611

4.6658

4.5678

4.4667

4.415

4.362

4.309

4.254

4.199

4.142

8

7.5709

6.0595

5.416

5.0526

4.8173

4.6517

4.5286

4.4333

4.3572

4.2951

4.1997

4.1012

3.9995

3.9472

3.894

3.84

3.784

3.728

3.67

9

7.2093

5.7147

5.0781

4.7181

4.4844

4.3197

4.197

4.102

4.026

3.9639

3.8682

3.7694

3.6669

3.6142

3.56

3.505

3.449

3.392

3.333

10

6.9367

5.4564

4.8256

4.4683

4.2361

4.0721

3.9498

3.8549

3.779

3.7168

3.6209

3.5217

3.4185

3.3654

3.311

3.255

3.198

3.14

3.08

11

6.7241

5.2559

4.63

4.2751

4.044

3.8807

3.7586

3.6638

3.5879

3.5257

3.4296

3.3299

3.2261

3.1725

3.118

3.061

3.004

2.944

2.883

12

6.5538

5.0959

4.4742

4.1212

3.8911

3.7283

3.6065

3.5118

3.4358

3.3736

3.2773

3.1772

3.0728

3.0187

2.963

2.906

2.848

2.787

2.725

13

6.4143

4.9653

4.3472

3.9959

3.7667

3.6043

3.4827

3.388

3.312

3.2497

3.1532

3.0527

2.9477

2.8932

2.837

2.78

2.72

2.659

2.595

14

6.2979

4.8567

4.2417

3.8919

3.6634

3.5014

3.3799

3.2853

3.2093

3.1469

3.0502

2.9493

2.8437

2.7888

2.732

2.674

2.614

2.552

2.487

15

6.1995

4.765

4.1528

3.8043

3.5764

3.4147

3.2934

3.1987

3.1227

3.0602

2.9633

2.8621

2.7559

2.7006

2.644

2.585

2.524

2.461

2.395

16

6.1151

4.6867

4.0768

3.7294

3.5021

3.3406

3.2194

3.1248

3.0488

2.9862

2.889

2.7875

2.6808

2.6252

2.568

2.509

2.447

2.383

2.316

17

6.042

4.6189

4.0112

3.6648

3.4379

3.2767

3.1556

3.061

2.9849

2.9222

2.8249

2.723

2.6158

2.5598

2.502

2.442

2.38

2.315

2.247

18

5.9781

4.5597

3.9539

3.6083

3.382

3.2209

3.0999

3.0053

2.9291

2.8664

2.7689

2.6667

2.559

2.5027

2.445

2.384

2.321

2.256

2.187

19

5.9216

4.5075

3.9034

3.5587

3.3327

3.1718

3.0509

2.9563

2.8801

2.8172

2.7196

2.6171

2.5089

2.4523

2.394

2.333

2.27

2.203

2.133

20

5.8715

4.4613

3.8587

3.5147

3.2891

3.1283

3.0074

2.9128

2.8365

2.7737

2.6758

2.5731

2.4645

2.4076

2.349

2.287

2.223

2.156

2.085

3

4

5

6

7

8

39.373

9

39.3869

10

12

Estadística Inferencial

15

20

24

30

40

60

120

∞ 1018.258

Página 74 Jorge Luis Bustos Galindo

21

5.8266

4.4199

3.8188

3.4754

3.2501

3.0895

2.9686

2.874

2.7977

2.7348

2.6368

2.5338

2.4247

2.3675

2.308

2.246

2.182

2.114

2.042

22

5.7863

4.3828

3.7829

3.4401

3.2151

3.0546

2.9338

2.8392

2.7628

2.6998

2.6017

2.4984

2.389

2.3315

2.272

2.21

2.145

2.076

2.003

23

5.7498

4.3492

3.7505

3.4083

3.1835

3.0232

2.9023

2.8077

2.7313

2.6682

2.5699

2.4665

2.3567

2.2989

2.239

2.176

2.111

2.041

1.968

24

5.7166

4.3187

3.7211

3.3794

3.1548

2.9946

2.8738

2.7791

2.7027

2.6396

2.5411

2.4374

2.3273

2.2693

2.209

2.146

2.08

2.01

1.935

25

5.6864

4.2909

3.6943

3.353

3.1287

2.9685

2.8478

2.7531

2.6766

2.6135

2.5149

2.411

2.3005

2.2422

2.182

2.118

2.052

1.981

1.906

26

5.6586

4.2655

3.6697

3.3289

3.1048

2.9447

2.824

2.7293

2.6528

2.5896

2.4908

2.3867

2.2759

2.2174

2.157

2.093

2.026

1.954

1.878

27

5.6331

4.2421

3.6472

3.3067

3.0828

2.9228

2.8021

2.7074

2.6309

2.5676

2.4688

2.3644

2.2533

2.1946

2.133

2.069

2.002

1.93

1.853

28

5.6096

4.2205

3.6264

3.2863

3.0626

2.9027

2.782

2.6872

2.6106

2.5473

2.4484

2.3438

2.2324

2.1735

2.112

2.048

1.98

1.907

1.829

29

5.5878

4.2006

3.6072

3.2674

3.0438

2.884

2.7633

2.6686

2.5919

2.5286

2.4295

2.3248

2.2131

2.154

2.092

2.028

1.959

1.886

1.807

30

5.5675

4.1821

3.5894

3.2499

3.0265

2.8667

2.746

2.6513

2.5746

2.5112

2.412

2.3072

2.1952

2.1359

2.074

2.009

1.94

1.866

1.787

40

5.4239

4.051

3.4633

3.1261

2.9037

2.7444

2.6238

2.5289

2.4519

2.3882

2.2882

2.1819

2.0677

2.0069

1.943

1.875

1.803

1.724

1.637

60

5.2856

3.9253

3.3425

3.0077

2.7863

2.6274

2.5068

2.4117

2.3344

2.2702

2.1692

2.0613

1.9445

1.8817

1.815

1.744

1.667

1.581

1.482

120

5.1523

3.8046

3.2269

2.8943

2.674

2.5154

2.3948

2.2994

2.2217

2.157

2.0548

1.945

1.8249

1.7597

1.69

1.614

1.53

1.433

1.31



5.0239

3.6889

3.1161

2.7858

2.5665

2.4082

2.2875

2.1918

2.1136

2.0483

1.9447

1.8326

1.7085

1.6402

1.566

1.484

1.388

1.268

1

Estadística Inferencial

Página 75 Jorge Luis Bustos Galindo

Tabla Vi. Distribución F (Continuación)

𝛼 =0.01 superior 𝒏𝟏⁄𝒏𝟐

1

2

1

4052.18

4999.5

2

98.503

3

34.116

4 5

3

4

5

6

7

8

9

10

12

15

20

24

30

40

60

120



5403.35 5624.58

5763.65 5858.98

5928.35

5981.07 6022.47

6055.84 6106.32

6157.28

6208.73 6234.63

6260.64 6286.78

6313.03

6339.39 6365.86

99

99.166

99.249

99.299

99.333

99.356

99.374

99.388

99.399

99.416

99.433

99.449

99.458

99.466

99.474

99.482

99.491

99.499

30.817

29.457

28.71

28.237

27.911

27.672

27.489

27.345

27.229

27.052

26.872

26.69

26.598

26.505

26.411

26.316

26.221

26.125

21.198

18

16.694

15.977

15.522

15.207

14.976

14.799

14.659

14.546

14.374

14.198

14.02

13.929

13.838

13.745

13.652

13.558

13.463

16.258

13.274

12.06

11.392

10.967

10.672

10.456

10.289

10.158

10.051

9.888

9.722

9.553

9.466

9.379

9.291

9.202

9.112

9.02

6

13.745

10.925

9.78

9.148

8.746

8.466

8.26

8.102

7.976

7.874

7.718

7.559

7.396

7.313

7.229

7.143

7.057

6.969

6.88

7

12.246

9.547

8.451

7.847

7.46

7.191

6.993

6.84

6.719

6.62

6.469

6.314

6.155

6.074

5.992

5.908

5.824

5.737

5.65

8

11.259

8.649

7.591

7.006

6.632

6.371

6.178

6.029

5.911

5.814

5.667

5.515

5.359

5.279

5.198

5.116

5.032

4.946

4.859

9

10.561

8.022

6.992

6.422

6.057

5.802

5.613

5.467

5.351

5.257

5.111

4.962

4.808

4.729

4.649

4.567

4.483

4.398

4.311

10

10.044

7.559

6.552

5.994

5.636

5.386

5.2

5.057

4.942

4.849

4.706

4.558

4.405

4.327

4.247

4.165

4.082

3.996

3.909

11

9.646

7.206

6.217

5.668

5.316

5.069

4.886

4.744

4.632

4.539

4.397

4.251

4.099

4.021

3.941

3.86

3.776

3.69

3.602

12

9.33

6.927

5.953

5.412

5.064

4.821

4.64

4.499

4.388

4.296

4.155

4.01

3.858

3.78

3.701

3.619

3.535

3.449

3.361

13

9.074

6.701

5.739

5.205

4.862

4.62

4.441

4.302

4.191

4.1

3.96

3.815

3.665

3.587

3.507

3.425

3.341

3.255

3.165

14

8.862

6.515

5.564

5.035

4.695

4.456

4.278

4.14

4.03

3.939

3.8

3.656

3.505

3.427

3.348

3.266

3.181

3.094

3.004

15

8.683

6.359

5.417

4.893

4.556

4.318

4.142

4.004

3.895

3.805

3.666

3.522

3.372

3.294

3.214

3.132

3.047

2.959

2.868

16

8.531

6.226

5.292

4.773

4.437

4.202

4.026

3.89

3.78

3.691

3.553

3.409

3.259

3.181

3.101

3.018

2.933

2.845

2.753

17

8.4

6.112

5.185

4.669

4.336

4.102

3.927

3.791

3.682

3.593

3.455

3.312

3.162

3.084

3.003

2.92

2.835

2.746

2.653

18

8.285

6.013

5.092

4.579

4.248

4.015

3.841

3.705

3.597

3.508

3.371

3.227

3.077

2.999

2.919

2.835

2.749

2.66

2.566

19

8.185

5.926

5.01

4.5

4.171

3.939

3.765

3.631

3.523

3.434

3.297

3.153

3.003

2.925

2.844

2.761

2.674

2.584

2.489

20

8.096

5.849

4.938

4.431

4.103

3.871

3.699

3.564

3.457

3.368

3.231

3.088

2.938

2.859

2.778

2.695

2.608

2.517

2.421

Estadística Inferencial

Página 76 Jorge Luis Bustos Galindo

21

8.017

5.78

4.874

4.369

4.042

3.812

3.64

3.506

3.398

3.31

3.173

3.03

2.88

2.801

2.72

2.636

2.548

2.457

2.36

22

7.945

5.719

4.817

4.313

3.988

3.758

3.587

3.453

3.346

3.258

3.121

2.978

2.827

2.749

2.667

2.583

2.495

2.403

2.305

23

7.881

5.664

4.765

4.264

3.939

3.71

3.539

3.406

3.299

3.211

3.074

2.931

2.781

2.702

2.62

2.535

2.447

2.354

2.256

24

7.823

5.614

4.718

4.218

3.895

3.667

3.496

3.363

3.256

3.168

3.032

2.889

2.738

2.659

2.577

2.492

2.403

2.31

2.211

25

7.77

5.568

4.675

4.177

3.855

3.627

3.457

3.324

3.217

3.129

2.993

2.85

2.699

2.62

2.538

2.453

2.364

2.27

2.169

26

7.721

5.526

4.637

4.14

3.818

3.591

3.421

3.288

3.182

3.094

2.958

2.815

2.664

2.585

2.503

2.417

2.327

2.233

2.131

27

7.677

5.488

4.601

4.106

3.785

3.558

3.388

3.256

3.149

3.062

2.926

2.783

2.632

2.552

2.47

2.384

2.294

2.198

2.097

28

7.636

5.453

4.568

4.074

3.754

3.528

3.358

3.226

3.12

3.032

2.896

2.753

2.602

2.522

2.44

2.354

2.263

2.167

2.064

29

7.598

5.42

4.538

4.045

3.725

3.499

3.33

3.198

3.092

3.005

2.868

2.726

2.574

2.495

2.412

2.325

2.234

2.138

2.034

30

7.562

5.39

4.51

4.018

3.699

3.473

3.304

3.173

3.067

2.979

2.843

2.7

2.549

2.469

2.386

2.299

2.208

2.111

2.006

40

7.314

5.179

4.313

3.828

3.514

3.291

3.124

2.993

2.888

2.801

2.665

2.522

2.369

2.288

2.203

2.114

2.019

1.917

1.805

60

7.077

4.977

4.126

3.649

3.339

3.119

2.953

2.823

2.718

2.632

2.496

2.352

2.198

2.115

2.028

1.936

1.836

1.726

1.601

120

6.851

4.787

3.949

3.48

3.174

2.956

2.792

2.663

2.559

2.472

2.336

2.192

2.035

1.95

1.86

1.763

1.656

1.533

1.381



6.635

4.605

3.782

3.319

3.017

2.802

2.639

2.511

2.407

2.321

2.185

2.039

1.878

1.791

1.696

1.592

1.473

1.325

1

Estadística Inferencial

Página 77 Jorge Luis Bustos Galindo

FUENTES DE INFORMACION  TEXTO BÁSICO Estadística para las ciencias Administrativas, Lincoln, L. Chao. Editorial MC GRAWH HILL. Tercera edición.

 FUENTES DE INTERNET http://es.wikipedia.org/wiki/Probabilidad http://www.slideshare.net/milit/muestreo-aleatorio-simple http://es.wikipedia.org/wiki/Muestreo_en_estad%C3%ADstica http://es.wikipedia.org/wiki/Contraste_de_hip%C3%B3te si s

Estadística Inferencial

Página 78 Jorge Luis Bustos Galindo