Capitulo I

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigac

Views 370 Downloads 4 File size 737KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo I PRUEBAS NO PARAMÉTRICAS: APLICACIONES DE LA DISTRIBUCIÓN CHI-CUADRADO Introducción Para el análisis de datos mediante estadística inferencial existen dos tipos de pruebas estadísticas: las paramétricas y las no paramétricas. Las pruebas paramétricas son aquellas que requieren el cumplimiento de ciertos supuestos con respecto a las observaciones que se utilizarán en el análisis como: la aleatoriedad en su selección, el ajuste a una distribución teórica conocida (por ejemplo a la distribución normal). El supuesto de normalidad, es quizás el requisito más importante que debe ser verificado antes de proceder a desarrollar algunas pruebas paramétricas correspondientes a la estadística clásica, pues su no cumplimiento implicaría la invalidez de los resultados. Las pruebas no paramétricas o de libre distribución, no exigen que el conjunto de datos provenga de una distribución teórica conocida. Es decir, pueden ser usadas, en muchos casos, como métodos alternativos a las pruebas paramétricas. A pesar de esto, las pruebas paramétricas son las que mayormente son utilizadas por los investigadores, debido a su mayor difusión. Verificar si las observaciones provienen de una distribución teórica puede hacerse mediante algún procedimiento estadístico descriptivo (como el histograma de frecuencias) o a través de un procedimiento inferencial (como la prueba de Anderson-Darling, la que se desarrollará más adelante). Utilizar un método descriptivo en muchas situaciones podría crear cierta ambigüedad en la toma de decisión sobre la forma de la distribución del conjunto de datos. Por este motivo, en esta situación, un procedimiento inferencial sería lo más recomendable. Otro método inferencial para la verificar si un conjunto de datos se ajusta a una distribución teórica es la Prueba de Bondad de Ajuste (introducida por Karl Pearson) cuyo estadístico de prueba se puede ajustar a una distribución Chi Cuadrado. Esta prueba consiste en comparar el patrón de las frecuencias de observaciones de los datos muestrales organizados en categorías con el patrón esperado de frecuencias basado en una hipótesis nula en particular. Esa no es la única utilidad de la distribución Chi Cuadrado, debido a que también se utiliza para analizar las frecuencias en tablas de doble entrada (o tablas de contingencia) o para verificar el cumplimiento del supuesto de homogeneidad de varianzas, requisito exigido en los Diseños Experimentales. En resumen la distribución Chi Cuadrado pueden ser utilizada para diferentes propósitos. Entre las principales pruebas y su respectivo uso tenemos: 1. Pruebas de Bondad de Ajuste, para verificar si un conjunto de datos se ajusta o no una distribución teórica establecida. 2. Pruebas con Tablas de Contingencia, para analizar la independencia de dos variables cualitativas u homogeneidad de subpoblaciones 3. Prueba de Homogeneidad de Variancias (Prueba de Barttlet), para verificar la homogeneidad de varianzas de dos o más conjuntos de datos.

MS Jaime Carlos Porras Cerrón [email protected]

1

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I El presente capítulo tiene como objetivo presentar el desarrollo de las Aplicaciones cuyo estadístico de prueba se ajusta a una distribución Chi Cuadrado así como indicar la utilidad de cada una de ellas. 1. Pruebas de Bondad de Ajuste Un investigador luego de recolectar una muestra (a la cual se le observó o midió ciertas características o variables) podría tener interés en saber a que distribución teórica se puede ajustar cada una de las variables que analizó, con el fin, en muchos casos, de aplicar posteriormente otros procedimientos estadísticos más sofisticados. Por ejemplo:  Cuando se analiza la variable número de insectos muertos por m 2 luego de aplicar un insecticida en un campo experimental, se quiere saber si esta variable se ajuste a una distribución de Poisson.  Cuando se quiere determinar si la gestión de un personaje político está distribuido de la siguiente manera: muy buena en un 10%, regular en un 20% y pésima en un 70%. Para poder aplicar adecuadamente esta prueba se debe contar con una tabla de frecuencias de una variable cualitativa o cuantitativa, de la siguiente manera: N°

Valor de la variable o nombre de la categoría

Frecuencia observadas  oi 

1

A1

o1

2

A2

o2

k

Ak Total

ok n

La i–ésima frecuencia observada  oi  indica el número de veces que se repite la categoría (o el valor de la variable) en la muestra de tamaño n. En otras palabras, oi representa la frecuencia absoluta  fi  , de tal manera que se debe cumplir que: k

Oi

n

i 1

Esta prueba se aplica cuando se desea verificar si al menos una de las frecuencias observadas  oi  perteneciente a la i-ésima categoría o valor de la variable (mutuamente excluyentes) difiere significativamente de su respectiva frecuencia teórica o frecuencia esperada  ei  . Cada frecuencia esperada

 ei 

se obtiene multiplicando el tamaño de la

muestra n por la probabilidad teórica correspondiente  i  : MS Jaime Carlos Porras Cerrón [email protected]

2

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I ei npi En algunas pruebas de bondad de ajuste, las probabilidades teóricas o hipotéticas  i  son establecidas por el investigador, mientras que en otras pruebas deben ser estimadas a partir de la distribución teórica formulada en la hipótesis nula. De tal manera que se debe cumplir que: k

pi

1

i 1

Este valor esperado representa el número de observaciones pertenecientes a la i-ésima categoría (o valor de la variable), que cabe esperar se obtenga en la muestra, si la distribución de probabilidad de la población es la que se formula en la hipótesis nula. k

A partir de la expresión anterior es fácil deducir que:

ei

n

i 1

Prueba Estadística Debido a las fluctuaciones aleatorias en el proceso de muestreo es razonable que las frecuencias observadas  oi  y las frecuencias esperadas  ei  no coincidan. La hipótesis nula afirma que la discrepancia entre dichas frecuencias no es muy grande. Como medida de discrepancia, entre las frecuencias esperadas y observadas, Pearson propuso el siguiente estadístico:

c

k

2 c i 1

oi

ei ei

2

~ c(12

a , k m 1)

En la expresión cada diferencia oi ei aparece elevada al cuadrado para evitar que signos contrarios compensen la medida global, pues el interés se centra en la cuantía de la desviación y no en su dirección o signo. La diferencia se pondera por el inverso de la frecuencia esperada, puesto que una discrepancia grande podría llevar a rechazar el modelo de probabilidad recogido en la hipótesis nula aunque la i-ésima categoría o valor de la variable sea de probabilidad no muy grande. Región Crítica Valores elevados del estadístico 2 evidencian discrepancias relevantes entre las frecuencias observadas  oi  y las esperadas  ei  , por lo que deberá rechazarse la hipótesis nula de que dicha muestra procede de una población con probabilidades teóricas  i . Por lo tanto si cc2 c(12 a ,k 1) se rechaza H0. El percentil c(12 a ,k m 1) o valor crítico es determinado por el complemento del nivel de significación asignado (es decir, 1-α) y el número de grados de libertad es el número de categorías o valores de la variable en que se dividen los datos en la tabla de frecuencia (k) (gl = k – m –1) menos el número de parámetro estimados a partir de la muestra (m) menos una unidad. El número de parámetros estimados a partir de la muestra (m) son utilizados para calcular los  i y dependen de la distribución teórica propuesta en las hipótesis y si estos son conocidos o desconocidos. MS Jaime Carlos Porras Cerrón [email protected]

3

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I En resumen las pruebas de bondad de ajuste tienen como objetivo verificar si un conjunto de datos se ajusta a una distribución teórica preestablecida por el investigador. Si bien es cierto que mediante este tipo de prueba se puede verificar si un conjunto de datos presenta cualquier distribución teórica, en el presente curso solo se realizarán los siguientes ajustes:  Ajuste a la Distribución Multinomial conocida también como prueba de frecuencia o de proporciones  Ajuste a la Distribución Binomial y  Ajuste a la Distribución de Poisson. Observaciones: a. Dado que la distribución del estadístico c 2 es asintótica se utiliza, comúnmente, como regla de aproximación aceptable que los valores esperados deban ser superiores a 5. Si esto no sucede se deben agrupar las clases que tienen esperado menor a 5 con aquella clase más cercana y más pequeña hasta lograr el cumplimiento de esta regla. Este reagrupamiento produce a su vez una reducción de los grados de libertad de la distribución del estadístico c 2 , al unirse algunas categorías o valores de la variable X. b. Si se tiene un solo grado de libertad para el valor crítico o el tamaño de la muestra es pequeña (n50), se puede hacer uso de la Corrección de Yates, el cual hace un ajuste al estadístico c 2 k

  2 c

i 1

o

i

 ei  0.5

2

ei

~  (21 ,k m1)

1.1 Ajuste a la Distribución Multinomial o Prueba de Frecuencia En esta prueba las probabilidades teóricas o hipotéticas  i  son establecidas por el investigador. Por ejemplo, en una investigación la hipótesis nula podría ser que en una ciudad el 60% de personas prefieren la marca Toyota, el 30% la marca Nissan y el 10% la marca Volkswagen, mientras que la hipótesis alterna seria al menos una de las proporciones es diferente a las especificadas. Como los valores  i son conocidos, el número de parámetros a estimar a partir de la muestra m es igual a cero, con lo cual los grados de libertad en el valor crítico es igual a k -1. Procedimiento: 1) Planteamiento de la hipótesis. H0: Las categorías están distribuidas según las proporciones especificadas H1: Al menos una de las proporciones es diferente a las especificadas 2) Nivel de Significación (). 3) Prueba Estadística MS Jaime Carlos Porras Cerrón [email protected]

4

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I k

oi  ei 2

i 1

ei

  2 c

~  (21 ,k 1)

4) Desarrollo de la prueba 5) Criterios de decisión. 0.10

0.08

0.06

0.04

No se rechaza H0 si: 2cal  2crit Se rechaza H0 si: 2cal  2crit

0.02

0.00

0

Chi Critico

6) Conclusión Ejemplo de Aplicación En una fábrica se cuenta con tres máquinas que producen el mismo producto. El jefe de producción desea determinar si las máquinas están produciendo en diferentes proporciones. Para despejar sus dudas selecciona al azar 135 artículos de la última semana de producción y los clasifica según la máquina que lo ha producido. A continuación se presenta la tabla de frecuencia de las cantidades producidas por cada máquina: Máquina A 43

Máquina B 53

Máquina C 39

Use nivel de significación 5% para probar si la cantidad producida no es la misma en las 3 máquinas. Solución: 1) Planteamiento de la hipótesis. H0: Las 3 máquinas producen en igual proporción. H1: Las 3 máquinas no producen en igual proporción. 2) =0,05 3) Prueba Estadística.

c

k

2 c i 1

oi

ei ei

2 2 ~ c(0.95, k

1)

MS Jaime Carlos Porras Cerrón [email protected]

5

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I 4) Desarrollo de la Prueba A continuación se muestra la tabla que contiene las frecuencias observadas, las frecuencias esperadas entre otros valores que se requieren para esta prueba. ei npi oi i Máquina (oi-ei)2/ei A B C Total

43 53 39 135

1/3 1/3 1/3 1

45 45 45 135

0,08888889 1,42222222 0,8 2.31111111

Observe que las probabilidades para cada máquina deben ser las mismas, pues debe tenerse igual frecuencia teórica en el supuesto de que la producción es la misma para cada máquina.

c

3

2 c

oi

ei

2

ei

i 1

2.3111

5) Criterios de decisión No se rechaza H0 si: 2c  5,9915 Se rechaza H0 si: 2c  5,9915

Chi-Square, df=2 0.5

0.4

0.3

0.2

0.1

0.0

0.05 0

X

5.99

6) Conclusión. A un nivel de significación del 5% no se puede afirmar que las 3 máquinas no producen en igual proporción. 1.2 Ajuste a la Distribución Binomial En esta prueba, las probabilidades teóricas  i  que serán utilizadas para calcular las frecuencias esperadas deben ser estimadas a partir de la distribución Binomial

 r  x rx   p (1  p) P( X  x)   x   0 

x  0,1, 2 , r .

c.c.

MS Jaime Carlos Porras Cerrón [email protected]

6

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I Recordemos que la distribución Binomial tiene dos parámetros r y p y detonamos que una variable se ajusta a una distribución Binomial como X~B(r,p). El valor de r siempre es conocido debido a que es el número de veces que se realiza el experimento o ensayo de Bernoulli, mientras el valor de p (probabilidad de éxito) puede ser conocido o desconocido. Si es desconocido debe ser estimado utilizando la muestra a partir del valor esperado de la distribución Binomial E ( X ) rp , de tal manera que: E X p r El valor esperado en una tabla de frecuencia para una variable discreta puede ser estimado mediante: k

xi oi E( X )

i 1

n Por lo tanto, cuando se tiene que estimar el parámetro p a partir de la muestra, m es igual a uno, con lo cual los grados de libertad en el valor crítico es igual a k – 1 – 1 = k – 2; caso contrario cuando el parámetro p es conocido m seria igual a cero, con lo cual los grados de libertad en el valor crítico es igual a k – 0 – 1 = k – 1. Procedimiento: 1) Planteamiento de la hipótesis. H0: Los datos provenientes de la variable en estudio "X" se ajusta a una distribución teórica Binomial. H1: Los datos provenientes de la variable en estudio "X" no se ajusta a una distribución teórica Binomial. 2) Nivel de Significación () 3) Prueba Estadística.

2  oi  ei    ~  (21 ,k m1) k

2 c

i 1

ei

Donde: oi: frecuencia observada para el valor i de la variable X. ei: frecuencia esperada para el valor i de la variable X. 4) Desarrollo de la prueba 5) Criterios de decisión 0.10

0.08

0.06

0.04

No se rechaza H0 si: 2cal  2crit Se rechaza H0 si: 2cal  2crit

0.02

0.00

0

Chi Critico

MS Jaime Carlos Porras Cerrón [email protected]

7

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I 6) Conclusión. Ejemplo de Aplicación Con el fin de realizar afiliaciones a un seguro médico, un vendedor de pólizas de seguros hace cuatro llamadas diarias. Una muestra de 210 días da como resultado las frecuencias del número de ventas realizadas que son resumidas en la siguiente tabla de frecuencia: Número de ventas realizadas 0 1 2 3 4

Número de días 50 75 65 15 5

Se desea verificar si el número de ventas realizadas diariamente sigue una distribución Binomial a un nivel de significación del 5%. Solución: Procedimiento: 1) Planteamiento de la hipótesis. H0: Los datos provenientes del número de ventas realizadas por el vendedor de seguros se ajustan a una distribución Binomial. H1: Los datos provenientes del número de ventas realizadas por el vendedor de seguros no se ajustan a una distribución Binomial. 2) =0,05 3) Prueba Estadística.

2  oi  ei    ~  (21 ,k m1) k

2 c

i 1

ei

4) Desarrollo de la Prueba Estimamos la media de la población suponiendo que la hipótesis nula es verdadera. Número de ventas (X) 0 1 2 3 4 Total

Número de días ( oi )

xi oi

50 75 65 15 5 210

0 75 130 45 20 270

270 1, 2857143  1.2857143  p   0.3214286 210 4 MS Jaime Carlos Porras Cerrón [email protected]

E ( X )  rp 

8

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I Esta probabilidad de éxito será utiliza para calcular las probabilidades teóricas que a la vez servirán para calcular las frecuencias esperadas:  4 1  P  X  0     0.3210 (1  0.321)40  0.212 0

 4

 5  P  X  4     0.3214 (1  0.321)44  0.011 4

  Número de ventas (X)

Número de días ( oi )

0 1 2 3 4 Total

50 75 65 15 5 210

i

ei

0.212023 44.5247586 0.401727 84.3627004 0.285438 59.9419187 0.090138 18.929027 0.010674 2.2415953 1,000000 210

La frecuencia observada de la última clase es menor que cinco. Número de días Número de ei npi i ( oi ) ventas (X) 0 1 2 3y4 Total

50 75 65 20 210 4

c

2 c i 1

oi

0.212023 0.401727 0.285438 0.1008125

ei ei

npi

44.5247586 84.3627004 59.9419187 21.1706223 210

(oi-ei)2/ei 0.673294359 1.039086694 0.426816269 0.064729155 2.203926477

2

2.2039

5) Criterios de decisión. Tenemos 4-1-1 = 2 grados de libertad para la estadística de prueba Chicuadrado No se rechaza H0 si: 2c  5,9915 Se rechaza H0 si: 2c  5,9915

Chi-Square, df=2 0.5

0.4

0.3

0.2

0.1

0.0

0.05 0

X

5.99

6) Conclusión. A un nivel de significación del 5% no podemos afirmar que la variable número de ventas realizadas no sigue una distribución Binomial. MS Jaime Carlos Porras Cerrón [email protected]

9

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I 1.3 Ajuste a la Distribución de Poisson En esta prueba las probabilidades teóricas  i  , que serán utilizadas para calcular las frecuencias esperadas deben ser estimadas a partir de la distribución de Poisson

 e     x  P( X  x)   x !  0 

x  0,1, 2... .

c.c.

Recordemos que la distribución de Poisson tiene un parámetro l y detonamos que una variable se ajusta a una distribución de Poisson como X~P(). El valor de l puede ser conocido o desconocido. Si es desconocido debe ser estimado utilizando la muestra a partir del valor esperado de la distribución de Poisson E ( X ) l . Por lo tanto, cuando se tiene que estimar el parámetro l a partir de la muestra m es igual a uno, con lo cual los grados de libertad en el valor crítico es igual a k – 1 – 1 = k – 2; caso contrario cuando el parámetro l es conocido m seria igual a cero, con lo cual los grados de libertad en el valor crítico es igual a k – 0 – 1 = k – 1. Procedimiento: 1) Planteamiento de la hipótesis. H0: Los datos provenientes de la variable en estudio "X" se ajusta a una Distribución Poisson. H1: Los datos provenientes de la variable en estudio "X" no se ajusta a una Distribución Poisson. 2) Nivel de Significación () 3) Prueba Estadística.

2  oi  ei    ~  (21 ,k m1) k

2 c

i 1

ei

Donde: oi: frecuencia observada para el valor i de la variable X. ei: frecuencia esperada para el valor i de la variable X. 4) Desarrollo de la prueba 5) Criterios de decisión

MS Jaime Carlos Porras Cerrón [email protected]

10

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I 0.10

0.08

0.06

0.04

No se rechaza H0 si: 2cal  2crit Se rechaza H0 si: 2cal  2crit

0.02

0.00

6)

0

Chi Critico

Conclusión. Ejemplo de Aplicación: Se cree que el número de accidentes automovilísticos diarios en un cruce de dos avenidas de determinada ciudad tiene una distribución de Poisson. En una muestra de 80 días del año pasado se obtuvieron los datos de la tabla adjunta. ¿Apoyan estos datos la hipótesis de que el número diario de accidentes tiene una distribución de Poisson? Use nivel de significación 0.05. N° accidentes

oi 34 25 11 7 3

0 1 2 3 4

Solución: Procedimiento: 1) Planteamiento de la hipótesis. H0: Los datos provenientes del número de accidentes automovilísticos en el cruce de las avenidas de interés sigue una distribución de Poisson. H1: Los datos provenientes del número de accidentes automovilísticos en el cruce de las avenidas de interés no sigue una distribución de Poisson. 2) =0.05 3) Prueba Estadística.

2  oi  ei    ~  (21 ,k m1) k

2 c

i 1

ei

4) Desarrollo de la Prueba Calculando la media (un parámetro a estimar) N° accidentes (xi)

oi 0 34 1 25 2 11 3 7 4 3 80 MS Jaime Carlos Porras Cerrón [email protected]

xi oi 0 25 22 21 12 80 11

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I k

xo

i i

80 1 n 80 A continuación tenemos otros cálculos que nos permiten realizar la prueba y obtener los grados de libertad de la estadística de prueba.



i 1



e1 1 1  P  X  0    0.3679 0! 0

 5  P  X  4  1  P  X  4  1  P  X  3  1  0.081  0.019 i

N° accidentes

ei npi 0 0.3679 29.43 1 0.3679 29.43 2 0.1839 14.72 3 0.0613 4.91 4 o mas 0.0190 1.52 1.0000 80.00 Observe que las dos últimas clases tienen frecuencias menores a cinco Tenemos la siguiente tabla que resulta de unir las tres últimas clases. N° accidentes (x) 0 1 2 3 o más

ei

oi 34 25 11 10 80

c

npi

29.43 29.43 14.72 6.42 80

3

oi

2 c i 1

ei ei

(oi-ei)2/ei 0.7096 0.6668 0.9401 1.9963 4.3129

2

4.3129

5) Criterios de decisión. Los g.l. para la distribución Chi- cuadrado de la prueba son: k – m - 1 = 4 – 1 - 1 = 2 grados de libertad. No se rechaza H0 si: 2c 5,9915 Se rechaza H0 si: 2c  5,9915

Chi-Square, df=2 0.5

0.4

0.3

0.2

0.1

0.0

0.05 0

X

5.99

6) Conclusión. A un nivel de significación del 5% no podemos afirmar que la variable número de accidentes automovilísticos en el cruce de las avenidas de interés no sigue una distribución Poisson. 12 MS Jaime Carlos Porras Cerrón [email protected]

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I Ejercicios Propuestos 1. En un estudio para determinar la opinión de los televidentes sobre un nuevo programa humorístico se tomó una muestra aleatoria de 400 personas, obteniéndose los siguientes resultados: Opinión

muy bueno Frecuencia 25

bueno 60

regular

malo

175

muy malo 20

120

total 400

Probar si la opinión de los televidentes respecto al nuevo programa humorístico no se distribuye en la proporción: 2:4:6:5:3. Use  = 0.01 2. A continuación se presenta la información del número de automóviles que llegaron a una estación de servicios durante 80 intervalos no superpuestos de 5 minutos cada uno, los cuales fueron seleccionados aleatoriamente  de automóviles  de intervalos

0 10

1 18

2 12

3 17

4 o mas 23

¿El número de automóviles que llegan a la estación de servicio en un intervalo dado no se ajusta a una distribución de Poisson con  = 2 . Use  = 0.05. 3. Durante las primeras 13 semanas de la temporada de televisión, se registraron las audiencias de sábado por la noche, de 8:00 p.m. a 9:00 pm. Como sigue: ABC 29%, CBS 28%, NBC 25% y otros 18%. Dos semanas después, una muestra de 300 hogares seleccionados aleatoriamente arrojó los siguientes resultados de audiencia: ABC 95 hogares, CBS 70 hogares, NBC 89 hogares y otros 46 hogares. Pruebe, con nivel de significación 0.05, si han cambiado las proporciones de telespectadores. 4. Suponga que el número de llamadas telefónicas que entran al conmutador de una empresa durante intervalos de un minuto tiene una distribución de Poisson. Los resultados obtenidos de analizar una muestra aleatoria de 100 intervalos de un minuto de duración son los siguientes: N° llamadas que entran c/min., X Frecuencia observada

0 15

1 31

2 20

3 15

4 13

5 4

6 2

Use nivel de significación 0,10 y los siguientes datos para probar la hipótesis de que las llamadas que entran no tiene distribución de Poisson. 5. Suponga que los investigadores desean determinar si el patrón de distribución del ingreso familiar en el Perú, ha cambiado significativamente durante los últimos cinco años. Se sabe que hace cinco años la distribución del ingreso familiar para las distintas clases de ingreso era la siguiente:

MS Jaime Carlos Porras Cerrón [email protected]

13

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I % de todas las familias en la Clase de Ingreso ($) clase (1) menos de 3000 9 (2) de 3000 a menos de 5000 11 (3) de 5000 a menos de 7000 12 (4) de 7000 a menos de 10000 22 (5) de 10000 a menos de 15000 27 (6) de 15000 a menos de 25000 15 (7) de 25000 a mas 4 TOTAL 100 Se elige una muestra aleatoria de 1000 familias y se obtiene la siguiente distribución: Clase de Ingreso ($) 1 2 3 4 5 6 7 Número de familias 70 100 110 200 300 170 50 Con  = 0,05, ¿el patrón actual de distribución del ingreso familiar es significativamente distinto al de hace cinco años? 6. Durante un periodo fijo se observó la cantidad de accidentes que sufrieron los operarios de máquinas en cierta industria; los resultados que se obtuvieron se muestran en la siguiente tabla: Accidente por operario 0 1 2 3 4 5 6 7 8 # de operarios 296 74 26 8 4 4 1 0 1 Realice una prueba, con un nivel de significación de 5%, de la hipótesis que afirma que los datos no provienen de una distribución de Poisson con promedio 2 accidentes. 7. Un vendedor hace cuatro llamadas diarias. Una muestra aleatoria de 100 días da como resultado las frecuencias de ventas que vemos a continuación: Número de ventas 0 1 2 3 4 Número de días 30 32 25 10 3 En los registros históricos se observa que las ventas se hicieron en 30% de todas las llamadas. Suponga que las llamadas son independientes, ¿el número de ventas por día sigue una distribución binomial? Use un nivel de significaron del 1%. 2. Pruebas con Tablas de Contingencia Tablas de Contingencia fxc Es un cuadro de doble entrada en el cual se recoge la frecuencia conjunta de los datos de una o varias muestras aleatorias. Estas frecuencias son clasificadas de acuerdo a las clases ó categorías de una variable A y a las clases ó categorías de una variable B. Sea "A" una característica con sus categorías a1, a2, ,ac y "B" una característica con sus categorías b1, b2,..., bf

MS Jaime Carlos Porras Cerrón [email protected]

14

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I

a1 o11 o21

b1 b2  bf

Carac. B

Característica A a2 … ac o12 … o1c o22 … o2c

of1 n.1

Total



of2 n.2

Total n1. n2.

ofc n.c

nr. n..

Donde: i = 1, 2, ...., f "filas" j = 1, 2, ...., c "columnas" f

f

c

ni .

oij

ni .

j 1

c

n..

oij

oij i 1 j 1

i 1

A los totales de filas y columnas se les conoce como totales marginales. La ij–ésima frecuencia observada  oij  indica el número de veces que se repite un elemento en las categorías i y j a la vez. Esta prueba se aplica cuando se desea verificar si al menos una de las frecuencias observadas  oij  perteneciente a la ij-ésima categoría (mutuamente excluyentes) difiere significativamente de su respectiva frecuencia teórica o frecuencia esperada  eij  . Las frecuencias esperadas  eij  se calculadas de la siguiente manera:

e

ij

np ..

ij

 eij

npp ..

i.



.j





 eij  n..  ni.   n. j   e  ni. n. j ij     n..   n.. 

n

..

Prueba Estadística Como medida de discrepancia, entre las frecuencias esperadas y observadas, Pearson propuso el siguiente estadístico: f

cc2

c

i 1 j 1

oij

eij eij

2

~ c21

a ,( f 1) c 1

Región Crítica Valores elevados del estadístico 2 evidencian discrepancias relevantes entre las frecuencias observadas  oij  y las esperadas  eij  , por lo que deberá rechazarse la hipótesis nula de que dicha muestra procede de una población con probabilidades teóricas  i . Por lo tanto si cc2 c21 a ,( f 1) c 1 se rechaza H0.

MS Jaime Carlos Porras Cerrón [email protected]

15

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I A pesar que se puede realizar diferente tipos de inferencia usando tablas de contingencia en el curso solo se desarrollará las siguientes pruebas:  Prueba de Independencia  Prueba de Homogeneidad de Subpoblaciones Observaciones: Si se tiene un solo grado de libertad para el valor critico, el tamaño de la muestra es pequeño (n50) o existe un valor esperado menor a 5, se puede hacer uso de la Corrección de Yates, el cual hace un ajuste al estadístico c 2 2 f

cc2

c

i 1 j 1

oij

eij eij

0.5

~ c21

a, f 1 c 1

Diferencias entre la prueba de independencia y de homogeneidad 1) La prueba de Independencia se usan para probar si una característica es independiente de otra, mientras que la prueba de Homogeneidad de subpoblaciones se usan para probar si una característica se distribuye homogéneamente en 2 ó más subpoblaciones, ó también si diferentes muestras proceden de la misma población. 2) La prueba de independencia supone una sola muestra tomada de una sola población, mientras que la prueba de Homogeneidad de subpoblaciones supone 2 ó más muestras independientes. 3) En la prueba de Independencia las frecuencias marginales de filas y columnas son valores aleatorios, en la prueba de Homogeneidad de subpoblaciones una de las frecuencias marginales (filas ó columnas) son valores fijados porque son los tamaños de muestra. 2.1 Prueba de Independencia Estas pruebas se aplican cuando los datos de una muestra aleatoria son clasificados de acuerdo a dos características (variables) y lo que se desea es probar si las características utilizadas como criterios de clasificación son independientes entre sí ó si existe alguna relación entre ellas. En una prueba de independencia los totales marginales de filas y columnas son aleatorios.

Procedimiento 1) Planteamiento de la Hipótesis H0: Las características "A" y "B" son independientes (no están relacionadas) entre si. H1: Las características "A" y "B" no son independientes (si están relacionadas). 2) Nivel de Significación () MS Jaime Carlos Porras Cerrón [email protected]

16

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I 3) Prueba Estadística f

c

 c2  

o

ij  eij 

i 1 j 1

2

~  21 , f 1 c 1 

eij



4) Desarrollo de la prueba 5) Criterios de Decisión: 0.10

0.08

0.06

0.04

No se rechaza H0 si: 2cal  2crit Se rechaza H0 si: 2cal  2crit

0.02

0.00

0

Chi Critico

6) Conclusiones. Ejemplo de aplicación El jefe de una planta industrial desea determinar si existe relación entre el rendimiento en el trabajo y turno laboral del empleado. Se tomó una muestra aleatoria de 400 empleados y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de contingencia: Rendimiento en el trabajo Deficiente Promedio Muy bueno Total

Turno Laboral Tarde 60 79 49 188

Mañana 23 28 9 60

Noche 29 60 63 152

Total 112 167 121 400

Con el nivel de significación 0.01, ¿La calificación del rendimiento del trabajador está asociada con el turno en el que labora el empleado? Solución: 1) H0: El rendimiento de un empleado en el trabajo es independiente del turno en el que labora. H1: El rendimiento de un empleado en el trabajo no es independiente del turno en el que labora.  2) = 0,01 3) Prueba Estadística f

c

   2 c

i 1 j 1

o

ij

 eij 

2

eij

~  21 , f 1c 1

4) Desarrollo de la prueba MS Jaime Carlos Porras Cerrón [email protected]

17

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I La siguiente tabla muestra tanto las frecuencias observadas como las esperadas (entre paréntesis) Rendimiento en el trabajo Deficiente Promedio Muy bueno Total:

cc2

Turno Laboral Tarde Noche 60 29 (52.64) (42.56) 79 60 (78.49) (63.46) 49 63 (56.87) (45.98) 188 152

Mañana 23 (16.80) 28 (25.05) 9 (18.15) 60

(23 16.80)2 16.80

(28 25.05) 2 25.05

...

(63 45.98) 2 45.98

Total 112 167 121 400

20.18

5) Criterios de decisión. 0.20

Si 2 > 13.277 se rechaza H0 Si 2 ≤ 13.277 no se rechaza H0

0.15

0.10

0.05

0.00

0.01 0

13.3

6) Conclusión Con nivel de significación 0,01 se puede afirmar que la calificación del rendimiento real de un empleado en el trabajo esta relacionado con el turno en el que labora 2.2 Prueba de Homogeneidad de Subpoblaciones Estas pruebas se aplican cuando se desea verificar si una característica tiene un comportamiento semejante ú homogéneo en dos ó más poblaciones. Es decir, las muestras correspondientes a "C" poblaciones son clasificadas de acuerdo a las clases ó categorías de una característica "A". En una prueba de homogeneidad de subpoblaciones uno de los totales marginales de filas y columnas es aleatorio y el otro es fijo. Procedimiento 1) Planteamiento de la Hipótesis H0: Las muestras son extraídas de la misma población. H1: Las muestras son extraídas de poblaciones diferentes. MS Jaime Carlos Porras Cerrón [email protected]

18

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I 2) Nivel de Significación () 3) Prueba Estadística f

c

 c2  

o

ij

i 1 j 1

 eij  eij

2

~  21 , f 1 c 1 



4) Desarrollo de la prueba 5) Criterios de Decisión: 0.10

0.08

0.06

No se rechaza H0 si: 2cal  2crit Se rechaza H0 si: 2cal  2crit

0.04

0.02

0.00

0

Chi Critico

6) Conclusiones. Ejemplo de aplicación Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura, produjeron los resultados que se muestran en la siguiente tabla: Condición Desintegrados Permanecieron intactos Total

Material A 41 79 120

Material B 27 53 80

Material C 22 78 100

Total 90 210 300

Use un nivel de significancia de 0.05 para probar si, en las condiciones establecidas, la probabilidad de desintegración es diferente en al menos uno de los tres tipos de materiales.

1) Formulación de las hipótesis H0: La probabilidad de desintegración no difiere los tres tipos de materiales. H1: La probabilidad de desintegración es diferente en al menos uno de los tres tipos de materiales. 2) Fijación del nivel de significación: 0.05 3) Prueba Estadística f

c

   2 c

i 1 j 1

o

ij

 eij 

2

eij

~  21 , f 1c 1

4) Desarrollo de la Prueba MS Jaime Carlos Porras Cerrón [email protected]

19

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I Cálculos previos: Tipo de Material Condición Total Material A Material B Material C 41 27 22 Desintegrados (36) (24) (30) 90 Permanecieron 79 53 78 intactos (84) (56) (70) 210 Total 120 80 100 300

cc2

(41 36)2 36

(79 84) 2 84

...

(78 70) 2 70

4.575

5) Criterios de decisión. No se rechaza H0 si: 2c  5.9915 Se rechaza H0 si: 2c  5.9915

Chi-Square, df=2 0.5

0.4

0.3

0.2

0.1

0.0

0.05 0

X

5.99

6) Conclusión Con nivel de significación 0,05 no se rechaza la hipótesis nula. Por lo tanto no se puede afirmar que la probabilidad de desintegración es diferente en al menos uno de los tres tipos de materiales Ejercicios Propuestos 1) Se realizó una encuesta para saber si existe una relación entre el género y la confianza que la gente tiene en la policía. Los resultados de una muestra aleatoria se presenta en la siguiente tabla: Confianza en la policía Género Mucha Regular Muy poca o ninguna Hombres 115 56 29 Mujeres 175 94 31 Use un nivel de significación del 0.05 para probar la afirmación de que sí existe una relación del género y la confianza a la policía 2) Se realiza un estudio para determinar la relación entre el tipo de crimen y si el criminal es un extraño o no. La tabla adjunta lista los resultados de una encuesta practicada a una muestra aleatoria de víctimas de diversos crímenes MS Jaime Carlos Porras Cerrón [email protected]

20

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I Condición El criminal era un extraño El criminal era un conocido o pariente

Homicidio 12 39

Asalto 379 106

Agresión 727 642

A un nivel de significación de 0.05, pruebe la hipótesis respectiva 3) Un estudio de accidentes automovilísticos seleccionados al azar y conductores que usan teléfonos celulares proporcionó los datos de una muestra aleatoria, que fue resumida en la siguiente tabla de contingencia: Tuvo accidente el año pasado Usa teléfono celular 23 No usa teléfono celular 46 Condición

No tuvo accidente el año pasado 282 407

Se desea saber si existe alguna relación entre la ocurrencia de accidentes y uso de teléfonos celulares. Con base en estos resultados, realice la prueba correspondiente con un nivel de significación del 5%. 4) Se recolectaron datos sobre los equipos que ganaron en diferentes deportes, con los resultados que se dan en la tabla adjunta: Resultado Gano equipo local Gano equipo visitante

Baloncesto

Béisbol

Jockey

127 71

53 47

50 43

Fútbol americano 57 42

Use un nivel de significancia de 0.10 para probar la aseveración de que las victorias de local/visitante no es independiente del deporte.

Tipo de boleto

5) Una de las preguntas del estudio de suscriptores de 1996 de Bussiness Week fue: “Durante los últimos 12 meses, en viajes de negocios, ¿qué tipo de boleto de avión compró con más frecuencia?” Las respuestas obtenidas se muestran en la siguiente tabla:

Primera clase Clase de negocios o ejecutiva Clase económica

Tipo de vuelo Nacional Internacional 29 22 95

121

518

135

Usando nivel de significación 0.05, pruebe si no existe independencia entre el tipo de vuelo y tipo de boleto. 6) En el estudio de un taller, se obtuvo un conjunto de datos para determinar si la proporción de artículos defectuosos producidos por los trabajadores era la 21 MS Jaime Carlos Porras Cerrón [email protected]

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I misma durante el día, la tarde o la noche. Se encontraron los siguientes resultados luego de obtener muestras de trabajadores de diferentes turnos: Condición Defectuosos No defectuosos

Día

TURNO Tarde

Noche

45

55

70

905

890

870

Utilice un nivel de significación del 5% para determinar si la proporción de artículos defectuosos no es la misma para los tres turnos. 7) La enfermería de un colegio llevó a cabo un experimento para determinar el grado de alivio proporcionado por tres remedios para la tos. Cada remedio se suministró a 50 estudiantes distintos y se registraron los siguientes datos: Efecto Sin alivio Cierto alivio Alivio total

Remedio para la tos NyQuil Robitussin Triaminic 11 13 9 32 28 27 7

9

14

Pruebe la hipótesis, con un nivel de significación del 5%, que los tres remedios para la tos no son igualmente efectivos. 3. Prueba de Homogeneidad de Variancias Prueba de Bartlett de Homogeneidad de Variancias (Snedecor y Cochran, 1983) Esta prueba es utilizada para evaluar si existe homogeneidad de variancias entre t poblaciones  t  2  . Los supuestos para la aplicación de esta prueba son:  Las muestras provienen de distribuciones normales  Las muestras son independientes.  Las muestras son tomadas al azar. Nota Importante  Esta prueba estadística no pertenece al grupo de pruebas no paramétricas.  Es presentada en este capítulo como parte de las aplicaciones de la distribución Chi Cuadrado dado que será utilizada como supuesto en los diseños experimentales Procedimiento a) Hipótesis H0: 12   22    t2   2 H1: Al menos un  i2 es diferente i  1, 2,

,t

MS Jaime Carlos Porras Cerrón [email protected]

22

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I b) Nivel de significación  . c) Estadístico de prueba El estadístico de prueba tiene una distribución Chi-cuadrado con t  1 grados de libertad t  t  2 n  1 LnS      ni  1 LnSi2   p  i  i 1  Q   i 1 ~  2t 1    1  t 1  1    1   3  t  1  i 1 ni  1  t  ni  1    i 1  Donde ni es el tamaño de la i-ésima muestra. ni

Si2 es la variancia muestral de cada muestra Si2 

Y

2 ij

j 1

2

 ni Y i

ni  1 t

S p2 es la variancia ponderada de las muestras S p2 

  n  1 S i

i 1

2 i

t

  n  1 i 1

i

d) Desarrollo de la prueba e) Criterio de Decisión: Se rechaza la hipótesis nula con un nivel de significación  si: Q  21 ,t 1 . f) Conclusiones Ejemplo de Aplicación Una empresa usa 4 máquinas para el llenado de bolsas de detergente. Todas las máquinas son de la misma marca y modelo. Dichas máquinas están programadas para llenar 250 gr. en cada bolsa de detergente. El jefe de producción se ha quejado de que las 4 máquinas presentan cierto nivel de variabilidad en la cantidad de detergente de cada bolsa. Un especialista encargado por la compañía selecciona al azar 6 bolsas de c/u de las máquinas y posteriormente pesa las bolsas. Los resultados obtenidos se muestran a continuación: Repetición 1 2 3 4 5 6 Total Promedio Si2

Máquinas A B C D 250.3 249.3 250.0 251.1 250.2 246.8 251.1 250.1 249.9 248.3 250.9 248.9 249.3 247.9 248.3 249.3 250.6 249.7 248.9 251.0 250.3 249.9 249.9 249.9 1500.6 1491.9 1499.1 1500.3 250.10 248.65 249.85 250.05 0.20 1.44 1.20 0.78

MS Jaime Carlos Porras Cerrón [email protected]

23

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I Pruebe el supuesto de homogeneidad de variancias. Use   0.05 Gráfica de caja de Peso 251

Peso

250

249

248

247 1

2

3

4

Maquina

a) Hipótesis H0: 12   22   32   42   2 H1: Al menos un  i2 es diferente i  1, 2,3, 4 b)   0.05 c) Estadístico de prueba El estadístico de prueba tiene una distribución Chi-cuadrado con t  1 grados de libertad t  k  2 n  1 LnS    ni  1 LnSi2   p   i  i 1  Q   i 1 ~  2t 1   t    1 1  1    1  t 3  t  1  i 1 ni  1   ni  1    i 1  d) Desarrollo de la prueba Si2 0.20

LnS

2 i

-1.5896 5

 ni  1 S p2 

5  0.20  

 5  0.78 20



1.44

1.20

0.78

0.3639 5

0.1815 5

-0.2446 5

20

33.4917  0.905 20

MS Jaime Carlos Porras Cerrón [email protected]

24

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I 20 Ln0.905  4.7972 5.5139 Q   4.13 1  1 1  1  1.0833 1      3  3  5 5  20  e) Criterio de Decisión: Se rechaza la hipótesis nula con 0.25 un nivel de significación   0.05 0.20 si: Q  20.95,3  7.8147 0.15

0.10

0.05 0.05 0.00

0

X

7.81

f) Conclusiones No existe evidencia para rechazar la H0. Por lo tanto no se puede afirmar que las variancias sean heterogéneas. A

B

Probability Plot of A

Probability Plot of B Normal

Normal

99

Mean StDev N AD P-Value

95

90

80

80

70

70

60 50 40 30

20

10

10

5

5

1

249.0

249.5

250.0 A

250.5

251.0

246

247

249 B

250

251

p-valor=0.576 D

Probability Plot of C

Probability Plot of D

252

Normal

99

Mean StDev N AD P-Value

95 90

99

249.9 1.095 6 0.239 0.630

90

80

80

70

70

60 50 40 30

Mean StDev N AD P-Value

95

Percent

Percent

248

pvalor=0.254 C Normal

60 50 40 30 20

20

10

10

5

5

1

1

247

248

249

250 C

251

248.7 1.200 6 0.255 0.576

60 50 40 30

20

1

Mean StDev N AD P-Value

95

Percent

Percent

90

99

250.1 0.4517 6 0.391 0.254

252

253

248

pvalor=0.63

249

250 D

251

252

pvalor=0.621

Ejercicios Propuestos 1. Un promotor inmobiliario está considerando invertir en un centro comercial a construirse en el sector medio de una capital del interior del país. Para el MS Jaime Carlos Porras Cerrón [email protected]

25

250.1 0.8849 6 0.242 0.621

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I promotor, es muy importante el nivel de los ingresos mensuales de las familias. Para el estudio, se evalúan 4 ciudades: Arequipa, Iquitos, Piura y Trujillo y en cada una de ellas se seleccionaron muestras aleatorias de ingresos familiares. Los ingresos mensuales observados en dólares son los siguientes: Arequipa 610 560 490 550

Iquitos 710 730 660 610 460

Piura 560 610 470 510 580 620 650

Trujillo 500 400 500 500 500 400

Asuma que los ingresos mensuales se distribuyen normalmente. A un nivel de significación de 0.05 pruebe el supuesto de homogeneidad de varianzas. 2. Se realizó un estudio para analizar el tipo de pago efectuado en la compra de artículos de primera necesidad en supermercados. Se seleccionaron al azar a 15 personas y se contabilizó el nivel de consumo diario (en decenas de nuevos soles). Los datos se presentan en la siguiente tabla: Débito Efectivo Crédito 5.6 5.8 6.2 5.5 5.7 6.1 5.3 5.7 6.3 5.2 5.6 6.2 5.1 5.7 6.2 A un nivel de significación de 0.05 pruebe el supuesto de homogeneidad de varianzas.

MS Jaime Carlos Porras Cerrón [email protected]

26

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I Resultados con Minitab Ejemplo de Aplicación 1: Prueba de Frecuencia Stat / Tables / Chi Square Goodness of Fit Test (One Variable) Chi-Square Goodness-of-Fit Test for Observed Counts in Variable: oi Using category names in oi Category 43 53 39 N 135

DF 2

Test Proportion 0.333333 0.333333 0.333333

Observed 43 53 39 Chi-Sq 2.31111

Expected 45 45 45

Contribution to Chi-Sq 0.08889 1.42222 0.80000

P-Value 0.315

Ejemplo de Aplicación 3: Ajuste a una Poisson Stat / Basic Statistics / Goodness of Fit Test for Poisson Goodness-of-Fit Test for Poisson Distribution Data column: Accidentes Frequency column: oi Poisson mean for Accidentes = 1 Accidentes 0 1 2 >=3

Observed 34 25 11 10

N 80

Chi-Sq 4.30491

N* 0

DF 2

Poisson Probability 0.367879 0.367879 0.183940 0.080301

Expected 29.4304 29.4304 14.7152 6.4241

Contribution to Chi-Sq 0.70953 0.66693 0.93798 1.99047

P-Value 0.116

Ejemplos de Aplicación 4 y 5: Pruebas con Tablas de Contingencia Stat / Tables / Chi Square Test (Table in Worksheet) Ejemplo 4 Chi-Square Test: C1, C2, C3 Expected counts are printed below observed counts Chi-Square contributions are printed below expected counts C1 23 16.80 2.288

C2 60 52.64 1.029

C3 29 42.56 4.320

Total 112

2

28 25.05 0.347

79 78.49 0.003

60 63.46 0.189

167

3

9 18.15 4.613

49 56.87 1.089

63 45.98 6.300

121

Total

60

188

152

400

1

Chi-Sq = 20.179, DF = 4, P-Value = 0.000

MS Jaime Carlos Porras Cerrón [email protected]

27

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I Ejemplo 5 Chi-Square Test: C1, C2, C3 Expected counts are printed below observed counts Chi-Square contributions are printed below expected counts C1 41 36.00 0.694

C2 27 24.00 0.375

C3 22 30.00 2.133

Total 90

2

79 84.00 0.298

53 56.00 0.161

78 70.00 0.914

210

Total

120

80

100

300

1

Chi-Sq = 4.575, DF = 2, P-Value = 0.101

Ejemplos de Aplicación 6: Pruebas de Homogeneidad de Varianzas Stat / ANOVA / Test for Equal Variances Test for Equal Variances: Peso versus Maquina 95% Bonferroni confidence intervals for standard deviations Maquina 1 2 3 4

N 6 6 6 6

Lower 0.250789 0.666077 0.608000 0.491332

StDev 0.45166 1.19958 1.09499 0.88487

Upper 1.50089 3.98626 3.63868 2.94046

Bartlett's Test (Normal Distribution) Test statistic = 4.13, p-value = 0.248 Levene's Test (Any Continuous Distribution) Test statistic = 1.91, p-value = 0.161 Test for Equal Variances for Peso Bartlett's Test Test Statistic P-Value

1

4.13 0.248

Lev ene's Test Test Statistic P-Value

Maquina

2

1.91 0.161

3

4

0

1 2 3 95% Bonferroni Confidence Intervals for StDevs

4

MS Jaime Carlos Porras Cerrón [email protected]

28

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I Aplicaciones de la Distribución Chi Cuadrado con Minitab Prueba de Frecuencia Stat / Basic Statistics / Chi Square Goodness of Fit Test (One Variable)

Ajuste a la Poisson Stat / Basic Statistics / Goodness of Fit Test for Poisson

Pruebas con Tablas de Contingencia Stat / Tables / Chi Square Test (Table in Worksheet)

MS Jaime Carlos Porras Cerrón [email protected]

29

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I

Pruebas de Homogeneidad de Varianzas Stat / ANOVA / Test for Equal Variances

MS Jaime Carlos Porras Cerrón [email protected]

30