Chi - cuadrada (revisado).docx

Contenido INTRODUCCIÓN..................................................................................................

Views 161 Downloads 2 File size 1MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Contenido INTRODUCCIÓN......................................................................................................................................... 2 PRUEBAS NO PARAMÉTRICAS O LIBRES DE DISTRIBUCIÓN.........................................................................3 JI-CUADRADA ( x 2 ).................................................................................................................................... 3 PRUEBAS DE HIPÓTESIS PARA LA VARIANZA DE UNA POBLACIÓN...................................................................................6 DISTRIBUCIÓN JI CUADRADA A PARTIR DE FRECUENCIAS OBSERVADAS Y FRECUENCIAS ESPERADAS.......................................7 PRUEBAS PARA UNA PROPORCIÓN CON Z Y CON x 2 ...............................................................................................10 PRUEBA PARA LA DIFERENCIA ENTRE 2 PROPORCIONES CON Z Y CON x 2 ....................................................................12 Relación entre las pruebas de hipótesis para proporciones con z y con x 2 .............................................14 PRUEBA PARA LA DIFERENCIA ENTRE N PROPORCIONES............................................................................................14 PRUEBAS DE BONDAD DE AJUSTE.........................................................................................................................16 Pruebas de bondad de ajuste a una distribución normal..........................................................................16 Pruebas de bondad de ajuste a una distribución Poisson.........................................................................19 Pruebas de bondad de ajuste a una distribución binomial.......................................................................21 Pruebas de bondad de ajuste entre distribuciones empíricas...................................................................23 PRUEBA DE INDEPENDENCIA...............................................................................................................................24 CONTRASTE DE HOMOGENEIDAD.........................................................................................................................26 EXCEL Y LA DISTRIBUCIÓN JI CUADRADA................................................................................................................27 Función Distr.Chi........................................................................................................................................28 La función Prueba.Chi................................................................................................................................28 CONCLUSIONES....................................................................................................................................... 29 REFERENCIAS BIBLIOGRÁFICAS................................................................................................................ 29

Introducción En el mundo de la estadística existen un sinfín de métodos y procedimientos tanto para generar los términos estadísticos como analizarlos, algunos de estos se elaboran para probar por medio de probabilidades si una hipótesis o una suposición de un evento determinado es correcta o tiene un grado de confianza alto para que sea calificado como verdadero. En este caso encontramos algunos procedimientos creados desde los años de 1800 a 1900 como la definición de la desviación estándar, análisis de regresión, la teoría de la probabilidad la correlación y la prueba de muestreo. En la práctica, surgen muchas situaciones en las cuales simplemente no es posible hacer de forma segura ningún supuesto sobre el valor de un parámetro o sobre la forma de la distribución poblacional. La mayoría de las pruebas paramétricas. Más bien se deben utilizar otras pruebas que no dependan de un solo tipo de distribución o de valores de parámetros específicos. Estas pruebas se denominan pruebas no paramétricas o libres de distribución. Entre estas pruebas se encuentra, la chi-cuadrada esta permitía determinar, entre otras cosas, si dos caracteres hereditarios eran transmitidos de forma dependiente o independiente. Esta era una de sus aplicaciones principales, pero fue aplicada a mas ámbitos de la ciencia hoy en día. Como definición de la distribución chi cuadrada tenemos que sirve para someter a prueba hipótesis referidas a distribuciones de frecuencias. En términos generales, esta prueba contrasta frecuencias observadas con las frecuencias esperadas de acuerdo con la hipótesis nula. Para su mejor comprensión se presentarán algunas de las metodologías más conocidas con ejemplos y también las diferentes pruebas existentes de la distribución chi cuadrado.

Pruebas no paramétricas o libres de distribución Son procedimientos estadísticos que pueden utilizarse para diferenciar hipótesis cuando no son posibles los supuestos respecto a los parámetros o a las distribuciones poblacionales. Propiedades: a. Requieren que las variables se midan con la escala nominal u ordinal. b. No se relacionan con el estudio de un parámetro de la población. Las dos indicaciones más importantes que se deben tener en cuenta para utilizar una prueba no paramétrica son que: a. La distribución de la población no sea normal. b. La escala de medición de la variable en cuestión sea categórica.

Ji-cuadrada ( x 2) Una de las herramientas no paramétricas más útiles es la prueba ji-cuadrada ( x 2). Comúnmente conocida como chi-cuadrada, pero correctamente en español es ji-cuadrada. El fin de esta prueba consiste en medir la discrepancia entre una distribución observada y otra esperada; en otras palabras, es una prueba de hipótesis que compara la distribución observada de los datos con una distribución esperada de los datos. Existen una distribución ji-cuadrado para cada grado de libertad. A medida que se incrementa el número de grado de libertad, la distribución ji-cuadrado se vuelve menos sesgada, tal como se muestra en la siguiente ilustración: Ilustración 1: Distribución ji-cuadrada

Donde “gl” es igual a grados de libertad. Fuente: “Estadística aplicada a los negocios y la economía” por Allen L. Webster, capítulo 14.

En las distribuciones de probabilidad continua, donde X es una variable aleatoria que se distribuye de manera normal con media μ y desviación estándar σ, entonces la variable, que se muestra a continuación, se distribuye también de forma normal con media 0 y desviación estándar 1

Esta distribución se conoce como distribución normal estándar, y que se tabula en las tablas de áreas bajo la curva normal. Se tiene que el cuadrado de esta variable z 2 es:

A partir de z 2 puede obtenerse la variable u para una muestra de tamaño n, mediante la sumatoria de z 2 para todos los elementos de la muestra:

Si ahora se obtiene la distribución muestral de u, es decir, el conjunto de las u de todas las muestras posibles que pueden extraerse de tamaño n, provenientes de la correspondiente población de tamaño N, la distribución que se obtiene es lo que se conoce como distribución x 2 para n grados de libertad. Se ilustra ahora su función de densidad de probabilidad:

Dado que existe una distribución x 2 para cada número posible de grados de libertad, entonces existe una cantidad ilimitada de distribuciones x 2, ya que los grados de libertad pueden tomar valores desde 1 hasta infinito. En las pruebas de hipótesis, el número de grados de libertad está dado por n – k – 1 en donde k es el número de parámetros que se estiman.

A continuación, se muestra esta distribución para diversos valores de los grados de libertad.

Ilustración 2: Gráfica de Distribución de ji-cuadrada y grados de libertad

Fuente: Estadística Aplicada a la Administración y la Economía, Díaz Mata

En esta ilustración se observan algunas características de la distribución ji cuadrada: • • •

• •

Tiende a la simetría conforme aumentan los grados de libertad. No puede tener valores por debajo de cero (debido a que se obtiene de números elevados al cuadrado). La moda de la distribución es igual al número de grados de libertad menos 2, gl – 2. Por ejemplo, la moda para esta distribución cuando gl = 10, es igual a 8, tal como puede apreciarse en la gráfica. El área bajo la curva es igual a 100 por ciento. El eje “y” muestra las probabilidades.

Tablas de áreas bajo la curva de la distribución ji cuadrada La tabla de valores de x 2, ha sido diseñada solamente para determinados valores de confianza o significación, de tal manera los que pueden utilizarse son: Tabla 1: Valores de confianza y significación de ji-cuadrada CONFIANZA

SIGNIFICACIÓ N 0.995 0.005 0.99 0.01 0.975 0.025 0.95 0.05 0.9 0.1 0.75 0.25 0.5 0.5 0.25 0.75 0.1 0.9 0.05 0.95 0.025 0.975 0.01 0.99 0.005 0.995 Fuente: Elaboración propia.

Tabla 2 Valores de probabilidad de ji-cuadrada

Fuente: Estadística Aplicada a la Administración y la Economía. Díaz Mata.

Por ejemplo, el número 39.997 que está en el extremo derecho del renglón 20, y que corresponde a una probabilidad de 0.005, señala que la probabilidad de que x 2 sea mayor o igual que 39.997, con 20 grados de libertad, es de 0.005 o 0.5%. Lo mismo en simbología de probabilidad:

Las aplicaciones más comunes de ji-cuadrada son: 1. 2. 3. 4. 5. 6. 7.

Prueba para una varianza. Prueba para una proporción. Prueba para la diferencia entre 2 proporciones. Prueba para la diferencia entre n proporciones. Prueba de bondad de ajuste. Prueba de independencia. Prueba de homogeneidad.

Pruebas de hipótesis para la varianza de una población La varianza y su raíz cuadrada, la desviación estándar, miden la dispersión con respecto a la media, logra apreciarse por qué se pueden utilizar pruebas sobre estas medidas cuando se requiere probar la uniformidad o variabilidad de algún proceso o producto. Las pruebas sobre una varianza poblacional son aplicables solamente cuando la variable se distribuye de manera normal en la población y la hipótesis nula es de la siguiente forma:

En donde σ 2 es el valor que se supone tiene la verdadera varianza poblacional. En estas pruebas se utiliza como estadístico de prueba la ji cuadrada, x 2, que se calcula como:

Tiene n – 1 grados de libertad. Aquí, se reducen en 1 los grados de libertad porque no se estima ningún parámetro. Por ejemplo En la fabricación de cierto tipo de tubo de acero se requiere que la varianza del peso no exceda a 5.3 g2. Si una muestra aleatoria de 30 tubos tiene una varianza de 8.25 g2g, con un nivel de significación de 1%, ¿puede concluirse a partir de estos datos que la norma se cumple?

El valor calculado del estadístico de prueba:

Dado que el valor calculado del estadístico de prueba es menor que el del crítico, no se rechaza la hipótesis nula y se concluye que el proceso cumple con la norma de la variabilidad del peso de los tubos.1

Distribución ji cuadrada a partir de frecuencias observadas y frecuencias esperadas Para medir la dependencia e independencia de variables, se utiliza el estadístico ji-cuadrado, que da una medida de la diferencia entre las frecuencias observadas y las “frecuencias esperadas en caso de independencia”. El cálculo de dichas frecuencias esperadas eij:

e ij=

f i. f . j n

Con el estadístico Ji-cuadrado se obtiene una medida de diferencia entre las frecuencias esperadas y las frecuencias observadas. El estadístico se calcula en la forma siguiente:

χ 2exp = 1

( f ij−eij )2 ∑∑ e i j ij

Ejemplo de pruebas de hipótesis para la varianza. “Estadística aplicada a la administración y la economía”. Alfredo Díaz Mata. Capítulo 11 – Pruebas de hipótesis con Ji – Cuadrada.

Algunas propiedades de ji-cuadrada entre frecuencias observadas y esperadas: 

Si todas las frecuencias observadas son iguales a la correspondiente frecuencia esperada, 2

f i , j =e i, j entonces 

χ 2exp =

( f −e ) ∑ ∑ ij e ij i j ij

2

( f −f ) ∑ ∑ ij e ij =0 ij = i j .

Esto ocurre sólo cuando las dos variables de la tabla son independientes; Por tanto, si hay 2

independencia entre las dos variables de la tabla,

χ exp =0



Cuanto mayor sea la diferencia entre las frecuencias observadas y esperadas en la tabla, el valor de Ji cuadrado será mayor. Es decir, a mayor intensidad de la asociación entre las variables, ji-cuadrado será mayor.



El valor de Ji-cuadrado siempre es positivo o cero (pues es suma de números positivos, ya que los denominadores de la suma son todos positivos al ser suma de números elevados al cuadrado.



En general, a mayor número de sumandos, se obtendrá un valor mayor.

Ejemplo - Supervivencia en el Titanic El 10 de abril de 1912, el Titanic zarpaba con 1317 pasajeros a bordo, ante la admiración de una muchedumbre de curiosos que contemplaban atónitos como aquella mole de acero se alejaba majestuosamente del puerto. Cinco días después los medios de comunicación de todo el mundo se hicieron eco de la increíble noticia: el barco más grande jamás construido yacía a casi cuatro mil metros de profundidad. Tabla 3: Distribución de pasajeros en el Titanic según supervivencia y clase social

Primera clase Segunda clase Tercera clase Total

Sobrevive No sobrevive 194 128 119

161

138 451

573 862

Total 322 280 711 1313

Fuente: Apuntes de chi-cuadrada. Ronald Aylmer Fisher

Calculemos en el ejemplo las frecuencias esperadas en caso de independencia. Observamos que, una vez calculados los datos de la primera columna, los de la segunda se deducen automáticamente (es decir no son libres). Lo mismo ocurre con la última fila, una vez calculadas las dos primeras, queda automáticamente fijada. Por tanto los grados de libertad son (3-1)x(2-1)=2=k (denotamos como k. los grados de libertad) e 1,1=

f 1.×f . 1 322×451 = =110 , 6 n 1313

En la tabla 4 mostramos las frecuencias esperadas en caso de independencia. Observamos que los grados de libertad son sólo 2, pues una vez calculadas una frecuencia esperada en la primera fila y

otra en la segunda, las demás se deducen automáticamente, si no queremos variar los totales de filas y columnas. Tabla 4: Frecuencias esperadas en el Titanic según supervivencia y clase social

Sobrevive No sobrevive 110,6 211,4

Primera clase Segunda clase Tercera clase Total

96,2 244,2 451

183,8 466,8 862

Total 322 280 711 1313

Fuente: Apuntes de chi-cuadrada. Ronald Aylmer Fisher

Observamos, al comparar las tablas 3 y 4 que en primera clase hay mayor frecuencia observada que la esperada de supervivencia si no hubiese relación entre supervivencia y clase social. Mientras en segunda clase hay unos pocos más de lo esperado y en tercera casi la mitad de lo esperado. ¡El salvamento no fue entonces equitativo! A continuación, llevamos a cabo los cálculos del estadístico Ji- cuadrado: Tabla 5: Cálculo de Ji cuadrado

Primera clase

Sobrevive No sobrevive 2 (194−110, 6) (128−211, 4 )2 =62 , 9 =32 ,9 110,6 211,4

Segunda clase

(119−96 , 2)2 =5,4 96 , 2

Tercera clase

(138−244 ,2) =46,2 244 ,2

2

2

(181−183 ,8) =2,8 183,8 (573−466 ,8)2 =24 ,2 466 ,8

Fuente: El estadístico Chi-cuadrado y contrastes asociados. Ronald Aylmer Fisher 2

χ 2exp =

( f −e ) ∑ ∑ ij e ij i j ij

= 62,9+32,9+5,4+2,8+46,2+24,2 = 174,4

Los grados de libertad, en este caso son k= (3-1)x(2-1) = 2. Como hemos indicado, a mayor número de grados de libertad el valor será mayor. Así, para 4 grados de libertad la moda (valor más probable) se sitúa cerca del valor 5, mientras que para 32 grados de libertad se sitúa cerca de 39. El valor obtenido 174,4 es muy poco probable en caso de independencia, pues observamos que para 2 grados de libertad los valores mayores que 10 apenas aparece. De hecho, la probabilidad de obtener un valor mayor que 10,6 es sólo 0,005. Deducimos que el salvamento de los viajeros en el Titanic no fue independiente de su clase social. 2

2

Ejemplo – Diferencia de frecuencia observada y frecuencia esperada. “El estadístico Chi-cuadrado y contrastes asociados” Ronald Aylmer Fisher.

Pruebas para una proporción con z y con x 2 A continuación, se muestra un ejemplo aplicando los dos métodos para una prueba de hipótesis sobre la proporción de una población, ambos métodos conducen a la misma conclusión. Prueba de una proporción con z Ejemplo: El coordinador de la bolsa de trabajo de una universidad pública afirma que al menos 30% de los alumnos que terminan sus estudios obtiene empleo antes de 3 meses. Para probar esta afirmación, se toma una muestra de 50 estudiantes de dicha institución y se encuentra que sólo 10 obtuvieron empleo durante los primeros 3 meses luego de haber terminado sus estudios. ¿Puede rechazarse la afirmación de ese coordinador, con un nivel de significación de uno por ciento? Solución: Como se trata de una muestra grande puede utilizarse z como estadístico de prueba. Las hipótesis: H0: π = 0.30 H1: π ≠ 0.30 Dado el planteamiento que conduce a estas hipótesis se sabe que se trata de una prueba de 2 extremos y como α = 0.01 se divide esta probabilidad entre los 2 extremos de la curva normal; se obtiene que los valores de z que dividen las regiones de aceptación y de rechazo son: -2.575 ≤ z ≤ 2.575. El error estándar de la proporción:

Ilustración 3: Distribución z del ejemplo.

Fuente: Estadística Aplicada a la Administración y la Economía, Díaz Mata

La proporción de la muestra es p = 11/50 = 0.20, por lo que:

Debido a que este valor del estadístico de prueba calculado con los datos muéstrales es mayor que z = -2.575 y menor que z = 2.575, no es posible rechazar la hipótesis nula; se concluye que la

proporción de estudiantes que terminan sus estudios y que consiguen un empleo antes de 3 meses sigue siendo de 30 por ciento. Prueba de una proporción con x 2 Ejemplo: Se resuelve el ejemplo anterior, pero utilizando la ji-cuadrada como estadístico de prueba. El coordinador de la bolsa de trabajo de una universidad pública afirma que al menos 30% de los alumnos que terminan sus estudios obtiene empleo antes de 3 meses. Para probar esta afirmación, se toma una muestra de 50 estudiantes de dicha institución y se encuentra que sólo 10 obtuvieron empleo durante los primeros 3 meses luego de haber terminado sus estudios. ¿Puede rechazarse la afirmación de ese coordinador, con un nivel de significación de uno por ciento? Solución: Las hipótesis siguen siendo las mismas: H0: π = 0.30 H1: π ≠ 0.30

En este caso los grados de libertad son: gl = k – m - 1 = 2 – 0 – 1 = 1. La tabla con las frecuencias de los que tienen empleo (p) y los que no lo tienen (q, o sea 1 – p) se trata de una tabla de 2 × 2 (con empleo, sin empleo y fo, fe) por lo que también puede aplicarse la regla para determinar los grados de libertad. Una tabla como ésta, conocida como tablas de contingencias, indica que los grados de libertad se calculan como: gl = (c – 1)(r – 1). En donde c es el número de columnas y r es el número de renglones. Por ello gl = (2 – 1)(2 – 1) = 1, al igual que cuando se aplica el otro criterio. Entonces el valor crítico del estadístico de prueba es:

Ya que el valor calculado de ji cuadrada es menor que el valor crítico, no se rechaza la hipótesis nula y se concluye que la afirmación del coordinador es correcta: el porcentaje de estudiantes que terminan sus estudios y que tienen trabajo antes de 3 meses es de 30%. Por supuesto, esta conclusión es la misma a la que se llegó mediante la prueba con la z de la distribución normal como estadístico de prueba.3

Ejemplo de pruebas para una proporción con z y x 2. “Estadística aplicada a la administración y la economía”. Alfredo Díaz Mata. Capítulo 11 – Pruebas de hipótesis con Ji Cuadrada. 3

Prueba para la diferencia entre 2 proporciones con z y con x2 En este caso se presenta un ejemplo con dos poblaciones. Utilizando z y x 2, los cuales conducen a la misma conclusión. Prueba para la diferencia entre 2 proporciones con z Ejemplo: En un proceso de producción se encontraron 35 artículos defectuosos en una muestra aleatoria de 500 y se encontraron 20 defectuosos en otra muestra de 400 artículos provenientes de otro proceso similar que se lleva a cabo en otra fábrica. ¿Pruebe la hipótesis de que los dos procesos producen la misma proporción de artículos defectuosos, con un nivel de significación de uno por ciento? Solución: Las hipótesis: H0: π1 = π2 H1: π1 ≠ π2 Al tratarse de muestras grandes, se puede utilizar la z; con una prueba de 2 extremos y un nivel de significación de 0.01 se tiene que el valor crítico de z es 2.575, ya que P(-2.575 ≤ z ≥ 2.575) = 0.01. La p combinada es:

La z calculada con los datos muéstrales:

Debido a que la z calculada es mayor que -2.575 y menor que 2.575, no se puede rechazar la hipótesis nula y se concluye que los 2 procesos producen la misma proporción de artículos defectuosos. Prueba para la diferencia entre 2 proporciones con x 2 De vuelta al ejemplo anterior que explica 2 procesos de producción: uno en el que se encontraron 35 artículos defectuosos dentro de una muestra aleatoria de 500; el segundo proceso que generó 20 artículos defectuosos en otra muestra de 400. Pruebe la hipótesis de que los 2 procesos arrojan la misma proporción de artículos defectuosos, con un nivel de significación de 1% utilizando como estadístico de prueba la ji cuadrada, x 2.

Solución: Las hipótesis son las mismas: H0: π1 = π2 H1: π1 ≠ π2 Se coloca en una tabla el número de artículos defectuosos y no defectuosos resultado de ambos procesos; así se resumen las frecuencias observadas:

Para determinar las frecuencias esperadas se utilizan los totales de renglón y de columna. Por ejemplo, si se tienen 55 artículos defectuosos de un total de 900 artículos se consideraría que 55/900 = 0.0611 o 6.11% de todos los artículos que fueran defectuosos. Por ello, si en el proceso 1 se tiene un total de 500 artículos producidos, se especularía que 0.0611 × 500 = 30.55 de ellos fueran defectuosos. Estas frecuencias esperadas se anotan en el cuadro siguiente, donde también se reproducen las frecuencias observadas. Aquí es importante notar que esas frecuencias esperadas se obtuvieron dividiendo el total de renglón, 55, entre la totalidad de los artículos, 900, con lo que se obtuvo 6.11%. Luego ese 0.0611 se multiplica por el total de la columna del proceso 1; sin embargo, se puede llegar al mismo resultado dividiendo el total de columna, 500, entre el total absoluto de 900, así resulta 500/900 = 0.556 y luego multiplicado por el total del primer renglón, 55, se obtiene la misma cantidad de frecuencia esperada: 0.556(55) = 30.58 (la pequeña diferencia se debe al redondeo). Siguiendo estos mismos razonamientos se completó la tabla 6 que contiene las frecuencias observadas y las esperadas. Tabla 6: EJEMPLO. Frecuencias observadas y esperadas

En este caso los grados de libertad son: gl = (c – 1)(r – 1) = (2 – 1) (2 – 1) = 1. Entonces el valor crítico del estadístico de prueba es:

Ahora se determina el valor calculado de x 2:

Debido a que el valor calculado de x 2, 1.55, es menor que el valor crítico, 3.84, no puede rechazarse la hipótesis nula. La conclusión, tal como se vio anteriormente, es que los 2 procesos producen la misma proporción de artículos defectuosos. 4

Relación entre las pruebas de hipótesis para proporciones con z y con x 2 El objetivo principal de la relación entre estas 2 pruebas (de z y de x 2), para probar la diferencia entre una o 2 proporciones, es que no llevan a concluir lo mismo. Los valores calculados tienen relación entre sí, tanto z y x 2. La distribución x 2 puede derivarse del cuadrado de la z:

No resulta extraño que el valor calculado de la x 2 sea, precisamente, el cuadrado de la z. En la tabla 7 se sintetizan los resultados obtenidos en estos últimos 2 ejemplos con los resultados de z y ji-cuadrada. La diferencia se debe a errores de redondeo. Tabla 7:Resultados utilizando z y x 2

x2

Z EJEMPLO 1 EJEMPLO 2

1.54 1.25

2.38 1.55

Fuente: Elaboración propia

Prueba para la diferencia entre n proporciones Así como se realizó en una o dos proporciones puede hacerse para n proporciones. Al igual que en los anteriores casos se proporciona un ejemplo, para su mejor comprensión. Ejemplo: En una facultad universitaria se presenta una propuesta para cambiar el plan de estudios y se desea saber si los estudiantes de cada grado tienen la misma opinión sobre la propuesta. Para ello, se toman muestras aleatorias de 100 estudiantes de cada 1 de los 4 niveles que se cursan. Los resultados se presentan en la tabla 8.

Ejemplo de pruebas para la diferencia entre dos proporciones con z y x 2. “Estadística aplicada a la administración y la economía”. Alfredo Díaz Mata. Capítulo 11 – Pruebas de hipótesis con Ji – Cuadrada. 4

Tabla 8: Datos de ejemplo

Fuente: Ejemplo. Estadística Aplicada a la Administración y la Economía, Díaz Mata.

Compruebe la hipótesis de que las proporciones de estudiantes que están a favor de modificar el plan de estudios son las mismas en todos los niveles escolares, con un nivel de significación de uno por ciento. Solución: En este caso, las hipótesis son: H0: π1 = π2 = π3 = π4 H1: Cuando menos una de las igualdades anteriores no se cumple. El valor crítico del estadístico de prueba x 2 es 11.34, ya que se tienen 3 grados de libertad. Estos grados de libertad son iguales al número de categorías menos 1 (4 – 1 = 3); lo mismo es decir el número de proporciones que se prueban menos 1: (4 – 1 = 3); también es igual al número de renglones menos 1 multiplicado por el número de columnas menos 1: (r – 1)(c – 1) = (4 - 1)(2 – 1) = 3 × 1 = 3. En símbolos:

En el siguiente cuadro se resumen las frecuencias anteriormente observadas, junto con las frecuencias esperadas y los cálculos de:

Las frecuencias esperadas se calcularon dividiendo el total de renglón (100) entre el total global (400) y multiplicando este cociente por el total de la columna. También puede resolverse a la inversa y se conducirá al mismo resultado, dividiendo el total de columna (57 por ejemplo) entre el total global (400) y multiplicando este cociente por el total de renglón. De la tabla anterior puede determinarse fácilmente el valor calculado de la ji cuadrada:

Este valor calculado es menor que el valor crítico de 11.34, por lo tanto, no es posible rechazar la hipótesis nula y se concluye que las proporciones de los estudiantes de los diferentes niveles que están a favor del cambio en el plan de estudios son iguales. 5

Pruebas de bondad de ajuste Las pruebas de bondad de ajuste sirven para determinar qué tan cerca se ajustan los datos observados en una muestra a una forma de distribución poblacional, establecida como hipótesis. Si el ajuste es razonablemente cercano, se concluye que si existe la forma de distribución planteada como hipótesis. La hipótesis nula debe rechazarse cuando las observaciones obtenidas en la muestra tienen gran diferencia del patrón que se espera que ocurra si la distribución planteada como hipótesis sí se presenta. Es importante resaltar que el número de grados de libertad para este tipo de pruebas se calcula como k – m – 1, en donde k es el número de categorías o clases y m es el número de parámetros poblacionales que se estiman al realizar la prueba.

Pruebas de bondad de ajuste a una distribución normal Para realizar una prueba de este tipo se comparan las frecuencias observadas, que pudieran ajustarse a una distribución normal, con las frecuencias esperadas, determinadas a partir de la distribución normal estándar. Se ilustra el procedimiento en el siguiente ejemplo. Ejemplo: Los datos siguientes son los montos de 220 facturas tomadas al azar. Con un nivel de significación de 0.05, ¿esos montos se ajustan a una distribución normal? Tabla 9 Ejemplo. Monto de las facturas

Solución: Las hipótesis para esta prueba son: H0: La distribución de los montos de las facturas se ajusta a una distribución normal. H1: La distribución de los montos de las facturas no se ajusta a una distribución normal. En la tabla 10 se resumen los cálculos para determinar la media y la desviación estándar de los datos muéstrales. Así, la media es:

Fuente: Estadística Aplicada a la Administración y la Economía, Díaz Mata

5

Y la desviación estándar:

Ejemplo de prueba para la diferencia entre n proporciones. “Estadística aplicada a la administración y la economía”. Alfredo Díaz Mata. Capítulo 11 – Pruebas de hipótesis con Ji – Cuadrada.

Estimados estos 2 parámetros, se utiliza la z de la distribución normal estándar para calcular las frecuencias esperadas, la que tiene media cero, desviación estándar de 1, de la siguiente manera:

Tabla 10: Frecuencias de datos del ejemplo

Fuente: Estadística Aplicada a la Administración y la Economía, Díaz Mata

Luego se estandarizan los límites de los intervalos en los que están divididas las frecuencias. Por ejemplo, el extremo izquierdo, es decir, la clase de 0 a menos de 100 está limitada del lado derecho por ese valor (100) que, en términos de la z, es igual a:

El área bajo la curva y a la izquierda de este valor es P(-∞ ≤ z ≤ -1.93) = 0.0268, que en términos de las unidades originales, el monto de las facturas, es P(0 ≤ X ≤ 100) = 0.0268. Ahora, para el segundo intervalo, el que va de 100 a 200:

El correspondiente valor de área o probabilidad es P(-1.93 ≤ z ≤ -1.42) = 0.051, que en términos de las unidades originales, el monto de las facturas, es P(100 ≤ X ≤ 200) = 0.051. Si se calculan, de la misma manera, las probabilidades de todos los intervalos se obtienen los valores de la tabla 11

Tabla 11: Valores de z y probabilidades correspondientes a los 10 intervalos de datos del ejemplo.

Fuente: Estadística Aplicada a la Administración y la Economía, Díaz Mata

La determinación del área correspondiente al intervalo 400 a 500 es la única que requiere cálculos adicionales, ya que la media cae dentro de este intervalo, como puede verse en la ilustración 4. Así que el área correspondiente debe calcularse en 2 pasos: de 400 hasta la media, 474.76, y de esta media hasta 500. Se llega al área anotada al realizar las operaciones correspondientes y sumando ambas probabilidades. Ilustración 4: Frecuencias esperadas agrupadas. Datos Ejemplo.

Fuente: Estadística Aplicada a la Administración y la Economía, Díaz Mata

En la tabla 11 también se calcularon las frecuencias esperadas simplemente multiplicando la probabilidad correspondiente a cada intervalo por 210, el número de elementos de la muestra. Adicionalmente, se agruparon en la columna del extremo derecho las frecuencias esperadas para los 2 últimos intervalos, 800-900 y 900-1 000, porque las frecuencias esperadas del último intervalo son 3.00 y esta prueba de ji cuadrada requiere que haya cuando menos 5 frecuencias teóricas (esperadas) en cada celda. Si los datos en los que se basa la prueba generan celdas con frecuencias esperadas menores a 5, se requiere combinar celdas para asegurar que todas contengan al menos 5 esperadas. Sumadas las 2 últimas frecuencias esperadas, 6.76 y 3.00, resulta 9.76 de las frecuencias esperadas de este intervalo combinado.

En la figura 4 se muestra la gráfica de estas frecuencias esperadas agrupadas, se observa que tienen forma aproximadamente normal. En la tabla 12 se reúnen las frecuencias observadas y las esperadas; se realizan las operaciones necesarias para calcular la ji cuadrada. Tabla 12: Cálculos para obtener la x 2 en el ejemplo.

Fuente: Estadística Aplicada a la Administración y la Economía, Díaz Mata

Finalmente quedaron 9 categorías (porque se combinaron las 2 últimas) y se estimaron 2 parámetros poblaciones (la media y la desviación estándar); los grados de libertad son k – m – 1 = 9 – 2 – 1 = 6, por lo que el valor crítico de la x 2 para un nivel de significación de 0.05 es 12.592: P( x 2≥ 12.592|gl = 6) = 0.05 El valor calculado de la x 2, 13.7, es mayor que este valor crítico, así que se rechaza la hipótesis nula y se concluye que los montos de esa muestra de facturas no se ajustan a una distribución normal.6

Pruebas de bondad de ajuste a una distribución Poisson Para realizar una prueba de este tipo se comparan las frecuencias observadas, que pudieran ajustarse a una distribución Poisson, con las frecuencias esperadas, determinadas, precisamente, a partir de la distribución Poisson, tal como en el ejemplo anterior. Estas frecuencias esperadas se determinan fácilmente utilizando la función Poisson de Excel, como se verá a continuación. Ejemplo: Se desea probar, con un nivel de significación del 0.05, si el número de descomposturas de máquinas, por hora en una línea de ensamble, sigue una distribución de Poisson. Para probarlo se toma una muestra aleatoria de 50 horas; las cantidades de descomposturas obtenidas se muestran en las 2 primeras columnas de la tabla siguiente: 6

Ejemplo de prueba de bondad de ajuste a una distribución normal. “Estadística aplicada a la administración y la economía”. Alfredo Díaz Mata. Capítulo 11 – Pruebas de hipótesis con Ji – Cuadrada.

Tabla 13 Datos ejemplo de Pruebas de bondad de ajuste A una distribución Poisson

Fuente: Estadística Aplicada a la Administración y la Economía, Díaz Mata

Solución: Las hipótesis para esta prueba son: H0: La distribución de descomposturas de máquinas por hora se ajusta a una distribución Poisson. H1: La distribución de descomposturas de máquinas por hora no se ajusta a una distribución Poisson. En la misma tabla se obtuvieron los productos de las descomposturas por hora, multiplicadas por su frecuencia, X · fo, y se determinó la media de esta muestra:

Con esta media puede utilizarse la función Poisson de Excel para determinar las probabilidades teóricas. Por ejemplo, con la función =POISSON(0,3.5909,) se obtiene el valor 0.0276, probabilidad de cero descomposturas, en una distribución Poisson con una media de 3.5909. Con esta función se generó la distribución de frecuencias Poisson de la tabla 14, donde también se incluyeron las frecuencias observadas y las esperadas agrupadas para respetar la regla de las 5, que obliga a utilizar al menos 5 frecuencias esperadas en cada categoría. Repasando, en este caso las frecuencias esperadas se obtienen multiplicando las probabilidades Poisson por 44, el número de horas muestreadas. Finalmente, la última columna contiene solamente 6 frecuencias esperadas, ya que se agruparon en una sola categoría los 2 primeros renglones (0 y 1 descomposturas) y los últimos 9 (de 6 a 14 descomposturas) para cumplir el requerimiento de la regla del 5. Con n = 6 categorías y habiendo estimado la media de la distribución con los datos de la muestra, los grados de libertad son k – m - 1 = 6 – 1 – 1 = 4. Tomando en cuenta los grados de libertad, el valor crítico del estadístico de prueba es:

Tabla 14: Frecuencias observadas y esperadas. Ejemplo Poisson.

Fuente: Estadística Aplicada a la Administración y la Economía, Díaz Mata

Se resumen los cálculos de la x 2:

De manera que, como el valor calculado de x 2 (3.35) es menor que el valor crítico (9.49) no se rechaza la hipótesis nula y se concluye que la distribución de las descomposturas de máquinas por hora se ajusta a una distribución Poisson. 7

Pruebas de bondad de ajuste a una distribución binomial Para llevar a cabo esta prueba se comparan las frecuencias observadas, que pudieran ajustarse a una distribución binomial, con las frecuencias esperadas, determinadas, precisamente a partir de la distribución binomial. Ejemplo: Un gerente de operaciones está interesado en construir un modelo matemático que describa el comportamiento de las descomposturas de las máquinas utilizadas en la producción. Considera que ese comportamiento podría describirse mediante una distribución binomial. Para evaluar esta posibilidad toma una muestra de 30 semanas y cuenta las descomposturas en cada máquina. Los resultados son los siguientes: 7

Ejemplo de prueba de bondad de ajuste a una distribución Poisson. “Estadística aplicada a la administración y la economía”. Alfredo Díaz Mata. Capítulo 11 – Pruebas de hipótesis con Ji – Cuadrada.

Solución: Las hipótesis para esta prueba son: H0: La distribución del número de descomposturas por semana se ajusta a una distribución binomial. H1: La distribución del número de descomposturas por semana se ajusta a una distribución binomial. Con los datos observados se calcula la probabilidad de que una máquina se descomponga en una semana cualquiera. El cálculo:

Con este valor de probabilidad para la descompostura de una máquina (estimado a partir de los datos muéstrales) se construye la distribución de probabilidad binomial teórica a partir de la función de probabilidad, con la función “Distr.Binom” de Excel:

Como los valores de las frecuencias esperadas deben ser de al menos 5, se suman los últimos 4 renglones:

De acuerdo con la distribución binomial, ya se tienen las frecuencias observadas (las de la muestra) y las esperadas (las teóricas). En el cuadro siguiente se resumen estos datos, también se combinaron los datos de 3 o más máquinas descompuestas para los valores observados en la muestra, por el requerimiento de la regla de las 5. Asimismo, se anotan los cálculos necesarios para determinar el valor de la x 2.

En este caso se estimó la p a partir de los datos muéstrales por lo que se tiene m = 1, y los grados de libertad son: gl = k – m – 1 4 – 1 – 1 = 2. El valor crítico del estadístico de prueba es: P( x 2 ≥ 5.99 |gl = 2) = 0.05 El valor calculado de la x 2 , 2.7974, es menor que su valor crítico, 5.99, entonces no se rechaza Ho y se concluye que la distribución de las descomposturas de esas máquinas sí se ajusta adecuadamente a una distribución binomial. 8

Pruebas de bondad de ajuste entre distribuciones empíricas En este tipo de pruebas se intenta evaluar si 2 o más poblaciones tienen distribuciones similares entre sí. Por ejemplo, conocer si la distribución de las calificaciones en cierta prueba es la misma en 2 poblaciones diferentes; saber si los hábitos (ver televisión, navegar en internet, o cualquier otra característica) se distribuyen de la misma manera en diferentes grupos de edades; averiguar si las razones por las que los consumidores compran cierto producto se distribuyen de la misma manera en estratos sociales diferentes. Se presentan en seguida un par de ejemplos. Ejemplo: En una fábrica quiere evaluarse si el número de descomposturas de máquinas es igual todos los días de la semana. Para hacerlo se obtuvieron datos de descomposturas promedio por cada día de la semana. Los resultados se muestran a continuación: Pruebe la hipótesis con un nivel de significación de 0.05. Solución: Las hipótesis: 8

Ejemplo de prueba de bondad de ajuste a una distribución binominal. “Estadística aplicada a la administración y la economía”. Alfredo Díaz Mata. Capítulo 11 – Pruebas de hipótesis con Ji – Cuadrada.

H0: El número de descomposturas de máquinas es igual todos los días de la semana. H1: El número de descomposturas de máquinas no es igual todos los días de la semana. Se tienen 6 grados de libertad; por lo tanto, el valor crítico de la x 2 es 12.5916, ya que:

Además, como la hipótesis nula plantea que se descompone el mismo número de máquinas todos los días y la suma de las descomposturas observadas es 70, el número de descomposturas debería ser de 10 diarias en caso de que esta hipótesis fuera cierta. En la tabla siguiente se resumen estos datos y se realizan las operaciones necesarias para calcular la x 2:

La x 2 calculada es 5.8, menor que el valor crítico, 12.59; entonces no es posible rechazar la hipótesis nula y se concluye que, efectivamente, el número de máquinas descompuestas es igual en todos los días de la semana.9

Prueba de independencia Para aceptar o rechazar una hipótesis hay que considerar lo siguiente:  



9

Fijar las hipótesis que se quieren contrastar: La hipótesis nula H 0 y la hipótesis alternativa H1. Estas hipótesis son complementarias una de otra. Fijar el nivel de significación, o probabilidad máxima de rechazar la hipótesis nula H 0, en caso de que sea cierta. Recordemos que el nivel de significación α es la probabilidad de Error Tipo I (probabilidad de rechazar la hipótesis nula, cuando de hecho es cierta). Elegir un estadístico de contraste, que tenga alguna relación con la hipótesis. Formación a partir del estadístico de una regla de decisión, dividiendo los posibles valores del estadístico en dos regiones: o Si el estadístico cae en la región crítica (o de rechazo), se rechaza la hipótesis nula; o si el estadístico cae en la región de aceptación, no se puede rechazar la hipótesis nula.

Ejemplo de prueba de bondad de ajuste entre distribuciones empíricas. “Estadística aplicada a la administración y la economía”. Alfredo Díaz Mata. Capítulo 11 – Pruebas de hipótesis con Ji – Cuadrada.



Se comprueba el valor del estadístico y se toma la decisión de rechazar o no la hipótesis.

En el contraste de independencia, se desea decidir si las dos variables en una tabla de contingencia están o no asociadas. Siguiendo los pasos anteriores, se tendría 





Fijar las hipótesis que se quieren contrastar. Estas hipótesis son las siguientes: o H0: Las variables en filas y columnas de la tabla son independientes o H1: Hay asociación entre las filas y columnas de la tabla Fijamos el nivel de significación; lo más usual es elegir un valor α=0,05. Esto quiere decir que la probabilidad máxima que fijamos para el error tipo I (rechazar la hipótesis de independencia cuando sea falsa) es 0,05. Elegir un estadístico de contraste, que tenga alguna relación con la hipótesis. En este caso, 2

χ 2exp =

( f −e ) ∑ ∑ ij e ij → χ(2n−1)( m−1 ) i j ij , que tiene

elegimos el estadístico Ji-cuadrado, relación con la hipótesis nula, pues se basa en la comparación de frecuencias observadas y frecuencias esperadas en caso de independencia. Si la hipótesis nula H0 es cierta (hay independencia entre filas y columnas) es de esperar un valor del ji-cuadrado será pequeño y si, por el contrario es falsa, será grande. Formaremos una regla decisión, dividiendo los posibles valores de ji- cuadrado en dos regiones: 2

o

χ exp tiene una probabilidad menor que α (nivel de Si el valor calculado significación) rechazamos la hipótesis nula H0 (hay independencia entre filas y columnas), pues el valor obtenido es improbable para una tabla con filas y columnas independientes. En este caso, suponemos que las variables están asociadas. 2

o

Si el valor calculado χ exp tiene una probabilidad igual o mayor que α (nivel de significación) no podemos rechazar la hipótesis nula H0. En este caso no tomamos ninguna decisión.

El rechazo de la hipótesis nula tiene más fuerza que su aceptación, pues se toma como base en una situación muy poco probable: De ser cierta la independencia de las variables es muy poco probable obtener un alto valor de Ji- cuadrado. Por tanto, si obtenemos un alto valor de Jicuadrado, se rechaza la hipótesis como cierta. Pero un valor pequeño de Ji cuadrado puede ser debido a varias causas: Puede ser que las variables sean independientes; puede ser que estén asociadas, pero la asociación sea muy pequeña; o puede ser que el tamaño de la muestra de datos sea pequeño y no permita ver la asociación. En este caso (cuando no podemos rechazar la hipótesis nula) tendríamos que estudiar mejor los datos para ver por qué se obtiene este valor pequeño de Ji- cuadrado. Ejemplo Deporte y bienestar Un investigador quiere estudiar si hay asociación entre la práctica deportiva y la sensación de bienestar. Extrae una muestra aleatoria de 100 sujetos. Los datos aparecen a continuación.

Tabla 15 Ejemplo - Prueba de Independencia

Sensación de Bienestar Sí No Total

Práctica deportiva Sí No 20 25 10 45 30 70

Total 45 55 100

Fuente: El estadístico Chi-cuadrado y contrastes asociados. Ronald Aylmer Fisher

Contraste la hipótesis de independencia entre bienestar y práctica de deporte (alfa = 0,01).

Primero calculamos las frecuencias esperadas en caso de independencia:

e ij=

f i. f . j n

Tabla 16 Ejemplo: Frecuencias. Prueba de independencia

Sensación de

Práctica deportiva Sí

No



13,5

31,5

No

16,5

38,5

Bienestar

Fuente: El estadístico Chi-cuadrado y contrastes asociados. Ronald Aylmer Fisher

Posteriormente calculamos el estadístico Ji-cuadrado: χ 2exp =

( f ij−eij )2 ∑∑ e i j ij

= 3,1296 + 2,5606 + 1,3413 + 1,0974 = 8,13

Los grados de libertad son: (n-1) x (m-1) = 1 x 1 = 1; Mirando en la tabla Ji-cuadrado obtenemos que la probabilidad de obtener un valor 8,13 o mayor con 1 grado de libertad es p = 0,004. Por tanto, el valor es estadísticamente significativo, pues es menor que 0,01. La decisión que se debe tomar es rechazar la hipótesis de independencia entre bienestar y práctica deportiva.10

Contraste de homogeneidad Otro caso en que usamos una tabla de contingencia es aquél en que se dispone de una población (X) clasificada en (r) subpoblaciones (x1, x2,...,xr). En cada una de estas poblaciones se toma una muestra, y los individuos de la misma se clasifican según una variable (Y) que puede tomar (m) valores posibles (y1, y2.....ym). Sea pij la proporción de individuos que, en la población x i tiene como valor de Y=yj. Un contraste de homogeneidad es cuando se desean contrastar las dos hipótesis siguientes: H0:p1j = p2j = ...... = pmj para todo j; dicho de otro modo, todas las subpoblaciones tienen idéntica distribución para la variable Y. 10

Ejemplo de prueba de Independencia. “El estadístico Chi-cuadrado y contrastes asociados”. Ronald Aylmer Fisher

H1: algunas de estas proporciones son diferentes. Dicho de otro modo, la distribución de la variable Y en alguna de estas subpoblaciones es diferente El principal objetivo de realizar este contraste es comprobar que las distribuciones de todas las subpoblaciones son iguales o si hay alguna que difiere. Esto resulta práctico para poder combinar los resultados de todas las subpoblaciones, pues es necesario asegurarse de que los datos de las distintas muestras que se pretende agrupar son homogéneos. Ejemplo - Grupo sanguíneo. Se desea saber si la distribución de los grupos sanguíneos es similar en los individuos de dos poblaciones. Para ello se elige una muestra aleatoria de cada una de ellas, obteniéndose los siguientes datos ¿Qué decisión se debe tomar? Tabla 17 Datos ejemplo de prueba homogénea

A 90

AB 11 0 200 180 24 0 290 260 35 0

Muestra 1 Muestra 2 Total

B 80

0 Total 20 300 30 650 50 950

Fuente: El estadístico Chi-cuadrado y contrastes asociados. Ronald Aylmer Fisher

Calculamos las frecuencias esperadas: Tabla 18: Frecuencias esperadas

A Muestra 1 Muestra 2

B

AB

0

91.5789 82.105 110.53 15.789 198.421 177.89 239.47 34.211

Fuente: El estadístico Chi-cuadrado y contrastes asociados. Ronald Aylmer Fisher

Posteriormente calculamos: χ 2exp =

( f ij−eij )2 ∑∑ e i j ij = 1,76

Los grados de libertad son: (n-1) x (m-1) = 1 x 3 = 3 Mirando en la tabla Ji-cuadrado obtenemos que la probabilidad de obtener un valor 7,81 o mayor con 3 grado de libertad es p = 0,184. Por tanto el valor es, no estadísticamente significativo, pues es mayor que 0,01. Aceptamos la hipótesis de homogeneidad de grupos sanguíneos en las dos muestras.

Excel y la distribución ji cuadrada la función de Excel Prueba.Chi.Inv da la probabilidad de que la x 2sea mayor o igual que determinado valor para un número de grados de libertad especificado. Esta información es la que se registra en las tablas de áreas bajo la curva de esta distribución, misma que permite determinar los valores críticos de la distribución para realizar pruebas de hipótesis. Este paquete de Microsoft tiene otras 2 funciones relacionadas con esta distribución:  

DISTR.CHI (x, grados de libertad) PRUEBA.CHI (rango de frecuencias observadas, rango de frecuencias esperadas).

Función Distr.Chi La función Distr.Chi da como resultado la probabilidad de que ocurra una variable ji cuadrada de determinada magnitud, x, para los grados de libertad especificados. Esta función puede servir para resolver pruebas de hipótesis utilizando el método de π que ya se ha revisado.

La función Prueba.Chi La función Prueba.Chi también es muy útil, es posible que lo sea aún más que las otras 2, considerando que ahorra la laboriosa tarea de los cálculos de:

Las operaciones de esta fórmula son necesarias para determinar el valor calculado de la ji cuadrada y brinda la probabilidad de obtener una ji cuadrada calculada como la que producen los datos, mismos que Excel no revela con esta función. La sintaxis de esta función es: Prueba.Chi(rango de frecuencias observadas, rango de frecuencias esperadas)

Conclusiones La herramienta de ji-cuadrada es una prueba no paramétrica, útil para comparar las hipótesis observadas con las hipótesis esperadas de una muestra. Esta prueba tiene distintas aplicaciones entre las más comunes y utilizadas están: pruebas de bondad de ajuste, prueba de independencia y prueba de homogeneidad.

Referencias Bibliográficas Díaz Mata, A. (2013). Estadística Aplicada a la Administración y la Economía (1st ed., pp. 315-338). México DF: Mc Graw Hill Educación. Allen L. Webster. Estadística Aplicada a los negocios y la economía. (Tercera edición, pp.462-496). Mc Graw Hill Ronald Aylmer Fisher. Tema: El estadístico Chi-cuadrado y contrastes asociados.