Chi Cuadrado

PRUEBA CHI-CUADRADO. (bondad de ajuste) Esta prueba puede utilizarse incluso con datos medibles en una escala nominal. L

Views 368 Downloads 3 File size 3MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

PRUEBA CHI-CUADRADO. (bondad de ajuste) Esta prueba puede utilizarse incluso con datos medibles en una escala nominal. La hipótesis nula de la prueba Chi-cuadrado postula una distribución de probabilidad totalmente especificada como el modelo matemático de la población que ha generado la muestra.

Para realizar este contraste se disponen los datos en una tabla de frecuencias. Para cada valor o intervalo de valores se indica la frecuencia absoluta observada o empírica (Oi). A continuación, y suponiendo que la hipótesis nula es cierta, se calculan para cada valor o intervalo de valores la frecuencia absoluta que cabría esperar o frecuencia esperada (Ei=n·pi , donde n es el tamaño de la muestra y pi la probabilidad del i-ésimo valor o intervalo de valores según la hipótesis nula). El estadístico de prueba se basa en las diferencias entre la Oi y Ei y se define como:

Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad si n es suficientemente grande, es decir, si todas las frecuencias esperadas son mayores que 5. En la práctica se tolera un máximo del 20% de frecuencias inferiores a 5.

Si existe concordancia perfecta entre las frecuencias observadas y las esperadas el estadístico tomará un valor igual a 0; por el contrario, si existe una gran discrepancias entre estas frecuencias el estadístico tomará un valor grande y, en consecuencia, se rechazará la hipótesis nula. Así pues, la región crítica estará situada en el extremo superior de la distribución Chi-cuadrado con k-1 grados de libertad. PRINCIPALES APLICACIONES DE LA CHI‐CUADRADO Al analizar en una población un

carácter cualitativo o cuantitativo el estudio resulta muy tedioso por el gran número de elementos del que consta la población. Generalmente, se examina una muestra tomada de la población, lo que lleva a tener una serie de datos, y ver hasta qué punto la muestra se pude considerar perteneciente a una distribución teórica conocida. Siempre existirán desviaciones entre la distribución empírica u observada y la distribución teórica. Se plantea la cuestión de saber si estas desviaciones son debidas al azar o al haber tomado una distribución teórica inadecuada. CONTRASTE DE BONDAD DEL AJUSTE El objetivo del contraste de bondad del ajuste es saber si una muestra procede de una población teórica con determinada distribución de probabilidad. Sea una población, donde se analiza un carácter X con 12 k (x , x , , x )  modalidades excluyentes, denotando por i n es el número de elementos que presenta la modalidad i x (frecuencia observada de i x ), k i i 1 n n    Por otra parte, sea i i e n.p  la frecuencia esperada o teórica de cada modalidad i x

OBSERVACIONES DE LA APLICACIÓN a) El test de la 2  se puede aplicar en situaciones donde se desea decidir si una serie de datos (observaciones) se ajusta o no a una función teórica previamente determinada (Binomial, Poisson, Normal, etc.) b) Es necesario que las frecuencias esperadas de las distintas modalidades no sea inferior a cinco. Si alguna modalidad tiene una frecuencia esperada menor que cinco se agrupan dos o más modalidades contiguas en una sola hasta conseguir que la frecuencia esperada sea mayor que cinco. c) Los grados de libertad de la 2  dependen del número de parámetros que se necesitan hallar para obtener las frecuencias esperadas. En este sentido, si se requieren hallar p parámetros, los grados de libertad son (k p)  si las modalidades son independientes y (k p 1)   cuando las modalidades son excluyentes. TABLAS CONTIGENCIA: CONTRASTE DE DEPENDENCIA O INDEPENDENCIA

Se plantea la hipótesis nula ( No existe diferencia entre las distribuciones empíricas X,Y)

Las condiciones necesarias para aplicar el test de la Chi-cuadrado exige que al menos el 80% de los valores esperados de las celdas sean mayores que 5. Cuando esto no ocurre hay que agrupar modalidades contiguas en una sola hasta lograr que la nueva frecuencia sea mayor que cinco. En una tabla de contingencia de 2 2x será necesario que todas las celdas verifiquen esta condición, si bien en la práctica suele permitirse que una de ellas tenga frecuencias esperadas ligeramente por debajo de 5. El estadístico de contraste observado:

que sigue aproximadamente una Chi-cuadrado con (k 1) (m 1)  x  grados de libertad. Para un nivel de significación  se puede contrastar la diferencia significativa entre las dos distribuciones empíricas o la independencia de las distribuciones empíricas.

TABLAS CONTIGENCIA 2 x 2  y 2 x 3 Para las tablas de contingencia 2x2 y 2x3 se obtienen fórmulas sencillas de la 2  utilizando únicamente las frecuencias observadas

Coeficientes en distribuciones dicotómicas Los coeficientes más utilizados en variables dicotómicas son los de correlación phi  y Q de Yule. Estos coeficientes tienen algunas propiedades comunes de interés a) Están normalizados, las magnitudes no dependen del tamaño de la tabla. b) Son muy sensibles a la distribución empírica observada, traduciendo concentraciones de casos en algunas celdas en magnitudes. c) Tienen un recorrido teórico entre [-1, 1] indicando situaciones de asociación perfecta y de independencia estadística.

Ejemplo: Se tiene una muestra de 100 pacientes hospitalizados se puede observar que 50 son casados, 30 son solteros, 15 son viudos y cinco son divorciados

La hipótesis nula puede ser que las cuatro categorías de estado civil tienen igual representación dentro de la población de la que se extrajo la muestra. En este caso se esperaría que en este ejemplo hubiera 25 casados, 25 solteros, 25 viudos y 25 divorciados. Emplear un α = 0,05. El estadígrafo es la χ2 es un estadígrafo resumido que refleja el grado de congruencia global entre las frecuencias observadas y esperadas. • Si existe una congruencia muy estrecha entre las frecuencias observadas y las esperadas, el valor de χ2 es muy pequeño. • Si la congruencia es pobre, dicho valor es muy grande. Hipótesis: H0: las cuatro categorías del estado civil están igualmente representadas H1: las cuatro categorías del estado civil no están igualmente representadas Ahora se introducen los datos en la Vista de datos del programa SPSS. Debe quedarles así:

Como pueden observar solo se e mpleará una variable (una columna) y se i rán codificando con el númerno 1 para Casado (hay que poner un número 1 desde la fila 1 hasta la 50), el número 2 para Soltero (hay que poner un número 2 desde la fila 51 hasta la 80), el número 3 para Viudo (hay que poner un número 3 desde la fila 1 hasta la 95) y el número 4 para Divorciado (hay que poner un número 4 desde la fila 96 hasta la 100). En la Vista de variables deberá quedarles así pues es la codificación:

Ahora vamos al menú Analizar y damos un clic y saldrá un menú deplegable hacia abajo y nos pararemos con el mouse donde dice Pruebas no paramétricas y ahí saldrá otro menú desplegable y n os pararemos con el mouse donde dice Cuadros de diálogo antiguos y ahí saldrá otro menú y daremos un clic en Chi-cuadrado…. Deberá ser así:

Luego saldrá la ventana siguiente donde marcaremos con un clic la variable Estado civil y la pondremos en el cuadro que queda a la derecha debajo de donde dice Lista Contrastar variables:

Debe quedar asi:

Rsultados:

Interpretación: Vemos la tabla titulada Estado civil donde se muestran las frecuencias observadas y las esperadas para cada categoría de la variable Estado civil. Luego vemos la tabla Estadísticos de contraste donde vemos el valor del estadístico Jicuadrado (es el que dice Chi-cuadrado) con el valor de 46,000 con 3 grados de libertad (lo que dice gl 3) y el valor de p (es lo que dice Sig. asintót) que dio 0,000 y como debajo de esa tabla en las notas se plantea que hay 0 casillas (0,0%) tienen frecuencias esperadas menores que 5 entonces la prueba fue válida. Como el valor de p fue menor que 0,05 se rechaza la hipótesis nula y se concluye que hay evidencia suficiente para plantear que las cuatro categorías del estado civil no están igualmente representadas, con un nivel de significación del 5%

Prueba de rangos con signo de Wilcoxon: Se utiliza para dos muestras pareadas y la variable de respuesta es ordinal o cuantitativa. Es la homóloga no paramétrica de la prueba paramétrica t para muestras pareadas. Hipótesis: H0: No hay diferencias entre las observaciones pareadas H1: Sí hay diferencias entre las observaciones pareadas Pueden plantearse hipótesis unilaterales.

Ejemplo: Se desea estudiar la efectividad de cierta dieta y para ello se toma una muestra aleatoria de 12 mujeres adultas en el grupo de edad de 35-40 años. Se toma el peso (peso en libras) antes de iniciar la prueba y al mes de encontrarse realizando la dieta. Los resultados se muestran a continuación:

Respuesta: Hipótesis: H0: No hay diferencias entre el peso de las mujeres antes de iniciar la dieta y el peso un mes después. H1: El peso al mes de realizar la dieta es inferior al peso inicial. Se introducen así los datos en el programa SPSS en la Vista de datos:

Ahora sale el siguiente cuadro de dialogo:

Luego se hace lo siguiente: se pasa la variable Peso antes de la dieta (esta es la primera medición de cada paciente del estudio) para donde dice Variable 1 y luego se pasa la variable Peso después de la dieta (esta es la segunda medición de cada paciente del estudio, es la medición después de apicar la dieta) para donde dice Variable 2. Luego se

deja marcado el cuadrito que dice Wilcoxon. Deberá quedarles así:

Interpretación: (los resultados a comentar los destaqué en las tablas en amarillo): En la tabla titulada “Rangos” vemos que se analizaron 12 pares (las 12 mujeres que se estudiaron). Hubo siete rangos negativos, cuatro positivos y un empate. En la tabla titulada “Estadísticos de contrastes” se observa la fila Sig. asintót. (biateral)

y su valor de 0,045. Podemos decir que, como el valor de p (Sig. asintót. (biateral)) es menor que 0,05, entonces se rechaza la hipótesis nula y se concluye que hay evidencias suficientes para plantear que la dieta es efectiva en la reducción del peso con un nivel de significación del 5%.