Chi Cuadrada

PRUEBA CHI-CUADRADA 1. DEFINICIÓN Es una prueba de significación estadística, conocida también como jicuadrada, nos perm

Views 161 Downloads 17 File size 370KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

PRUEBA CHI-CUADRADA 1. DEFINICIÓN Es una prueba de significación estadística, conocida también como jicuadrada, nos permite analizar variables medidas a nivel nominal, orientándose a: a) Probar la supuesta independencia de dos variables cualitativas de una población, b) Hacer inferencias sobre más de dos proporciones de una población. c) Hacer inferencias sobre la varianza de la población. d) Realizar pruebas de bondad de ajuste para evaluar la credibilidad de que los datos muestrales, vienen de una población cuyos elementos se ajustan a un tipo específico de distribución de probabilidad. La distribución ji-cuadrada, es una distribución de probabilidad, además tiene un sesgo positivo como se puede observar en la siguiente figura:

La distribución de ji–cuadrada, o Chi-cuadrada, como también se le conoce, tiende a la normalidad, tal y como se muestra en la siguiente figura a medida que aumentan los grados de libertad.

2. TIPOS DE PRUEBAS DE CHI-CUADRADA 2.1. UNA VARIABLE 2.1.1. PRUEBAS DE BONDAD DE AJUSTE Consiste en determinar si los datos de cierta muestra corresponden a cierta distribución poblacional. En este caso es necesario que los valores de la variable en la muestra y sobre la cual queremos realizar la inferencia esté dividida en clases de ocurrencia, o equivalentemente, sea cual sea la variable de estudio, se debe categorizar los datos asignando sus valores a diferentes clases o grupos. Este análisis permite probar qué tan bien una muestra de datos categóricos se ajusta a una distribución teórica. 2.1.1.1. Procedimiento para elaborar una prueba de bondad y ajuste. a) Obtener la frecuencia observada (F.O), proveniente de una encuesta, estudio o experimento. b) Determinar la frecuencia esperada (F.E) c) Establecer el nivel de significancia d) Determinar los grados de libertad. De la siguiente manera:

La regla general para el cálculo de los grados de libertad en una prueba de bondad y ajuste, consiste en primero “emplear la regla (K-1) y luego se resta un grado adicional de libertad para cada parámetro de población que tenga que ser estimado de los datos de la muestra. e) Plantear las hipótesis H0: lo que se sostiene el supuesto valor del parámetro. H1: lo que contradice al supuesto valor del parámetro. f) Construir las áreas de aceptación y rechazo. g) Calcular jí-cuadrada.

h) Tomar una decisión y emitir una conclusión, en términos del problema.

2.1.1.2.

APLICACIÓN

Un dado se lanzó 36 veces, haga una prueba con un nivel de significancía del 5%, para comprobar si el dado es legal o no. Los resultados obtenidos del ejercicio fueron los siguientes: NUMERO DE PUNTOS

1 3

FRECUENCIA OBSERVADA

2 5

3 4 8 7

5 6

6 7

 Obtener la frecuencia esperada. #Puntos 1 2 3 4 5 6 TOTAL

F.O. F.E. 3 5 8 7 6 7 36

6 6 6 6 6 6 36

(𝐹. 𝑂. −𝐹. 𝐸. )2 𝐹. 𝐸 1.5 0.1666 0.6666 0.1666 0 0.1666  =2.6664

 Calcular los grados de libertad. 𝛼 = 0.05 g.l.=6-1=5  X2=11.070

 Plantear las hipótesis H0: La frecuencia observada en el lanzamiento del dado es igual a la frecuencia esperada, de dicho lanzamiento. H1: La frecuencia observada en el lanzamiento del dado es diferente a la frecuencia esperada, de dicho lanzamiento.

 Establecer las áreas de aceptación y rechazo

 Conclusión Aceptar H0: Se encontró evidencia estadística, con un nivel de significancía del 5%, que el dado es legal. 2.2. DOS VARIABLES 2.2.1. PRUEBA DE HOMOGENEIDAD

Determinar si los datos correspondientes a dos o más muestras aleatorias provienen de la misma población. El conjunto de posibles valores de las observaciones se divide en k conjuntos disjuntos: A1, A2,…, Ak; clasificando en ellos las observaciones de cada muestra. Si nij representa el número de observaciones de la muestra i que pertenecen al conjunto Aj, los datos pueden tabularse en lo que denomina una tabla de contingencia. Muestra 1 2 … m Total

A1 n11 n21

A2 n12 n22

Nm1 n1

Nm2 n2



Ak n1k n2k

Total n1 n2

Nmk nk

Nm n

La hipótesis de que las m poblaciones son homogéneas, se traduce en que cada conjunto Aj debe tener una probabilidad teórica pj, desconocida, pero que no varía de la población i a la población i’. Esto debe verificarse para todas las categorías,

i.e., las categorías deben ser homogéneas en las diversas muestras. Del mismo modo que la Prueba de Bondad de Ajuste, en este caso debemos comparar las frecuencias observadas en cada una de las muestras y para cada categoría con las frecuencias bajo el supuesto de homogeneidad en las poblaciones. En este caso las frecuencias observadas corresponden al número de individuos de la muestra i en la clase j, i.e., nij. El estadístico de contraste será: 𝑛

𝑋

2∗

𝑘

(𝑛𝑖𝑗 − 𝑒𝑖𝑗 )2 = ∑∑ 𝑒𝑖𝑗 𝑖=𝑙 𝑗=𝑙

Donde eij es la frecuencia esperada bajo el supuesto de homogeneidad, que puede representarse como NI PJ, es decir, el número de individuos en la muestra i por la probabilidad de que ocurra la característica j en la población. Para el cálculo de las probabilidades de pertenecer un individuo a cada una de ñas categorías podemos utilizar: Pi = nj / n Por lo tanto: eij = ni*nj / n Observar que este valor será la suma de n*k números no negativos. El numerador de cada término es la diferencia entre la frecuencia observada y la frecuencia esperada. Por tanto, cuanto más cerca estén entre sí ambos valores más pequeño será el numerador, y viceversa. El denominador permite relativizar el tamaño del numerador. Las ideas anteriores sugieren que, cuanto menor sean el valor del estadístico χ2, más coherentes serán las observaciones obtenidas con los valores esperados. Por el contrario, valores grandes de este estadístico indicarán falta de concordancia entre las observaciones y lo esperado. En este tipo de contraste se suele rechazar la hipótesis nula (los valores observados son coherentes con los esperados) cuando el estadístico es mayor que un determinado valor crítico. Notas: - El valor del estadístico χ2∗se podrá aproximar por una distribución Chi-cuadrado cuando eltamaño muestral n sea grande (n > 30), y todas las frecuencias esperadas sean iguales omayores a 5 (en ocasiones deberemos agrupar varias categorías a fin de que se cumplaeste requisito).

-

Las observaciones son obtenidas mediante muestreo aleatorio en cada muestra a partir deuna población particionada en categorías.

Concretamente, se utilizara el estadístico: ∗

𝑋 2 = ∑𝑘𝑖=1

( 𝑂𝑖 −𝐸𝑖 )2 𝐸𝑖

con (n-1) (k-1) grados de libertad.

2.2.1.1. APLICACIÓN Estamos interesados en estudiar la fiabilidad de cierto componente informático con relación al distribuidor que nos lo suministra. Para realizar esto, tomamos una muestra de 100 componentes de cada uno de los 3 distribuidores que nos sirven el producto comprobando el número de defectuosos en cada lote. La siguiente tabla muestra el número de defectuosos en para cada uno de los distribuidores.

Distribuidor 1 Distribuidor 2 Distribuidor 3

Componentes Defectuosos 16 24 9 49

Componentes Correctos 94 76 81 251

100 100 100 300

Solución Debemos realizar un contraste de homogeneidad para concluir si entre los distribuidores existen diferencias de fiabilidad referente al mismo componente.

Distribuidor 1 Distribuidor 2 Distribuidor 3

Componentes Defectuosos 16 (16.33) 24 (16.33) 9 (16.33) 49

Componentes Correctos 94 (83.66) 76 (83.66) 81 (83.66) 251

100 100 100 300

Las frecuencias esperadas bajo homogeneidad son las representadas entre paréntesis. El estadístico del contraste será: (16 − 16.33)2 (24 − 16.33)2 (9 − 16.33)2 𝑋2 = + + 16.33 16.33 16.33 (94 − 83.66)2 (76 − 83.66)2 + + 83.66 83.66 (81 − 83.662 + = 8.9632 83.66

Este valor del estadístico Ji-cuadrado es mayor que el valor para el nivel de significación del 5%, por lo tanto debemos concluir que no existe homogeneidad y por lo tanto que hay diferencias entre los tres distribuidores. X20.05 (2) = 5.99 2.2.2. PRUEBA DE INDEPENDENCIA La prueba de independencia Chi-cuadrado, nos permite determinar si existe una relación entre dos variables categóricas. Es necesario resaltar que esta prueba nos indica si existe o no una relación entre las variables, pero no indica el grado o el tipo de relación; es decir, no indica el porcentaje de influencia de una variable sobre la otra o la variable que causa la influencia. Tenemos que recordar cuales son los eventos independientes y los dependientes. - Dos eventos aleatorios, A y B, son eventos independientes, si la probabilidad de un evento no está afectada por la ocurrencia del otro evento; por lo tanto p(A)=p(A/B). - Dos eventos aleatorios, A y B, son eventos dependientes si la probabilidad de un evento está afectada por la ocurrencia del otro; por lo tanto p(A) ≠ P(A/B). Se diferencia de los contrastes anteriores mencionados en que en este caso estamos interesados en ver la relación existente entre dos variables de una misma población, no queremos contrastar la distribución teórica de una variable (prueba de bondad de ajuste) ni en comparar la distribución de una única variable en dos poblaciones (prueba de homogeneidad). Una prueba de independencia usa la pregunta de si la ocurrencia del evento A es independiente a la ocurrencia del evento B, por lo que el planteamiento de la hipótesis para esta prueba de independencia es; H0; La ocurrencia del evento A es independiente del evento B. H1; La ocurrencia del evento A no es independiente del evento B. En las pruebas de independencia se utiliza el formato de la tabla de contingencia, y por esa razón a veces se le llama prueba de tabla de contingencia, o prueba con tabla de contingencia. Una tabla que clasifica datos o más categorías, relacionados con cada una de las variables cualitativas, que pueden ser o no estadísticamente independientes, se conoce como tabla de contingencias. Dicha tabla muestra todas las posibles combinaciones de categorías, o contingencias, que explican su nombre.

B1 B2 … Br Total

A1 n11 n21

A2 n12 n22

nr1 n1

rr2 n2



Ak n1k N2k

Total n1 n2

nrk nk

nr n

A la suma de todas las razones que se puedan construir al tomar la diferencia entre cada frecuencia observada y esperada, en una tabla de contingencia, elevándola al cuadrado, y luego dividiendo esta desviación cuadra entre la frecuencia esperada, se le llama estadístico ji cuadrada. 2.2.2.1. Procedimiento para elaborar una prueba de independencia - Obtener la frecuencia observada (F.O), proveniente de una encuesta, estudio o experimento. - Resumir los datos obtenidos, es decir, la frecuencia observada, en un cuadro de contingencia. - Calcular la frecuencia esperada (F.E), y se calcula con la siguiente fórmula: (𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑚𝑛𝑎)(𝑇𝑜𝑡𝑎𝑙 𝑟𝑒𝑔𝑙𝑜𝑛) 𝐹. 𝐸 = 𝐺𝑟𝑎𝑛 𝑡𝑜𝑡𝑎𝑙 - Determinar el nivel de significancia (α), y los grados de libertad, con la siguiente fórmula: 𝑔. 𝑙 = (# 𝑟𝑒𝑔𝑙𝑜𝑛𝑒𝑠)(# 𝑐𝑜𝑙𝑢𝑚𝑛𝑎𝑠) - Plantear las hipótesis: H0: Independencia H1: Dependencia - Construir las áreas de aceptación y rechazo - Calcular Ji-Cuadrada X2 𝑛 (𝐹. 𝑂 − 𝐹. 𝐸)2 X 2𝐶 = ∑ 𝐹. 𝐸 𝑖−1 - Tomar una decisión y emitir una conclusión en términos del problema. 2.2.2.2. APLICACIÓN Una agencia de publicidad desea saber si el género de los consumidores es independiente de sus preferencias de cuatro marcas de café. La respuesta determinara si se deben diseñar diferentes anuncios dirigidos a los hombres y otros diferentes para las mujeres. Realice la prueba con un nivel de significancia del 5%.

Desarrollo: - Los resultados obtenidos de la encuesta realizada a 139 personas fue: Marca Hombres Mujeres A 18 32 B 25 15 C 15 10 D 12 12 - Elaboración de la tabla de contingencia. Marca A B C D Sexo H

18

25

15

12

70

M

32

15

10

12

69

50

40

25

24

139

- Calcular la Frecuencia Esperada. 70 𝑥 50 𝐹. 𝐸1 = = 25.1798 139 70 𝑥 40 𝐹. 𝐸2 = = 20.1438 139 70 𝑥 25 𝐹. 𝐸3 = = 12.5899 139 70 𝑥 24 𝐹. 𝐸4 = = 12.0863 139 69 𝑥 50 𝐹. 𝐸5 = = 24.8201 139 69 𝑥 40 𝐹. 𝐸6 = = 19.8561 139 69 𝑥 25 𝐹. 𝐸7 = = 12.4100 139 69 𝑥 24 𝐹. 𝐸8 = = 11.9136 139 Marca Sexo H M

≈ 25.18 ≈ 20.14 ≈ 12.59 ≈ 12.09 ≈ 24.82 ≈ 19.86 ≈ 12.41 ≈ 11.91

A

B

C

D

18

25

15

12

25.18

20.14

12.59

12.09

32

15

10

12

24.82

19.86

12.41

11.91

50

40

25

24

- Calcular los grados de libertad α = 0.05

70 69 139

𝑔. 𝑙 = (4 − 1 )(2 − 1) = 3 X2 = 7.815 - Plantear las hipótesis H0: La marca de café que se consume es independiente del sexo de una persona. H1: La marca de café que se consume depende del sexo de una persona. - Construcción de las áreas de aceptación y rechazo

- Calcular ji – cuadrada (18 − 25.18)2 (25 − 20.14)2 𝑋2𝑐 = + + 0.46 + 0.0006 + 2.07 25.18 20.14 + 1.19 + 0.46 + 0.0006 = 7.3912 - Tomar una decisión y concluir Aceptar H0: Con un nivel de confianza del 5% se encontró que la marca de café es independiente del sex de la persona. Por lo que se recomienda elaborar un solo tipo de anuncio.

BIBLIOGRAFÍA - https://support.minitab.com/es-mx/minitab/18/help-and-how to/statistics/tables/supportingtopics/chi-square/what-is-a-chi-square-test/ - https://www.ibm.com/support/knowledgecenter/es/SSLVMB_23.0.0/spss/base/idh_ntch.html - https://www.medwave.cl/link.cgi/Medwave/Series/MBE04/5266 - https://support.office.com/es-es/article/PRUEBA-CHI-funci%C3%B3n-PRUEBA-CHI-981ff871b694-4134-848e-38ec704577ac