Kolmogorov Smirnov para Dos Muestras Independientes

Universidad del Valle Facultad de Ingeniería Escuela de Estadística Programa Académico de Estadística No Paramétrica Cal

Views 210 Downloads 7 File size 435KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Universidad del Valle Facultad de Ingeniería Escuela de Estadística Programa Académico de Estadística No Paramétrica Cali, abril de 2020

Prueba de Kolmogorov - Smirnov para dos muestras independientes

Claudia Camila Alvarez Mendeza

1. Introducción El objetivo de este documento es mostrar las estrategias que se emplean para comparar distribuciones y evidenciar si existen diferencias entre ellas. Estas comparaciones pueden ser implementadas en diferentes ámbitos como por ejemplo en un estudio descriptivo para determinar si una variable se distribuye de forma distintiva entre dos grupos. Una aproximación que cuantifica la distancia entre distribuciones cuando se comparan estadísticos entre dos muestras usando indicadores de tendencia central o de dispersion es denominada el estadistico Kolmogorov-Smirnov, es recurrente en problemas de diferencias en la localización como también en la forma de la distribución. La prueba de Kolmogorv-Smirnov (K-S) es un tipo de prueba no paramétrica ya que en la inferencia es sus estimaciones presenta una distribucion libre, es decir los supuestos de normalidad y de varianza constante se flexibilizan evitando asi excesivas restricciones, presentando robustez y un aspecto importante es que es aplicable a muestras pequeñas. La característica principal de la prueba K-S es contrastar la hipotesis nula de que dos muestras indpendientes proceden de poblaciones con distribuciones continuas identicas contra una hipotesis alternativa de que las poblaciones difieren en algun aspecto, que pueden ser estadisticos de centralidad o con respecto a su varianza.

2. Marco Teórico Test de Kolmogorov-Smirnov para dos muestras Sean FX,m y FY,n , las funciones de distribución empíricas de ambas muestras. Los estadísticos del contraste de Kolmogorov-Smirnov para dos muestras son estos: Dm,n = sup|FX,m (x) − FY,n (x)|, + − Dm,n = supx (FX,m (x) − FY,n (x)), Dm,n = supx (FY,n (x) − FX,m (x)).

a Código:

1528899. E-mail: [email protected]

1

2

Prueba de Kolmogorov - Smirnov para dos muestras independientes

La siguiente tabla resume la forma de llevar a cabo los contrastes de igualdad de distribuciones: Hipótesis Nula FX (x) = FY (x) FX (x) = FY (x) FX (x) = FY (x)

Ha FX (x) 6= FY (x) FX (x) > FY (x) FX (x) < FY (x)

Región Crítica(nivel α Dobs m,n > Dm,n, α +,obs + Dm,n > Dm,n, α −,obs − Dm,n > Dm,n, α

p-valor obs P(Dm,n > Dm,n ) + +,obs P(Dm,n > Dm,n ) −,obs P(D− m,n > Dm,n )

+ − Para encontrar los valores Dm,n,α , Dm,n,α y Dm,n,α o calcular los p-valores es necesario conocer la + − distribución de los estadísticos Dm,n , Dm,n y Dm,n

Veamos que bajo H0 , y con FX = FY = F , esas distribuciones no dependen de la verdadera distribución F desconocida. En cuanto a la distribucion asintótica de los estimadores, esta viene dada en la siguiente proposición: Para tamaños muestrales n grandes y α = 0, 05 r Dm,n,α = 1.36

m+n mn

2.1. Hipótesis * H0 : Las dos muestras provienen de una misma población * Ha : Las dos muestras NO provienen de la misma población Se trabaja con un nivel de confianza de 1-α

2.2. Problema(s) de Interes Como en otros problemas de dos muestras, se tiene N=m+n observaciones * X1 , . . . , Xm son una muestra aleatoria i.i.d de la poblacion uno * Y1 , . . . , Yn son una muestra aleatoria i.i.d de la poblacion dos Se quiere hacer inferencia sobre las diferencias en las distribuciones * Se tiene F1 y F2 que corresponden a las distribuciones de las poblaciones uno y dos * La hipotesis nula tiene es la misma distribución (F1 (z) = F2 (z) para todo z) No se asume el modelo parametral de localización-escala * Prueba mas general que las otras * Se interesa en cualquier diferenecia entre

3. Presentación de Supuestos Dentro del supuesto de independencia de la muestra * X1 , . . . , Xm son una muestra aleatoria i.i.d de la poblacion uno * Y1 , . . . , Yn son una muestra aleatoria i.i.d de la poblacion dos Entre el supuesto de independencia de muestra m

n

* Las muestras {Xi }i=1 y {Yi }i=1 son mutuamente independientes Suposición de continuidad: tanto F1 como F2 son distribuciones continuas. No Paramétrica (2020)

3

Prueba de Kolmogorov - Smirnov para dos muestras independientes

4. Metodología de aplicación Este contraste puede utilizarse para la hipótesis nula de que las distribuciones continuas de las que han sido extraídas dos muestras aleatorias simples de tamaño m y n. 1. Se divide el espacio muestral en k intervalos(o sucesos) disjuntos, se calculan ambas funciones de distribución empíricas, Fm (x) y Fn (x). 2. Se calcula el estadístico Dm,n = sup|FX,m (x) − FY,n (x)| 3. Si las dos muestras proceden de la misma población, sus funciones de distribución empíricas no pueden ser muy distintas, por lo que el contraste es siempre de una cola, y se rechaza la hipótesis nula de igual distribución si el estadístico toma un valor suficientemente grande. 4. Se utilizan las tablas de este estadístico, para encontrar el umbral α tal que: P (Dm,n ≥ λ = α) q 5. Dicho valor crítico puede aproximarse, cuando ambas muestras son grandes, por: λ = k m+n m∗n 6. Siendo k = 1,22; 1,36; 1,63 a niveles de confianza del 90 %, 95 % y 99 %, para el contraste de dos colas, y de k = 1,07; 1,22 y 1,52 para contrastes de una sola cola.

5. Caso práctico Determinar si las siguientes dos muestras provienen de la misma distribución o población. * Variable: Edad * Grupos: Hombres y mujeres * n1: 80 y n2: 62 Ho: Las dos muestras provienen de una misma población Fn1 (X) = Fn2 (X) Ha: Las dos muestras NO provienen de la misma población

Fn1 (X) 6= Fn2 (X) Nivel de confianza: 95 % Estadístico de prueba: D(n1, n2) = max |Fn1 (X) − Fn2 (X)| Ho: Las edades de hombres y mujeres provienen de una misma población Ha: Las edades de hombres y mujeres NO provienen de la misma población

No Paramétrica (2020)

4

Prueba de Kolmogorov - Smirnov para dos muestras independientes

Edad 21-22 23-24 25-26 27-28 29-30 31-32 33-34 35-36 37-38 39-40 Total

Hombres 4 11 5 7 0 5 9 13 20 6 80

Mujeres 7 4 1 11 12 4 2 4 8 9 62

Tabla 1: Tabla de datos

Se calculan las frecuencias relativas y acumuladas Edad 21-22 23-24 25-26 27-28 29-30 31-32 33-34 35-36 37-38 39-40 Total

Hombres 4 11 5 7 0 5 9 13 20 6 80

Mujeres 7 4 1 11 12 4 2 4 8 9 62

% Hombres 0,05000 0,13750 0,06250 0,08750 0,00000 0,06250 0,11250 0,16250 0,25000 0,07500 1,0000

% Mujeres 0,1129 0,0645 0,0161 0,1774 0,1935 0,0645 0,0323 0,0645 0,1290 0,1452 1,0000

% acumHom 0,0500 0,1875 0,2500 0,3375 0,3375 0,4000 0,5125 0,6750 0,9250 1,0000 Fn1(X)

% acumMuje 0,1129 0,1774 0,1935 0,3710 0,5645 0,6290 0,6613 0,7258 0,8548 1,0000 Fn2(X)

Tabla 2: Tabla de frecuencias relativas y absolutas

Ahora se calcula las diferencias entre frecuencias y su valor absoluto Fn1(X) % Hombre Acum 0,0500 0,1875 0,2500 0,3375 0,3375 0,4000 0,5125 0,6750 0,9250 1,0000

Fn2(X) % Mujer Acum 0,1129 0,1774 0,1935 0,3710 0,5645 0,6290 0,6613 0,7258 0,8548 1,0000

Fn1 (X) − Fn2 (X) Diferencia -0,06290 0,01010 0,05650 -0,03350 -0,22700 -0,22900 -0,14880 -0,05080 0,07020 0.0000

|Fn1 (X) − Fn2 (X)| Valor absoluto 0,06290 0,01010 0,05650 0,03350 0,22700 0,22900 0,14880 0,05080 0,07020 0.0000

Tabla 3: Tabla de diferencias

No Paramétrica (2020)

5

Prueba de Kolmogorov - Smirnov para dos muestras independientes

Estadistico de prueba * D(n1, n2) = max|Fn1 (X) − Fn2 (X)| * D(80, 62) = 0.2290 Da = 1.36

q

80+62 (80)(62)

Punto critico * D(n1, n2) = max|Fn1 (X) − Fn2 (X)| * D(80, 62) = 0.2290 Da = 0.2301 Decisión D(80, 62) = 0.2290 < Da‘ = 0.2301 *Como D(80, 62) = 0.2290 es menor que Da‘ entonces NO se rechaxa H0 Con un nivel de significancia del 95 % se puede concluir que las edades de hombres como de mujeres provienen de una misma población.

5.1. Caso practico 2 Se quiere conocer si el resultados de destreza manual en 8 niños con problemas de aprendizaje (A) y 10 niños sin este problema (B) provienen de la misma población. Nivel de confianza del 95 % A 31,6 22,1 23,8 24,8 24,7 10,1 26,4 14,0

B 28,2 32,0 25,1 26,0 30,3 28,4 27,7 27,8 27,1 25,7

Tabla 4: Tabla de Resultados

Se calculan las frecuencias relativas y acumuladas. Resultados 10-15 15-20 20-25 25-30 30-35 Total

A 2 0 4 1 1 8

B 0 0 0 8 2 10

%A 0,25 0 0,5 0,125 0,125 1

%B 0 0 0 0,8 0,2 1

%A acumulado 0,25 0,25 0,75 0,875 1

%B acumulado 0 0 0 0,8 1

Tabla 5: Tabla de Resultados con frecuencias relativas y absolutas

No Paramétrica (2020)

6

Prueba de Kolmogorov - Smirnov para dos muestras independientes

Se hallan las diferencias entre las frecuencias y su valor absoluto Fn1 (X) % A Acum 0,25 0,25 0,75 0,875 1

Fn2 (X) % B Acum 0 0 0 0,8 1

Fn1 (X) − Fn2 (X) Diferencia 0,25 0,25 0,75 0,075

|Fn1 (X) − Fn2 (X)| Valor absoluto 0,25 0,25 0,75 0,075

Tabla 6: Tabla de Resultados de las diferencias entre frecuencias

Estadistico de prueba y punto critico a) * D(n1, n2) = max|Fn1 (X) − Fn2 (X)| * D(8, 10) = 0.75 Da = 0.525 (por la tabla) Decisión D(8, 10) = 0.75 >Da‘ = 0.525 * Como D(8,10) = 0.75 es mayor que Da‘ entonces se rechaza H0 Con un nivel de confianza del 95 % se puede concluir que la muestra de los niños con problemas de aprendizaje no provienen de la misma población que los niños con este problema.

6. Pruebas similares en el campo paramétrico y no paramétrico La prueba Z de Kolmogorov-Smirnov (K-S) y la prueba de rachas de Wald-Wolfowitz son pruebas más generales que detectan las diferencias entre las posiciones y las formas de las distribuciones. La prueba K-S se basa en la diferencia máxima absoluta entre las funciones de distribución acumulada observadas para ambas muestras. Cuando esta diferencia es significativamente grande, se consideran diferentes las dos distribuciones. La prueba de rachas de Wald-Wolfowitz combina y ordena las observaciones de ambos grupos. Si las dos muestras proceden de una misma población, los dos grupos deben dispersarse aleatoriamente en la clasificación. La prueba U de Mann-Whitney es la más conocida de las pruebas para dos muestras independientes. Es equivalente a la prueba de la suma de rangos de Wilcoxon y a la prueba de Kruskal-Wallis para dos grupos. La prueba de Mann-Whitney contrasta si dos poblaciones muestreadas son equivalentes en su posición. En las pruebas paramétricas similares a la K-S se tiene la t-student para la diferencia de dos medias cuando las muestras son independientes pero no puede suponerse la normalidad de las poblaciones de origen. La prueba de UNA muestra de K-S puede en todos los casos en que se aplique ser más potente que su prueba alternativa la prueba paramétrica Chi cuadrado.

No Paramétrica (2020)

7

Prueba de Kolmogorov - Smirnov para dos muestras independientes

7. Conclusiones * Se puede concluir que la prueba K-S para dos muestras independientes es mas potente cuando los tamaños de muestra son grandes * Es una prueba que sirve para comprobar que las muestras provienen de la distribución normal * Tiene más potencia para el caso en que las distribuciones tienen diferentes medianas que para el caso en que, teniendo la misma posición central, difieren en su dispersión.

Referencias [1] Pedro Delicado. Curso de Modelos no Paramétricos. Departament d’Estadística i Investigació Operativa, Universitat Politécnica de Catalunya.2008 [2] Jaramillo Elorza, M.C. Notas de clase de estadística no paramétrica [3] https://www.ibm.com/support/knowledgecenter/es/SSLVMBs ub/statisticsm ainhelpd dita /spss/base/twoi ndependents amplest estt ypes.html [4] http://www4.ujaen.es/ mpfrias/TablasInferencia.pdf [5] http://www.ub.edu/aplicai nf or/spss/cap6 − 2.htm [6] https://www.ucm.es/data/cont/docs/518-2013-11-13-noparam.pdf [7] http://www-eio.upc.edu/ delicado/docencia/ApuntesM odelsN oP arametrics.pdf

No Paramétrica (2020)

Prueba de Kolmogorov - Smirnov para dos muestras independientes

8

Anexos

Figura 1: Tabla K-S para dos muestras de distinto tamaño

No Paramétrica (2020)

Prueba de Kolmogorov - Smirnov para dos muestras independientes

9

Figura 2: Tabla K-S para dos muestras de distinto tamaño

No Paramétrica (2020)

Prueba de Kolmogorov - Smirnov para dos muestras independientes

10

Figura 3: Tabla K-S para dos muestras de igual tamaño

Figura 4: Tabla K-S para dos muestras de igual tamaño

No Paramétrica (2020)