Universidad del Valle Facultad de Ingeniería Escuela de Estadística Programa Académico de Estadística No Paramétrica Cal
Views 210 Downloads 7 File size 435KB
Universidad del Valle Facultad de Ingeniería Escuela de Estadística Programa Académico de Estadística No Paramétrica Cali, abril de 2020
Prueba de Kolmogorov - Smirnov para dos muestras independientes
Claudia Camila Alvarez Mendeza
1. Introducción El objetivo de este documento es mostrar las estrategias que se emplean para comparar distribuciones y evidenciar si existen diferencias entre ellas. Estas comparaciones pueden ser implementadas en diferentes ámbitos como por ejemplo en un estudio descriptivo para determinar si una variable se distribuye de forma distintiva entre dos grupos. Una aproximación que cuantifica la distancia entre distribuciones cuando se comparan estadísticos entre dos muestras usando indicadores de tendencia central o de dispersion es denominada el estadistico Kolmogorov-Smirnov, es recurrente en problemas de diferencias en la localización como también en la forma de la distribución. La prueba de Kolmogorv-Smirnov (K-S) es un tipo de prueba no paramétrica ya que en la inferencia es sus estimaciones presenta una distribucion libre, es decir los supuestos de normalidad y de varianza constante se flexibilizan evitando asi excesivas restricciones, presentando robustez y un aspecto importante es que es aplicable a muestras pequeñas. La característica principal de la prueba K-S es contrastar la hipotesis nula de que dos muestras indpendientes proceden de poblaciones con distribuciones continuas identicas contra una hipotesis alternativa de que las poblaciones difieren en algun aspecto, que pueden ser estadisticos de centralidad o con respecto a su varianza.
2. Marco Teórico Test de Kolmogorov-Smirnov para dos muestras Sean FX,m y FY,n , las funciones de distribución empíricas de ambas muestras. Los estadísticos del contraste de Kolmogorov-Smirnov para dos muestras son estos: Dm,n = sup|FX,m (x) − FY,n (x)|, + − Dm,n = supx (FX,m (x) − FY,n (x)), Dm,n = supx (FY,n (x) − FX,m (x)).
a Código:
1528899. E-mail: [email protected]
1
2
Prueba de Kolmogorov - Smirnov para dos muestras independientes
La siguiente tabla resume la forma de llevar a cabo los contrastes de igualdad de distribuciones: Hipótesis Nula FX (x) = FY (x) FX (x) = FY (x) FX (x) = FY (x)
Ha FX (x) 6= FY (x) FX (x) > FY (x) FX (x) < FY (x)
Región Crítica(nivel α Dobs m,n > Dm,n, α +,obs + Dm,n > Dm,n, α −,obs − Dm,n > Dm,n, α
p-valor obs P(Dm,n > Dm,n ) + +,obs P(Dm,n > Dm,n ) −,obs P(D− m,n > Dm,n )
+ − Para encontrar los valores Dm,n,α , Dm,n,α y Dm,n,α o calcular los p-valores es necesario conocer la + − distribución de los estadísticos Dm,n , Dm,n y Dm,n
Veamos que bajo H0 , y con FX = FY = F , esas distribuciones no dependen de la verdadera distribución F desconocida. En cuanto a la distribucion asintótica de los estimadores, esta viene dada en la siguiente proposición: Para tamaños muestrales n grandes y α = 0, 05 r Dm,n,α = 1.36
m+n mn
2.1. Hipótesis * H0 : Las dos muestras provienen de una misma población * Ha : Las dos muestras NO provienen de la misma población Se trabaja con un nivel de confianza de 1-α
2.2. Problema(s) de Interes Como en otros problemas de dos muestras, se tiene N=m+n observaciones * X1 , . . . , Xm son una muestra aleatoria i.i.d de la poblacion uno * Y1 , . . . , Yn son una muestra aleatoria i.i.d de la poblacion dos Se quiere hacer inferencia sobre las diferencias en las distribuciones * Se tiene F1 y F2 que corresponden a las distribuciones de las poblaciones uno y dos * La hipotesis nula tiene es la misma distribución (F1 (z) = F2 (z) para todo z) No se asume el modelo parametral de localización-escala * Prueba mas general que las otras * Se interesa en cualquier diferenecia entre
3. Presentación de Supuestos Dentro del supuesto de independencia de la muestra * X1 , . . . , Xm son una muestra aleatoria i.i.d de la poblacion uno * Y1 , . . . , Yn son una muestra aleatoria i.i.d de la poblacion dos Entre el supuesto de independencia de muestra m
n
* Las muestras {Xi }i=1 y {Yi }i=1 son mutuamente independientes Suposición de continuidad: tanto F1 como F2 son distribuciones continuas. No Paramétrica (2020)
3
Prueba de Kolmogorov - Smirnov para dos muestras independientes
4. Metodología de aplicación Este contraste puede utilizarse para la hipótesis nula de que las distribuciones continuas de las que han sido extraídas dos muestras aleatorias simples de tamaño m y n. 1. Se divide el espacio muestral en k intervalos(o sucesos) disjuntos, se calculan ambas funciones de distribución empíricas, Fm (x) y Fn (x). 2. Se calcula el estadístico Dm,n = sup|FX,m (x) − FY,n (x)| 3. Si las dos muestras proceden de la misma población, sus funciones de distribución empíricas no pueden ser muy distintas, por lo que el contraste es siempre de una cola, y se rechaza la hipótesis nula de igual distribución si el estadístico toma un valor suficientemente grande. 4. Se utilizan las tablas de este estadístico, para encontrar el umbral α tal que: P (Dm,n ≥ λ = α) q 5. Dicho valor crítico puede aproximarse, cuando ambas muestras son grandes, por: λ = k m+n m∗n 6. Siendo k = 1,22; 1,36; 1,63 a niveles de confianza del 90 %, 95 % y 99 %, para el contraste de dos colas, y de k = 1,07; 1,22 y 1,52 para contrastes de una sola cola.
5. Caso práctico Determinar si las siguientes dos muestras provienen de la misma distribución o población. * Variable: Edad * Grupos: Hombres y mujeres * n1: 80 y n2: 62 Ho: Las dos muestras provienen de una misma población Fn1 (X) = Fn2 (X) Ha: Las dos muestras NO provienen de la misma población
Fn1 (X) 6= Fn2 (X) Nivel de confianza: 95 % Estadístico de prueba: D(n1, n2) = max |Fn1 (X) − Fn2 (X)| Ho: Las edades de hombres y mujeres provienen de una misma población Ha: Las edades de hombres y mujeres NO provienen de la misma población
No Paramétrica (2020)
4
Prueba de Kolmogorov - Smirnov para dos muestras independientes
Edad 21-22 23-24 25-26 27-28 29-30 31-32 33-34 35-36 37-38 39-40 Total
Hombres 4 11 5 7 0 5 9 13 20 6 80
Mujeres 7 4 1 11 12 4 2 4 8 9 62
Tabla 1: Tabla de datos
Se calculan las frecuencias relativas y acumuladas Edad 21-22 23-24 25-26 27-28 29-30 31-32 33-34 35-36 37-38 39-40 Total
Hombres 4 11 5 7 0 5 9 13 20 6 80
Mujeres 7 4 1 11 12 4 2 4 8 9 62
% Hombres 0,05000 0,13750 0,06250 0,08750 0,00000 0,06250 0,11250 0,16250 0,25000 0,07500 1,0000
% Mujeres 0,1129 0,0645 0,0161 0,1774 0,1935 0,0645 0,0323 0,0645 0,1290 0,1452 1,0000
% acumHom 0,0500 0,1875 0,2500 0,3375 0,3375 0,4000 0,5125 0,6750 0,9250 1,0000 Fn1(X)
% acumMuje 0,1129 0,1774 0,1935 0,3710 0,5645 0,6290 0,6613 0,7258 0,8548 1,0000 Fn2(X)
Tabla 2: Tabla de frecuencias relativas y absolutas
Ahora se calcula las diferencias entre frecuencias y su valor absoluto Fn1(X) % Hombre Acum 0,0500 0,1875 0,2500 0,3375 0,3375 0,4000 0,5125 0,6750 0,9250 1,0000
Fn2(X) % Mujer Acum 0,1129 0,1774 0,1935 0,3710 0,5645 0,6290 0,6613 0,7258 0,8548 1,0000
Fn1 (X) − Fn2 (X) Diferencia -0,06290 0,01010 0,05650 -0,03350 -0,22700 -0,22900 -0,14880 -0,05080 0,07020 0.0000
|Fn1 (X) − Fn2 (X)| Valor absoluto 0,06290 0,01010 0,05650 0,03350 0,22700 0,22900 0,14880 0,05080 0,07020 0.0000
Tabla 3: Tabla de diferencias
No Paramétrica (2020)
5
Prueba de Kolmogorov - Smirnov para dos muestras independientes
Estadistico de prueba * D(n1, n2) = max|Fn1 (X) − Fn2 (X)| * D(80, 62) = 0.2290 Da = 1.36
q
80+62 (80)(62)
Punto critico * D(n1, n2) = max|Fn1 (X) − Fn2 (X)| * D(80, 62) = 0.2290 Da = 0.2301 Decisión D(80, 62) = 0.2290 < Da‘ = 0.2301 *Como D(80, 62) = 0.2290 es menor que Da‘ entonces NO se rechaxa H0 Con un nivel de significancia del 95 % se puede concluir que las edades de hombres como de mujeres provienen de una misma población.
5.1. Caso practico 2 Se quiere conocer si el resultados de destreza manual en 8 niños con problemas de aprendizaje (A) y 10 niños sin este problema (B) provienen de la misma población. Nivel de confianza del 95 % A 31,6 22,1 23,8 24,8 24,7 10,1 26,4 14,0
B 28,2 32,0 25,1 26,0 30,3 28,4 27,7 27,8 27,1 25,7
Tabla 4: Tabla de Resultados
Se calculan las frecuencias relativas y acumuladas. Resultados 10-15 15-20 20-25 25-30 30-35 Total
A 2 0 4 1 1 8
B 0 0 0 8 2 10
%A 0,25 0 0,5 0,125 0,125 1
%B 0 0 0 0,8 0,2 1
%A acumulado 0,25 0,25 0,75 0,875 1
%B acumulado 0 0 0 0,8 1
Tabla 5: Tabla de Resultados con frecuencias relativas y absolutas
No Paramétrica (2020)
6
Prueba de Kolmogorov - Smirnov para dos muestras independientes
Se hallan las diferencias entre las frecuencias y su valor absoluto Fn1 (X) % A Acum 0,25 0,25 0,75 0,875 1
Fn2 (X) % B Acum 0 0 0 0,8 1
Fn1 (X) − Fn2 (X) Diferencia 0,25 0,25 0,75 0,075
|Fn1 (X) − Fn2 (X)| Valor absoluto 0,25 0,25 0,75 0,075
Tabla 6: Tabla de Resultados de las diferencias entre frecuencias
Estadistico de prueba y punto critico a) * D(n1, n2) = max|Fn1 (X) − Fn2 (X)| * D(8, 10) = 0.75 Da = 0.525 (por la tabla) Decisión D(8, 10) = 0.75 >Da‘ = 0.525 * Como D(8,10) = 0.75 es mayor que Da‘ entonces se rechaza H0 Con un nivel de confianza del 95 % se puede concluir que la muestra de los niños con problemas de aprendizaje no provienen de la misma población que los niños con este problema.
6. Pruebas similares en el campo paramétrico y no paramétrico La prueba Z de Kolmogorov-Smirnov (K-S) y la prueba de rachas de Wald-Wolfowitz son pruebas más generales que detectan las diferencias entre las posiciones y las formas de las distribuciones. La prueba K-S se basa en la diferencia máxima absoluta entre las funciones de distribución acumulada observadas para ambas muestras. Cuando esta diferencia es significativamente grande, se consideran diferentes las dos distribuciones. La prueba de rachas de Wald-Wolfowitz combina y ordena las observaciones de ambos grupos. Si las dos muestras proceden de una misma población, los dos grupos deben dispersarse aleatoriamente en la clasificación. La prueba U de Mann-Whitney es la más conocida de las pruebas para dos muestras independientes. Es equivalente a la prueba de la suma de rangos de Wilcoxon y a la prueba de Kruskal-Wallis para dos grupos. La prueba de Mann-Whitney contrasta si dos poblaciones muestreadas son equivalentes en su posición. En las pruebas paramétricas similares a la K-S se tiene la t-student para la diferencia de dos medias cuando las muestras son independientes pero no puede suponerse la normalidad de las poblaciones de origen. La prueba de UNA muestra de K-S puede en todos los casos en que se aplique ser más potente que su prueba alternativa la prueba paramétrica Chi cuadrado.
No Paramétrica (2020)
7
Prueba de Kolmogorov - Smirnov para dos muestras independientes
7. Conclusiones * Se puede concluir que la prueba K-S para dos muestras independientes es mas potente cuando los tamaños de muestra son grandes * Es una prueba que sirve para comprobar que las muestras provienen de la distribución normal * Tiene más potencia para el caso en que las distribuciones tienen diferentes medianas que para el caso en que, teniendo la misma posición central, difieren en su dispersión.
Referencias [1] Pedro Delicado. Curso de Modelos no Paramétricos. Departament d’Estadística i Investigació Operativa, Universitat Politécnica de Catalunya.2008 [2] Jaramillo Elorza, M.C. Notas de clase de estadística no paramétrica [3] https://www.ibm.com/support/knowledgecenter/es/SSLVMBs ub/statisticsm ainhelpd dita /spss/base/twoi ndependents amplest estt ypes.html [4] http://www4.ujaen.es/ mpfrias/TablasInferencia.pdf [5] http://www.ub.edu/aplicai nf or/spss/cap6 − 2.htm [6] https://www.ucm.es/data/cont/docs/518-2013-11-13-noparam.pdf [7] http://www-eio.upc.edu/ delicado/docencia/ApuntesM odelsN oP arametrics.pdf
No Paramétrica (2020)
Prueba de Kolmogorov - Smirnov para dos muestras independientes
8
Anexos
Figura 1: Tabla K-S para dos muestras de distinto tamaño
No Paramétrica (2020)
Prueba de Kolmogorov - Smirnov para dos muestras independientes
9
Figura 2: Tabla K-S para dos muestras de distinto tamaño
No Paramétrica (2020)
Prueba de Kolmogorov - Smirnov para dos muestras independientes
10
Figura 3: Tabla K-S para dos muestras de igual tamaño
Figura 4: Tabla K-S para dos muestras de igual tamaño
No Paramétrica (2020)