IC

Test 05 DBSCAN DBSCAN es otro algoritmo de agrupación en clúster muy popular, que pertenece a los algoritmos basados en

Views 213 Downloads 10 File size 573KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Test 05 DBSCAN DBSCAN es otro algoritmo de agrupación en clúster muy popular, que pertenece a los algoritmos basados en densidad. Para los principiantes puede parecer muy atractivo porque no requiere definir de antemano el número de clústeres. Pero no hay almuerzo gratis y confiar en DBSCAN para encontrar el número correcto de clústeres por sí solo puede ser una gran trampa. Ilustremos esto jugando con el hiperparámetro eps de DBSCAN, que define la distancia máxima entre puntos dentro del mismo grupo.

¿Qué sucedió en cada una de las asignaciones del hiperparámetro eps? Pues que se definen clusters de acuerdo a la distancia máxima entre puntos dentro del mismo grupo, al empezar con un valor bajo esta toma todo el conjunto de datos como un todo, en el segundo grafico se crean otros clusters de acuerdo a la distancia máxima, lo que ocaciona que se vayan excluyendo los demás puntos fuera del grupo, y en la tercera como el hiperparametro es de un valor mayor, la distancia que tomara el algoritmo sea mayor y el cluster naranja aumente, se puede observar como una forma de densidad. ¿Qué podría concluir de lo sucedido? Que no debemos confiarnos en los clústeres que se forman con este algoritmo DBSCAN. Y que el hiperparametro cuando mayor sea el valor, mayor será la distancia máxima entre puntos para que sean parte del grupo.

Test 06 Realmente, ¿Qué tan sin supervisión? Al evaluar el rendimiento de los modelos de detección de anomalías, la mayoría de las veces utiliza métricas del dominio de: a) Aprendizaje Supervisado b) Aprendizaje No Supervisado

Test 07 El algoritmo de referencia 

A pesar de ser un poco más intensivo computacionalmente que otros métodos, ¿Qué algoritmo se usa comúnmente para la detección de anomalías? a) One-Class SVM b) Isolation Forest c) Robust Covariance

Test 08 El impar hacia afuera El algoritmo IsolationForest() es una excelente primera opción cuando se necesita una detección de anomalías o valores atípicos. En este ejercicio, desea examinar cómo la relación entre valores típicos y valores atípicos (también conocida como relación señal / ruido) afecta su capacidad para detectar anomalías. El algoritmo IsolationForest() ya está cargado en la variable llamada isolation_forest, y también se cargó una función auxiliar make_fake_data(). Se aumentará gradualmente el número de valores atípicos y observará la diferencia en los resultados en cada iteración. ¿Qué ha observado?

Test08 continuación

Se observa primero que al empezar con los datos limpios y al añadir el ruido el plot de la derecha muestra que el grupo amarillo ha disminuido de tamaño debido a que los valores atípicos es un poco bajo que solo es el 5% de 1000.

Test08 continuación

Al aumentar el porcentaje el plot de la derecha donde es detectado el ruido por el isolation forest este grupo amarillo aumenta el tamaño al igual como aumentamos la cantidad de datos atípicos.

Test08 continuación

De igual manera que la anterior al ser un tamaño más grande los valores atípicos el isolation forest detecta el ruido y aumenta el tamaño del grupo amarillo debido a que los datos atípicos es la mitad de los típicos osea el 50% de 1000. Test 09