IC - VSIP.INFO

IC

Test 05 DBSCAN DBSCAN es otro algoritmo de agrupación en clúster muy popular, que pertenece a los algoritmos basados en

Views 213 Downloads 10 File size 573KB

Recommend stories

IC

IC APELLIDOS Y NOMBRES:__________________________________________________________ ESPECIALIDAD:_________________________

18 0 33KB Read more

IC

1,488 4 33MB Read more

IC

6 0 830KB Read more

IC

CANTIDAD CLASE DE SEGURO FECHA S/3,000 S/1,000 S/4,000 S/2,000 S/4,000 S/3,000 S/5,000 S/1,000 S/4,000 S/2,000 S/3,00

174 0 48KB Read more

IC Problemas.

94 1 238KB Read more

Ic Equivalent

(1/4) Power MOS-FET Cross Reference Maker Siliconix Siliconix Siliconix Siliconix Siliconix Siliconix Siliconix Silicon

109 2 47KB Read more

Test IC

INSTRUCCIONES Escriba una X en la columna 1 a la altura de cada seguro de incendio o de accidente, desde $150.000 a $450

10 0 51KB Read more

IC-R30_Basic_Manual_Spanish.pdf

230 6 3MB Read more

SPA IC

533 5 588KB Read more

Test IC

IC NOMBRE________________________________________________ FECHA________________ INSTRUCCIONES Escriba una cruz (X) en

189 6 60KB Read more

Author / Uploaded
Axel H. Ruelas Portada

Citation preview

Test 05 DBSCAN DBSCAN es otro algoritmo de agrupación en clúster muy popular, que pertenece a los algoritmos basados en densidad. Para los principiantes puede parecer muy atractivo porque no requiere definir de antemano el número de clústeres. Pero no hay almuerzo gratis y confiar en DBSCAN para encontrar el número correcto de clústeres por sí solo puede ser una gran trampa. Ilustremos esto jugando con el hiperparámetro eps de DBSCAN, que define la distancia máxima entre puntos dentro del mismo grupo.

¿Qué sucedió en cada una de las asignaciones del hiperparámetro eps? Pues que se definen clusters de acuerdo a la distancia máxima entre puntos dentro del mismo grupo, al empezar con un valor bajo esta toma todo el conjunto de datos como un todo, en el segundo grafico se crean otros clusters de acuerdo a la distancia máxima, lo que ocaciona que se vayan excluyendo los demás puntos fuera del grupo, y en la tercera como el hiperparametro es de un valor mayor, la distancia que tomara el algoritmo sea mayor y el cluster naranja aumente, se puede observar como una forma de densidad. ¿Qué podría concluir de lo sucedido? Que no debemos confiarnos en los clústeres que se forman con este algoritmo DBSCAN. Y que el hiperparametro cuando mayor sea el valor, mayor será la distancia máxima entre puntos para que sean parte del grupo.

Test 06 Realmente, ¿Qué tan sin supervisión? Al evaluar el rendimiento de los modelos de detección de anomalías, la mayoría de las veces utiliza métricas del dominio de: a) Aprendizaje Supervisado b) Aprendizaje No Supervisado

Test 07 El algoritmo de referencia 

A pesar de ser un poco más intensivo computacionalmente que otros métodos, ¿Qué algoritmo se usa comúnmente para la detección de anomalías? a) One-Class SVM b) Isolation Forest c) Robust Covariance

Test 08 El impar hacia afuera El algoritmo IsolationForest() es una excelente primera opción cuando se necesita una detección de anomalías o valores atípicos. En este ejercicio, desea examinar cómo la relación entre valores típicos y valores atípicos (también conocida como relación señal / ruido) afecta su capacidad para detectar anomalías. El algoritmo IsolationForest() ya está cargado en la variable llamada isolation_forest, y también se cargó una función auxiliar make_fake_data(). Se aumentará gradualmente el número de valores atípicos y observará la diferencia en los resultados en cada iteración. ¿Qué ha observado?

Test08 continuación

Se observa primero que al empezar con los datos limpios y al añadir el ruido el plot de la derecha muestra que el grupo amarillo ha disminuido de tamaño debido a que los valores atípicos es un poco bajo que solo es el 5% de 1000.

Test08 continuación

Al aumentar el porcentaje el plot de la derecha donde es detectado el ruido por el isolation forest este grupo amarillo aumenta el tamaño al igual como aumentamos la cantidad de datos atípicos.

Test08 continuación

De igual manera que la anterior al ser un tamaño más grande los valores atípicos el isolation forest detecta el ruido y aumenta el tamaño del grupo amarillo debido a que los datos atípicos es la mitad de los típicos osea el 50% de 1000. Test 09