Herramienta de Minería de Datos Rapid Miner http://rapid-i.com Rapid Miner Es un entorno para experimentación de a
Views 289 Downloads 3 File size 2MB
Herramienta de Minería de Datos
Rapid Miner http://rapid-i.com
Rapid Miner
Es un entorno para experimentación de análisis de datos que posee implementadas distintas estrategias de Minería de Datos.
Es de distribución libre.
Opera a través de la conexión de componentes visuales.
Ejercicio 1 – Curso.xls
Utilicemos Rapid Miner para encontrar el árbol de clasificación correspondiente a los datos de un curso. Práctica Actividad-Presencial Actividad-Distancia Calificación
Ejercicio 1 – Curso.xls Practica bien bien muy_bien regular regular regular muy_bien bien bien regular bien muy_bien regular regular
Activ-Distancia Activ-Presencial alta alta baja alta alta alta alta alta alta baja baja baja baja baja baja baja alta baja baja baja alta baja alta alta baja baja alta alta
Calificacion aprobado desaprobado aprobado aprobado desaprobado desaprobado aprobado desaprobado aprobado desaprobado aprobado aprobado desaprobado aprobado
Clickee en el título de la 1ra columna para que se despliegue la lista
Seleccione Name
Aquí se indica el tipo de cada variable. En este caso son todas nominales Distinguir las entradas de las etiquetas de clase
Elija un lugar dentro del repositorio para grabar los datos y escriba un nombre para el archivo
En la solapa Repositories puede verse la base cargada
Arrastrar y soltar sobre el área Main Process
Permiten alternar entre los datos y el proceso
Conectar y ejecutar
Después de ejecutar, se puede ver la información. Esto son los Metadatos
Histograma
Arrastrar y soltar sobre la conexión y queda conectado.
Ejecutar y visualizar el árbol
Arrastrar y soltar sobre el área Main Process
Agrega otro componente que replica el mismo juego de datos
Conecte completamente y ejecute
Resultado de OneR
Ejemplo – Selectividad.xls
Se trata de información referida a 18802 alumnos que realizaron las pruebas de selectividad en los años 1993-2003 procedentes de diferentes centros de enseñanza secundaria de Madrid.
Para cada alumno se conoce: año, convocatoria, localidad del centro, opción cursada (de 5 posibles). calificaciones parciales obtenidas en lengua, historia e idioma y las tres asignaturas opcionales calificación en el bachillerato, calificación final y si el alumno se presentó o no a la prueba.
Objetivo del análisis
Intentar relacionar los resultados obtenidos en las pruebas con características o perfiles de los alumnos. ¿Qué
características comunes tienen los alumnos que superan la prueba?
¿existen
grupos de alumnos, no conocidos de antemano, con características similares?
¿hay
diferencias significativas en los resultados obtenidos según las opciones, localidades, años, etc.?
¿se
puede predecir la calificación del alumno con alguna variable conocida?
Cargar los datos en el repositorio. Note que no hay label.
Visualización
Analice los datos de los atributos utilizando distintas representaciones gráficas Histogramas. Diagramas
de caja. Scatter Plot Ej: entre nota_bachi y cal_prueba
Generando un atributo
Arrastarlo al proceso principal para generar un atributo nuevo
Generando un atributo
Definición del atributo nuevo
Atributo Mejora
Ejercicio
Agregue el atributo APROBADO con la siguiente definición
Definiendo el rol de APROBADO
Agregar uno de estos y configurarlo así.
Atributo APROBADO
Observe los metadatos y verifique que el atributo APROBADO ha sido generado como label.
Filtrado de ejemplos
Arrastarlo al proceso principal. Lo utilizaremos para quedarnos sólo con los ejemplos de LEGANES y GETAFE.
Filtrado de ejemplos
Vamos a filtrar según el valor de un atributo
Filtrado de ejemplos
localidad_centro = LEGANES || localidad_centro = GETAFE
Filtrado de ejemplos
Verifique que sólo hayan quedado los ejemplos de estas dos localidades
Filtrado de ejemplos
Seleccionando atributos
Seleccionaremos algunos atributos para construir un árbol
Seleccionando atributos
Agregarlo y configurarlo
Elegir algunos atributos
Seleccionando atributos
Hay problemas
Resolviendo problemas
Use botón derecho del mouse
Resolviendo problemas
Resolviendo problemas
Utilice 4 intervalos. Luego puede probar con otras formas de discretizar.
Ejemplo
Ejecute el proceso Analice el árbol