Rapid Miner

Herramienta de Minería de Datos Rapid Miner http://rapid-i.com Rapid Miner  Es un entorno para experimentación de a

Views 289 Downloads 3 File size 2MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Herramienta de Minería de Datos

Rapid Miner http://rapid-i.com

Rapid Miner 

Es un entorno para experimentación de análisis de datos que posee implementadas distintas estrategias de Minería de Datos.



Es de distribución libre.



Opera a través de la conexión de componentes visuales.

Ejercicio 1 – Curso.xls 

Utilicemos Rapid Miner para encontrar el árbol de clasificación correspondiente a los datos de un curso.  Práctica  Actividad-Presencial  Actividad-Distancia  Calificación

Ejercicio 1 – Curso.xls Practica bien bien muy_bien regular regular regular muy_bien bien bien regular bien muy_bien regular regular

Activ-Distancia Activ-Presencial alta alta baja alta alta alta alta alta alta baja baja baja baja baja baja baja alta baja baja baja alta baja alta alta baja baja alta alta

Calificacion aprobado desaprobado aprobado aprobado desaprobado desaprobado aprobado desaprobado aprobado desaprobado aprobado aprobado desaprobado aprobado

Clickee en el título de la 1ra columna para que se despliegue la lista

Seleccione Name

Aquí se indica el tipo de cada variable. En este caso son todas nominales Distinguir las entradas de las etiquetas de clase

Elija un lugar dentro del repositorio para grabar los datos y escriba un nombre para el archivo

En la solapa Repositories puede verse la base cargada

Arrastrar y soltar sobre el área Main Process

Permiten alternar entre los datos y el proceso

Conectar y ejecutar

Después de ejecutar, se puede ver la información. Esto son los Metadatos

Histograma

Arrastrar y soltar sobre la conexión y queda conectado.

Ejecutar y visualizar el árbol

Arrastrar y soltar sobre el área Main Process

Agrega otro componente que replica el mismo juego de datos

Conecte completamente y ejecute

Resultado de OneR

Ejemplo – Selectividad.xls 

Se trata de información referida a 18802 alumnos que realizaron las pruebas de selectividad en los años 1993-2003 procedentes de diferentes centros de enseñanza secundaria de Madrid.



Para cada alumno se conoce:  año, convocatoria, localidad del centro,  opción cursada (de 5 posibles).  calificaciones parciales obtenidas en lengua, historia e idioma y las tres asignaturas opcionales  calificación en el bachillerato, calificación final y si el alumno se presentó o no a la prueba.

Objetivo del análisis 

Intentar relacionar los resultados obtenidos en las pruebas con características o perfiles de los alumnos.  ¿Qué

características comunes tienen los alumnos que superan la prueba?

 ¿existen

grupos de alumnos, no conocidos de antemano, con características similares?

 ¿hay

diferencias significativas en los resultados obtenidos según las opciones, localidades, años, etc.?

 ¿se

puede predecir la calificación del alumno con alguna variable conocida?

Cargar los datos en el repositorio.  Note que no hay label. 

Visualización 

Analice los datos de los atributos utilizando distintas representaciones gráficas  Histogramas.  Diagramas

de caja.  Scatter Plot Ej: entre nota_bachi y cal_prueba

Generando un atributo

Arrastarlo al proceso principal para generar un atributo nuevo

Generando un atributo

Definición del atributo nuevo

Atributo Mejora

Ejercicio 

Agregue el atributo APROBADO con la siguiente definición

Definiendo el rol de APROBADO



Agregar uno de estos y configurarlo así.

Atributo APROBADO



Observe los metadatos y verifique que el atributo APROBADO ha sido generado como label.

Filtrado de ejemplos

Arrastarlo al proceso principal. Lo utilizaremos para quedarnos sólo con los ejemplos de LEGANES y GETAFE.

Filtrado de ejemplos



Vamos a filtrar según el valor de un atributo

Filtrado de ejemplos

localidad_centro = LEGANES || localidad_centro = GETAFE

Filtrado de ejemplos 

Verifique que sólo hayan quedado los ejemplos de estas dos localidades

Filtrado de ejemplos

Seleccionando atributos 

Seleccionaremos algunos atributos para construir un árbol

Seleccionando atributos



Agregarlo y configurarlo

Elegir algunos atributos

Seleccionando atributos



Hay problemas

Resolviendo problemas



Use botón derecho del mouse

Resolviendo problemas

Resolviendo problemas

Utilice 4 intervalos.  Luego puede probar con otras formas de discretizar. 

Ejemplo

Ejecute el proceso  Analice el árbol 