Data Mining

DATA MINING INTRODUCCION Cada día las organizaciones se enfrentan a un mundo cada vez más competitivo y, por tanto, las

Views 175 Downloads 3 File size 185KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

DATA MINING

INTRODUCCION Cada día las organizaciones se enfrentan a un mundo cada vez más competitivo y, por tanto, las estrategias de administración deben ser flexibles para adaptarse a las condiciones cambiantes del entorno. Lo que significa un gran reto para las organizaciones es el poder manejar grandes volúmenes de información que estas generan, y para conocer su entorno y poder predecir su evolución. Estamos generando gran cantidad de información, conscientes o inconscientes de ello. Son muchos los motivos que nos llevan a generar información, esto nos ayuda a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier ámbito según el dominio en que nos desarrollemos. La información por sí misma está considerada un bien patrimonial, de esta forma, si una empresa tiene una pérdida total o parcial de información provoca muchos perjuicios. Es evidente que la información debe ser protegida, pero también explotada. Los factores que en la actualidad nos han permitido generar tanta información son: 1. Los bajos costos de los sistemas de almacenamiento tanto temporal como permanente. 2. El incremento de las velocidades de cómputo en los procesadores. 3. Las mejoras en la confiabilidad y aumento de la velocidad en la transmisión de datos. 4. El desarrollo de sistemas administradores de bases de datos más poderosos. Todas estas ventajas nos han llevado a abusar del almacenamiento de la información en las bases de datos. Es necesario contar con tecnologías que nos ayuden a explotar el potencial de este tipo de datos.

CONCEPTO Es un mecanismo de explotación, consistente en la búsqueda de información valiosa en grandes volúmenes de datos. Está muy ligada a las bodegas de datos que

proporcionan la información histórica con la cual los algoritmos de minería de datos tienen la información necesaria para la toma de decisiones. "La minería de datos es un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos" (Fayyad y otros, 1996). "Es la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión" (Molina y otros, 2001). Se denomina minería de datos (data mining) al análisis de archivos y bitácoras de transacciones, trabaja a nivel del conocimiento con el fin de descubrir patrones, relaciones, reglas, asociaciones o incluso excepciones útiles para la toma de decisiones. Por ejemplo, qué productos se comercializan mejor en la temporada navideña, en qué regiones es productivo sembrar café, qué áreas de una zona urbana incrementarán su demanda de escuelas primarias. También es

una etapa dentro de un proceso mayor llamado Extracción de

Conocimiento en Bases de Datos (Knowledge Discovery in Databases o KDD), esta etapa usa algoritmos concretos que generan una enumeración de patrones a partir de los datos preprocesados. El Data Mining reúne las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. Aunque algunos autores usan los términos Minería de Datos y KDD indistintamente, como sinónimos, existen claras diferencias entre los dos. Así la mayoría de los autores coinciden en referirse al KDD como un proceso que consta de un conjunto de fases, una de las cuales es la minería de datos. De acuerdo con esto, el proceso de minería de datos consiste únicamente en la aplicación de un algoritmo para extraer patrones de datos y se llamará KDD al proceso completo que incluye preprocesamiento, minería y post-procesamiento de los datos.

En esta figura vemos las fases del proceso de KDD, una de las cuales es la Minería de Datos

IMPORTANCIA La Minería de Datos es el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras: • Obtención masiva de datos. • Potentes computadoras con multiprocesadores. • Algoritmos de Data Mining. La gran cantidad de aplicaciones que tiene la Minería de Datos, en tan diversas áreas suponen su gran importancia, pues básicamente en todas las áreas relacionadas con nuestra vida es posible recoger datos desde hace mucho tiempo, y esto es lo que precisamente permite realizar estudios de este tipo. Además, la idea de poder predecir situaciones futuras, partiendo de algo que ya se tienen en la mano como son los datos, es algo que se puede ver como una herramienta de gran utilidad y que basados en todo lo que puede significar una ventaja como el uso de esta herramienta, se puede llevar una gran delantera competitiva sobre los demás entes bien sean estos personas, organizaciones, empresas, etc. Como punto de encuentro entre varias ramas de la ciencia, la Minería de Datos es el eje central del proceso de extracción de conocimiento en el cual se aplican conceptos y técnicas provenientes de áreas de la ciencia como: Inteligencia artificial, Estadística, Bases de Datos, Ingeniería del conocimiento, entre otros... Como herramienta fundamental para apoyar la toma de decisiones en las empresas, tanto a nivel descriptivo de lo que ya se tiene en los datos como también una poderosa herramienta para realizar predicciones a partir de los datos obtenidos hasta la actualidad. Así, es posible realizar estudios que permitan conocer mejor a los cliente de su negocio, o también conocer cuál es el perfil del cliente ideal para aumentar sus ventas, o para que sus clientes actuales no lo abandonen. La gran cantidad de sitios Web, portales, artículos en revistas, y seminarios que se realizan alrededor del mundo, demuestran la importancia que tiene este tema en la

actualidad, aunque muchos sitios tienen ya varios años de existencia, es común encontrar artículos, y portales actualizados, junto con cientos de herramientas nuevas de software que permiten realizar procesos de Minería de Datos. Las diferentes variaciones que están naciendo y que son objeto de investigación y de estudio a nivel mundial, como lo son el Web Mining, Text Mining, Graphic Mining, entre otros. Todo esto demuestra que el uso de técnicas y algoritmos para el estudio de patrones y reglas en repositorios de datos, es aplicable y con gran importancia a muchos formatos diferentes. MODELOS DEL DATA MINING Se define al modelo de Minería de Datos como a una descripción de los patrones y relaciones entre los datos que pueden usarse para hacer predicciones y entender mejor los datos o para explicar situaciones pasadas. En esencia, toda aplicación y desarrollo de trabajos en Minería de Datos, debe pertenecer o identificarse bien sea con un modelo descriptivo, o un modelo predictivo, y la elección de las tareas y técnicas de Minería de Datos deben resolver el modelo elegido. Un modelo predictivo responde preguntas sobre datos futuros como: •

¿Cuáles serán las ventas el año próximo?



¿Será esta transacción fraudulenta?



¿Qué tipo de seguro es más probable que contrate el cliente X?



Encontrar el perfil del comprador del producto A



Encontrar el perfil del cliente que me abandonará el mes siguiente



Calcular el valor potencial de un cliente



Probabilidad de que un cliente devuelva un préstamo

Un modelo descriptivo proporciona información sobre las relaciones entre los datos y sus características. Genera información del tipo: •

Los clientes que compran pañales suelen comprar cerveza.



El tabaco y el alcohol son los factores determinantes de una enfermedad específica.



Los clientes sin televisión y con bicicleta tienen características de comportamiento muy diferentes del resto.

• Conocer cuáles son los clientes de una organización (características de los mismos). •

Encontrar los productos que frecuentemente se compran juntos.



Síntomas de enfermedades que se presentan juntos.

Hernández considera algunos aspectos antes de empezar el proceso de Minería de Datos: •

Determinar qué tipo de tarea de Minería de Datos es la más apropiada.



Elegir el tipo de modelo.



Elegir el algoritmo de Minería de Datos que resuelva la tarea y obtenga el tipo de modelo que estamos buscando.

TAREAS DEL DATA MINING Cada tarea dentro de la Minería de Datos puede considerarse como un problema diferente a ser resuelto por un algoritmo. Cada tarea tiene sus propios requisitos, y retorna información posiblemente diferente en cada caso. Las tareas corresponden al modelo (predictivo o descriptivo) que pertenezcan, y las más comúnmente utilizadas en los trabajos de Minería de Datos son: en las predictivas están la clasificación y la regresión, y en las descriptivas, están el agrupamiento (o segmentación) y las reglas de asociación. Clasificación: Consiste en examinar las características de una entidad nueva y asignarle una clase predefinida. Por ejemplo: Clasificar a un nuevo cliente según su riesgo de crédito (alto, medio, bajo). Básicamente la clasificación establece la construcción de una lógica que tome un registro sin clasificar y luego lo clasifique en una de las clases existentes, de manera que al final cada uno de los registros existentes en la base de datos se encuentre clasificado. La clasificación trata con problemas de salidas discretas (si o no, alto, medio o bajo riesgo, responderá o no responderá...) Regresión: La regresión también pretende asignar un registro a una clase especificada con anterioridad, pero esta vez la variable es continua. El objetivo es predecir los valores de una variable continua a partir de la evolución sobre otra variable continua, esta variable generalmente es el tiempo. Para los casos de regresión, lo que se hace es establecer una función real que permite tomar un registro

numérico y luego de aplicada retorne un valor real que se puede decir refleja un comportamiento o parámetro. Agrupamiento (o segmentación): Es el descubrimiento de grupos de registros que cumplen características o atributos similares, pero a partir de los mismos datos o registros y en donde no hay clases predefinidas. Se diferencia de la clasificación en que no se conocen ni las clases ni su número. Los datos son agrupados basándose en el principio de maximizar la similitud entre los elementos de un grupo minimizando la similitud en los distintos grupos. Es decir, se forman grupos tales que los objetos de un mismo grupo son muy similares entre sí y, al mismo tiempo, son muy diferentes a los objetos de otro grupo. Reglas de Asociación: Los algoritmos de Asociación permiten la búsqueda automática de reglas que relacionan conjuntos de atributos entre sí. Estas reglas se evalúan usando dos parámetros: precisión y soporte (cobertura). Por ejemplo: que productos debieran ir juntos en un supermercado, recomendaciones de productos, etc. CICLO O ETAPAS DEL PROCESO DE DATA MINING Consta de cuatro procesos principales, el éxito en la minería de datos requiere de los cuatro pasos:

1.

Identificar el Problema: Es importante que los técnicos entiendan cuáles son las necesidades reales y delimitar los objetivos que el cliente desea.

2.

La Transformación de los Datos en los Resultados Recurribles: Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de

las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. 3. Actuando sobre los Resultados: Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial. 4. Medir los Resultados: Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones. TÉCNICAS DE MINERÍA DE DATOS Las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las técnicas más representativas son: •

Redes neuronales.- Son un paradigma de aprendizaje y procesamiento

automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. •

Regresión lineal.- Es la más utilizada para formar relaciones entre datos.

Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables. Una función de regresión lineal modela la salida de la clasificación como una combinación lineal de los atributos de entrada. Las regresiones lineales se utilizan para clasificar datasets con clases numéricas. •

Árboles de decisión.- Un árbol de decisión es un modelo de predicción

utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y

categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. •

Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o

ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta. •

Agrupamiento o Clustering.- Es un procedimiento de agrupación de una

serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes.

HERRAMIENTAS DE MINERIA DE DATOS



R: es un lenguaje y entorno de programación para análisis estadístico y gráfico.Se trata de un proyecto de software libre.



KNIME: (o Konstanz Information Miner) es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual. Está construido bajo la plataforma Eclipse.



Statistical Package for the Social Sciences (SPSS): es un programa estadístico informático muy usado en las ciencias sociales y las empresas de investigación de mercado. En la actualidad, la sigla se usa tanto para designar el programa estadístico como la empresa que lo produce.



Statistica: es un paquete estadístico usado en investigación, minería de datos y en el ámbito empresarial. Lo creó StatSoft.



RapidMiner: (anteriormente, YALE, Yet Another Learning Environment) es un programa informático para el análisis y minería de datos. Permite el desarrollo de procesos de análisis de datos mediante el encadenamiento de operadores a través de un entorno gráfico. Se usa en investigación y en aplicaciones empresariales.



Orange: es un programa informático para realizar minería de datos y análisis predictivo desarrollado en la facultad de informática de la Universidad de Ljubljana. Consta de una serie de componentes desarrollados en C++ que

implementan algoritmos de minería de datos, así como operaciones de pre procesamiento y representación gráfica de datos.



Weka, KXEN

EXTENSIONES DEL DATA MINING Web Mining: consiste en aplicar las técnicas de minería de datos a documentos y servicios del Web (Kosala y otros, 2000). Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (Log). Las herramientas de Web mining analizan y procesan estos logs para producir información significativa. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vídeo, metadatos o hiperligas, investigaciones recientes usan el término multimedia data mining (minería de datos multimedia) como una instancia del Web mining (Zaiane y otros, 1998) para tratar ese tipo de datos. Los accesos totales por dominio, horarios de accesos más frecuentes y visitas por día, entre otros datos, son registrados por herramientas estadísticas que complementan todo el proceso de análisis del Web mining. Text Mining: dado que el ochenta por ciento de la información de una compañía está almacenada en forma de documentos, las técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático, entre otras, apoyan al text mining (minería de texto). En ocasiones se confunde el text mining con la recuperación de la información (Information Retrieval o IR) (Hearst, 1999). Esta última consiste en la recuperación automática de documentos relevantes mediante indexaciones de textos, clasificación, categorización, etc. Generalmente se utilizan palabras clave para encontrar una página relevante. En cambio, el text mining se refiere a examinar una colección de documentos y descubrir información no contenida en ningún documento individual de la colección; en otras palabras, trata de obtener información sin haber partido de algo (Nasukawa y otros, 2001).

APLICACIONES DE LA MINERIA DE DATOS En la actualidad, existe una gran cantidad de aplicaciones, en áreas tales como: •

Astronomía: clasificación de cuerpos celestes.



Aspectos climatológicos: predicción de tormentas, etc.



Medicina: caracterización y predicción de enfermedades, probabilidad de respuesta satisfactoria a tratamiento médico.



Industria y manufactura: diagnóstico de fallas.



Mercadotecnia: identificar clientes susceptibles de responder a ofertas de productos y servicios por correo, fidelidad de clientes, selección de sitios de tiendas, afinidad de productos, etc.



Inversión en casas de bolsa y banca: análisis de clientes, aprobación de préstamos, determinación de montos de crédito, etc.



Detección de fraudes y comportamientos inusuales: telefónicos, seguros, en tarjetas de crédito, de evasión fiscal, electricidad, etc.



Análisis de canastas de mercado para mejorar la organización de tiendas, segmentación de mercado (clustering)



Determinación de niveles de audiencia de programas televisivos



Normalización automática de bases de datos

¿Por qué usar data mining? Si bien el data mining se presenta como una tecnología emergente, posee ciertas ventajas, como ser: •

Resulta un buen punto de encuentro entre los investigadores y las personas de negocios.



Ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios.



Trabajar con esta tecnología implica cuidar un sin número de detalles debido a que el producto final involucra "toma de decisiones".



Contribuye a la toma de decisiones tácticas y estratégicas proporcionando un sentido automatizado para identificar información clave desde volúmenes de datos generados por procesos tradicionales y de e-business.



Permite a los usuarios dar prioridad a decisiones y acciones mostrando factores que tienen un mayor en un objetivo, qué segmentos de clientes son desechables y qué unidades de negocio son sobrepasados y por qué.



Proporciona poderes de decisión a los usuarios del negocio que mejor entienden el problema y el entorno y es capaz de medir la acciones y los resultados de la mejor forma.



Genera modelos descriptivos: en un contexto de objetivos definidos en los negocios permite a empresas, sin tener en cuenta la industria o el tamaño, explorar automáticamente, visualizar y comprender los datos e identificar patrones, relaciones y dependencias que impactan en los resultados finales de la cuenta de resultados (tales como el aumento de los ingresos, incremento de los beneficios, contención de costes y gestión de riesgos).



Genera modelos predictivos: permite que relaciones no descubiertas e identificadas a través del proceso del data mining sean expresadas como reglas de negocio o modelos predictivos. Estos outputs pueden comunicarse en formatos

tradicionales

(presentaciones,

informes,

información

electrónica

compartida, embebidos en aplicaciones, etc.) Para guiar la estrategia y planificación de la empresa.

CONCLUSIONES El desarrollo de la tecnología de Minería de Datos está en un momento crítico. Existe una serie de elementos que la hacen operable, sin embargo, existen algunos factores que pueden crear un descrédito a la Minería de Datos, como ser: •

Que los productos a comercializar son, en la actualidad, significativamente costosos, y los consumidores pueden hallar una relación costo/beneficio improductiva



Que se requiera de mucha experiencia para utilizar herramientas de la tecnología, o que sea muy fácil hallar patrones equívocos, triviales o no interesantes,



Que no sea posible resolver los aspectos técnicos de hallar patrones en tiempo o en espacio,



Además, hoy en día, las corporaciones comercializan con millones de perfiles personales, sin que aquellos a que se refieren los datos intercambiados, estén en posibilidad de intervenir, entonces, se llega a pensar que presenta un peligro o riesgo para la privacidad de los clientes.

BIBLIOGRAFIA

• Fayyad, U., Haussler, D., Sstolorz, P. (1996). “Mining scientific data”. Communications of the ACM.Vol. 39, pp. 51 - 57. •

Hernández, J. (2001). Minería de Datos: El Proceso de KDD. Universidad Politécnica de Valencia.



Molina, L. C. (2002). Data mining: torturando a los datos hasta que confiesen. http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html