Algoritmo CART

Algoritmo CART - requiere suposciones. Es rápido de calcular. A. Árboles de decisión Desventajas: Esta técnica predict

Views 179 Downloads 1 File size 600KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

  • Author / Uploaded
  • dany
Citation preview

Algoritmo CART -

requiere suposciones. Es rápido de calcular.

A. Árboles de decisión Desventajas: Esta técnica predictiva de clasificación consiste en una división jerárquica y secuencial del problema en el que cada una de estas divisiones o nodos describen gráficamente las decisiones posibles y por lo tanto los resultados de las distintas combinaciones de decisiones y eventos. A cada evento se le asignan probabilidades y a cada una de las ramas se le determina un resultado [1]. Los árboles de decisión integran cuatro componentes básicos: -

Nodos de decisión: indica una decisión que se tomará, se representa con un cuadrado. Nodos probabilísticos: muestra múltiples resultados inciertos, se grafica mediante un círculo. Las ramas: cada rama indica un posible resultado o acción, se las puede representar mediante líneas. Los nodos terminales: indica un resultado definitivo, se utiliza un triángulo para este tipo de nodo.

Cabe recalcar que un nodo es aquel punto donde surgen divisiones y muestra las probabilidades de ciertos resultados [2].

-

-

-

El proceso de selección de variables es sesgado hacia las variables con más valores diferentes. Dificultad para elegir el árbol óptimo. La superficie de predicción no es muy suave, ya que son conjuntos de planos. Requiere un gran número de datos para asegurarse que la cantidad de observaciones en los nodos terminales es significativa. Ausencia de una función global de las variables y como consecuencia pérdida de la representación geométrica. No toma en cuenta las interacciones que puede existir entre las variables predictoras.

B. Algoritmo CART Árbol de clasificación y regresión (CART) propuesto por Breiman et al [1]. CART es una técnica de aprendizaje de árbol de decisión no paramétrica que produce árboles de clasificación o regresión, dependiendo de si la variable dependiente es categórica o numérica, respectivamente. La palabra binario implica que un nodo en un árbol de decisión solo puede dividirse en dos grupos. CART utiliza el índice de Gini como medida de impureza para seleccionar el atributo. El atributo con la mayor reducción de impurezas se utiliza para dividir los registros del nodo. CART acepta datos con valores numéricos o categóricos y también maneja valores de atributos faltantes. Utiliza la poda de complejidad de costos y también genera árboles de regresión [2]. Los elementos de CART -

Posee reglas para dividir datos en un nodo en función del valor de una variable;

-

Permite detener las reglas para decidir cuándo una rama es terminal y ya no se puede dividir; y

-

Finalmente, una predicción para la variable objetivo en cada nodo terminal.

Figura 1. Ejemplo de árbol de decisión

Ventajas: -

Puede ser aplicado a cualquier tipo de variables predictoras: continuas y categóricas. Los resultados son fáciles de entender e interpretar. No tiene problema de trabajar con datos perdidos. Hace automáticamente selección de variables. Es invariante a transformaciones de las variables predictoras. Es robusto a la presencia de "outliers". Es un clasificador noparamétrico, es decir que no

Caracteristicas de CART -

-

CART no es paramétrico y, por lo tanto, no depende de datos que pertenezcan a un tipo particular de distribución. CART no se ve significativamente afectado por los valores atípicos en las variables de entrada [3].

-

Puede relajarse deteniendo las reglas para "sobrecrecer" los árboles de decisión y luego podar el árbol al tamaño óptimo. Este enfoque minimiza la probabilidad de que una estructura importante en el conjunto de datos se pase por alto deteniéndose demasiado pronto. CART incorpora ambas pruebas con un conjunto de datos de prueba y validación cruzada para evaluar la bondad del ajuste con mayor precisión. CART puede usar las mismas variables más de una vez en diferentes partes del árbol. Esta capacidad puede descubrir interdependencias complejas entre conjuntos de variables. CART puede usarse junto con otros métodos de predicción para seleccionar el conjunto de variables de entrada.[3]. Ventajas

valores posibles de la variable que se utilizará para dividir el nodo.

-

Pruning

-

Fácil de entender Menos limpieza de datos: outliers y valores faltantes no influencian el modelo (A un cierto grado) El tipo de datos no es una restricción

Desventajas -

-

Sobreajuste Pérdida de información al categorizar variables continuas Precisión: Los métodos como SVM y clasificadores tipo ensamblador a menudo tienen tasas de error 30% más bajas que CART. Inestabilidad: SI se realiza un pequeño cambio en los datos puede modificar ampliamente la estructura del árbol. Por lo tanto, la interpretación que se da a los resultados no es tan precisa.

Pasos del algoritmo CART -

Building (construcción del árbol. Stopping (parada). Pruning (podado). Selection(Seleccion).

Stopping El proceso se detiene cuando: -

Solo hay una observación en cada uno de los nodos secundarios.

-

Todas las observaciones dentro de cada nodo secundario tienen la distribución idéntica de las variables predictoras, lo que hace imposible la división.

-

El usuario ha establecido un límite externo en el número de niveles en el árbol máximo (opción "profundidad").

Para generar una secuencia de árboles más y más simples, cada uno de los cuales es candidato para el árbol final que se ajusta adecuadamente, se utiliza el método de poda de "complejidad de costos". Este método se basa en un parámetro de complejidad, denominado a, que se incrementa gradualmente durante el proceso de poda. -

Selecction El árbol máximo siempre se ajustará al conjunto de datos de aprendizaje con mayor precisión que cualquier otro árbol. El rendimiento del árbol máximo en el conjunto de datos de aprendizaje original, denominado "costo de restitución", generalmente sobreestima en gran medida el rendimiento del árbol en un conjunto independiente de datos obtenidos de una población similar [5]. BIBLIOGRAFÍA

Building La construcción de árboles comienza en el nodo raíz, que incluye a toda la población en el conjunto de datos de aprendizaje.

[1]

[2]

Comenzando con este nodo, el algoritmo CART encuentra la mejor variable posible para dividir el nodo en dos nodos secundarios. Para encontrar la mejor variable, el software verifica todas las posibles variables de división (llamadas divisores), así como todos los

Una rama del nodo t de un árbol T está formada por él y todos sus descendientes. Podar la rama en t consiste en eliminar todos los descendientes del nodo t. Se eliminan las ramas más débiles con criterio de error y complejidad del árbol

D. & T. Kotsiantis, Sotiris & Koumanakos, E & Tzelepis, “Forecasting Fraudulent Financial Statements using Data Mining,” vol. 1, no. 12, pp. 844–849, 2007. N. B. Review, A. Elizabeth, and P. Varas, “Árboles De Decisión: Decisiones Empresariales Bajo La Sombra De Un Buen Árbol Decision Trees: Business Decisions Under the Shade of a Good Tree,” vol. 01, pp. 87–92, 2015.

BIBLIOGRAFÍA

Lior Rokach, O. M. (s.f.). DATA MINING WITH DECISION TREES (2nd Edition ed.). Israel: University of the Negev. doi:ISBN 9789814590082 Roger J. Lewis, M. P. (2000). An Introduction to Classification and Regression Tree (CART) Analysis. San Francisco,California. Roman Timofeev, D. W. (2004). Classification and Regression Trees (CART) Theory and Applications. Berlin: Humboldt University, Berlin. Sonia Singh, P. G. (2014). COMPARATIVE STUDY ID3, CART AND C4.5 DECISION TREE ALGORITHM: A SURVEY. India: University of Delh. Timofee, R. (205). Classification and Regression Trees(CART)Theory and Applications. Obtenido de https://www.academia.edu/13700196/Classif ication_and_Regression_Trees_CART_Theory _and_Applications