Categorías
Articulos Desarrollo de software

¿Qué es un Árbol de Toma de Decisiones ?

Importancia del árbol de decisiones

Un árbol de decisión es una técnica de modelado de aprendizaje automático eficaz no paramétrico ampliamente utilizado para problemas de regresión y clasificación.

Siguenos en INSTAGRAM La comunidad de los verdaderos programadores.

Para encontrar soluciones, un árbol de decisión toma decisiones secuenciales y jerárquicas sobre la variable de resultados en función de los datos predictores.

¿qué significa todo eso?

Este concepto de jerárquico significa que el modelo se define mediante una serie de preguntas que conducen a una etiqueta de clase o un valor cuando se aplica a cualquier observación.

Una vez configurado, el modelo actúa como un protocolo en una serie de condiciones «si esto ocurre, entonces esto ocurre» que producen un resultado específico a partir de los datos de entrada.

Un método no paramétrico significa que no hay supuestos subyacentes sobre la distribución de los errores o los datos. Básicamente significa que el modelo se construye con base en los datos observados.

Los modelos de árbol de decisión donde la variable objetivo utiliza un conjunto discreto de valores se clasifican como árboles de clasificación. En estos árboles, cada nodo u hoja representa etiquetas de clase, mientras que las ramas representan conjunciones de entidades que conducen a etiquetas de clase.

Un árbol de decisión donde la variable objetivo toma un valor continuo, generalmente números, se llama árboles de regresión. Los dos tipos se mencionan comúnmente juntos en CART (árbol de clasificación y regresión).

Cada modelo CART es un caso de un gráfico acíclico dirigido. Estos gráficos tienen nodos que representan puntos de decisión sobre la variable principal dado el predictor y los bordes son las conexiones entre los nodos. En el escenario de préstamo por encima de $ 30- $ 7ok sería una ventaja y los «años presentes en el trabajo» son nodos.

Como el objetivo de un árbol de decisión es que haga la elección óptima al final de cada nodo, necesita un algoritmo que sea capaz de hacer exactamente eso. Ese algoritmo se conoce como el algoritmo de Hunt, que es codicioso y recursivo.

Codicioso que significa que en el paso toma la decisión más óptima y recursivo, divide la pregunta más grande en preguntas más pequeñas y las resuelve de la misma manera.

La decisión de dividir en cada nodo se toma de acuerdo con la métrica llamada pureza . Un nodo es 100% impuro cuando un nodo se divide uniformemente 50/50 y 100% puro cuando todos sus datos pertenecen a una sola clase.

Para optimizar nuestro modelo, necesitamos alcanzar la máxima pureza y evitar impurezas. Para medir esto, usamos la impureza de Gini, que mide con qué frecuencia un elemento elegido al azar se etiqueta incorrectamente si se etiqueta al azar según la distribución.

Se calcula sumando la probabilidad, pi, de un elemento con la etiqueta, i, siendo elegido multiplicado por las veces la probabilidad (1 – pi) de un error categorizando el tiempo. Nuestro objetivo es lograr que llegue a 0, donde será mínimamente impuro y máximo puro dentro de una categoría.

Ventajas y Desventajas del árbol de decisiones

Ventajas:

  1. En comparación con otros algoritmos, los árboles de decisión requieren menos esfuerzo para la preparación de datos durante el preprocesamiento.
  2. Un árbol de decisión no requiere normalización de datos.
  3. Un árbol de decisión no requiere escalar los datos también.
  4. Los valores perdidos en los datos tampoco afectan el proceso de construcción del árbol de decisión en ninguna medida considerable.
  5. Un modelo de árboles de decisión es muy intuitivo y fácil de explicar a los equipos técnicos, así como a las partes interesadas.

Desventaja:

  1. Un pequeño cambio en los datos puede causar un gran cambio en la estructura del árbol de decisión que causa inestabilidad.
  2. Para un árbol de decisión, a veces el cálculo puede ser mucho más complejo en comparación con otros algoritmos.
  3. El árbol de decisión a menudo implica un mayor tiempo para entrenar el modelo.
  4. El entrenamiento del árbol de decisión es relativamente costoso ya que la complejidad y el tiempo que se toma es más.
  5. El algoritmo del árbol de decisión es inadecuado para aplicar regresión y predecir valores continuos.

Tipos de árbol de decisiones

Los tipos de árboles de decisión incluyen:

  1. ID3 (dicotomizador iterativo 3)
  2. C4.5 (sucesor de ID3)
  3. CART (árbol de clasificación y regresión)
  4. CHAID (Detector automático de interacción CHi-cuadrado). …
  5. MARS: extiende los árboles de decisión para manejar mejor los datos numéricos.
  6. Árboles de inferencia condicional.

Conclusión

Un árbol de decisión es el mejor modelo predictivo. Se utiliza para hacer análisis cuantitativos de problemas de negocios y para validar resultados de pruebas estadísticas. Naturalmente, admite problemas de clasificación con más de dos clases y, por modificación, maneja problemas de regresión.

 

Entradas relacionadas

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

11 + 15 =