0% encontró este documento útil (0 votos)

8 vistas53 páginas

Esl ES

Cargado por

felipe0724

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

8 vistas53 páginas

Esl ES

Cargado por

felipe0724

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Tema 7

Modelización Predictiva

Tema 7. Árboles de regresión

y clasificación
Índice
Esquema

Ideas clave

7.1. Introducción y objetivos

7.2. Árboles de clasificación

7.3. Árboles de regresión

7.4. Ventajas y desventajas de los árboles de regresión y

clasificación

7.5. Cuaderno de ejercicios

7.6. Referencias bibliográficas

A fondo

Una referencia general

Algunos vídeos amigables

Test
Esquema

Modelización Predictiva 3
Tema 7. Esquema
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

7.1. Introducción y objetivos

Los árboles de regresión y de clasiﬁcación son algoritmos de aprendizaje

supervisado que particionan el dominio de los predictores en forma iterativa, hasta

que al ﬁnal del proceso se asocia cada partición con un valor ﬁjo de la variable

respuesta, sea que se trate de una variable continua o de una etiqueta de clase.

Cada división se efectúa eligiendo una partición existente y una variable conveniente

entre los predictores para subdividirla, y escogiendo un valor umbral que resulta en el

mejor refinamiento de la estructura.

La clave del método es, por lo tanto, escoger adecuadamente, en cada

paso, la variable que se usará para hacer crecer el árbol y el valor

umbral que se usará para definir las nuevas particiones.

Estos procesos están regidos por un criterio de particionado deﬁnido de antemano,

que mide, de algún modo, la homogeneidad de la respuesta en las particiones

resultantes. El mayor atractivo del método es la facilidad de interpretación del modelo

predictivo resultante. Un árbol entrenado provee una sucesión ordenada de reglas

simples a aplicar para obtener el valor de la respuesta. De este modo, ante un nuevo

dato cuya respuesta se quiere predecir, simplemente seguimos el árbol hasta un

nodo terminal que indica el valor estimado de la respuesta.

La mayor desventaja de estos métodos basados en árboles es que pueden ser

susceptibles de sobreajuste, lo que muchas veces limita el uso en problemas reales.

No obstante, son también el bloque de construcción de modelos predictivos de

agregación, como los bosques aleatorios que estudiaremos más adelante.

Modelización Predictiva 4
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Los contenidos desarrollados en este capítulo están orientados a:

▸ Comprender las principales estrategias de particionado recursivo para el aprendizaje

de modelos predictivos.

▸ Explorar distintos criterios para el aprendizaje y poda de árboles de decisión, tanto

para tareas de regresión como de clasificación.

▸ Comprender las ventajas y limitaciones de estos modelos para su aplicación en

problemas reales.

Modelización Predictiva 5
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Figura 1. Esquema de particionado recursivo asociado a un árbol de decisión con dos variables

predictoras: cada partición se asocia con un único valor de la variable respuesta, se trate de un problema

de regresión o de clasificación. Fuente: adaptado de Izenman (2008).

Modelización Predictiva 6
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

7.2. Árboles de clasificación

Un árbol de clasiﬁcación es el resultado de formular una secuencia ordenada de

preguntas, y el tipo de pregunta formulada en cada paso de la secuencia depende de

las respuestas a las preguntas anteriores de la secuencia. La secuencia termina en

una predicción de la clase.

El punto de partida de un árbol de clasiﬁcación es único y se denomina nodo raíz.

Consiste en todo el conjunto de aprendizaje en la parte superior del árbol. Un

nodo es un subconjunto del conjunto de variables y puede ser un nodo terminal o no

terminal. Un nodo principal es un nodo no terminal que se divide en dos nodos

secundarios (una división binaria). Tal división binaria está determinada por una

condición booleana sobre el valor de una sola variable, donde la condición se cumple

(yes) o no se cumple (no) según el valor observado de esa variable.

Todas las observaciones en que han llegado a un nodo (principal) en particular y

satisfacen la condición para esa variable descienden a uno de los dos nodos

secundarios; las observaciones restantes en ese nodo padre, que no satisfacen la

condición, descienden al otro nodo hijo. Un nodo que no se divide más se llama

nodo terminal o nodo hoja y se le asigna una etiqueta de clase. Cada observación

en cae en uno solo de los nodos terminales.

Cuando una observación de clase desconocida se clasiﬁca con el árbol entrenado,

se sigue la secuencia de decisiones binarias hasta terminar en un nodo terminal del

árbol, de modo que se le asigna la clase correspondiente a la etiqueta de clase

adjunta a ese nodo. Por supuesto, puede haber más de un nodo terminal con la

misma etiqueta de clase. El conjunto de todos los nodos terminales determina una

partición de los datos (o, más precisamente, del dominio de los predictores).

Modelización Predictiva 7
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

La Figura 1 ilustra un árbol de clasiﬁcación simple para un problema con dos

predictores.

Entrenamiento

Entrenar un árbol de clasiﬁcación implica construir un árbol de decisión a partir de un

conjunto de datos de entrenamiento etiquetados. El árbol de decisión divide el

conjunto de datos en regiones o subconjuntos más pequeños y homogéneos en

términos de la variable de respuesta (clase) que se está prediciendo.

El árbol se construye iterativamente dividiendo el conjunto de datos en subconjuntos

más pequeños. En cada iteración, se selecciona una variable para dividir y se

encuentra el valor óptimo de esa variable para separar las observaciones en dos

subconjuntos más homogéneos. Este proceso se repite hasta que se cumple un

criterio de detención, como la profundidad máxima del árbol o el número mínimo de

observaciones en un nodo hoja.

Para hacer crecer un árbol de clasiﬁcación, necesitamos responder cuatro

preguntas básicas:

▸ ¿Cómo elegimos las condiciones booleanas para dividir en cada nodo?

▸ ¿Qué criterio debemos usar para dividir un nodo padre en sus dos nodos hijos?

▸ ¿Cómo decidimos cuándo un nodo se convierte en un nodo terminal (es decir, deja

de dividirse)?

▸ ¿Cómo asignamos una clase a un nodo terminal?

Criterios de particionado

En cada nodo, el algoritmo de crecimiento del árbol tiene que decidir qué variable

conviene dividir. Necesitamos considerar cada división posible sobre todas las

variables presentes en ese nodo, luego enumerar todas las divisiones posibles,

evaluar cada una y decidir cuál es la mejor en algún sentido.

Modelización Predictiva 8
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Para una variable continua u ordinal, el número de puntos de división posibles es

igual a la cantidad de valores distintos observados para esa variable menos uno. Por

ejemplo, en los datos Cleveland_heart_disease.csv , tenemos seis variables continuas u

ordinales: age (40 divisiones posibles), treatbps (49 divisiones posibles), chol (151

divisiones posibles), thatach (90 divisiones posibles), c a (3 divisiones posibles) y

oldpeak (39 divisiones posibles).

Los datos se pueden descargar del archivo [Link] en el

repositorio de la UCI: [Link]

El número total de posibles divisiones de estas variables continuas es, por lo tanto,

372. Para una variable categórica con niveles, la cantidad de divisiones posibles

está dado por todos los subconjuntos posibles de los niveles. Descartando el

caso en que uno de los nodos hijos resulta vacío y los casos redundantes, tenemos

posibilidades.

Por ejemplo, supongamos que (es decir, la variable tiene cuatro categorías,

digamos, y ) y denotemos con y al nodo hijo izquierdo y el

nodo hijo derecho, respectivamente, que se desprenden del nodo (padre) .

Entonces tenemos posibles divisiones (ignorando las divisiones donde

uno de los nodos secundarios está vacío).

Sin embargo, la mitad de esas divisiones son redundantes; por ejemplo, la división

y es el reverso de la división y

. Entonces, el conjunto de todas las divisiones distintas

viene dado por la siguiente tabla:

Modelización Predictiva 9
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Tabla 1. Ejemplificación de la cantidad de divisiones posibles con una variable categórica. Fuente:
elaboración propia.

En los datos Cleveland_heart_disease , hay siete variables categóricas: sex (1 división

posible), c p (7 divisiones posibles), fbs (1 división posible), restecg (3 divisiones

posibles), exang (1 división posible), slope (3 divisiones posibles) y thal (3 divisiones

posibles). El número total de posibles divisiones de estas variables categóricas es,

por lo tanto, 19.

Si sumamos el número de posibles divisiones de las variables categóricas (19) al

número total de posibles divisiones de las variables continuas (372) obtenemos 391

posibles divisiones sobre las trece variables en el nodo raíz. Dicho de otro modo, hay

391 posibles divisiones del nodo raíz en dos nodos secundarios. Entonces, ¿cómo

elegimos qué división hacemos? ¿Qué división es la mejor?

Para elegir la mejor división posible entre todas las variables, primero necesitamos

elegir la mejor división para cada variable. Para eso necesitamos alguna forma de

medir cuán buena resulta una división. Supongamos un problema con clases.

Modelización Predictiva 10
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Lo que necesitamos es una medida de impureza (la impureza de un nodo se reﬁere

a la mezcla de clases o categorías en los datos que caen en ese nodo) de los nodos:

Donde representa el nodo y es una estimación de ,

la probabilidad condicional de que una observación pertenezca a la clase en

dado que está en el nodo τ. Para cumplir adecuadamente con este objetivo

necesitamos que la función deﬁnida sobre el simplex de

probabilidad (en el contexto de la teoría de probabilidades, un simplex de

probabilidad se reﬁere a un conjunto de distribuciones de probabilidad que cumplen

ciertas condiciones) sea simétrica, se minimice para , en vector de ceros

y un uno en la posición y se maximice para .

Algunos ejemplos que cumplen con estas condiciones son:

Función de entropía

Notemos que, si solo existen dos clases, la función de entropía se reduce a:

Donde hemos llamado .

Índice de diversidad de Gini:

El índice de diversidad de Gini para dos clases resulta:

Modelización Predictiva 11
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Por defecto, la función elegida por los softwares suele ser el índice de diversidad de

Gini.

¿Cómo utilizamos esto para elegir la mejor división posible sobre cada

variable en el nodo?

Supongamos que aplicamos una división sobre el nodo que contenía

inicialmente observaciones, de modo que resulta un nodo hijo izquierdo con

observaciones y un nodo hijo derecho con observaciones. La

calidad de la división la podemos cuantiﬁcar con la reducción de impureza lograda

en el nodo , lo que viene dado por:

Entre todas las divisiones posibles para el nodo , que podemos hacer sobre el

predictor , debemos elegir aquella que maximiza esta diferencia (por ejemplo,

maximiza la reducción de impureza).

Notar que esta reducción de impureza se plantea primero sobre cada

variable que pertenece al nodo y luego entre todas ellas para elegir la

mejor división posible.

Tomemos los datos Cleveland_heart_disease y consideremos la variable age como una

posible variable de división en el nodo raíz. Hay 41 valores diferentes para age , por

lo que hay 40 posibles divisiones.

Armamos una tabla de 2×2 (Tabla 2) en la que se divide la edad, por ejemplo, en 65

años.

Modelización Predictiva 12
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Tabla 2. Tabla para la división de la variable age en los datos Cleveland_heart_disease: la rama izquierda

tendría una edad ≤ 65 y la rama derecha tendría una edad > 65. Fuente: elaboración propia.

Usando la función de entropía de dos clases como medida de impureza, calculamos

(A) y (B), respectivamente, para los dos posibles nodos hijos:

▸ (A)

▸ (B)

Además, calculamos la entropía para el nodo padre:

▸ (C)

Por lo tanto, la bondad de esta división viene dada por:

Si repetimos estos cálculos para las 40 divisiones posibles de la variable a g e ,

Modelización Predictiva 13
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

llegamos a la Figura 2. En el gráﬁco de la izquierda, representamos (curva

azul) e (curva roja) contra cada una de las 40 divisiones. Notar la gran caída

en la gráﬁca de en la edad dividida en ≤ 70. En el gráﬁco de la derecha,

representamos contra cada una de las 40 divisiones . El mayor valor de

es 0,0438, que corresponde a dividir la edad en ≤ 54.

Figura 2. Elegir la mejor división para la variable de age en los datos Cleveland_heart_disease. La medida

de la impureza es la función de entropía. Fuente: elaboración propia.

Panel izquierdo

Gráﬁcas de (curva azul) e (curva roja) contra la edad de división.

Panel derecho: gráﬁca de la bondad de la división s, , contra la edad de

división. El pico de esta curva corresponde a la edad dividida en ≤ 54.

Modelización Predictiva 14
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Supongamos que tenemos variables. Para hacer crecer un árbol comenzamos

con el nodo raíz, que consiste en todo el conjunto de aprendizaje. Usando el criterio

de bondad de la división para una sola variable, el algoritmo encuentra la mejor

división en el nodo raíz para cada variable. La mejor división en el nodo raíz se

deﬁne, entonces, como la que tiene la mayor reducción de impureza sobre todas las

mejores divisiones de variable única en ese nodo.

▸ La Tabla 3 muestra la mejor división (utilizando como medida de impureza la función

de entropía) en el nodo raíz (y el valor correspondiente de para cada una

de las trece variables de los datos Cleveland_heart_disease . El mayor valor es 0,1457

correspondiente a la variable thal . Entonces, para estos datos, la mejor división en
el nodo raíz es dividir la variable thal según normal vs. (fixed, reversable) ; es decir,
primero separa los 164 pacientes normales de los 133 pacientes que tienen defectos
(fijos o reversibles) para la variable thal .

Tabla 3. Determinación de la mejor división en el nodo raíz para los datos Cleveland_heart_disease. La

medida de la impureza es la función de entropía. Cada variable de entrada se muestra junto con su valor

máximo de Δi(s,τ ) sobre todas las divisiones posibles de esa variable. Fuente: elaboración propia.

A continuación, dividimos de la misma manera cada uno de los nodos hijos del nodo

raíz. Repetimos los cálculos anteriores para el nodo hijo izquierdo y para el nodo hijo

derecho, teniendo en cuenta solo las observaciones que pertenecen a cada partición.

Cuando se completan esas divisiones, continuamos dividiendo cada uno de los

nodos subsiguientes.

Modelización Predictiva 15
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Este proceso de construcción del árbol mediante división secuencial se

denomina particionado recursivo. Si cada nodo principal se divide en

dos nodos secundarios, el resultado es un árbol binario. Si el árbol

binario crece hasta que ninguno de los nodos se puede dividir más,

decimos que el árbol está saturado.

En escenarios de alta dimensión, permitir que el árbol crezca hasta la saturación

puede ser un proceso costoso y, además, susceptible de conducir a sobreajuste.

Inicialmente se usaban criterios de parada para detener el crecimiento del árbol; por

ejemplo, deﬁniendo un número mínimo de observaciones ( í ) en cada partición

o una mínima reducción de impureza. Actualmente, no obstante, es común dejar

crecer el árbol hasta la saturación y luego podarlo convenientemente. Veremos este

procedimiento en la siguiente sección.

¿Cómo asociamos una clase con cada nodo terminal?

Imaginemos que un nodo terminal tiene obervaciones y, entre ellas,

corresponden a la clase , respectivamente. Luego, la regla de

Bayes para la clasiﬁcación motiva asignar la clase representada con el mayor

número de observaciones en el nodo, ya que es un estimador de la

probabilidad posterior de la clase para todas las observaciones contenidas en esa

partición.

Volviendo a los datos Cleveland_heart_disease , el árbol de clasiﬁcación, utilizando

como medida de impureza la función de entropía, resulta:

Modelización Predictiva 16
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Figura 3. Árbol de clasificación utilizando como medida de impureza la función de entropía para los datos

Cleveland_heart_disease. Fuente: elaboración propia.

Los nodos (internos y terminales) se clasiﬁcan como no —sanos— (nodos de color

verde) o sí —enfermos— (nodos color rosa) según el diagnóstico mayoritario de los

pacientes que caen en ese nodo. Las variables de división se muestran a lo largo de

las ramas. Así vemos: el nodo raíz con 297 pacientes se divide según si thal = norm

(164 pacientes) o thal = fixed o reversable (133 pacientes).

El nodo con los 164 pacientes, que consta de 127 pacientes sanos y 37 pacientes

con enfermedades cardíacas, se divide luego si ca < 0,5 (115 pacientes) o ca > 0,5

(49 pacientes). El nodo con 115 pacientes se declara nodo terminal para no —sano

— debido a la mayoría de 102-13 a favor de no. El nodo con 49 pacientes, que

consta de 25 pacientes sanos y 24 con enfermedades cardíacas, se divide en cp =

typical , atypical , non-anginal (29 pacientes) o cp = asymptomatic (20 pacientes).

El nodo con 29 pacientes, que consta de 22 pacientes sanos y 7 con enfermedades

cardíacas, se divide por edad ≥ 66 (7 pacientes) o edad < 66 (22 pacientes). El nodo

con 7 pacientes se declara nodo terminal para no —sano— debido a la mayoría de 7

a 0 a favor de no, y el nodo con 22 pacientes, que consta de 15 pacientes sanos y 7

con cardiopatías, se divide por edad < 56 (13 pacientes) o edad ≥ 56 (9 pacientes).

Modelización Predictiva 17
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

El nodo con 13 pacientes se declara nodo terminal para no —sano— debido a la

mayoría de 12-1 a favor de no, y el nodo con 9 pacientes se declara nodo terminal
para sí —enfermo— debido a la mayoría de 6-3 a favor de sí. Y así sucesivamente.

Por lo tanto, vemos que hay cuatro caminos (sucesión de divisiones) a través de este

árbol para que un paciente sea declarado saludable (Sano) y otros cinco caminos

para que un paciente sea diagnosticado con una enfermedad cardíaca (enfermo).

Hay 8 divisiones (y 9 nodos terminales) en este árbol. Las variables utilizadas en la

construcción del árbol son thal , c a , c p , a g e y exang . La tasa de error de

resubstitución (o error aparente) (es decir, la tasa de error obtenida del conjunto de

entrenamiento) es (17 pacientes enfermos que se clasiﬁcan como

sanos y 22 pacientes sanos que se clasifican como enfermos).

Modelización Predictiva 18
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

En el siguiente vídeo, Criterios de particionado, veremos los criterios de particionado

utilizados para hacer creer los árboles, ejempliﬁcando cada uno de ellos en un caso

concreto.

Accede al vídeo:
[Link]
41fb-a900-b0680131faeb

Estimación de la tasa de clasiﬁcación errónea

Consideramos primero la tasa de error clasiﬁcación de una observación en el nodo

, que denotamos por . Dado que asignamos al nodo la clase que presenta

mayor proporción de observaciones en el nodo, la estimación aparente de

viene dada por:

Para el caso de dos clases, se reduce a:

Modelización Predictiva 19
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Hay que recordar que es una estimación de la probabilidad

Sea el árbol de clasiﬁcación y sea el conjunto de todos los

nodos terminales de . Entonces, la tasa de clasiﬁcación errónea para viene

dada por:

Donde es la probabilidad de que una observación caiga en el nodo . Si

estimamos con la proporción de todas las observaciones que caen

en el nodo τ, entonces, la estimación de resustitución o aparente de es:

De los 297 pacientes, el árbol de la Figura 3 clasiﬁca erróneamente a 22

de los 160 pacientes sanos como enfermos, mientras que, de los 173

pacientes con enfermedad cardiaca, 17 se clasiﬁcan erróneamente como

sanos. Entonces, el error aparente es .

Poda

Breiman et al. (1984) impuso la ﬁlosofía de hacer crecer los árboles en exceso y

luego podarlos convenientemente. La poda es una técnica para reducir la

complejidad del árbol y mejorar su capacidad para generalizar en datos nuevos

eliminando ramas que no contribuyen signiﬁcativamente a la precisión del modelo. La

poda consiste en eliminar ramas o subárboles completos del árbol original, para

evitar el sobreajuste o sobreentrenamiento del modelo, lo que puede llevar a una

menor precisión en la predicción de datos nuevos. En general, la poda consiste en

Modelización Predictiva 20
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

las siguientes etapas:

▸ Hacer crecer el árbol hasta que cada nodo terminal tiene menos de

observaciones. Llamemos a este árbol inicial .

▸ Calcular un estimador de en cada nodo terminal de .

▸ Podar el árbol en dirección ascendente desde las hojas, de modo que en cada etapa

de la poda minimizamos el estimador de .

Para que esto tenga éxito, debemos mejorar nuestra estimación de . Una
técnica común es penalizar el error aparente con un término asociado a la

complejidad del árbol. Sea un parámetro de complejidad. Para cada nodo

definimos:

Entonces, deﬁnimos una medida de poda de costo-complejidad para un árbol de la

siguiente manera:

Con la cantidad de nodos terminales del árbol. Debe pensarse a

como un término de penalización para el tamaño del árbol, por lo que

penaliza a por generar un árbol demasiado grande. Para cada

, elegimos un subárbol de que minimiza el riesgo . Tal

se llama subárbol minimizador (o subárbol óptimamente podado) de .

El hiperparámetro controla el tamaño del árbol a obtener, de modo que

si . Cuando es muy pequeño, el término de

penalización será pequeño, por lo que el tamaño del subárbol minimizador ,

que esencialmente estará determinado por , será grande.

Por ejemplo, supongamos que establecemos y hacemos crecer el árbol

Modelización Predictiva 21
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

tanto que cada nodo terminal contenga una única observación; entonces,

cada nodo terminal toma la clase de su única observación, cada observación se

clasifica correctamente y . Entonces, minimiza .

A medida que aumentamos , los subárboles minimizadores

tendrán cada vez menos nodos terminales. Cuando es muy

grande, habremos podado todo el árbol , dejando solo el nodo

raíz.

Notemos que, aunque α pueda tomar valores en , existe una cantidad ﬁnita

de subárboles que podemos tomar de . La estrategia general para podar un

árbol consiste entonces en encontrar una secuencia de parámetros de complejidad

de modo que . En cada

paso buscamos el subárbol que induce la mejor reducción en el error aparente

; es decir, buscamos minimizar:

Para ; esto es, que no es nodo terminal en .

Obtenida la sucesión de árboles imbricados , ¿cómo elegimos cuál es

el mejor? Una vez más, la estrategia general es comparar una estimación de

, para de modo de elegir el árbol que minimiza este error.

Podemos obtener estimadores razonables de este error computándolo:

▸ Sobre un conjunto de prueba independiente.

▸ Utilizando un procedimiento de validación cruzada.

Modelización Predictiva 22
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Cuando utilizamos un conjunto de validación independiente simplemente

particionamos el conjunto total de datos en un conjunto de entrenamiento y otro

de validación . Luego evaluamos las observaciones de validación en cada

uno de los árboles y es simplemente la proporción de estos casos que

resultan mal clasificados.

Por el contrario, si adoptamos un enfoque de validación cruzada con particiones,

no tendremos los mismos árboles para particiones distintas; es decir, ,

para . Lo que hacemos es entonces ﬁjar los valores de que dan lugar a los

distintos árboles y elegimos el mejor valor de este parámetro de complejidad. Si

llamamos a la cantidad de observaciones de la clase que son asignadas

a la clase i usando un árbol , entonces y la tasa de

error es

¿Cómo elegimos la sucesión de valores de α a probar? Una opción es probar sobre

los valores donde es el intervalo de valores

de α donde se verifica que (sobre el conjunto total de datos).

La elección entre estas dos opciones a menudo depende de la cantidad de muestras

disponibles: si es lo suficientemente grande, la evaluación del error en un conjunto de

prueba independiente es la opción más sencilla y computacionalmente más eficiente.

Árboles de clasiﬁcación en R

Una opción usada con frecuencia en para el ajuste de árboles de clasiﬁcación es

la función rpart() disponible en el paquete {rpart} . Veamos un ejemplo de aplicación

sencillo sobre los datos iris.

# Carga el conjunto de datos "iris"

Modelización Predictiva 23
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

data(iris)

# Dividir el conjunto de datos en un conjunto de entrenamiento y un

conjunto de prueba

[Link](123)

train_index <- sample(1:nrow(iris), 100)

train_data <- iris[train_index, ]

test_data <- iris[-train_index, ]

# Entrenamiento del árbol de clasificación utilizando el conjunto de

entrenamiento

library(rpart)

model <- rpart(Species ~ ., data = train_data, method = "class")

# Realizar predicciones en el conjunto de prueba

predictions <- predict(model, test_data, type = "class")

# Evaluar el desempeño del modelo usando una matriz de confusión

library(caret)

confusionMatrix(predictions, test_data$Species)

En este ejemplo, el conjunto de datos Iris se divide en un conjunto de entrenamiento

y un conjunto de prueba utilizando la función sample() . A continuación, se entrena el

árbol de clasiﬁcación utilizando la función rpart() , especiﬁcando la fórmula de la

variable de respuesta y las variables predictoras, así como el método class para la

clasiﬁcación. Luego, se realizan predicciones en el conjunto de prueba utilizando la

función predict() , especiﬁcando el tipo de predicción class . Finalmente, se evalúa el

desempeño del modelo utilizando la función confusionMatrix() de la librería {caret} .

Modelización Predictiva 24
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

En el siguiente vídeo, Árboles de clasiﬁcación, veremos un ejemplo de utilización de

árboles de decisión para un problema de clasificación.

Accede al vídeo:
[Link]

4833-97c0-b0680131fb93

Modelización Predictiva 25
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

7.3. Árboles de regresión

La utilización de árboles en problemas de regresión es muy similar a lo discutido para

problemas de clasiﬁcación. Un árbol de regresión asocia un valor constante de la

respuesta a cada nodo terminal, de modo que la función de regresión estimada es

una función constante a trozos sobre el dominio de los predictores. En las secciones

siguientes comentamos las principales diferencias y detalles particulares del proceso

general de entrenamiento de árboles que merecen una distinción respecto de lo ya

presentado para problemas de clasificación.

¿Cómo deﬁnimos el valor del nodo terminal?

La opción natural es adoptar el promedio de los valores de respuesta de las

observaciones asociadas al nodo terminal. Esto es:

El error aparente resultante para un árbol es entonces

También podemos escribir como , con un estimador

sesgado de la varianza de la respuesta en el nodo .

¿Cómo podamos el árbol?

La poda de un árbol de regresión es completamente análoga a lo ya presentado en

clasiﬁcación. Sin embargo, podemos dar una interpretación particular a la búsqueda

del mejor valor de una variable para producir una división de una partición existente.

Recordemos que lo que queremos es encontrar un valor de en el nodo para

dividir el nodo en dos hijos y de modo de maximizar la reducción del error

aparente en el nodo:

Modelización Predictiva 26
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Una forma equivalente es pensar que queremos minimizar la varianza agregada

resultante:

¿Cómo elegimos el mejor subárbol?

Al igual que en clasiﬁcación, el proceso de poda nos da una secuencia de árboles

imbricados y debemos decidir cuál entre ellos resulta más

conveniente como modelo predictivo. La clave pasa, una vez más, por estimar el

error de predicción de cada árbol de forma conﬁable. Para ello podemos recurrir

nuevamente a un conjunto de datos de validación independiente de la muestra de

entrenamiento o utilizar un procedimiento de validación cruzada. Sea el

valor predicho para x con el árbol . El error de predicción para sobre un

conjunto de validación es simplemente

Si en lugar de un conjunto de validación usamos un procedimiento de validación

cruzada con particiones, el estimador del error de predicción es un promedio

sobre las particiones de un error como el anterior, es decir:

Como explicamos para el caso de clasiﬁcación, la elección del procedimiento para

estimar el error de predicción a menudo depende del tamaño de muestra disponible

en relación con la cantidad de variables.

Modelización Predictiva 27
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

La Figura 4 muestra un ejemplo de aplicación de un árbol de regresión sobre los

datos Hitters disponible en el paquete {ILSR2} de R.

Figura 4. Ejemplo de un análisis por árbol de regresión aplicado a los datos Hitters del paquete ILSR2.

Fuente: elaboración propia.

Modelización Predictiva 28
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

En el siguiente vídeo, Árboles de regresión, veremos un ejemplo de utilización de

árboles de decisión para un problema de regresión.

Accede al vídeo:
[Link]

46fc-b26d-b0680131fbac

Modelización Predictiva 29
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

7.4. Ventajas y desventajas de los árboles de

regresión y clasificación

La principal ventaja de los árboles de regresión y de clasiﬁcación es que son fáciles

d e interpretar y explicar, especialmente cuando no son muy grandes. De hecho,

pueden ser incluso más fáciles de interpretar que un modelo lineal. Decidir cuál de

estos modelos simples es la opción es más conveniente para un problema particular,

en general, depende del problema.

La Figura 5 muestra la aplicación de modelos basados en árboles a dos problemas

de clasiﬁcación de dos clases y dos predictores, uno ilustrado en la parte superior de

la ﬁgura y el otro, en la parte inferior. En el primer caso, la frontera de decisión es

aproximadamente lineal y entonces el modelo lineal resulta más adecuado. El árbol

solo puede brindar una aproximación de esta frontera, reﬁnando el particionado en

esa zona.

El ejemplo inferior, por el contrario, resulta extremadamente sencillo de describir para

un árbol (de hecho, es un problema perfectamente separable), mientras que un

modelo lineal solo puede lograr una aproximación bastante tosca de la frontera de

separación entre las clases.

De hecho, tomando polinomios de orden cada vez más grandes podríamos

mejorar la aproximación del modelo lineal, pero esto empeoraría la relación entre

tamaño muestral y cantidad de parámetros a estimar, al tiempo que nunca lograría

una aproximación completamente eﬁcaz. Un árbol, por su parte, puede resolver el

problema con solo tres nodos terminales.

La interpretabilidad de los modelos basados en árboles está también favorecida por

la posibilidad de visualizar la solución, independientemente de la dimensión de los

predictores. Por otra parte, los árboles pueden incluir variables continuas y

Modelización Predictiva 30
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

categóricas simultáneamente de forma natural, sin requerir una recodiﬁcación de las

últimas (que suele aumentar la dimensionalidad del problema de estimación).

La principal desventaja de los métodos basados en árboles es que pueden ser

propensos al sobreajuste si no se controla la profundidad del árbol. Esto signiﬁca que

pequeños cambios en la muestra de entrenamiento pueden conducir a cambios

signiﬁcativos en el árbol estimado. Esta variabilidad, a su vez, cuestiona cualquier

interpretación que podamos hacer sobre la relación entre las variables a partir de la

estructura del árbol.

Para reducir la posibilidad de sobreajuste, a veces se corrige la elección de la mejor

poda, intentando simpliﬁcar aún más el árbol resultante. Supongamos que es el

árbol elegido, ya sea por validación cruzada o usando un conjunto de validación

independiente. En su lugar, podemos explorar si existe un árbol más chico entre los

evaluados que verifica que:

La eﬁcacia de este procedimiento, sin embargo, es limitada en problemas

moderadamente complejos. No obstante, más adelante veremos que los modelos

basados en árboles pueden ser muy útiles como bloques de construcción de

modelos predictivos de agregación, en los que combinamos un número grande de

modelos predictivos individualmente débiles para obtener una solución eﬁcaz y más

robusta.

Modelización Predictiva 31
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Figura 5. Comparación entre la solución por árboles y por modelos lineales para dos problemas de

clasificación, ambos con dos predictores. Fuente: James et al. (2021).

En la Figura 5, en el caso de arriba, la frontera de decisión puede describirse

adecuadamente por una frontera lineal; un árbol de clasiﬁcación puede lograr una

aproximación, pero no es la opción más eﬁcaz. En el caso de abajo, la frontera de

decisión no puede describirse por un clasiﬁcador lineal simple y la solución de un

árbol de clasificación es mucho más efectiva.

Modelización Predictiva 32
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

7.5. Cuaderno de ejercicios

Ejercicio 1

Proponga una expresión para el intervalo de conﬁanza del error de predicción de un

árbol de clasificación y justifique.

Solución

Supongamos que hemos entrenado un árbol de clasiﬁcación y que contamos con

un conjunto de prueba independiente para evaluarlo. Supongamos que este conjunto

de prueba tiene observaciones. Podemos estimar la probabilidad de clasiﬁcar

mal una observación con ; es decir, la tasa de error obtenida con el

conjunto de prueba.

Dada una observación , el error de clasiﬁcación es una variable aleatoria con

distribución Bernoulli de parámetro . Para casos a clasiﬁcar, el error de

predicción sigue una distribución binomial con tamaño y probabilidad . Luego,

podemos construir un intervalo de conﬁanza con esta información. Por otra parte, el

error estándar es:

Podemos, eventualmente, construir un intervalo de conﬁanza normal con esta

información, tomando límites .

Ejercicio 2

En un problema de clasiﬁcación binario, ¿por qué conviene requerir que todos los

nodos terminales tengan una cantidad impar de observaciones?

Modelización Predictiva 33
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Solución

Conviene requerir que los nodos terminales tengan una cantidad impar de

observaciones para evitar empates en la asignación de la clase que representa el

nodo. Recordemos que la clase asociada al nodo se determina veriﬁcando la clase

con mayor proporción de casos entre las observaciones correspondientes al nodo

terminal.

Ejercicio 3

¿Por qué el uso del error aparente sobre los nodos del árbol puede no ser el mejor

criterio para hacer crecer el árbol? Utilice un problema de clasiﬁcación binario para

comparar la función de impureza asociada al error aparente contra el índice de Gini o

la entropía de Shannon.

Solución

En los árboles de decisión, el error de clasiﬁcación no suele ser la mejor métrica para

guiar el crecimiento del árbol durante el entrenamiento. Esto se debe principalmente

▸ Insensibilidad a las mejoras en la confianza de las predicciones: el error de

clasificación no distingue entre predicciones incorrectas que estuvieron muy cerca de

ser correctas y las que estuvieron muy lejos. En cambio, criterios como el índice Gini
o la entropía cruzada, que son más sensibles a la confianza de las predicciones,
pueden ser mejores para guiar el crecimiento del árbol.

▸ Falta de sensibilidad en los nodos con predominancia de una clase: en situaciones

en las que una clase predomina en un nodo, pequeñas variaciones en la

probabilidad de predicción para la clase minoritaria pueden no afectar al error de
clasificación, mientras que serán reflejadas en el índice Gini o en la entropía
cruzada.

Por estas razones, se suelen preferir otros criterios, como el índice Gini o la entropía

cruzada, para crecer árboles de clasiﬁcación en lugar del error de clasiﬁcación. La

Figura 6 ilustra la diferencia entre estos tres criterios, como función de la proporción

de casos de la clase mayoritaria en un problema binario.

probs = seq(from=0, to = 1, by = 0.01)

erclass = function(p){

out = numeric(length(p))

for (i in 1:length(p)){

pp = p[i]

out[i] = min(pp,1-pp)

return(out)

shannon = function(pp){

out = numeric(length(pp))

for (i in 1:length(pp)){

out[i] = 0

p = pp[i]

if (p > 0){

if (p < 1){

out[i] = - plog(p) - (1-p) log(1-p)

return(out)

gini = function(p){return(2*p*(1-p))}

plot(probs, erclass(probs), type='l', col='blue4', lwd=1.5, bty='L',

ylim=c(0,0.7), xlab='p', ylab='Impureza')

lines(probs, gini(probs), lwd=1.4, col='green4')

lines(probs, shannon(probs), lwd=1.4, col='red4')

legend(x = 0, y = 0.7, legend = c('Error aparente','Gini','Entropía'),

bty='n', fill = c('blue4','green4', 'red4'), cex=.8)

Figura 6. Gráfico correspondiente al ejercicio 3. Fuente: elaboración propia

Ejercicio 4

En un árbol de regresión, fundamente por qué utilizar el siguiente valor para un nodo

terminal es una buena opción bajo un criterio de cuadrados mínimos.

Solución

El estimador representa la esperanza condicional de la respuesta para predictores en

el nodo; esto es . Esto es una aproximación a

, que es la solución óptima para un problema de regresión bajo el

criterio de cuadrados mínimos.

Ejercicio 5

Conceptualmente, ¿cómo podría evaluar la relevancia de cada predictor en un

problema de regresión mediante un árbol de regresión?

Solución

Hay varias formas de evaluar la importancia de cada predictor en un modelo de árbol

de regresión. Las más importantes son:

▸ Análisis de permutaciones: la importancia de una variable se mide permutando

aleatoriamente los valores de esa variable y viendo cuánto empeora la predicción del
modelo. Si permutar una variable hace que el modelo empeore significativamente,
eso indica que la variable es importante.

▸ Número de divisiones: también se puede medir la importancia de una variable

contando simplemente cuántas veces se utiliza para dividir el árbol. Si una variable
se usa a menudo para dividir el árbol, eso sugiere que es una variable importante.

▸ Profundidad de la división: finalmente, se puede considerar no solo cuántas veces

se utiliza una variable para dividir el árbol, sino también a qué profundidad se
produce esa división. Las divisiones que ocurren cerca de la raíz del árbol afectarán

a más observaciones y, por lo tanto, se pueden considerar más importantes.

Cabe señalar que todos estos métodos proporcionan estimaciones de la importancia

de las variables que pueden ser útiles para la interpretación del modelo y para la

selección de variables, pero todas tienen sus limitaciones y no deben tomarse como

la verdad absoluta sobre la importancia de las variables.

Ejercicio 6

La Figura 7 muestra el particionado del dominio de dos variables predictoras. ¿Puede

asociar un árbol de regresión o de clasificación con este particionado? Justifique.

Figura 7. Particionado correspondiente al Ejercicio 6. Fuente: elaboración propia.

Solución

El particionado mostrado en la ﬁgura NO pudo haber sido generado por un árbol de

regresión o de clasiﬁcación como los estudiados en este capítulo. Notemos que en el

particionado recursivo que hemos estudiado, cada nueva partición representa un

plano que divide en dos una partición existente. En consecuencia, debería haber una

línea que atraviese el plano de los predictores completamente.

Ejercicio 7

La Figura 8 muestra el particionado del dominio de dos variables predictoras. Dibuje

un árbol de decisión que de origen a tal particionado.

Figura 8: Particionado correspondiente al ejercicio 7. Fuente: elaboración propia.

Solución

La Figura 9 muestra la solución del problema.

Figura 9. Solución al problema planteado en la Figura 8. Fuente: elaboración propia.

Ejercicio 8

La siguiente tabla resume un conjunto de datos con tres variables y dos

etiquetas de clase , . Construye un árbol de decisión de dos niveles.

Tabla 4. Datos para ejercicio 8. Fuente: elaboración propia.

▸ Utilizando el índice Gini como medida de impureza, ¿qué variable elegirías como

primera variable de división? Para cada variable, muestra la tabla de contingencia y

la reducción de impureza lograda por la división.

▸ Construye el árbol correspondiente.

Solución de la consigna 1

Utilizando la variable A para la división, la tabla de contingencia es:

Tabla 5. Tabla de contingencia. Fuente: elaboración propia.

Y la reducción de impureza con la división es:

Utilizando la variable para la división, la tabla de contingencia es:

Tabla 6. Tabla de contingencia. Fuente: elaboración propia.

Y la reducción de impureza con la división es:

Utilizando la variable para la división, la tabla de contingencia es:

Tabla 7. Tabla de contingencia. Fuente: elaboración propia.

Y la reducción de impureza con la división es:

Luego, la variable con la cual resulta mayor la reducción de impureza es la variable

, y es la que elegimos para realizar la primera división.

Solución de la consigna 2

Para determinar la variable a elegir para la segunda división, repetimos el análisis

realizado en la consigna 1.

Para la variable :

Tabla 8. Tabla de contingencia. Fuente: elaboración propia.

La reducción de impureza lograda con la división:

Para la variable C:

Tabla 9. Tabla de contingencia. Fuente: elaboración propia.

La reducción de impureza lograda con la división:

Luego, la variable con la cual resulta mayor la reducción de impureza es la variable

y es la que escogemos para realizar la segunda división.

El árbol resultante es:

Figura 10. Gráfico correspondiente al árbol solución del ejercicio 8. Fuente: elaboración propia.

Ejercicio 9

Usando el conjunto de datos de validación que se muestran en la Tabla 5, estima el

error de clasificación del árbol construido en el ejercicio anterior.

Tabla 5: datos de validación para ejercicio 9. Fuente: elaboración propia.

Solución

El error de predicción estimado a partir del conjunto de validación es 3/5.

Ejercicio 10

Ajusta un modelo predictivo basado en árboles a los datos [Link] . Lo que

queremos predecir es el tipo de diabetes.

▸ Realiza un análisis exploratorio del valor predictivo de las variables predictoras.

▸ Ajusta un árbol de clasificación y muestre el árbol de decisión resultante.

▸ Evalúa el error de predicción del árbol obtenido.

Solución

En el siguiente vídeo podrás acceder a la resolución del ejercicio 10.

Accede al vídeo:
[Link]

4873-9c9b-b0680131facf

7.6. Referencias bibliográficas

Breiman, L., Friedman, J., Olshen, R., y Stone, C. (1984). Classiﬁcation and

Regression Trees. Wadsworth Inc.

Izenman A. J. (2008). Modern multivariate statistical techniques: regression

classification and manifold learning. Springer.

James, G., Witten, D., Hastie, T., Tibshirani, R. (2021). An Introduction to Statistical

Learning: with Applications in R. (2.° ed.). Springer.

UC Irvine Machine Learning Repository (s. f.). Heart Disease.

[Link]

Una referencia general

Hastie, T., Tibshirani, R., Friedman, J. (2009). The Elements of Statistical Learning,

Segunda edición. Springer. [Link]

La sección 9.2 del libro de Hastie et al. ofrece una buena discusión general de

modelos de regresión y clasificación basados en árboles.

Algunos vídeos amigables

StatQuest con Josh Starmer. (2021). Decision and Classiﬁcation Trees, Clearly

Explained!!! [Vídeo]. YouTube. [Link]

Accede al vídeo:

[Link]

StatQuest con Josh Starmer. (2021). Decision and Classiﬁcation Trees, Clearly

Explained!!! [Vídeo]. YouTube. [Link]

Accede al vídeo:
[Link]

StatQuest con Josh Starmer. (2019). How to Prune Regression Trees, Clearly

Explained!!! [Vídeo]. YouTube. [Link]

Accede al vídeo:

[Link]

El canal de YouTube StatQuest with Josh Starmer ofrece una serie de vídeos

amenos relacionados con árboles de decisión y su especialización para regresión y

clasiﬁcación. Algunos detalles no son rigurosos desde el punto de vista formal, pero

ayudan, de todos modos, a la comprensión.

1. En los árboles de decisión, ¿cuál de las siguientes afirmaciones es falsa?

A. Los árboles de decisión pueden manejar tanto variables categóricas como

numéricas.

B. Los árboles de decisión son modelos lineales.

C. Los árboles de decisión pueden manejar problemas de clasiﬁcación y

regresión.

D. Los árboles de decisión pueden modelar interacciones entre variables.

2. ¿Qué métrica de impureza se usa generalmente para árboles de regresión?

A. Entropía.

B. Índice Gini.

C. Error de clasificación.

D. Error cuadrático medio.

3. ¿Qué sucede si un árbol de decisión se deja crecer demasiado?

A. El árbol se sobreajusta a los datos de entrenamiento.

B. El árbol se subajusta a los datos de entrenamiento.

C. El árbol se vuelve más interpretable.

D. El árbol se vuelve menos propenso a errores de clasificación.

4. ¿Cuál de los siguientes no es un criterio comúnmente usado para decidir las

divisiones en un árbol de clasificación?

A. Error de clasificación.

B. Índice Gini.

C. Entropía cruzada.

D. Coeficiente de correlación.

5. ¿Qué es la poda en el contexto de los árboles de decisión?

A. Un método para seleccionar la mejor variable para dividir.

B. Un método para aumentar la profundidad del árbol.

C. Un método para disminuir la complejidad del árbol, reduciendo su tamaño

para prevenir el sobreajuste.

D. Ninguna de las anteriores es correcta.

6. ¿Qué es un árbol de decisión?

A. Una forma de regresión lineal.

B. Una técnica de agrupación.

C. Una técnica de aprendizaje supervisado que divide el espacio de las

variables predictoras en regiones distintas.

D. Una técnica de aprendizaje no supervisado que divide el espacio de las

variables predictoras en regiones distintas.

7. ¿Cuál de las siguientes aﬁrmaciones sobre los árboles de decisión es incorrecta?

A. Los árboles de decisión son métodos no paramétricos.

B. Los árboles de decisión pueden manejar tanto características numéricas

como categóricas.

C. Los árboles de decisión son inmunes al sobreajuste.

D. Los árboles de decisión pueden utilizarse para problemas de regresión y

clasificación.

8. En el contexto de un árbol de regresión, ¿qué signiﬁca que una variable es

importante?

A. La variable se utiliza a menudo para dividir el árbol.

B. Permutar aleatoriamente los valores de la variable empeora

significativamente la predicción del modelo.

C. La variable mejora signiﬁcativamente la métrica del modelo cuando se

considera en un nodo.

D. Todas las anteriores.

9. ¿Cómo maneja un árbol de decisión las variables categóricas con más de dos

niveles?

A. Las ignora.

B. Las convierte en variables binarias.

C. Realiza divisiones que consideran todos los niveles al mismo tiempo.

D. Las trata como variables numéricas.

10. ¿Cuál es una ventaja de los árboles de decisión sobre muchos otros algoritmos

de aprendizaje supervisado?

A. Los árboles de decisión siempre tienen un rendimiento superior en

términos de precisión.

B. Los árboles de decisión son inmunes al sobreajuste.

C. Los árboles de decisión proporcionan modelos interpretables y pueden

manejar variables de diferente naturaleza (numéricas y categóricas).

D. Los árboles de decisión no requieren ninguna preparación de los datos.

También podría gustarte

Árboles de Decisión en R
Aún no hay calificaciones
Árboles de Decisión en R
18 páginas
CART: Árboles de Clasificación y Regresión
Aún no hay calificaciones
CART: Árboles de Clasificación y Regresión
40 páginas
Árboles de Predicción en R: Guía Completa
Aún no hay calificaciones
Árboles de Predicción en R: Guía Completa
18 páginas
CART - Análisis Multivariado (2023-II)
Aún no hay calificaciones
CART - Análisis Multivariado (2023-II)
11 páginas
Aprendizaje Supervisado Regresion y Clasificacion Con Arbol de Decisiones
Aún no hay calificaciones
Aprendizaje Supervisado Regresion y Clasificacion Con Arbol de Decisiones
22 páginas
Introducción a Árboles de Decisión
Aún no hay calificaciones
Introducción a Árboles de Decisión
35 páginas
Arboles de Decisión
100% (1)
Arboles de Decisión
10 páginas
Árboles de Decisión: Conceptos y Tipos
Aún no hay calificaciones
Árboles de Decisión: Conceptos y Tipos
16 páginas
Árboles de Decisión en Aprendizaje Automático
Aún no hay calificaciones
Árboles de Decisión en Aprendizaje Automático
41 páginas
Árboles de Regresión y Clasificación Jose Vicente
Aún no hay calificaciones
Árboles de Regresión y Clasificación Jose Vicente
59 páginas
Introducción a los árboles de decisión
Aún no hay calificaciones
Introducción a los árboles de decisión
6 páginas
Árboles de Decisión: Regresión y Clasificación
Aún no hay calificaciones
Árboles de Decisión: Regresión y Clasificación
48 páginas
Arboles de Desicion
100% (1)
Arboles de Desicion
16 páginas
14 Arboles de Decision YBosque Aleatorio
Aún no hay calificaciones
14 Arboles de Decision YBosque Aleatorio
25 páginas
Árbol de Decisión para Estadígrafos de Posición
Aún no hay calificaciones
Árbol de Decisión para Estadígrafos de Posición
3 páginas
Algoritmos de Árbol en Machine Learning
Aún no hay calificaciones
Algoritmos de Árbol en Machine Learning
24 páginas
Tree-Based Machine Learning Algorithms: Algoritmos de Aprendizaje Automático Basados en Árboles
Aún no hay calificaciones
Tree-Based Machine Learning Algorithms: Algoritmos de Aprendizaje Automático Basados en Árboles
33 páginas
Árboles de Decisión en Bioinformática
Aún no hay calificaciones
Árboles de Decisión en Bioinformática
18 páginas
Métodos Bayesianos en Análisis de Datos
Aún no hay calificaciones
Métodos Bayesianos en Análisis de Datos
2 páginas
Introducción a Árboles de Decisión
Aún no hay calificaciones
Introducción a Árboles de Decisión
58 páginas
Árboles de Decisión en Aprendizaje Automático
Aún no hay calificaciones
Árboles de Decisión en Aprendizaje Automático
4 páginas
Introducción a Machine Learning y Árboles de Decisión
Aún no hay calificaciones
Introducción a Machine Learning y Árboles de Decisión
39 páginas
Introducción a Random Forest
100% (2)
Introducción a Random Forest
26 páginas
Asignación de Arbol de Desición
Aún no hay calificaciones
Asignación de Arbol de Desición
12 páginas
Clase 14 - Aprendizaje Supervisado
Aún no hay calificaciones
Clase 14 - Aprendizaje Supervisado
68 páginas
Aprendizaje Supervisado y Árboles de Decisión en R
Aún no hay calificaciones
Aprendizaje Supervisado y Árboles de Decisión en R
6 páginas
Introducción al Análisis Multivariante
Aún no hay calificaciones
Introducción al Análisis Multivariante
23 páginas
Árboles de Decisión: Clasificación y Regresión
Aún no hay calificaciones
Árboles de Decisión: Clasificación y Regresión
58 páginas
Modelos de Árbol para Toma de Decisiones
Aún no hay calificaciones
Modelos de Árbol para Toma de Decisiones
46 páginas
EC U5 Árboles CART
Aún no hay calificaciones
EC U5 Árboles CART
40 páginas
Árboles de Decisión
Aún no hay calificaciones
Árboles de Decisión
7 páginas
Árboles de Clasificación y Regresión
Aún no hay calificaciones
Árboles de Clasificación y Regresión
65 páginas
Arboles de Decision
Aún no hay calificaciones
Arboles de Decision
22 páginas
06 - Berlanga, Silvente, Et Al
Aún no hay calificaciones
06 - Berlanga, Silvente, Et Al
15 páginas
Arbori de Decizie
Aún no hay calificaciones
Arbori de Decizie
15 páginas
Arbol de Decision en Spss
Aún no hay calificaciones
Arbol de Decision en Spss
15 páginas
Arboles de Decisión
Aún no hay calificaciones
Arboles de Decisión
51 páginas
44 Aprendizaje Supervisado Modelos de Clasificación Autor Hugo Franco
Aún no hay calificaciones
44 Aprendizaje Supervisado Modelos de Clasificación Autor Hugo Franco
32 páginas
Árboles de Decisión: Clasificación y Regresión
Aún no hay calificaciones
Árboles de Decisión: Clasificación y Regresión
67 páginas
5 Clasificacion 1
Aún no hay calificaciones
5 Clasificacion 1
44 páginas
Tarea5 SeminarioSistemas
Aún no hay calificaciones
Tarea5 SeminarioSistemas
3 páginas
Data Mining II (Obligatorio)
Aún no hay calificaciones
Data Mining II (Obligatorio)
8 páginas
Clase 4
Aún no hay calificaciones
Clase 4
51 páginas
Tema 8. Árboles de Clasificación
Aún no hay calificaciones
Tema 8. Árboles de Clasificación
6 páginas
Árboles de Decisión en Finanzas y Clasificación
Aún no hay calificaciones
Árboles de Decisión en Finanzas y Clasificación
36 páginas
Árboles de Decisión en Minería de Datos
Aún no hay calificaciones
Árboles de Decisión en Minería de Datos
8 páginas
LAD01347 DataMiningMachine U1 S5
Aún no hay calificaciones
LAD01347 DataMiningMachine U1 S5
30 páginas
Árboles de Decisión en Aprendizaje Supervisado
Aún no hay calificaciones
Árboles de Decisión en Aprendizaje Supervisado
33 páginas
Inteligencia Artificial - Segundo Parcial
Aún no hay calificaciones
Inteligencia Artificial - Segundo Parcial
250 páginas
Introducción al Aprendizaje Automático
Aún no hay calificaciones
Introducción al Aprendizaje Automático
6 páginas
Arbol de Decisiones
Aún no hay calificaciones
Arbol de Decisiones
17 páginas
Introducción a los Árboles de Decisión
Aún no hay calificaciones
Introducción a los Árboles de Decisión
1 página
Función y Utilidad de Los Árboles de Decisión
Aún no hay calificaciones
Función y Utilidad de Los Árboles de Decisión
8 páginas
Machine Learning Ciberseguridad
Aún no hay calificaciones
Machine Learning Ciberseguridad
20 páginas
Exploración y Preprocesamiento de Datos
Aún no hay calificaciones
Exploración y Preprocesamiento de Datos
43 páginas
Introducción a Minería de Datos y KDD
Aún no hay calificaciones
Introducción a Minería de Datos y KDD
30 páginas
Árboles de Decisión en Aprendizaje Automático
Aún no hay calificaciones
Árboles de Decisión en Aprendizaje Automático
31 páginas
Reglas de Clasificación en Aprendizaje Automático
Aún no hay calificaciones
Reglas de Clasificación en Aprendizaje Automático
20 páginas
Evaluación de Clasificadores en ML
Aún no hay calificaciones
Evaluación de Clasificadores en ML
19 páginas
Árboles de Decisión en IA: Guía Completa
Aún no hay calificaciones
Árboles de Decisión en IA: Guía Completa
108 páginas
Reglas de Clasificación en IA
Aún no hay calificaciones
Reglas de Clasificación en IA
76 páginas
S10.s4 - Geomatica - Indicaciones - Lab Calif N°3 Procesamiento Data
Aún no hay calificaciones
S10.s4 - Geomatica - Indicaciones - Lab Calif N°3 Procesamiento Data
7 páginas
Introducción Al ESP32
Aún no hay calificaciones
Introducción Al ESP32
5 páginas
Diagramas y Planificación en Proyectos
Aún no hay calificaciones
Diagramas y Planificación en Proyectos
9 páginas
Reglamento de Control de Accesos
Aún no hay calificaciones
Reglamento de Control de Accesos
8 páginas
Guía de Legalización ICETEX 2023
Aún no hay calificaciones
Guía de Legalización ICETEX 2023
13 páginas
Guía de Alojamiento Web y Dominios
Aún no hay calificaciones
Guía de Alojamiento Web y Dominios
5 páginas
8.2. Programación de Ejecución Física Semanal
Aún no hay calificaciones
8.2. Programación de Ejecución Física Semanal
168 páginas
Historia de Word 7
Aún no hay calificaciones
Historia de Word 7
9 páginas
C07918412310012395702P
Aún no hay calificaciones
C07918412310012395702P
1 página
El Software de Detección Automática de Similitud
Aún no hay calificaciones
El Software de Detección Automática de Similitud
12 páginas
Ejemplo APQP
100% (3)
Ejemplo APQP
12 páginas
Problemas y Fracciones: Actividades Prácticas
Aún no hay calificaciones
Problemas y Fracciones: Actividades Prácticas
2 páginas
Métodos de Solución para Problemas de Transporte
Aún no hay calificaciones
Métodos de Solución para Problemas de Transporte
7 páginas
Solicitud de Suministro Eléctrico y Servicios (FINAL 2023)
Aún no hay calificaciones
Solicitud de Suministro Eléctrico y Servicios (FINAL 2023)
2 páginas
Introducción a AWS Cloud Computing
100% (1)
Introducción a AWS Cloud Computing
6 páginas
Despliegue de Software en Sistemas TI
Aún no hay calificaciones
Despliegue de Software en Sistemas TI
5 páginas
Adware: Impacto y Regulaciones Necesarias
Aún no hay calificaciones
Adware: Impacto y Regulaciones Necesarias
3 páginas
Lab 13 Protocolos y Redes de Comunicación
Aún no hay calificaciones
Lab 13 Protocolos y Redes de Comunicación
19 páginas
VHDL y FPGA: Diseño de Hardware Digital
Aún no hay calificaciones
VHDL y FPGA: Diseño de Hardware Digital
33 páginas
Herramientas digitales para Oechsle
Aún no hay calificaciones
Herramientas digitales para Oechsle
3 páginas
Resultados Evaluación Especialista Zonal
Aún no hay calificaciones
Resultados Evaluación Especialista Zonal
4 páginas
Manual de Usuario Bosch 20 0103 Systemcontroller Es
Aún no hay calificaciones
Manual de Usuario Bosch 20 0103 Systemcontroller Es
8 páginas
Menú de Programación en C: Vectores
Aún no hay calificaciones
Menú de Programación en C: Vectores
16 páginas
Probabilidad Condicional y Eventos
Aún no hay calificaciones
Probabilidad Condicional y Eventos
33 páginas
Guía de uso de Page Maker 6.5
Aún no hay calificaciones
Guía de uso de Page Maker 6.5
1 página
Tipos y Usos de Sensores en Tecnología
Aún no hay calificaciones
Tipos y Usos de Sensores en Tecnología
12 páginas
Proyecciones 3D con OpenGL en Python
Aún no hay calificaciones
Proyecciones 3D con OpenGL en Python
6 páginas
Untitled
Aún no hay calificaciones
Untitled
9 páginas
LA ERA DIGITAL Y LA COMUNICACIÓN ESCRITA - Libro 2 - 3bachillerato
Aún no hay calificaciones
LA ERA DIGITAL Y LA COMUNICACIÓN ESCRITA - Libro 2 - 3bachillerato
3 páginas
Akai Pro MPK Mini MkII - How To Use The Editor
Aún no hay calificaciones
Akai Pro MPK Mini MkII - How To Use The Editor
13 páginas