0% encontró este documento útil (0 votos)
8 vistas53 páginas

Esl ES

Cargado por

felipe0724
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
8 vistas53 páginas

Esl ES

Cargado por

felipe0724
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Tema 7

Modelización Predictiva

Tema 7. Árboles de regresión


y clasificación
Índice
Esquema

Ideas clave

7.1. Introducción y objetivos

7.2. Árboles de clasificación

7.3. Árboles de regresión

7.4. Ventajas y desventajas de los árboles de regresión y


clasificación

7.5. Cuaderno de ejercicios

7.6. Referencias bibliográficas

A fondo

Una referencia general

Algunos vídeos amigables

Test
Esquema

Modelización Predictiva 3
Tema 7. Esquema
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

7.1. Introducción y objetivos

Los árboles de regresión y de clasificación son algoritmos de aprendizaje

supervisado que particionan el dominio de los predictores en forma iterativa, hasta

que al final del proceso se asocia cada partición con un valor fijo de la variable

respuesta, sea que se trate de una variable continua o de una etiqueta de clase.

Cada división se efectúa eligiendo una partición existente y una variable conveniente

entre los predictores para subdividirla, y escogiendo un valor umbral que resulta en el

mejor refinamiento de la estructura.

La clave del método es, por lo tanto, escoger adecuadamente, en cada

paso, la variable que se usará para hacer crecer el árbol y el valor

umbral que se usará para definir las nuevas particiones.

Estos procesos están regidos por un criterio de particionado definido de antemano,

que mide, de algún modo, la homogeneidad de la respuesta en las particiones

resultantes. El mayor atractivo del método es la facilidad de interpretación del modelo

predictivo resultante. Un árbol entrenado provee una sucesión ordenada de reglas

simples a aplicar para obtener el valor de la respuesta. De este modo, ante un nuevo

dato cuya respuesta se quiere predecir, simplemente seguimos el árbol hasta un

nodo terminal que indica el valor estimado de la respuesta.

La mayor desventaja de estos métodos basados en árboles es que pueden ser

susceptibles de sobreajuste, lo que muchas veces limita el uso en problemas reales.

No obstante, son también el bloque de construcción de modelos predictivos de

agregación, como los bosques aleatorios que estudiaremos más adelante.

Modelización Predictiva 4
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Los contenidos desarrollados en este capítulo están orientados a:

▸ Comprender las principales estrategias de particionado recursivo para el aprendizaje

de modelos predictivos.

▸ Explorar distintos criterios para el aprendizaje y poda de árboles de decisión, tanto

para tareas de regresión como de clasificación.

▸ Comprender las ventajas y limitaciones de estos modelos para su aplicación en

problemas reales.

Modelización Predictiva 5
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Figura 1. Esquema de particionado recursivo asociado a un árbol de decisión con dos variables

predictoras: cada partición se asocia con un único valor de la variable respuesta, se trate de un problema

de regresión o de clasificación. Fuente: adaptado de Izenman (2008).

Modelización Predictiva 6
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

7.2. Árboles de clasificación

Un árbol de clasificación es el resultado de formular una secuencia ordenada de

preguntas, y el tipo de pregunta formulada en cada paso de la secuencia depende de

las respuestas a las preguntas anteriores de la secuencia. La secuencia termina en

una predicción de la clase.

El punto de partida de un árbol de clasificación es único y se denomina nodo raíz.

Consiste en todo el conjunto de aprendizaje en la parte superior del árbol. Un

nodo es un subconjunto del conjunto de variables y puede ser un nodo terminal o no

terminal. Un nodo principal es un nodo no terminal que se divide en dos nodos

secundarios (una división binaria). Tal división binaria está determinada por una

condición booleana sobre el valor de una sola variable, donde la condición se cumple

(yes) o no se cumple (no) según el valor observado de esa variable.

Todas las observaciones en que han llegado a un nodo (principal) en particular y

satisfacen la condición para esa variable descienden a uno de los dos nodos

secundarios; las observaciones restantes en ese nodo padre, que no satisfacen la

condición, descienden al otro nodo hijo. Un nodo que no se divide más se llama

nodo terminal o nodo hoja y se le asigna una etiqueta de clase. Cada observación

en cae en uno solo de los nodos terminales.

Cuando una observación de clase desconocida se clasifica con el árbol entrenado,


se sigue la secuencia de decisiones binarias hasta terminar en un nodo terminal del

árbol, de modo que se le asigna la clase correspondiente a la etiqueta de clase

adjunta a ese nodo. Por supuesto, puede haber más de un nodo terminal con la

misma etiqueta de clase. El conjunto de todos los nodos terminales determina una

partición de los datos (o, más precisamente, del dominio de los predictores).

Modelización Predictiva 7
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

La Figura 1 ilustra un árbol de clasificación simple para un problema con dos

predictores.

Entrenamiento

Entrenar un árbol de clasificación implica construir un árbol de decisión a partir de un

conjunto de datos de entrenamiento etiquetados. El árbol de decisión divide el

conjunto de datos en regiones o subconjuntos más pequeños y homogéneos en

términos de la variable de respuesta (clase) que se está prediciendo.

El árbol se construye iterativamente dividiendo el conjunto de datos en subconjuntos

más pequeños. En cada iteración, se selecciona una variable para dividir y se

encuentra el valor óptimo de esa variable para separar las observaciones en dos

subconjuntos más homogéneos. Este proceso se repite hasta que se cumple un

criterio de detención, como la profundidad máxima del árbol o el número mínimo de

observaciones en un nodo hoja.

Para hacer crecer un árbol de clasificación, necesitamos responder cuatro

preguntas básicas:

▸ ¿Cómo elegimos las condiciones booleanas para dividir en cada nodo?

▸ ¿Qué criterio debemos usar para dividir un nodo padre en sus dos nodos hijos?

▸ ¿Cómo decidimos cuándo un nodo se convierte en un nodo terminal (es decir, deja

de dividirse)?

▸ ¿Cómo asignamos una clase a un nodo terminal?

Criterios de particionado

En cada nodo, el algoritmo de crecimiento del árbol tiene que decidir qué variable

conviene dividir. Necesitamos considerar cada división posible sobre todas las

variables presentes en ese nodo, luego enumerar todas las divisiones posibles,

evaluar cada una y decidir cuál es la mejor en algún sentido.

Modelización Predictiva 8
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Para una variable continua u ordinal, el número de puntos de división posibles es

igual a la cantidad de valores distintos observados para esa variable menos uno. Por

ejemplo, en los datos Cleveland_heart_disease.csv , tenemos seis variables continuas u

ordinales: age (40 divisiones posibles), treatbps (49 divisiones posibles), chol (151

divisiones posibles), thatach (90 divisiones posibles), c a (3 divisiones posibles) y

oldpeak (39 divisiones posibles).

Los datos se pueden descargar del archivo [Link] en el

repositorio de la UCI: [Link]

El número total de posibles divisiones de estas variables continuas es, por lo tanto,

372. Para una variable categórica con niveles, la cantidad de divisiones posibles

está dado por todos los subconjuntos posibles de los niveles. Descartando el

caso en que uno de los nodos hijos resulta vacío y los casos redundantes, tenemos

posibilidades.

Por ejemplo, supongamos que (es decir, la variable tiene cuatro categorías,

digamos, y ) y denotemos con y al nodo hijo izquierdo y el

nodo hijo derecho, respectivamente, que se desprenden del nodo (padre) .

Entonces tenemos posibles divisiones (ignorando las divisiones donde

uno de los nodos secundarios está vacío).

Sin embargo, la mitad de esas divisiones son redundantes; por ejemplo, la división

y es el reverso de la división y

. Entonces, el conjunto de todas las divisiones distintas

viene dado por la siguiente tabla:

Modelización Predictiva 9
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Tabla 1. Ejemplificación de la cantidad de divisiones posibles con una variable categórica. Fuente:
elaboración propia.

En los datos Cleveland_heart_disease , hay siete variables categóricas: sex (1 división

posible), c p (7 divisiones posibles), fbs (1 división posible), restecg (3 divisiones

posibles), exang (1 división posible), slope (3 divisiones posibles) y thal (3 divisiones

posibles). El número total de posibles divisiones de estas variables categóricas es,

por lo tanto, 19.

Si sumamos el número de posibles divisiones de las variables categóricas (19) al

número total de posibles divisiones de las variables continuas (372) obtenemos 391

posibles divisiones sobre las trece variables en el nodo raíz. Dicho de otro modo, hay

391 posibles divisiones del nodo raíz en dos nodos secundarios. Entonces, ¿cómo

elegimos qué división hacemos? ¿Qué división es la mejor?

Para elegir la mejor división posible entre todas las variables, primero necesitamos

elegir la mejor división para cada variable. Para eso necesitamos alguna forma de

medir cuán buena resulta una división. Supongamos un problema con clases.

Modelización Predictiva 10
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Lo que necesitamos es una medida de impureza (la impureza de un nodo se refiere

a la mezcla de clases o categorías en los datos que caen en ese nodo) de los nodos:

Donde representa el nodo y es una estimación de ,

la probabilidad condicional de que una observación pertenezca a la clase en

dado que está en el nodo τ. Para cumplir adecuadamente con este objetivo

necesitamos que la función definida sobre el simplex de

probabilidad (en el contexto de la teoría de probabilidades, un simplex de

probabilidad se refiere a un conjunto de distribuciones de probabilidad que cumplen

ciertas condiciones) sea simétrica, se minimice para , en vector de ceros

y un uno en la posición y se maximice para .

Algunos ejemplos que cumplen con estas condiciones son:

Función de entropía

Notemos que, si solo existen dos clases, la función de entropía se reduce a:

Donde hemos llamado .

Índice de diversidad de Gini:

El índice de diversidad de Gini para dos clases resulta:

Modelización Predictiva 11
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Por defecto, la función elegida por los softwares suele ser el índice de diversidad de

Gini.

¿Cómo utilizamos esto para elegir la mejor división posible sobre cada

variable en el nodo?

Supongamos que aplicamos una división sobre el nodo que contenía

inicialmente observaciones, de modo que resulta un nodo hijo izquierdo con

observaciones y un nodo hijo derecho con observaciones. La

calidad de la división la podemos cuantificar con la reducción de impureza lograda

en el nodo , lo que viene dado por:

Entre todas las divisiones posibles para el nodo , que podemos hacer sobre el

predictor , debemos elegir aquella que maximiza esta diferencia (por ejemplo,

maximiza la reducción de impureza).

Notar que esta reducción de impureza se plantea primero sobre cada

variable que pertenece al nodo y luego entre todas ellas para elegir la

mejor división posible.

Tomemos los datos Cleveland_heart_disease y consideremos la variable age como una

posible variable de división en el nodo raíz. Hay 41 valores diferentes para age , por

lo que hay 40 posibles divisiones.

Armamos una tabla de 2×2 (Tabla 2) en la que se divide la edad, por ejemplo, en 65

años.

Modelización Predictiva 12
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Tabla 2. Tabla para la división de la variable age en los datos Cleveland_heart_disease: la rama izquierda

tendría una edad ≤ 65 y la rama derecha tendría una edad > 65. Fuente: elaboración propia.

Usando la función de entropía de dos clases como medida de impureza, calculamos

(A) y (B), respectivamente, para los dos posibles nodos hijos:

▸ (A)

▸ (B)

Además, calculamos la entropía para el nodo padre:

▸ (C)

Por lo tanto, la bondad de esta división viene dada por:

Si repetimos estos cálculos para las 40 divisiones posibles de la variable a g e ,

Modelización Predictiva 13
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

llegamos a la Figura 2. En el gráfico de la izquierda, representamos (curva

azul) e (curva roja) contra cada una de las 40 divisiones. Notar la gran caída

en la gráfica de en la edad dividida en ≤ 70. En el gráfico de la derecha,

representamos contra cada una de las 40 divisiones . El mayor valor de

es 0,0438, que corresponde a dividir la edad en ≤ 54.

Figura 2. Elegir la mejor división para la variable de age en los datos Cleveland_heart_disease. La medida

de la impureza es la función de entropía. Fuente: elaboración propia.

Panel izquierdo

Gráficas de (curva azul) e (curva roja) contra la edad de división.

Panel derecho: gráfica de la bondad de la división s, , contra la edad de

división. El pico de esta curva corresponde a la edad dividida en ≤ 54.

Modelización Predictiva 14
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Supongamos que tenemos variables. Para hacer crecer un árbol comenzamos

con el nodo raíz, que consiste en todo el conjunto de aprendizaje. Usando el criterio

de bondad de la división para una sola variable, el algoritmo encuentra la mejor

división en el nodo raíz para cada variable. La mejor división en el nodo raíz se

define, entonces, como la que tiene la mayor reducción de impureza sobre todas las

mejores divisiones de variable única en ese nodo.

▸ La Tabla 3 muestra la mejor división (utilizando como medida de impureza la función

de entropía) en el nodo raíz (y el valor correspondiente de para cada una

de las trece variables de los datos Cleveland_heart_disease . El mayor valor es 0,1457


correspondiente a la variable thal . Entonces, para estos datos, la mejor división en
el nodo raíz es dividir la variable thal según normal vs. (fixed, reversable) ; es decir,
primero separa los 164 pacientes normales de los 133 pacientes que tienen defectos
(fijos o reversibles) para la variable thal .

Tabla 3. Determinación de la mejor división en el nodo raíz para los datos Cleveland_heart_disease. La

medida de la impureza es la función de entropía. Cada variable de entrada se muestra junto con su valor

máximo de Δi(s,τ ) sobre todas las divisiones posibles de esa variable. Fuente: elaboración propia.

A continuación, dividimos de la misma manera cada uno de los nodos hijos del nodo

raíz. Repetimos los cálculos anteriores para el nodo hijo izquierdo y para el nodo hijo

derecho, teniendo en cuenta solo las observaciones que pertenecen a cada partición.

Cuando se completan esas divisiones, continuamos dividiendo cada uno de los

nodos subsiguientes.

Modelización Predictiva 15
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Este proceso de construcción del árbol mediante división secuencial se

denomina particionado recursivo. Si cada nodo principal se divide en

dos nodos secundarios, el resultado es un árbol binario. Si el árbol

binario crece hasta que ninguno de los nodos se puede dividir más,

decimos que el árbol está saturado.

En escenarios de alta dimensión, permitir que el árbol crezca hasta la saturación

puede ser un proceso costoso y, además, susceptible de conducir a sobreajuste.

Inicialmente se usaban criterios de parada para detener el crecimiento del árbol; por

ejemplo, definiendo un número mínimo de observaciones ( í ) en cada partición

o una mínima reducción de impureza. Actualmente, no obstante, es común dejar

crecer el árbol hasta la saturación y luego podarlo convenientemente. Veremos este

procedimiento en la siguiente sección.

¿Cómo asociamos una clase con cada nodo terminal?

Imaginemos que un nodo terminal tiene obervaciones y, entre ellas,

corresponden a la clase , respectivamente. Luego, la regla de

Bayes para la clasificación motiva asignar la clase representada con el mayor


número de observaciones en el nodo, ya que es un estimador de la

probabilidad posterior de la clase para todas las observaciones contenidas en esa

partición.

Volviendo a los datos Cleveland_heart_disease , el árbol de clasificación, utilizando

como medida de impureza la función de entropía, resulta:

Modelización Predictiva 16
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Figura 3. Árbol de clasificación utilizando como medida de impureza la función de entropía para los datos

Cleveland_heart_disease. Fuente: elaboración propia.

Los nodos (internos y terminales) se clasifican como no —sanos— (nodos de color

verde) o sí —enfermos— (nodos color rosa) según el diagnóstico mayoritario de los

pacientes que caen en ese nodo. Las variables de división se muestran a lo largo de

las ramas. Así vemos: el nodo raíz con 297 pacientes se divide según si thal = norm

(164 pacientes) o thal = fixed o reversable (133 pacientes).

El nodo con los 164 pacientes, que consta de 127 pacientes sanos y 37 pacientes

con enfermedades cardíacas, se divide luego si ca < 0,5 (115 pacientes) o ca > 0,5

(49 pacientes). El nodo con 115 pacientes se declara nodo terminal para no —sano

— debido a la mayoría de 102-13 a favor de no. El nodo con 49 pacientes, que

consta de 25 pacientes sanos y 24 con enfermedades cardíacas, se divide en cp =

typical , atypical , non-anginal (29 pacientes) o cp = asymptomatic (20 pacientes).

El nodo con 29 pacientes, que consta de 22 pacientes sanos y 7 con enfermedades

cardíacas, se divide por edad ≥ 66 (7 pacientes) o edad < 66 (22 pacientes). El nodo

con 7 pacientes se declara nodo terminal para no —sano— debido a la mayoría de 7

a 0 a favor de no, y el nodo con 22 pacientes, que consta de 15 pacientes sanos y 7

con cardiopatías, se divide por edad < 56 (13 pacientes) o edad ≥ 56 (9 pacientes).

Modelización Predictiva 17
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

El nodo con 13 pacientes se declara nodo terminal para no —sano— debido a la

mayoría de 12-1 a favor de no, y el nodo con 9 pacientes se declara nodo terminal
para sí —enfermo— debido a la mayoría de 6-3 a favor de sí. Y así sucesivamente.

Por lo tanto, vemos que hay cuatro caminos (sucesión de divisiones) a través de este

árbol para que un paciente sea declarado saludable (Sano) y otros cinco caminos

para que un paciente sea diagnosticado con una enfermedad cardíaca (enfermo).

Hay 8 divisiones (y 9 nodos terminales) en este árbol. Las variables utilizadas en la

construcción del árbol son thal , c a , c p , a g e y exang . La tasa de error de

resubstitución (o error aparente) (es decir, la tasa de error obtenida del conjunto de

entrenamiento) es (17 pacientes enfermos que se clasifican como

sanos y 22 pacientes sanos que se clasifican como enfermos).

Modelización Predictiva 18
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

En el siguiente vídeo, Criterios de particionado, veremos los criterios de particionado

utilizados para hacer creer los árboles, ejemplificando cada uno de ellos en un caso

concreto.

Accede al vídeo:
[Link]
41fb-a900-b0680131faeb

Estimación de la tasa de clasificación errónea

Consideramos primero la tasa de error clasificación de una observación en el nodo

, que denotamos por . Dado que asignamos al nodo la clase que presenta

mayor proporción de observaciones en el nodo, la estimación aparente de

viene dada por:

Para el caso de dos clases, se reduce a:

Modelización Predictiva 19
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Hay que recordar que es una estimación de la probabilidad

Sea el árbol de clasificación y sea el conjunto de todos los

nodos terminales de . Entonces, la tasa de clasificación errónea para viene

dada por:

Donde es la probabilidad de que una observación caiga en el nodo . Si

estimamos con la proporción de todas las observaciones que caen

en el nodo τ, entonces, la estimación de resustitución o aparente de es:

De los 297 pacientes, el árbol de la Figura 3 clasifica erróneamente a 22

de los 160 pacientes sanos como enfermos, mientras que, de los 173

pacientes con enfermedad cardiaca, 17 se clasifican erróneamente como

sanos. Entonces, el error aparente es .

Poda

Breiman et al. (1984) impuso la filosofía de hacer crecer los árboles en exceso y

luego podarlos convenientemente. La poda es una técnica para reducir la

complejidad del árbol y mejorar su capacidad para generalizar en datos nuevos

eliminando ramas que no contribuyen significativamente a la precisión del modelo. La


poda consiste en eliminar ramas o subárboles completos del árbol original, para

evitar el sobreajuste o sobreentrenamiento del modelo, lo que puede llevar a una

menor precisión en la predicción de datos nuevos. En general, la poda consiste en

Modelización Predictiva 20
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

las siguientes etapas:

▸ Hacer crecer el árbol hasta que cada nodo terminal tiene menos de

observaciones. Llamemos a este árbol inicial .

▸ Calcular un estimador de en cada nodo terminal de .

▸ Podar el árbol en dirección ascendente desde las hojas, de modo que en cada etapa

de la poda minimizamos el estimador de .

Para que esto tenga éxito, debemos mejorar nuestra estimación de . Una
técnica común es penalizar el error aparente con un término asociado a la

complejidad del árbol. Sea un parámetro de complejidad. Para cada nodo

definimos:

Entonces, definimos una medida de poda de costo-complejidad para un árbol de la

siguiente manera:

Con la cantidad de nodos terminales del árbol. Debe pensarse a

como un término de penalización para el tamaño del árbol, por lo que

penaliza a por generar un árbol demasiado grande. Para cada

, elegimos un subárbol de que minimiza el riesgo . Tal

se llama subárbol minimizador (o subárbol óptimamente podado) de .

El hiperparámetro controla el tamaño del árbol a obtener, de modo que

si . Cuando es muy pequeño, el término de

penalización será pequeño, por lo que el tamaño del subárbol minimizador ,

que esencialmente estará determinado por , será grande.

Por ejemplo, supongamos que establecemos y hacemos crecer el árbol

Modelización Predictiva 21
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

tanto que cada nodo terminal contenga una única observación; entonces,

cada nodo terminal toma la clase de su única observación, cada observación se

clasifica correctamente y . Entonces, minimiza .

A medida que aumentamos , los subárboles minimizadores

tendrán cada vez menos nodos terminales. Cuando es muy

grande, habremos podado todo el árbol , dejando solo el nodo

raíz.

Notemos que, aunque α pueda tomar valores en , existe una cantidad finita

de subárboles que podemos tomar de . La estrategia general para podar un

árbol consiste entonces en encontrar una secuencia de parámetros de complejidad

de modo que . En cada

paso buscamos el subárbol que induce la mejor reducción en el error aparente

; es decir, buscamos minimizar:

Para ; esto es, que no es nodo terminal en .

Obtenida la sucesión de árboles imbricados , ¿cómo elegimos cuál es

el mejor? Una vez más, la estrategia general es comparar una estimación de


, para de modo de elegir el árbol que minimiza este error.

Podemos obtener estimadores razonables de este error computándolo:

▸ Sobre un conjunto de prueba independiente.

▸ Utilizando un procedimiento de validación cruzada.

Modelización Predictiva 22
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Cuando utilizamos un conjunto de validación independiente simplemente

particionamos el conjunto total de datos en un conjunto de entrenamiento y otro

de validación . Luego evaluamos las observaciones de validación en cada

uno de los árboles y es simplemente la proporción de estos casos que

resultan mal clasificados.

Por el contrario, si adoptamos un enfoque de validación cruzada con particiones,

no tendremos los mismos árboles para particiones distintas; es decir, ,

para . Lo que hacemos es entonces fijar los valores de que dan lugar a los

distintos árboles y elegimos el mejor valor de este parámetro de complejidad. Si

llamamos a la cantidad de observaciones de la clase que son asignadas

a la clase i usando un árbol , entonces y la tasa de

error es

¿Cómo elegimos la sucesión de valores de α a probar? Una opción es probar sobre

los valores donde es el intervalo de valores

de α donde se verifica que (sobre el conjunto total de datos).

La elección entre estas dos opciones a menudo depende de la cantidad de muestras

disponibles: si es lo suficientemente grande, la evaluación del error en un conjunto de


prueba independiente es la opción más sencilla y computacionalmente más eficiente.

Árboles de clasificación en R

Una opción usada con frecuencia en para el ajuste de árboles de clasificación es

la función rpart() disponible en el paquete {rpart} . Veamos un ejemplo de aplicación

sencillo sobre los datos iris.

# Carga el conjunto de datos "iris"

Modelización Predictiva 23
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

data(iris)

# Dividir el conjunto de datos en un conjunto de entrenamiento y un


conjunto de prueba

[Link](123)

train_index <- sample(1:nrow(iris), 100)

train_data <- iris[train_index, ]

test_data <- iris[-train_index, ]

# Entrenamiento del árbol de clasificación utilizando el conjunto de


entrenamiento

library(rpart)

model <- rpart(Species ~ ., data = train_data, method = "class")

# Realizar predicciones en el conjunto de prueba

predictions <- predict(model, test_data, type = "class")

# Evaluar el desempeño del modelo usando una matriz de confusión

library(caret)

confusionMatrix(predictions, test_data$Species)

En este ejemplo, el conjunto de datos Iris se divide en un conjunto de entrenamiento

y un conjunto de prueba utilizando la función sample() . A continuación, se entrena el

árbol de clasificación utilizando la función rpart() , especificando la fórmula de la

variable de respuesta y las variables predictoras, así como el método class para la

clasificación. Luego, se realizan predicciones en el conjunto de prueba utilizando la

función predict() , especificando el tipo de predicción class . Finalmente, se evalúa el

desempeño del modelo utilizando la función confusionMatrix() de la librería {caret} .

Modelización Predictiva 24
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

En el siguiente vídeo, Árboles de clasificación, veremos un ejemplo de utilización de

árboles de decisión para un problema de clasificación.

Accede al vídeo:
[Link]

4833-97c0-b0680131fb93

Modelización Predictiva 25
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

7.3. Árboles de regresión

La utilización de árboles en problemas de regresión es muy similar a lo discutido para

problemas de clasificación. Un árbol de regresión asocia un valor constante de la

respuesta a cada nodo terminal, de modo que la función de regresión estimada es

una función constante a trozos sobre el dominio de los predictores. En las secciones

siguientes comentamos las principales diferencias y detalles particulares del proceso

general de entrenamiento de árboles que merecen una distinción respecto de lo ya

presentado para problemas de clasificación.

¿Cómo definimos el valor del nodo terminal?

La opción natural es adoptar el promedio de los valores de respuesta de las

observaciones asociadas al nodo terminal. Esto es:

El error aparente resultante para un árbol es entonces

También podemos escribir como , con un estimador

sesgado de la varianza de la respuesta en el nodo .

¿Cómo podamos el árbol?

La poda de un árbol de regresión es completamente análoga a lo ya presentado en

clasificación. Sin embargo, podemos dar una interpretación particular a la búsqueda

del mejor valor de una variable para producir una división de una partición existente.

Recordemos que lo que queremos es encontrar un valor de en el nodo para

dividir el nodo en dos hijos y de modo de maximizar la reducción del error

aparente en el nodo:

Modelización Predictiva 26
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Una forma equivalente es pensar que queremos minimizar la varianza agregada

resultante:

¿Cómo elegimos el mejor subárbol?

Al igual que en clasificación, el proceso de poda nos da una secuencia de árboles

imbricados y debemos decidir cuál entre ellos resulta más

conveniente como modelo predictivo. La clave pasa, una vez más, por estimar el

error de predicción de cada árbol de forma confiable. Para ello podemos recurrir

nuevamente a un conjunto de datos de validación independiente de la muestra de

entrenamiento o utilizar un procedimiento de validación cruzada. Sea el

valor predicho para x con el árbol . El error de predicción para sobre un

conjunto de validación es simplemente

Si en lugar de un conjunto de validación usamos un procedimiento de validación

cruzada con particiones, el estimador del error de predicción es un promedio

sobre las particiones de un error como el anterior, es decir:

Como explicamos para el caso de clasificación, la elección del procedimiento para

estimar el error de predicción a menudo depende del tamaño de muestra disponible

en relación con la cantidad de variables.

Modelización Predictiva 27
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

La Figura 4 muestra un ejemplo de aplicación de un árbol de regresión sobre los

datos Hitters disponible en el paquete {ILSR2} de R.

Figura 4. Ejemplo de un análisis por árbol de regresión aplicado a los datos Hitters del paquete ILSR2.

Fuente: elaboración propia.

Modelización Predictiva 28
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

En el siguiente vídeo, Árboles de regresión, veremos un ejemplo de utilización de

árboles de decisión para un problema de regresión.

Accede al vídeo:
[Link]

46fc-b26d-b0680131fbac

Modelización Predictiva 29
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

7.4. Ventajas y desventajas de los árboles de


regresión y clasificación

La principal ventaja de los árboles de regresión y de clasificación es que son fáciles

d e interpretar y explicar, especialmente cuando no son muy grandes. De hecho,

pueden ser incluso más fáciles de interpretar que un modelo lineal. Decidir cuál de

estos modelos simples es la opción es más conveniente para un problema particular,

en general, depende del problema.

La Figura 5 muestra la aplicación de modelos basados en árboles a dos problemas

de clasificación de dos clases y dos predictores, uno ilustrado en la parte superior de


la figura y el otro, en la parte inferior. En el primer caso, la frontera de decisión es

aproximadamente lineal y entonces el modelo lineal resulta más adecuado. El árbol

solo puede brindar una aproximación de esta frontera, refinando el particionado en

esa zona.

El ejemplo inferior, por el contrario, resulta extremadamente sencillo de describir para

un árbol (de hecho, es un problema perfectamente separable), mientras que un

modelo lineal solo puede lograr una aproximación bastante tosca de la frontera de

separación entre las clases.

De hecho, tomando polinomios de orden cada vez más grandes podríamos

mejorar la aproximación del modelo lineal, pero esto empeoraría la relación entre

tamaño muestral y cantidad de parámetros a estimar, al tiempo que nunca lograría

una aproximación completamente eficaz. Un árbol, por su parte, puede resolver el

problema con solo tres nodos terminales.

La interpretabilidad de los modelos basados en árboles está también favorecida por

la posibilidad de visualizar la solución, independientemente de la dimensión de los

predictores. Por otra parte, los árboles pueden incluir variables continuas y

Modelización Predictiva 30
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

categóricas simultáneamente de forma natural, sin requerir una recodificación de las

últimas (que suele aumentar la dimensionalidad del problema de estimación).

La principal desventaja de los métodos basados en árboles es que pueden ser

propensos al sobreajuste si no se controla la profundidad del árbol. Esto significa que

pequeños cambios en la muestra de entrenamiento pueden conducir a cambios

significativos en el árbol estimado. Esta variabilidad, a su vez, cuestiona cualquier

interpretación que podamos hacer sobre la relación entre las variables a partir de la

estructura del árbol.

Para reducir la posibilidad de sobreajuste, a veces se corrige la elección de la mejor

poda, intentando simplificar aún más el árbol resultante. Supongamos que es el

árbol elegido, ya sea por validación cruzada o usando un conjunto de validación

independiente. En su lugar, podemos explorar si existe un árbol más chico entre los

evaluados que verifica que:

La eficacia de este procedimiento, sin embargo, es limitada en problemas

moderadamente complejos. No obstante, más adelante veremos que los modelos

basados en árboles pueden ser muy útiles como bloques de construcción de

modelos predictivos de agregación, en los que combinamos un número grande de

modelos predictivos individualmente débiles para obtener una solución eficaz y más

robusta.

Modelización Predictiva 31
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Figura 5. Comparación entre la solución por árboles y por modelos lineales para dos problemas de

clasificación, ambos con dos predictores. Fuente: James et al. (2021).

En la Figura 5, en el caso de arriba, la frontera de decisión puede describirse

adecuadamente por una frontera lineal; un árbol de clasificación puede lograr una

aproximación, pero no es la opción más eficaz. En el caso de abajo, la frontera de


decisión no puede describirse por un clasificador lineal simple y la solución de un

árbol de clasificación es mucho más efectiva.

Modelización Predictiva 32
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

7.5. Cuaderno de ejercicios

Ejercicio 1

Proponga una expresión para el intervalo de confianza del error de predicción de un

árbol de clasificación y justifique.

Solución

Supongamos que hemos entrenado un árbol de clasificación y que contamos con

un conjunto de prueba independiente para evaluarlo. Supongamos que este conjunto

de prueba tiene observaciones. Podemos estimar la probabilidad de clasificar

mal una observación con ; es decir, la tasa de error obtenida con el

conjunto de prueba.

Dada una observación , el error de clasificación es una variable aleatoria con

distribución Bernoulli de parámetro . Para casos a clasificar, el error de

predicción sigue una distribución binomial con tamaño y probabilidad . Luego,

podemos construir un intervalo de confianza con esta información. Por otra parte, el

error estándar es:

Podemos, eventualmente, construir un intervalo de confianza normal con esta

información, tomando límites .

Ejercicio 2

En un problema de clasificación binario, ¿por qué conviene requerir que todos los

nodos terminales tengan una cantidad impar de observaciones?

Modelización Predictiva 33
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Solución

Conviene requerir que los nodos terminales tengan una cantidad impar de

observaciones para evitar empates en la asignación de la clase que representa el

nodo. Recordemos que la clase asociada al nodo se determina verificando la clase

con mayor proporción de casos entre las observaciones correspondientes al nodo

terminal.

Ejercicio 3

¿Por qué el uso del error aparente sobre los nodos del árbol puede no ser el mejor

criterio para hacer crecer el árbol? Utilice un problema de clasificación binario para

comparar la función de impureza asociada al error aparente contra el índice de Gini o

la entropía de Shannon.

Solución

En los árboles de decisión, el error de clasificación no suele ser la mejor métrica para

guiar el crecimiento del árbol durante el entrenamiento. Esto se debe principalmente

a:

▸ Insensibilidad a las mejoras en la confianza de las predicciones: el error de

clasificación no distingue entre predicciones incorrectas que estuvieron muy cerca de


ser correctas y las que estuvieron muy lejos. En cambio, criterios como el índice Gini
o la entropía cruzada, que son más sensibles a la confianza de las predicciones,
pueden ser mejores para guiar el crecimiento del árbol.

▸ Falta de sensibilidad en los nodos con predominancia de una clase: en situaciones

en las que una clase predomina en un nodo, pequeñas variaciones en la


probabilidad de predicción para la clase minoritaria pueden no afectar al error de
clasificación, mientras que serán reflejadas en el índice Gini o en la entropía
cruzada.

Por estas razones, se suelen preferir otros criterios, como el índice Gini o la entropía

Modelización Predictiva 34
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

cruzada, para crecer árboles de clasificación en lugar del error de clasificación. La

Figura 6 ilustra la diferencia entre estos tres criterios, como función de la proporción

de casos de la clase mayoritaria en un problema binario.

probs = seq(from=0, to = 1, by = 0.01)

erclass = function(p){

out = numeric(length(p))

for (i in 1:length(p)){

pp = p[i]

out[i] = min(pp,1-pp)

return(out)

shannon = function(pp){

out = numeric(length(pp))

for (i in 1:length(pp)){

out[i] = 0

p = pp[i]

if (p > 0){

if (p < 1){

out[i] = - p*log(p) - (1-p) * log(1-p)

Modelización Predictiva 35
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

return(out)

gini = function(p){return(2*p*(1-p))}

plot(probs, erclass(probs), type='l', col='blue4', lwd=1.5, bty='L',


ylim=c(0,0.7), xlab='p', ylab='Impureza')

lines(probs, gini(probs), lwd=1.4, col='green4')

lines(probs, shannon(probs), lwd=1.4, col='red4')

legend(x = 0, y = 0.7, legend = c('Error aparente','Gini','Entropía'),


bty='n', fill = c('blue4','green4', 'red4'), cex=.8)

Modelización Predictiva 36
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Figura 6. Gráfico correspondiente al ejercicio 3. Fuente: elaboración propia

Ejercicio 4

En un árbol de regresión, fundamente por qué utilizar el siguiente valor para un nodo

terminal es una buena opción bajo un criterio de cuadrados mínimos.

Solución

El estimador representa la esperanza condicional de la respuesta para predictores en

el nodo; esto es . Esto es una aproximación a

, que es la solución óptima para un problema de regresión bajo el

criterio de cuadrados mínimos.

Ejercicio 5

Conceptualmente, ¿cómo podría evaluar la relevancia de cada predictor en un

problema de regresión mediante un árbol de regresión?

Solución

Hay varias formas de evaluar la importancia de cada predictor en un modelo de árbol

de regresión. Las más importantes son:

▸ Análisis de permutaciones: la importancia de una variable se mide permutando

aleatoriamente los valores de esa variable y viendo cuánto empeora la predicción del
modelo. Si permutar una variable hace que el modelo empeore significativamente,
eso indica que la variable es importante.

▸ Número de divisiones: también se puede medir la importancia de una variable

contando simplemente cuántas veces se utiliza para dividir el árbol. Si una variable
se usa a menudo para dividir el árbol, eso sugiere que es una variable importante.

Modelización Predictiva 37
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

▸ Profundidad de la división: finalmente, se puede considerar no solo cuántas veces

se utiliza una variable para dividir el árbol, sino también a qué profundidad se
produce esa división. Las divisiones que ocurren cerca de la raíz del árbol afectarán

a más observaciones y, por lo tanto, se pueden considerar más importantes.

Cabe señalar que todos estos métodos proporcionan estimaciones de la importancia

de las variables que pueden ser útiles para la interpretación del modelo y para la

selección de variables, pero todas tienen sus limitaciones y no deben tomarse como

la verdad absoluta sobre la importancia de las variables.

Ejercicio 6

La Figura 7 muestra el particionado del dominio de dos variables predictoras. ¿Puede

asociar un árbol de regresión o de clasificación con este particionado? Justifique.

Figura 7. Particionado correspondiente al Ejercicio 6. Fuente: elaboración propia.

Modelización Predictiva 38
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Solución

El particionado mostrado en la figura NO pudo haber sido generado por un árbol de

regresión o de clasificación como los estudiados en este capítulo. Notemos que en el

particionado recursivo que hemos estudiado, cada nueva partición representa un

plano que divide en dos una partición existente. En consecuencia, debería haber una

línea que atraviese el plano de los predictores completamente.

Ejercicio 7

La Figura 8 muestra el particionado del dominio de dos variables predictoras. Dibuje


un árbol de decisión que de origen a tal particionado.

Figura 8: Particionado correspondiente al ejercicio 7. Fuente: elaboración propia.

Modelización Predictiva 39
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Solución

La Figura 9 muestra la solución del problema.

Figura 9. Solución al problema planteado en la Figura 8. Fuente: elaboración propia.

Ejercicio 8

La siguiente tabla resume un conjunto de datos con tres variables y dos

etiquetas de clase , . Construye un árbol de decisión de dos niveles.

Tabla 4. Datos para ejercicio 8. Fuente: elaboración propia.

Modelización Predictiva 40
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

▸ Utilizando el índice Gini como medida de impureza, ¿qué variable elegirías como

primera variable de división? Para cada variable, muestra la tabla de contingencia y


la reducción de impureza lograda por la división.

▸ Construye el árbol correspondiente.

Solución de la consigna 1

Utilizando la variable A para la división, la tabla de contingencia es:

Tabla 5. Tabla de contingencia. Fuente: elaboración propia.

Y la reducción de impureza con la división es:

Utilizando la variable para la división, la tabla de contingencia es:

Tabla 6. Tabla de contingencia. Fuente: elaboración propia.

Y la reducción de impureza con la división es:

Modelización Predictiva 41
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Utilizando la variable para la división, la tabla de contingencia es:

Tabla 7. Tabla de contingencia. Fuente: elaboración propia.

Y la reducción de impureza con la división es:

Luego, la variable con la cual resulta mayor la reducción de impureza es la variable


, y es la que elegimos para realizar la primera división.

Solución de la consigna 2

Para determinar la variable a elegir para la segunda división, repetimos el análisis

realizado en la consigna 1.

Para la variable :

Tabla 8. Tabla de contingencia. Fuente: elaboración propia.

La reducción de impureza lograda con la división:

Para la variable C:

Modelización Predictiva 42
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Tabla 9. Tabla de contingencia. Fuente: elaboración propia.

La reducción de impureza lograda con la división:

Luego, la variable con la cual resulta mayor la reducción de impureza es la variable

y es la que escogemos para realizar la segunda división.

El árbol resultante es:

Figura 10. Gráfico correspondiente al árbol solución del ejercicio 8. Fuente: elaboración propia.

Modelización Predictiva 43
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Ejercicio 9

Usando el conjunto de datos de validación que se muestran en la Tabla 5, estima el

error de clasificación del árbol construido en el ejercicio anterior.

Tabla 5: datos de validación para ejercicio 9. Fuente: elaboración propia.

Solución

El error de predicción estimado a partir del conjunto de validación es 3/5.

Ejercicio 10

Ajusta un modelo predictivo basado en árboles a los datos [Link] . Lo que

queremos predecir es el tipo de diabetes.

▸ Realiza un análisis exploratorio del valor predictivo de las variables predictoras.

▸ Ajusta un árbol de clasificación y muestre el árbol de decisión resultante.

▸ Evalúa el error de predicción del árbol obtenido.

Modelización Predictiva 44
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Solución

En el siguiente vídeo podrás acceder a la resolución del ejercicio 10.

Accede al vídeo:
[Link]

4873-9c9b-b0680131facf

Modelización Predictiva 45
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

7.6. Referencias bibliográficas

Breiman, L., Friedman, J., Olshen, R., y Stone, C. (1984). Classification and

Regression Trees. Wadsworth Inc.

Izenman A. J. (2008). Modern multivariate statistical techniques: regression

classification and manifold learning. Springer.

James, G., Witten, D., Hastie, T., Tibshirani, R. (2021). An Introduction to Statistical

Learning: with Applications in R. (2.° ed.). Springer.

UC Irvine Machine Learning Repository (s. f.). Heart Disease.


[Link]

Modelización Predictiva 46
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
A fondo

Una referencia general

Hastie, T., Tibshirani, R., Friedman, J. (2009). The Elements of Statistical Learning,

Segunda edición. Springer. [Link]

La sección 9.2 del libro de Hastie et al. ofrece una buena discusión general de

modelos de regresión y clasificación basados en árboles.

Modelización Predictiva 47
Tema 7. A fondo
© Universidad Internacional de La Rioja (UNIR)
A fondo

Algunos vídeos amigables

StatQuest con Josh Starmer. (2021). Decision and Classification Trees, Clearly

Explained!!! [Vídeo]. YouTube. [Link]

Accede al vídeo:

[Link]

StatQuest con Josh Starmer. (2021). Decision and Classification Trees, Clearly

Explained!!! [Vídeo]. YouTube. [Link]

Modelización Predictiva 48
Tema 7. A fondo
© Universidad Internacional de La Rioja (UNIR)
A fondo

Accede al vídeo:
[Link]

StatQuest con Josh Starmer. (2019). How to Prune Regression Trees, Clearly

Explained!!! [Vídeo]. YouTube. [Link]

Accede al vídeo:

[Link]

El canal de YouTube StatQuest with Josh Starmer ofrece una serie de vídeos

Modelización Predictiva 49
Tema 7. A fondo
© Universidad Internacional de La Rioja (UNIR)
A fondo

amenos relacionados con árboles de decisión y su especialización para regresión y

clasificación. Algunos detalles no son rigurosos desde el punto de vista formal, pero

ayudan, de todos modos, a la comprensión.

Modelización Predictiva 50
Tema 7. A fondo
© Universidad Internacional de La Rioja (UNIR)
Test

1. En los árboles de decisión, ¿cuál de las siguientes afirmaciones es falsa?

A. Los árboles de decisión pueden manejar tanto variables categóricas como

numéricas.

B. Los árboles de decisión son modelos lineales.

C. Los árboles de decisión pueden manejar problemas de clasificación y

regresión.

D. Los árboles de decisión pueden modelar interacciones entre variables.

2. ¿Qué métrica de impureza se usa generalmente para árboles de regresión?

A. Entropía.

B. Índice Gini.

C. Error de clasificación.

D. Error cuadrático medio.

3. ¿Qué sucede si un árbol de decisión se deja crecer demasiado?

A. El árbol se sobreajusta a los datos de entrenamiento.

B. El árbol se subajusta a los datos de entrenamiento.

C. El árbol se vuelve más interpretable.

D. El árbol se vuelve menos propenso a errores de clasificación.

4. ¿Cuál de los siguientes no es un criterio comúnmente usado para decidir las

divisiones en un árbol de clasificación?

A. Error de clasificación.

B. Índice Gini.

C. Entropía cruzada.

D. Coeficiente de correlación.

Modelización Predictiva 51
Tema 7. Test
© Universidad Internacional de La Rioja (UNIR)
Test

5. ¿Qué es la poda en el contexto de los árboles de decisión?

A. Un método para seleccionar la mejor variable para dividir.

B. Un método para aumentar la profundidad del árbol.

C. Un método para disminuir la complejidad del árbol, reduciendo su tamaño

para prevenir el sobreajuste.

D. Ninguna de las anteriores es correcta.

6. ¿Qué es un árbol de decisión?

A. Una forma de regresión lineal.

B. Una técnica de agrupación.

C. Una técnica de aprendizaje supervisado que divide el espacio de las

variables predictoras en regiones distintas.

D. Una técnica de aprendizaje no supervisado que divide el espacio de las

variables predictoras en regiones distintas.

7. ¿Cuál de las siguientes afirmaciones sobre los árboles de decisión es incorrecta?

A. Los árboles de decisión son métodos no paramétricos.

B. Los árboles de decisión pueden manejar tanto características numéricas

como categóricas.

C. Los árboles de decisión son inmunes al sobreajuste.

D. Los árboles de decisión pueden utilizarse para problemas de regresión y

clasificación.

Modelización Predictiva 52
Tema 7. Test
© Universidad Internacional de La Rioja (UNIR)
Test

8. En el contexto de un árbol de regresión, ¿qué significa que una variable es

importante?

A. La variable se utiliza a menudo para dividir el árbol.

B. Permutar aleatoriamente los valores de la variable empeora

significativamente la predicción del modelo.

C. La variable mejora significativamente la métrica del modelo cuando se

considera en un nodo.

D. Todas las anteriores.

9. ¿Cómo maneja un árbol de decisión las variables categóricas con más de dos

niveles?

A. Las ignora.

B. Las convierte en variables binarias.

C. Realiza divisiones que consideran todos los niveles al mismo tiempo.

D. Las trata como variables numéricas.

10. ¿Cuál es una ventaja de los árboles de decisión sobre muchos otros algoritmos

de aprendizaje supervisado?

A. Los árboles de decisión siempre tienen un rendimiento superior en

términos de precisión.

B. Los árboles de decisión son inmunes al sobreajuste.

C. Los árboles de decisión proporcionan modelos interpretables y pueden


manejar variables de diferente naturaleza (numéricas y categóricas).

D. Los árboles de decisión no requieren ninguna preparación de los datos.

Modelización Predictiva 53
Tema 7. Test
© Universidad Internacional de La Rioja (UNIR)

También podría gustarte