Esl ES
Esl ES
Modelización Predictiva
Ideas clave
A fondo
Test
Esquema
Modelización Predictiva 3
Tema 7. Esquema
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
que al final del proceso se asocia cada partición con un valor fijo de la variable
respuesta, sea que se trate de una variable continua o de una etiqueta de clase.
Cada división se efectúa eligiendo una partición existente y una variable conveniente
entre los predictores para subdividirla, y escogiendo un valor umbral que resulta en el
simples a aplicar para obtener el valor de la respuesta. De este modo, ante un nuevo
Modelización Predictiva 4
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
de modelos predictivos.
problemas reales.
Modelización Predictiva 5
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Figura 1. Esquema de particionado recursivo asociado a un árbol de decisión con dos variables
predictoras: cada partición se asocia con un único valor de la variable respuesta, se trate de un problema
Modelización Predictiva 6
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
secundarios (una división binaria). Tal división binaria está determinada por una
condición booleana sobre el valor de una sola variable, donde la condición se cumple
satisfacen la condición para esa variable descienden a uno de los dos nodos
condición, descienden al otro nodo hijo. Un nodo que no se divide más se llama
nodo terminal o nodo hoja y se le asigna una etiqueta de clase. Cada observación
adjunta a ese nodo. Por supuesto, puede haber más de un nodo terminal con la
misma etiqueta de clase. El conjunto de todos los nodos terminales determina una
partición de los datos (o, más precisamente, del dominio de los predictores).
Modelización Predictiva 7
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
predictores.
Entrenamiento
encuentra el valor óptimo de esa variable para separar las observaciones en dos
preguntas básicas:
▸ ¿Qué criterio debemos usar para dividir un nodo padre en sus dos nodos hijos?
▸ ¿Cómo decidimos cuándo un nodo se convierte en un nodo terminal (es decir, deja
de dividirse)?
Criterios de particionado
En cada nodo, el algoritmo de crecimiento del árbol tiene que decidir qué variable
conviene dividir. Necesitamos considerar cada división posible sobre todas las
variables presentes en ese nodo, luego enumerar todas las divisiones posibles,
Modelización Predictiva 8
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
igual a la cantidad de valores distintos observados para esa variable menos uno. Por
ordinales: age (40 divisiones posibles), treatbps (49 divisiones posibles), chol (151
El número total de posibles divisiones de estas variables continuas es, por lo tanto,
372. Para una variable categórica con niveles, la cantidad de divisiones posibles
está dado por todos los subconjuntos posibles de los niveles. Descartando el
caso en que uno de los nodos hijos resulta vacío y los casos redundantes, tenemos
posibilidades.
Por ejemplo, supongamos que (es decir, la variable tiene cuatro categorías,
Sin embargo, la mitad de esas divisiones son redundantes; por ejemplo, la división
y es el reverso de la división y
Modelización Predictiva 9
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Tabla 1. Ejemplificación de la cantidad de divisiones posibles con una variable categórica. Fuente:
elaboración propia.
número total de posibles divisiones de las variables continuas (372) obtenemos 391
posibles divisiones sobre las trece variables en el nodo raíz. Dicho de otro modo, hay
391 posibles divisiones del nodo raíz en dos nodos secundarios. Entonces, ¿cómo
Para elegir la mejor división posible entre todas las variables, primero necesitamos
elegir la mejor división para cada variable. Para eso necesitamos alguna forma de
medir cuán buena resulta una división. Supongamos un problema con clases.
Modelización Predictiva 10
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
a la mezcla de clases o categorías en los datos que caen en ese nodo) de los nodos:
dado que está en el nodo τ. Para cumplir adecuadamente con este objetivo
Función de entropía
Modelización Predictiva 11
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Por defecto, la función elegida por los softwares suele ser el índice de diversidad de
Gini.
¿Cómo utilizamos esto para elegir la mejor división posible sobre cada
variable en el nodo?
Entre todas las divisiones posibles para el nodo , que podemos hacer sobre el
predictor , debemos elegir aquella que maximiza esta diferencia (por ejemplo,
variable que pertenece al nodo y luego entre todas ellas para elegir la
posible variable de división en el nodo raíz. Hay 41 valores diferentes para age , por
Armamos una tabla de 2×2 (Tabla 2) en la que se divide la edad, por ejemplo, en 65
años.
Modelización Predictiva 12
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Tabla 2. Tabla para la división de la variable age en los datos Cleveland_heart_disease: la rama izquierda
tendría una edad ≤ 65 y la rama derecha tendría una edad > 65. Fuente: elaboración propia.
▸ (A)
▸ (B)
▸ (C)
Modelización Predictiva 13
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
azul) e (curva roja) contra cada una de las 40 divisiones. Notar la gran caída
Figura 2. Elegir la mejor división para la variable de age en los datos Cleveland_heart_disease. La medida
Panel izquierdo
Modelización Predictiva 14
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
con el nodo raíz, que consiste en todo el conjunto de aprendizaje. Usando el criterio
división en el nodo raíz para cada variable. La mejor división en el nodo raíz se
define, entonces, como la que tiene la mayor reducción de impureza sobre todas las
Tabla 3. Determinación de la mejor división en el nodo raíz para los datos Cleveland_heart_disease. La
medida de la impureza es la función de entropía. Cada variable de entrada se muestra junto con su valor
máximo de Δi(s,τ ) sobre todas las divisiones posibles de esa variable. Fuente: elaboración propia.
A continuación, dividimos de la misma manera cada uno de los nodos hijos del nodo
raíz. Repetimos los cálculos anteriores para el nodo hijo izquierdo y para el nodo hijo
derecho, teniendo en cuenta solo las observaciones que pertenecen a cada partición.
nodos subsiguientes.
Modelización Predictiva 15
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
binario crece hasta que ninguno de los nodos se puede dividir más,
Inicialmente se usaban criterios de parada para detener el crecimiento del árbol; por
partición.
Modelización Predictiva 16
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Figura 3. Árbol de clasificación utilizando como medida de impureza la función de entropía para los datos
pacientes que caen en ese nodo. Las variables de división se muestran a lo largo de
las ramas. Así vemos: el nodo raíz con 297 pacientes se divide según si thal = norm
El nodo con los 164 pacientes, que consta de 127 pacientes sanos y 37 pacientes
con enfermedades cardíacas, se divide luego si ca < 0,5 (115 pacientes) o ca > 0,5
(49 pacientes). El nodo con 115 pacientes se declara nodo terminal para no —sano
cardíacas, se divide por edad ≥ 66 (7 pacientes) o edad < 66 (22 pacientes). El nodo
con cardiopatías, se divide por edad < 56 (13 pacientes) o edad ≥ 56 (9 pacientes).
Modelización Predictiva 17
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
mayoría de 12-1 a favor de no, y el nodo con 9 pacientes se declara nodo terminal
para sí —enfermo— debido a la mayoría de 6-3 a favor de sí. Y así sucesivamente.
Por lo tanto, vemos que hay cuatro caminos (sucesión de divisiones) a través de este
árbol para que un paciente sea declarado saludable (Sano) y otros cinco caminos
para que un paciente sea diagnosticado con una enfermedad cardíaca (enfermo).
resubstitución (o error aparente) (es decir, la tasa de error obtenida del conjunto de
Modelización Predictiva 18
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
utilizados para hacer creer los árboles, ejemplificando cada uno de ellos en un caso
concreto.
Accede al vídeo:
[Link]
41fb-a900-b0680131faeb
, que denotamos por . Dado que asignamos al nodo la clase que presenta
Modelización Predictiva 19
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
dada por:
de los 160 pacientes sanos como enfermos, mientras que, de los 173
Poda
Breiman et al. (1984) impuso la filosofía de hacer crecer los árboles en exceso y
Modelización Predictiva 20
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
▸ Hacer crecer el árbol hasta que cada nodo terminal tiene menos de
▸ Podar el árbol en dirección ascendente desde las hojas, de modo que en cada etapa
Para que esto tenga éxito, debemos mejorar nuestra estimación de . Una
técnica común es penalizar el error aparente con un término asociado a la
definimos:
siguiente manera:
Modelización Predictiva 21
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
tanto que cada nodo terminal contenga una única observación; entonces,
raíz.
Notemos que, aunque α pueda tomar valores en , existe una cantidad finita
Modelización Predictiva 22
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
para . Lo que hacemos es entonces fijar los valores de que dan lugar a los
error es
Árboles de clasificación en R
Modelización Predictiva 23
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
data(iris)
[Link](123)
library(rpart)
library(caret)
confusionMatrix(predictions, test_data$Species)
variable de respuesta y las variables predictoras, así como el método class para la
Modelización Predictiva 24
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Accede al vídeo:
[Link]
4833-97c0-b0680131fb93
Modelización Predictiva 25
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
una función constante a trozos sobre el dominio de los predictores. En las secciones
del mejor valor de una variable para producir una división de una partición existente.
aparente en el nodo:
Modelización Predictiva 26
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
resultante:
conveniente como modelo predictivo. La clave pasa, una vez más, por estimar el
error de predicción de cada árbol de forma confiable. Para ello podemos recurrir
Modelización Predictiva 27
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Figura 4. Ejemplo de un análisis por árbol de regresión aplicado a los datos Hitters del paquete ILSR2.
Modelización Predictiva 28
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Accede al vídeo:
[Link]
46fc-b26d-b0680131fbac
Modelización Predictiva 29
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
pueden ser incluso más fáciles de interpretar que un modelo lineal. Decidir cuál de
esa zona.
modelo lineal solo puede lograr una aproximación bastante tosca de la frontera de
mejorar la aproximación del modelo lineal, pero esto empeoraría la relación entre
predictores. Por otra parte, los árboles pueden incluir variables continuas y
Modelización Predictiva 30
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
interpretación que podamos hacer sobre la relación entre las variables a partir de la
independiente. En su lugar, podemos explorar si existe un árbol más chico entre los
modelos predictivos individualmente débiles para obtener una solución eficaz y más
robusta.
Modelización Predictiva 31
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Figura 5. Comparación entre la solución por árboles y por modelos lineales para dos problemas de
adecuadamente por una frontera lineal; un árbol de clasificación puede lograr una
Modelización Predictiva 32
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Ejercicio 1
Solución
conjunto de prueba.
podemos construir un intervalo de confianza con esta información. Por otra parte, el
Ejercicio 2
En un problema de clasificación binario, ¿por qué conviene requerir que todos los
Modelización Predictiva 33
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Solución
Conviene requerir que los nodos terminales tengan una cantidad impar de
terminal.
Ejercicio 3
¿Por qué el uso del error aparente sobre los nodos del árbol puede no ser el mejor
criterio para hacer crecer el árbol? Utilice un problema de clasificación binario para
la entropía de Shannon.
Solución
En los árboles de decisión, el error de clasificación no suele ser la mejor métrica para
a:
Por estas razones, se suelen preferir otros criterios, como el índice Gini o la entropía
Modelización Predictiva 34
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Figura 6 ilustra la diferencia entre estos tres criterios, como función de la proporción
erclass = function(p){
out = numeric(length(p))
for (i in 1:length(p)){
pp = p[i]
out[i] = min(pp,1-pp)
return(out)
shannon = function(pp){
out = numeric(length(pp))
for (i in 1:length(pp)){
out[i] = 0
p = pp[i]
if (p > 0){
if (p < 1){
Modelización Predictiva 35
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
return(out)
gini = function(p){return(2*p*(1-p))}
Modelización Predictiva 36
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Ejercicio 4
En un árbol de regresión, fundamente por qué utilizar el siguiente valor para un nodo
Solución
Ejercicio 5
Solución
aleatoriamente los valores de esa variable y viendo cuánto empeora la predicción del
modelo. Si permutar una variable hace que el modelo empeore significativamente,
eso indica que la variable es importante.
contando simplemente cuántas veces se utiliza para dividir el árbol. Si una variable
se usa a menudo para dividir el árbol, eso sugiere que es una variable importante.
Modelización Predictiva 37
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
se utiliza una variable para dividir el árbol, sino también a qué profundidad se
produce esa división. Las divisiones que ocurren cerca de la raíz del árbol afectarán
de las variables que pueden ser útiles para la interpretación del modelo y para la
selección de variables, pero todas tienen sus limitaciones y no deben tomarse como
Ejercicio 6
Modelización Predictiva 38
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Solución
plano que divide en dos una partición existente. En consecuencia, debería haber una
Ejercicio 7
Modelización Predictiva 39
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Solución
Ejercicio 8
Modelización Predictiva 40
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
▸ Utilizando el índice Gini como medida de impureza, ¿qué variable elegirías como
Solución de la consigna 1
Modelización Predictiva 41
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Solución de la consigna 2
realizado en la consigna 1.
Para la variable :
Para la variable C:
Modelización Predictiva 42
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Figura 10. Gráfico correspondiente al árbol solución del ejercicio 8. Fuente: elaboración propia.
Modelización Predictiva 43
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Ejercicio 9
Solución
Ejercicio 10
Modelización Predictiva 44
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Solución
Accede al vídeo:
[Link]
4873-9c9b-b0680131facf
Modelización Predictiva 45
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave
Breiman, L., Friedman, J., Olshen, R., y Stone, C. (1984). Classification and
James, G., Witten, D., Hastie, T., Tibshirani, R. (2021). An Introduction to Statistical
Modelización Predictiva 46
Tema 7. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
A fondo
Hastie, T., Tibshirani, R., Friedman, J. (2009). The Elements of Statistical Learning,
La sección 9.2 del libro de Hastie et al. ofrece una buena discusión general de
Modelización Predictiva 47
Tema 7. A fondo
© Universidad Internacional de La Rioja (UNIR)
A fondo
StatQuest con Josh Starmer. (2021). Decision and Classification Trees, Clearly
Accede al vídeo:
[Link]
StatQuest con Josh Starmer. (2021). Decision and Classification Trees, Clearly
Modelización Predictiva 48
Tema 7. A fondo
© Universidad Internacional de La Rioja (UNIR)
A fondo
Accede al vídeo:
[Link]
StatQuest con Josh Starmer. (2019). How to Prune Regression Trees, Clearly
Accede al vídeo:
[Link]
El canal de YouTube StatQuest with Josh Starmer ofrece una serie de vídeos
Modelización Predictiva 49
Tema 7. A fondo
© Universidad Internacional de La Rioja (UNIR)
A fondo
clasificación. Algunos detalles no son rigurosos desde el punto de vista formal, pero
Modelización Predictiva 50
Tema 7. A fondo
© Universidad Internacional de La Rioja (UNIR)
Test
numéricas.
regresión.
A. Entropía.
B. Índice Gini.
C. Error de clasificación.
A. Error de clasificación.
B. Índice Gini.
C. Entropía cruzada.
D. Coeficiente de correlación.
Modelización Predictiva 51
Tema 7. Test
© Universidad Internacional de La Rioja (UNIR)
Test
como categóricas.
clasificación.
Modelización Predictiva 52
Tema 7. Test
© Universidad Internacional de La Rioja (UNIR)
Test
importante?
considera en un nodo.
9. ¿Cómo maneja un árbol de decisión las variables categóricas con más de dos
niveles?
A. Las ignora.
10. ¿Cuál es una ventaja de los árboles de decisión sobre muchos otros algoritmos
de aprendizaje supervisado?
términos de precisión.
Modelización Predictiva 53
Tema 7. Test
© Universidad Internacional de La Rioja (UNIR)