Introducción al aprendizaje supervisado
(ver 5: 2023-2024)
Emilio Letón y Elisa M. Molanes-López
1-Oct-2023
Página legal
INTRODUCCIÓN AL APRENDIZAJE SUPERVISADO
©Emilio Letón y Elisa M. Molanes-López
Madrid, ver 1: 2019-2020
Madrid, ver 2: 2020-2021
Madrid, ver 3: 2021-2022
Madrid, ver 4: 2022-2023
Madrid, ver 5: 2023-2024
Quedan rigurosamente prohibidas, sin la autorización escrita de los titulares del Copyright, bajo las sancio-
nes establecidas en las leyes, la reproducción total o parcial de esta obra por cualquier medio o procedimiento,
comprendidos la reprografı́a y el tratamiento informático, y la distribución de ejemplares de ella mediante al-
quiler o préstamo público.
ISBN electrónico: xxx.
Edición digital (epub): xxx.
Prefacio
Este material está diseñado con el paradigma del grupo de innovación docente miniXmodular de generar
material en formato mini y modular, según se puede ver en la página web www.minixmodular.ia.uned.es, donde
se introduce, entre otros, el concepto de mini-libro electrónico modular.
En este mini-libro se verán algunos conceptos básicos relativos al aprendizaje supervisado que está indicado
en la modelización de una variable respuesta Y (también llamada dependiente, explicada, “output” o resultado)
a través de múltiples variables explicativas X1 , X2 , · · · , Xp (también llamadas independientes, predictores,
caracterı́sticas, “input” o entradas). Existe también un aprendizaje no supervisado que está indicado en el
caso de que no haya variable respuesta y sı́ haya múltiples variables explicativas X1 , X2 , · · · , Xp . Este tipo de
nomenclatura (supervisado / no supervisado) es habitual en el ámbito de la minerı́a de datos (ver, por ejemplo,
el capı́tulo 2 de [2]). A lo largo de este mini-libro se verá que, dentro del análisis supervisado, lo que determina
el modelo a utilizar no es la naturaleza de las variables explicativas sino la naturaleza de la variable respuesta.
Se recomienda refrescar los conceptos básicos de esperanza y varianza de una variable aleatoria (v.a.) en,
por ejemplo, [3].
En el mini-capı́tulo 1 se mencionan los principales modelos dentro del análisis supervisado y en el mini-
capı́tulo 2 aspectos relevantes a la hora de la construcción de un modelo cualquiera.
iii
iv
Mini-capı́tulo 1
Tipos de modelos
En este mini-capı́tulo se enumeran los principales modelos del análisis supervisado según la naturaleza de la
variable respuesta. Estos modelos son:
Y dicotómica: regresión logı́stica / análisis discriminante
Y continua: regresión lineal.
Y nominal: regresión logı́stica politómica / análisis discriminante politómico.
Y ordinal: regresión de riesgos proporcionales (“odds proportional regression”).
Conviene mencionar que en muchos textos del ámbito de la minerı́a de datos (ver, por ejemplo, el capı́tulo
2 de [2]) se suelen enumerar los principales modelos del análisis supervisado según la dicotomı́a:
Regresión: en el caso de que la variable repuesta sea continua.
Clasificación: en el caso de que la variable respuesta sea nominal.
Esta clasificación tiene un inconveniente pedagógico frente a la clasificación anterior y es que no se sabrı́a
muy bien, por ejemplo, dónde tendrı́a cabida la regresión logı́stica pues aunque lleva en el nombre la palabra
regresión, sin embargo sirve para clasificar, ya que la variable respuesta es nominal. Este hecho se menciona en
[2], donde se llega a decir “However, the distinction is not always that crisp”.
1
2 Mini-capı́tulo 1. Tipos de modelos
Mini-capı́tulo 2
Construcción del modelo
La mayorı́a de los modelos establecen una relación de Y en términos de X = (X1 , X2 , · · · , Xp ) a través de
una ecuación del tipo
Y = f (X1 , X2 , · · · , Xp ) + ε = f (X) + ε
donde f es una función fija pero desconocida, que representa la información sistemática de las variables expli-
cativas, y ε es una v.a. independiente de X con E[ε] = 0, que representa una perturbación de la información
sistemática de X. Evidentemente, el objetivo es determinar fb para estimar f y poder predecir Y a través de
Yb = fb(X).
Una medida del error que se comete cuando se utiliza el modelo estimado es
E[Y − Yb ]2 .
Esta medida del error se puede descomponer de forma que aparezcan dos sumandos según se detalla a conti-
nuación:
E[Y − Yb ]2 = E[f (X) + ε − fb(X)]2 = E[(f (X) − fb(X))2 + ε2 + 2(f (X) − fb(X))ε]
= (f (X) − fb(X))2 + E[ε2 + 2(f (X) − fb(X))ε] = (f (X) − fb(X))2 + E[ε2 ]
= (f (X) − fb(X))2 + V [ε]
Algunos autores (ver, por ejemplo, el capı́tulo 2 de [2]) denominan error reducible al primer sumando de dicha
descomposición y error irreducible al segundo, ya que aunque se llegue a estimar f de forma perfecta, siempre
existará el error debido a la perturbación ε.
2.1. Codificación de las variables explicativas
La codificación de las variables explicativas para que formen parte de los modelos de este mini-libro se hace
de la forma siguiente:
Si son continuas no es necesario hacer ninguna codificación. Se introducen en el modelo directamente con
sus valores numéricos.
Si son nominales con k categorı́as, es necesario crear k −1 variables ficticias (variables indicador, auxiliares
o “dummy”). Existen varias formas de crear dichas variables. Uno de los métodos es el dado en la tabla
2.1.
Variable Nominal Dummy 2 Dummy 3 ... Dummy k
Nivel 1 0 0 ... 0
Nivel 2 1 0 ... 0
Nivel 3 0 1 ... 0
... ... ... ... ...
Nivel k 0 0 ... 1
Tabla 2.1: Generación de variables “dummy”
Si son ordinales, una posibilidad es tratarlas como nominales (se estarı́a perdiendo información), sin
embargo lo más adecuado serı́a usar transformaciones ortogonales (ver, por ejemplo, [1]). No serı́a correcto
introducirlas como si fueran continuas con valores numéricos asociados a los niveles ordenados.
3
4 Mini-capı́tulo 2. Construcción del modelo
A menudo también se suelen considerar transformaciones de variables explicativas (por ejemplo transfor-
mación cuadrática o logaritmo neperiano) e interacciones entre variables explicativas que se codifican como el
producto de éstas.
2.2. Ajuste del modelo
En los modelos es habitual, cuando f es paramétrica, tener que estimar los parámetros o coeficientes del
modelo, de forma puntual y a través de sus intervalos de confianza. Los coeficientes del modelo dan una medida
del efecto de cada variable, aunque en algunas ocasiones hay que transformarlos, como en la regresión logı́stica
que, a la hora de interpretar los coeficientes, hay que considerar e elevado a los coeficientes ya que en ese caso
representan los “odds ratio”.
La estimación de los parámetros se suele hacer a través de distintos métodos, como el de mı́nimos cuadrados
o máxima verosimilitud. El proceso de cosntrucción de un modelo tiene que seguirse a través de una estrategia
de modelización (“model building”) en el que bien de forma manual o de forma automática se seleccione un
modelo candidato que habrá que evaluar si se comporta de manera razonable. En este proceso hay que dividir
la muestra de forma aleatoria en un conjunto de datos de entrenamiento (con el que se construye el modelo
candidato) y un conjunto de datos de validación (con el que se evalúa su rendimiento).
En los modelos con variable respuesta continua es habitual utilizar el error cuadrático medio (“mean square
error”) en el conjunto de entrenamiento como medida del rendimiento del modelo. Cuando la variable respuesta
es dicotómica se utilizan la sensibilidad, la especificidad y la curva roc. En el caso de que la respuesta sea
nominal, se utiliza la matriz de confusión.
En los modelos con variable respuesta continua, la fórmula siguiente
E[y0 − fb(x0 )]2 = V [fb(x0 )] + (sesgo(fb(x0 )))2 + V [ε],
expresa el error cuadrático medio esperado en el conjunto de validación, para una observación (y0 , x0 ) de dicho
conjunto.
La fórmula anterior está relacionada con el compromiso sesgo-varianza (ver, por ejemplo, el capı́tulo 2 de
[2]). Dicho compromiso refleja el hecho de que cuanto más flexible sea el modelo, la varianza será menor pero el
sesgo será mayor y recı́procamente para modelos menos flexibles.
Ejemplo
1. Demostrar la fórmula del error cuadrático medio esperado en el conjunto de validación.
SOLUCIÓN:
En la expresión E[y0 − fb(x0 )]2 se suma y se resta dentro de ella el valor E[fb(x0 )] y se opera, es decir
E[y0 − fb(x0 )]2 = E[y0 − E[fb(x0 )] + E[fb(x0 )] − fb(x0 )]2
= E[(y0 − E[fb(x0 )])2 ] + E[(E[fb(x0 )] − fb(x0 ))2 ]
+ 2E[(y0 − E[fb(x0 )])(E[fb(x0 )] − fb(x0 ))]
= E[y02 ] + E 2 [fb(x0 )] − 2E[y0 ]E[fb(x0 )]
+ E 2 [fb(x0 )] + E[fb2 (x0 )] − 2E[fb(x0 )]E[fb(x0 )]
+ 2E[y0 E[fb(x0 )] − y0 fb(x0 ) − E 2 [fb(x0 )] + fb(x0 )E[fb(x0 )]]
= E[f 2 (x0 )] + V [ε] + E 2 [fb(x0 )] − 2E[f (x0 )]E[fb(x0 )]
+ E 2 [fb(x0 )] + E[fb2 (x0 )] − 2E 2 [fb(x0 )] + 0
= f 2 (x0 ) + V [ε] − 2f (x0 )E[fb(x0 )] + E[fˆ2 (x0 )]
= f 2 (x0 ) − 2f (x0 )E[fb(x0 )] + V [fb(x0 )] + E 2 [fb(x0 )] + V [ε]
= V [fb(x0 )] + (E[fb(x0 )] − f (x0 ))2 + V [ε]
= V [fb(x0 )] + (sesgo(fb(x0 )))2 + V [ε]
Referencias
[1] Hosmer Jr, D.W., Lemeshow, S., & Sturdivant, R.X., Applied logistic regression, John Wiley & Sons (New
York), 2013.
[2] James, G., Witten, D., Hastie, T., & Tibshirani, R., An introduction to statistical learning, Springer (New
York), 2021.
[3] Ramos, E., Vélez, R., Hernández, V., Modelos probabilı́sticos y optimización, Sanz y Torres (Madrid), 2019.
5
6
Acerca de
Emilio Letón
Figura 2.1: Emilio Letón
Emilio Letón nace en Madrid en 1966. Es Licenciado en Matemáticas por la UCM en 1989 y doctor en
Matemáticas en la misma universidad en 2002. En la actualidad es profesor contratado doctor de la UNED en el
departamento de Inteligencia Artificial, al que se incorporó en 2009. Anteriormente fue profesor del departamento
de Estadı́stica de la UC3M durante 5 años. Asimismo, ha trabajado durante 15 años en departamentos de
Planificación y Estadı́stica dentro del sector bancario y de la industria farmacéutica. Sus lineas de investigación
incluyen el Análisis de Supervivencia, tests no paramétricos, PLS, Meta-Análisis, Bioestadı́stica, B-Learning e
IA. Es coautor de 14 artı́culos reflejados en su ORCID (https://orcid.org/0000-0001-6908-9590). Ha participado
en 34 proyectos de innovación docente en los últimos 15 años (siendo coordinador en 12 de ellos) colaborando con
distintas universidades: UNED, UC3M, UCM y UPM. Realiza su transferencia desde el grupo miniXmodular
(www.minixmodular.ia.uned.es) del que es coordinador desde su creación en 2016, desde el Canal Fundación
ONCE en el que colabora desde su creación en 2016 y desde la Cátedra UNESCO de Educación a Distancia
(CUED) a la que se incorporó en 2022 como miembro del consejo académico. Ha recibido 1 premio en excelencia
en publicaciones cientı́ficas (UC3M), 5 premios en excelencia docente (1 en UC3M, 3 en UNED y 1 en OCW
Consortium) y 1 premio de transferencia (UNED-Santander). En @emilioleton se pueden encontrar sus tweets
y su página web personal (http://www.ia.uned.es/˜eleton) con información ampliada de su curriculum.
Elisa M. Molanes-López
Figura 2.2: Elisa M. Molanes-López
7
Elisa M. Molanes-López nace en Vigo en 1976. Se licencia en Matemáticas por la Universidad de Santiago
de Compostela en 2000 y adquiere el grado de doctora, con acreditación europea, por la Universidad de A
Coruña en 2007. Entre 2003 y 2007, al amparo de una beca FPI, realiza varias estancias de investigación en las
siguientes universidades extranjeras: Universiteit Hasselt (Bélgica), Université Catholique de Louvain (Bélgica)
y The University of Texas (EE.UU.). Durante 8 años, entre 2007 y 2015, forma parte de la Universidad Carlos
III de Madrid como profesora visitante en el Departamento de Estadı́stica. En 2015, comienza su andadura en
la Universidad Complutense de Madrid como profesora ayudante doctora en la Sección de Bioestadı́stica del
Departamento de Estadı́stica e Investigación Operativa, y desde 2020 es profesora contratada doctora en dicho
departamento. Durante su trayectoria académica participa en 12 proyectos de innovación educativa y desde
2016 es miembro del grupo de innovación docente “miniXmodular: una propuesta de realización de material
docente digital modular en formato mini” de la Universidad Nacional de Educación a Distancia. En diciembre
de 2013, recibe un accésit a la mejor práctica docente en los Premios del Consejo Social de la UNED por su
participación en el MOOC “Mini-vı́deos docentes modulares: un elemento crı́tico en el diseño de un MOOC”, y
en abril de 2014, el OpenCourseWare Consortium le otorga un premio de excelencia por su participación en el
curso OCW “Mini-vı́deos docentes modulares para diseñar un MOOC”. Más recientemente, en junio de 2022, el
Vicerrectorado de Calidad de la Universidad Complutense de Madrid le otorga un diploma de reconocimiento
a la excelencia Docentia-UCM por su labor docente durante los trienios 2015-2018 y 2018-2021. Sus lı́neas de
investigación incluyen la estadı́stica no paramétrica, el análisis de supervivencia, las curvas ROC, las funciones
cópula y las tecnologı́as web en el proceso de enseñanza-aprendizaje (HTML, CSS, ePub). En su página web
personal (https://elisamariamolanes.wixsite.com/emolanes) y en su ORCID (https://orcid.org/0000-0003-3217-
8551), se pueden encontrar más detalles.
8
Índice general
1. Tipos de modelos 1
2. Construcción del modelo 3
2.1. Codificación de las variables explicativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. Ajuste del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
9
10
Índice de figuras
2.1. Emilio Letón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Elisa M. Molanes-López . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
11
12
Índice de tablas
2.1. Generación de variables “dummy” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
13