0% encontró este documento útil (0 votos)
41 vistas49 páginas

Esl ES

Cargado por

felipe0724
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
41 vistas49 páginas

Esl ES

Cargado por

felipe0724
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Tema 1

Modelización Predictiva

Tema 1. Introducción a la
modelización predictiva
Índice
Esquema

Ideas clave

1.1. Introducción y objetivos

1.2. Definiciones

1.3. Problemas predictivos típicos

1.4. Riesgo empírico y sobreajuste

1.5. Cuaderno de ejercicios

1.6. Referencias bibliográficas

A fondo

Introducción al aprendizaje estadístico

De los modelos lineales al aprendizaje automático

Un poco de teoría

Test
Esquema

Modelización Predictiva 3
Tema 1. Esquema
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

1.1. Introducción y objetivos

El análisis estadístico intenta, por lo general, estudiar una muestra de datos para

obtener conclusiones que son válidas más allá de esa muestra; es decir, para otros

datos que podríamos registrar sobre el mismo problema. A menudo, el interés reside

en explicar si las variables están relacionadas, si la variación de una produce un

cambio significativo en otra, etc.

Al intentar dar respuestas válidas a partir de la muestra de la que disponemos,

reconocemos que la respuesta puntal, normalmente, cambiará si tomamos una

muestra distinta. Mucho de lo que estudiamos en los cursos básicos de estadística

tiene que ver con entender esa variabilidad de forma que sea posible discernir qué

resultados observados en una muestra de datos pueden ser considerados válidos

con alta confianza en la población estadística de donde se obtuvieron esos datos.

Intervalos de confianza y pruebas de hipótesis son los actores

fundamentales en ese proceso, que usualmente denominamos


inferencia estadística.

No obstante, cuando las variables están relacionadas entre sí es posible intentar

predecir el valor de alguna de ellas en función de las otras:

▸ Al escribir un mensaje de texto, nuestro teléfono móvil intenta predecir lo que

escribiremos a continuación.

▸ Miles de inversores intentan predecir el rendimiento de la inversión en diferentes

acciones de bolsa.

▸ Cuando usamos una huella dactilar en lugar de una contraseña, un sistema

automático predice si el potencial usuario es una persona autorizada.

Modelización Predictiva 4
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

▸ Nuestro correo electrónico retiene varios mensajes que considera peligrosos o spam.

Podemos escribir una lista muy extensa de ejemplos cotidianos de sistemas que

intentan predecir algo en función de otros datos. En muchos de estos casos,

posiblemente la gran mayoría ni siquiera intentamos comprender la relación entre lo

que queremos predecir y las variables que usamos para ello; solamente nos interesa

equivocarnos los menos posible en nuestra predicción.

En las tareas predictivas, las variables juegan un papel asimétrico. Mientras que en

el análisis de la relación entre dos variables no es necesario suponer un rol

específico para las variables implicadas, la aplicación de un modelo predictivo

supone una distinción entre las variables que adoptan el papel de variables

explicativas y otras que se consideran como respuesta.

La razón que lleva a explicar una variable en términos de otras es que unas de ellas

pueden ser fáciles de observar o controlables, por lo que resultaría sencillo obtener

algunos de sus valores; en tanto que, para las otras, la obtención de observaciones

puede ser una tarea más compleja o económicamente desventajosa.

La predicción es una tarea estadística fundamental, diferente de la inferencia. Más

aún, con el auge de la inteligencia artificial y el aprendizaje automatizado, tales

tecnologías han conseguido, en los últimos años, tener un papel central en las tareas

predictivas y es fácil entusiasmarse con ellas como la primera solución a adoptar. Sin

embargo, veremos más adelante que la solución más conveniente para un problema

predictivo es, a menudo, la más simple que nos permite un error de predicción

aceptable. Como la predicción y la inferencia son aspectos que no van de la mano,

usualmente también se prefiere resignar capacidad predictiva para mejorar la

comprensión entre las variables que intervienen en el problema.

Este curso intenta dar una introducción al modelado predictivo, incorporando

métodos estadísticos simples que pueden usarse en problemas de regresión y de

clasificación. En su presentación recurriremos, también, a conceptos y palabras más

Modelización Predictiva 5
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

comunes en el ámbito del aprendizaje automático que de la estadística clásica, lo

que intenta reducir la brecha entre dos disciplinas naturalmente emparentadas.

Los objetivos específicos del tema son:

▸ Introducir el modelado predictivo.

▸ Introducir la terminología básica necesaria.

▸ Identificar las diferencias entre un problema de regresión y clasificación.

▸ Dar nociones básicas de ajuste y sobreajuste.

El siguiente vídeo, Introducción al modelado predictivo, ofrece una introducción

general al problema del modelado predictivo.

Accede al vídeo:

https://unir.cloud.panopto.eu/Panopto/Pages/Embed.aspx?id=adc64732-c21a-
4183-9726-b06801338054

Modelización Predictiva 6
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

1.2. Definiciones

Comenzamos este texto introduciendo algunos términos que nos acompañarán a lo

largo de todo el curso.

Estimación vs. entrenamiento/aprendizaje

En estadística estamos acostumbrados a pensar que existe un conjunto de

parámetros poblacionales que definen la relación funcional entre las variables;

nuestra tarea es, entonces, ajustar el valor de esos parámetros usando los datos que

disponemos. Este proceso lo llamamos, habitualmente, estimación. Sin embargo,

existen modelos predictivos que son difíciles de visualizar en términos poblacionales.

Por ejemplo, aprenderemos a agregar un número grande de clasificadores débiles

para obtener un modelo predictivo que, en conjunto, es poderoso. ¿Cuáles son los

parámetros poblacionales en ese caso? En otros casos, los métodos predictivos se

desarrollaron como algoritmos exitosos y solamente luego de muchos años se los


pudo interpretar en términos poblacionales (por ejemplo, la regresión de cuadrados

mínimos parciales o PLS). Por ello, en el contexto del modelado predictivo es común

referirnos al ajuste de los modelos a partir de los datos como entrenamiento o

aprendizaje.

Tipos de aprendizaje

Supervisado vs. no supervisado

Aunque la división no es tan habitual en estadística clásica, la comunidad que trabaja

en problemas de aprendizaje automático ha impuesto una separación conceptual

entre dos formas distintas de adquirir conocimiento a partir de ejemplos.

En el aprendizaje supervisado, la muestra de entrenamiento está etiquetada, de

forma que conocemos con certeza la respuesta verdadera asociada a cada ejemplo

disponible en la muestra de entrenamiento. Si pudiéramos contar con una muestra

Modelización Predictiva 7
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

arbitrariamente grande de datos en los que conocemos la respuesta asociada con


cada ejemplo, podemos pensar que el aprendizaje de modelos predictivos tendrá

más chances de ser eficaz.

Por ello, los problemas predictivos típicos se abordan normalmente con estrategias

de aprendizaje supervisado. No obstante, conocer la respuesta para ejemplos a

menudo resulta mucho más caro o costoso que recolectar ejemplos, aunque

no conozcamos la respuesta para todos ellos. En consecuencia, a veces debemos

escoger entre conformarnos con muestras de entrenamiento más chicas si

deseamos emprender una tarea de aprendizaje supervisado o utilizar una muestra

más grande, pero etiquetada solo parcialmente. Este último escenario se conoce

como aprendizaje semisupervisado.

Por el contrario, en el aprendizaje no supervisado no contamos con un maestro o

experto que nos diga la respuesta o etiqueta asociada con los ejemplos que

disponemos. En este caso solo nos queda poder descubrir patrones en los datos que

nos ayuden en el problema predictivo. El ejemplo típico es el análisis de

agrupamientos o clustering.

La distinción entre aprendizaje supervisado y no supervisado no atañe solamente al

ajuste de modelos predictivos. Otras tareas, como reducir la dimensión del conjunto

de predictores para facilitar el modelado predictivo, la visualización o ayudar a su

interpretabilidad, también pueden abordarse desde un enfoque supervisado o no

supervisado. Estudiaremos que la regresión de cuadrados mínimos parciales y el


análisis discriminante de Fisher son ejemplos del primero, mientras que el análisis de

componentes principales es el enfoque más común dentro de los que no utilizan

información de la respuesta.

La clasificación anterior también puede ser simplista en algunos escenarios. Por

ejemplo, en problemas en los que la cantidad de variables es mucho más grande que

la cantidad de ejemplos que disponemos para enseñar a nuestro modelo predictivo.

Modelización Predictiva 8
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Una opción usada con frecuencia es reducir, primero, la cantidad de variables

mediante una transformación de las originales y recién luego abordar el modelado

predictivo. A veces, esa primera etapa se efectúa de forma no supervisada y solo la

segunda etapa es supervisada. Discutiremos más adelante si este enfoque es

adecuado o no o cuándo puede serlo.

Por otra parte, cuando adoptamos una estrategia de aprendizaje supervisado

debemos cuidar que el modelo predictivo que entrenamos no se ajuste demasiado a

los datos, en el sentido de aprender estructuras o patrones que son, en realidad,

variaciones espurias observadas en la muestra que no se replicarán en nuevos

ejemplos. Este problema de sobreajuste a los datos de entrenamiento a menudo no

es una amenaza en el contexto de aprendizaje no supervisado.

En este curso nos enfocaremos en el estudio de estrategias supervisadas de

modelado predictivo. El enfoque común será aprender un modelo predictivo a partir


de un conjunto de datos de entrenamiento en el que todos los ejemplos están

etiquetados correctamente. Una vez entrenado el modelo predictivo, podremos

aplicarlos sobre nuevos datos o ejemplos de un conjunto de prueba (test) para

evaluar su desempeño. Este esquema general se ilustra en la Figura 1.

Modelización Predictiva 9
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Figura 1. Esquema de un enfoque de aprendizaje supervisado para el ajuste de un modelo predictivo.

Fuente: Calvo (2019).

Generativo vs. discriminante

Cuando intentamos predecir una respuesta o grupo de pertenencia en función de un

conjunto de predictores, a menudo estamos interesados solamente en encontrar un

modelo para predecir la respuesta, sin detenernos en conocer más sobre la

estructura de los predictores. En problemas de clasificación, no obstante, en

ocasiones se escogen modelos predictivos basados en aprender la distribución de

los datos de cada clase. La clasificación se efectúa, luego, verificando cuál de esos

modelos explica mejor un ejemplo observado.

En este escenario hablamos de aprendizaje generativo, ya que, al conocer

aproximadamente la distribución de los datos de cada clase, podemos simular el

proceso que los generó. En este escenario, generalmente se usan modelos

paramétricos, ya que las variantes no paramétricas suelen ser poco eficientes

cuando el número de predictores es grande. El análisis discriminante lineal

Gaussiano y el análisis discriminante cuadrático son dos ejemplos comunes que

usan distribuciones normales como modelos de las clases.

Modelización Predictiva 10
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

No obstante, el enfoque es más general y puede incluir modelos gráficos de distinta

complejidad, incluso para datos multivariados que varían en el tiempo o en el

espacio. Una ventaja de este enfoque es que, si identificamos nuevas clases de

interés para nuestro problema, podremos actualizar nuestro modelo predictivo sin

necesidad de reentrenar modelos para las clases ya conocidas. No obstante,

aprender la distribución de los datos, para luego construir con eso un modelo
predictivo, no es el camino más eficiente.

Por un lado, discriminar entre dos clases puede ser un problema más sencillo que

describir correctamente cada clase. Por otro lado, si las suposiciones de modelado

para cada clase no son correctas, el clasificador construido de esa manera indirecta

puede resultar ineficaz. En el aprendizaje discriminante nos enfocamos

directamente en aprender la frontera de decisión entre clases distintas, sin

preocuparnos mucho por describir cómo se comportan los datos lejos de esa

frontera.

El enfoque discriminante solo busca aprender la frontera de decisión

entre las clases, mientras que el enfoque generativo busca entender

primero cómo se distribuyen los datos.

Figura 2. Comparación entre aprendizaje discriminante y generativo. Fuente: Rodriguez (2020).

Modelización Predictiva 11
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Predicción como problema de optimización: función de costo y riesgo

Al abordar el diseño e implementación de modelos predictivos será útil preguntarnos


por la calidad de una solución determinada, de modo que al ajustar el modelo

buscaremos optimizar esa medida de desempeño. El enfoque usual en el

aprendizaje estadístico es adoptar un criterio para ponderar los errores que

cometeremos en el proceso de predicción, con la intención de minimizar el costo total

que esperamos por utilizar tal modelo predictivo.

Formalicemos esta idea: dado un conjunto de variables observadas , la tarea del

modelo predictivo será poder predecir un valor para el verdadero valor de la

respuesta . Estudiaremos métodos que nos ayudarán a aprender esas funciones a

partir de ejemplos en los que conocemos el valor verdadero de asociado con

cada . Luego, querremos usar ese modelo para casos en los que conocemos

solamente y esperamos que nuestro valor predicho se ajuste lo más posible a lo

que sería el valor verdadero de la respuesta (aunque no podamos medirla para esos

nuevos puntos).

Para cuantificar qué tan bien se ajusta nuestra predicción al valor verdadero de la

respuesta, adoptaremos una función de costo de tal forma que

cuando y mayor que cero en otro caso. Más aún, de ser

posible, quisiéramos definir esta función de costo de modo que tome un

valor positivo muy grande si es muy distinto de , de forma de reducir cuanto

sea posible la chance de cometer este tipo de errores con un modelo ya ajustado.

Luego, lo que quisiéramos es reducir el valor que podemos esperar para esta

cantidad. Así, entrenar un modelo predictivo es encontrar una función de los

predictores de tal forma que si la adoptamos como nuestra predicción de la

respuesta , entonces:

Modelización Predictiva 12
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

La función se llama riesgo asociado a la función . El

mínimo riesgo posible para un problema dado, independientemente de , se conoce

como riesgo de Bayes y la solución que lo alcanza es la regla de Bayes para

ese problema. Es la solución ideal, que veremos más adelante que es impracticable

en problemas reales. Luego, la solución de un problema real será encontrar una

solución práctica, a menudo restringida a una familia particular de funciones ,

que sea razonablemente buena comparada con el riesgo de Bayes.

Esta expresión también nos muestra que para identificar explícitamente un problema

de predicción debemos especificar nuestra elección de la función de costo, de la

familia de soluciones posibles y, en un aspecto más operativo, de cómo

traduciremos este problema poblacional en una solución algorítmica con una muestra

de datos finita. La multiplicidad de opciones posibles para estas elecciones configura

una plétora de métodos analíticos distintos, destinados a resolver un par de

problemas prototipo; particularmente regresión y clasificación.

Modelización Predictiva 13
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

1.3. Problemas predictivos típicos

Regresión

Entendemos por regresión el problema de modelar o predecir el valor de una o

varias respuestas numéricas a partir de un conjunto de variables predictoras. La

función de costo asociada depende típicamente de la diferencia entre el valor


predicho y el valor real. La opción más común, por lejos, es adoptar una función de

costo cuadrática:

Otra opción es utilizar el valor absoluto de la diferencia entre el valor predicho y el

valor real.

Regla de Bayes para la regresión

Proposición

Supongamos que adoptamos una función de costo cuadrática

para ponderar la calidad de nuestra solución predictiva en

un problema de regresión. Luego, la función óptima que alcanza el riesgo de Bayes

para este problema es:

La prueba de este resultado se deja como ejercicio (ver el ejercicio 1).

Claramente, esta solución no es utilizable en forma directa en la práctica, ya que no

conocemos la distribución de los datos como para calcular la esperanza en forma

analítica. Además, por lo general, no tenemos múltiples repeticiones en cada punto

como para promediar diferentes valores de la respuesta asociados a un único valor

de los predictores.

Modelización Predictiva 14
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Esta solución ideal, no obstante, sirve de guía para otros métodos. Por ejemplo,

varios métodos no paramétricos buscan estimar esta esperanza en una vecindad de

. Otra estrategia será adoptar un modelo paramétrico para esta esperanza y luego

estimar los parámetros del modelo a partir de los datos disponibles. Este es el caso

de los modelos lineales en regresión.

Clasificación

Damos el nombre de clasificación al problema de predecir el valor de una variable

cualitativa en función de un conjunto de variables predictoras. Vemos que la

diferencia fundamental con la regresión es el tipo de variable que queremos predecir

(cualitativa vs. cuantitativa). Más adelante veremos que, si codificamos

adecuadamente las etiquetas de clase con un conjunto de variables indicadoras, es

posible considerar un problema de clasificación como uno de regresión con

respuesta multivariada.

No obstante, a pesar de esta similitud formal, la manera en la que medimos la

calidad de la predicción obtenida es diferente. El objetivo fundamental al diseñar y

entrenar un clasificador es lograr identificar la clase correcta observando solamente

los predictores. El error tiene, frecuentemente, una naturaleza discreta (nos

equivocamos o no), ya que no tenemos mejor forma de graduar cuán grande es el

error que cometimos.

Algo que si podemos hacer es dar preferencia a predecir correctamente algunas de

las clases por sobre las demás. Un caso extremo de esta situación es una en la que

nos preocupa identificar o detectar correctamente los ejemplos de una clase,

cuidando un compromiso entre sensibilidad y especificidad.

Regla de Bayes para la clasificación

Proposición

Supongamos que adoptamos una función de costo 0/1, que simplemente cuenta si

Modelización Predictiva 15
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

cometimos un error o no, cualquiera sea su tipo. Esto es, ,

donde si y 1 en cualquier otro caso. Luego, la función óptima

que alcanza el riesgo de Bayes para este problema de clasificación es:

La prueba de este resultado se deja como ejercicio (ver el ejercicio 2).

Este también es un resultado ideal, ya que en escenarios reales no conocemos la

distribución real de los datos como para calcular estas probabilidades. No obstante,

una vez más, este resultado nos sirve de guía. Por ejemplo, podemos modelar la

distribución de los datos de cada clase con una distribución y

utilizar la regla de Bayes para expresar la función de decisión óptima como:

Donde es la probabilidad a priori (o prevalencia) de la clase . Bajo este

enfoque generativo, el problema consistirá en estimar las (y en menor medida las

). Otras estrategias intentarán aproximar la solución óptima en forma directa


mediante un enfoque discriminante. En estos casos, puede ser de interés verificar si,

con datos simulados de distribución conocida, el desempeño de la regla de decisión

aprendida es similar al de . Idealmente, quisiéramos que , cualquiera sea la

distribución de los datos.

Clasificación vs. reconocimiento de patrones

En nuestra discusión de problemas de regresión y de clasificación supondremos que

las variables predictoras están dadas y son adecuadas para el problema. La única

consideración que haremos es que tal vez hemos recolectado más variables que las

estrictamente relacionadas con la respuesta que queremos predecir y entonces nos

importará, también, entender cuáles son las variables de mayor valor predictivo a fin

de mejorar nuestra comprensión del fenómeno que origina los datos.

Modelización Predictiva 16
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Sin embargo, en problemas reales complejos a menudo existe un paso previo que

consiste en identificar los predictores relevantes a partir de los datos primarios

que medimos. Por ejemplo, podemos estar interesados en ayudar en un diagnóstico

médico a partir de una señal de electrocardiografía (ECG). No obstante,

generalmente no encontraremos un clasificador que utilice directamente las señales

digitalizadas de ECG; es decir, su forma de onda. Típicamente, se extraerán primero

las características o los descriptores específicos que sintetizan la información más

relevante que contiene la señal a los efectos de entrenar un modelo predictivo.

Así, tal vez escogeremos usar la variabilidad de la frecuencia cardíaca, la relación

entre las amplitudes o entre las duraciones de las distintas fases del complejo QRS o

de las ondas P y T que podemos identificar en las derivaciones de un ECG. Este

proceso completo, que incluye identificar primero cuáles son los predictores que

mejor representan la información predictiva contenida en los datos, a menudo se

llama reconocimiento de patrones. La Figura 3 ilustra un sistema completo de

reconocimiento de patrones, desde el registro de los datos hasta la clasificación

propiamente dicha.

La identificación de predictores apropiados a partir de los datos crudos es crucial

para el desempeño final del modelo predictivo y requiere, en general, de un

conocimiento profundo del campo de aplicación. ¿Es posible aprender, también,

cuáles son las características y variables importantes a partir de los datos? Esa es

una de las características distintivas del aprendizaje profundo, a menudo a expensas

de contar con un enorme conjunto de ejemplos para entrenar o preentrenar los

modelos. En los métodos que abordaremos en este curso supondremos siempre que

estamos utilizando representaciones adecuadas para la información contenida en los

datos.

Modelización Predictiva 17
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Figura 3. Esquema de un sistema completo de reconocimiento de patrones. Fuente: Meier (2020).

La clasificación es la última etapa del proceso luego de que se han

medido los datos de interés, preprocesado e identificado los

descriptores relevantes que actuarán como predictores en el modelo

predictivo.

Modelización Predictiva 18
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

En el siguiente vídeo, Terminología, se presenta el vocabulario usual utilizado en al

área del modelado predictivo, como así también los dos problemas predictivos

típicos: regresión y clasificación.

Accede al vídeo:
https://unir.cloud.panopto.eu/Panopto/Pages/Embed.aspx?id=18027b5c-4a6a-
4fd6-b317-b0680133802b

Modelización Predictiva 19
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

1.4. Riesgo empírico y sobreajuste

La estimación más simple del error de predicción es el error aparente, que se

calcula de la siguiente manera:

▸ En un problema de regresión, el modelo ajustado se usa para predecir cada uno de

los valores de la respuesta (conocidos) de todo el conjunto de datos, y el error


aparente es entonces la media de los cuadrados de los residuos (RSS). Si tenemos
una muestra de n ejemplos etiquetados , este error es

Como los promedios muestrales son estimadores de la esperanza matemática, esto

no es más que un estimador del riesgo, que se mide usando los datos de la

muestra. A menudo se lo denomina riesgo empírico.

▸ En un problema de clasificación, el clasificador predice la clase (conocida) de cada

caso en todo el conjunto de datos, una predicción correcta se puntúa como 0 y una
clasificación errónea se puntúa como 1. El error aparente es la proporción de casos
mal clasificados:

Este es el riesgo empírico de la clasificación.

Debido a que esta estimación del error de predicción usa los mismos datos que se

usaron para derivar el modelo predictivo, el resultado es una visión demasiado

optimista de la precisión de la predicción. Como lo que importa verdaderamente es

tener un buen desempeño predictivo sobre casos que todavía no hemos visto,

debemos lograr una forma de evaluar la capacidad de generalización del modelo

predictivo; esto es, la capacidad de dar buenas predicciones sobre datos no

Modelización Predictiva 20
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

utilizados durante el ajuste del modelo. Para lograr esto, lo común en la actualidad es

dividir el conjunto de datos disponibles en tres partes:

▸ Conjunto de entrenamiento: el conjunto de observaciones que usaremos para

ajustar un modelo predictivo (por ejemplo, para estimar sus parámetros).

▸ Conjunto de validación: el conjunto de observaciones que usaremos para

seleccionar un modelo particular entre varios candidatos. Podemos prescindir de


este conjunto con algunos clasificadores que no requieren ajustar un parámetro de
diseño, como en el análisis discriminante lineal que estudiaremos más adelante.

▸ Conjunto de prueba: el conjunto de observaciones que usaremos para evaluar el

error de predicción final del modelo predictivo escogido.

Cada observación disponible se asigna al azar a uno solo de estos conjuntos. La

suposición subyacente es que todos estos conjuntos son representativos y

comparten una única distribución.

A menudo, los datos disponibles no son tantos como para separarlos en tres
conjuntos y que cada uno tenga una cantidad de observaciones adecuada. Por

ejemplo, confiamos en que cuantos más datos usemos para entrenar los modelos,

más precisos serán los estimadores. Por lo tanto, quisiéramos reservar la mayor

cantidad posible para estimar los modelos predictivos.

Sin embargo, si los conjuntos de validación y prueba son muy chicos, la resolución

que tendremos para comparar desempeño de modelos distintos será limitada y

podría parecernos que modelos muy distintos obtienen desempeños similares.

Además, la varianza de la estimación puede ser alta, en el sentido que, si

cambiamos el conjunto de prueba, el error de predicción estimado puede cambiar

significativamente. Esto hace que, en general, se utilicen procedimientos de

remuestreo, que asignan diferentes funciones a los datos a lo largo del proceso.

Estudiaremos estos procedimientos en el tema «Evaluación de modelos predictivos».

Modelización Predictiva 21
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Riesgo estructural y complejidad

El riesgo de conformarnos con obtener un buen desempeño en los datos de

entrenamiento y no evaluarlo en otros datos que no pertenezcan a esta muestra es

ajustar demasiado el modelo a los datos de entrenamiento.

Podemos pensar que los datos que medimos tienen una componente estructural útil

en predicción, pero también un componente aleatorio que determina su variabilidad.

Cuando nos empeñamos en reducir tanto cuanto podemos el error de predicción

aparente, corremos el riesgo de estar ajustando el modelo a esa componente

aleatoria que no aparecerá luego en nuevos datos.

Es decir que, si nos preocupamos mucho por reducir el error aparente,

por ejemplo, adoptando modelos más complejos, es posible que

perdamos capacidad de generalización.

Este efecto se conoce como overfitting o sobreajuste a los datos de

entrenamiento, y se ilustra en la Figura 4. Allí suponemos que tenemos libertad para


elegir el grado de un polinomio que definirá un modelo predictivo paramétrico. Los

datos son simulados y la solución verdadera al problema de regresión se muestra en

una curva negra. Claramente, no preocuparnos en absoluto por el error aparente no

está bien, porque es claro que un modelo que funciona muy mal en la muestra de

entrenamiento no tiene chances de funcionar bien con nuevos datos.

Pero adoptar un polinomio de orden muy grande aumenta demasiado la flexibilidad

de la solución. Vemos que podemos reducir a cero el error aparente, pero claro que

comenzamos a modelar el ruido en los datos más que la relación estructural entre las

variables representada por la curva negra. La mejor solución, en este caso, como

sucederá en general, es una opción intermedia que logra un ajuste razonablemente

bueno sin incrementar tanto la complejidad de la solución.

Modelización Predictiva 22
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

En general, a fin de evitar el sobreajuste y mantener una buena capacidad de

generalización, nuestro desafío será encontrar los modelos más simples que

producen un ajuste razonablemente bueno sobre los datos con que contamos.

Tendremos un compromiso entre calidad del ajuste en la muestra y complejidad, lo

que da lugar a un riesgo estructural que será el verdadero objetivo por optimizar.

La complejidad de una solución, muchas veces, estará dada por un parámetro de los

modelos predictivos usados o directamente por la familia en la que buscamos la


solución. Por ejemplo, un clasificador de vecinos más cercanos aumenta su

complejidad para valores más chicos de , mientras que un modelo de variables

latentes aumenta su complejidad cuantas más variables latentes extraemos.

Los procedimientos de validación cruzada que estudiaremos en el tema «Evaluación

de modelos predictivos» nos ayudarán a seleccionar un modelo con complejidad

adecuada a fin de retener capacidad de generalización con nuevos datos.

Figura 4. Ilustración del efecto de overfitting en un problema de regresión. Fuente: Izenman (2008).

Modelización Predictiva 23
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

La curva negra muestra la verdadera relación entre predictor y respuesta para estos

datos simulados. El modelo predictivo es un polinomio de grado variable evaluado

en el predictor. Un polinomio lineal produce un ajuste demasiado pobre a los datos.

Un polinomio de orden suficientemente grande logra un ajuste perfecto sobre los

datos de entrenamiento, pero claramente diverge de la verdadera relación estructural

y no generalizará bien a nuevos datos. La mejor solución representa un balance


adecuado entre ajuste a los datos medidos y complejidad limitada.

Figura 5. Error de predicción estimado en el conjunto de entrenamiento y en el conjunto de prueba, para

los datos graficados en la Figura 4. Fuente: Izenman (2008).

El error aparente siempre disminuye al aumentar la complejidad de la

solución (grado del polinomio). Sin embargo, el error estimado en el

conjunto de prueba muestra un valor mínimo para un orden intermedio

entre los evaluados.

Modelización Predictiva 24
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

En el siguiente vídeo, Nociones de sobreajuste, se discuten nociones básicas pero

importantes, como el sobreajuste y la consecuente necesidad de controlar la

complejidad de los modelos predictivos a fin de no perjudicar su capacidad de

generalización a nuevos datos.

Accede al vídeo:
https://unir.cloud.panopto.eu/Panopto/Pages/Embed.aspx?id=69d65981-3f21-
423c-99ab-b06801337fa0

Modelización Predictiva 25
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

1.5. Cuaderno de ejercicios

Ejercicio 1

Muestre que la función minimiza el riesgo cuadrático

Solución

Definimos nuestra función de predicción como , que es una función de los datos de
entrenamiento y los parámetros del modelo. Nuestro objetivo es encontrar la función de
predicción que minimice el riesgo cuadrático esperado, que aquí llamaremos MSE:

Ahora, consideremos la esperanza condicional , donde representa la matriz

de diseño de los predictores. La esperanza condicional es una función de los predictores

y la denotamos por el momento como .

Para demostrar el resultado, primero notamos que podemos descomponer el MSE de la


siguiente manera:

El último término en la descomposición se anula, por lo que el MSE se reduce a:

Ahora, consideramos el segundo término de la ecuación. Como es una cantidad no

negativa, lo mejor que podemos hacer para minimizar este término es tomar
. Luego, la solución óptima es:

Modelización Predictiva 26
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Ejercicio 2

Muestre que la función minimiza el riesgo de

clasificación .

Solución

Notemos primero que la función de costo en este caso vale 0 cuando la clasificación es
correcta y 1 en cualquier otro caso. Podemos proceder de forma similar al caso de

regresión y condicionar primero en . Consideremos un problema con clases

Alcanza con minimizar esta expresión puntualmente para cada valor de . Luego,
buscamos una solución que satisfaga:

Ejercicio 3

¿Por qué la regla de Bayes deducida en el ejercicio 2 no es una solución de valor práctico

para el problema de clasificación?

Solución

La regla de Bayes deducida para el problema de clasificación no se puede usar en la


práctica, porque requiere conocer la distribución de los datos de cada clase, lo cual es

inaccesible. Podemos usar estimadores para esas distribuciones y adoptar estos valores
para obtener un estimador plug in que sí podemos usar en un problema real, pero

perdemos las garantías de optimalidad.

Ejercicio 4

La esperanza condicional es la solución del problema de regresión

cuando consideramos una función de costo cuadrática. Si cambiamos la función de costo,


la solución óptima también cambiará. Un caso típico es considerar la función de costo L

Modelización Predictiva 27
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

, que tiene por solución . ¿Cuál

puede ser la ventaja de usar esta solución en lugar de la regresión convencional?

Solución

La ventaja principal reside en que la solución basada en la mediana será más robusta a la

presencia de datos atípicos.

Ejercicio 5

Suponga que en un problema de clasificación entre dos clases desea aumentar la

sensibilidad del clasificador para clasificar correctamente observaciones de la clase menos


prevalente. ¿Cómo modificaría el clasificador de Bayes para cumplir con este requisito?

Solución

Alcanzaría con modificar el umbral de comparación en la regla de Bayes. Podemos

considerar que decidiremos en favor de la clase si:

Al tomar estaremos favoreciendo clasificar las observaciones en la clase , por

lo que incrementaremos la sensibilidad del clasificador para clasificar correctamente las


observaciones que pertenezcan a esta clase.

Ejercicio 6

Proponga dos formas de aproximar la regla de Bayes para el problema de regresión del
ejercicio 1.

Solución

Dos alternativas comunes son:

▸ Vecinos más cercanos: sea una vecindad del punto , determinada por los

vecinos más cercanos a en el conjunto de entrenamiento. Podemos aproximar la


función de regresión como:

Modelización Predictiva 28
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

▸ Promedio pesado vía núcleos: consideremos la función . Podemos


aproximar la función de regresión como:

Ejercicio 7

Implemente un clasificador de K vecinos más cercanos. Aplíquelo sobre los datos iris
(disponibles en el paquete {dataset} de ), considerando la longitud de sépalos y pétalos
como variables predictoras. Visualice la frontera de decisión obtenida por el clasificador

para diferentes valores de .

Solución

El siguiente código ofrece una versión básica. Por supuesto, no es la única implementación
posible.

# Función para calcular distancia euclídea entre puntos

euclidean_distance <- function(point1, point2) {

sum((point1 - point2)^2)^(1/2)

# Función para KNN

knn_classifier <- function(train_data, train_labels, test_data, k) {

n_train <- nrow(train_data)

n_test <- nrow(test_data)

Modelización Predictiva 29
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

predictions <- numeric(n_test)

for (i in 1:n_test) {

distances <- numeric(n_train)

for (j in 1:n_train) {

distances[j] <- euclidean_distance(test_data[i, ], train_data[j, ])

# Sort distances in ascending order and get the indices

sorted_indices <- order(distances)

# Get the k nearest neighbors' labels

k_nearest_labels <- train_labels[sorted_indices[1:k]]

# Find the most frequent label among the neighbors

predictions[i] <- names(which.max(table(k_nearest_labels)))

return(predictions)

# Aplicamos el clasificador sobre los datos IRIS

Modelización Predictiva 30
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

datos = iris |>

dplyr::select(Sepal.Length, Petal.Length, Species)

n = nrow(datos)

# Generamos un subconjunto de entrenamiento y otro de prueba

set.seed(123)

idx_train = sample(1:n, 100)

train_data <- datos[idx_train,-3]

train_labels <- datos[idx_train, 3]

# Generate some random test data

test_data <- datos[-idx_train,-3]

# Set the value of K

k <- 5

# Clasificamos

predicted_labels <- knn_classifier(train_data, train_labels, test_data, k)

# Evaluamos el error de predicción obtenido

Modelización Predictiva 31
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

(mean(predicted_labels != datos[-idx_train,3]))

## [1] 0.04

Ejercicio 8

En este ejercicio vamos a utilizar los datos Boston, disponibles con el paquete {MASS} de
. Ese dataset recoge la mediana del valor (el precio mediano) de las viviendas ocupados

por sus propietarios (en miles de dólares) en 506 áreas residenciales de Boston. Junto con
el precio se han registrado 13 variables adicionales. Para una descripción de las variables

relacionadas, podemos ejecutar la instrucción ?MASS::Boston.

▸ ¿Cuántas filas hay en este conjunto de datos? ¿Cuántas columnas? ¿Qué representan las

filas y las columnas?

▸ Realiza algunos diagramas de dispersión por pares de los predictores (columnas) en este

conjunto de datos. Describe lo que observas.

▸ ¿Alguno de los predictores está asociado con la tasa de criminalidad per cápita? Si es así,

explica la relación.

▸ ¿Alguno de los suburbios de Boston parece tener altas tasas de criminalidad? ¿Altas tasas

de impuestos? ¿Elevada proporción alumno-profesor? Comenta sobre el rango de cada

predictor.

▸ ¿Cuál es la proporción mediana de alumnos por profesor entre los suburbios de este

conjunto de datos?

▸ ¿Qué suburbio de Boston tiene el valor mediano más bajo de viviendas ocupadas por sus

propietarios? ¿Cuáles son los valores de los otros predictores para ese suburbio, y cómo se

comparan esos valores con el rango de valores observado para esos predictores?

▸ En este conjunto de datos, ¿cuántos de los suburbios promedian más de siete cuartos por

vivienda? ¿Y más de ocho habitaciones por vivienda? Comenta sobre los suburbios que

promedian más de ocho habitaciones por vivienda.

Modelización Predictiva 32
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Solución de la pregunta 1

library(MASS)

?Boston

dim(Boston)

# 506 filas, 14 columnas

Por lo tanto, el dataset consta de 14 variables y valores de vivienda de 506 suburbios de


Boston.

Solución de la pregunta 2

library(GGally)

ggpairs(Boston)

No se puede concluir mucho más que el hecho de que algunas variables parecen estar
correlacionadas. Una matriz o un gráfico de correlaciones sería más útil.

Solución de la pregunta 3

La tasa de criminalidad por ciudad parece tener correlaciones de débiles a moderadas con
otros predictores. Los diagramas de dispersión dan la impresión de que el índice de
accesibilidad a las carreteras radiales o la tasa de impuestos a la propiedad no afectan la

tasa de criminalidad (a pesar de que el coeficiente de correlación sea alto en esos casos).
La distancia desde los centros de empleo de Boston tiene un efecto negativo sobre la tasa

de criminalidad, sin embargo, parece ser débil.

El número de habitaciones por vivienda también está negativamente correlacionado con la

tasa de criminalidad y es débil. Un estatus más bajo de la población se correlaciona


positivamente con la tasa de criminalidad. Probablemente, el estatus más bajo de la
población empuja la tasa de criminalidad hacia arriba. La tasa de criminalidad y la

proporción de unidades ocupadas por sus propietarios construidas antes de 1940 también
están correlacionadas positivamente, parece que la tasa de criminalidad es más alta en

Modelización Predictiva 33
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

suburbios con mayor antigüedad. La tasa de criminalidad parece ser más alta en los
suburbios donde la proporción de zona industrializada es mayor.

Solución de la pregunta 4

▸ Tasa de criminalidad per cápita por ciudad: esta variable tiene muchos valores atípicos en

el extremo superior. La mayoría de las ciudades tienen una tasa de criminalidad muy baja,

(aprox. un 80 % entre 0 y 5). Pero hay algunos suburbios (¡solo dos!) que tienen una tasa

de criminalidad muy alta, por encima de 70. Los valores atípicos de la tasa de criminalidad
oscilan entre 9,2 y 89, mientras que los datos de criminalidad para todos los suburbios van

de 0 a más de 89 (0,00632 - 88,97620).

▸ Tasa de impuesto a la propiedad en unidades de $10 000: no hay valores atípicos en las

tasas de impuesto a la propiedad; sin embargo, un valor medio cercano a 300 indica que
los datos de impuestos también están sesgados, ya que los datos varían de 200 a 700.

▸ Proporción alumno-profesor por suburbio: esta variable tiene valores atípicos en el extremo

inferior del diagrama de caja. Los datos oscilan entre 12,6 y 22. El valor medio de la

proporción de alumnos por profesor es de 18,46.

Solución de la pregunta 5

median(Boston$ptratio)

# 19.05

Solución de la pregunta 6

t(subset(Boston, medv == min(Boston$medv)))

Los suburbios 399 y 406 tienen el valor mediano de las viviendas ocupadas por sus dueños
más bajo. Si comparamos los valores de los otros predictores para estos suburbios y los

rangos de valores observados en el dataset:

# 399 406

# crim 38.3518 67.9208 arriba del 3er cuartil

Modelización Predictiva 34
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

# zn 0.0000 0.0000 al mínimo

# indus 18.1000 18.1000 al 3er cuartil

# chas 0.0000 0.0000 no limitan con el río

# nox 0.6930 0.6930 arriba del 3er cuartil

# rm 5.4530 5.6830 abajo del 1er cuartil

# age 100.0000 100.0000 al máximo

# dis 1.4896 1.4254 debajo del 1er cuartil

# rad 24.0000 24.0000 al máximo

# tax 666.0000 666.0000 al 3er cuartil

# ptratio 20.2000 20.2000 al 3er cuartil

# black 396.9000 384.9700 al máximo; abajo del 1er cuartil

# lstat 30.5900 22.9800 abajo del 3er cuartil

# medv 5.0000 5.0000 al mínimo

Vemos que estos suburbios no son los más deseables para vivir.

Solución de la pregunta 7

dim(subset(Boston, rm > 7))

# 64

Hay 64 suburbios con más de 7 cuartos por vivienda.

dim(subset(Boston, rm > 8))

# 13

Modelización Predictiva 35
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Hay 13 suburbios con más de 8 cuartos por vivienda.

summary(subset(Boston, rm > 8))

summary(Boston)

Los 13 suburbios que tienen un promedio de más de 8 habitaciones por vivienda tienen una

tasa de criminalidad más baja, la tasa de impuestos a la propiedad es baja con la excepción
de un suburbio, la proporción de zona industrializada es muy baja, excepto en dos

suburbios, lo que indican áreas más residenciales. Los suburbios parecen estar lejos de las
autopistas. La mayoría de las casas se construyeron antes de 1940, excepto unas pocas.

Ejercicio 9

En este ejercicio realizaremos un estudio con datos simulados para visualizar la regla de
clasificación de Bayes.

▸ Simula datos de cada una de las dos distribuciones Gaussianas con medias mu1 , mu2 e

igual varianza sigma2 .

▸ Simula m datos independientes de cada una las distribuciones anteriores. Para cada uno

de estos datos, utilice dnorm() para computar el valor de la función de densidad de


probabilidad (fdp) de cada una de las clases.

▸ Colorea cada una de las 2m observaciones de prueba en función de la clase para la que se

obtuvo mayor fdp.

▸ Comenta el resultado obtenido.

Solución:

# Definimos los parámetros que caracterizan la distribución de cada clase

mu1 = 3

mu2 = 0

sigma = 2

Modelización Predictiva 36
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

n = 50

# Generamos los datos de cada clase

X1 = rnorm(n, mean = mu1, sd = sigma)

X2 = rnorm(n, mean = mu2, sd = sigma)

# Armamos un data frame con las etiquetas de clase

df = data.frame(X = c(X1,X2),

Y = as.factor(rep(c("A","B"), each = n)))

# Agregamos la evaluacion de dnorm

df = df |> dplyr::mutate(probA = dnorm(X, mean = mu1, sd = sigma),

probB = dnorm(X, mean = mu2, sd = sigma),

Grupo_mas_probable = ifelse(probA > probB, "A", "B"))

# Agregamos una columna a nivel 0 solo para graficar

df = df |> dplyr::mutate(yval = 0.0)

gg = ggpubr::ggscatter(df,

x = "X",

y = "yval",

ylab = " ",

palette = c(A = "red3", B = "#0098cd"),

color = "Grupo_mas_probable")

## Agregamos las funciones de densidad

gg = gg +

Modelización Predictiva 37
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

ggplot2::stat_function(fun = dnorm,

args = list(mean = mu1, sd = sigma),

color = "red3") +

ggplot2::stat_function(fun = dnorm,

args = list(mean = mu2, sd = sigma),

color = "#0098cd")

gg

Figura 6. Gráfico correspondiente al ejercicio 9. Fuente: elaboración propia.

Modelización Predictiva 38
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

En el siguiente vídeo podrás acceder a la resolución del ejercicio 9.

Accede al vídeo:
https://unir.cloud.panopto.eu/Panopto/Pages/Embed.aspx?id=3b17ef44-2a87-4b58-

ad44-b06801337f7b

Ejercicio 10

Estudia computacionalmente que valor de de un clasificador de vecinos más


cercanos para los datos del ejercicio 9 produce una solución visualmente similar a la

obtenida en el ejercicio 9.

Solución

El siguiente fragmento de código permite evaluar el clasificador KNN implementado antes


(ver el ejercicio 7) sobre los datos del ejercicio 9, para un valor particular de .

myK = 9

predicted <- knn_classifier(train_data = df$X |> as.matrix(),

train_labels = df$Y,

Modelización Predictiva 39
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

test_data = df$X |> as.matrix(),

k = myK)

df2 = data.frame(X = df$X, Y = df$Y, predicted = predicted)

df2 = df2 |> dplyr::mutate(yval = 0.0)

gg = ggpubr::ggscatter(df2,

x = "X",

y = "yval",

ylab = " ",

palette = c(A = "red3", B = "#0098cd"),

color = "predicted")

# Agregamos las funciones de densidad

gg = gg +

ggplot2::stat_function(fun = dnorm,

args = list(mean = mu1, sd = sigma),

color = "red3") +

ggplot2::stat_function(fun = dnorm,

args = list(mean = mu2, sd = sigma),

color = "#0098cd")

Modelización Predictiva 40
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Una figura similar a la del ejercicio 9 se obtiene para .

Modelización Predictiva 41
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

1.6. Referencias bibliográficas

Calvo, D. (2019, mayo 23). Aprendizaje supervisado [Imagen]. Diego Calvo.


https://www.diegocalvo.es/aprendizaje-supervisado/

Izenman A. J. (2008). Modern multivariate statistical techniques: regression

classification and manifold learning. Springer.

Meier, A. (2020, abril 4). Do we still need Traditional Pattern Recognition Machine

Learning and Signal Processing in the Age of Deep Learning? [Imagen]. Pattern

Recognition Lab. https://lme.tf.fau.de/pattern-recognition-blog/do-we-still-need-

traditional-pattern-recognition-machine-learning-and-signal-processing-in-the-age-of-
deep-learning/

Rodriguez, J. (2020, mayo 4). Microsoft Research unveils three efforts to advance

deep generative models [Imagen]. KD nuggets.

https://www.kdnuggets.com/2020/05/microsoft-research-three-efforts-advance-deep-

generative-models.html#:~:text=Generative%20Models%20%2D%20KDnuggets-
,Microsoft%20Research%20Unveils%20Three%20Efforts%20to%20Advance%20Dee

p%20Generative%20Models,generative%20models%20at%20large%20scale.&text=
Generative%20models%20have%20been%20an,for%20the%20last%20few%20deca
des

Modelización Predictiva 42
Tema 1. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
A fondo

Introducción al aprendizaje estadístico

James, G., Witten, D., Hastie, T., Tibshirani, R. (2021). An Introduction to Statistical

Learning: with Applications in R. (2. ° ed.). Springer.

El libro de James se ha impuesto como una referencia estándar para el aprendizaje

estadístico con fines predictivos. Ofrece una introducción amena sin requerir un

esfuerzo matemático. Mucho del material al final de cada capítulo es accesible en la

web de forma gratuita, incluyendo ficheros de Rmarkdown. También lo acompaña un

paquete de con funciones y datos a los que referiremos repetidamente a lo largo

del curso. Puedes acceder a todos los recursos desde el enlace de arriba.

Modelización Predictiva 43
Tema 1. A fondo
© Universidad Internacional de La Rioja (UNIR)
A fondo

De los modelos lineales al aprendizaje automático

Matloff, N. (2017). Statistical Regression and Classification: from Linear Models to

Machine Learning. CRC Press.

https://web.cs.ucdavis.edu/~matloff/RegClassBook/TOCPrefaceChap1Full.pdf

El libro de Matloff es una introducción al modelado predictivo amena y bien ilustrada

con ejemplos en . Son especialmente interesantes las distinciones entre el objetivo

de describir un fenómeno (inferencia) e intentar predecirlo. Te recomendamos dar un

vistazo al primer capítulo, para ver si el estilo de texto es de tu agrado.

Modelización Predictiva 44
Tema 1. A fondo
© Universidad Internacional de La Rioja (UNIR)
A fondo

Un poco de teoría

Devroye, L., Györfy, L y Gabosi, L. (1998). A Probabilistic Theory of Pattern

Recognition. Springer. https://www.szit.bme.hu/~gyorfi/pbook.pdf

Una excelente referencia para elaboraciones teóricas sobre modelado predictivo y

reconocimiento de patrones es el libro A Probabilistic Theory of Pattern Recognition.

No obstante, su comprensión a fondo requiere de un entrenamiento fuerte en bases

matemáticas.

Modelización Predictiva 45
Tema 1. A fondo
© Universidad Internacional de La Rioja (UNIR)
Test

1. ¿Cuál de las siguientes afirmaciones sobre problemas predictivos de tipo

clasificación y de tipo regresión es cierta?

A. Tanto los problemas predictivos de clasificación como los de regresión

están asociados con la predicción de variables categóricas.

B. Los problemas predictivos de clasificación están asociados con la

predicción de una etiqueta de clase, mientras que los problemas predictivos

de regresión están asociados con la predicción de una variable numérica.

C. Tanto los problemas predictivos de clasificación como los de regresión

están asociados con la predicción de variables numéricas.

D. Si las variables de entrada consisten en datos numéricos, se debe usar un

modelo predictivo de clasificación. Si las variables de entrada consisten en

valores discretos (por ejemplo, etiquetas), se debe usar un modelo predictivo

de regresión.

2. Indique cuál de las siguientes operaciones aumenta la flexibilidad de un

clasificador basado en predictores continuos para acomodar fronteras de decisión

más complejas entre las clases:

A. Considerar polinomios de menor orden de los predictores.

B. Seleccionar solo los dos predictores más relevantes.

C. Reducir la cantidad de vecinos considerados en un clasificador de vecinos

más cercanos.

D. Reducir la cantidad de vecinos considerados en un clasificador de vecinos

más cercanos.

Modelización Predictiva 46
Tema 1. Test
© Universidad Internacional de La Rioja (UNIR)
Test

3. Considere la siguiente aproximación a la función de regresión de un problema

con respuesta y predictores continuos:

Con
Unexpected text node: '{ω} rsub {i} =k left ({{x} rsub {i} -x} over {σ} right )' para una función
simétrica y positiva
Unexpected text node: 'k(x)' (por ejemplo,
Unexpected text node: 'k(x)' es la fdp correspondiente a la distribución normal). Note que
esto representa un promedio local de los valores de
Unexpected text node: 'Y' en un entorno de
Unexpected text node: 'x' . ¿Cuál es el efecto de reducir
Unexpected text node: 'σ' ?

A. Aumenta la flexibilidad de la solución

B. Reduce el riesgo de sobreajuste a la muestra de entrenamiento.

C. Produce un modelo lineal.

D. Ninguna de las anteriores es correcta.

4. Supongamos un problema de clasificación entre dos clases codificadas como

Unexpected text node: '\{-1,+1\}' . En qué caso puede convenir adoptar una regla de

clasificación
Unexpected text node: 'C left (x right ) =signo left (p left (Y=+1|X=x right ) -η right )'para

Unexpected text node: 'η≠0.5' ?

A. Cuando la cantidad de datos disponible de cada clase es muy distinta.

B. Cuando asignamos costos distintos al error de clasificación según la clase

verdadera de la observación clasificada.

C. Cuando queremos ayudar a prevenir el sobreajuste a la muestra de

entrenamiento.

D. Todas las opciones anteriores son correctas.

Modelización Predictiva 47
Tema 1. Test
© Universidad Internacional de La Rioja (UNIR)
Test

5. El error de predicción estimado usando los mismos datos que se usaron para

ajustar el modelo predictivo resulta:

A. Mayor que el error verdadero.

B. Menor que el error verdadero.

C. Insesgado.

D. Ninguna de las anteriores

6. Una forma conveniente de visualizar la relación entre una variable cuantitativa y

una cualitativa es mediante el uso de:

A. Gráficos de dispersión.

B. Gráficos de barras.

C. Gráficos de torta.

D. Boxplots.

7. ¿Cuáles de las siguientes operaciones no garantizan, de modo general, obtener

modelos predictivos con mejor desempeño?

A. Aumentar la cantidad de datos de entrenamiento.

B. Aumentar la cantidad de predictores.

C. Evaluar el desempeño de los modelos en un conjunto de datos

independiente.

D. Todas las opciones anteriores son correctas.

Modelización Predictiva 48
Tema 1. Test
© Universidad Internacional de La Rioja (UNIR)
Test

8. Suponga que dividimos los datos disponibles en particiones, asignando a cada

una, aproximadamente, la misma cantidad de casos. Suponga, también, que

procedemos de la siguiente manera: -Escogemos la j-ésima partición como conjunto

de prueba y tomamos las particiones restantes como conjunto de entrenamiento. -

Entrenamos el modelo predictivo y evaluamos el error de predicción en la partición

de prueba. -Repetimos el proceso veces, tomando cada vez una partición diferente

como partición de prueba. ¿Por qué los errores de predicción estimados en cada
partición no son independientes?

A. Porque el modelo predictivo es siempre el mismo.

B. Porque el tamaño muestral es aproximadamente el mismo en cada caso.

C. Porque los conjuntos de prueba son distintos.

D. Porque los

modelos ajustados comparten gran parte de los datos de entrenamiento.

9. Supongamos que después de entrenar un modelo predictivo para clasificar entre

H clases distintas nos damos cuenta de que en realidad es conveniente dividir una

de las clases en dos grupos distintos, de forma que el nuevo problema de

clasificación tendrá H+1 clases. ¿Qué enfoque de aprendizaje permite actualizar la

solución de forma más económica?

A. Aprendizaje no supervisado.

B. Aprendizaje generativo.

C. Aprendizaje semisupervisado.

D. Aprendizaje discriminante.

10. La adopción de estimadores plug in para la regla de clasificación de Bayes es

un ejemplo típico de:

Modelización Predictiva 49
Tema 1. Test
© Universidad Internacional de La Rioja (UNIR)

También podría gustarte