0% encontró este documento útil (0 votos)
15 vistas10 páginas

APUNTE - Conceptos Básicos

El documento aborda conceptos básicos de aprendizaje automático dentro del contexto de la inteligencia artificial, destacando su evolución desde la IA simbólica hasta el aprendizaje automático y profundo. Se explican los tipos de aprendizaje, incluyendo supervisado, no supervisado y por refuerzo, así como la importancia de la representación de datos y la elección adecuada de algoritmos para resolver problemas específicos. Además, se enfatiza la necesidad de comprender los datos y su relación con las tareas a resolver para lograr resultados efectivos en modelos de aprendizaje automático.

Cargado por

gervamatteoda007
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
15 vistas10 páginas

APUNTE - Conceptos Básicos

El documento aborda conceptos básicos de aprendizaje automático dentro del contexto de la inteligencia artificial, destacando su evolución desde la IA simbólica hasta el aprendizaje automático y profundo. Se explican los tipos de aprendizaje, incluyendo supervisado, no supervisado y por refuerzo, así como la importancia de la representación de datos y la elección adecuada de algoritmos para resolver problemas específicos. Además, se enfatiza la necesidad de comprender los datos y su relación con las tareas a resolver para lograr resultados efectivos en modelos de aprendizaje automático.

Cargado por

gervamatteoda007
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Universidad Tecnológica Nacional - Facultad Regional Santa Fe

Carrera Ingeniería en Sistemas de información


Cátedra: Ciencia de Datos
Año: 2025 – 1er. Cuatrimestre

TEMA 8-A: APRENDIZAJE AUTOMÁTICO – CONCEPTOS BÁSICOS

Junto con su enorme crecimiento, el campo de la inteligencia artificial se ha convertido también


en el más confuso cuando se intenta comprender su alcance. Incluso las mismas definiciones de
inteligencia artificial y aprendizaje automático son difusas o vagas. Esto sucede, en gran parte, porque
las raíces de estos términos se originan en múltiples disciplinas y no solo en las ciencias de la
computación. Estas disciplinas incluyen, como ya vimos, las matemáticas, las estadísticas, junto con
ciencias de la computación para nombrar solo algunas. Junto con la gran variedad de orígenes, este
campo tiene aplicaciones en un número aún mayor de industrias que van desde aplicaciones de alta
tecnología como procesamiento de imágenes y el procesamiento del lenguaje natural hasta las compras
en línea o marketing.
Comencemos con el concepto más abarcativo o amplio que es la Inteligencia Artificial (IA):
La inteligencia artificial nació en los años 50 de la mano de las ciencias de la computación. Los
pioneros en este tema comenzaron a preguntarse acerca de poder lograr que las computadoras
“pensaran”. Por lo tanto, una definición concisa acerca del campo de la IA sería: el esfuerzo de
automatizar tareas intelectuales normalmente realizadas por humanos. Como tal, IA es un campo
general que contiene a el Aprendizaje Automático (AA) y a el Aprendizaje Profundo (AP), pero que
también incluye otro tipo de sub-campos que no necesariamente involucran “Aprendizaje” como tal.
Los primeros programas que jugaban ajedrez, por ejemplo, sólo involucraban reglas rígidas
creadas por programadores, por lo que estos no califican como aprendizaje automático. Por mucho
tiempo, muchos expertos creyeron que la IA con nivel humano podía alcanzarse al hacer que los
programadores crearan a mano un conjunto de reglas lo suficientemente grandes para manipular el
conocimiento y así generar máquinas inteligentes. Este enfoque es conocido como IA simbólica, y fue
el paradigma que dominó el campo de la IA desde 1950 hasta finales de 1980 y alcanzó el pico de su
popularidad durante el boom de los Sistemas Expertos en 1980.
Aunque la IA simbólica probó ser adecuada para resolver problemas lógicos y bien definidos,
como el jugar al ajedrez, se volvió intratable el encontrar reglas explícitas para resolver problemas
mucho más complejos, como la clasificación de imágenes, el reconocimiento de voz y la traducción
entre lenguajes naturales. Un nuevo enfoque surgió entonces para tomar el lugar de la IA simbólica:
El Aprendizaje Automático.
El aprendizaje automático es un campo de la inteligencia artificial que estudia algoritmos y
técnicas para automatizar soluciones a problemas complejos que son difíciles de programar con
métodos de programación convencionales. El método de programación convencional consta de dos
pasos distintos. Dada una especificación del programa (es decir, qué se supone que debe hacer el
programa y no cómo), el primer paso es crear un diseño detallado para el programa, es decir, un
conjunto fijo de pasos o reglas para resolver el problema. El segundo paso es implementar el diseño
detallado como un programa en un lenguaje informático.
Este enfoque puede ser un desafío para muchos problemas del mundo real para los que crear
un diseño detallado puede ser bastante difícil a pesar de una especificación clara. Un ejemplo de ello es
la detección de caracteres escritos a mano en una imagen. Crear un conjunto de reglas de este tipo
puede resultar bastante complicado dada la gran variedad de caracteres escritos a mano.
Los algoritmos de AA pueden resolver muchos de estos problemas difíciles de una manera
genérica. Estos algoritmos no requieren un diseño detallado explícito. En cambio, esencialmente
aprenden el diseño detallado a partir de un conjunto de datos etiquetados (es decir, un conjunto de
ejemplos que ilustran el comportamiento del programa). En otras palabras, aprenden de los datos.
Cuanto mayor sea el conjunto de datos, más precisos se vuelven. El objetivo de un algoritmo de AA es
aprender un modelo o un conjunto de reglas de un conjunto de datos etiquetado para que pueda

1
Universidad Tecnológica Nacional - Facultad Regional Santa Fe
Carrera Ingeniería en Sistemas de información
Cátedra: Ciencia de Datos
Año: 2025 – 1er. Cuatrimestre

predecir correctamente las etiquetas de los puntos de datos (por ejemplo, imágenes) que no están en
el conjunto de datos de entrenamiento.
El Aprendizaje Profundo es un sub-campo específico del Aprendizaje Automático. Un nuevo
intento en aprender representaciones idóneas de los datos en el que se pone un énfasis en aprender
dichas representaciones de manera sucesiva mediante lo que se denominan capas. El término
“Profundo” en Aprendizaje Profundo no hace ninguna referencia a un tipo de entendimiento profundo
alcanzado mediante la utilización de este tipo de enfoque, en realidad, el término representa la idea de
la representación sucesiva y jerarquizada de los datos por medio de capas. La cantidad de capas que
contribuyen a un modelo es denominada la “profundidad del modelo”. A diferencia del aprendizaje
automático puede trabajar directamente con datos sin procesar (como imágenes, texto y audio) y
extraer automáticamente las características relevantes a través de múltiples capas de la red.

EVOLUCIÓN DE LA “INTELIGENCIA”
En los primeros días de las aplicaciones "inteligentes", muchos sistemas usaban reglas de
decisiones codificadas a mano para procesar datos o ajustarse a la entrada del usuario. Piensen en un
filtro de spam cuyo trabajo es mover los mensajes de correo electrónico entrantes no apropiados a una
carpeta de spam. Pueden crear una lista negra de palabras que daría como resultado que un correo
electrónico se marque como correo no deseado. Este sería un ejemplo del uso de un sistema de reglas
diseñado por expertos para crear una aplicación "inteligente". Como ya vimos, la elaboración manual
de reglas de decisión es factible para algunas aplicaciones, particularmente aquellas en las que los
humanos tienen una buena comprensión del proceso a modelar. Sin embargo, el uso de reglas
codificadas a mano para tomar decisiones tiene dos desventajas principales:
• La lógica requerida para tomar una decisión es específica para un solo dominio y tarea. Cambiar
la tarea, aunque sea ligeramente, puede requerir una reescritura de todo el sistema (ejemplo,
la traducción entre diferentes idiomas. Si las reglas eran originalmente para traducir español-
inglés y la nueva tarea es traducir español-francés las reglas deben reescribirse o como mínimo
revisarse)
• Por otro lado, el diseño de reglas requiere una comprensión profunda de cómo un experto
humano debe tomar una decisión.
Un ejemplo típico de dónde falla este enfoque codificado a mano es en la detección de rostros
en las imágenes. Hoy en día, todos los teléfonos inteligentes pueden detectar una cara en una imagen.
Sin embargo, la detección de rostros era un problema sin resolver hasta hace relativamente poco
tiempo. El problema principal es que la forma en que los píxeles (que forman una imagen en una
computadora) son "percibidos" por la computadora es muy diferente de cómo los humanos perciben
una cara. Esta diferencia en la representación hace que sea básicamente imposible que un ser humano
presente un buen conjunto de reglas para describir lo que constituye un rostro en una imagen digital.
Sin embargo, al usar el aprendizaje automático, simplemente presentamos al modelo una gran
colección de imágenes de rostros y es suficiente para que el algoritmo determine qué características se
necesitan para identificar un rostro.

TIPOS DE APRENDIZAJE

Existen diferentes tipos de aprendizajes y varias clasificaciones. Una posible clasificación (y una
de las más usadas) es en función de la “forma en la que aprenden” los algoritmos y en este sentido
tenemos aprendizaje supervisado, no supervisado y por refuerzo.

2
Universidad Tecnológica Nacional - Facultad Regional Santa Fe
Carrera Ingeniería en Sistemas de información
Cátedra: Ciencia de Datos
Año: 2025 – 1er. Cuatrimestre

Antes de entrar en los modelos de aprendizaje reales, es bueno familiarizarse con el concepto
de datos etiquetados y no etiquetados. Cuando se sepa la respuesta correcta a una pregunta
relacionada con los datos, entonces serán datos etiquetados. Por ejemplo, tenemos una imagen y la
pregunta es qué animal hay en la imagen. Si se sabe que la imagen representa a un perro, entonces es
una imagen etiquetada.
Cuando no se sabe la respuesta correcta a la pregunta, es un dato sin etiquetar. Por ejemplo,
tenemos muchas imágenes y no sabe la respuesta a qué imágenes pertenecen a qué categoría, entonces
esos son datos sin etiquetar (imágenes).
En el aprendizaje supervisado, el algoritmo recibe un conjunto de datos, junto con las
respuestas correctas a una pregunta correspondiente a dichos datos. En base a ellos, el algoritmo tiene
que aprender las características clave dentro de cada punto de datos en el conjunto de datos para
determinar la respuesta. Por lo tanto, la próxima vez que se proporcione un nuevo punto de datos al
algoritmo, en función de las características clave, el algoritmo debería poder predecir el resultado o
respuesta correcta. Pensemos en cómo aprende un niño a identificar objetos. Durante un período de
tiempo, desde su nacimiento, a un niño se le muestran varios objetos y también se le dice el nombre
correcto del objeto. El niño puede ver a su perro en muchas posiciones diferentes, y cuando el niño sale,
puede ver muchos perros diferentes, en varias posiciones. Poco a poco, el niño comienza a reconocer a
los perros y es capaz de diferenciarlos de otros objetos inertes y de otros animales. Durante este
proceso, de vez en cuando, el niño puede hacer algunas observaciones incorrectas, por ejemplo,
identificar la imagen de un lobo también como un perro; y los padres corregirán el error y le enseñarán
que es un lobo y no un perro. El niño ajusta internamente su comprensión sobre lo que es un perro y
gradualmente se vuelve cada vez más preciso. Aquí, al niño se le han mostrado muchas fotos y perros
reales, y escuchó a los adultos decir que todos son perros. Esto, es un ejemplo de aprendizaje
supervisado.
En el aprendizaje no supervisado, al algoritmo se le proporciona un conjunto de datos y no se
le proporciona ninguna respuesta correcta. Lo que realizan en estos casos los algoritmos es identificar
tendencias de similitud. Es decir, identificarán agrupaciones o grupos de elementos similares o similitud
de un elemento nuevo con un grupo existente. Por ejemplo, el algoritmo recibe datos sobre los patrones
de compra de todos los clientes de una tienda de comestibles y es capaz de identificar patrones de
compra. El algoritmo aún no sabe qué son estos objetos en concreto. Sin embargo, podrá identificar la
correlación.
Finalmente, tenemos el aprendizaje por refuerzo que es apropiado para situaciones que
involucran, por un lado, situaciones cambiantes: por ejemplo, la conducción de un vehículo o un juego
de ajedrez. Acá, la situación externa (o el juego del oponente) cambia continuamente y la respuesta del
algoritmo debe considerar el nuevo entorno en cada situación.
Por otro lado, este tipo de aprendizaje es ideal cuando tenemos un espacio de estado muy
grande. De nuevo, los juegos de conducción y multijugador son ejemplos. Los juegos como el ajedrez
tienen configuraciones de tablero posibles casi infinitas. No es posible jugar bien esos juegos usando
movimientos de búsqueda de fuerza bruta, a partir de una enumeración de todos los caminos posibles
a través del progreso del juego. Hay demasiados caminos posibles para siquiera enumerarlos.
Por lo tanto, el aprendizaje tiene que dar como resultado que el algoritmo detecte el entorno
externo y elija una acción basada en su propio estado y el entorno externo, con el objetivo de maximizar
un objetivo específico predefinido (por ejemplo, permanecer dentro del carril para la conducción de
vehículos).
Dada la enorme cantidad de espacio de estado, cuanto más tiempo se le permite al algoritmo
observar y aprender, mejor es capaz de aprender el impacto a largo plazo de su decisión y, por lo tanto,
las opciones ejercidas comienzan a considerar un beneficio a largo plazo.

3
Universidad Tecnológica Nacional - Facultad Regional Santa Fe
Carrera Ingeniería en Sistemas de información
Cátedra: Ciencia de Datos
Año: 2025 – 1er. Cuatrimestre

Veamos ahora cuales son las tareas más comunes en cada uno de los tipos de aprendizaje. En
el aprendizaje supervisado encontramos dos tareas principales: la clasificación (que se refiere a la
capacidad de asignar algo en un conjunto distinto de clases o categorías. Por ejemplo, clasificar el tumor
de una imagen como benigno o maligno) y la regresión (que se refiere a la capacidad de predecir valores
de una variable continua. Por ejemplo, podemos predecir el valor de venta de una propiedad basados
en algunas de las características del inmueble)
Con respecto a las aplicaciones más comunes del aprendizaje no supervisado podemos
mencionar el clustering o agrupamiento para segmentar un conjunto de datos, la asociación que se usa
para buscar elementos o sucesos que a menudo se producen conjuntamente, la detección de anomalías
que se aplica para descubrir casos anormales como por ejemplo el fraude de tarjetas de crédito, la
minería de secuencia para predecir próximos eventos, la reducción de dimensionalidad y los sistemas
de recomendación.
Finalmente, las tareas en el aprendizaje por refuerzo son muy variadas, pero podríamos
pensarlas como todas aquellas en las que necesitamos que un agente aprenda a realizar una tarea
mediante un esquema de ensayo y error.

REPRESENTACIÓN DE LOS DATOS

Tanto para las tareas de aprendizaje supervisadas como para las no supervisadas, es importante
tener una representación de los datos de entrada que una computadora pueda entender. A menudo,
es útil pensar en sus datos como una tabla. Cada punto de datos sobre el que desea razonar (cada correo
electrónico, cada cliente, cada transacción) es una fila, y cada propiedad que describe ese punto de
datos (por ejemplo, la edad de un cliente o el monto o la ubicación de una transacción) es una columna.
Se puede describir a los usuarios por edad, género, cuándo crearon una cuenta y con qué frecuencia
compraron en una tienda en línea. Se puede describir la imagen de un tumor por los valores de la escala
de grises de cada píxel, o tal vez por el tamaño, la forma y el color del tumor.
Cada entidad o fila aquí se conoce como una muestra (o punto de datos) en el aprendizaje
automático, mientras que las columnas, las propiedades que describen estas entidades, se denominan
características.
Algo que no debemos perder de vista es que ningún algoritmo de aprendizaje automático va a
poder hacer una predicción sobre datos para los que no tiene información. Por ejemplo, si la única
característica que tenemos para un paciente es su apellido, ningún algoritmo podrá predecir su género.
Esta información simplemente no está contenida en los datos. Si agregamos otra característica que
contenga el nombre del paciente, por ejemplo, tal vez tengamos mejor suerte, ya que a menudo es
posible saber el género por el nombre de una persona.
Posiblemente, la parte más importante del proceso de aprendizaje automático es comprender
los datos con los que estamos trabajando y cómo se relacionan con la tarea que queremos resolver.
Nunca da buenos resultados elegir aleatoriamente un algoritmo y arrojarle los datos sin ningún tipo de
análisis. Es necesario comprender lo que sucede en el conjunto de datos antes de comenzar a construir
un modelo. Cada algoritmo es diferente en términos de qué tipo de datos y para qué configuración de
problemas funciona mejor.
La elección del algoritmo óptimo para cada problema depende de sus características, como
velocidad, precisión del pronóstico, tiempo de entrenamiento, cantidad de datos necesarios para
entrenar, qué tan fácil es de implementar, qué tan difícil es explicárselo a otros (porque una gran tarea
del científico de datos es discutir y explicar patrones y algoritmos de aprendizaje automático) y tal vez
lo más importante, si el algoritmo resuelve su problema.

4
Universidad Tecnológica Nacional - Facultad Regional Santa Fe
Carrera Ingeniería en Sistemas de información
Cátedra: Ciencia de Datos
Año: 2025 – 1er. Cuatrimestre

La elección del algoritmo de aprendizaje automático adecuado, muchas veces, se basa en


prueba y error. Aunque podemos utilizar el enfoque de fuerza bruta y probar todos los algoritmos
posibles para encontrar el algoritmo correcto, si entendemos las diferencias entre los algoritmos nos
podemos ahorrar mucho tiempo.
Por ejemplo, si tenemos datos simples o categorías muy bien definidas podemos usar
algoritmos que pertenecen a la corriente clásica del aprendizaje automático. Los primeros métodos
vinieron de la mano de las estadísticas puras en los años 50. Resolvían tareas matemáticas formales
como la búsqueda de patrones en los números, evaluación de la proximidad de los puntos de datos y
cálculo de direcciones de vectores. La premisa que hay que tener en mente es: a problemas pequeños
algoritmos pequeños. Por otro lado, si además de tener pocos datos debemos interactuar con un
entorno la elección más apropiada sería el aprendizaje por refuerzo que tiene en cuenta la interacción
con un entorno externo. O si lo importante es la exactitud de los resultados o la calidad de los resultados
podemos pensar en un método ensamblado (es decir, en la unión de varios métodos de aprendizaje
automático básicos). Finalmente, si tenemos datos complejos o categorías mal definidas tal vez la mejor
elección serían las redes neuronales. Lo que debemos tener claro es que ningún algoritmo es útil para
todos los problemas

SUBAJUSTE - SOBREAJUSTE

En el aprendizaje supervisado, queremos construir un modelo sobre los datos de entrenamiento


y luego poder hacer predicciones precisas sobre datos nuevos que tengan las mismas características
que el conjunto de entrenamiento que usamos. Si un modelo puede hacer predicciones precisas sobre
datos no vistos, decimos que puede generalizar desde el conjunto de entrenamiento al conjunto de
prueba. Queremos construir un modelo que sea capaz de generalizar con la mayor precisión posible.
Ya hablamos de la maldición de la dimensionalidad y de su relación con la complejidad del
modelo. Vamos a retomar ese tema para enfatizar dos problemas que debemos evitar al momento de
entrenar un algoritmo para que aprenda a realizar una tarea; el subajuste y el sobreajuste.
El pobre rendimiento del modelo puede deberse a que el modelo es demasiado simple para
describir los datos (y en este caso estamos ante el subajuste o underfitting), o, por el contrario, que el
modelo sea demasiado complejo para representar los datos (y estamos ante la presencia de un
problema de sobreajuste u overfitting). Como mencionamos antes, el sobreajuste puede ser también
causado por una alta dimensionalidad (o, lo que es lo mismo, una gran cantidad de características).
Si observamos el gráfico en la transparencia, en el lado izquierdo podemos ver que la línea no
cubre todos los puntos que se muestran en el gráfico, ese modelo tiende a causar un ajuste insuficiente
de los datos, a esto también se le denomina alta parcialidad o sesgo.
Por su parte, el gráfico del lado derecho en la transparencia, muestra que la línea predicha cubre
todos los puntos del gráfico. En tal condición, podemos pensar que es un buen gráfico ya que cubre
todos los puntos, pero eso no es cierto en realidad, la línea en el gráfico cubre también todos los puntos
que son ruido y valores atípicos. Este modelo probablemente producirá resultados deficientes debido a
su complejidad, a esto se lo denomina sobreajuste, overfitting o también alta varianza.
Ahora, veamos el gráfico del medio de la transparencia, en este se muestra una línea bastante
buena, cubre la mayoría de los puntos en el gráfico y también mantiene el equilibrio entre el sesgo y la
varianza.
¿Cómo resolvemos el problema del sub o sobre ajuste?
En el caso del subajuste significa que la aparición de este problema implica que nuestro modelo
o el algoritmo no se ajusta a los datos lo suficientemente bien. Suele suceder cuando tenemos muy
5
Universidad Tecnológica Nacional - Facultad Regional Santa Fe
Carrera Ingeniería en Sistemas de información
Cátedra: Ciencia de Datos
Año: 2025 – 1er. Cuatrimestre

pocos datos para construir un modelo preciso y también cuando intentamos construir un modelo lineal
con datos no lineales.
En tales casos, las reglas del modelo de aprendizaje automático son demasiado fáciles y flexibles
para aplicarse a datos tan mínimos y, por lo tanto, es probable que el modelo haga muchas predicciones
erróneas. La falta de adaptación se puede evitar utilizando más datos y también reduciendo las
características por selección de características.
El sobreajuste se refiere a un modelo que modela los datos de entrenamiento demasiado bien.
Esto ocurre cuando un modelo aprende el detalle, incluyendo el ruido en los datos de entrenamiento
teniendo esto un impacto negativo en el rendimiento del modelo en datos nuevos. Esto significa que el
ruido o las fluctuaciones aleatorias en los datos de entrenamiento son recogidos y aprendidos por el
modelo. El problema es que estos conceptos no se aplican a los datos nuevos y afectan negativamente
a la capacidad de los modelos para generalizar.
El sobreajuste es más probable con modelos no paramétricos y no lineales porque estos tipos
de algoritmos de aprendizaje automático tienen más libertad para construir el modelo basado en el
conjunto de datos, por lo tanto, pueden construir modelos poco realistas.
Cuanto más complejo permitamos que sea nuestro modelo, mejor podremos predecir sobre los
datos de entrenamiento. Sin embargo, si nuestro modelo se vuelve demasiado complejo, comenzamos
a centrarnos demasiado en cada punto de datos individual en nuestro conjunto de entrenamiento y el
modelo no se generalizará bien a nuevos datos. Hay un punto de equilibrio en el medio que va a producir
la mejor generalización.
Esto nos lleva a introducir un concepto llamado regularización. Este concepto nos permite
simplificar los modelos, si es necesario, para una mejor predicción mediante la reducción del impacto
de la complejidad innecesaria en sus modelos.

REGULARIZACIÓN

En muchas técnicas de aprendizaje automático, el aprendizaje consiste en encontrar los


coeficientes que minimizan una función de costo (diferencia entre el valor predicho y el valor real). La
regularización consiste en añadir una penalización a la función de costo. Esta penalización produce
modelos más simples que generalizan mejor. Las regularizaciones más usadas en aprendizaje
automático son: Lasso (también conocida como L1), Ridge (conocida también como L2) y ElasticNet que
combina tanto Lasso como Ridge.
¿Pero, por qué funciona la regularización?
Cuando usamos regularización minimizamos la complejidad del modelo a la vez que
minimizamos la función de costo. Esto resulta en modelos más simples que tienden a generalizar mejor.
Lo modelos que son excesivamente complejos tienden a sobreajustar. Es decir, a encontrar una solución
que funciona muy bien para los datos de entrenamiento, pero muy mal para datos nuevos. Nos
interesan los modelos que además de aprender bien, también tengan un buen rendimiento con datos
nuevos.
Veamos como ejemplo un modelo de regresión que utiliza la técnica de regularización L1. Para
ajustar nuestro modelo siempre queremos reducir esta función de error. El parámetro λ nos dirá cuánto
queremos penalizar los coeficientes. Si λ es grande, penalizamos mucho. Si λ es pequeño, penalizamos
menos. λ puede seleccionarse mediante validación cruzada (técnica que vamos a ver con más detalle
más adelante). A medida que el valor de λ aumenta, penalizará más los coeficientes y la pendiente de
la línea irá más hacia cero.

6
Universidad Tecnológica Nacional - Facultad Regional Santa Fe
Carrera Ingeniería en Sistemas de información
Cátedra: Ciencia de Datos
Año: 2025 – 1er. Cuatrimestre

En caso de regularización L1 por tomar el valor absoluto en la fórmula, los pesos más pequeños
eventualmente desaparecerán y se convertirán en 0. Eso significa que la regularización L1 ayuda a
seleccionar características que son importantes y convertir el resto en ceros.
Lasso nos va a servir de ayuda cuando sospechemos que varios de los atributos de entrada (o
características) sean irrelevantes. Al usar Lasso, estamos fomentando que la solución sea poco densa.
Es decir, favorecemos que algunos de los coeficientes acaben valiendo 0. Esto puede ser útil para
descubrir cuáles de los atributos de entrada son relevantes y, en general, para obtener un modelo que
generalice mejor. Lasso nos puede ayudar en este sentido, y funciona mejor cuando los atributos no
están muy correlacionados entre ellos.
Un modelo de regresión que utiliza la técnica de regularización L2 funciona de manera similar a
como funciona L1 con la única diferencia que en lugar de tomar el valor absoluto de los coeficientes
calculados por el algoritmo se toma el cuadrado
Esto funcionará de manera similar, penalizará los coeficientes y la pendiente de la línea irá más
hacia cero, pero nunca será igual a cero.
Ridge nos va a servir de ayuda cuando sospechemos que varios de los atributos de entrada (o
características) están correlacionados entre ellos. Ridge hace que los coeficientes acaben siendo más
pequeños. Esta disminución de los coeficientes minimiza el efecto de la correlación entre los atributos
de entrada y hace que el modelo generalice mejor. Ridge funciona mejor cuando la mayoría de los
atributos son relevantes.
Finalmente, ElasticNet combina las regularizaciones L1 y L2. Con el parámetro r que nos permite
indicar que importancia relativa tienen Lasso y Ridge respectivamente. Usaremos ElasticNet cuando
tengamos un gran número de atributos y algunos de ellos se sospechan irrelevantes y otros
correlacionados entre sí.

ENTRENAMIENTO, TESTEO Y VALIDACIÓN


Un aspecto importante es cómo validar y testear el desempeño del algoritmo que vamos a
utilizar. Veamos las diferencias entre los conjuntos de Entrenamiento, Validación y Testeo utilizados
en aprendizaje automático ya que suele haber bastante confusión en para qué es cada uno y cómo
utilizarlos adecuadamente.
El conjunto de Entrenamiento contiene los datos que el modelo de aprendizaje
automático usará para aprender. Siempre es mayor que el conjunto de testeo, en el sentido de que
contiene más datos. Una partición común es 80% de datos para entrenamiento y 20% de datos de
testeo.
El conjunto de Testeo no se usa en el aprendizaje sino para saber cómo se comporta el modelo
con datos nuevos. No son nuevos realmente, porque ya teníamos estos datos, pero son «nuevos» para
el modelo porque nos aseguramos de ocultárselos durante el aprendizaje.
Para medir la generalización (es decir, qué tan bueno es nuestro modelo en el mundo real),
medimos el error del modelo en el conjunto de testeo. Es decir, usamos los datos de entrenamiento
para que el modelo aprenda y luego le pedimos al modelo que nos de los resultados correspondientes
a los datos de testeo. Como sabemos los resultados que esperamos de los datos de testeo, podemos
medir el error de predicción. Esto nos permite experimentar con varios modelos y elegir el que mejor
generaliza.
El problema aquí es que si modificamos algunos parámetros del algoritmo para tratar de
mejorar su desempeño y volvemos a probar con el conjunto de testeo y repetimos este proceso varias
veces, estaríamos en definitiva sobreajustando hacia el conjunto de testo. ¿Cómo hacemos entonces
7
Universidad Tecnológica Nacional - Facultad Regional Santa Fe
Carrera Ingeniería en Sistemas de información
Cátedra: Ciencia de Datos
Año: 2025 – 1er. Cuatrimestre

para poder afinar el modelo sin caer en este problema? Para resolver este problema, en vez de dividir
los datos solo en los conjuntos de entrenamiento y testeo, vamos a dividirlos en tres conjuntos:
 El conjunto de entrenamiento que es el que utilizará el modelo de aprendizaje automático para
aprender.
 El conjunto de validación que se va a usar para elegir qué modelo funciona mejor con los datos,
para configurar los hiperparámetros de cada tipo de modelo, el proceso de regularización, etc.
 Finalmente, el conjunto de testeo que usaremos al final del todo, una vez que el modelo y la
regularización estén elegidos, para estimar el error de generalización de cara a un uso real.
Dependiendo cómo dividamos los datos en estos dos conjuntos (entrenamiento y validación)
tendremos una estimación diferente del error de generalización sólo generada por la aleatoriedad al
momento de dividir. Dependiendo de esto podemos llegar a pensar que un modelo generaliza mejor
que otro.
Para resolver este problema, la técnica de validación cruzada propone crear los conjuntos de
entrenamiento y validación varias veces, cada vez con una separación diferente. De esta forma
obtendremos estimaciones diferentes. La media aritmética de todos los errores de testeo se considera
la estimación del error de generalización.
Es una estimación más robusta, pero tiene el inconveniente es que es computacionalmente más
costosa. La solución de compromiso es usar validación cruzada, pero limitar el número de veces que la
hacemos. Típicamente es entre 5 y 10 veces.

DESEMPEÑO

Cuando hablamos de regularización mencionamos el uso de una función de costo para evaluar
el desempeño de un algoritmo de regresión. Existen varias formas para medir este costo, es decir, la
diferencia entre un valor real y un valor predicho.
Recordemos que, con un modelo de regresión, predecimos o estimamos el valor numérico de
una cantidad desconocida, de acuerdo con unas características dadas. La diferencia entre la predicción
y el valor real es el error, este es una variable aleatoria, que puede depender de las características dadas.
En la actualidad hay algunas formas para estimar el rendimiento y evaluar el ajuste del modelo,
algunas de ellas son: el error cuadrático medio (RMSE, por sus siglas en inglés, root mean squared error),
error absoluto medio (MAE, mean absolute error), y el R-cuadrado.
La métrica más comúnmente utilizada para las tareas de regresión es el error cuadrático medio
y representa la raíz cuadrada de la distancia cuadrada promedio entre el valor real y el valor
pronosticado. Indica el ajuste absoluto del modelo a los datos, es decir, cuán cerca están los puntos de
datos observados de los valores predichos del modelo y tiene la propiedad útil de estar en las mismas
unidades que la variable de respuesta. Los valores más bajos de esta métrica indican un mejor ajuste.
El error absoluto medio es el promedio de la diferencia absoluta entre el valor observado y los
valores predichos. Es un puntaje lineal, lo que significa que todas las diferencias individuales se
ponderan por igual en el promedio.
Finalmente, R-cuadrado indica la bondad o la aptitud del modelo y a menudo se utiliza con fines
descriptivos. Muestra que tan bien las variables independientes seleccionadas explican la variabilidad
de la variable dependiente. Esta métrica tiene la propiedad útil de que su escala es intuitiva, va de 0 a
1, con 0 indicando que el modelo propuesto no mejora la predicción sobre un modelo medio y 1 indica
una predicción perfecta.

8
Universidad Tecnológica Nacional - Facultad Regional Santa Fe
Carrera Ingeniería en Sistemas de información
Cátedra: Ciencia de Datos
Año: 2025 – 1er. Cuatrimestre

Otra tarea en el aprendizaje automático supervisado es la clasificación y la misma tiene sus


propias métricas de desempeño. Estas métricas se derivan de lo que se conoce como matriz de
confusión.
Cada columna de la matriz representa el número de predicciones de cada clase, mientras que
cada fila representa a las instancias en la clase real, o sea, en términos prácticos nos permite ver qué
tipos de aciertos y errores está teniendo nuestro modelo a la hora de pasar por el proceso de
aprendizaje con los datos.
A partir de los valores de la matriz podemos calcular otras métricas tales como la exactitud, la
precisión, la Sensibilidad y la Especificidad.
La Exactitud (“Accuracy”) se refiere a lo cerca que está el resultado de una medición del valor
verdadero. En términos estadísticos, la exactitud está relacionada con el sesgo de una estimación.
También se conoce como Tasa de Verdadero Positivo. Se representa por la proporción entre los
positivos reales predichos por el algoritmo y todos los casos. Esta medida es una de las más usadas, pero
pierde un poco de significado ante clases desbalanceadas, es decir, cuando en los datos de
entrenamiento cada clase no tiene el mismo nivel de representatividad.
La Precisión (“Precision”) nos permite medir la calidad del modelo de aprendizaje automático en
tareas de clasificación. Es la respuesta a la pregunta ¿qué porcentaje de los casos positivos son
verdaderamente positivos?
La Sensibilidad (“Recall”) y la Especificidad (“Specifity”) son dos valores que nos indican la
capacidad de nuestro algoritmo para discriminar los casos positivos, de los negativos. La sensibilidad es
la fracción de verdaderos positivos, mientras que la especificidad, es la fracción de verdaderos
negativos.
Cuando tenemos un conjunto de datos con desequilibrio, suele ocurrir que obtenemos un alto
valor de precisión en la clase mayoritaria y una baja sensibilidad en la clase minoritaria.
Una alternativa cuando tenemos clases desbalanceadas es usar la métrica F1 que combina la
precisión y la sensibilidad calculando la media armónica entre ambas métricas.

CLASES DESBALANCEADAS
Cuando hablamos recién de la exactitud mencionamos el problema de las clases
desbalanceadas, es decir, tenemos un conjunto de datos que contiene un número determinados de
clases, pero la cantidad de individuos que pertenece a cada clase difiere enormemente. Esto es más
común en algunos conjuntos de datos como los asociados a la detección de fraudes bancarios, o las
ofertas en el tiempo real en marketing o la detección de intrusos en redes. Los datos utilizados en estas
áreas a menudo tienen menos del 1% de los eventos raros pero interesantes, por ejemplo, los
estafadores que usan tarjetas de créditos, el usuario que hace clic en la publicidad o el servidor corrupto
que escanea la red.
Este tipo de conjunto de datos siempre plantea un problema para el aprendizaje automático,
ya que la mayoría de los algoritmos son malos para manejarlos. La pregunta es entonces cómo podemos
solucionar esto. Una opción es recopilar más datos ya que un conjunto de datos más grande podría
exponer una perspectiva diferente y quizás más equilibrada de las clases. Otra opción es utilizar las
métricas de evaluación correctas, como ya mencionamos existen medidas de desempeño adecuadas
para estas situaciones.
Podemos agregar copias de instancias de la clase minoritaria, lo que se denomina
sobremuestreo o muestreo excesivo, o podemos eliminar instancias de la clase mayoritaria, lo que se
denomina sub-muestreo.
9
Universidad Tecnológica Nacional - Facultad Regional Santa Fe
Carrera Ingeniería en Sistemas de información
Cátedra: Ciencia de Datos
Año: 2025 – 1er. Cuatrimestre

Esta estrategia tiene ventajas y desventajas, por un lado, puede ayudar a mejorar el tiempo de
ejecución del modelo y resolver los problemas de memoria al reducir el número de muestras de datos
de entrenamiento cuando el conjunto de datos de entrenamiento es enorme. Pero también hay
desventajas, se puede descartar información útil sobre los datos en sí mismos que podría ser necesaria
para crear clasificadores basados en reglas, como los bosques aleatorios.
Además, la muestra elegida puede ser una muestra sesgada, y no será una representación
precisa de la población en ese caso y ocasionará que el clasificador se comporte mal en datos reales que
no se ven.

10

También podría gustarte