0% encontró este documento útil (0 votos)
74 vistas17 páginas

Introducción al Aprendizaje Supervisado

Este documento introduce conceptos básicos de aprendizaje supervisado como reconocimiento de patrones, aprendizaje de máquinas y clasificación. Explica el ciclo de diseño de un sistema de reconocimiento de patrones, incluyendo recolección de datos, selección de características, diseño del clasificador y evaluación del sistema. También describe diferentes tipos de clasificadores como estadísticos, geométricos, de redes neuronales y basados en modelos.

Cargado por

Jesus Jacobe
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
74 vistas17 páginas

Introducción al Aprendizaje Supervisado

Este documento introduce conceptos básicos de aprendizaje supervisado como reconocimiento de patrones, aprendizaje de máquinas y clasificación. Explica el ciclo de diseño de un sistema de reconocimiento de patrones, incluyendo recolección de datos, selección de características, diseño del clasificador y evaluación del sistema. También describe diferentes tipos de clasificadores como estadísticos, geométricos, de redes neuronales y basados en modelos.

Cargado por

Jesus Jacobe
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Análisis de Datos

Introducción al aprendizaje supervisado

Profesor: Dr. Wilfrido Gómez Flores

1
Conceptos básicos
• Desde la antigüedad, el problema de buscar patrones en datos es
fundamental en diversas disciplinas.
• Según C. Bishop en su libro Pattern Recognition and Machine Learning
se tienen las siguiente definiciones:
‣ Reconocimiento de patrones: trata del descubrimiento
automático de regularidades en los datos mediante algoritmos
computacionales y su uso en acciones como la clasificación
de datos en diferentes categorías.
‣ Aprendizaje de máquina*: trata del desarrollo de algoritmos
para la construcción de modelos a partir de datos de ejemplo
(i.e., entrenamiento) para hacer predicciones o tomar
decisiones.

2
*También se le conoce como aprendizaje automático.
Conceptos básicos

Ejemplos de dígitos escritos a mano.


• Cada dígito corresponde a una imagen de 28×28 píxeles, que puede
representarse por un vector x que contiene 784 números reales.
• El objetivo es crear una máquina cuya entrada sea el vector x y cuya salida
sea la identidad del dígito 0,…,9, lo cual puede expresarse como una
función y(x).
• La función y(x) se determina en una fase de aprendizaje (también
conocida como entrenamiento) sobre la base de datos de entrenamiento.
• Una vez entrenado el modelo, se puede obtener la identidad de nuevos
dígitos definidos en un conjunto de prueba. 3
Conceptos básicos
• De manera general, a los objetos físicos se les conoce con el
término genérico de patrones.
• Un patrón se representa por un conjunto de medidas conocidas
como características, las cuales describen a un objeto físico de
manera única.
• En el caso más general, D características xi (con i=1,2,…,D)
forman un vector de características D-dimensional denotado como

x = [x1,x 2,…,x D ]T (1)


donde T denota transposición.
• Una clase de patrones es un conjunto de objetos que poseen
características similares, es decir, son de un mismo tipo o categoría.

4
Sistema de reconocimiento de patrones

Mundo
real

Sensor • termómetro, micrófono, cámara digital

• convierte medidas en características


Extracción de • un patrón está representado por un vector de
características características
• características invariantes y discriminantes
• aprende a partir de datos de entrenamiento
• responde preguntas como: ¿Qué patrones se
Clasificación
parecen? o ¿Qué grupos se forman a partir
del conjunto de patrones?
Decisión

5
Ciclo de diseño
Inicio

Recolección de • ¿Qué se está midiendo? ¿Cuántos datos


datos se necesitan?

Selección de • ¿Qué características proveen la mejor


características separabilidad entre clases?

Diseño del • ¿Qué clasificador tiene el mejor


clasificador desempeño?

Evaluación del
sistema • ¿Cómo debe ser medido el desempeño?

Fin

6
Ciclo de diseño: selección de características
• Recolección de datos: generalmente se aplican técnicas de
preprocesamiento y normalización:
‣ Ventajas: producir mejores características, rápido aprendizaje,
mejora la generalización.
‣ Métodos: remoción de valores atípicos, normalización y
escalamiento, análisis de componente principales.
• Selección de características: encontrar un subconjunto de
características que maximicen el desempeño del clasificador.
‣ Mejorar la separabilidad, el valor numérico de una característica
debe ser diferente para objetos de clases distintas.
‣ Minimización de la redundancia y maximización de la relevancia.
‣ Métodos: medidas de separabilidad de clases, medidas de
dependencia, pruebas de hipótesis, etc.
7
Ciclo de diseño: clasificador
• Diferentes taxonomías de las metodologías de clasificación.
• Taxonomía por método de aprendizaje:
‣ Aprendizaje supervisado:
- Las clases de los datos de entrenamiento se conocen.
- Mapear el espacio de características a un espacio de clases con
el mínimo error.
- Riesgo de perder capacidad de generalización por
sobreentrenamiento.
‣ Aprendizaje no supervisado:
- Las clases de los datos de entrenamiento no se conocen.
- Agrupar patrones con miníma diferencia intra-grupo y
máxima diferencia inter-grupo.
- El número de grupos puede ser conocido o desconocido.
8
Ciclo de diseño: clasificador
Clase A
Modelo supervisado: clasificación Clase B

Patrón Salida deseada


Dominio del Frontera de
Maestro

Característica 2
problema decisión

Sistema de Respuesta
aprendizaje +

Señal de Σ
error

Característica 1

Modelo no supervisado: agrupamiento Grupo A


Datos sin
etiquetar

Patrón Sistema de Respuesta


Dominio del
problema aprendizaje

Característica 2
Grupo B

Señal de
error

Regla de
adaptación

Característica 1
9
Ciclo de diseño: clasificador

• En el paradigma de aprendizaje supervisado, el objetivo es inferir


una función f : x ! y a partir de un conjunto de patrones de
entrenamiento Z compuesto de N pares de puntos:

( )
Z = (x1,y1 ),…,(x N ,yN ) (2)

• Típicamente x 2 RD, y 2 R e y es discreto, de modo que para C


clases y 2 {1, 2 . . . , C} y para problemas de clasificación binaria
y 2 {−1, +1}.

10
Ciclo de diseño: clasificador
• Taxonomía metodológica:

‣ Estadística (o Bayesiana):
- Las características son variables aleatorias con
propiedades estadísticas.
- Reconocimiento basado en máxima probabilidad.

‣ Geométrica:
- Las clases en el espacio de características son divididas
mediante hiperplanos o hipersuperficies.
- Análisis lineal discriminante, máquinas de vectores de
soporte, etc.

‣ Red neuronal artificial:


- Métodos de caja negra que transforman el espacio de
características al espacio de clases.
- Perceptrón multicapa, función de base radial, etc.

‣ Basado en modelos:
- Las clases se representan por patrones de referencia.
- Reconocimiento basado en encontrar la referencia más
cercana.
11
Ciclo de diseño: evaluación

• En la práctica, se tiene conjuntos de datos finitos, de modo que


para evaluar el sistema de clasificación se deben generar conjuntos
de entrenamiento y prueba.
• A mayor número de patrones de entrenamiento, mejor
generalización.
• A mayor número de patrones de prueba, mejor estimación de la
probabilidad del error de clasificación.
• Métodos de remuestreo: Resubstitución, hold-out, validación
cruzada (VC), VC dejando uno fuera, bootstraps, etc.
• Métodos de evaluación: matriz de confusión, análisis ROC,
coeficiente de correlación de Matthews, etc.

12
Ejemplo: Regresión polinomial
• Supóngase una entrada xxxxxx2 R a partir de la cual se desea predecir el valor de
una variable objetivo (target) t 2 R.
• Supóngase un conjunto de entrenamiento con N observaciones de x, escrito
⌘ (x1 , . . . , xN )T , junto con sus respectivos valores de t, denotado
como xxxxxxxxxxxxxxxxx
como t ⌘ (t1 , . . . , tN )T .
• Considérese un conjunto x que está compuesto por N=10 observaciones
tomadas aleatoriamente de una distribución uniforme en el rango [0,1], y que
las variables objetivo t corresponden a la función sin(2πx) contaminada con
ruido aleatorio tomado de una distribución Gaussiana N (0, 3).
t

Conjunto de entrenamiento con


N=10 puntos, mostrados con
círculos negros, y la curva roja
muestra la función sin(2πx) usada
para generar los datos.
x 13
Ejemplo: Regresión polinomial
• El objetivo es explotar el conjunto de entrenamiento para hacer
predicciones de el valor de la variable objetivo tt̂ para nuevos
valores de x.

• Se debe descubrir la función subyacente sin(2πx) aún cuando se


tiene datos contaminados con ruido.
• Se puede ajustar los datos usando una función polinomial de la
forma: M
X
y(x, w) = w0 + w1 x + w2 x2 + . . . + wM xM = w j xj (3)
j=0
donde M es el orden del polinomio.
• Los valores de los coeficientes w se determinan minimizando la
suma de los cuadrados de los errores entre las predicciones y(x
xxxxxx
n , w)
y los correspondientes valores xx:
tn
N
1X
E(w) =
2 n=1
{y(xn , w) tn }2 (4)
14
Ejemplo: Regresión polinomial
• El polinomio resultante está dado por la función y(x
xxxxxxx,
n , w ) donde

xx
w⇤ denota una única solución que minimizó la función en (4).

• El problema ahora es seleccionar el orden del polinomio tal que se


tenga un ajuste lo ‘más parecido’ a la función sin(2πx).
M =0 M =1

M =3
Gráficas de polinomios
de diferente orden M
mostradas por las
curvas verdes. M =9

15
Ejemplo: Regresión polinomial
• El sobreajuste (o sobreentrenamiento) cuando M=9 es debido a la
falta de muestras de entrenamiento.
• Los coeficientes se ajustan finamente tal que la función polinomial
coincide exactamente con cada punto del conjunto de datos.
• Estrategias para evitar el sobreajuste:
1. Aumentar el número de muestras de entrenamiento:
N = 15 N = 100
Polinomios de orden
M=9 para diferentes
tamaños de datos de
entrenamiento.

2. Estrategias de regularización que penalicen la función de error


para evitar que los coeficientes adquieran valores muy grandes:
N
1X
E(w) =
2 n=1
{y(xn , w) tn }2 +
2
||w||2 (5)
16
Conclusión

• En este curso se estudiarán técnicas de aprendizaje supervisado


para la generación de modelos de clasificación y regresión con alta
capacidad de generalización.

Datos de
entrenamiento
Distintos
Aprendizaje
de máquina

Datos nuevos Salida con alta


Modelo
(prueba) generalización

17

También podría gustarte