Análisis de Datos
Introducción al aprendizaje supervisado
Profesor: Dr. Wilfrido Gómez Flores
1
Conceptos básicos
• Desde la antigüedad, el problema de buscar patrones en datos es
fundamental en diversas disciplinas.
• Según C. Bishop en su libro Pattern Recognition and Machine Learning
se tienen las siguiente definiciones:
‣ Reconocimiento de patrones: trata del descubrimiento
automático de regularidades en los datos mediante algoritmos
computacionales y su uso en acciones como la clasificación
de datos en diferentes categorías.
‣ Aprendizaje de máquina*: trata del desarrollo de algoritmos
para la construcción de modelos a partir de datos de ejemplo
(i.e., entrenamiento) para hacer predicciones o tomar
decisiones.
2
*También se le conoce como aprendizaje automático.
Conceptos básicos
Ejemplos de dígitos escritos a mano.
• Cada dígito corresponde a una imagen de 28×28 píxeles, que puede
representarse por un vector x que contiene 784 números reales.
• El objetivo es crear una máquina cuya entrada sea el vector x y cuya salida
sea la identidad del dígito 0,…,9, lo cual puede expresarse como una
función y(x).
• La función y(x) se determina en una fase de aprendizaje (también
conocida como entrenamiento) sobre la base de datos de entrenamiento.
• Una vez entrenado el modelo, se puede obtener la identidad de nuevos
dígitos definidos en un conjunto de prueba. 3
Conceptos básicos
• De manera general, a los objetos físicos se les conoce con el
término genérico de patrones.
• Un patrón se representa por un conjunto de medidas conocidas
como características, las cuales describen a un objeto físico de
manera única.
• En el caso más general, D características xi (con i=1,2,…,D)
forman un vector de características D-dimensional denotado como
x = [x1,x 2,…,x D ]T (1)
donde T denota transposición.
• Una clase de patrones es un conjunto de objetos que poseen
características similares, es decir, son de un mismo tipo o categoría.
4
Sistema de reconocimiento de patrones
Mundo
real
Sensor • termómetro, micrófono, cámara digital
• convierte medidas en características
Extracción de • un patrón está representado por un vector de
características características
• características invariantes y discriminantes
• aprende a partir de datos de entrenamiento
• responde preguntas como: ¿Qué patrones se
Clasificación
parecen? o ¿Qué grupos se forman a partir
del conjunto de patrones?
Decisión
5
Ciclo de diseño
Inicio
Recolección de • ¿Qué se está midiendo? ¿Cuántos datos
datos se necesitan?
Selección de • ¿Qué características proveen la mejor
características separabilidad entre clases?
Diseño del • ¿Qué clasificador tiene el mejor
clasificador desempeño?
Evaluación del
sistema • ¿Cómo debe ser medido el desempeño?
Fin
6
Ciclo de diseño: selección de características
• Recolección de datos: generalmente se aplican técnicas de
preprocesamiento y normalización:
‣ Ventajas: producir mejores características, rápido aprendizaje,
mejora la generalización.
‣ Métodos: remoción de valores atípicos, normalización y
escalamiento, análisis de componente principales.
• Selección de características: encontrar un subconjunto de
características que maximicen el desempeño del clasificador.
‣ Mejorar la separabilidad, el valor numérico de una característica
debe ser diferente para objetos de clases distintas.
‣ Minimización de la redundancia y maximización de la relevancia.
‣ Métodos: medidas de separabilidad de clases, medidas de
dependencia, pruebas de hipótesis, etc.
7
Ciclo de diseño: clasificador
• Diferentes taxonomías de las metodologías de clasificación.
• Taxonomía por método de aprendizaje:
‣ Aprendizaje supervisado:
- Las clases de los datos de entrenamiento se conocen.
- Mapear el espacio de características a un espacio de clases con
el mínimo error.
- Riesgo de perder capacidad de generalización por
sobreentrenamiento.
‣ Aprendizaje no supervisado:
- Las clases de los datos de entrenamiento no se conocen.
- Agrupar patrones con miníma diferencia intra-grupo y
máxima diferencia inter-grupo.
- El número de grupos puede ser conocido o desconocido.
8
Ciclo de diseño: clasificador
Clase A
Modelo supervisado: clasificación Clase B
Patrón Salida deseada
Dominio del Frontera de
Maestro
Característica 2
problema decisión
Sistema de Respuesta
aprendizaje +
−
Señal de Σ
error
Característica 1
Modelo no supervisado: agrupamiento Grupo A
Datos sin
etiquetar
Patrón Sistema de Respuesta
Dominio del
problema aprendizaje
Característica 2
Grupo B
Señal de
error
Regla de
adaptación
Característica 1
9
Ciclo de diseño: clasificador
• En el paradigma de aprendizaje supervisado, el objetivo es inferir
una función f : x ! y a partir de un conjunto de patrones de
entrenamiento Z compuesto de N pares de puntos:
( )
Z = (x1,y1 ),…,(x N ,yN ) (2)
• Típicamente x 2 RD, y 2 R e y es discreto, de modo que para C
clases y 2 {1, 2 . . . , C} y para problemas de clasificación binaria
y 2 {−1, +1}.
10
Ciclo de diseño: clasificador
• Taxonomía metodológica:
‣ Estadística (o Bayesiana):
- Las características son variables aleatorias con
propiedades estadísticas.
- Reconocimiento basado en máxima probabilidad.
‣ Geométrica:
- Las clases en el espacio de características son divididas
mediante hiperplanos o hipersuperficies.
- Análisis lineal discriminante, máquinas de vectores de
soporte, etc.
‣ Red neuronal artificial:
- Métodos de caja negra que transforman el espacio de
características al espacio de clases.
- Perceptrón multicapa, función de base radial, etc.
‣ Basado en modelos:
- Las clases se representan por patrones de referencia.
- Reconocimiento basado en encontrar la referencia más
cercana.
11
Ciclo de diseño: evaluación
• En la práctica, se tiene conjuntos de datos finitos, de modo que
para evaluar el sistema de clasificación se deben generar conjuntos
de entrenamiento y prueba.
• A mayor número de patrones de entrenamiento, mejor
generalización.
• A mayor número de patrones de prueba, mejor estimación de la
probabilidad del error de clasificación.
• Métodos de remuestreo: Resubstitución, hold-out, validación
cruzada (VC), VC dejando uno fuera, bootstraps, etc.
• Métodos de evaluación: matriz de confusión, análisis ROC,
coeficiente de correlación de Matthews, etc.
12
Ejemplo: Regresión polinomial
• Supóngase una entrada xxxxxx2 R a partir de la cual se desea predecir el valor de
una variable objetivo (target) t 2 R.
• Supóngase un conjunto de entrenamiento con N observaciones de x, escrito
⌘ (x1 , . . . , xN )T , junto con sus respectivos valores de t, denotado
como xxxxxxxxxxxxxxxxx
como t ⌘ (t1 , . . . , tN )T .
• Considérese un conjunto x que está compuesto por N=10 observaciones
tomadas aleatoriamente de una distribución uniforme en el rango [0,1], y que
las variables objetivo t corresponden a la función sin(2πx) contaminada con
ruido aleatorio tomado de una distribución Gaussiana N (0, 3).
t
Conjunto de entrenamiento con
N=10 puntos, mostrados con
círculos negros, y la curva roja
muestra la función sin(2πx) usada
para generar los datos.
x 13
Ejemplo: Regresión polinomial
• El objetivo es explotar el conjunto de entrenamiento para hacer
predicciones de el valor de la variable objetivo tt̂ para nuevos
valores de x.
x̂
• Se debe descubrir la función subyacente sin(2πx) aún cuando se
tiene datos contaminados con ruido.
• Se puede ajustar los datos usando una función polinomial de la
forma: M
X
y(x, w) = w0 + w1 x + w2 x2 + . . . + wM xM = w j xj (3)
j=0
donde M es el orden del polinomio.
• Los valores de los coeficientes w se determinan minimizando la
suma de los cuadrados de los errores entre las predicciones y(x
xxxxxx
n , w)
y los correspondientes valores xx:
tn
N
1X
E(w) =
2 n=1
{y(xn , w) tn }2 (4)
14
Ejemplo: Regresión polinomial
• El polinomio resultante está dado por la función y(x
xxxxxxx,
n , w ) donde
⇤
xx
w⇤ denota una única solución que minimizó la función en (4).
• El problema ahora es seleccionar el orden del polinomio tal que se
tenga un ajuste lo ‘más parecido’ a la función sin(2πx).
M =0 M =1
M =3
Gráficas de polinomios
de diferente orden M
mostradas por las
curvas verdes. M =9
15
Ejemplo: Regresión polinomial
• El sobreajuste (o sobreentrenamiento) cuando M=9 es debido a la
falta de muestras de entrenamiento.
• Los coeficientes se ajustan finamente tal que la función polinomial
coincide exactamente con cada punto del conjunto de datos.
• Estrategias para evitar el sobreajuste:
1. Aumentar el número de muestras de entrenamiento:
N = 15 N = 100
Polinomios de orden
M=9 para diferentes
tamaños de datos de
entrenamiento.
2. Estrategias de regularización que penalicen la función de error
para evitar que los coeficientes adquieran valores muy grandes:
N
1X
E(w) =
2 n=1
{y(xn , w) tn }2 +
2
||w||2 (5)
16
Conclusión
• En este curso se estudiarán técnicas de aprendizaje supervisado
para la generación de modelos de clasificación y regresión con alta
capacidad de generalización.
Datos de
entrenamiento
Distintos
Aprendizaje
de máquina
Datos nuevos Salida con alta
Modelo
(prueba) generalización
17