Discretización
La mayoría de los modelos de aprendizaje automático requieren que los
datos sean numéricos; todos los datos de objetos o categóricos deben estar
primero en formato numérico. Pero, de hecho, hay ocasiones en que los
datos categóricos resultan útiles (la mayoría de las veces, son más útiles para
nosotros, los humanos, que para las máquinas). La discretización (o
agrupamiento) hace precisamente eso: ¡convertir datos numéricos en
categóricos!
Dependiendo de tu objetivo, existen numerosas maneras de categorizar tus
datos. Aquí, usaremos un conjunto de datos simple para mostrar seis
métodos de agrupamiento diferentes. Desde enfoques de igual ancho hasta
enfoques basados en agrupamiento, ¡agruparemos esos valores numéricos
en varios grupos categóricos!
¿Qué es la discretización?
La discretización, también conocida como binning, es el proceso de
transformar variables numéricas continuas en características categóricas
discretas. Implica dividir el rango de una variable continua en intervalos
(bins) y asignar puntos de datos a estos bins en función de sus valores.
¿Por qué necesitamos el binning?
1. Manejo de valores atípicos: El binning puede reducir el impacto de
los valores atípicos sin eliminar puntos de datos.
2. Mejora del rendimiento del modelo: Algunos algoritmos funcionan
mejor con entradas categóricas (como el método Bayesiano Naive de
Bernoulli).
3. Simplificación de la visualización: Los datos binning pueden ser
más fáciles de visualizar e interpretar.
4. Reducción del sobreajuste: Puede evitar que los modelos se ajusten
al ruido en datos de alta precisión.
Discretización
¿Qué datos necesitan agrupación?
Datos que suelen beneficiarse de la agrupación:
1. Variables continuas con rangos amplios: Las variables con
una gran dispersión de valores a menudo se benefician de la
agrupación.
2. Distribuciones sesgadas: La agrupación puede ayudar a
normalizar datos muy sesgados.
3. Variables con valores atípicos: La agrupación puede gestionar
el efecto de los valores extremos.
4. Datos numéricos de alta cardinalidad: Las variables con
muchos valores únicos se pueden simplificar mediante la
agrupación.
Datos que generalmente no necesitan agrupación:
1. Datos ya categóricos: Las variables que ya pertenecen a
categorías discretas no necesitan agrupación adicional.
2. Datos numéricos discretos con pocos valores únicos: Si una
variable solo tiene un número reducido de valores posibles, la
agrupación podría no ofrecer ningún beneficio adicional.
3. ID o códigos numéricos: Su propósito es ser identificadores
únicos, no para análisis.
4. Datos de series temporales: Si bien es posible agrupar los datos
de series temporales, a menudo requiere técnicas especializadas y
una consideración cuidadosa, pero es menos común en general.
Discretización
Discretización
Para demostrar estas técnicas de clasificación, utilizaremos este
conjunto de datos artificiales. Por ejemplo, este es el estado del
tiempo en un campo de golf, recopilado en 15 días diferentes.
Method 1: Equal-Width Binning
La agrupación por intervalos de igual ancho divide el rango de una
variable en un número específico de intervalos, todos con el mismo
ancho.
Tipo de dato común: Este método funciona bien con datos con una
distribución aproximadamente uniforme y cuando los valores mínimo
y máximo son significativos.
En nuestro caso: Apliquemos la agrupación por intervalos de igual
ancho a nuestra variable Índice UV. Crearemos cuatro intervalos:
Bajo, Moderado, Alto y Muy Alto. Elegimos este método para el
Índice UV porque nos ofrece una división clara e intuitiva del rango
del índice, lo cual podría ser útil para comprender cómo los diferentes
rangos del índice afectan las decisiones de golf.
Frequency Binning (Quantile
od 2: Equal- B inning
Meth )
La agrupación por igual frecuencia crea intervalos que contienen
aproximadamente el mismo número de observaciones.
Tipo de dato común: Este método es especialmente útil para datos
asimétricos o cuando se desea garantizar una representación
equilibrada entre categorías.
En nuestro caso: Apliquemos la agrupación por igual frecuencia a
nuestra variable Humedad, creando tres intervalos: Bajo, Medio y
Alto. Elegimos este método para Humedad porque garantiza el
mismo número de observaciones en cada categoría, lo cual puede ser
útil si los valores de humedad no se distribuyen uniformemente en su
rango.
Method 3: Custom Binning
La agrupación personalizada le permite definir sus propios límites de
grupo según el conocimiento del dominio o requisitos específicos.
Tipo de dato común: Este método es ideal cuando tiene umbrales
específicos que son significativos en su dominio o cuando desea
centrarse en rangos de valores específicos.
En nuestro caso: Apliquemos la agrupación personalizada a nuestra
cantidad de lluvia. Elegimos este método para esta columna porque
existen categorías estandarizadas para la lluvia que son más
significativas que las divisiones arbitrarias.
Method 4: Logarithmic Binning
La agrupación logarítmica crea intervalos que crecen
exponencialmente. El método aplica primero la transformación
logarítmica y luego realiza una agrupación de igual ancho.
Tipo de dato común: Este método es especialmente útil para datos
que abarcan varios órdenes de magnitud o siguen una distribución
de ley de potencia.
En nuestro caso: Apliquemos la agrupación logarítmica a nuestra
variable Velocidad del viento. Elegimos este método para la
Velocidad del viento porque el efecto del viento en la trayectoria de
una pelota de golf podría no ser lineal. Un cambio de 0 a 8 km/h
podría ser más significativo que un cambio de 32 a 40 km/h.
5: Standard Deviation-based Binning
Method
La agrupación basada en la desviación estándar crea intervalos según
el número de desviaciones estándar con respecto a la media. Este
enfoque es útil al trabajar con datos distribuidos normalmente o
cuando se desea agrupar los datos según la desviación de los
valores con respecto a la tendencia central.
Variaciones: El número exacto de desviaciones estándar utilizado
para la agrupación se puede ajustar según las necesidades específicas
del análisis. El número de intervalos suele ser impar (para tener un
intervalo central). Algunas implementaciones pueden utilizar
intervalos con anchos desiguales, con intervalos más estrechos
cerca de la media y más anchos en los extremos.
Tipo de dato común: Este método es adecuado para datos que
siguen una distribución normal o cuando se desea identificar valores
atípicos y comprender la dispersión de los datos. Puede no ser
adecuado para distribuciones muy asimétricas.
En nuestro caso: Apliquemos este método de agrupación escalando
a nuestra variable Temperatura. Elegimos este método para
Temperatura porque nos permite categorizar las temperaturas según
su desviación de la media, lo cual puede ser particularmente útil para
comprender patrones meteorológicos o tendencias climáticas.
5: Standard Deviation-based Binning
Method
Method 6: K-Means Binning
La agrupación por K-Medias utiliza el algoritmo de agrupación por
clústeres K-Medias para crear intervalos. Agrupa los datos en
clústeres según su similitud, y cada clúster se convierte en un
intervalo.
Tipo de dato común: Este método es ideal para encontrar grupos
en datos que podrían no ser evidentes a primera vista. Funciona
bien con datos con uno o varios picos y se adapta a la organización de
los datos.
En nuestro caso: Apliquemos la agrupación por K-Medias a nuestra
variable de aglomeración. Elegimos este método para la agrupación
por clústeres porque podría revelar agrupaciones naturales según
la concurrencia del campo de golf, lo cual podría estar influenciado
por diversos factores que no se captan mediante una agrupación
simple basada en umbrales.
Method 6: K Means Binning
El riesgo de discretizar
1. Pérdida de información: Al clasificar datos, básicamente se
suavizan los detalles. Esto puede ser excelente para detectar
tendencias, pero podría pasar por alto patrones o relaciones
sutiles dentro de los intervalos.
2. Límites arbitrarios: La elección de los límites de los intervalos a
veces puede parecer más un arte que una ciencia. Un ligero
cambio en estos límites puede llevar a diferentes interpretaciones
de los datos.
3. Impacto del modelo: Algunos modelos, en particular los
basados en árboles como el Árbol de Decisión, podrían tener un
peor rendimiento con datos agrupados. Son bastante buenos para
encontrar sus propios "intervalos", por así decirlo.
4. Falsa sensación de seguridad: La clasificación de datos puede
hacer que los datos se vean más ordenados y manejables, pero la
complejidad subyacente sigue ahí, simplemente oculta.
5. Dificultad de interpretación: Si bien la clasificación de datos
puede simplificar el análisis, también puede dificultar la
interpretación de la magnitud de los efectos. Una temperatura
"alta" podría significar cosas muy diferentes en distintos
contextos.
Entonces, ¿qué debe hacer un científico de datos?
Guarda siempre una copia de tus datos sin agrupar. Puede que
necesites revisarla.
Prueba diferentes estrategias de agrupación y compara los
resultados. No te conformes con el primer método.
Busca si ya existe una forma estándar en el dominio del conjunto
de datos para categorizar los datos (como en nuestro ejemplo
anterior de "Cantidad de lluvia").