0% encontró este documento útil (0 votos)
31 vistas13 páginas

Encoding Categorical Data (2) - 26-38

La discretización es el proceso de convertir datos numéricos continuos en categorías discretas, lo que puede mejorar el rendimiento del modelo y facilitar la visualización. Existen varios métodos de agrupamiento, como el binning por igual ancho, igual frecuencia y K-Medias, cada uno adecuado para diferentes tipos de datos. Sin embargo, la discretización puede conllevar riesgos como la pérdida de información y la dificultad de interpretación, por lo que es importante probar diferentes estrategias y mantener una copia de los datos originales.

Cargado por

Alexis Limache
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
31 vistas13 páginas

Encoding Categorical Data (2) - 26-38

La discretización es el proceso de convertir datos numéricos continuos en categorías discretas, lo que puede mejorar el rendimiento del modelo y facilitar la visualización. Existen varios métodos de agrupamiento, como el binning por igual ancho, igual frecuencia y K-Medias, cada uno adecuado para diferentes tipos de datos. Sin embargo, la discretización puede conllevar riesgos como la pérdida de información y la dificultad de interpretación, por lo que es importante probar diferentes estrategias y mantener una copia de los datos originales.

Cargado por

Alexis Limache
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Discretización

La mayoría de los modelos de aprendizaje automático requieren que los


datos sean numéricos; todos los datos de objetos o categóricos deben estar
primero en formato numérico. Pero, de hecho, hay ocasiones en que los
datos categóricos resultan útiles (la mayoría de las veces, son más útiles para
nosotros, los humanos, que para las máquinas). La discretización (o
agrupamiento) hace precisamente eso: ¡convertir datos numéricos en
categóricos!

Dependiendo de tu objetivo, existen numerosas maneras de categorizar tus


datos. Aquí, usaremos un conjunto de datos simple para mostrar seis
métodos de agrupamiento diferentes. Desde enfoques de igual ancho hasta
enfoques basados ​en agrupamiento, ¡agruparemos esos valores numéricos
en varios grupos categóricos!

¿Qué es la discretización?
La discretización, también conocida como binning, es el proceso de
transformar variables numéricas continuas en características categóricas
discretas. Implica dividir el rango de una variable continua en intervalos
(bins) y asignar puntos de datos a estos bins en función de sus valores.

¿Por qué necesitamos el binning?


1. Manejo de valores atípicos: El binning puede reducir el impacto de
los valores atípicos sin eliminar puntos de datos.
2. Mejora del rendimiento del modelo: Algunos algoritmos funcionan
mejor con entradas categóricas (como el método Bayesiano Naive de
Bernoulli).
3. Simplificación de la visualización: Los datos binning pueden ser
más fáciles de visualizar e interpretar.
4. Reducción del sobreajuste: Puede evitar que los modelos se ajusten
al ruido en datos de alta precisión.
Discretización
¿Qué datos necesitan agrupación?

Datos que suelen beneficiarse de la agrupación:


1. Variables continuas con rangos amplios: Las variables con
una gran dispersión de valores a menudo se benefician de la
agrupación.
2. Distribuciones sesgadas: La agrupación puede ayudar a
normalizar datos muy sesgados.
3. Variables con valores atípicos: La agrupación puede gestionar
el efecto de los valores extremos.
4. Datos numéricos de alta cardinalidad: Las variables con
muchos valores únicos se pueden simplificar mediante la
agrupación.

Datos que generalmente no necesitan agrupación:

1. Datos ya categóricos: Las variables que ya pertenecen a


categorías discretas no necesitan agrupación adicional.
2. Datos numéricos discretos con pocos valores únicos: Si una
variable solo tiene un número reducido de valores posibles, la
agrupación podría no ofrecer ningún beneficio adicional.
3. ID o códigos numéricos: Su propósito es ser identificadores
únicos, no para análisis.
4. Datos de series temporales: Si bien es posible agrupar los datos
de series temporales, a menudo requiere técnicas especializadas y
una consideración cuidadosa, pero es menos común en general.
Discretización
Discretización

Para demostrar estas técnicas de clasificación, utilizaremos este


conjunto de datos artificiales. Por ejemplo, este es el estado del
tiempo en un campo de golf, recopilado en 15 días diferentes.
Method 1: Equal-Width Binning

La agrupación por intervalos de igual ancho divide el rango de una


variable en un número específico de intervalos, todos con el mismo
ancho.

Tipo de dato común: Este método funciona bien con datos con una
distribución aproximadamente uniforme y cuando los valores mínimo
y máximo son significativos.

En nuestro caso: Apliquemos la agrupación por intervalos de igual


ancho a nuestra variable Índice UV. Crearemos cuatro intervalos:
Bajo, Moderado, Alto y Muy Alto. Elegimos este método para el
Índice UV porque nos ofrece una división clara e intuitiva del rango
del índice, lo cual podría ser útil para comprender cómo los diferentes
rangos del índice afectan las decisiones de golf.
Frequency Binning (Quantile
od 2: Equal- B inning
Meth )

La agrupación por igual frecuencia crea intervalos que contienen


aproximadamente el mismo número de observaciones.

Tipo de dato común: Este método es especialmente útil para datos


asimétricos o cuando se desea garantizar una representación
equilibrada entre categorías.

En nuestro caso: Apliquemos la agrupación por igual frecuencia a


nuestra variable Humedad, creando tres intervalos: Bajo, Medio y
Alto. Elegimos este método para Humedad porque garantiza el
mismo número de observaciones en cada categoría, lo cual puede ser
útil si los valores de humedad no se distribuyen uniformemente en su
rango.
Method 3: Custom Binning

La agrupación personalizada le permite definir sus propios límites de


grupo según el conocimiento del dominio o requisitos específicos.

Tipo de dato común: Este método es ideal cuando tiene umbrales


específicos que son significativos en su dominio o cuando desea
centrarse en rangos de valores específicos.

En nuestro caso: Apliquemos la agrupación personalizada a nuestra


cantidad de lluvia. Elegimos este método para esta columna porque
existen categorías estandarizadas para la lluvia que son más
significativas que las divisiones arbitrarias.
Method 4: Logarithmic Binning

La agrupación logarítmica crea intervalos que crecen


exponencialmente. El método aplica primero la transformación
logarítmica y luego realiza una agrupación de igual ancho.

Tipo de dato común: Este método es especialmente útil para datos


que abarcan varios órdenes de magnitud o siguen una distribución
de ley de potencia.

En nuestro caso: Apliquemos la agrupación logarítmica a nuestra


variable Velocidad del viento. Elegimos este método para la
Velocidad del viento porque el efecto del viento en la trayectoria de
una pelota de golf podría no ser lineal. Un cambio de 0 a 8 km/h
podría ser más significativo que un cambio de 32 a 40 km/h.
5: Standard Deviation-based Binning
Method

La agrupación basada en la desviación estándar crea intervalos según


el número de desviaciones estándar con respecto a la media. Este
enfoque es útil al trabajar con datos distribuidos normalmente o
cuando se desea agrupar los datos según la desviación de los
valores con respecto a la tendencia central.

Variaciones: El número exacto de desviaciones estándar utilizado


para la agrupación se puede ajustar según las necesidades específicas
del análisis. El número de intervalos suele ser impar (para tener un
intervalo central). Algunas implementaciones pueden utilizar
intervalos con anchos desiguales, con intervalos más estrechos
cerca de la media y más anchos en los extremos.

Tipo de dato común: Este método es adecuado para datos que


siguen una distribución normal o cuando se desea identificar valores
atípicos y comprender la dispersión de los datos. Puede no ser
adecuado para distribuciones muy asimétricas.

En nuestro caso: Apliquemos este método de agrupación escalando


a nuestra variable Temperatura. Elegimos este método para
Temperatura porque nos permite categorizar las temperaturas según
su desviación de la media, lo cual puede ser particularmente útil para
comprender patrones meteorológicos o tendencias climáticas.
5: Standard Deviation-based Binning
Method
Method 6: K-Means Binning

La agrupación por K-Medias utiliza el algoritmo de agrupación por


clústeres K-Medias para crear intervalos. Agrupa los datos en
clústeres según su similitud, y cada clúster se convierte en un
intervalo.

Tipo de dato común: Este método es ideal para encontrar grupos


en datos que podrían no ser evidentes a primera vista. Funciona
bien con datos con uno o varios picos y se adapta a la organización de
los datos.

En nuestro caso: Apliquemos la agrupación por K-Medias a nuestra


variable de aglomeración. Elegimos este método para la agrupación
por clústeres porque podría revelar agrupaciones naturales según
la concurrencia del campo de golf, lo cual podría estar influenciado
por diversos factores que no se captan mediante una agrupación
simple basada en umbrales.
Method 6: K Means Binning
El riesgo de discretizar

1. Pérdida de información: Al clasificar datos, básicamente se


suavizan los detalles. Esto puede ser excelente para detectar
tendencias, pero podría pasar por alto patrones o relaciones
sutiles dentro de los intervalos.
2. Límites arbitrarios: La elección de los límites de los intervalos a
veces puede parecer más un arte que una ciencia. Un ligero
cambio en estos límites puede llevar a diferentes interpretaciones
de los datos.
3. Impacto del modelo: Algunos modelos, en particular los
basados ​en árboles como el Árbol de Decisión, podrían tener un
peor rendimiento con datos agrupados. Son bastante buenos para
encontrar sus propios "intervalos", por así decirlo.
4. Falsa sensación de seguridad: La clasificación de datos puede
hacer que los datos se vean más ordenados y manejables, pero la
complejidad subyacente sigue ahí, simplemente oculta.
5. Dificultad de interpretación: Si bien la clasificación de datos
puede simplificar el análisis, también puede dificultar la
interpretación de la magnitud de los efectos. Una temperatura
"alta" podría significar cosas muy diferentes en distintos
contextos.
Entonces, ¿qué debe hacer un científico de datos?
Guarda siempre una copia de tus datos sin agrupar. Puede que
necesites revisarla.
Prueba diferentes estrategias de agrupación y compara los
resultados. No te conformes con el primer método.
Busca si ya existe una forma estándar en el dominio del conjunto
de datos para categorizar los datos (como en nuestro ejemplo
anterior de "Cantidad de lluvia").

También podría gustarte