0% encontró este documento útil (0 votos)

31 vistas13 páginas

Encoding Categorical Data (2) - 26-38

La discretización es el proceso de convertir datos numéricos continuos en categorías discretas, lo que puede mejorar el rendimiento del modelo y facilitar la visualización. Existen varios métodos de agrupamiento, como el binning por igual ancho, igual frecuencia y K-Medias, cada uno adecuado para diferentes tipos de datos. Sin embargo, la discretización puede conllevar riesgos como la pérdida de información y la dificultad de interpretación, por lo que es importante probar diferentes estrategias y mantener una copia de los datos originales.

Cargado por

Alexis Limache

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

31 vistas13 páginas

Encoding Categorical Data (2) - 26-38

Cargado por

Alexis Limache

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Discretización

La mayoría de los modelos de aprendizaje automático requieren que los

datos sean numéricos; todos los datos de objetos o categóricos deben estar
primero en formato numérico. Pero, de hecho, hay ocasiones en que los
datos categóricos resultan útiles (la mayoría de las veces, son más útiles para
nosotros, los humanos, que para las máquinas). La discretización (o
agrupamiento) hace precisamente eso: ¡convertir datos numéricos en
categóricos!

Dependiendo de tu objetivo, existen numerosas maneras de categorizar tus

datos. Aquí, usaremos un conjunto de datos simple para mostrar seis
métodos de agrupamiento diferentes. Desde enfoques de igual ancho hasta
enfoques basados en agrupamiento, ¡agruparemos esos valores numéricos
en varios grupos categóricos!

¿Qué es la discretización?
La discretización, también conocida como binning, es el proceso de
transformar variables numéricas continuas en características categóricas
discretas. Implica dividir el rango de una variable continua en intervalos
(bins) y asignar puntos de datos a estos bins en función de sus valores.

¿Por qué necesitamos el binning?

1. Manejo de valores atípicos: El binning puede reducir el impacto de
los valores atípicos sin eliminar puntos de datos.
2. Mejora del rendimiento del modelo: Algunos algoritmos funcionan
mejor con entradas categóricas (como el método Bayesiano Naive de
Bernoulli).
3. Simplificación de la visualización: Los datos binning pueden ser
más fáciles de visualizar e interpretar.
4. Reducción del sobreajuste: Puede evitar que los modelos se ajusten
al ruido en datos de alta precisión.
Discretización
¿Qué datos necesitan agrupación?

Datos que suelen beneficiarse de la agrupación:

1. Variables continuas con rangos amplios: Las variables con
una gran dispersión de valores a menudo se benefician de la
agrupación.
2. Distribuciones sesgadas: La agrupación puede ayudar a
normalizar datos muy sesgados.
3. Variables con valores atípicos: La agrupación puede gestionar
el efecto de los valores extremos.
4. Datos numéricos de alta cardinalidad: Las variables con
muchos valores únicos se pueden simplificar mediante la
agrupación.

Datos que generalmente no necesitan agrupación:

1. Datos ya categóricos: Las variables que ya pertenecen a

categorías discretas no necesitan agrupación adicional.
2. Datos numéricos discretos con pocos valores únicos: Si una
variable solo tiene un número reducido de valores posibles, la
agrupación podría no ofrecer ningún beneficio adicional.
3. ID o códigos numéricos: Su propósito es ser identificadores
únicos, no para análisis.
4. Datos de series temporales: Si bien es posible agrupar los datos
de series temporales, a menudo requiere técnicas especializadas y
una consideración cuidadosa, pero es menos común en general.
Discretización
Discretización

Para demostrar estas técnicas de clasificación, utilizaremos este

conjunto de datos artificiales. Por ejemplo, este es el estado del
tiempo en un campo de golf, recopilado en 15 días diferentes.
Method 1: Equal-Width Binning

La agrupación por intervalos de igual ancho divide el rango de una

variable en un número específico de intervalos, todos con el mismo
ancho.

Tipo de dato común: Este método funciona bien con datos con una
distribución aproximadamente uniforme y cuando los valores mínimo
y máximo son significativos.

En nuestro caso: Apliquemos la agrupación por intervalos de igual

ancho a nuestra variable Índice UV. Crearemos cuatro intervalos:
Bajo, Moderado, Alto y Muy Alto. Elegimos este método para el
Índice UV porque nos ofrece una división clara e intuitiva del rango
del índice, lo cual podría ser útil para comprender cómo los diferentes
rangos del índice afectan las decisiones de golf.
Frequency Binning (Quantile
od 2: Equal- B inning
Meth )

La agrupación por igual frecuencia crea intervalos que contienen

aproximadamente el mismo número de observaciones.

Tipo de dato común: Este método es especialmente útil para datos

asimétricos o cuando se desea garantizar una representación
equilibrada entre categorías.

En nuestro caso: Apliquemos la agrupación por igual frecuencia a

nuestra variable Humedad, creando tres intervalos: Bajo, Medio y
Alto. Elegimos este método para Humedad porque garantiza el
mismo número de observaciones en cada categoría, lo cual puede ser
útil si los valores de humedad no se distribuyen uniformemente en su
rango.
Method 3: Custom Binning

La agrupación personalizada le permite definir sus propios límites de

grupo según el conocimiento del dominio o requisitos específicos.

Tipo de dato común: Este método es ideal cuando tiene umbrales

específicos que son significativos en su dominio o cuando desea
centrarse en rangos de valores específicos.

En nuestro caso: Apliquemos la agrupación personalizada a nuestra

cantidad de lluvia. Elegimos este método para esta columna porque
existen categorías estandarizadas para la lluvia que son más
significativas que las divisiones arbitrarias.
Method 4: Logarithmic Binning

La agrupación logarítmica crea intervalos que crecen

exponencialmente. El método aplica primero la transformación
logarítmica y luego realiza una agrupación de igual ancho.

Tipo de dato común: Este método es especialmente útil para datos

que abarcan varios órdenes de magnitud o siguen una distribución
de ley de potencia.

En nuestro caso: Apliquemos la agrupación logarítmica a nuestra

variable Velocidad del viento. Elegimos este método para la
Velocidad del viento porque el efecto del viento en la trayectoria de
una pelota de golf podría no ser lineal. Un cambio de 0 a 8 km/h
podría ser más significativo que un cambio de 32 a 40 km/h.
5: Standard Deviation-based Binning
Method

La agrupación basada en la desviación estándar crea intervalos según

el número de desviaciones estándar con respecto a la media. Este
enfoque es útil al trabajar con datos distribuidos normalmente o
cuando se desea agrupar los datos según la desviación de los
valores con respecto a la tendencia central.

Variaciones: El número exacto de desviaciones estándar utilizado

para la agrupación se puede ajustar según las necesidades específicas
del análisis. El número de intervalos suele ser impar (para tener un
intervalo central). Algunas implementaciones pueden utilizar
intervalos con anchos desiguales, con intervalos más estrechos
cerca de la media y más anchos en los extremos.

Tipo de dato común: Este método es adecuado para datos que

siguen una distribución normal o cuando se desea identificar valores
atípicos y comprender la dispersión de los datos. Puede no ser
adecuado para distribuciones muy asimétricas.

En nuestro caso: Apliquemos este método de agrupación escalando

a nuestra variable Temperatura. Elegimos este método para
Temperatura porque nos permite categorizar las temperaturas según
su desviación de la media, lo cual puede ser particularmente útil para
comprender patrones meteorológicos o tendencias climáticas.
5: Standard Deviation-based Binning
Method
Method 6: K-Means Binning

La agrupación por K-Medias utiliza el algoritmo de agrupación por

clústeres K-Medias para crear intervalos. Agrupa los datos en
clústeres según su similitud, y cada clúster se convierte en un
intervalo.

Tipo de dato común: Este método es ideal para encontrar grupos

en datos que podrían no ser evidentes a primera vista. Funciona
bien con datos con uno o varios picos y se adapta a la organización de
los datos.

En nuestro caso: Apliquemos la agrupación por K-Medias a nuestra

variable de aglomeración. Elegimos este método para la agrupación
por clústeres porque podría revelar agrupaciones naturales según
la concurrencia del campo de golf, lo cual podría estar influenciado
por diversos factores que no se captan mediante una agrupación
simple basada en umbrales.
Method 6: K Means Binning
El riesgo de discretizar

1. Pérdida de información: Al clasificar datos, básicamente se

suavizan los detalles. Esto puede ser excelente para detectar
tendencias, pero podría pasar por alto patrones o relaciones
sutiles dentro de los intervalos.
2. Límites arbitrarios: La elección de los límites de los intervalos a
veces puede parecer más un arte que una ciencia. Un ligero
cambio en estos límites puede llevar a diferentes interpretaciones
de los datos.
3. Impacto del modelo: Algunos modelos, en particular los
basados en árboles como el Árbol de Decisión, podrían tener un
peor rendimiento con datos agrupados. Son bastante buenos para
encontrar sus propios "intervalos", por así decirlo.
4. Falsa sensación de seguridad: La clasificación de datos puede
hacer que los datos se vean más ordenados y manejables, pero la
complejidad subyacente sigue ahí, simplemente oculta.
5. Dificultad de interpretación: Si bien la clasificación de datos
puede simplificar el análisis, también puede dificultar la
interpretación de la magnitud de los efectos. Una temperatura
"alta" podría significar cosas muy diferentes en distintos
contextos.
Entonces, ¿qué debe hacer un científico de datos?
Guarda siempre una copia de tus datos sin agrupar. Puede que
necesites revisarla.
Prueba diferentes estrategias de agrupación y compara los
resultados. No te conformes con el primer método.
Busca si ya existe una forma estándar en el dominio del conjunto
de datos para categorizar los datos (como en nuestro ejemplo
anterior de "Cantidad de lluvia").

También podría gustarte

Clase 10
Aún no hay calificaciones
Clase 10
53 páginas
Metodos de Agrupacion de Datos
Aún no hay calificaciones
Metodos de Agrupacion de Datos
10 páginas
Tecnicas de Clustering en Machine Learning
Aún no hay calificaciones
Tecnicas de Clustering en Machine Learning
12 páginas
Minería de Datos de Informes Comerciales
Aún no hay calificaciones
Minería de Datos de Informes Comerciales
20 páginas
Métodos de Clustering en SPSS
Aún no hay calificaciones
Métodos de Clustering en SPSS
27 páginas
Agrupación de Datos Cuantitativos
Aún no hay calificaciones
Agrupación de Datos Cuantitativos
7 páginas
Graficos
Aún no hay calificaciones
Graficos
11 páginas
Agrupación de Datos: Métodos y Aplicaciones
Aún no hay calificaciones
Agrupación de Datos: Métodos y Aplicaciones
3 páginas
Clustering en Business Intelligence: Métodos y Aplicaciones
Aún no hay calificaciones
Clustering en Business Intelligence: Métodos y Aplicaciones
6 páginas
Metodos Segmentación Python
Aún no hay calificaciones
Metodos Segmentación Python
37 páginas
Clustering en Business Intelligence: Métodos y Aplicaciones
Aún no hay calificaciones
Clustering en Business Intelligence: Métodos y Aplicaciones
5 páginas
Análisis de Clúster: Técnicas y Métricas
100% (1)
Análisis de Clúster: Técnicas y Métricas
68 páginas
Análisis de Conglomerados: José A Perusquía Cortés Análisis Multivariado Semestre I
Aún no hay calificaciones
Análisis de Conglomerados: José A Perusquía Cortés Análisis Multivariado Semestre I
53 páginas
AnaliticaDeDatos Modulo5 TecnicasDeClustering
Aún no hay calificaciones
AnaliticaDeDatos Modulo5 TecnicasDeClustering
48 páginas
Agrupamiento Jerárquico en Python
Aún no hay calificaciones
Agrupamiento Jerárquico en Python
16 páginas
Segmentación de Datos con Python
100% (1)
Segmentación de Datos con Python
37 páginas
Agrupamiento en Minería de Datos IA
Aún no hay calificaciones
Agrupamiento en Minería de Datos IA
39 páginas
Métodos Jerárquicos en Análisis de Cluster
Aún no hay calificaciones
Métodos Jerárquicos en Análisis de Cluster
36 páginas
Preparación de Datos para Minería
Aún no hay calificaciones
Preparación de Datos para Minería
34 páginas
Estadística Descriptiva: Organización de Datos
Aún no hay calificaciones
Estadística Descriptiva: Organización de Datos
38 páginas
Métodos de Agrupamiento en Clustering
Aún no hay calificaciones
Métodos de Agrupamiento en Clustering
21 páginas
Clustering en Minería de Datos
Aún no hay calificaciones
Clustering en Minería de Datos
49 páginas
Algoritmos de Agrupamiento: K-Medias y Jerárquico
Aún no hay calificaciones
Algoritmos de Agrupamiento: K-Medias y Jerárquico
8 páginas
Fundamentos del Aprendizaje No Supervisado
Aún no hay calificaciones
Fundamentos del Aprendizaje No Supervisado
39 páginas
Capítulo 2
0% (1)
Capítulo 2
42 páginas
Datos Agrupados vs. No Agrupados
Aún no hay calificaciones
Datos Agrupados vs. No Agrupados
4 páginas
Tipos de Variables y Tablas de Frecuencia
Aún no hay calificaciones
Tipos de Variables y Tablas de Frecuencia
6 páginas
Algoritmos y Medidas de Agrupamiento
Aún no hay calificaciones
Algoritmos y Medidas de Agrupamiento
6 páginas
APUNTE - No Supervisado
Aún no hay calificaciones
APUNTE - No Supervisado
6 páginas
Introducción a Variables Estadísticas
Aún no hay calificaciones
Introducción a Variables Estadísticas
8 páginas
T4
Aún no hay calificaciones
T4
13 páginas
Análisis de Datos y Técnicas de Clustering
Aún no hay calificaciones
Análisis de Datos y Técnicas de Clustering
9 páginas
Notas de Economía Sem 4
Aún no hay calificaciones
Notas de Economía Sem 4
25 páginas
Introducción al Data Mining No Supervisado
Aún no hay calificaciones
Introducción al Data Mining No Supervisado
78 páginas
Cómo hacer un histograma a mano
Aún no hay calificaciones
Cómo hacer un histograma a mano
27 páginas
Qué Es La Estadistica Descriptiva e Inductiva
Aún no hay calificaciones
Qué Es La Estadistica Descriptiva e Inductiva
4 páginas
Técnicas de Agrupamiento en Datos
Aún no hay calificaciones
Técnicas de Agrupamiento en Datos
53 páginas
Fundamentos del Clustering en Minería de Datos
Aún no hay calificaciones
Fundamentos del Clustering en Minería de Datos
92 páginas
Reseña 4 David Andrade
Aún no hay calificaciones
Reseña 4 David Andrade
2 páginas
Tema 6 PDF
Aún no hay calificaciones
Tema 6 PDF
96 páginas
Técnicas de Clustering: Análisis y Comparación
Aún no hay calificaciones
Técnicas de Clustering: Análisis y Comparación
4 páginas
Análisis de Datos Deportivos y de Peso
Aún no hay calificaciones
Análisis de Datos Deportivos y de Peso
8 páginas
Técnicas de Presentación Estadística
Aún no hay calificaciones
Técnicas de Presentación Estadística
38 páginas
Introducción a la Estadística Descriptiva e Inferencial
Aún no hay calificaciones
Introducción a la Estadística Descriptiva e Inferencial
24 páginas
Agrupación de Datos y Cálculo Estadístico
Aún no hay calificaciones
Agrupación de Datos y Cálculo Estadístico
2 páginas
Medidas de Tendencia Central - Datos No Agrupadosy Agrupados-1
Aún no hay calificaciones
Medidas de Tendencia Central - Datos No Agrupadosy Agrupados-1
35 páginas
Bio Est 2
Aún no hay calificaciones
Bio Est 2
22 páginas
Analisis Cluster
Aún no hay calificaciones
Analisis Cluster
22 páginas
ClaseIA2c2
Aún no hay calificaciones
ClaseIA2c2
35 páginas
Distribución de Frecuencias Agrupadas
Aún no hay calificaciones
Distribución de Frecuencias Agrupadas
9 páginas
Control Estadístico de Procesos y Herramientas
Aún no hay calificaciones
Control Estadístico de Procesos y Herramientas
22 páginas
Métodos y Aplicaciones de Clustering
Aún no hay calificaciones
Métodos y Aplicaciones de Clustering
89 páginas
Métodos de Clustering en IA y Estadística
Aún no hay calificaciones
Métodos de Clustering en IA y Estadística
22 páginas
Estadística Descriptiva
Aún no hay calificaciones
Estadística Descriptiva
27 páginas
Presentación - K-Means.13775252 PDF
Aún no hay calificaciones
Presentación - K-Means.13775252 PDF
67 páginas
Indicadores de Seguridad y Estadística
Aún no hay calificaciones
Indicadores de Seguridad y Estadística
12 páginas
Cargo de Ingreso de Escrito (Centro de Distribución General)
Aún no hay calificaciones
Cargo de Ingreso de Escrito (Centro de Distribución General)
3 páginas
Company Profile Koala Bay
Aún no hay calificaciones
Company Profile Koala Bay
24 páginas
TAREA - TALLER Variables Estadísticas
Aún no hay calificaciones
TAREA - TALLER Variables Estadísticas
3 páginas
Componentes Del Petróleo PDF
100% (2)
Componentes Del Petróleo PDF
27 páginas
Médico General con Experiencia Integral
Aún no hay calificaciones
Médico General con Experiencia Integral
20 páginas
Manual de Usuario Frigorífico NFL 320
Aún no hay calificaciones
Manual de Usuario Frigorífico NFL 320
68 páginas
EVALUACION PEP-junio 2024
Aún no hay calificaciones
EVALUACION PEP-junio 2024
16 páginas
Proyecto Ventlador Con Bateria
80% (5)
Proyecto Ventlador Con Bateria
3 páginas
Evolución del Servicio Profesional Docente
Aún no hay calificaciones
Evolución del Servicio Profesional Docente
34 páginas
Evaluación 14h00 - 15h00 (Página 3 de 3)
Aún no hay calificaciones
Evaluación 14h00 - 15h00 (Página 3 de 3)
4 páginas
Historia Mortal Kombat 2
Aún no hay calificaciones
Historia Mortal Kombat 2
29 páginas
Tercera Línea de Defensa Inmunológica
Aún no hay calificaciones
Tercera Línea de Defensa Inmunológica
3 páginas
Adviento: Aprendiendo a Ser como Jesús
0% (1)
Adviento: Aprendiendo a Ser como Jesús
9 páginas
Estrategia Publicitaria para Carteras
Aún no hay calificaciones
Estrategia Publicitaria para Carteras
20 páginas
Consentimiento Del Paciente (Biomagnetismo Médico) - Protected - Unlocked
Aún no hay calificaciones
Consentimiento Del Paciente (Biomagnetismo Médico) - Protected - Unlocked
1 página
Plan de Trabajo: Sistema de Bombeo de Agua
Aún no hay calificaciones
Plan de Trabajo: Sistema de Bombeo de Agua
9 páginas
Guía Feria Ciencia Primaria
Aún no hay calificaciones
Guía Feria Ciencia Primaria
2 páginas
ACTA 002 - Autoevaluacion
Aún no hay calificaciones
ACTA 002 - Autoevaluacion
4 páginas
Combos Nutrilite
Aún no hay calificaciones
Combos Nutrilite
4 páginas
25 DE MAYO - TERCERO - Guión Completo - 230517 - 174515
Aún no hay calificaciones
25 DE MAYO - TERCERO - Guión Completo - 230517 - 174515
6 páginas
Enrutamiento y Redes de Comunicación
100% (1)
Enrutamiento y Redes de Comunicación
8 páginas
Acta No 12-2015
Aún no hay calificaciones
Acta No 12-2015
2 páginas
Investigación de Mercado: Métodos y Técnicas
Aún no hay calificaciones
Investigación de Mercado: Métodos y Técnicas
46 páginas
La terquedad de Spregelburd en el teatro
Aún no hay calificaciones
La terquedad de Spregelburd en el teatro
1 página
Pino Brochure Marzo 2025
Aún no hay calificaciones
Pino Brochure Marzo 2025
12 páginas
) Contabilidad (
Aún no hay calificaciones
) Contabilidad (
8 páginas
Procedimiento Seguro para Traslado Asfáltico
Aún no hay calificaciones
Procedimiento Seguro para Traslado Asfáltico
4 páginas
Evaluación de Informática 7º Grado
Aún no hay calificaciones
Evaluación de Informática 7º Grado
2 páginas
Plan Religioso Anual para Educación Básica
Aún no hay calificaciones
Plan Religioso Anual para Educación Básica
11 páginas
Contrato de Mano de Obra Cocina Pacaran
0% (2)
Contrato de Mano de Obra Cocina Pacaran
2 páginas