U2.
Preprocesamiento
de Datos
GERARDO santana MENDOZA 21321203
JONATHAN TAPIA BENITO 21321225
IAN ANTONIO MONTERO GUZMAN 21321113
JOSE LUIS CADENA SANDOVAL
JPSE LUIS LORENZO SANTIAGO 21321087
BRYAN ALEXIS MONGOY CANO 21321111
RUTH NOEMI MORALES MUÑOZ 21321119
INTRODUCCIO
N
• El preprocesamiento de datos es
una de las etapas
fundamentales en la minería de
datos. Su objetivo es preparar
los datos para su posterior
análisis y modelado, asegurando
que sean precisos, consistentes
y útiles. Se compone de cuatro
fases principales: limpieza,
integración, transformación y
reducción de datos.
2.1 Limpieza de Datos
• La limpieza de datos es el proceso mediante el
cual se eliminan o corrigen errores en los datos. Es
crucial porque datos erróneos pueden afectar los
resultados del análisis.
• Eliminación de datos incorrectos: Se
identifican y eliminan datos inconsistentes o
irrelevantes.
• Manejo de valores faltantes: Se aplican
técnicas para completar o eliminar valores
perdidos.
• Reducción del ruido: Se aplican métodos para
filtrar información errónea o atípica.
2.1.1Valores Faltantes
Los valores faltantes son datos ausentes en un conjunto de datos, lo que puede
afectar la calidad del análisis y la toma de decisiones. Estos valores pueden
ocurrir por diversas razones, como errores en la recolección de datos, fallas en
sensores, omisiones humanas o restricciones en la disponibilidad de información.
Causas de los valores faltantes
Errores en la recopilación de datos: Fallos en sistemas de captura de información.
Datos confidenciales: Algunas personas pueden omitir información sensible en
encuestas.
Fallas técnicas: Sensores defectuosos o errores en la transmisión de datos.
Falta de compatibilidad: Algunas bases de datos pueden no registrar ciertos
valores
Tipos de valores faltantes
• MCAR (Missing Completely At Random): La ausencia del
dato es completamente aleatoria y no está relacionada con
ninguna variable.
• MAR (Missing At Random): La falta del dato depende de
alguna otra variable observada en el conjunto de datos.
• MNAR (Missing Not At Random): La ausencia del dato
depende del valor del mismo dato que falta.
2.1.2 Ruido en los Datos
• Definición: El ruido en los datos se refiere a valores que no siguen
un patrón esperable y pueden distorsionar los análisis. Estos valores
erróneos o inconsistentes pueden deberse a errores en la medición,
problemas en la recolección de datos o incluso fluctuaciones
aleatorias en los sistemas.
Causas del Ruido en los Datos
• El ruido en los datos puede originarse por diversas razones, entre
ellas:
• Errores humanos: Introducción manual de datos con errores
tipográficos o valores incorrectos.
• Sensores defectuosos: En dispositivos de medición, algunos
sensores pueden registrar valores erróneos debido a fallas técnicas.
• Interferencias externas: Factores como ruido electromagnético o
variaciones ambientales pueden alterar las mediciones.
• Problemas en la transmisión de datos: Pérdidas de información
o alteraciones durante el envío de datos pueden introducir ruido.
• Factores aleatorios: Algunos datos pueden variar de forma
Efectos del Ruido en los Datos
• El ruido puede afectar
significativamente el análisis de datos,
generando problemas como:
• Errores en modelos predictivos: Los
modelos de aprendizaje automático
pueden verse afectados, reduciendo su
precisión.
• Dificultad en la identificación de
patrones: El ruido puede ocultar
tendencias reales en los datos.
• Aumento en la complejidad del
procesamiento: Se requiere más
esfuerzo computacional para limpiar
Técnicas para reducir ruido
• Suavizado por binning: Agrupar
valores en intervalos y promediar.
• Promedios móviles: Se usa un
conjunto de valores cercanos para
calcular un promedio deslizante y
reducir fluctuaciones.
• Eliminación de outliers: Detectar y
eliminar valores atípicos que no
representan la tendencia general.
2.2 Integración y
Transformación
• Para mejorar la calidad de
los datos, se pueden aplicar
dos procesos clave:
• Integración: Combinar
datos de múltiples fuentes
para evitar redundancias y
mejorar la coherencia.
• Transformación: Convertir
los datos a formatos
adecuados para facilitar su
análisis y modelado.
2.2.1Integración de Datos
¿Qué es la integración de datos?
La integración de datos unifica y combina información de múltiples
fuentes para generar estadísticas avanzadas. Es clave en la
transformación digital, optimizando operaciones y competitividad.
Con el auge del IoT, SaaS y la nube, este proceso permite consolidar
datos estructurados y no estructurados, facilitando análisis desde
consultas básicas hasta predicciones complejas.
Principales desafíos de la integración de
datos
• 1. Dificultad en el uso de plataformas de integración
de datos
• 2. Administración de datos a gran escala
• 3. Integración a través de varios estilos de publicación
• 4. Problemas de semántica de datos
• 5. Altos costos operativos y de infraestructura
• 6. Datos estrechamente vinculados con aplicaciones
Herramientas de integración de datos
Las plataformas de integración de datos suelen incluir las
siguientes herramientas:
1. Herramientas de transferencia de datos
2. ETL (Extracción, Transformación y Carga)
3. Catálogos de datos
4. Administración de datos
5. Limpieza de datos
6. Migración de datos
7. Administración de datos maestros
8. Conectores de datos
Casos de uso de la integración de datos
1. Inteligencia Artificial (IA) y Aprendizaje Automático
(AA)
2. Almacenamiento de datos
3. Desarrollo de data lakes
4. Migración a la nube y replicación de bases de datos
5. Internet de las cosas (IoT)
6. Inteligencia en tiempo real
Ventajas de la integración de datos en la
nube
•Facilita la transferencia de datos y mejora la gestión de
información.
•Reduce costos en licencias, almacenamiento e integración.
•Aumenta escalabilidad y reutilización de datos.
•Evita silos, mejora integridad y elimina redundancia.
•Permite acceso en tiempo real desde cualquier dispositivo.
•Compatible con SaaS para mayor flexibilidad.
2.2.2 Transformación de Datos
¿Qué es la transformación de datos?
La transformación de datos es un proceso esencial en
la integración de datos, donde los datos sin procesar
se convierten en un formato unificado para garantizar
compatibilidad con los sistemas de destino y mejorar
su calidad y usabilidad. Se emplea en diversas
prácticas de gestión de datos, como análisis,
almacenamiento y migración.
Casos de uso de la transformación de
datos
Las organizaciones emplean la transformación de datos para diversos fines,
incluyendo:
Inteligencia Almacenamiento de Aprendizaje
empresarial datos automático
Analytics de big Migración de
data datos
Proceso de transformación de datos
El proceso de transformación de datos sigue una serie de
pasos estructurados:
1.Descubrimiento de datos: Identificación y recopilación de
datos desde diferentes fuentes (API, bases de datos SQL, archivos
internos, etc.).
2.Limpieza de datos: Eliminación de errores, duplicados y valores
atípicos para garantizar calidad y confiabilidad.
3.Mapeo de datos: Definición de cómo los datos de origen se
corresponden con los del sistema de destino.
4.Generación de código: Creación de scripts o uso de
herramientas para transformar los datos.
Transformación de datos ETL vs. ELT
ETL (Extract, Transform, Load):
• Extrae datos de origen, los transforma en una zona intermedia y luego los carga en el
sistema de destino.
• Es ideal para almacenamiento on-premises y datos estructurados de menor
volumen.
• Se emplea en casos que requieren estrictos controles de calidad y seguridad, como
información regulada.
ELT (Extract, Load, Transform):
• Extrae los datos y los carga en la nube antes de transformarlos.
• Permite un procesamiento más ágil y escalable, adecuado para datos no
estructurados como imágenes y textos.
• Se beneficia del poder de cómputo en la nube, permitiendo análisis en tiempo real.
Tipos de transformación de datos
• Limpieza de datos: Eliminación de errores y duplicados.
• Agrupación de datos: Resumir múltiples registros en valores agregados.
• Normalización de datos: Convertir valores a un formato común.
• Codificación de datos: Convertir datos categóricos a valores numéricos.
• Enriquecimiento de datos: Agregar información externa relevante.
• Imputación de datos: Rellenar valores faltantes con datos plausibles.
• División de datos: Separar conjuntos de datos para diferentes propósitos (ej.
entrenamiento y prueba en machine learning).
• Discretización de datos: Convertir datos numéricos en categorías predefinidas.
• Generalización de datos: Resumir grandes volúmenes de datos en formatos
simplificados.
• Visualización de datos: Representar datos en gráficos para facilitar su interpretación.
Herramientas de transformación de
datos
Existen diversas herramientas para facilitar el proceso de
transformación de datos:
1.Herramientas ETL y ELT: Apache NiFi, Informatica, entre otras.
2.Plataformas de integración de datos: IBM Cloud Pak for Data y
otras soluciones en la nube.
3.Herramientas de preparación de datos: Software especializado
en limpieza y conversión de datos.
4.Lenguajes de programación: Python y R, con bibliotecas como
Pandas para manipulación de datos.
Beneficios de la transformación de datos
La transformación de datos proporciona ventajas
clave:
Mejor calidad Mayor Mayor compatibilidad
de datos compatibilidad e integración
e integración
Escalabilidad y
Accesibilidad Seguridad y
flexibilidad
optimizada cumplimiento
2.3 Discretización y Jerarquías Conceptuales
• Discretización: La discretización es el proceso de
transformar variables continuas en variables categóricas
dividiendo su dominio en intervalos o categorías
discretas. Este proceso es útil en aprendizaje automático
y minería de datos, ya que permite convertir datos
numéricos en atributos categóricos más manejables.
• Jerarquías Conceptuales: Las jerarquías
conceptuales establecen niveles de abstracción en los
datos, permitiendo organizar la información en
diferentes escalas de generalización.
Importancia de la Discretización y
las Jerarquías Conceptuales
• Facilitan el análisis y la interpretación de datos.
• Mejoran el rendimiento de algoritmos de aprendizaje
automático.
• Ayudan a reducir el ruido en los datos y aumentar la
eficiencia de los modelos predictivos.
• Permiten la generalización y estructuración de información
en diferentes niveles de detalle.
Métodos de Discretización:
1.Discretización supervisada:
1. Se basa en la información de la clase objetivo para dividir
los valores en categorías óptimas.
2.Discretización no supervisada:
1. No considera la clase objetivo, sino que divide los datos
según criterios estadísticos.
3.Discretización basada en agrupamiento:
1. Utiliza técnicas de clustering (como k-means) para definir
grupos de valores similares.
Ejemplo de Aplicación de la
Discretización
Problema: Predicción del
Riesgo de Diabetes
Imagina que estás trabajando
en un modelo de aprendizaje
automático para predecir si
una persona tiene un alto
riesgo de desarrollar
diabetes en función de su
nivel de glucosa en sangre.
Discretización de la Glucosa
Podemos agrupar los valores de glucosa
en tres categorías de riesgo:
Datos después de la Discretización
¿Para qué sirven las jerarquías
conceptuales?
•Agrupación de datos: Permiten estructurar la
información en niveles de detalle.
•Generalización y especialización: Se puede ir de lo
específico a lo general (o viceversa).
•Facilitan el análisis: Se pueden hacer estudios y análisis
en diferentes niveles de granularidad.
•Reducción de la dimensionalidad: Al agrupar datos en
categorías superiores, se simplifica la información.
Aplicaciones de las Jerarquías
Conceptuales
• Minería de datos: Se pueden agrupar datos para
encontrar patrones generales.
• Bases de datos multidimensionales: Son clave en
modelos OLAP para consultas agregadas.
• Inteligencia Artificial y Aprendizaje Automático: Se
utilizan para reducir la dimensionalidad y mejorar la
clasificación.
• Visualización de datos: Se pueden crear gráficos que
muestren tendencias a distintos niveles.
Ejemplo de Aplicación de Jerarquías Conceptuales:
Análisis de Ventas en un Supermercado
Escenario
• Un supermercado quiere analizar sus ventas en distintos
niveles de detalle para tomar decisiones estratégicas. Para
ello, organiza los productos en una jerarquía conceptual
que permite visualizar las ventas desde una perspectiva
general hasta una más específica.
Ejemplo de Jerarquía Conceptual:
• Consideremos una jerarquía para la variable edad:
• Nivel 1 (más detallado): Edad exacta (28 años, 35 años,
42 años).
• Nivel 2: Rango de edad (20-30, 31-40, 41-50).
• Nivel 3: Categorías amplias (Joven, Adulto, Anciano).
Jerarquía Conceptual de los Productos
Aplicación en un Sistema de
Inteligencia de Negocios
Un sistema OLAP (procesamiento analítico en línea) puede aplicar
esta jerarquía para permitir consultas flexibles:
1.Consulta General:
1. "¿Cuál es la venta total de Alimentos este mes?"
2. Resultado: $500,000 MXN
2.Consulta Específica:
1. "¿Cuánto se vendió en la subcategoría Lácteos?"
2. Resultado: $120,000 MXN
3.Consulta Detallada:
1. "¿Cuántas unidades de Leche Alpura 1L Deslactosada se vendieron?"
2. Resultado: 3,500 unidades
2.4 Reducción de Datos
La reducción de datos es el proceso por el que
una organización se propone limitar la cantidad
de datos que almacena.
Las técnicas de reducción de datos tratan de
disminuir la redundancia del conjunto de datos
original, de modo que grandes cantidades de
datos de origen puedan almacenarse de forma
más eficiente como datos reducidos.
Objetivos de la reducción de datos
• 1. Reducir la dimensionalidad: Reducir el número de
características o variables en un conjunto de datos.
• 2. Eliminar la redundancia: Eliminar datos duplicados
o redundantes.
• 3. Mejorar la eficiencia: Reducir el tiempo y los
recursos necesarios para analizar y procesar los
datos.
• 4. Mejorar la precisión: Reducir el ruido y la
variabilidad en los datos para mejorar la precisión de
los modelos y análisis.
Métodos de reducción de datos.
1. Selección de características: Seleccionar un
subconjunto de características más relevantes y
eliminar las demás.
2. Eliminación de datos faltantes: Eliminar registros
con datos faltantes o incompletos.
3. Eliminación de datos duplicados: Eliminar registros
duplicados.
4. Transformación de datos: Transformar los datos en
una forma más compacta y eficiente.
4. Muestreo: Seleccionar un
subconjunto de registros al azar.
Técnicas de reducción de datos.
1.Análisis de componentes principales
(PCA): Reducir la dimensionalidad mediante
la identificación de componentes
principales.
3. Análisis de cluster: Agrupar registros
similares y reducir la dimensionalidaD
3. Análisis de correlación: Identificar variables
altamente correlacionadas y eliminar una de ellas.
• La correlación es un tipo de asociación entre dos variables numéricas,
específicamente evalúa la tendencia (creciente o decreciente) en los
datos.
• Dos variables están asociadas cuando una variable nos da información
acerca de la otra. Por el contrario, cuando no existe asociación, el
aumento o disminución de una variable no nos dice nada sobre el
comportamiento de la otra variable.
2.4.1 Cubo de Datos
Cubo de Datos
• El cubo de datos es una estructura
multidimensional utilizada en bases de
datos OLAP (Online Analytical
Processing), facilitando análisis
avanzados mediante:
Características
• Exploración interactiva: Permite
navegar entre diferentes
dimensiones de los datos.
• Multidimensionalidad: Los datos se
organizan en múltiples
dimensiones, como tiempo,
geografía, producto, cliente,etc.
Jerarquías: Cada dimensión puede tener múltiples
niveles de detalle, lo que permite analizar los
datos desde diferentes perspectivas.
Medidas: Los datos se resumen en medidas como
suma, promedio, conteo, etc.
Flexibilidad: Los cubos de datos permiten analizar
los datos desde diferentes perspectivas y realizar
consultas complejas.
Ventajas de los cubos de datos
1. Análisis rápido y eficiente: Los cubos de datos
permiten analizar grandes cantidades de
información de manera rápida y eficiente.
2. Flexibilidad y personalización: Los cubos de
datos permiten analizar los datos desde
diferentes perspectivas y realizar consultas
complejas.
3. Mejora la toma de decisiones: Los cubos de
datos proporcionan información valiosa
para tomar decisiones informadas.
OLAP frente a OLTP
El procesamiento de transacciones en línea, u OLTP, se refiere
a los métodos de procesamiento de datos y software
centrados en datos y aplicaciones orientados a transacciones.
Las herramientas OLAP están diseñadas para el análisis
multidimensional de los datos de un almacén de datos, que
contiene tanto datos transaccionales como históricos. De
hecho, un servidor OLAP suele ser el nivel analítico intermedio
de una solución de almacenamiento de datos.
Los usos habituales de OLAP incluyen la minería de datos y
otras aplicaciones de business intelligence, cálculos analíticos
complejos y escenarios predictivos, así como funciones de
elaboración de informes empresariales como el análisis
financiero, la elaboración de presupuestos y la planificación de
previsiones.
2.4.2 Subconjuntos de Atributos
• La selección de un subconjunto de atributos (también
llamada reducción de dimensionalidad) es una técnica
utilizada en minería de datos para identificar y conservar
solo los atributos más relevantes de un conjunto de datos,
eliminando aquellos que son redundantes o irrelevantes.
Ventajas
1. Mejora la eficiencia:
2. Evita el sobreajuste:
3. Facilita la interpretación:
Métodos de Selección de Atributos
Métodos de Filtro
Evalúan los atributos de manera independiente
antes de aplicar un modelo de aprendizaje. Se
basan en métricas estadísticas para medir la
relación entre los atributos y la variable objetivo.
Ejemplos:
1. Correlación:
2. Chi-cuadrado:
3. Información mutua:
Métodos de Selección de Atributos
Métodos de Envolvente
Seleccionan atributos probando distintas
combinaciones en un modelo y eligiendo la
mejor. Son más precisos que los métodos de
filtro, pero más costosos computacionalmente.
Técnicas comunes:
1. Búsqueda hacia adelante
2. Búsqueda hacia atrás
2.4.3 Reducción de Dimensiones
La reducción de dimensiones es una técnica
utilizada en minería de datos para disminuir la
cantidad de atributos (o variables) en un
conjunto de datos mientras se conserva la
mayor cantidad posible de información
relevante. Esto se hace eliminando atributos
redundantes o combinando varios atributos en
nuevos atributos representativos.
Importancia
• Reduce el costo computacional: Menos atributos
significan menos datos que procesar, lo que mejora el
rendimiento de los algoritmos de aprendizaje automático.
• Evita el sobreajuste: Con menos atributos irrelevantes,
los modelos generan mejores predicciones y generalizan
mejor a datos nuevos.
• Facilita la visualización y el análisis: En problemas con
muchas variables, la reducción de dimensiones permite
visualizar mejor los datos.
Métodos de Reducción de Dimensiones
Selección de Atributos Extracción de Atributos
Se elige un subconjunto de los Se transforman los atributos
atributos originales, originales en un nuevo conjunto de
eliminando aquellos que son atributos reducidos pero
representativos.
irrelevantes o redundantes.
Métodos comunes:
Métodos comunes: • Análisis de Componentes
• Correlación Principales (PCA):
• Información Mutua • Análisis Discriminante Lineal (LDA):
• Algoritmos Wrapper • Autoencoders (Redes Neuronales):
Conclusión
El preprocesamiento de datos es una fase esencial en la minería de datos
y el análisis de información, ya que garantiza la calidad y utilidad de los
datos antes de ser utilizados en modelos o análisis avanzados. La
limpieza de datos aborda problemas como los valores faltantes y el ruido,
permitiendo eliminar inconsistencias que podrían afectar los resultados.
La integración y transformación unifican múltiples fuentes de datos y
ajustan su estructura para que sean compatibles con los procesos
analíticos.
Además, la discretización y las jerarquías conceptuales facilitan la
simplificación de datos continuos en categorías manejables, lo que
mejora la interpretabilidad y el rendimiento de ciertos algoritmos. La
reducción de datos, a través de técnicas como la construcción de cubos
de datos, la selección de subconjuntos de atributos y la reducción de
dimensiones, optimiza el almacenamiento y procesamiento sin perder
Referencias
PowerData. (n.d.). Integración de datos: Concepto e importancia en la
empresa actual. Recuperado de
https://www.powerdata.es/integracion-de-datos
GoogleCloud. What is data integration: Definicon y características
https://cloud.google.com/learn/what-is-data-integration?hl=es-419
IBM. Data transformation
https://www.ibm.com/mx-es/think/topics/data-transformation