GOBIERNO DE DATOS
Módulo 01
Calidad de Datos
Modulo 1: Data Stewardship
Linaje de Calidad de
Data Stewarship datos datos
• Introducción
• Introducción
02 03
Desafíos
01
• • Introducción
• Tipos de datos
• En Gobierno de • Rol Metadata
• Framework
datos • Data Provenance
• Roles y
• Ciclo de vida • Visualización
responsabilidades
• Framework y • Data Governance
• Técnicas
componentes • Importancia
• Dimensiones
• Beneficios • Áreas clave
• Métricas
• Técnicas
• Matriz de calidad
• Tipos
• Matriz trazabilidad
INTRODUCCIÓN
CALIDAD DE DATOS
Las empresas se enfrentan a un crecimiento
La calidad de la información es esencial para el
exponencial en cuanto a la cantidad y
éxito de todos los proyectos de integración de
diversidad de datos a gestionar. datos.
“Actualmente se crean más datos en un día
que los que se crearon en toda la
humanidad hasta el año 2000”.
Una mala calidad de los datos cuesta muy
cara a la organización, atenta contra el
cumplimiento de normativas y conlleva, entre
otras consecuencias, una alteración de la
relación con los clientes, rupturas en la cadena
logística y una toma decisiones menos
pertinentes.
TIPOS DE DATOS
[Link]
DATOS ESTRUCTURADOS
Es la información que se encuentra almacenada
habitualmente en bases de datos relacionales;
los datos estructurados están ordenados en
registros (filas) y columnas (atributos), de manera
que se estructuran en formato tabla, teniendo un
título para cada categoría de datos que permita
poder identificarlos. En la mayoría de los casos se
trata de archivos de texto
DATOS SEMI ESTRUCTURADOS
Los datos semiestructurados tienen cierto nivel de estructura, jerarquía y
organización, pero carecen de un esquema fijo, aunque lo habitual es que
adopten una forma de árbol para poder manejarlos con más facilidad. Los
datos semiestructurados tienen metadatos, es decir, etiquetas y elementos
que se emplean para poder agruparlos y describir cómo almacenarlos, si
bien, su gestión y automatización no es tan sencilla como con los datos
estructurados.
DATOS NO ESTRUCTURADOS
Los datos no estructurados forman la mayor
parte de la información relevante para una
empresa u organización. Por lo general, son
datos binarios que no tienen una estructura
internar identificable. Es decir, sí poseen una
estructura interna, pero esta no está sujeta a
esquemas o modelos de datos predefinidos, por
lo que estamos ante un conjunto desorganizado
de varios objetos sin valor hasta que se
identifican y se almacenan de manera
organizada.
¿Cuánto estiman sea el % de datos no
estructurados dentro de las
organizaciones?
CALIDAD DE DATOS
¿DE DÓNDE LLEGAN LOS DATOS?
De terceros: Proveedores de servicios a la empresa.
Web service: Datos de la web o en línea, sin una estrategia para la
entrada de datos manual.
Datos provenientes de sensores, robots, dispositivos móviles
(deben ser normalizados, estandarizados y validados.)
Datos tipo texto: Aumentan la problemática alrededor de la calidad
de datos.
Sistemas internos: Datos de los sistemas de la empresa (CRM, ERP,
Herramientas de Marketing, otros)
CALIDAD DE DATOS
El valor real de los datos se da cuando,
basados en ellos, se genera
información que favorece una decisión
sobre otra, teniendo la certeza de que
los datos están libres de errores y que
poseen atributos relevantes.
El valor está en el impacto que tengan
esos datos en las decisiones de mayor
importancia para la organización.
CALIDAD DE DATOS
¿Por qué preocuparse?
Regla 1 -10 - 100
A Cuesta $1 verificar un registro en su momento de entrada, $10
limpiarlo y evitar duplicidad y $100 si no se hace nada (por las
ramificaciones de los errores).
Cambios constantes
B “El 25% de los datos de clientes de cualquier sistema transaccional u
operacional cambian anualmente”
Necesidades
C Las necesidades de inteligencia de negocio van aumentando día a
día.
Calidad de datos
D “La pobre calidad de los datos es la norma y no la excepción, pero la
mayoría de organizaciones se encuentran en un estado de negación
acerca de este tema”.
CALIDAD DE DATOS
Destacados componentes del proceso de calidad de datos
Singularidad Precisión
• Evite la disminución de la calidad de los • Los datos deben comprender de
datos a través de eliminación de información apropiada
información duplicada • Asegúrese de que los datos reflejen la
• Evite informar inconsistencias a través de realidad con precisión
actualizaciones relevantes de la base de
datos
Disponibilidad Integridad
• Garantice la disponibilidad de los datos • Asegúrese de que los datos sean
mediante el uso de medidas de seguridad completos y incluye toda la información
adecuadas requerida
• Proporcione permisos relevantes para • Evite posibles errores mediante el uso de
facilitar acceso conjuntos de datos completos
CALIDAD DE DATOS
Proceso de implementación del framework
Evaluación Diseño Ejecución Seguimiento
Evaluar los datos existentes sobre Desarrollar los flujos de datos, que • Ejecución del framework en Seguimiento y perfilado para
la base de: ayuden a garantizar que todos los datos existentes. garantizar:
• Fuentes de datos datos ingresados se transformen • Habilitar el framework para que • Que el proceso se ejecute de
• Metadatos en el estado deseado. se ejecute en el futuro flujo de acuerdo a las expectativas
• Métricas de calidad de datos Prácticas comunes a seguir: datos entrantes • Eliminar y reducir los
Realizar actividades tales como: • Análisis y fusión de datos problemas de calidad de datos
• Identificación de fuentes de • Limpieza de datos y
datos tales como el CRM, normalización
terceros, etc. • Data Matching y eliminación de
• Determinar atributos como el duplicados
nombre cliente, teléfono, etc. • Merging data (fusión de datos)
• Determinar el tipo de dato,
tamaño, patrones y formato.
• Seleccionar métricas de calidad
de datos.
CALIDAD DE DATOS
RETOS DESCRIPCIÓN SOLUCIONES
• Se pueden utilizar herramientas de identificaciones
• Ocurre debido a procesos aislados
de datos (Data Changes, Linaje)
Datos duplicidad • Agrupación de múltiples sistemas de registros de
• Limpieza periódica de base de datos para erradicar
datos
duplicidades
• Establecer estándares claros y garantizar su
• Ocurre debido a información inexacta proporcionada
implementación de manera estricta. (Linaje)
por clientes o terceros
Datos inexactos • Automatizar procesos para reducir entradas
• Error administrativo durante el proceso de ingesta de
manuales de datos
datos.
• Enormes cantidades de datos causan confusión
• Utilizar herramientas big data para un rápido análisis
Sobrecarga de datos • Conduce al excesivos tiempos de estudios por los
investigadores de la calidad de datos.
• Establecer pautas de recolección de datos
• La insuficiente disponibilidad de información
Datos irrelevantes • Definir el objetivo de la recolección de datos para
pertinente podría dar lugar conclusiones poco fiables
evitar la recopilación de datos innecesarios
CALIDAD DE DATOS
Riesgos asociados a la pobre calidad de data
• Dificultad para identificar potenciales oportunidades • Podrían llegar a que el 45% de los clientes
• Falta de desarrollo de productos y estrategias debido potenciales se clasifiquen como no aptos debido a
Oportunidades perdidas errores como duplicidad, formato de datos y otros.
a datos insuficientes o inexactos.
• Podría conducir a perdida de clientela potencial
• Objetivos incompletos de ventas e ingresos debido a • Perdida estimada de $ 15 millones por año debido a
Perdida de ingresos
una mala gestión de calidad de datos. una pobre calidad de datos.
• No existe una implementación de datos end to end
• Perdida estimade de $ 3.1 billones por malas
Aumento de costos financieros en los sistema de gestión de calidad
gestiones de calidad de datos.
• Con una mala gestión se buscan mayores artefactos
para solucionarlo, lo que genera gastos.
CALIDAD DE DATOS
Roles y responsabilidades del equipo de calidad
Formular una estrategia de
calidad de datos
• Mantener la calidad de datos en la
empresa
A Revisiones de los conjuntos de
• Determinar las necesidades de las datos
unidades de negocio y mejorar la calidad
B • Revisar la precisión e integridad
• Garantizar conjuntos de datos sin errores
Desarrollo de reportes de calidad
• Reportar el estado de la calidad de los
datos a la gerencia
C
• Incluir detalle sobre errores encontrados Evaluar la calidad de los datos
Sugerir cambios en el
D • Informes sobre cumplimiento de datos
• Realizar auditorías regularmente
almacenamiento de datos
• Determinar el estado físico optimo y
almacenamiento de los datos digitales.
E Realizar análisis de calidad de
• Garantizar que cumplan con las datos
necesidades de la empresa
F • Tendencias de calidad de datos
• Nuevas formas de gestionar la calidad de
datos.
CALIDAD DE DATOS
Técnicas de medición y control de calidad de datos
TÉCNICA DEFINICIÓN
Perfilado de datos Analiza los datos para comprender su estructura, contenido y calidad, identificando
problemas como valores nulos, valores atípicos y patrones incorrectos
Validación de datos Aplica reglas y controles para verificar la precisión y coherencia de los datos, como
la validación de formatos de datos o la verificación de integridad referencial.
Comparación de datos Compara los datos con fuentes externas o versiones anteriores para identificar
discrepancias y errores
Establecimiento de Define métricas para evaluar la calidad de los datos, como la exactitud, integridad,
métricas de calidad consistencia y relevancia, y realiza un seguimiento de estas métricas
Auditorías de datos Realiza auditorías periódicas para evaluar la calidad de los datos y garantizar el
cumplimiento de los estándares de calidad establecidos
Monitoreo de calidad de Supervisa continuamente la calidad de los datos para identificar y corregir
datos problemas a medida que surgen
Gestión de la calidad de Implementa procesos y controles para garantizar la calidad de los datos en todas las
datos etapas de su ciclo de vida
Fuente (DMBOK2)
CALIDAD DE DATOS
Dimensiones de la calidad de datos
DIMENSIÓN DESCRIPCIÓN EJEMPLO
Integridad El porcentaje de datos almacenados comparado con el Todos los registros de colaborador tienen
potencial del 100%. información completa y consistente en todas
las bases de datos.
Unicidad Identificar si los datos están duplicados en nuestro El número de documento es único en la tabla
dataset de personas
Puntualidad Asegura que los datos estén disponibles y sean La base de Cierre Financiero se genera y está
actuales cuando se necesiten. disponible el primer día hábil de cada mes.
Validez Los valores de los datos cumplen con los formatos, el correo cumple con el @ y .com como parte
estándar, longitudes, rangos, normas y convenciones de su contenido
establecidos
Exactitud Se utiliza para validar datos sensibles, unidad de la venta diaria no puede ser menor que 10 mil
medidas, volumetría, tendencias, decimales, entre otros unidades los fines de semana
Ausencia de diferencias, al comparar dos o más La número de documento de un colaborador es
Coherencia representaciones de una cosa con una definición. la misma en el sistema de ventas y en el
Garantiza que los datos sean coherentes en diferentes sistema de servicio al cliente.
representaciones.
CALIDAD DE DATOS
Dimensiones de la calidad de datos
DIMENSIÓN DESCRIPCIÓN EJEMPLO
Consistencia Los valores de un mismo dato son coherentes en todos venta válida, cliente válido
los repositorios o sistemas donde se encuentren
Confiabilidad La capacidad de los datos para ser confiables y Un sistema de reservas de vuelos siempre está
disponibles cuando se necesitan. disponible y muestra información precisa.
Completitud Los valores de los datos deben estar completos (tener Validar completitud campo celular del cliente.
un valor) para todos los registros. % de Cumplimiento = 93%
Disponibilidad Los datos deben estar siempre las tablas agregadas están disponibles a las
actualizados/refrescados/presentes en el repositorio 8:00 a.m. en la última semana
que los almacena
Actualidad Frecuencia con la que se actualizan los datos Los datos de procesos de reclutamiento y
selección se actualizan diariamente para
proporcionar informes con data actual.
CALIDAD DE DATOS
Métricas Efectivas de calidad de datos
MÉTRICA DESCRIPCIÓN EJEMPLO
Medibilidad Una métrica de calidad de datos debe ser medible, se Medir la calidad de los datos de la tabla de clientes en la
debe poder contar base de datos Northwind. Específicamente, nos centraremos
en la integridad y completitud de los datos de contacto de los
clientes (nombres, direcciones y números de teléfono).
Relevancia No todas las mediciones son útiles para los una empresa de comercio electrónico que utiliza datos de
para el negocio consumidores de datos es decir se debe diferenciar los clientes para campañas de marketing dirigidas. Quieres
datos críticos y no críticos antes de medirlos evaluar la relevancia de los datos de clientes en tu base de
datos para asegurarte de que están alineados con las
necesidades de las campañas de marketing.
Aceptabilidad Determina si los datos cumplen con la expectativa del Una métrica de aceptabilidad del 95% indica que el 95% de
negocio para ello se definen umbrales de aceptabilidad los datos de clientes cumplen con los criterios definidos, lo
específicos. Si el puntaje es igual o superior al umbral la cual puede ser aceptable o no dependiendo de los estándares
calidad de datos, se cumple con las expectativas del de calidad de la organización.
negocio en caso contrario no se cumple
CALIDAD DE DATOS
Métricas Efectivas de calidad de datos
MÉTRICA DESCRIPCIÓN EJEMPLO
Responsabilidad/ la capacidad de determinar quién es responsable de En un banco, se pueden establecer políticas estrictas
Custodia los datos en una organización y quién tiene la sobre quién puede acceder, modificar o eliminar ciertos
custodia de los mismos. Se define un responsable que datos financieros. La métrica de responsabilidad o
se encargue de realizar la medición y el seguimiento custodia podría medir qué porcentaje de las
de la métrica normalmente es el data custodian. Los transacciones financieras se realizaron siguiendo estas
responsables de definir , aprobar las métricas es el políticas. Un resultado del 95% indicaría un alto nivel de
data owner en conjunto con el data steward responsabilidad de datos.
Controlabilidad Una métrica debe reflejar un aspecto que sea Para la gestión de inventario de una empresa. Se pueden
controlable por el negocio. si en caso la métrica establecer controles y procesos para garantizar que los
estuviera fuera de rango, debería producirse alguna datos de inventario estén actualizados y sean precisos.
acción para mejorar los datos solo si la métrica La métrica de controlabilidad podría medir la cantidad de
resulta útil para el negocio. artículos de inventario que tienen información actualizada
y correcta en comparación con el total de artículos en
inventario.
Tendencia Las métricas permiten el seguimiento y análisis de los una empresa de comercio electrónico que registra
cambios en la calidad de los datos a lo largo del información sobre la satisfacción del cliente después de
tiempo. Esta métrica es útil para identificar patrones y cada compra. La métrica de tendencia aquí se centraría
prever problemas futuros, lo que permite a las en cómo la calidad de los datos de satisfacción del
organizaciones tomar medidas proactivas para cliente ha evolucionado con el tiempo.
mejorar la calidad de sus datos.
CALIDAD DE DATOS
Arquitectura de Datawarehouse Telecomunicaciones
¿ Dónde se aplica la calidad de datos ?
La calidad de datos se recomienda aplicar en la ingesta de datos para asegurar que la data este correcta al ingresar al negocio y en los puntos de
transformación de datos, asegurando estas transformaciones no afecten la calidad de la data origen.
Ejemplo:
debería iniciar aplicando calidad en la capa de INGESTA DE DATOS(entrada) como en las transformaciones realizadas al pasar la RAW Data a DWH.
CALIDAD DE DATOS
Matriz de Calidad de datos
Documento que nos permite especificar el
mapeo de reglas de calidad de datos
del negocio para mejorar continuamente
la calidad de los datos, alineándola con los
objetivos y necesidades del negocio
Test calidad de datos
Se tomará el test de lo revisado en
esta presentación.
Progreso de trabajo
IR revisando progresos del trabajo
final
SIGUIENTE
CLASE
Talleres Consideraciones a tener para la
siguiente clase
Se realizarán talleres sobre la matriz
de calidad y ejemplos de calidad en
SQL Server
SQL Server
Se les compartirá un tutorial para que
puedan instalar el SQL Server, el cual
se ejecutará en la clase también.
¿ PREGUNTAS ?