Calidad de datos:
completitud, unicidad,
consistencia y validez
Elaborado por:
María del Pilar Villamil y Daniel Galindo Ruiz
Hola, en esta infografía vamos a hablar sobre calidad de
datos y en particular de estos tipos de problemas:
completitud, duplicidad, consistencia y validez. Además de
ello, veremos ejemplos en los que ocurre este problema y te
mostraremos las soluciones o alternativas a las que puedes
recurrir cuando encuentres este tipo de problema.
Esperamos que te guste.
¿Qué es la calidad de los datos?
La calidad de los datos hace referencia a la idoneidad de los datos para cumplir con los
requerimientos del negocio.
La calidad es de nida en términos de completitud, unicidad, consistencia y validez.
Esas características o dimensiones de la calidad, son evaluadas de acuerdo con el uso esperado de
los datos. En esta presentación veremos qué son cada una de esas características, las causas
cuando hay algún problema con estas características y soluciones, así como ejemplos pequeños.
En la diapositiva a continuación encontrarás una forma de navegar rápidamente a cada una de las
características de calidad de datos y a su correspondiente contenido.
Dimensiones de calidad de datos
Haz click en cualquiera de los hexagonos para ir a la dimensión de calidad de datos
correspondiente. Puedes volver a este menú con el botón con ícono de casa en la
parte inferior de cualquier diapositiva.
Completitud Consistencia
Unicidad Validez
¿Qué es la completitud?
La completitud es una dimensión de la calidad de datos, la cual se de ne por la existencia
o no de un dato según un criterio de nido.
Más especí camente, la completitud se puede generar cuando en las fuentes de datos se
dan algunas de estas situaciones:
El dato no existe.
El dato existe pero no se conoce.
No se sabe si el dato existe.
¿Cómo se ve la falta de datos en una fuente?
NULL es un valor por
defecto que se usa en bases
de datos para indicar la falta
ID Nombre Edad Correo de un dato. En este caso, es
el correo que no se conoce.
En Python, se usa 'None'.
1 Laura 30 NULL
Puede haber datos
2 Juan NULL NULL faltantes en más de una
columna, incluso todas
las columnas pueden
3 Sofía 32 sofia@[Link] faltar.
Esta es una la donde
no hay datos faltantes.
¿Cómo se mide la completitud?
La completitud se mide en porcentaje, cuyo valor deseable es 100%, pero en muchos casos no es así.
Tenemos tres formas principales de medir la completitud de datos de una fuente que son por columna, la o
fuente.
Completitud por columna:
ID Nombre Edad Correo
%Ccol = (1 - (NVI / NTF)) * 100
Donde:
NVI = Número de valores 1 Laura 30 NULL
incompletos.
NTF = Número total de las.
2 Juan NULL NULL
En este ejemplo, la columna señalada
tiene 2 valores faltantes de 3 las 3 Sofía 32 sofia@[Link]
totales. La completitud de la columna
es entonces de 33.33%.
¿Cómo se mide la completitud?
Otra forma de medir la completitud es a nivel de la. A continuación, tenemos la ecuación que
nos permite hacer el cálculo.
Completitud por la:
%C la = (1 - (NCI / NTC)) * 100 ID Nombre Edad Correo
Donde:
NCI = Número de columnas 1 Laura 30 NULL
incompletas.
NTC = Número total de columnas.
2 Juan NULL NULL
En este ejemplo, la la señalada tiene
4 columnas y dos de ellas están 3 Sofía 32 sofia@[Link]
incompletas, su completitud es
entonces 50%.
¿Cómo se mide la completitud?
La última forma de medir la completitud es a nivel de tabla o conjunto de datos. A continuación,
tenemos la ecuación que nos permite hacer el cálculo.
Completitud por tabla o conjunto:
%Ctabla = (1 - (NFI / NTF)) * 100 ID Nombre Edad Correo
Donde:
NFI = Número de las incompletas. 1 Laura 30 NULL
NTF = Número total de las.
En este ejemplo, la tabla tiene un total 2 Juan NULL NULL
de 3 las, de las cuales hay dos que
están incompletas ( las 1 y 2). Por lo 3 Sofía 32 sofia@[Link]
cual, la completitud de esta tabla es
de 33.33%.
¿Cuáles son las causas de la falta de datos?
Al diligenciar Pérdidas dentro de la organización:
La persona que provee información, las - Problemas en la actualización de una
la información no la personas pueden base de datos.
quiere dar (o la da de olvidar llenar un - Errores en la integración de fuentes.
manera incorrecta). campo. - Errores al digitalizar datos desde
papel.
¿Cuáles son las soluciones a este problema?
Si es posible, acudir al dueño
Completar los faltantes
Usar modelos de Retirar las las de la información para que
con datos estadísticos
regresión/ donde faltan datos. provea los datos faltantes.
como mínimo,
clasi cación. Buscar Esto se hace Esto puede ser por ejemplo
promedio, máximo o
rasgos generales en los cuando los dos con encuestas o formularios.
usar una constante
datos que permitan métodos previos Sin embargo, puede ser
de nida por el negocio.
determinar el valor del no funcionan. costoso en tiempo y recursos.
dato faltante.
¿Qué es el problema de la unicidad de
datos?
La unicidad de datos es un problema de calidad de
datos en la analítica que se da cuando la
representación de una entidad de la vida real
aparece en varias las o registros con contenido
similar o idéntico en la fuente de datos.
¿Cuáles son las causas de la unicidad de datos?
Procesos de Alteración directa
Falta de control sobre la Errores al momento
integración de dos o sobre el contenido
manera de detectar las de actualizar las
más fuentes, en los original. En
o registros únicos en la fuentes de datos. Es
que tras hacer la ocasiones, esto se
base de datos. decir, al actualizar
operación de unión, hace con inteciones
un registro no se
se repiten datos en de cometer fraude.
borra el anterior.
una o más columnas.
¿Cuáles son las soluciones a este problema?
Al encontrar registros duplicados, noti car al negocio si es el caso.
Entender el o los procesos que En caso de tener registros con
generan los datos para llegar a Seleccionar un registro contenidos similares es necesario
la causa del problema y representante entre los veri car que los duplicados
corregirlo. Es ideal corregir los duplicados e ignorar o representen la misma entidad para
datos en la fuente original. eliminar el resto de poder uni car sus valores en uno
duplicados. solo.
¿Cómo se ve la unicidadde datos en una fuente?
El contenido de todas las
ID Nombre Teléfono Correo Ciudad columnas, incluída la
columna de Identi cador
1 Lina Rojas 600312845 lrojas@[Link] Tunja (ID) están repetidas.
1 Lina Rojas 600312845 lrojas@[Link] Tunja
El contenido de las
2 Pedro López 601324987 plopez@[Link] Bogotá columnas, excepto por la
3 Pedro López 601324987 plopez@[Link] Bogotá columna de identi cador
(ID) están repetidas.
4 Luz Gil 200653210 lgil@[Link] Cali
5 Luz Gil 200653210 lgil@[Link] Pasto
El contenido de las
columnas que se usa para
analizar es igual.
¿Qué es la consistencia de datos?
La consistencia de los datos es de nida en términos de la
integridad de los datos entre diferentes las o columnas de
una fuente o varias fuentes.
A continuación, veremos los tipos de consistencia.
¿Qué tipos de consistencia existen?
CONSISTENCIA
CONSISTENCIA
ESTRUCTURAL
SEMÁNTICA CONSISTENCIA
+ Hace referencia a la
manera en que se + Hace referencia a las DE CONTENIDO
representan las estructuras a de niciones o signi cados que
tienen los datos de las columnas + Este tipo de consistencia
utilizar para almacenar hace referencia a la
valores de atributos similares de una fuente que representan
la misma entidad, al igual que el correctitud del valor al
en las fuentes.
nombre asignado a dichas compararlo con otras las o
+ Datos con el mismo valor columnas. columnas.
deben ser almacenados con
el mismo tamaño y tipo de + Columnas que representan el + Datos que están
dato. mismo concepto, deben tener el relacionados entre ellos
mismo nombre y signi cado. deben ser coherentes.
A continuación se presenta un ejemplo con muestras de dos
tablas de una misma organización. Las tablas guardan datos
similares, sin embargo, por problemas de actualización de la
base de datos, vas a encontrar ciertas diferencias que llevan
a problemas de consistencia.
En particular, encontrarás en el ejemplo los 3 tipos de falta
de consistencia que viste antes.
Vamos allá.
¿Cómo se ve la falta de consistencia en los datos?
+ Entre estas dos tablas, se ve que en una
ID Nombre (VARCHAR(50)) Género Identificación (VARCHAR) Código
tabla la cédula es de tipo VARCHAR y en la
otra es INTEGER. Esto es un problema de
consistencia estructural.
1 Juan Pérez Femenino 52381245 201819000
+ ¿ Identi cas otro ejemplo con problemas
de consistencia estructural?
2 Lucía Roa Masculino 79884096 201910010
+ Entre estas dos tablas, se ve que las ID Nombre (VARCHAR(100)) Género Cédula (INTEGER) Código
columnas identi cación y cédula
representan el mismo concepto. Sin
embargo, tienen nombres distintos. Esto es 1 Juan Pérez Femenino 52381245 1819000
un problema de consistencia semántica.
+ ¿Cómo generarías otro problema de 2 Lucía Roa Masculino 79884096 1910010
consistencia semántica para este caso?
¿Cómo se ve la falta de consistencia en los datos?
Nombre Identificación
ID Género Código
(VARCHAR(50)) (VARCHAR)
1 Juan Pérez Femenino 52381245 201819000
+ Vemos un problema de consistencia de
contenido en estas las ya que en Colombia,
las cédulas que empiezan con "52" son de 2 Lucía Roa Masculino 79884096 201910010
mujeres y las que empiezan con "79" son de
hombres.
ID Nombre (VARCHAR(100)) Género Cédula (INTEGER) Código
+ No hay consistencia entre género y cédula.
+ ¿Identi cas otro ejemplo con problemas de 1 Juan Pérez Femenino 52381245 1819000
consistencia de contenido?
2 Lucía Roa Masculino 79884096 1910010
¿Cómo se ve la falta de consistencia en los datos?
IDOrden Total productos Valor orden
12 3 500.000
34 2 200.000
+ Vemos un problema de consistencia de
contenido en estas dos tablas. La primera IDProducto IDOrden Valor Producto
muestra que en una órden de compra se 34 12 100.000
adquirieron 3 productos por un total de
500.000. Sin embargo, si revisas el detalle de 45 12 150.000
la órden encuentras 4 productos asociados y 56 12 200.000
un valor total que supera los 500.000.
67 12 200.000
+ No hay consistencia entre la información 89 34 100.000
de esas dos tablas.
+ ¿Identi cas otro ejemplo con problemas de 90 34 50.000
consistencia de contenido?
92 34 50.000
Adicional a las de niciones que vimos previamente sobre la
consistencia de datos, tenemos también formas de
analizarla. Estas formas de analizarla son lo que llamamos
"dimensiones de consistencia" y ayudan a caracterizarla,
cuanti carla y a de nir procesos para su validación o
corrección. Es decir, son a su vez, las soluciones para la falta
de consistencia.
A continuación, te mostraremos estas dimensiones con sus
respectivas métricas, las cuales pueden servirte para mitigar
este problema.
Dimensiones de la consistencia
Característica Criterio Métrica
Los datos presentados en una pantalla deben estar acordes con el formato de
Presentación Definir formatos de presentación para cada dato.
presentación definido.
Garantizar que cada formato definido para la
Completitud de Se debe verificar que todos los posibles datos de un atributo, utilizando el
representación de un atributo, permite mostrar todos los
presentación formato propuesto, muestran el dato de forma correcta.
posibles valores de ese atributo.
Presentación de Cualquier atributo que permite datos faltantes, debe tener una
valores Definir estándares para representar datos faltantes. representación única. Si es posible identificar la razón, se pueden utilizar
faltantes representaciones por razón de ausencia.
Captura y Los participantes involucrados en procesos de actualización, importación o
Definir reglas para editar e importar datos.
recolección migración de datos, deben seguir las reglas definidas.
Elaboración propia a partir de los datos de: Loshin, D. (2010). The practitioner's Guide to Data Quality Improvement.
Retos asociados a identi car
problemas de consistencia
Uno de los retos para identi car problemas de consistencia a nivel del
contenido de los datos, está relacionada con los atributos de tipo
texto, los cuales pueden ser escritos de diferente forma, por ejemplo:
Combinaciones de mayúsculas y minúsculas, por ejemplo:
Bogotá, BOGOTÁ, BoGotá.
Errores al momento de escribir una palabra, por ejemplo: Bogtá,
BOGOT@, bOGoá
Diferentes palabras para representar el mismo concepto, como:
BinomioOro, El Binomio de Oro, ...
Este tipo de problema se de ne como consistencia difusa y una de
las alternativas para resolverlo se denomina la de-duplicación.
Si te interesa, puedes revisar en la literatura este tipo de problema.
¿Qué es la validez de datos?
La validez es la correctitud de un valor a nivel
principalmente de formato y valor de una columna de
acuerdo al contexto. Este último concepto en algunos
contextos se denomina precisión.
El manejo de unidades, fechas y direcciones a nivel de los
datos puede llegar a generar problemas de validez.
Políticas y procedimientos para reportar estos problemas a
los responsables de los datos, deben ser diseñados en las
organizaciones, en el marco de proyectos centrados en
datos.
A continuación, veremos ejemplos de causas de esos
problemas de validez en los datos.
¿Cuáles son las causas de la falta de validez?
La información que usa No hay control al momento Los datos que ingresan a
la organización de ingresar datos en una veces se hace mediante
proviene de terceros fuente. Esto hace que no se entes externos a la
con distintos tipos de valide si la información tiene organización, que en
datos, formatos y la forma y el valor apropiado ocasiones no cumplen con
errores en los datos . antes de guardarla. los estándares propios de
otra institución.
¿Cuáles son las soluciones a este problema?
Dejar claro el dominio
De nir un dominio de Incluir mecanismos de De nir patrones conceptual de datos, es
datos, es decir, listar veri cación de especí cos para decir, asociar el valor de un
conceptos que maneja información al conjuntos de datos dato a la descripción de un
la organización en el momento de particulares, por concepto y así, de nir el
formato de interés. ingresarla en las bases ejemplo, direcciones o tipo de dato y rangos
de datos. números de teléfono. válidos.
A continuación, vas a ver ejemplos de
situaciones en las que se presenta un problema
de validez y la solución que puedes aplicar
cuando se te presente una situación similar.
Vamos allá.
Ejemplo #1:
Contexto:
Una empresa de energía eléctrica está recopilando datos de peticiones, quejas y
reclamos. Como parte del formulario que envían los clientes, se les piden los
datos de contactabilidad. Por ejemplo, correo, número de teléfono y número de
cédula. Adicionalmente, se les pide ingresar la fecha del reporte de la queja.
A continuación, tienes una muestra de la tabla con algunos datos.
ID Nombre Teléfono celular Cédula Fecha PQR
214 Bruno Díaz 500-782-7755 1070.81.70.80 01/02/2021 (dd/mm/yyyy)
215 Lucía Roa 5008589663 5262.44.95.35 12/20/2021 (mm/dd/yyyy)
216 Mario Gil 5059627475 8800142532 21/09/07 (yy/mm/dd)
Solución al ejemplo #1:
En este caso hay varios problemas:
* Hay un número de teléfono celular escrito con guiones, mientras que los otros
no tienen.
500-782-7755, 5008589663
* Hay números de cédula escritos con puntos que separan y otro que no tiene
puntos.
5262.44.95.35, 8800142532
* Las fechas están todas en formatos distintos
12/20/2021 (mm/dd/yyyy), 21/09/07 (yy/mm/dd)
Otros casos: Calle, Clle. Cll. (Estos e último ejemplo pueden verlo como un
problema de falta de estandarización).
Solución al ejemplo #1:
Tras hablar con los miembros de la empresa a cargo de los datos, se determinó que
los números de teléfono móvil y cédula no deben incluír caracteres de separación
(ni guiones ni puntos en este caso). A nivel de fechas se requiere que estén en
formato DD/MM/AAAA.
Esto se puede hacer con código o con programas especializados, que lean los datos
en las columnas y les den el formato correcto a su contenido según lo establecido.
Ejemplo #2:
Contexto:
Una empresa nueva está recopilando datos sobre sus empleados agregando,
entre otras características, datos de edad y género. Un ejemplo de algunas las
de la tabla en construcción lo encontramos a continuación.
ID Nombre Identificacion Edad Género
214 Bruno Díaz 427572 -10 M
215 Lucía Roa 288434 24 F
216 Mario Gil 128382 107 M
217 Martha Paz 737842 23 Z
218 Gustavo Pérez 982899 22 Z
219 María Rodríguez 1912823 0 Z
Solución al ejemplo #2:
Visualizar los datos tanto numéricos como categóricos puede resultar útil para
identi car problemas de validez en datos de alguna columna. A continuación,
realizamos un diagrama de caja para la columna de edades (con más datos aparte
de los mostrados en la tabla anterior):
Solución al ejemplo #2:
Del diagrama podemos ver que hay una tendencia a que las edades están entee
los 20 y cerca de los 40 años, que es normal. Sin embargo, datos con valores
atípicos, de más de 100 años y también edades de 0 o de valor negativo, lo cual
no es válido.
Solución al ejemplo #2:
Los valores atípicos pueden calcularse de las siguientes maneras:
Atípicos menores:
valores < (Cuartil 1 - 1.5 * Rango Intercuartílico)
Atípicos mayores:
valores > (Cuartil 3 + 1.5 * Rango Intercuartílico)
Donde el rango intercuartílico es el valor del cuartil 3 menos el valor del cuartil 1.
El mismo ejercicio de gra car los valores en diagramas de caja se puede hacer en
columnas categóricas, para determinar si hay valores que no tengan validez. Una
vez descubiertos estos datos, se puede noti car al negocio para que sugieran las
correcciones a realizar.
Referencias
David Loshin. "The practitioner’s guide to data quality improvement". Elsevier,
2010.
Rajesh Jugulum. "Competing with High Quality Data: Concepts, Tools, and
Techniques for Building a Successful Approach to Data Quality". John Wiley,
2014.
Fan, W. & Geerts, F. "Foundations of Data Quality Management". Morga &
Claypool Publishers, 2012.