Census
Ciencia y Gobierno de Datos
El Gobierno de los Datos
Ing. Maria del Rosario Bruera
[email protected] Census
Ciencia y Gobierno de Datos
Agenda
• Qué es el Gobierno de Datos
• Disciplinas que integra
• Metadata, MDM, regulaciones legales y su impacto en el Gobierno de Datos
• Una definición de calidad de datos
• Métricas y procesos de calidad de datos
• El Data Quality Mart
BREAK
• El Gobierno de Big Data y la gestión de la identidad digital
• Las tecnologías que soportan un programa de Gobierno de Datos
• Los nuevo roles que requiere el Gobierno de Datos
• Plan de implantación de un programa de Gobierno de Datos
• Espacio de discusión y preguntas
Census
Ciencia y Gobierno de Datos
Qué es el Gobierno de Datos
• El propósito de un programa de Gobierno de Datos es el
desarrollo e implementación de un conjunto de reglas,
políticas, procesos y estándares para manejar los datos
corporativos considerados como activos estratégicos de la
compañía.
• Se implanta a partir de un equipo de gestión (integrado por
profesionales de Tecnología y de las áreas de Negocio)
unificados en una única misión que es asegurar que los datos
corporativos alcanzan los objetivos:
– De regulación y uso autorizado
– De estandarización y documentación
– De calidad y valor potencial
Census
Ciencia y Gobierno de Datos
Los datos en la visión del negocio
Census
Ciencia y Gobierno de Datos
Beneficios
Beneficio Ejemplos
Reducciòn de costos de • Reducciòn en el tiempo necesario para encontrar informaciòn
consumo de datos consistente para la toma de decisiones
• Eliminaciòn de contenido duplicado
Reducciòn de costo de • Eliminaciòn de tareas tècnicas redundantes para consolidar fuentes
producciòn de informaciòn de datos
• Eliminaciòn de infraestructura redundante o innecesaria
Mejora de calidad de • Reducciòn de trabajos redundantes de recolección de datos
informaciòn • Reducciòn de errores de interpretaciòn en reportes y anàlisis
• Mejoras en los pronòsticos de comportamiento de indicadores de
negocio
Aumento de la eficiencia • Mejoras en estimaciones de costos y precios
operativa • Mejoras en las tasas de respuesta de campañas de marketing
• Mejoras en los procesos de las cadenas productivas
Mejora de la agilidad de la • Aceleraciòn del time to market de nuevos productos
organizaciòn
• Reducciòn de incidentes de atenciòn al cliente
Aumento de la reputaciòn de • Aumento de la seguridad de la informaciòn
marca • Disminuciòn de riesgo legal
Census
Ciencia y Gobierno de Datos
Niveles de madurez en el
Gobierno de los Datos
Census
Ciencia y Gobierno de Datos
Disciplinas que integra
el Gobierno de Datos
CICLO DE INTEGRACION
PROCESOS VIDA DEL Y MDM
DATO
CALIDAD SOPORTE
METADATA ORGANIZACION
DE DATOS LEGAL
Census
Ciencia y Gobierno de Datos
Metadata
• Metadata es la información que describe o provee contexto a los
datos sobre su contenido, significado, procesos de negocio en los
que intervienen , servicios, reglas de negocio y políticas que
soportan los sistemas de información de la compañía.
• Existen 3 tipos de Metadata:
– Técnica : nombre de la fuente de datos, nombre de las tablas,
columnas, tipo de dato, etc
– Negocio : contexto que contiene al dato, glosario de nombres,
definiciones, responsables, referencias de origenes del dato, etc
– Operativa : información sobre el uso del dato, fecha y proceso
de actualización, cantidad de accesos, última fecha de acceso,
etc.
Census
Ciencia y Gobierno de Datos
Ejemplo de tareas de gobierno de
Metadata
• Construcción del glosario de términos de negocio que aplican a
todos los elementos de datos que intervienen en el proceso
• Construcción del repositorio de información sobre los datos que
contiene (para cada elemento de datos del sistema de información):
– Origen del dato
– Proceso de captura
– Sensibilidad de su contenido
– Descripción semántica
– Contexto legal de uso del dato
– Procesos en los que interviene
• Definición de las políticas y procesos de actualización y publicación
de la metadata
Census
Ciencia y Gobierno de Datos
Soporte Legal : Algunas normas
• Dato sensible : datos personales que revelan origen racial y étnico,
opiniones políticas, convicciones religiosas, filosóficas o morales, afiliación
sindical e información referente a la salud o a la vida sexual (Ley 25.326
Art 2).
• Los datos total o parcialmente inexactos, o que sean incompletos, deben
ser suprimidos y sustituidos, o en su caso completados, por el responsable
del archivo o base de datos cuando se tenga conocimiento de la
inexactitud o carácter incompleto de la información de que se trate, sin
perjuicio de los derechos del titular establecidos en el artículo 16 de la
presente ley. (Ley 25.326 Art 4.)
• Los datos sensibles sólo pueden ser recolectados y objeto de tratamiento
cuando medien razones de interés general autorizadas por ley. También
podrán ser tratados con finalidades estadísticas o científicas cuando no
puedan ser identificados sus titulares (Ley 25.326 Art 7).
Census
Ciencia y Gobierno de Datos
Tareas de Soporte Legal
• Registración de las bases de datos en la
DNPDP
• Identificación datos sensibles y definición de
criterios de privacidad
• Definición de las políticas de tratamiento para
los datos sensibles
• Definición de las políticas de acceso y
seguridad de los datos sensibles y no sensibles
Census
Ciencia y Gobierno de Datos
Master Data
• Master Data refiere a las copias sincronizadas de las
entidades utilizadas en aplicaciones transaccionales
o analíticas de la organización sujetas a las políticas
de gobierno. Tradicionalmente incluye a las
principales entidades (data sets) como clientes,
productos, empleados, proveedores, etc pero puede
extenderse a otras entidades críticas que no están en
esta enumeración.
Census
Ciencia y Gobierno de Datos
Master Data
Census
Ciencia y Gobierno de Datos
Tareas de gobierno asociadas a
Master Data Management
• Reglas de negocio para la resolución de la
identidad
• Políticas de aceptación de los niveles de
calidad de los datos
• Procesos de consolidación e integración de
fuentes de datos
• Procesos de notificación y corrección de
problemas de calidad de integración
Census
Ciencia y Gobierno de Datos
Mejoras en los procesos para
sostener el Gobierno de Datos
• Proceso de monitoreo de avance del programa
de BDG
• Proceso de escalamiento y resolución de
incidentes y definición de prioridades
• Definición de las políticas de uso de los datos
• Acuerdos de reciprocidad para la
administración de los datos
• Modelo de negocio de monetización de los
activos de datos
Census
Ciencia y Gobierno de Datos
La calidad de los datos
Census
Ciencia y Gobierno de Datos
Una definición
• Los datos tienen CALIDAD cuando satisfacen los
REQUERIMIENTOS de los CONSUMIDORES DE DATOS
(DATA CONSUMERS)
• Existe un problema de calidad de datos cuando se
identifica cualquier dificultad que invalida el uso del dato
por parte del consumidor
• Un programa de aseguramiento de la calidad es una
combinación EXPLICITA de procesos, metodologías y
actividades que existen con el propósito de sostener altos
niveles de calidad en los datos
Census
Ciencia y Gobierno de Datos
Métricas
• Para poder mejorar la calidad de los datos es necesario
medirla
• Las dimensiones de la calidad de los datos se utilizan para
definir, medir y gestionar esta calidad
• No existe un standard de la industria que defina
unívocamente estas dimensiones
• Cada usuario utiliza las dimensiones que más aplican a su
contexto de negocio.
Métricas usuales
Los contenidos almacenados
cumplen los criterios de dominios Son los datos consistentes en todos los
definidos? sistemas y sub sistemas?
Están completas las
relaciones entre entidades
y atributos?
Los datos representan
correctamente al mundo
real?
Tenemos todos los datos
necesarios? Los datos estàn disponibles cuando
se necesita? Cuàl es su
obsolescencia?
Census
Ciencia y Gobierno de Datos
Validez
Una medida de la concordancia del contenido
del dato con la realidad (lo cual requiere una
fuente de referencia externa accesible para su
verificación)
Census
Ciencia y Gobierno de Datos
Cobertura
Medida de la cantidad de datos disponibles
comparada con el total del universo o
población
Census
Ciencia y Gobierno de Datos
Degradadación / Obsolescencia
Medida de los cambios NEGATIVOS que sufren
los datos a través del tiempo
Dificultad de medición y mejora
Valor de Negocio
Validez
Disponibilidad
Consistencia
Integridad
Exactitud
Completitud
Dificultad de mediciòn
y mejora
Census
Ciencia y Gobierno de Datos
Data Profiling
Data Profiling es el proceso de EXAMINAR los
datos disponibles en una fuente de datos
existentes y recolectar ESTADISTICAS e
INFORMACIÓN sobre estos datos.
Se puede realizar con software específico o
con sentencias SQL.
El resultado de la tarea permite calcular las
métricas de calidad que aplican en cada
conjunto de datos
Census
Ciencia y Gobierno de Datos Data Profiling
Column profiling: analiza Permite : Descubrir
las columnas para todos problemas de contenido
los registros. Determina: Validar si los datos
Valores, frecuencias, tipo conforman las
de datos, rangos, mínimos expectativas
y máximos, patrones, Comparar el status actual
reglas de unicidad con el deseado
Table Profiling Interno: Permite : Descubrir
analiza las relaciones problemas de estructura,
entre las columnas de las dependencias
tablas funcionales, problemas
Verifica las claves con las claves
primarias Verificar las expectativas
de uso respecto de las
dependencias de la tabla
Census
Ciencia y Gobierno de Datos
Data Profiling
Table profiling Permite : Descubrir datos
Externo:Compara los duplicados, sinónimos y
datos ENTRE tablas para valores que corrompen la
descubrir duplicaciones y integridad de los datos
redundancia Construye una estructura
Compara datos en 3era NF eliminando
provenientes de redundancias. Este
diferentes fuentes modelo luego puede
Verifica la consistencia de utilizarse como base para
las claves secundarias otros almacenamientos
Census
Ciencia y Gobierno de Datos
Ejemplo Data Profiling
IBM Information Governance
Solutions, April 2014
Census
Ciencia y Gobierno de Datos
Definición de métricas de DQ
Recolectar input:
1. Incidentes de calidad de Medidas
datos candidatas:
Data profiling para
2. Inconsistencias de
identificar los
sistemas de BI
problemas comunes k1 k2 k3 k4 k5
3. Requerimientos
especiales de proyectos k6 ….
4. KPIs de negocio
1 2 3
Selecciòn final de KPI significativos
KPI Concepto Definiciòn Frecuencia Objetivo
funcional
k1
k23 4
Documento de Uso Reservado 28
Census
Ciencia y Gobierno de Datos
El Data Quality Mart
Extracciòn DQ Integración DQ Delivery
Profiling Profiling
Enterprise
DW
Fixes
Errores
Errores
DQmart
Informes Proyecciones
Data
Steward 29
Census
Ciencia y Gobierno de Datos
Qué es Big Data
Census
Ciencia y Gobierno de Datos
La nueva “V” VERACIDAD
Los nuevos desafìos referidos a la Veracidad de Big Data
se relacionan con preguntas tales como :
–De qué fuente provienen los datos (externa o interna)
–Se trata de informaciòn pùblica disponible o es data de
comportamiento obtenida por sumarización?
–Puede ser auditada?
–Es dato real u opiniòn?
–Còmo se define el factor de credibilidad? Esto debe
considerarse un tema central en el programa de Governance
Census
Ciencia y Gobierno de Datos
La nueva “V” VALOR
El valor de los activos de datos depende del beneficio que se
obtiene al utilizarlos para la toma de decisiones
Monetización de datos es proceso que permite a las
organizaciones agregar valor de sus activos de información para:
• Productivizarlos y venderlos a otras organizaciones
generando un beneficio económico directo
• Integrarlos en sus productos para crear productos más
“inteligentes”
• Descubrir patrones de comportamiento de sus clientes
para optimizar su relacionamiento y mejorar el retorno de
la inversión en marketing
Census
Ciencia y Gobierno de Datos
Factores que influyen en
el valor de los datos
Factores Factores
Objetivos Subjetivos
• Integridad • Relevancia
• Completitud • Utilidad
• Validez • Credibilidad
• Precisión • Claridad
• Obsolescencia •…….
• Disponibilidad
•……..
Mejorar Descubrir
La clave del éxito:
• Gobierno de datos.
• Uso eficiente de la tecnología y los RRHH.
• Capacitación y transformación cultural.
Census
Ciencia y Gobierno de Datos
El proceso de monetización de datos
Identificar Gestionar Aplicar
(fuentes) (agregar valor) (beneficios)
Cadena de valor
Census
Ciencia y Gobierno de Datos
La Identidad Digital
La identidad digital es una colección de datos que representan los atributos, las
preferencias y los rasgos de los sujetos que interactúan en el mundo digital.
Los Atributos describen la información acerca de un tema como el historial
médico, los hábitos de compra en el pasado, el saldo bancario, la calificación
de crédito, talla de ropa, la edad, y así sucesivamente.
Las Preferencias representan deseos, tales como asientos preferenciales en
una línea aérea, publicaciones que lee, deporte que practica, etc.
Los Rasgos son - como los atributos -
características del sujeto, pero se
diferencian de ellos en que son
inherentes al sujeto en lugar de
adquiridos como por ejemplo el género
o el color de los ojos.
Digital Identity Phillip J. Windley
Census
Ciencia y Gobierno de Datos
La construcción de la identidad digital
Predictiva Monetizado
Descriptiva
Sensible
Atributos Perfil, Disponible para la toma
Identificación Preferencias Predicción de de decisiones o desarrollo
y Rasgos comportamientos de productos
Census
Tecnologías de soporte para
Ciencia y Gobierno de Datos
Gobierno de Datos
The Forrester Wave™: Data Governance
Tools, Q2 2014
Census
Ciencia y Gobierno de Datos
Productos analizados
Census
Ciencia y Gobierno de Datos
Nuevos roles
• Data Governance Officer (DGO) : Es el
responsable de la gestión del programa de
Gobierno de Datos
• Data Protection Officer (DPO) : Es el responsable
del cumplimiento de las regulaciones sobre el
uso de los datos y de la aplicación efectiva de las
políticas de seguridad
• Data Stewards : Son los responsables de manejar
el contenido de los datos.
Census
Ciencia y Gobierno de Datos
Tareas del Data Steward
• Participar activamente en los procesos de identificación
y adquisición de nuevas fuentes de datos
• Crear y mantener la metadata de negocio
• Publicar las novedades referidas a los datos de negocio y
monitorear su correcta utilizaciòn
• Ejecutar las acciones de mejora de calidad de los datos
• Interpretar y analizar los informes de calidad de datos
para identificar los problemas y dimensionar su impacto
• Trabajar activamente con IT en los proyectos de diseño
de contenedores de datos y procesos de MDM
40
Census
Ciencia y Gobierno de Datos
¿Cómo empezar?
Plan de
Diagnóstico proyecto Start Up On going PIR
3 semanas Start Up 6 meses 6 meses
1 semana
Census
Ciencia y Gobierno de Datos
Proyecto Start Up
• Es un proyecto cuyo sponsor principal debe ser la alta
dirección de la compañía.
• Foco en las disciplinas críticas para poder apreciar resultados
en poco tiempo
(6 meses).
• Requiere compromiso y participación de todas las áreas de la
empresa con cronogramas ajustados.
• Debe acompañarse con actividades internas de capacitación
para promover el cambio cultural que requiere.
Census
Ciencia y Gobierno de Datos
Census
Ciencia y Gobierno de Datos
Espacio para preguntas
Census
Ciencia y Gobierno de Datos
Bibliografía
• Ladley John, Data Governance.How to Design, Deploy, and
Sustain an Effective Data Governance Program, Elsevier, USA,
2012
• IBM Information Governance Solutions. Ibm.com/redbooks
• Sebastian-Coleman, Laura, Measuring Data Quality for
Ongoing Improvement, Elsevier, USA, 2013
• The 12 Dimensions of Data Quality. Danette McGilvray,
Granite Falls Consulting, Inc.