MODELADO DE DATOS
DATA WAREHOUSE
Ana María Bisbé York | [email protected] , Servicios Profesionales
[email protected] | www.danysoft.com 18.04.2013
Temario
Datawarehouse vs Transaccional
Modelado dimensional de datos
– Hechos y Dimensiones
Escenarios
1
DISEÑO RELACIONAL VS DIMENSIONAL
Punto de partida proyectos Inteligencia de
negocio
Diferentes contenedores de datos para obtener
información
Esq ema relacional normali
Esquema normalizado
ado
– Varios cientos o miles de tablas
– Convenciones de nombres incorrectas o dudosas
Problemas en la calidad de datos
– Problema de desconocimiento de reglas de negocio
– Problemas de documentación
Al
Almacenamiento
i d
de hi
históricos
ói
2
Analizar contenedor de datos
Ventas por Internet
– datos geográficos
– períodos de tiempo
Resultados análisis contenedor
Esquema relacional altamente normalizado
– SQL Server
– 92 tablas
– Trabajo con esquemas
– Cada tabla, una entidad
– Integridad referencial
3
Subconjunto de tablas a tratar ¿Datos Producto?
¿Datos Tiempo?
Características Modelo Dimensional
Orientado al tema, no a un informe
Integrado
Codificado
– Atributo
– Medida de atributo
– Convención de nombres
– Fuentes múltiples
De tiempo variable
– Horizonte largo de tiempo vs operacionales
– Estructura clave con elemento tiempo
No volátil
4
Objetivos
Encontrar las tablas y columnas adecuadas
– Reducir cantidad de tablas (join)
– Encontrar procesos de actualización e IR (triggers)
• SQL Profiler
Diferenciar nombres de objetos para IT vs
usuario final
– Autodocumentado
Obtener grandes cantidades de datos:
– limpios,
limpios transformados con cierta latencia
Planificar consultas que requieren diseño físico
adecuado
Crear tabla de búsqueda de tiempos
Esquema Estrella
Simplificado, narrativo
Denormalizado
Única tabla de hechos ((: M))
Dimensiones (1: )
Claves foráneas FK
Segmentación de datos
Hecho
El cliente A ha comprado el producto B
en la fecha C con cantidad D por un precio de E
5
Esquema Copo de nieve
Esquema Híbrido
6
Data Warehouse
Muchas estrellas = Modelo dimensional DW
Dimensiones compartidas
MODELADO DE DATOS
DIMENSIONES, HECHOS
7
Dimensiones
Tipos de columnas
– Claves – keys – identificar entidades
– Nombres – nombrar “humanamente” entidades
• SSAS ofrece traducciones
– Atributos: discretos o discretizados (10 valores o
menos) – Edad
– Propiedades de miembro – etiquetas descriptivas -
dirección
Dimensiones
Base del modelo
Columnas homogéneas, identificar miembros
Único estado activo en cada momento
Relaciones entre atributos con dependencias
funcionales
Atributos sin hechos vs hechos sin atributos
Denormalización
P d d
Poder de llas di
dimensiones
i
– Etiquetas de filas y columnas
– Filtros
8
Dimensión Tiempo
Tendencias y comparativas en períodos
Clave surrogada inteligente
Dimensiones lentamente cambiantes (SCD)
Tipo 1
IdClienteS IdClienteB Nombre Distancia Género Propietari
K K o
1552 31421 Juan Pérez 6 km M No
Fecha IdClienteSK IdProductoS Cantidad Importe
K
07/01/2011 1552 95 1 1798.00
02/03/2011 1552 37 1 27.95
07/05/2012 1552 87 2 320.26
21/08/2012 1552 33 2 129.99
21/02/2013 1552 42 1 19.95
IdClienteS
IdCli t S IdClienteB
IdCli t B N b
Nombre Di t
Distancia
i Gé
Género Propietari
P i t i
K K o
1552 31421 Juan Pérez 31 km M Yes
9
Dimensiones lentamente cambiantes (SCD)
Tipo 2
IdClienteS IdCliente Nombre Distancia Género Propietari
K BK o
1552 31421 Juan 6 km M No
Pérez
IdClienteSK IdClienteBK Nombre Distancia Género Propietario FechaInicio FechaFin
1552 31421 Juan Pérez 6 km M No 07/01/2011 01/01/2013
2387 31421 Juan Pérez 31 km M Si 02/01/2013 31/12/9999
Fecha IdClienteSK IdProductoS Cantidad Importe
K
07/01/2011 1552 95 1 1798.00
02/03/2011 1552 37 1 27.95
07/05/2012 1552 87 2 320.26
21/08/2012 1552 33 2 129.99
21/02/2013 2387 42 1 19.95
Modelo Dimensional
Claves surrogadas
– Protegen DW de cambios en el origen
– Permiten integrar datos de múltiples orígenes
– Permiten añadir filas a las dimensiones que no
existen en el sistema origen.
– Permiten analizar los cambios de atributos en el
tiempo (SCD)
– Claves eficientes que unen las BBDD relacionales y
de SSAS
10
Hechos
Tipos de columnas
– Claves (FK) lado “Muchos”
– Medidas
– Linaje y auditoría
Identificar hechos
– Columnas derivadas
– Ubicación de los hechos
– Cabecera vs detalle
– Asignación vs prorrateo
– Dimensiones degeneradas
Hechos
Sólo hechos
– Aditivos, semiaditivos y no aditivos
No todos son hechos
Hechos derivados
– Modelado dimensional del Datawarehouse
– Vista de origen de datos
– Modelado de cubo multidimensional (MDX)
– Herramienta cliente final
Granularidad
Muy eficientes, altamente normalizadas
sin redundancias
11
MODELADO DE DATOS
ANALIZAR DATOS
Prospección y exploración de datos
Problemas en calidad de datos:
– Campos sustituidos
– Campos sobrecargados
– Definición variable de los campos
– Entrada libre
Herramientas
– Experto en los datos de origen
– Usuarios de negocio o usuarios poderosos
– Sistemas de informes existentes
12
Incidencias comunes en datos
Impacto de datos sucios
Tiempo invertido
Recursos adicionales
Pérdida de oportunidades
13
Herramientas
MS SQL Server Management Studio (SSMS)
MS Office Excel (2007 – 2010 – 2013)
– Filtros
– Segmentadores
– Minería de datos
– MDM
– PowerPivot
– PowerView
BI SQL Server
– SSIS, SSRS, SSAS OLAP - SSAS DM, MDS, DQS
– Business Intelligence Development Studio (BIDS)
– Data Tools
MS Sharepoint
– Performance Point
– PowerPivot, Power View
SSIS – Perfiles de datos
14
MS Office Excel 2010
SQL Server 2012 Master Data Services
Master Data Services
Combinar datos, tratamiento de errores
15
SQL Server 2012 Data Quality Services
Interactive Cleansing
Detección de anomalías –
Códigos Postales después de transformación
16
SQL Server 2012 DQS - Integración con SSIS
Sincronizar conjuntos de datos (SCD)
17
Transformaciones de Flujo de datos
MODELADO DE DATOS
TRANSFORMAR Y CARGAR DATOS
Escenario
18
Ver Modelo transaccional
Productos
Ver Modelo dimensional
DW - Productos
19
I.- Tablas normalizadas
Vista de Origen de datos - DSV
DSV de dimensión
I.- Tablas normalizadas
Relaciones de atributos
Jerarquías de usuarios y Relaciones de atributos
20
II.- Tablas denormalizadas
con dependencia funcional correcta
Optimizar ajustando las Relaciones de atributos
III.- Tablas denormalizadas
con dependencia funcional incorrecta
Jerarquías de usuarios y Relaciones de atributos
21
III.- Tablas denormalizadas
con dependencia funcional incorrecta
Optimizar ajustando las Relaciones de atributos
Errores del motor de almacenamiento OLAP: Se
ha encontrado una clave de atributo duplicada al
procesar: Tabla: 'dbo_DimProduct', Columna:
'Color', Valor: 'Black'. El atributo es 'Color'.
III.- Tablas denormalizadas
con dependencia funcional incorrecta
Solución.- Agregar otra columna para
ColorTamaño
–EEn ell Datawarehouse
D t h
– En DSV
22
Ventas por países por períodos de tiempo
Valor añadido Danysoft
• Te ofrecemos la • Te asesoramos en • Editamos libros
gama más completa la adquisición, especialmente
de utilidades de renovación y creados por y para
terceros que consolidación de desarrolladores.
complementan licencias software.
VSTS
Licencias
Utilidades Libros
Software
• Formación a • Consultorías • Presentaciones
medida para para la puesta técnicas para
equipos de en marcha de ayudar a la
desarrollo tecnologías toma de
decisiones
Formación Consultoría Presentaciones
23
Gracias
Para más información contacte con el 902 123146, o vía email con
[email protected]
Ana María Bisbé York, Servicios Profesionales
[email protected] | www.danysoft.com
24