0% encontró este documento útil (0 votos)
153 vistas24 páginas

Modelado de Datos en Data Warehouse

Este documento describe el modelado de datos para un data warehouse. Explica la diferencia entre esquemas relacionales y dimensionales, con un enfoque en hechos y dimensiones. También cubre temas como dimensiones lentamente cambiantes, calidad de datos, y herramientas para analizar y transformar datos como parte del proceso de carga de datos en el data warehouse.

Cargado por

Alvaro Romero
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
153 vistas24 páginas

Modelado de Datos en Data Warehouse

Este documento describe el modelado de datos para un data warehouse. Explica la diferencia entre esquemas relacionales y dimensionales, con un enfoque en hechos y dimensiones. También cubre temas como dimensiones lentamente cambiantes, calidad de datos, y herramientas para analizar y transformar datos como parte del proceso de carga de datos en el data warehouse.

Cargado por

Alvaro Romero
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

MODELADO DE DATOS

DATA WAREHOUSE
Ana María Bisbé York | [email protected] , Servicios Profesionales
[email protected] | www.danysoft.com 18.04.2013

Temario
Datawarehouse vs Transaccional
Modelado dimensional de datos
– Hechos y Dimensiones
Escenarios

1
DISEÑO RELACIONAL VS DIMENSIONAL

Punto de partida proyectos Inteligencia de


negocio
Diferentes contenedores de datos para obtener
información
Esq ema relacional normali
Esquema normalizado
ado
– Varios cientos o miles de tablas
– Convenciones de nombres incorrectas o dudosas
Problemas en la calidad de datos
– Problema de desconocimiento de reglas de negocio
– Problemas de documentación
Al
Almacenamiento
i d
de hi
históricos
ói

2
Analizar contenedor de datos
Ventas por Internet
– datos geográficos
– períodos de tiempo

Resultados análisis contenedor


Esquema relacional altamente normalizado
– SQL Server
– 92 tablas
– Trabajo con esquemas
– Cada tabla, una entidad
– Integridad referencial

3
Subconjunto de tablas a tratar ¿Datos Producto?

¿Datos Tiempo?

Características Modelo Dimensional


Orientado al tema, no a un informe
Integrado
Codificado
– Atributo
– Medida de atributo
– Convención de nombres
– Fuentes múltiples
De tiempo variable
– Horizonte largo de tiempo vs operacionales
– Estructura clave con elemento tiempo
No volátil

4
Objetivos
Encontrar las tablas y columnas adecuadas
– Reducir cantidad de tablas (join)
– Encontrar procesos de actualización e IR (triggers)
• SQL Profiler
Diferenciar nombres de objetos para IT vs
usuario final
– Autodocumentado
Obtener grandes cantidades de datos:
– limpios,
limpios transformados con cierta latencia
Planificar consultas que requieren diseño físico
adecuado
Crear tabla de búsqueda de tiempos

Esquema Estrella
Simplificado, narrativo
Denormalizado
Única tabla de hechos ((: M))
Dimensiones (1: )
Claves foráneas FK
Segmentación de datos

Hecho
El cliente A ha comprado el producto B
en la fecha C con cantidad D por un precio de E

5
Esquema Copo de nieve

Esquema Híbrido

6
Data Warehouse
Muchas estrellas = Modelo dimensional DW
Dimensiones compartidas

MODELADO DE DATOS
DIMENSIONES, HECHOS

7
Dimensiones

Tipos de columnas
– Claves – keys – identificar entidades
– Nombres – nombrar “humanamente” entidades
• SSAS ofrece traducciones
– Atributos: discretos o discretizados (10 valores o
menos) – Edad
– Propiedades de miembro – etiquetas descriptivas -
dirección

Dimensiones

Base del modelo


Columnas homogéneas, identificar miembros
Único estado activo en cada momento
Relaciones entre atributos con dependencias
funcionales
Atributos sin hechos vs hechos sin atributos
Denormalización
P d d
Poder de llas di
dimensiones
i
– Etiquetas de filas y columnas
– Filtros

8
Dimensión Tiempo

Tendencias y comparativas en períodos


Clave surrogada inteligente

Dimensiones lentamente cambiantes (SCD)

Tipo 1
IdClienteS IdClienteB Nombre Distancia Género Propietari
K K o
1552 31421 Juan Pérez 6 km M No

Fecha IdClienteSK IdProductoS Cantidad Importe


K
07/01/2011 1552 95 1 1798.00
02/03/2011 1552 37 1 27.95
07/05/2012 1552 87 2 320.26
21/08/2012 1552 33 2 129.99
21/02/2013 1552 42 1 19.95

IdClienteS
IdCli t S IdClienteB
IdCli t B N b
Nombre Di t
Distancia
i Gé
Género Propietari
P i t i
K K o
1552 31421 Juan Pérez 31 km M Yes

9
Dimensiones lentamente cambiantes (SCD)

Tipo 2
IdClienteS IdCliente Nombre Distancia Género Propietari
K BK o
1552 31421 Juan 6 km M No
Pérez

IdClienteSK IdClienteBK Nombre Distancia Género Propietario FechaInicio FechaFin

1552 31421 Juan Pérez 6 km M No 07/01/2011 01/01/2013

2387 31421 Juan Pérez 31 km M Si 02/01/2013 31/12/9999

Fecha IdClienteSK IdProductoS Cantidad Importe


K
07/01/2011 1552 95 1 1798.00
02/03/2011 1552 37 1 27.95
07/05/2012 1552 87 2 320.26
21/08/2012 1552 33 2 129.99
21/02/2013 2387 42 1 19.95

Modelo Dimensional

Claves surrogadas
– Protegen DW de cambios en el origen
– Permiten integrar datos de múltiples orígenes
– Permiten añadir filas a las dimensiones que no
existen en el sistema origen.
– Permiten analizar los cambios de atributos en el
tiempo (SCD)
– Claves eficientes que unen las BBDD relacionales y
de SSAS

10
Hechos

Tipos de columnas
– Claves (FK) lado “Muchos”
– Medidas
– Linaje y auditoría
Identificar hechos
– Columnas derivadas
– Ubicación de los hechos
– Cabecera vs detalle
– Asignación vs prorrateo
– Dimensiones degeneradas

Hechos
Sólo hechos
– Aditivos, semiaditivos y no aditivos
No todos son hechos
Hechos derivados
– Modelado dimensional del Datawarehouse
– Vista de origen de datos
– Modelado de cubo multidimensional (MDX)
– Herramienta cliente final
Granularidad
Muy eficientes, altamente normalizadas
sin redundancias

11
MODELADO DE DATOS
ANALIZAR DATOS

Prospección y exploración de datos

Problemas en calidad de datos:


– Campos sustituidos
– Campos sobrecargados
– Definición variable de los campos
– Entrada libre
Herramientas
– Experto en los datos de origen
– Usuarios de negocio o usuarios poderosos
– Sistemas de informes existentes

12
Incidencias comunes en datos

Impacto de datos sucios


Tiempo invertido
Recursos adicionales
Pérdida de oportunidades

13
Herramientas
MS SQL Server Management Studio (SSMS)
MS Office Excel (2007 – 2010 – 2013)
– Filtros
– Segmentadores
– Minería de datos
– MDM
– PowerPivot
– PowerView
BI SQL Server
– SSIS, SSRS, SSAS OLAP - SSAS DM, MDS, DQS
– Business Intelligence Development Studio (BIDS)
– Data Tools
MS Sharepoint
– Performance Point
– PowerPivot, Power View

SSIS – Perfiles de datos

14
MS Office Excel 2010
SQL Server 2012 Master Data Services

Master Data Services


Combinar datos, tratamiento de errores

15
SQL Server 2012 Data Quality Services
Interactive Cleansing

Detección de anomalías –
Códigos Postales después de transformación

16
SQL Server 2012 DQS - Integración con SSIS

Sincronizar conjuntos de datos (SCD)

17
Transformaciones de Flujo de datos

MODELADO DE DATOS

TRANSFORMAR Y CARGAR DATOS


Escenario

18
Ver Modelo transaccional
Productos

Ver Modelo dimensional


DW - Productos

19
I.- Tablas normalizadas
Vista de Origen de datos - DSV

DSV de dimensión

I.- Tablas normalizadas


Relaciones de atributos

Jerarquías de usuarios y Relaciones de atributos

20
II.- Tablas denormalizadas
con dependencia funcional correcta
Optimizar ajustando las Relaciones de atributos

III.- Tablas denormalizadas


con dependencia funcional incorrecta
Jerarquías de usuarios y Relaciones de atributos

21
III.- Tablas denormalizadas
con dependencia funcional incorrecta
Optimizar ajustando las Relaciones de atributos

Errores del motor de almacenamiento OLAP: Se


ha encontrado una clave de atributo duplicada al
procesar: Tabla: 'dbo_DimProduct', Columna:
'Color', Valor: 'Black'. El atributo es 'Color'.

III.- Tablas denormalizadas


con dependencia funcional incorrecta
Solución.- Agregar otra columna para
ColorTamaño
–EEn ell Datawarehouse
D t h
– En DSV

22
Ventas por países por períodos de tiempo

Valor añadido Danysoft


• Te ofrecemos la • Te asesoramos en • Editamos libros
gama más completa la adquisición, especialmente
de utilidades de renovación y creados por y para
terceros que consolidación de desarrolladores.
complementan licencias software.
VSTS

Licencias
Utilidades Libros
Software

• Formación a • Consultorías • Presentaciones


medida para para la puesta técnicas para
equipos de en marcha de ayudar a la
desarrollo tecnologías toma de
decisiones

Formación Consultoría Presentaciones

23
Gracias
Para más información contacte con el 902 123146, o vía email con
[email protected]

Ana María Bisbé York, Servicios Profesionales


[email protected] | www.danysoft.com

24

También podría gustarte