Entrepôts de données
Siwar Louati
2022-2023
Plan du chapitre
Objectifs des entrepôts de données.
Architecture des systèmes à base d'entrepôts de données.
Modélisation multidimensionnelle
Business Intelligence?
“Business Intelligence est le process qui permet la transformation des données
en information et ensuite de passer du stade information au stade de
connaissances.”
Gartner Group
Objectif de Business Intelligence
L'objectif de la business intelligence est de convertir le
volume de données en valeur pour l'entreprise grâce à des
rapports d'analyse.
Decision Valeur
Connaissance
Information
Data
Volume
Analyse des Données depuis les systèmes
Operationnels (OLTP)
Les structures de données sont complexes
Les systèmes OLTP sont conçus pour de grandes performances dans le contexte
opérationnel et non analytique.
Les données ne sont pas représentées de façon significative.
Les données sont dispersées..
OLTP peuvent être inappropriés pour les requêtes intensives.
Production
platforms
Operational reports
Pourquoi OLTP n’est pas approprié pour le
reporting Analytique?
OLTP Analytical Reporting
Information pour appuyer Information historique à
un service au jour le jour analyser
Les données stockées au Les données doivent être
niveau de la transaction intégrées
Modélisation de la BD: Modélisation de la
Normalisée BD:Dénormalisée, exp
schema en étoile
Data Warehousing (entrepôt de données)
Enterprise Data
Warehouse
anciennes
données
OLTP
Données Reporting
Data Marts Analytique
externes
Advantages of Warehouse
Processing Environments
Controlé
Fiable
Informations de qualité
Unique source d’information
Système interne Data Preneurs de Décision
+ système externe warehouse
Advantages d’un environnement de traitement d’un entrepôt de données
Pas de duplication d’effort
Pas besoin d’outils pour maintenir plusieurs
Pas de dispersion dans les données, de leurs sens ou de leurs
représentations
Pas de restriction dans les drill-down (analyse hiérarchiques
des données agrégées vers celles atomiques)
Definir le Data Warehousing
Concepts et Terminologie
Definition d’un Data Warehouse
“Un entrepôt de données est une collecte de données orientée sujet, intégrée, non
volatile variable en fonction du temps dont l'objectif est d'appuyer des décisions de
gestion.”
—W.H. Inmon
“Un référentiel structuré des données de l'entreprise, orienté vers le sujet, variant
dans le temps, contenant des données historiques, utilisé pour la recherche
d'information et aide à la décision. L'entrepôt de données stocke les données
atomique et résumé.”
— Oracle’s Data Warehouse Definition
Propriétés d’unnData Warehouse
Integré
Orienté sujet
Data
Warehouse
Non volatil Time-variant
Orienté sujet
Les données sont classées et stockées par objet d’analyse plutôt que par
application.
Applications OLTP Sujet du Data
Warehouse
Plans d'actions
actions
assurance
prêts
épargnes Renseignements financiers de la clientèle
Integrated
Les données sur un sujet donné est définie et stockées une fois.
épargnes
Comptes
courants
Crédits
Client
Applications Data Warehouse
OLTP
Variant dans le temps
Les données sont stockées dans une série de clichés
représentant chacun une période de temps données.
Data
Warehouse
Non volatil
Typiquement les données de l'entrepôt de données ne sont pas mises à jour
ni supprimées.
OLTP Warehouse
Load
Insert, Update, Read
Delete, or Read
Changing Warehouse Data
Operational Databases Warehouse Database
Chargement initial
Refresh
Refresh
Purge ou
Refresh Archive
Data Warehouse Versus OLTP
Propriété OLTP Data Warehouse
Temps de réponse Sous secondes à Secondes à heures
secondes
Opérations LMD Lecture seule
Nature des Donées 30 – 60 jours clichés au fil du
temps
Organisation des Selon Application Selon le sujet et le
données temps
Volume Petit à grand Grand à très grand
Source de Operationelle, Interne Operationelles,
données Internes, Externes
Activitiés Processes Analyses
Data Warehouses Versus
Data Marts
Propriété Data Warehouse Data Mart
Scope (cadre) Enterprise Department
Sujet Multiple Sujet unique
Source de données Plusieurs Très peu voire une
seule
Temps De mois à années Mois
d’Implémentation
Data Mart Dependent
Data Marts
Operational
Systems
Flat Files Data
Legacy Data Warehouse Marketing
Operations Sales
Marketing
Data
Sales
Finance
HR
External Data External Finance
Data
Data Mart Independent
Operational
Systems
Flat Files
Legacy Data
Sales or
Marketing
Operations
Data
External Data External
Data
Composants Typiques d’un Data
Warehouse
Source Staging Presentation Access
Systems Area Area Tools
(zone intérmédiaire)
Legacy
Data
Warehouse
External
ODS
Operational Data Marts
Metadata Repository (Référentiel de métadonnées)
Approches de développement d'un Entrepôt
de données
Approche “Big bang”
Approches Incrementales :
Top-down
Bottom-up
“Big Bang” Approach
Analyser les besoins
de l'entreprise
Construire l' entrepôt de
données de l’entreprise
Rapport en sous-ensembles
ou stockages en Datamarts
L’ approcheTop-Down
Analyser les besoins au niveau de l'entreprise
Développer un modèle d'information conceptuel
Identifier et hiérarchiser les domaines
Procéder à un modèle du secteur de recherche sélectionné
Cartographier les données disponibles
Effectuer une analyse du système source
Mettre en œuvre l'architecture technique de base
Mettre en place les métadonnées, Les processus d'extraction
et de chargement pour la zone initiale de l'objet
Créer et peupler la zone initiale de l'objet de entrepôt de
données dans le cadre de entrepôt global.
L’approche Bottom-Up
Définir la portée et la couverture de l'entrepôt de données
et analyser les source systèmes au sein de ce périmètre
Définir l'incrémentation initiale sur la base des avantages supposés
de l' entreprise et le volume des données
Mettre en œuvre l'architecture technique de base et mettre
en place les métadonnées, l'extraction, et les processus de
chargement tel que requis par le système
Créer et peupler la zone initiale de l'objet de entrepôt de
données dans le cadre de entrepôt global.
Les approches incrémentales
Itérations Multiple
implémentations plus courtes Increment 1
Validation de chaque phase
Strategie
Definif
Analyser
Modéliser
Iterative Implémenter
Production
Composants des processus d’un Data
Warehouse
Methodologie
Architecture
Extraction, Transformation, and Load (ETL)
Implementation
Exploitation et Support
Métodologie
Assure un entrepôt de données réussie
Encourage le développement incrémental
Fournit une approche progressive pour un entrepôt échelle de
l'entreprise:
• sûr
• gérable
• prouvé
• recommandé
Architecture
“Fournit la planification, la structure et la normalisation nécessaire
pour assurer l'intégration de multiples composants, des projets et des
processus dans le temps.”
“Établit le cadre, les normes et les procédures pour l'entrepôt de
données au niveau de l'entreprise.”
— The Data Warehousing Institute
Extraction, Transformation,
and Load (ETL)
“Une extraction de données , Transformation et chargement (ETL) efficace
représente le principal facteur de succès pour votre projet d'entrepôt de
données et peut absorber jusqu'à 70 pour cent du temps passé sur un projet
typique d'entreposage de données.”
— DM Review, March 2001
Source Staging Area Cible
Implementation
Data Warehouse Architecture
Ex., Incremental Implementation
Implementation
Increment 1
Increment 2
.
.
.
Increment n
Exploitation et support
L'accès aux données et aux rapports
Le Rafraichissement des données de l'entrepôt
Surveillance du système
Réagir au changement
Phases of the
Incremental Approach
Strategie
Definition
Analyse
Strategy Increment 1
Modéliser
Implémenter Definition
Production Analysis
Design
Build
Production
Sommaire
Dans cette leçon, vous devriez avoir appris à:
• Connaitre une définition commune, largement acceptée d'un entrepôt de
données
• Décrire les différences entre les datamarts dépendants et indépendants
• Identifier certaines des principales approches de développement d’entrepôt
de données
• Reconnaître certaines des propriétés d'exploitation et la terminologie
commune d'un entrepôt de données
Modélisation d’un entrepôt de
données
Caractéristiques d'un data warehouse
Un datawarehouse est une base de données conçue pour
l'interrogation, l'analyse et l'édition d'états.
Un datawarehouse contient des données historiques dérivées
de données transactionnelles.
Les datawarehouses séparent la charge d'analyse de la charge
transactionnelle.
Un datawarehouse est avant tout un outil analytique.
Modèle en étoile
Product Table Store Table
Product_id Store_id
Product_disc,... District_id,...
Sales Fact Table
Product_id
Store_id
Central Denormalized
fact table Item_id dimensions
Day_id
Sales_amount
Sales_units, ...
Time Table
Day_id Item Table
Month_id Item_id
Year_id,... Item_desc,...
Modèle en Flocan
Store Table
Product Table District Table
Store_id
Product_id District_id
Store_desc
Product_desc District_desc
District_id
Sales Fact Table
Item_id
Store_id
Product_id
Week_id
Sales_amount
Sales_units
Time Table Item Table Dept Table Mgr Table
Week_id Item_id Dept_id Dept_id
Period_id Item_desc Dept_desc Mgr_id
Year_id Dept_id Mgr_id Mgr_name
Création du Business Model
La définition des besoins d'entreprise :
Identifier les mesures de l'activité de l'entreprise
Identifier les dimensions
Identifier la granularité de l’analyse
Identifier les définitions d'entreprise et les règles métier
Verifier les sources de données
Identifier les Mesures
et les Dimensions
Les attribues varient
continuellement:
Mesures Solde
Unités vendues
Coût
Ventes
L'attribut est perçue comme
constante ou discret:
Produits Dimensions
Localisation
Temps
Taille
Utilisation d'une matrice de Business
Process
Business Processes
Business
Sales Returns Inventory
Dimensions
Customer
Date
Product
Channel
Promotion
Sample of business process matrix
Determiner la Granularité
ANNEE
TRIMESTRE?
MOIS?
SEMAINE?
JOUR?
Identifier les Règles Métier
Location Product
Geographic proximity Type Monitor Status
0 - 1 miles PC 15 inch New
1 - 5 miles Server 17 inch Rebuilt
> 5 miles 19 inch Custom
None
Time Store
Month > Quarter > Year Store > District > Region
Sommaire
Ce chapitre vous a permis d'apprendre à :
• expliquer les différences entre les schémas en
étoile et les schémas en flocons
•Connaitre les composants d’un Data warehouse
Modéliser un Data warehouse Basique
Modélisation décisionnelle
Les agrégats, les rapports et les cubes
• Une fois l’entrepôt de données, les faits, les
dimensions, voir les agrégats construits, on passe
à l’outillage de la navigation dans les données.
• Solutions :
– Publication d’un rapport visualisant le résultat de
recherches/analyses régulières sur l’entrepôt,
– Construction d’analyse spécifique visant à chercher
une partie de faits (ou des opérations de sommes sur
les faits) sans idées à priori des dimensions
parcourues.
– Construction de tables d’agrégats
– Construction de cubes
Modélisation décisionnelle
Les agrégats
• L’agrégation est le moyen de passer d’une granularité
fine à une granularité plus importante.
• Par exemple, la table des faits des tickets de caisses
contient l’ensemble des tickets. Si les analyses sont
uniquement basées sur une période journalière (voir
hebdomadaire ou mensuelle), chaque interrogation de
l’entrepôt va demander de recalculer les mêmes
sommes. Des tables de faits agrégés (tables d’agrégats)
vont alors être construites sur le niveau requis pour les
analyses.
Modélisation décisionnelle
Les agrégats
• Avantage : gain significatif du temps de calcul des
analyses
• Inconvénient : l’espace nécessaire au stockage de
l’entrepôt croit de manière importante (même si
les tables d’agrégats sont, pas nature, de taille
moindre aux tables de faits initiales).
• Usage : généralement utilisé pour passer de
l’entrepôt de données d’entreprise vers les
datamarts conçu de manière précise pour des
champs d’analyse.
Modélisation décisionnelle
Les agrégats
• La gestion de la granularité dans la modélisation décisionnelle suit
alors le schéma suivant
– Analyse du processus métier
• Faits de type Transaction de granularité la plus fine
– Construction des faits orientés analyse
• Agrégation stable pour des périodicité (pas que temporelles) fixes : création
d’instantanés périodiques
• Agrégation dynamique pour des périodicités (pas que temporelles) de taille
variables : création d’instantanés récapitulatifs
• Mise en place des calculs d’agrégats en mode batch en parallèle du
processus d’alimentation des données.
Les méthodes utilisées pour l’agrégation des faits sont liées au
niveau d’additivité des mesures présentes dans les faits
transactionnels.
Modélisation décisionnelle
Les rapports
• La différence entre un rapport d’analyse et la navigation dans un
cube et que le rapport est statique et présente une vue unique sur
les données. La construction de rapports reviendra alors à :
– Identifier les informations métier nécessaires à une activité de
pilotage : nombre de produit vendu par XXX sur la période YYY dans la
région ZZZ,
– Les données de l’entrepôt à la source des informations et les calculs
composant le rapport : Fait X, Dimension Y, agrégation, fonction sur les
données, …
– La forme la plus appropriée pour la lecture des informations : table de
valeur, élément graphique (camembert, …),
• Le risque le plus courant est la réalisation d’un nombre trop
important de rapports par rapport au besoin métier.
– Le point d’attention réside dans l’identification du besoin de
navigation dans le cube par un nombre réduit d’utilisateur par rapport
à la consultation d’un nombre d’information limité pour le pilotage
courant de l’activité métier.
Modélisation décisionnelle
Les cubes
• Les cubes sont un moyens de naviguer dans les
données de l’entrepôt afin d’en découvrir des
propriétés sous différents points de vues. Par
exemple, nous voulons pouvoir analyser les
ventes d’un produit ou d’une gamme de produits
selon une période données dans toutes les
régions puis, pour affiner notre analyse, souhaiter
voir quelles sont les ventes pour une région
particulière mais sur une période de temps
différente, … Ce type de navigation est facilité via
l’utilisation de cube.
Modélisation décisionnelle
Les cubes
• Voici un exemple d’entrepôt :
Modélisation décisionnelle
Les cubes
• Chaque ligne du cube correspond à un
produit, chaque colonne à une région
et chaque profondeur à une année.
• Chaque point du cube correspond à un
fait correspondant aux différentes
données des dimensions (vente de
Modems en Asie en 2000).
• Si on prend la tranche (slice) Asie, on
obtient toutes les ventes des différents
produits en Asie de 2000 à 2003.
• La tranche 2000 permet d’avoir la table
des données correspondant aux ventes
des différents produits dans le monde.
• La tranche Modems permet d’avoir la
table des données de ventes des
Modems dans le monde de 2000 à
2003.
Modélisation décisionnelle
Les cubes
• One peut également
choisir une ligne ou
une sous partie du
cube.
• Ces opérations (de
sélection d’une partie
des données du cube),
s’appelle Drill Down
lorsqu’on réduit la
partie des données du
cube sélectionnées et
Drill Up lorsqu’on
l’élargie.
Modélisation décisionnelle
Les cubes
• Il est également possible de varier le grain d’agrégation des
données dans les cubes.
• Cette opération de concentration (agrégation) est appelée
Roll-Up. L’inverse sera Roll-Down…
Modélisation décisionnelle
Les cubes
• Enfin, il est également possible de changer
l’orientation du cube (et de changer les points
de vue) en le faisant pivoter :
Modélisation décisionnelle
Les cubes
• La construction d’un cube d’analyse reviendra à
sélectionner un ensemble de mesures d’un fait (ou un
ensemble de mesures d’une agrégation issues d’un fait) et
les dimensions qui seront parcourues. Exemple :
– Pour la mesure quantité du fait Vente,
– Les niveaux hebdomadaire, mensuels et annuels de la
dimension date,
– L’ensemble des caractéristiques de la dimension produit,
– L’ensemble des caractéristiques des clients.
• Il pourra alors être généré au sein du système d’entrepôt de
données, les différents croisements possibles entre les
mesures et dimensions choisies (éléments du cube)
permettant de réaliser les différentes rotations et
agrégations (drill-up et down).
Base Multidimensionnelle
agrégations
Analyse multidimensionnelle
» capacité à manipuler des données qui ont été aggrégées
selon différentes dimensions
ex. : analyse des ventes /catégorie de produit 1 dim.
+ /année 2 dim.
+ /département commercial 3 dim.
+ / zone géographique 4 dim.
....
313131
<#>
L'Analyse MultiDimensionnelle
Objectif
» obtenir des informations déjà aggrégées selon les besoins
de l’utilisateur : simplicité et rapidité d’accès
HyperCube OLAP
» représentation de l’information
dans un hypercube à N dimensions
OLAP (On-Line Analytical Processing)
» fonctionnalités qui servent à faciliter l’analyse
multidimensionnelle : opérations réalisables sur
l’hypercube
323232
<#>
Glossaire OLAP
Dimension
» Temps, Produit, Géographie, ...
Niveau : hiérarchisation des dimensions
» Temps :
Année, Semestre, Trimestre, Mois, Semaine, ...
» Produit :
Rayon, Catégorie, Nature, ...
» Géographie :
Région, Département, Ville, Magasin
Membre d'un Niveau
» Produit::Rayon
Frais, Surgelé, ..., Liquide
» Produit::[Link]égorie
[Link], ..., [Link]
» Produit::[Link]é[Link]
[Link], ... , [Link]
333333
<#>
Glossaire OLAP
Cellule
» intersection des membres des différentes dim.
Formule
» calcul, expression, règle, croisement des dim.
Somme(Qte), Somme(Qte*PrixVente),
Moyenne(Qte*(PrixVente-PrixAchat)), ...
343434
<#>
Opérations OLAP
But
» Visualisation/Utilisation
d'un fragment de l'Hypercube
Opérations OLAP
» Drill Up / Drill Down
» Rotate
» Slicing
» Scoping
353535
<#>
Opérations OLAP -Drill Up/Down
vue synthétique / vue détaillée
Drill Up
95 96 97
Alim. 496 520 255
Drill Up Dimension Temps
95-97 95 96 97 1S95 2S95 1S96 2S96 1S97
Frais 623 Frais 221 263 139 Frais 100 121 111 152 139
Liquide 648 Liquide 275 257 116 Liquide 134 141 120 137 116
95 96 97 Drill Down
Dimension
Produit
Yaourt 20 19 22
••• ••• ••• •••
Salade 40 43 48
Drill Down
363636
<#>
Opérations OLAP -Rotate
95 96 97 95 96 97
Frais 221 263 139 NordPdC 101 120 52
Liquide 275 257 116 IdF 395 400 203
373737
<#>
Opérations OLAP -Slicing
1995 1996 1997 1996
Frais IdF 220 265 284 Frais IdF 265
Province 225 245 240 Province 245
Liquide IdF 163 152 145 Liquide IdF 152
Province 187 174 184 Province 174
383838
<#>
Opérations OLAP -Scoping
1995 1996 1997
Frais IdF 220 265 284
Province 225 245 240
Liquide IdF 163 152 145
Province 187 174 184
1995 1996
Frais IdF 220 265
Province 225 245
393939
<#>
OLAP
Constitution de l'Hypercube
» Administration
» Définition des Dimensions / Niveaux / Membres
Automatique, Manuel, Configuration Métier
Serveurs OLAP / Clients OLAP
» Le client utilise une partie de l'hypercube qu'il cache
» Le serveur calcule, stocke l'hypercube et permet son partage.
Stockage
» M-OLAP : accède à une base multidimensionnelle
+ rapidité
» R-OLAP : accède à une base relationnelle
+ mise à jour
» H-OLAP : hybride, multidimensionnel avec accès au niveau le
+ bas à une base relationnelle
404040
<#>
Rappel- Orientation métier : les Data Marts
Data Mart
» vue partielle et orientée métier sur les données du D.W.
» à chacun son ensemble d’hypercubes OLAP
Data Marts du
service Marketing
Data Mart du
service Ressources
Humaines
414141
<#>
Exemple d’entrepôt
• Le service marketing d’une compagnie aérienne veut analyser les
vols de chaque participant de son programme passagers réguliers. Il
s’intéresse aux vols que prennent les passagers, aux avions qu’ils
utilisent, aux tarifs de base qu’ils paient, à la fréquence à laquelle ils
passent à une classe supérieure, à la façon dont ils obtiennent et
font usage de leur bonus kilométrique de passagers réguliers, il veut
savoir s’ils réagissent sur certains vols, connaître la durée de leur
séjours, ainsi que la promotion de ceux qui sont dans la catégorie
première classe, affaire et économique.
• Le processus d’entreprise mis en jeu par cette étude est l’activité de
vol proprement dite. Nous ne nous intéressons pas à la réservation
ni à l’émission de billets qui ne concerne pas un passager régulier.
D. Ploix - M2 MIAGE - Conception EDD 52