(4) Construction d’un
Entrepôt de Données
2020-2021
Les Phases de Construction d’un DW
Il y a trois parties interdépendantes qui relèvent la construction d’un
Datawarehouse:
Étude du
Étude Étude de
modèle de
préalable l’alimentation
données
2
Phases de Construction d’un DW: Étude Préalable
Étude des besoins
Définir les objectifs du DW
Déterminer le contenu du DW et son organisation, d’après:
les résultats attendus par les utilisateurs,
les requêtes qu’ils formuleront,
les projets qui ont été définis
Recenser les données nécessaires à un bon fonctionnement du DW:
Recenser les données disponibles dans les bases de production
Identifier les données supplémentaires requises
Choisir les dimensions: Typiquement: le temps, le client, le produit,
le magasin, etc.
Choisir les mesures de fait: de préférences de quantités numériques
additives
Choisir la granularité des faits: Niveau de détails des dimensions
3
Phases de Construction d’un DW: Étude Préalable
Coûts de déploiement
Nécessite des machines puissantes, souvent une machine parallèle
Capacité de stockage très importante (historisation des données)
Équipes de maintenance et d’administration
Les coûts des logiciels
Les logiciels d’administration du DW
Les outils ETL (Extract-Transform- Loading)
Les outils d’interrogation et de visualisation
Les outils de Datamining
4
Phases de Construction d’un DW: Modélisation
Modélisation des données pour supporter efficacement les processus
OLAP ("On Line Analytic Processing")
Niveaux d’abstraction identiques à la modélisation relationnelle
• Analyse des besoins des décideurs
Schéma (Quoi?)
Conceptuel
• Mode de stockage (Comment?)
Schéma
Logique
• Choix d’un logiciel (Avec quel outil ?)
Schéma
physique
5
Les systèmes OLAP
Les Systèmes OLAP
Différentes principales représentations logiques orientées ED ont été
proposées :
ROLAP Relational OLAP
MOLAP Multidimensional OLAP
HOLAP Hybrid OLAP
7
Les Systèmes OLAP
MOLAP: Multidimensional OLAP
La structure d’un modèle multidimensionnel n’est pas une série de
tableaux.
Implémente le cube sous forme d’un tableau multidimensionnel, qui sera
ensuite implémenté dans un SGBD multidimensionnel
Langage : MDX
Calculs d’agrégats rapides
Formats souvent propriétaires: Coût élevé des licences pour les bases
multidimensionnelles
8
Les Systèmes OLAP
ROLAP: Relational OLAP
Stockage de l’entrepôt dans une BDR: les données sont obtenues à partir
de tables relationnelles et de jointures entre celles-ci.
Langage: SQL
Plus facile et moins cher à mettre en place
stockage de gros volume de données
Moins performant lors des phases de calcul
Performance (jointures)
MOLAP s'oppose à ROLAP:
pour le premier, les jointures sont déjà faites, ce qui explique les
performances
dans le second, les jointures entre les tables de dimension et de
fait sont effectuées au moment de la requête.
9
Les Systèmes OLAP
Hybrid OLAP
C’est la combinaison des approches ROLAP et MOLAP visant à bénéficier des
avantages de chacune.
Les tables de faits et de dimensions sont stockées dans un SGBDR
Les données agrégées sont stockées dans des cubes
L’utilisateur peut avoir accès à un rapport contenant les données issues du
cube ainsi qu’à un autre rapport détaillé contenant les données en provenance
de tables, cette fois relationnelles.
Bon compromis au niveau coût /performance sur de gros volume de
données
Exploite les fonctionnalités de SQL
Cube connecté à l’entrepôt de données
Difficulté de mise en œuvre
Pas aussi rapide que MOLAP
10
Les Systèmes OLAP
MOLAP = Base de données dimensionnelle + Serveur de traitement
OLAP
ROLAP = Base de données relationnelle + SQL avancé
HOLAP = MOLAP pour les données sommaires/agrégées + ROLAP pour
les données détaillées
11
Les Systèmes OLAP: Quelques Solutions Commerciales
12
Schéma d’un Entrepôt de Données
■ Les tables de faits et de dimensions sont stockées dans un SGBDR
Schéma en étoile
Schéma en flocon
Schéma en constellation
Le schéma en étoile est souvent utilisé pour l’implantation physique.
13
Conception des
Entrepôts de
Données
Modélisation des Entrepôts de Données
Les SGBD relationnels représentant plus de 80% des SGBD: c’est la
stratégie la plus couramment utilisée pour implanter un ED.
Les SGBD relationnels doivent cependant être adaptés car ils n’ont pas
les caractéristiques adéquates pour répondre aux besoins des ED:
Extensions du langage SQL à de nouveaux opérateurs
Usage de vues matérialisées
Indexation binaire pour améliorer les performances
Ils réalisent des calculs de données dérivés et agrégations à différents
niveaux
Ils génèrent des requêtes adaptées au schéma relationnel de l’ED et
tirent profit des vues matérialisées existantes (facteur principal de
performance)
15
Modélisation des Entrepôts de Données
Le modèle multidimensionnel est traduit ainsi :
chaque fait correspond à une table, appelée table de fait,
chaque dimension correspond à une table, appelée table de
dimension.
la table de fait est constituée:
d'attributs représentant les mesures d'activité et
les attributs clés étrangères de chacune des tables de dimension.
les tables de dimension contiennent:
les paramètres et
une clé primaire permettant de réaliser des jointures avec la table
de fait.
16
La Modélisation des Données: Modèle en étoile
Dans un schéma en étoile, une table centrale de faits contenant les faits à
analyser, référence les tables de dimensions par des clefs étrangères.
Chaque dimension est décrite par une seule table (feuille de l’arbre de
tables) dont les attributs représentent les diverses granularités possibles.
Une table de fait centrale et des dimensions
Les dimensions n’ont pas de liaison entre elles
Avantages :
Facilité de navigation
Nombre de jointures limité
Inconvénients :
Redondance dans les dimensions
17
La Modélisation des Données: Modèle en étoile
18
La Modélisation des Données: Modèle en étoile
19
Le Modèle Dimensionnel
Dim_Produit (Idproduit, Nom, Type,
Gamme, PrixUnitaire, Couleur)
Dim_Localisation (Idloc, Ville, Région,
Pays)
Dim_Temps(Idtemps, Jour, Mois,
Trimestre, Année)
Fait_vente (#Idproduit, #Idloc,
#Idtemps, ChiffreAffaire)
20
La Modélisation des Données: Modèle en flocon de neige
On peut augmenter la lisibilité d’un modèle en regroupant certaines
dimensions.
Modèle en flocons de neige = Modèle en étoile + normalisation des
dimensions
On définit des hiérarchies pouvant être géographiques ou
organisationnelles.
Lorsque les tables sont trop volumineuses.
Avantages :
réduction du volume
permettre des analyses par pallier (drill down) sur la dimension
hiérarchisée
Inconvénients :
navigation difficile
nombreuses jointures
21
La Modélisation des Données: Modèle en flocon de neige
22
Le Modèle Dimensionnel
23
La Modélisation des Données: Modèle en Constellation
Série d’étoiles
Fusion de plusieurs modèles en étoile qui utilisent des dimensions
communes
Plusieurs tables de fait et tables de dimensions, éventuellement
communes
24
Élaboration de Modèles d’Entrepôts de Données: Exemple
Une entreprise de fabrication de vaisselle jetable souhaite mettre en place
un système d’information décisionnel sous la forme d’un data mart (un
mini entrepôt de données) pour observer son activité de ventes au niveaux
des différents lieux de distributions de ses articles et cela dans plusieurs
villes.
Ces lieux de distributions sont renseignés par leur enseigne, leur type (en
fonction de leur surface), leur adresse (code postal et ville), leur
département, leur région.
Les ventes sont renseignées selon une période qui se décline en mois, en
trimestre et année. Les ventes sont observées par le nombre d’articles selon
le type, et le chiffre d’affaire.
- Quel est le fait à observer ?
- Quels sont les axes d’analyse, et les mesures ?
- Construire le modèle en étoile de ce data mart.
25
Élaboration de Modèles d’Entrepôts de Données: Solution N°1
Dim: Magasin
Fact: Ventes
Id_M Id_Mag
Dim: Type Article Enseigne
Id_TA
Id_P Type Surface
Id_TA
Adresse (CP, Ville)
Désignation
Département
Nbre articles Région
Chiffre Affaire
Dim: Période
Id_P
Période
Mois
Trimestre
Année
26
Élaboration de Modèles d’Entrepôts de Données: Solution N°2
Mesures Dimensions Hiérarchie
Nbre Articles Type Article
Chiffre Affaire Magasin Département Région
Période Mois Trimestre Année
27
Élaboration de Modèles d’Entrepôts de Données: Solution N°2
28