100% ont trouvé ce document utile (1 vote)
419 vues28 pages

Construction et Modélisation d'un Datawarehouse

Ce document décrit les différentes phases et modèles de construction d'un entrepôt de données. Il explique les phases d'étude préalable, de modélisation des données et d'alimentation, ainsi que les modèles en étoile, en flocon de neige et en constellation. Le document fournit également des détails sur les systèmes OLAP et les solutions commerciales.

Transféré par

Mariem Chouiti
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
419 vues28 pages

Construction et Modélisation d'un Datawarehouse

Ce document décrit les différentes phases et modèles de construction d'un entrepôt de données. Il explique les phases d'étude préalable, de modélisation des données et d'alimentation, ainsi que les modèles en étoile, en flocon de neige et en constellation. Le document fournit également des détails sur les systèmes OLAP et les solutions commerciales.

Transféré par

Mariem Chouiti
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

(4) Construction d’un

Entrepôt de Données

2020-2021
Les Phases de Construction d’un DW

Il y a trois parties interdépendantes qui relèvent la construction d’un


Datawarehouse:

Étude du
Étude Étude de
modèle de
préalable l’alimentation
données

2
Phases de Construction d’un DW: Étude Préalable

Étude des besoins


Définir les objectifs du DW
Déterminer le contenu du DW et son organisation, d’après:
les résultats attendus par les utilisateurs,
les requêtes qu’ils formuleront,
les projets qui ont été définis
Recenser les données nécessaires à un bon fonctionnement du DW:
Recenser les données disponibles dans les bases de production
Identifier les données supplémentaires requises

Choisir les dimensions: Typiquement: le temps, le client, le produit,


le magasin, etc.
Choisir les mesures de fait: de préférences de quantités numériques
additives
Choisir la granularité des faits: Niveau de détails des dimensions

3
Phases de Construction d’un DW: Étude Préalable

Coûts de déploiement
Nécessite des machines puissantes, souvent une machine parallèle
Capacité de stockage très importante (historisation des données)
Équipes de maintenance et d’administration
Les coûts des logiciels
Les logiciels d’administration du DW
Les outils ETL (Extract-Transform- Loading)
Les outils d’interrogation et de visualisation
Les outils de Datamining

4
Phases de Construction d’un DW: Modélisation

Modélisation des données pour supporter efficacement les processus


OLAP ("On Line Analytic Processing")
Niveaux d’abstraction identiques à la modélisation relationnelle

• Analyse des besoins des décideurs


Schéma (Quoi?)
Conceptuel

• Mode de stockage (Comment?)


Schéma
Logique

• Choix d’un logiciel (Avec quel outil ?)


Schéma
physique

5
Les systèmes OLAP
Les Systèmes OLAP

Différentes principales représentations logiques orientées ED ont été


proposées :

ROLAP Relational OLAP

MOLAP Multidimensional OLAP

HOLAP Hybrid OLAP

7
Les Systèmes OLAP

MOLAP: Multidimensional OLAP

La structure d’un modèle multidimensionnel n’est pas une série de


tableaux.

Implémente le cube sous forme d’un tableau multidimensionnel, qui sera


ensuite implémenté dans un SGBD multidimensionnel

Langage : MDX

 Calculs d’agrégats rapides

 Formats souvent propriétaires: Coût élevé des licences pour les bases
multidimensionnelles

8
Les Systèmes OLAP

ROLAP: Relational OLAP

Stockage de l’entrepôt dans une BDR: les données sont obtenues à partir
de tables relationnelles et de jointures entre celles-ci.

Langage: SQL

 Plus facile et moins cher à mettre en place

 stockage de gros volume de données

 Moins performant lors des phases de calcul

 Performance (jointures)

MOLAP s'oppose à ROLAP:


pour le premier, les jointures sont déjà faites, ce qui explique les
performances
dans le second, les jointures entre les tables de dimension et de
fait sont effectuées au moment de la requête.
9
Les Systèmes OLAP

Hybrid OLAP
C’est la combinaison des approches ROLAP et MOLAP visant à bénéficier des
avantages de chacune.
Les tables de faits et de dimensions sont stockées dans un SGBDR
Les données agrégées sont stockées dans des cubes

L’utilisateur peut avoir accès à un rapport contenant les données issues du


cube ainsi qu’à un autre rapport détaillé contenant les données en provenance
de tables, cette fois relationnelles.

 Bon compromis au niveau coût /performance sur de gros volume de


données
 Exploite les fonctionnalités de SQL
 Cube connecté à l’entrepôt de données

 Difficulté de mise en œuvre


 Pas aussi rapide que MOLAP

10
Les Systèmes OLAP

MOLAP = Base de données dimensionnelle + Serveur de traitement


OLAP
ROLAP = Base de données relationnelle + SQL avancé

HOLAP = MOLAP pour les données sommaires/agrégées + ROLAP pour


les données détaillées

11
Les Systèmes OLAP: Quelques Solutions Commerciales

12
Schéma d’un Entrepôt de Données

■ Les tables de faits et de dimensions sont stockées dans un SGBDR


Schéma en étoile
Schéma en flocon
Schéma en constellation

Le schéma en étoile est souvent utilisé pour l’implantation physique.

13
Conception des
Entrepôts de
Données
Modélisation des Entrepôts de Données

Les SGBD relationnels représentant plus de 80% des SGBD: c’est la


stratégie la plus couramment utilisée pour implanter un ED.
Les SGBD relationnels doivent cependant être adaptés car ils n’ont pas
les caractéristiques adéquates pour répondre aux besoins des ED:
Extensions du langage SQL à de nouveaux opérateurs
Usage de vues matérialisées
Indexation binaire pour améliorer les performances
Ils réalisent des calculs de données dérivés et agrégations à différents
niveaux
Ils génèrent des requêtes adaptées au schéma relationnel de l’ED et
tirent profit des vues matérialisées existantes (facteur principal de
performance)

15
Modélisation des Entrepôts de Données

Le modèle multidimensionnel est traduit ainsi :


chaque fait correspond à une table, appelée table de fait,
chaque dimension correspond à une table, appelée table de
dimension.


la table de fait est constituée:
d'attributs représentant les mesures d'activité et
les attributs clés étrangères de chacune des tables de dimension.
les tables de dimension contiennent:
les paramètres et
une clé primaire permettant de réaliser des jointures avec la table
de fait.

16
La Modélisation des Données: Modèle en étoile

Dans un schéma en étoile, une table centrale de faits contenant les faits à
analyser, référence les tables de dimensions par des clefs étrangères.

Chaque dimension est décrite par une seule table (feuille de l’arbre de
tables) dont les attributs représentent les diverses granularités possibles.

Une table de fait centrale et des dimensions


Les dimensions n’ont pas de liaison entre elles
Avantages :
Facilité de navigation
Nombre de jointures limité
Inconvénients :
Redondance dans les dimensions

17
La Modélisation des Données: Modèle en étoile

18
La Modélisation des Données: Modèle en étoile

19
Le Modèle Dimensionnel

Dim_Produit (Idproduit, Nom, Type,


Gamme, PrixUnitaire, Couleur)

Dim_Localisation (Idloc, Ville, Région,


Pays)
Dim_Temps(Idtemps, Jour, Mois,
Trimestre, Année)
Fait_vente (#Idproduit, #Idloc,
#Idtemps, ChiffreAffaire)

20
La Modélisation des Données: Modèle en flocon de neige

On peut augmenter la lisibilité d’un modèle en regroupant certaines


dimensions.
Modèle en flocons de neige = Modèle en étoile + normalisation des
dimensions

On définit des hiérarchies pouvant être géographiques ou


organisationnelles.

Lorsque les tables sont trop volumineuses.

Avantages :
réduction du volume
permettre des analyses par pallier (drill down) sur la dimension
hiérarchisée

Inconvénients :
navigation difficile
nombreuses jointures

21
La Modélisation des Données: Modèle en flocon de neige

22
Le Modèle Dimensionnel

23
La Modélisation des Données: Modèle en Constellation

Série d’étoiles

Fusion de plusieurs modèles en étoile qui utilisent des dimensions


communes

Plusieurs tables de fait et tables de dimensions, éventuellement


communes

24
Élaboration de Modèles d’Entrepôts de Données: Exemple

Une entreprise de fabrication de vaisselle jetable souhaite mettre en place


un système d’information décisionnel sous la forme d’un data mart (un
mini entrepôt de données) pour observer son activité de ventes au niveaux
des différents lieux de distributions de ses articles et cela dans plusieurs
villes.
Ces lieux de distributions sont renseignés par leur enseigne, leur type (en
fonction de leur surface), leur adresse (code postal et ville), leur
département, leur région.
Les ventes sont renseignées selon une période qui se décline en mois, en
trimestre et année. Les ventes sont observées par le nombre d’articles selon
le type, et le chiffre d’affaire.

- Quel est le fait à observer ?


- Quels sont les axes d’analyse, et les mesures ?
- Construire le modèle en étoile de ce data mart.

25
Élaboration de Modèles d’Entrepôts de Données: Solution N°1

Dim: Magasin
Fact: Ventes
Id_M Id_Mag
Dim: Type Article Enseigne
Id_TA
Id_P Type Surface
Id_TA
Adresse (CP, Ville)
Désignation
Département
Nbre articles Région
Chiffre Affaire

Dim: Période
Id_P
Période
Mois
Trimestre
Année
26
Élaboration de Modèles d’Entrepôts de Données: Solution N°2

Mesures Dimensions Hiérarchie


Nbre Articles Type Article
Chiffre Affaire Magasin Département Région
Période Mois Trimestre Année

27
Élaboration de Modèles d’Entrepôts de Données: Solution N°2

28

Vous aimerez peut-être aussi