ENTREPÔT DE DONNÉES
INES SLIMENE
INFORMATIQUE DÉCISIONNELLE 2019/2020 1
2019/2020 [email protected]
PLAN
Objectifs
Définition d’un DW
Caractéristiques des DW
Data Warehouse et Datamart
Architecture du DW
Construction et d'exploitation d’un DW
INFORMATIQUE DÉCISIONNELLE 2019/2020 2
OBJECTIFS
regrouper, organiser des informations provenant de sources diverses,
◆ les intégrer et les stocker pour donner à l’utilisateur une vue orientée métier (sujet),
◆ retrouver et analyser l’information facilement et rapidement.
La simple logique de production (produire pour répondre à une demande) ne suffit plus pour pérenniser l'activité
d'une entreprise.
Pour faire face aux nouveaux enjeux, l’entreprise doit collecter, traiter, analyser les informations de son
environnement pour anticiper.
Problème : l’information produite par l'entreprise est surabondante, non organisée et éparpillée dans de multiples
systèmes opérationnels hétérogènes et peut provenir de toutes les places de marchés (mondialisation des
échanges).
Solution : Rassembler et homogénéiser les données.
INFORMATIQUE DÉCISIONNELLE 2019/2020 3
DÉFINITION D’UN DW
Ralph Kimball
« un entrepôt de données est constitué peu à peu par les datamart de l’entreprise regroupant le niveau
d’agrégation et d’historisation au sein d’une même base ».
W. H. Inmon (1996):
« Le data Warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées,
organisées pour le support d’un processus d’aide à la décision »
INFORMATIQUE DÉCISIONNELLE 2019/2020 4
LES 4 CARACTÉRISTIQUES DES DW: DONNÉES ORIENTÉES SUJET
Regroupe les informations des différents métiers
Ne tiens pas compte de l’organisation fonctionnelle des données
INFORMATIQUE DÉCISIONNELLE 2019/2020 5
LES 4 CARACTÉRISTIQUES DES DW : DONNÉES INTÉGRÉES
Normalisation des données
Définition d’un référentiel unique
Les données doivent être variées, triées et transformées dans un format unie an de faciliter et
accélérer l’accès.
h,f
1, h,f
0
homme,
femme
GBP
EU
INFORMATIQUE DÉCISIONNELLE
CHF 2019/2020 R 6
USD
LES 4 CARACTÉRISTIQUES DES DW : DONNÉES NON VOLATILES
Afin de conserver la traçabilité des informations et des décisions prises, les informations stockées au
sein du Data Warehouse ne doivent pas disparaitre...
Copie des données de production :
Stables
en lecture seule
non modifiables Bases de production Entrepôts de données
Ajout
Suppression
Accès
INFORMATIQUE DÉCISIONNELLE
Modification Chargement 2019/2020 7
LES 4 CARACTÉRISTIQUES DES DW : DONNÉES HISTORIÉES
Données datées :
avec une conservation de l'historique et de son évolution pour permettre les analyses comparatives (par exemple,
d'une année à l'autre, etc.).
Dans un Data Warehouse, un référentiel de temps est nécessaire : c'est l'axe temps ou l'axe période.
INFORMATIQUE DÉCISIONNELLE 2019/2020 8
DATA WAREHOUSE ET DATAMART
Les entrepôts de données :
Nécessitent de puissantes machines pour gérer de très grandes bases de données contenant des données de détail
historiées
Est le lieu de stockage centralisé d'un extrait des bases de production.
L'organisation des données est faite selon un modèle facilitant la gestion efficace des données et leur historisation.
Les magasins de données (Data Marts) :
Sont de petits entrepôts nécessitant une infrastructure plus légère et sont mis en œuvre plus rapidement
Les données extraites sont adaptées pour l'aide à la décision (pour classe de décideurs, usage particulier, recherche de
corrélation, logiciel de statistiques,...)
L'organisation des données est faite selon un modèle facilitant les traitements décisionnels
INFORMATIQUE DÉCISIONNELLE 2019/2020 9
DATAMART
Sous-ensemble d’un entrepôt de données
Destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de l’entreprise
Point de vue spécifique selon des critères métiers
Datamarts du
service Marketing
Datamart du
DW de l’entreprise
INFORMATIQUE DÉCISIONNELLE
service Ressources 2019/2020 10
Humaines
INTÉRÊT DES DATAMART
Nouvel environnement structuré et formaté en fonction des besoins d’un métier ou d’un usage particulier
Moins de données que DW
Plus facile à comprendre, à manipuler
Amélioration des temps de réponse
Utilisateurs plus ciblés: DM plus facile à définir
INFORMATIQUE DÉCISIONNELLE 2019/2020 11
ARCHITECTURE DU DW
Zone de préparation (Staging area)
Zone temporaire de stockage des données extraites
collecte des données sources, qualification et organisation avant de pouvoir les déverser dans le
DW
Données souvent détruites après chargement dans le DW
ODS (Operational Data Store)
un espace de stockage persistant dans lequel seront stockées les données sources à un niveau
détaillé.
le socle des données du Data Warehouse.
INFORMATIQUE DÉCISIONNELLE 2019/2020 12
ARCHITECTURE DU DW
Zone de stockage (DW, DM)
On y transfère les données nettoyées
Stockage permanent des données
Zone de présentation
Donne accès aux données contenues dans le DW
Peut contenir des outils d’analyse programmés:
Rapports
Requêtes…
INFORMATIQUE DÉCISIONNELLE 2019/2020 13
CONSTRUCTION D’UN DW
Définir les objectifs du DW
Déterminer le contenu du DW et son organisation, d’après:
Les résultats attendus par les décideurs
Les requêtes qu’ils formuleront
Les projets qui ont été définie
Recenser les données nécessaires à un bon fonctionnement du DW:
Recenser les données disponibles dans les bases de production
Identifier les données supplémentaires requises
Choisir les dimensions ,Typiquement: le temps, le client, le produit, le magasin...
Choisir les mesures de fait : Des valeurs numériques additives
Choisir la granularité des faits : Niveau de détails des dimensions
INFORMATIQUE DÉCISIONNELLE 2019/2020 14
MODÉLISATION
INFORMATIQUE DÉCISIONNELLE 2019/2020 15
PLAN
Modélisation Entité-Relation
Normalisation dans les BDR
Limites de la Modélisation E/R
Les approches de modélisation d’un DW
Conception logique d’un DW
Table de faits
Table de dimensions
Modèles de DW
INFORMATIQUE DÉCISIONNELLE 2019/2020 16
MODÉLISATION ENTITÉ-RELATION
Discipline permettant d’éclairer les relations microscopiques entre les données
Supprimer la redondance des données
Simplifier le traitement des transactions
Aider le concepteur dans la répartition des propriétés entre les entités
Principes
Notion d’identifiant
Dépendance fonctionnelle
Décomposition
Formes normales
INFORMATIQUE DÉCISIONNELLE 2019/2020 17
NORMALISATION DANS LES BDR
Forme normale:
Type de relation particulier entre les entités
Permet d’éviter les anomalies transactionnelles dues à une mauvaise modélisation des données
Permet de vérifier la robustesse de la conception des modèles de données pour éviter les problèmes de redondance et de
mise à jour du contexte
Dans le modèle OLTP, il existe 8 formes normales
Elles s’emboitent les unes dans les autres
Le respect d’une FN de niveau supérieur implique le respect des FN des niveaux inférieurs
INFORMATIQUE DÉCISIONNELLE 2019/2020 18
LIMITES DE LA MODÉLISATION E/R
Modèle complexe
Plusieurs tables et jointures mises en œuvre
Risque de dégradation des performances
Pas de compréhension pour l’utilisateur
Données historiques difficilement représentées
Contraire aux objectifs du DW
INFORMATIQUE DÉCISIONNELLE 2019/2020 19
LES APPROCHES DE MODÉLISATION D’UN DW
Bill Inmon : On ne fait rien tant que tout n’est pas désigné. Le Datawarehouse doit être exhaustif!
Ralph Kimball : Que chacun construise ce qu’il veut, on intégrera ce qu’il faudra quand il faudra!
INFORMATIQUE DÉCISIONNELLE 2019/2020 20
CONCEPTION LOGIQUE D’UN DW
Principe : Ne pas normaliser au maximum
Définition des objets
Table de faits : contient l’information à analyser (par exemple les ventes)
Table de dimensions : contiennent les informations sur les dimensions d’analyse (par exemple le lieu, le temps,
la description du produit).
Les mesures sont les valeurs numériques que l’on compare (ex : montant_ventes, qte_vendue) Ces valeurs
sont le résultat d’une opération d’agrégation des données.
Les mesures sont stockées dans les tables de faits
Définition des relations entre objets
Choix d'un modèle de conception (Modèle en étoile, Modèle en flocon..)
INFORMATIQUE DÉCISIONNELLE 2019/2020 21
TABLE DE FAITS
Table principale du modèle dimensionnel
Contient les données observables (les faits) sur le sujet étudié selon divers axes d’analyse (les dimensions)
Table de faits des ventes
Clés étrangères vers Clé date (FK)
les dimensions
Clé produit (FK)
Clé magasin (FK)
Quantité vendue
Mesures Coût
Montant des ventes
INFORMATIQUE DÉCISIONNELLE 2019/2020 22
TABLE DE FAITS (SUITE)
Fait:
Ce que l’on souhaite mesurer
Quantités vendues, montant des ventes…
Contient les clés étrangères des axes d’analyse (dimension)
Date, produit, magasin
Trois types de faits:
Additif
Semi additif
Non additif
INFORMATIQUE DÉCISIONNELLE 2019/2020 23
TABLE DE FAITS (SUITE)
Additif: additionnable suivant toutes les dimensions
Quantités vendues, chiffre d’affaire
Peut être le résultat d’un calcul:
Bénéfice = montant vente - coût
Semi additif: additionnable suivant certaines dimensions
Solde d’un compte bancaire:
Pas de sens d’additionner sur les dates car cela représente des instantanés d’un niveau
Σ sur les comptes: on connaît ce que nous possédons en banque
Non additif: fait non additionnable quelque soit la dimension
Prix unitaire: l’addition sur n’importe quelle dimension donne un nombre dépourvu de sens
INFORMATIQUE DÉCISIONNELLE 2019/2020 24
GRANULARITÉ DE LA TABLE DE FAITS
Répondre à la question :
Que représente un enregistrement de la table de faits?
La granularité définit le niveau de détails de la table de faits:
Exemple: une ligne de commande par produit, par client et par jour
- Précision des analyses
+ Finesse
Taille de l’entrepôt
INFORMATIQUE DÉCISIONNELLE 2019/2020 25
DIMENSIONS
Une table de dimension contient le détail sur les faits
Une table de dimension contient les informations descriptives des valeurs numériques de la table des faits
Vu que les données dans la table de dimensions sont normalisées, elle contient un plus grand nombre de
colonnes
Une table de dimensions contient en général beaucoup moins d’enregistrements qu’une table des faits
Les attributs d’une table de dimensions sont souvent utilisés comme «Tête de lignes » et «Tête de colonnes »
dans un rapport ou résultat de requête.
INFORMATIQUE DÉCISIONNELLE 2019/2020 26
TABLE DE DIMENSION
Axe d’analyse selon lequel vont être étudiées les données observables (faits)
Contient le détail sur les faits
INFORMATIQUE DÉCISIONNELLE 2019/2020 27
TABLE DE DIMENSION (SUITE)
Dimension Temps
Commune à l’ensemble du DW
Clé temps (PK)
Reliée à toute table de faits
Jour
Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année
INFORMATIQUE DÉCISIONNELLE 2019/2020 28
GRANULARITÉ D’UNE DIMENSION
Une dimension contient des membres organisés en hiérarchie :
Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité) particulier
Granularité d’une dimension : nombre de niveaux hiérarchiques
Temps :
année – semestre – trimestre - mois
INFORMATIQUE DÉCISIONNELLE 2019/2020 29
CLÉ DE SUBSTITUTION
Une Clé de substitution (Surrogate Key) est une clé non intelligente utilisée afin de substituer la clé naturelle
(Business Key) qui provient des systèmes opérationnels.
La clé naturelle est en général composée de plusieurs colonnes
Dans un système opérationnel, on utilise une clé artificielle afin d’identifier d’une façon unique un élément de
l’entité :(client_id Pour l’entité Client, emp_id pour l’entité Employé)
La clé de substitution ne doit pas être confondue avec la clé artificielle attribuée par les systèmes opérationnels.
La clé de substitution est alors utilisée dans un entrepôt de données pour remplacer et compléter la clé
artificielle du système opérationnel afin de rendre un élément unique dans la dimension
INFORMATIQUE DÉCISIONNELLE 2019/2020 30
CLÉ DE SUBSTITUTION
Remplacer la clé artificielle ou naturelle:
Une clé de substitution remplace la clé artificielle en termes d’utilisation, ce n’est plus la clé naturelle qui sera
utilisées pour faire les jointures avec les tables des faits ou les autres tables de dimension
Compléter l’information:
La clé de substitution n’a aucun sens en terme d’affaire, elle est utilisée dans le DW seulement.
La clé artificielle ou naturelle dans la dimension est toujours nécessaire pour pouvoir faire la correspondance
entre l’élément de dimension (un client par exemple) dans le DW et l ’élément de la table des clients dans le
système opérationnel.
INFORMATIQUE DÉCISIONNELLE 2019/2020 31
CLÉ DE SUBSTITUTION
Performance : Accélère l’accès aux données du moment ou l’on va utiliser un index numérique vu que le type de
données de la clé de substitution est numérique.
Indépendance du système source : on ne peut garantir que la clé d’affaire ne change pas dans les systèmes
sources.
Historique des changements et granularité infinie: si l’on désire garder l’historique des changements de la
dimension selon certains critères, on doit gérer la clé de substitution. On e retrouve facilement avec plusieurs
enregistrements de la même clé d’affaire dans la dimension.
INFORMATIQUE DÉCISIONNELLE 2019/2020 32
LES TYPES DE MODÈLES
Modèle en étoile
Modèle en flocon
Modèle en constellation
INFORMATIQUE DÉCISIONNELLE 2019/2020 33
MODÈLE EN ÉTOILE
Une table de fait centrale et des dimensions
Les dimensions n’ont pas de liaison entre elles
Avantages:
Facilité de navigation
Nombre de jointures limité
Alimentation facile.
Inconvénients:
Redondance dans les dimensions
Toutes les dimensions ne concernent pas les mesures
INFORMATIQUE DÉCISIONNELLE 2019/2020 34
MODÈLE EN ÉTOILE
INFORMATIQUE DÉCISIONNELLE 2019/2020 35
MODÈLE EN FLOCON
Une table de fait et des dimensions décomposées en sous hiérarchies (Exemple : Commune, Département,
Région, Pays, Continent)
On a un seul niveau hiérarchique dans une table de dimension
La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu’elle a la granularité
la plus fine
Avantages:
Normalisation des dimensions
Économie d’espace disque
Inconvénients:
Modèle plus complexe (jointure)
Requêtes moins performantes
INFORMATIQUE DÉCISIONNELLE 2019/2020 36
MODÈLE EN FLOCON
INFORMATIQUE DÉCISIONNELLE 2019/2020 37
MODÈLE EN CONSTELLATION
Fusion de plusieurs modèles en étoile qui utilisent des dimensions communes
Enregistrement de plusieurs faits avec des dimensions communes ou non
En général, on a un schéma de constellation de faits pour l'entrepôt
une étoile de la constellation pour un magasin de données (Data Mart)
Exemple : Vente de médicaments dans des pharmacies
une constellation est constituée de 2 schémas en étoile :
Schéma en étoile 1 : VENTE effectuées dans les pharmacies
Schéma en étoile 2 : analyse des PRESCRIPTION des médecins
Dimensions Temps et Géographie partagées par les faits PRESCRIPTION et VENTE
INFORMATIQUE DÉCISIONNELLE 2019/2020 38
MODÈLE EN CONSTELLATION
INFORMATIQUE DÉCISIONNELLE 2019/2020 39