Entrepôts de
données
Contexte (1)
Besoin :
Prise de décisions stratégiques et tactiques
Réactivité
Qui :
les décideurs (non informaticiens, non statisticiens)
Comment :
Répondre aux demandes d’analyse de données
Dégager des informations qualitatives nouvelles
2
Contexte (2)
Type de données : données opérationnelles (de
production)
Bases de données, Fichiers, Paye, Gestion RH, …
Caractéristiques des données :
Distribuées : systèmes éparpillés
Hétérogènes : systèmes et structures de données différents
Détaillées : organisation de données selon les processus
fonctionnels et données trop abondantes pour l’analyse
Peu/pas adaptées à l’analyse : des requêtes lourdes peuvent
bloquer le système transactionnel
Volatiles : pas d’historisation systématique
3
Problématique (1)
Nous avons donc :
Une grande masse de données
Distribuées
Hétérogènes
Très détaillées
à traiter
Synthétiser / résumer
Visualiser
Analyser
pour une utilisation par des
Experts / analystes d’un métier
Non informaticiens
Non statisticiens
4
Solution
Mettre en place un SI dédié aux applications
décisionnelles : un entrepôt de données
(datawarehouse)
Transformer des données de production en
informations stratégiques
5
Sources : Th. Ester, HEC Lausanne
L’entrepôt : Définition
Le DW est une collection de données
orientées sujet, intégrées, non volatiles et
historisées, organisées pour le support
d’un processus d’aide à la décision.
W.H. Inmon (1996)
C’est une BD à des fins d’analyse !!
6
Pourquoi pas un SGBD ? (1)
Fonctions d’un SGBD :
Systèmes transactionnels (OLTP)
Permettre d’insérer, modifier, interroger
rapidement, efficacement et en sécurité les
données de la base
Répondre à de nombreux utilisateurs
simultanément
7
Pourquoi pas un SGBD ? (2)
Fonctions d’un DW :
Systèmes pour l’aide à la prise de décision
(OLAP)
Regrouper, stocker etorganiser des
informations provenant de sources
diverses (lecture seule!)
Retrouver et analyser l’information
rapidement et facilement
8
Pourquoi pas un SGBD ? (3)
OLTP DW
Utilisateurs Nombreux Peu
Employés Analystes
Données Alphanumériques Numériques
Détaillées / atomiques Résumées / agrégées
Orientées application Orientées sujet
Dynamiques Statiques
Requêtes Prédéfinies « one-use »
Accès Peu de données Beaucoup d’informations
(courantes) (historisées)
But Dépend de l’application Prise de décision
Temps d’exécution Court Long
Mises à jour Très souvent Périodiquement
9
Pourquoi pas un SGBD ? (4)
10
Sources : Lydie Soler, AgroTechParis
Caractéristiques d’un DW
Inconvénient :
De par sa taille, le DW est rarement utilisé
directement par les décideurs car il
contient plus que nécessaire pour une
classe de décideurs
11
Le datamart
Sous-ensemble d’un entrepôt de données
Destiné à répondre aux besoins d’un secteur/une
fonction particulière de l’entreprise
Point de vue spécifique selon des critères
métiers
12
Sources : Lydie Soler, AgroTechParis
Architecture d’un système décisionnel
21
Sources : C. Chrisment, IRIT
Plus en détails…
14
Modélisation multidimensionnelle
Modélisation multidimensionnelle des
données facilitant l’analyse d’une quantité
selon différentes dimensions :
Temps,
Localisation géographique,
…
Les calculs sont réalisés lors du
chargement ou de la mise à jour du cube.
15
Exemple de Cube
16
Fait
Sujet analysé
Un fait représente la valeur d’une mesure, calculée ou mesurée, selon un
membre de chacune des dimensions
La table de fait contient les valeurs des mesures et les clés vers les tables
de dimensions
17
Dimension (1)
Axes d'analyse avec lesquels on veut faire l'analyse
Géographique, temporel, produits, etc.
Chaque dimension comporte un ou plusieurs
attributs/membres
Une dimension est tout ce qu'on utilisera pour faire
nos analyses.
18
Dimension (2)
Dimension produit
Clé de substitution Clé produit (CP)
Code produit
Description du produit
Attributs de la
dimension Famille du produits
Marque
Emballage
Poids
19
Mesure
Élément de donnée sur lequel portent les
analyses, en fonction des différentes
dimensions.
Ces valeurs sont le résultat d’opérations
d’agrégation sur les données
Exemple :
Coût des travaux
Nombre d’accidents
Ventes
…
20
Axe d’Analyse
21
Les dimensions
Une dimension est une catégorisation utilisée pour étaler
une mesure agrégée afin de révéler ses composants.
22
Les dimensions
On peut analyser une mesure selon plusieurs dimensions.
Cube de données
23
Clés
Tables de dimension
Clé primaire
Tables de fait
Clé composée
Clés étrangères des tables de dimension
24
Modélisation
Au niveau conceptuel, il existe 2 modèles :
enétoile (star schema)
Ou en flocon
25
Modèle en étoile (1)
Une table de fait centrale et des dimensions
Les dimensions n’ont pas de liaison entre elles
Avantages :
Facilité
de navigation
Nombre de jointures limité
Inconvénients :
Redondance dans les dimensions
Toutes les dimensions ne concernent pas les
mesures
26
Modèle en étoile (2)
27
Sources : Lydie Soler, AgroTechParis
Constellation (1)
Série d’étoiles
Fusion de plusieurs modèles en étoile qui
utilisent des dimensions communes
Plusieurs tables de fait et tables de
dimensions, éventuellement communes
28
Constellation
(2)
38
Sources : [Link]
Modèle en flocon (1)
Modèle en étoile + normalisation des dimensions
Une table de fait et des dimensions en sous-hiérarchies
Un seul niveau hiérarchique par table de dimension
La table de dimension de niveau hiérarchique le plus bas est
reliée à la table de fait (elle a la granularité la plus fine)
Avantages :
Normalisation des dimensions
Economie d’espace disque (réduction du volume)
Inconvénients :
Modèle plus complexe (nombreuses jointures)
Requêtes moins performantes
Navigation difficile
30
Modèle en flocon (2)
48
Sources : Lydie Soler, AgroTechParis
Exemple de schéma en flocons
32
Exercice
On considère un entrepôt de données permettant d’observer les ventes de
produits d’une entreprise. Le schéma des tables est le suivant :
CLIENT (id-client, région, ville, pays, département)
PRODUIT (id-prod, catégorie, coût-unitaire, fournisseur, prix-
unitaire, nom-prod)
TEMPS (id-tps, mois, nom-mois, trimestre, année)
VENTE (id-prod, id-tps, id-client, date-expédition, prix-de-vente,
frais-de-livraison)
Questions
1. Indiquer quelles sont la (les) table(s) de fait et les tables de
dimension de cet entrepôt.
2. Donner la représentation du schéma en étoile de l’entrepôt.
3. On veut transformer ce schéma en schéma en flocon. Donner la
nouvelle représentation de la table TEMPS (ajouter des paramètres
/ attributs, si nécessaire)
33
Application : Exercice 2 du TD
34
Quelques solutions commerciales
35
Quelques solutions Open source
36
Ne pas oublier… (1)
Le volume de données manipulées
37
Ne pas oublier… (2)
Voici 2 étapes importantes pour la
réalisation d’un DW :
Conception
Acquisition des données
38
Références
« Data Warehouse Design: Modern
Principles and Methodologies » de Matteo
Golfarelli et Stefano Rizzi, 2009, Ed:
Osborne/McGraw-Hill.
« Olap Solutions: Building
Multidimensional Information Systems »
de E. Thomsen, 2002, Ed: John Wiley &
Sons Inc.
39