Data Warehouses et Extraction de Données
Data Warehouses et Extraction de Données
Hicham BEHJA
Plan
I. Data Warehouses
1. Problématique
2. Applications
3. Bases de données transactionnelles
4. Entrepôts de données
II. Extraction de connaissances à partir de données (ECD)
1. Définitions
2. Étapes de l’ECD
3. Techniques de l’ECD
2
I. DATA WARHOUSES
3
1. Problématique
● Objectif
– Améliorer les performances décisionnelles de l'entreprise
● Décisions stratégiques
● Décisions rapides
● Comment ?
– Répondant aux demandes d’analyse des décideurs :
● Qui sont mes clients ?
● Qui sont mes meilleurs clients actuellement?
● Pourquoi sont-ils mes clients ?
● Comment les conserver ou les faire revenir ?
● Ces clients seront-ils intéressants pour moi ?
● Quels sont nos 10 produits les plus bénéficiaires sur la période 2004-2005?
● ...
4
1. Problématique
● Problèmes à prendre en compte
– Une grande masse de données :
● Distribuée
● Hétérogène
● Très Détaillée
– A traiter :
● Synthétiser / Résumer
● Visualiser
● Analyser
– Pour une utilisation par :
● des experts et des analystes d'un métier
● NON informaticiens
● NON statisticiens
5
1. Problématique
6
2. Applications
● Banque, Assurance
– déterminer les profils client
– Risque d'un Prêt, Prime plus précise
● Commerce
– ciblage de clientèle
– déterminer les promotions
– aménagement des rayons (2 produits en corrélation)
7
2. Applications
● Santé
– épidémiologie (VIH, ...)
● Économétrie
– prédiction de trafic autoroutier
● Ressources Humaines
– adéquation activité / personnel
● Web
– Restructuration des sites
8
3. Évolution technologique des BD
Collection des données (avant 1960):
- Traitements primitives des fichiers
SGBD (1970’s):
- SGBDR, et les réseaux d’ordinateurs,
- Langages de requêtes,
- Méthodes d’optimisations
9
3. Systèmes transactionnels
● Le transactionnel réfère à un mode
d’exploitation de données tourné vers la
saisie, le stockage, la mise à jour, la sécurité
et l’intégrité des données.
● Par exemple, les systèmes de gestion des
transactions boursières ou bancaires, dont
les guichets automatiques ou les systèmes
d’inventaire dans les magasins
10
3. Systèmes transactionnels
(Operational Data Store ou Legacy System)
« Le système transactionnel est
généralement une base de données,
développée par application, stockant les
données courantes d’une organisation, c’est-
à-dire qu’il n’y a pas de données d’archives
dans les systèmes transactionnels » (Bédard
et al. 1997)
11
3. Systèmes transactionnels
● Le système transactionnel réfère aux bases
de données développées afin de gérer les
transactions quotidiennes
● Ces bases de données supportent
habituellement des applications
particulières telles que les inventaires de
magasins, les réservations d’hôtel, etc
12
3. Systèmes transactionnels
● Le contenu est fait de données actuelles, pas
d’archives
● Les données sont très détaillées (détails de
chacune des transactions)
● La mise à jour s’effectue par de nouvelles
transactions
● Très souvent plusieurs de ces systèmes existent
indépendamment les uns des autres dans les
grandes organisations
13
3. Systèmes transactionnels
La plupart des systèmes transactionnels sont
implantés selon une structure relationnelle
normalisée (à différents degrés) :
– Redondance minimum
– Intégrité des données
– Facilité de mise à jour
14
3. Systèmes transactionnels
Opérations dans les systèmes transactionnels
● Ajout
● Effacement
● Mise à jour
des enregistrements (habituellement, gros volume
de transactions impliquant chacune un petit
volume de données détaillées)
16
3. Obstacles à l’analyse dans
les systèmes transactionnels
● De plus, les types d’analyses servant aux processus de décision des
organisations nécessitent :
– Données sommaires (agrégées ou résumées) sur l’ensemble de
l’organisation (provenant des différentes BD dispersées de l’organisation
et intégrées)
– Données historiques
– Réponses rapides (requêtes surtout de type agrégatif), interfaces à l’usager
faciles à utiliser
17
4. Entrepôts de données
● Origine de deux besoins distincts mais
complémentaires :
● Besoin pour une entreprise d’avoir un panorama complet de
son information
● Besoin pour un département de mieux gérer les données de
l’entreprise
● Tel que mentionné : difficulté d’optimiser le
fonctionnement des systèmes transactionnels et
des systèmes d’aide à la décision qui partagent le
même ordinateur, la même plate-forme logicielle
et la même structure de données
18
4. Le Système d’Information
19
4. L’Entrepôt de Données
20
4. L’Entrepôt de Données
● Principe
– Base de Données utilisée à des fins d’analyse.
– Transformer des données en information.
– Organisation des données par métier, sujets ou thèmes.
– Intégration des données de production et de gestion et des données
externes
– transformation, agrégation, structuration des données.
● Objectif:
– Retrouver une information historique et transversale à l’entreprise
21
4. L’Entrepôt de Données
● Caractéristiques :
– orientation sujets («métiers»): à la différence des organisations
traditionnelles organisées par processus fonctionnel
– données intégrées: divers sources de données ;
– données non volatiles: ne pas supprimer les données du DW;
– données datées: trace des données, suivre l’évolution des
indicateurs.
● Comment:
– Fédérer/Regrouper l'ensemble des données de l'entreprise
22
4. L’Entrepôt de Données
23
4. L’Entrepôt de Données
● Conception
– Il s’agit de définir la finalité du DW :
● Piloter quelle activité de l’entreprise ;
– modèle de données ;
– démarches d’alimentation ;
– stratégies d’administration ;
– définition des espaces d’analyse ;
24
4. L’Entrepôt de Données
● Construction
– Travail technique.
● Extraction des données des différentes BD de production (internes ou
externes)
● Nettoyage des données, règles d’homogéinisation des données sous
formes de méta données.
● Techniques d’alimentation :
– Chargement des données dans le DW ;
– Fréquences de rafraîchissement :
• par applications d’ interfaces entre les sources de données et le DW ;
• par serveurs de réplication du SGBD ou par outils spécialisés.
25
4. L’Entrepôt de Données
● Administration
– Assurer la cohésion du système :
● Respecter la cohérence et la fiabilité des informations.
● Unifier la représentation des données.
● Respecter la cohérence des concepts.
● Vérifier la non redondance des informations.
– Simplifier techniquement les systèmes d’information :
● Diminuer le nombre de fichiers.
● Unifier la saisie et le stockage des informations.
● Organiser les mises à jour et la diffusion des informations.
– la qualité et la pérennité des données aux différents applicatifs ;
– la maintenance ;
– la gestion de configuration ;
– les mises à jour ;
– l’organisation, l’optimisation du SI ;
– la mise en sécurité du SI.
26
Différences entre données du système de production et données décisionnelles
Données opérationnelles Données décisionnelles
Mise à jour interactive possible de la part des Pas de mise à jour interactive de la part des
utilisateurs utilisateurs
Accédées de façon unitaires par une personne à la Utilisées par l’ensemble des analystes, gérées par
fois sous-ensemble
Cohérence atomique Cohérence globale
Petite quantité de données utilisées par un Grande quantité de données utilisée par les
traitement traitements
Réalisation des opérations au jour le jour Cycle de vie différent
27
4. La Suite Décisionnelle
Source de données :
DATAWAREHOUSE :
diverses bases de données
Entrepôt de données
« opérationnelles »
« Décisionnelles »
Base de données Agrégées
Métabase :
Description des données
E.T.L. :
Extract Transform and
Load
KDD
PILOTAGE
28
4. L’Entrepôt de Données
Métabase :
Description des données
E.T.L. :
Extract Transform and
Load
KDD
PILOTAGE
31
Les composants de base du
DW
Outil de
Alimenter
Alimenter
Datamart 1 requetage
Stockage
Dimensionnel ad-hoc
Extraire
Fichiers plats,
Orienté sujet
SGBDr,
Dédié à un Générateurs d’
autres groupe état
d’utilisateur
TRAITEMENTS
Nettoyage
Application
Transformation Datamart 2 data mining
32
Datamart
● Sous-ensemble d’un entrepôt de données
● Destiné à répondre aux besoins d’un secteur ou
d’une fonction particulière de l’entreprise
● Point de vue spécifique selon des critères métiers
Datamarts du
service Marketing
Datamart du service
DW de l’entreprise Ressources Humaines
33
Intérêt des datamart
● Nouvel environnement structuré et formaté en
fonction des besoins d’un métier ou d’un usage
particulier
● Moins de données que DW
– Plus facile à comprendre, à manipuler
– Amélioration des temps de réponse
● Utilisateurs plus ciblés: DM plus facile à définir
34
Les flux de données
● Flux entrant
– Extraction: multi-source, hétérogène
– Transformation: filtrer, trier, homogénéiser, nettoyer
– Chargement: insertion des données dans l’entrepôt
● Flux sortant:
– Mise à disposition des données pour les utilisateurs
finaux
35
Les différentes zones de
l’architecture
● Zone de préparation (Staging area)
– Zone temporaire de stockage des données extraites
– Réalisation des transformations avant l’insertion dans le DW:
●Nettoyage
● Normalisation…
– Données souvent détruites après chargement dans le DW
● Zone de stockage (DW, DM)
– On y transfère les données nettoyées
– Stockage permanent des données
● Zone de présentation
– Donne accès aux données contenues dans le DW
– Peut contenir des outils d’analyse programmés:
● Rapports
● Requêtes…
36
Cycle de vie décisionnel
37
Cycle de vie décisionnel
Planification
38
Cycle de vie décisionnel
Définition des besoins
39
Cycle de vie décisionnel
Modèle dimensionnel
● C'est la définition des besoins qui détermine quelles sont les données
requises pour répondre aux besoins d'analyse des utilisateurs.
● Le modèle identifie :
– La table de fait avec ses mesures et sa granularité
– Les dimensions associées avec attributs et hiérarchisation.
40
Cycle de vie décisionnel
Structure physique
41
Cycle de vie décisionnel
Préparation des données
42
Cycle de vie décisionnel
Architecture technique
● La définition de l'architecture technique globale à
mettre en œuvre nécessite la prise en compte :
– des besoins
– de l'environnement existant
– des orientations techniques stratégiques planifiées
43
Cycle de vie décisionnel
Composants
● A partir de l'étude de l'architecture technique il faut
sélectionner les composants spécifiques
– Plate-forme(s) matérielle(s) et logicielle(s)
– SGBD
– Outils d'extraction
– Outils de restitution
44
Cycle de vie décisionnel
Applications utilisateurs
45
Cycle de vie décisionnel
Déploiement
46
Cycle de vie décisionnel
Le projet
47
Modélisation d’un DW
• Modèle en étoile (Star Schema)
48
Modélisation
multidimensionnelle
● Exemples :
– Grandes distribution :
● CA annuel : 80 000 M$
● Volume du DW :
49
Modélisation
Entité/Association
● Avantages:
– Normalisation:
● Éliminer les redondances
Produit
Contrat Commande
client
Type de Groupe de
contrat Client produits
Magasin
Famille de
Employé Région de produits
Stock ventes
Fonction Division de
Fournisseurs
ventes
51
Modélisation des DW
● Nouvelle méthode de conception autour des
concepts métiers
– Ne pas normaliser au maximum
● Introduction de nouveaux types de table:
– Table de faits
– Table de dimensions
● Introduction de nouveaux modèles:
– Modèle en étoile
– Modèle en flocon
52
Les types de modèles
53
Modèle en étoile
● Le schéma en étoile tire son nom de sa configuration
● Une table de fait centrale et des dimensions
● Les dimensions n’ont pas de liaison entre elles
● Avantages:
– Facilité de navigation
– Nombre de jointures limité
● Inconvénients:
– Redondance dans les dimensions
– Toutes les dimensions ne concernent pas les mesures
– Alimentation complexe.
54
Modèle en étoile
Dimension Temps
ID temps
année
mois
jour Dimension produit
… ID produit
Dimension Magasin
ID magasin nom
description code
Table de faits Achat prix
ville
ID client poids
surface
ID temps groupe
…
ID magasin famille
ID région …
ID produit
Quantité achetée Dimension Client
Dimension Region
Montant des achats ID client
ID région
pays nom
description prénom
district vente adresse
…. …
55
Modèle en flocon
● Une table de fait et des dimensions décomposées en sous
hiérarchies
● On a un seul niveau hiérarchique dans une table de dimension
● La table de dimension de niveau hiérarchique le plus bas est
reliée à la table de fait. On dit qu’elle a la granularité la plus fine
● Modèle floconné = Modèle en étoile + normalisation
des dimension
● Avantages:
– Normalisation des dimensions
– Économie d’espace disque
● Inconvénients:
– Modèle plus complexe (jointure)
– Requêtes moins performantes
56
Modèle en flocon
Dimension produit
ID produit
Dimension Temps ID groupe
ID temps nom
annee code
mois prix
Dimension Magasin jour poids Dimension groupe
ID magasin … … ID groupe
description ID famille
ville Table de faits Achat
nom
surface ID client
…
… ID temps
ID magasin
Dimension Region ID région
ID région Dimension Famille
ID produit
ID division vente ID famille
Quantité achetée
pays nom
Montant des achats
description …
….
Dimension Client
Dimension
ID client
Division vente
nom
ID division vente
prénom
description
adresse 57
….
… 57
Modèle en flocon
58
Modèle mixte
59
Modèle mixte
60
Table de faits
● Table principale du modèle dimensionnel
● Contient les données observables (les faits) sur le sujet étudié
selon divers axes d’analyse (les dimensions)
61
Table de faits (suite)
● Fait:
– Ce que l’on souhaite mesurer
● Quantités vendues, montant des ventes…
● Semi additif
● Non additif
62
Typologie des faits
● Additif: additionnable suivant toutes les dimensions
– Quantités vendues, chiffre d’affaire
– Peut être le résultat d’un calcul:
● Bénéfice = montant vente - coût
● Semi additif: additionnable suivant certaines dimensions
– Solde d’un compte bancaire:
●Pas de sens d’additionner sur les dates car cela représente
des instantanés d’un niveau
● Σ sur les comptes: on connaît ce que nous possédons en
banque
● Non additif: fait non additionnable quelque soit la dimension
– Prix unitaire: l’addition sur n’importe quelle dimension donne un
nombre dépourvu de sens
63
Granularité de la table de faits
● Répondre à la question :
– Que représente un enregistrement de la table de faits?
● La granularité définit le niveau de détails de la
table de faits:
– Exemple: une ligne de commande par produit, par
client et par jour
Précision des
analyses
- + Finesse
Taille de
l’entrepôt
64
Table de dimension
● Axe d’analyse selon lequel vont être étudiées les données
observables (faits)
● Contient le détail sur les faits
Dimension produit
Clé de substitution Clé produit (CP)
Code produit
Description du produit
Attributs de la Famille du produits
dimension Marque
Emballage
Poids
65
Table de dimension (suite)
● Dimension = axe d’analyse
– Client, produit, période de temps…
● Contient souvent un grand nombre de colonnes
– L’ensemble des informations descriptives des faits
● Contient en général beaucoup moins
d’enregistrements qu’une table de faits
66
La dimension Temps
● Commune à l’ensemble du Dimension Temps
DW Clé temps (CP)
● Reliée à toute table de faits Jour
Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année
67
Granularité d’une dimension
● Une dimension contient des membres organisés
en hiérarchie :
– Chacun des membres appartient à un niveau hiérarchique
(ou niveau de granularité) particulier
– Granularité d’une dimension : nombre de niveaux
hiérarchiques
– Temps :
● année – semestre – trimestre - mois
68
Évolution des dimensions
● Dimensions à évolution lente
● Dimensions à évolution rapide
69
Évolution des dimensions
● Dimensions à évolution lente
– Un client peut se marier, avoir des enfants…
– Un produit peut changer de noms ou de formulation:
● « Raider » en « Twix »
● Versionnement
70
Dimensions à évolution lente (1/3)
● Écrasement de l’ancienne valeur :
– Correction des informations erronées
● Avantage:
– Facile à mettre en œuvre
● Inconvénients:
– Perte de la trace des valeurs antérieures des attributs
– Perte de la cause de l’évolution dans les faits mesurés
71
Dimensions à évolution lente (2/3)
● Ajout d’un nouvel enregistrement:
– Utilisation d’une clé de substitution
● Avantages:
– Permet de suivre l’évolution des attributs
– Permet de segmenter la table de faits en fonction de l’historique
● Inconvénient:
– Accroit le volume de la table
74
Dimensions à évolution rapide
● Changements fréquents des attributs dont on veut garder
l’historique
– Clients pour une compagnie d’assurance
● Isoler les attributs qui évoluent vite
75
Dimensions à évolution rapide
(suite)
Dim client
Faits Clé_client
Dim client
Nom Faits
Clé_client Clé_client
… Prénom Clé_client
Nom
Adresse Clé_démog
Prénom
Date_naissance
Adresse
…
Date_nais
… Dim_démographique
Revenus Clé_démog
Niveau_étude Revenus
Nb_enfants Niveau_étude
Statut_marital Nb_enfants
Profil_financier Statut_marital
Profil_achat Profil_financier
Profil_achat 76
Schéma en étoile vs schéma en flocon
La technologie Certaines technologies telle que MicroStrategy requièrent un schéma en flocons de neige
alors que d’autres comme Cognos requièrent le schéma en étoile
La nature des requêtes Certaines requêtes se prêtent mieux à la structure dimension-fait. Pas forcément toutes
les requêtes mais quand c’est le cas un schéma en étoile est le meilleur choix
Besoins d’affaires spécifiques Ils existent des besoins d’affaires qui ne peuvent tout simplement pas être structurés en
schéma en étoile. La relation entre l’entité « client » et l’entité « compte » dans le
domaine bancaire, celle entre l’entité « client » et l’entité « police d’assurance »
dans le domaine des assurances ne peuvent être représentées par un schéma en
étoile à cause de la relation n à m qui lie ces entités.
Besoin de flexibilité Le schéma en flocons de neige devrait être utilisé lorsque l’on a besoin d’une plus
grande flexibilité dans la corrélation à travers les niveaux et les composantes d’une
dimension. L'avantage principal d'un flocon de neige est la plus grande flexibilité
dans les données
Ratio Attributs Maître : Lorsque le ratio entre deux niveaux de hiérarchie d’une dimension est élevé, il est
Nombre de rangées préférable d’utiliser un modèle en flocon ce qui permettra de diminuer la volumétrie
Détail stocker (au delà d’un rapport 1:5 par exemple)
Gestion complexe de Quand il s’agit de cas complexe de gestion de l’évolution de dimension, un schéma en
dimension flocons de neige est préférable. Les cas complexes peuvent être la gestion de
l’historisation des liens, la gestion de l’historisation des attributs…
Difficulté de navigation dans Le constat que le schéma en étoile est plus compréhensible que le schéma en flocons de
les hiérarchies neige est complètement subjectif. En particulier quand la dimension est composée
de plusieurs colonnes.
77
Méthodologie: 9 étapes de
1. Choisir le sujet
Kimball
2. Choisir la granularité des faits
3. Identifier et adapter les dimensions
4. Choisir les faits
5. Stocker les pré-calculs
6. Établir les tables de dimensions
7. Choisir la durée de la base
8. Suivre les dimensions lentement évolutives
9. Décider des requêtes prioritaires, des modes de requêtes
78
Alimentation/ mise à jour de
l’entrepôt
● Entrepôt mis à jour régulièrement
● Besoin d’un outil permettant d’automatiser les chargements dans
l’entrepôt
79
Définition d’un ETL
● Offre un environnement de développement
● Offre des outils de gestion des opérations et de maintenance
● Permet de découvrir, analyser et extraire les données à partir
de sources hétérogènes
● Permet de nettoyer et standardiser les données
● Permet de charger les données dans un entrepôt
80
ETL
● Pour alimenter le DataWareHouse, on utilise un ETL
( Extract, Transform and Load ), outil basé sur le
principe de métabases.
● Décrit les données, leur provenance et les
transformations effectuées.
● Permet d’agréger, de classifier, de normaliser, de
qualifier, de nettoyer et de consolider les données
extraites.
81
ETL
● Les concepteurs doivent mettre en place une
stratégie de mise à jour pour l’historisation et
prévoir la volumétrie.
● L’alimentation peut être en batch ou file de l’eau.
Les ETL peuvent être intégrés aux outils de
modélisations ou de restitution.
82
ETL
● Les ETL peuvent se concevoir de 2 manières :
– manuellement : en lançant des scripts ( PL/SQL, …)
– avec des logiciels ( qui sont chers : ~10k€ )
● Le chargement des données correspond à 60-70 %
du projet : analyser décrire expliquer exposer
● Identifier les sources
● Où ? Mainframe, fichiers, SGBDR, ERP, Internet, …
● Comment ? Réseau local, WAN, transferts des fichiers.
● Quand ? Cohérence, normalisation
83
ETL
● Construire le référentiel
● Définir la fréquence des chargements
● Décrire le niveau d’historisation
● Expliquer la volumétrie
● Analyser la qualité des données
● Exposer la complexité des transformations
● Considérer la reprise des données
● Gérer les rejets
● Mettre en place les sauvegardes/restaurations
84
ETL: Problèmes rencontrés
87
Transformation
● Rendre cohérentes les données des différentes sources
– Transformer, nettoyer, trier, unifier les données
– Exemple: unifier le format des dates
(MM/JJ/AA 🢥JJ/MM/AA)
● Etape très importante, garantit la cohérence et la fiabilité des
données
88
Chargement
● Insérer ou modifier les données dans l’entrepôt
● Utilisation de connecteurs:
– ODBC,
– SQL natif,
– Fichiers plats
89
Aperçu d’un ETL
90
III. Les Bases
Multidimensionnelles
91
1. OLAP
« Il s’agit d’une catégorie de logiciels axés sur
l’exploration et l’analyse rapide des données
selon une approche multidimensionnelle à
plusieurs niveaux d’agrégation » (Caron, 1998)
92
1. OLAP
● Catégorie de logiciels :
– S’exprime par une grande quantité de produits
logiciels disponibles sur le marché
● Exploration et analyse rapide :
– OLAP vise à assister l’usager dans son analyse
en lui facilitant l’exploration de ses données et
en lui donnant la possibilité de le faire
rapidement
Rapidité et facilité
93
1. OLAP
● Facilité
– L’usager n’a pas à maîtriser des langages
d’interrogation et des interfaces complexes
– L’usager interroge directement les données, en
interagissant avec celles-ci
● Rapidité
– OLAP exploite une dénormalisation maximale des
données, sous la forme d’une pré-agrégation stockée
– L’usager devient opérationnel en très peu de
temps
L’usager peut se concentrer sur son analyse
et non sur le processus (les moyens utilisés
pour l’analyse)
94
1. OLAP
● Approche multidimensionnelle :
– Basée sur des thèmes d’analyse (dimensions)
– Plus intuitive
● Plusieurs niveaux d’agrégation :
– Les données peuvent être groupées à différents niveaux
de granularité (les regroupements sont pré-calculés, par
exemple, le total des ventes pour le mois dernier calculé
à partir de la somme de toutes les ventes du mois).
– Granularité : niveau de détail des données
emmagasinées dans une base de données.
95
1. Vocabulaire OLAP
Dimension :
● Une dimension peut être définie comme un thème, ou un axe
(attributs), selon lequel les données seront analysées (en
fonction de …)
– Ex. Temps, Découpage administratif, Produits
96
1. Vocabulaire OLAP
Mesure :
● Une mesure est un élément de donnée sur lequel
portent les analyses, en fonction des différentes
dimensions
– Ex. coût des travaux, nombre d’accidents, ventes,
dépenses
97
1. Vocabulaire OLAP
Fait :
● Un fait représente la valeur d’une mesure, mesurée
ou calculée, selon un membre de chacune des
dimensions (ex. ce qui est recueilli par les
systèmes transactionnels).
99
1. Cube multidimensionnel
Ce cube multidimensionnel présente les profits
d’entreprises agricoles par propriété, par exploitation et
par année.
Cas 1: visualisation des
profits des propriétés > =
0.05 km2 pour toutes les
exploitations durant les 4
années.
101
2. MOLAP
(OLAP Multidimensionnel)
▪ Les données détaillées de base ainsi que les données
agrégées de l’entrepôt sont stockées dans une base de
données multidimensionnelle (souvent appelée cube ou
hypercube)
▪ Une base de données multidimensionnelle utilise une
structure propriétaire au logiciel utilisé (≈ matrice)
▪ Le serveur MOLAP extrait les données de l’hypercube et
les présente directement au module client
102
2. MOLAP
(OLAP Multidimensionnel)
103
3. ROLAP (OLAP Relationnel)
▪ Les données détaillées de base ainsi que les données
agrégées de l’entrepôt sont stockées sous forme de tables
dans une base de données relationnelle
▪ La base de données relationnelle doit être structurée selon
un modèle particulier (étoile, flocon, …)
▪ Le serveur extrait les données par des requêtes SQL et
interprète les données selon une vue multidimensionnelle
avant de les présenter au module client
104
3. ROLAP (OLAP Relationnel)
105
4. HOLAP (OLAP Hybride)
▪ Architecture qui consiste en un croisement des
architectures MOLAP et ROLAP
▪ Les données détaillées de base de l’entrepôt sont
stockées dans une base de données relationnelle et
les données agrégées sont stockées dans une base
de données multidimensionnelle
▪ Le serveur HOLAP accède deux bases de données
et les présente au module client, selon une vue
multidimensionnelle dans le cas des données de la
BD relationnelle
106
4. HOLAP (OLAP Hybride)
107
5. MOLAP vs ROLAP vs HOLAP
Stockage des BD BD BD
données de base relationnelle multidimension relationnelle
(détaillées) nelle
Stockage des BD BD BD
agrégations relationnelle multidimension multidimension
nelle nelle
108
5. Structure
multidimensionnelle
Pour une configuration ROLAP ou HOLAP, il est
nécessaire de simuler une structure
multidimensionnelle dans un SGBD relationnel à
l’aide de modèles particuliers qui permettent de mieux
répondre aux besoins multidimensionnels :
– Modèle en étoile (Star Schema)
– Modèle en flocon (Snowflake Schema)
– Modèle mixte (Mixed Schema)
– Modèle en constellation (Fact Constellation Schema)
109
5. Structure
multidimensionnelle
▪ Modèle en étoile
▪ Le schéma en étoile tire son nom de sa configuration:
● Objet central, nommé table des faits
tables de dimension
– La table des faits, comme son nom l’indique, contient les
faits
– Les tables de dimensions contiennent les attributs définissant
chacun des membres des dimensions. Elles sont
dénormalisées
110
5. Structure
multidimensionnelle
• Modèle en étoile
DIMENSION 1 DIMENSION 4
FAITS
DIMENSION 2 DIMENSION 5
Mesures
DIMENSION 3 DIMENSION N
111
5. Structure
multidimensionnelle
• Modèle en étoile
112
5. Structure
multidimensionnelle
(Modèle en étoile)
● Avantages :
– Facilité de navigation
– Performances : nombre de jointures limité ; gestion des
données creuses.
– Gestion des agrégats
– Fiabilité des résultats
● Inconvénients :
– Toutes les dimensions ne concernent pas les mesures
– Redondances dans les dimensions
– Alimentation complexe.
113
5. Structure
multidimensionnelle
(Modèle en étoile)
● Quelques exemples de modèles en étoile de DW
114
5. Structure
multidimensionnelle
(Modèle en flocon)
▪ Modèle en flocon
▪ Le schéma en flocon est dérivé du schéma en étoile
où les tables de dimension sont normalisées (la
table des faits reste inchangée)
115
5. Structure
multidimensionnelle
(Modèle
▪ Modèle en flocon
en flocon)
116
5. Structure
multidimensionnelle
(Modèle en flocon)
● Lorsque les tables sont trop volumineuses
● Avantages :
– réduction du volume,
– permettre des analyses par pallier (drill down)
sur la dimension hiérarchisée.
● Inconvénients :
– navigation difficile ;
– nombreuses jointures.
117
5. Structure
multidimensionnelle
(Modèle en flocon)
▪ Modèle en flocon
118
5. Structure
multidimensionnelle
▪ Calculer ou estimer le nombre d’enregistrements
● Prendre en compte :
– La table des faits
– Les dimensions significatives
– Les agrégats
– Les index
– Saisonnalité des ventes
– Croissance du CA, des encours, du nombre de points
de ventes
119
5. Structure
multidimensionnelle
● Exemples :
– Grandes distribution :
● CA annuel : 80 000 M$
● Volume du DW :
121
5. Structure
multidimensionnelle
▪ Modèle mixte
122
5. Structure
multidimensionnelle
OLTP vs OLAP
123
5. Structure
multidimensionnelle
OLTP vs OLAP
124
IV. Les Outils
● Un marché fragmenté :
– Constitution du DataWarehouse
– Stockage
– Extraction d’Information
– Outils Métier
125
Quelques systèmes
● Intelligent miner d’IBM (couplé avec le SGBD DB2)
– Classification, association, régression, analyse de séquences,
regroupement
● Entreprise miner de SAS
– Multiples outils d’analyse statistique, classification, …
● Mine set de Silicon graphics.
– Classification, association et divers outils statistiques. Très
puissant en terme de visualisation
● Clémentine de SPSS
– En plus des fonctionnalités classiques, l’utilisateur peut y
rajouter ses propres algorithmes
● DBMiner de DBMiner technologie.
– Il se distingue par le fait qu’il incorpore les fonctionnalités
d’OLAP
• More at http://www.kdnuggets.com/software 126
Bibliographie - WWW
● http://www.dw-institute.com/
– The Data Warehouse Institute
● http://pwp.starnetic.com/larryg/
– Infos dont accès à des livres blancs sur le DW
● http://www.promotheus.eds-fr/themes/dw/
– Institut Promotheus, thème DW
● http://www.cait.wustl.edu/cait/papers/prism/
– Société Prisme fondée par W.H. Inmon
● http://www.olapcouncil.org/
– Outils OLAP
● http://www.mediatid.fr/datawarehouse
– forum sur le Data Warehouse
127
Bibliographie - Livres
● Jean Michel Franco, «Le Data Warehouse / Le Data
Mining», Eyrolles, 1997
● Ralph Kimball, «Entrepôts de Données», Intl Thomson
Pub.,1997, ISBN 2-84180-021-0
● Rob Mattison,» Data Warehousing -Strategies, Technologies
and Technics», IEEE Computer Society 1996, ISBN 0-07-
041034-8
● W. H. Inmon, «Building the Data Warehouse», ed. Wiley,
1996
● W. H. Inmon, «Managing the Data Warehouse», ed.
Wiley,1997
128