Les entrepts de donnes
Lydie Soler Janvier 2008
U.F.R. dinformatique
Plan
Introduction
Les entrepts de donnes
Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
2
Le contexte
Besoin: prise de dcisions stratgiques et tactiques Pourquoi: besoin de ractivit Qui: les dcideurs (non informaticiens) Comment: rpondre aux demandes danalyse des donnes, dgager des informations qualitatives nouvelles
Qui sont mes meilleurs clients? Pourquoi et comment le chiffre daffaire a baiss? A combien slvent mes ventes journalires?
3
Quels franais consomment beaucoup de poisson?
Les donnes utilisables par les dcideurs
Donnes oprationnelles (de production) Bases de donnes (Oracle, SQL Server) Fichiers, Paye, gestion des RH, gestion des commandes
Caractristiques de ces donnes: Distribues: systmes parpills Htrognes: systmes et structures de donnes diffrents Dtailles: organisation des donnes selon les processus fonctionnels, donnes surabondantes pour lanalyse Peu/pas adaptes lanalyse : les requtes lourdes peuvent bloquer le systme transactionnel Volatiles: pas dhistorisation systmatique
4
Problmatique
Comment rpondre aux demandes des dcideurs? En donnant un accs rapide et simple linformation stratgique En donnant du sens aux donnes
Mettre en place un systme dinformation ddi aux applications dcisionnelles: un data warehouse
Le processus de prise de dcision
Champs dapplication des systmes dcisionnels Dfinir le Rassembler Analyser les tablir des Dcider solutions problme les donnes donnes Temps de prise dune dcision
Le processus de prise de dcision
Prise de dcision
Bases de production
Data warehouse
Base multi dimensionnelle
Prdiction / simulation
Domaines dutilisation des DW
Banque Risques dun prt, prime plus prcise Sant pidmiologie Risque alimentaire Commerce Ciblage de clientle Dterminer des promotions Logistique Adquation demande/production Assurance Risque li un contrat dassurance (voiture)
8
Quelques mtiers du dcisionnel
Strategic Performance Management
Dterminer et contrler les indicateurs cl de la performance de lentreprise Finance Intelligence Planifier, analyser et diffuser linformation financire. Mesurer et grer les risques Human Capital Management (gestion de la relation avec les employs) Aligner les stratgies RH, les processus et les technologies. Customer Relationship Management (gestion de la relation client) Amliorer la connaissance client, identifier et prvoir la rentabilit client, accroitre lefficacit du marketing client Supplier Relationship Management (gestion de la relation fournisseur) Classifier et valuer lensemble des fournisseurs. Planifier et 9 piloter la stratgie Achat.
Plan
Introduction
Les entrepts de donnes
Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
10
Dfinition dun DW
W. H. Inmon (1996):
Le data Warehouse est une collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le support dun processus daide la dcision
Principe: mettre en place une base de donnes
utilise des fins danalyse
11
Les 4 caractristiques des data warehouse
1. Donnes orientes sujet: Regroupe les informations des diffrents mtiers Ne tiens pas compte de lorganisation fonctionnelle des donnes
Ass. Vie Ass. Auto
Ass. Sant Client Police
12
Les 4 caractristiques des data warehouse
2. Donnes intgres: Normalisation des donnes Dfinition dun rfrentiel unique
h,f 1,0 homme, femme GBP CHF
EUR
h,f
USD
13
Les 4 caractristiques des data warehouse
3. Donnes non volatiles Traabilit des informations et des dcisions prises Copie des donnes de production
Bases de production Ajout Suppression Accs Modification Chargement
14
Entrepts de donnes
Les 4 caractristiques des data warehouse
4. Donnes dates Les donnes persistent dans le temps Mise en place dun rfrentiel temps
Image de la base en Mai 2005 Image de la base en Juillet 2006
Rpertoire
Base de production
Rpertoire
Nom Dupont
Ville Paris
Nom Dupont Durand
Rpertoire
Ville Marseille Lyon
Durand
Calendrier
Lyon
Entrept de donnes
Code Anne 1 2005
Mois Mai
Code Anne
1 1 2 Dupont Durand Dupont
Mois
Paris Lyon
15
2006
Juillet
Marseille
SGBD et DW
OLTP: On-Line Transactional Processing Service commercial
BD prod
Service Financier
BD prod
Service livraison
BD prod
Clientle
H I S T O R I Q U E
Data Warehouse
OLAP: On-Line Analitical Processing Clientle
16
OLTP VS DW
OLTP
Orient transaction Orient application Donnes courantes Donnes dtailles Donnes volutives
DW
Orient analyse Orient sujet Donnes historises Donnes agrges Donnes statiques
Utilisateurs nombreux, Utilisateurs peu nombreux, administrateurs/oprationnels manager
Temps dexcution: court
Temps dexcution: long
17
Plan
Introduction
Les entrepts de donnes
Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
18
Datamart
Sous-ensemble dun entrept de donnes
Destin rpondre aux besoins dun secteur ou
dune fonction particulire de lentreprise Point de vue spcifique selon des critres mtiers
Datamarts du service Marketing
DW de lentreprise
Datamart du service Ressources Humaines
19
Intrt des datamart
Nouvel environnement structur et format en
fonction des besoins dun mtier ou dun usage particulier Moins de donnes que DW
Plus facile comprendre, manipuler Amlioration des temps de rponse
Utilisateurs plus cibls: DM plus facile dfinir
20
Plan
Introduction
Les entrepts de donnes
Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
21
Architecture gnrale
Zone de prparation
E X T R A C T I O N
Zone de stockage C H A R G E M E N T
Zone de prsentation
Transformations: Nettoyage Standardisation
Data warehouse
Requtes Rapports Visualisation Data Mining
Sources de donnes
Datamart
22
Les flux de donnes
Flux entrant
Extraction: multi-source, htrogne Transformation: filtrer, trier, homogniser, nettoyer Chargement: insertion des donnes dans lentrept
Mise disposition des donnes pour les utilisateurs finaux
Flux sortant:
23
Les diffrentes zones de larchitecture
Zone de prparation (Staging area) Zone temporaire de stockage des donnes extraites Ralisation des transformations avant linsertion dans le DW: Nettoyage Normalisation Donnes souvent dtruites aprs chargement dans le DW Zone de stockage (DW, DM) On y transfre les donnes nettoyes Stockage permanent des donnes Zone de prsentation Donne accs aux donnes contenues dans le DW Peut contenir des outils danalyse programms: Rapports Requtes 24
Plan
Introduction
Les entrepts de donnes
Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
25
Modlisation Entit/Association
Avantages: Normalisation: liminer les redondances Prserver la cohrence des donnes Optimisation des transactions Rduction de lespace de stockage Inconvnients pour un utilisateur final: Schma trs/trop complet: Contient des tables/champs inutiles pour lanalyse Pas dinterface graphique capable de rendre utilisable le modle E/A Inadapt pour lanalyse
26
Exemple
Transporteur Mode dexpdition Produit Commande client Client Magasin Employ Stock Fonction Fournisseurs Rgion de ventes Division de ventes Famille de produits Groupe de produits
Contrat Type de contrat
27
Modlisation des DW
Nouvelle mthode de conception autour des
concepts mtiers
Ne pas normaliser au maximum
Introduction de nouveaux types de table:
Table de faits Table de dimensions Modle en toile Modle en flocon
28
Introduction de nouveaux modles:
Table de faits
Table principale du modle dimensionnel Contient les donnes observables (les faits) sur le sujet
tudi selon divers axes danalyse (les dimensions) Table de faits des ventes Cl date (CE) Cl produit (CE) Cl magasin (CE) Quantit vendue Cot Montant des ventes
29
Cls trangres vers les dimensions Faits
Table de faits (suite)
Fait:
Ce que lon souhaite mesurer
Quantits vendues, montant des ventes
Contient les cls trangres des axes danalyse (dimension)
Date, produit, magasin Additif Semi additif Non additif
30
Trois types de faits:
Typologie des faits
Additif: additionnable suivant toutes les dimensions Quantits vendues, chiffre daffaire Peut tre le rsultat dun calcul:
Bnfice = montant vente - cot
Semi additif: additionnable suivant certaines
dimensions
Solde dun compte bancaire: Pas de sens dadditionner sur les dates car cela reprsente des instantans dun niveau sur les comptes: on connat ce que nous possdons
en banque Non additif: fait non additionnable quelque soit la dimension Prix unitaire: laddition sur nimporte quelle dimension donne 31 un nombre dpourvu de sens
Granularit de la table de faits
Rpondre la question :
Que reprsente un enregistrement de la table de faits?
La granularit dfinit le niveau de dtails de la
table de faits:
Exemple: une ligne de commande par produit, par client et par jour
Prcision des analyses
Finesse
Taille de lentrept
32
Table de dimension
Axe danalyse selon lequel vont tre tudies les donnes
observables (faits) Contient le dtail sur les faits
Cl de substitution
Attributs de la dimension
Dimension produit Cl produit (CP) Code produit Description du produit Famille du produits Marque Emballage Poids
33
Table de dimension (suite)
Dimension = axe danalyse Client, produit, priode de temps Contient souvent un grand nombre de colonnes Lensemble des informations descriptives des faits Contient en gnral beaucoup moins
denregistrements quune table de faits
34
La dimension Temps
Commune lensemble du
Dimension Temps
DW Relie toute table de faits
Cl temps (CP) Jour Mois Trimestre Semestre Anne Num_jour_dans_anne Num_semaine_ds_anne
35
Granularit dune dimension
Une dimension contient des membres organiss
en hirarchie :
Chacun des membres appartient un niveau hirarchique (ou niveau de granularit) particulier Granularit dune dimension : nombre de niveaux hirarchiques Temps : anne semestre trimestre - mois
36
volution des dimensions
Dimensions volution lente
Dimensions volution rapide
37
volution des dimensions
Dimensions volution lente
Un client peut se marier, avoir des enfants Un produit peut changer de noms ou de formulation: Raider en Twix yaourt la vanille en yaourt saveur vanille Gestion de la situation, 3 solutions: crasement de lancienne valeur Versionnement Valeur dorigine / valeur courante
38
Dimensions volution rapide
Dimensions volution lente (1/3)
crasement de lancienne valeur : Correction des informations errones Avantage: Facile mettre en uvre Inconvnients: Perte de la trace des valeurs antrieures des attributs Perte de la cause de lvolution dans les faits mesurs
Cl produit Description du produit Groupe de produits
12345
Intelli-Kids
Logiciel
Jeux ducatifs
39
Dimensions volution lente (2/3)
Ajout dun nouvel enregistrement: Utilisation dune cl de substitution Avantages: Permet de suivre lvolution des attributs Permet de segmenter la table de faits en fonction de lhistorique Inconvnient: Accroit le volume de la table
Cl produit Description du produit Groupe de produits 12345 25963 Intelli-Kids Intelli-Kids Logiciel Jeux ducatifs
40
Dimensions volution lente (3/3)
Ajout dun nouvel attribut:
Valeur origine/valeur courante Avoir deux visions simultanes des donnes :
Avantages:
Voir les donnes rcentes avec lancien attribut Voir les donnes anciennes avec le nouvel attribut
Voir les donnes comme si le changement navait pas eu lieu Inadapt pour suivre plusieurs valeurs dattributs intermdiaires
Inconvnient:
Cl produit Description du Groupe de produit produits 12345 Intelli-Kids Logiciel
Nouveau groupe de produits Jeux ducatifs 41
volution des dimensions
Dimensions volution lente
Dimensions volution rapide
Subit des changements trs frquents (tous les mois) dont on veut prserver lhistorique Solution: isoler les attributs qui changent rapidement
42
Dimensions volution rapide
Changements frquents des attributs dont on veut garder
lhistorique
Clients pour une compagnie dassurance
Isoler les attributs qui voluent vite
43
Dimensions volution rapide (suite)
Dim client Dim client Cl_client Nom Prnom Adresse Date_nais Revenus Faits Cl_client Cl_client Nom Prnom
Faits
Cl_client Cl_dmog
Adresse
Date_naissance Dim_dmographique Cl_dmog
Niveau_tude
Nb_enfants Statut_marital Profil_financier
Revenus
Niveau_tude Nb_enfants Statut_marital Profil_financier Profil_achat
44
Profil_achat
Les types de modles
Modle en toile
Modle en flocon
45
Modle en toile
Une table de fait centrale et des dimensions
Les dimensions nont pas de liaison entre elles
Avantages:
Facilit de navigation Nombre de jointures limit Redondance dans les dimensions Toutes les dimensions ne concernent pas les mesures
46
Inconvnients:
Modle en toile
Dimension Temps ID temps anne mois jour Dimension produit ID produit nom code prix poids groupe famille Dimension Client ID client nom prnom adresse
Dimension Magasin ID magasin description ville surface
Dimension Region ID rgion pays description district vente .
Table de faits Achat ID client ID temps ID magasin ID rgion ID produit Quantit achete Montant des achats
47
Modle en flocon
Une table de fait et des dimensions dcomposes en sous
hirarchies On a un seul niveau hirarchique dans une table de dimension La table de dimension de niveau hirarchique le plus bas est relie la table de fait. On dit quelle a la granularit la plus fine Avantages:
Normalisation des dimensions conomie despace disque
Inconvnients: Modle plus complexe (jointure) Requtes moins performantes
48
Modle en flocon
Dimension Magasin ID magasin description ville surface
Dimension Temps ID temps annee mois jour
Dimension produit ID produit ID groupe nom code prix poids
Dimension Region ID rgion ID division vente pays description . Dimension Division vente ID division vente description .
Table de faits Achat ID client ID temps ID magasin ID rgion ID produit Quantit achete Montant des achats Dimension Client ID client nom prnom adresse
Dimension groupe ID groupe ID famille nom
Dimension Famille ID famille nom
49
Mthodologie: 9 tapes de Kimball
1.
2.
3. 4.
5.
6. 7. 8. 9.
Choisir le sujet Choisir la granularit des faits Identifier et adapter les dimensions Choisir les faits Stocker les pr-calculs tablir les tables de dimensions Choisir la dure de la base Suivre les dimensions lentement volutives Dcider des requtes prioritaires, des modes de requtes
50
Plan
Introduction
Les entrepts de donnes
Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
51
Alimentation/ mise jour de lentrept
Entrept mis jour rgulirement Besoin dun outil permettant dautomatiser les chargements
dans lentrept Utilisation doutils ETL (Extract, Transform, Load)
52
Dfinition dun ETL
Offre un environnement de dveloppement Offre des outils de gestion des oprations et de
maintenance Permet de dcouvrir, analyser et extraire les donnes partir de sources htrognes Permet de nettoyer et standardiser les donnes Permet de charger les donnes dans un entrept
53
Extraction
Extraire des donnes des systmes de production Dialoguer avec diffrentes sources: Base de donnes, Fichiers, Bases propritaires Utilise divers connecteurs : ODBC, SQL natif, Fichiers plats
54
Transformation
Rendre cohrentes les donnes des diffrentes
sources
Transformer, nettoyer, trier, unifier les donnes Exemple: unifier le format des dates (MM/JJ/AA JJ/MM/AA)
Etape trs importante, garantit la cohrence et la
fiabilit des donnes
55
Chargement
Insrer ou modifier les donnes dans lentrept Utilisation de connecteurs:
ODBC, SQL natif, Fichiers plats
56
Aperu dun ETL
57
Plan
Introduction
Les entrepts de donnes
Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Accs linformation Dmonstration
58
OLTP VS OLAP
Produits Pays
Espagne Allemagne
Produit
PK id_produit Libell Famille
oranges poires pommes
Achat
PK id_achat
France
FK id_client
client
PK id_client
Nom adresse
id_produit Quantit janvier fvrier avril
Temps
Vente de pommes en Allemagne en avril
59
ROLAP
Relational OLAP
Donnes stockes dans une base de donnes relationnelles Un moteur OLAP permet de simuler le comportement dun SGBD multidimensionnel
Plus facile et moins cher mettre en place Moins performant lors des phases de calcul
Exemples de moteurs ROLAP:
Mondrian
60
MOLAP
Multi dimensional OLAP: Utiliser un systme multidimensionnel pur qui gre les structures multidimensionnelles natives (les cubes) Accs direct aux donnes dans le cube Plus difficile mettre en place Formats souvent propritaires Conu exclusivement pour lanalyse
multidimensionnelle Exemples de moteurs MOLAP:
Microsoft Analysis Services Hyperion
61
HOLAP
Hybride OLAP:
tables de faits et tables de dimensions stockes dans SGBD relationnel (donnes de base) donnes agrges stockes dans des cubes
Solution hybride entre MOLAP et ROLAP
Bon compromis au niveau cot et performance
62
Le cube
Modlisation multidimensionnelle des donnes
facilitant lanalyse dune quantit selon diffrentes dimensions:
Temps Localisation gographique
Les calculs sont raliss lors du chargement ou
de la mise jour du cube
63
Manipulation des donnes multidimensionnelles
Opration agissant sur la structure Rotation (rotate): prsenter une autre face du cube
uf
05 06 07 221 263 139
05 06 07 Idf 101 120 52 Ain 395 400 203
Viande 275 257 116
64
Manipulation des donnes multidimensionnelles
Opration agissant sur la structure Tranchage (slicing): consiste ne travailler que sur une tranche du cube. Une des dimensions est alors rduite une seule valeur
uf
05 06 07 Idf 220 265 284 Ain 225 245 240
uf
06 Idf 265 Ain 245
Viande Idf 163 152 145 Ain 187 174 184
Viande Idf 152 Ain 174
65
Manipulation des donnes multidimensionnelles
Opration agissant sur la structure Extraction dun bloc de donnes (dicing): ne travailler que sous un sous-cube
uf
05 06 07 Idf 220 265 284 Ain 225 245 240
Viande Idf 163 152 145 Ain 187 174 184
05 06 07 uf Idf 220 265 284 Ain 225 245 240
66
Manipulation des donnes multidimensionnelles
Opration agissant sur la granularit
Forage vers le haut (roll-up): dzoomer
Obtenir un niveau de granularit suprieur Utilisation de fonctions dagrgation
Forage vers le bas (drill-down): zoomer
Obtenir un niveau de granularit infrieur Donnes plus dtailles
67
Drill-up, drill-down
Roll up
05 06 07
Roll up
05-07 Fruits 623
Alim. 496 520 255 05 06 07
Dimension Temps
1S05 2S05 1S06 2S06 1S07
Fruits
221 263 139
Fruits
100
121
141
111
120
152
137
139
116
Viande 648
Viande 275 257 116 05 06 07 Pomme Boeuf 20 19 22 40 43 48
Viande 134
Drill down
Drill down
68
Dimension Produit
MDX (Multidimensional Expressions)
Langage permettant de dfinir, d'utiliser et de rcuprer
des donnes partir d'objets multidimensionnels
Permet deffectuer les oprations dcrites prcdemment
Equivalent de SQL pour le monde OLAP Origine: Microsoft
69
MDX, exemple
Fournir les effectifs dune socit pendant les annes 2004
et 2005 croiss par le type de paiement SELECT {([Time].[2004]), ([Time].[2005])} ON COLUMNS, {[Pay].[Pay Type].Members} ON ROWS FROM RH
Cube Dimensions, axes danalyse
WHERE ([Measures].[Count]) 2004 2005
Heure 3396 4015 Jour 3678 2056
70
Plan
Introduction
Les entrepts de donnes
Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
71
Le march du dcisionnel
72
Quelques solutions commerciales
73
Quelques solutions open source
ETL
Octopus Kettle
Entrept de donnes
MySql Postgresql
OLAP
Reporting
Data Mining
Weka R-Project
Mondrian Birt Palo Open Report
CloverETL Greenplum/Biz
Jasper Report Orange
Talend
gres
JFreeReport
Xelopes
Intgr Pentaho (Kettle, Mondrian, JFreeReport, Weka) SpagoBI
74
Plan
Introduction
Les entrepts de donnes
Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Accs linformation Dmonstration
75
Exemples
Rapports
Sales by customer Dashboard
Analyse
76
77