0% ont trouvé ce document utile (0 vote)

21 vues22 pages

Data Warehouse Sequence 1: Découverte Des Données Extraction Des Données Transformation Des Données

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

21 vues22 pages

Data Warehouse Sequence 1: Découverte Des Données Extraction Des Données Transformation Des Données

Transféré par

colombmboungou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Warehouse

Sequence 1
Chapitre 1 : ................................................................................................................................. 3
Introduction aux entrepôts de données (ED) .......................................................................... 3
Définition d’un ED ................................................................................................................. 3
Les données du système d'information................................................................................... 4
Données orientées sujet ...................................................................................................... 4
L’avantage .......................................................................................................................... 5
Données intégrées .................................................................................................................. 5
Données historisées ................................................................................................................ 5
Données non volatiles ............................................................................................................ 5
Les classes de données ........................................................................................................... 5
Les données agrégées ......................................................................................................... 6
Les données détaillées ........................................................................................................ 6
Les métadonnées ................................................................................................................ 6
Les données historisées ...................................................................................................... 6
Architecture fonctionnelle d’un ED ........................................................................................... 6
Modélisation multidimensionnelle ......................................................................................... 6
La modélisation par sujet ................................................................................................... 6
La modélisation dimensionnelle......................................................................................... 6
Faits, indicateurs et dimensions ..................................................................................... 6
Additivités des indicateurs ............................................................................................. 7
Les dimensions ............................................................................................................... 7
Structure de la base de données.......................................................................................... 7
Le schéma en étoile ........................................................................................................ 8
Le schéma en flocon ....................................................................................................... 8
Les schémas en constellation de faits ............................................................................. 9
Alimentation, stockage, gestion et exploitation d’un ED................................................... 9
Découverte des données .......................................................................................... 9
Extraction des données ............................................................................................ 9
Transformation des données ................................................................................... 9
Domaines d’application des ED et « succès stories » ...................................................... 10
Domaines bancaire ....................................................................................................... 10
Domaines de la grande distribution .............................................................................. 10
Apports constatés : ................................................................................................... 11
Domaines des télécommunications .............................................................................. 11
Domaines de l’assurance .............................................................................................. 11
Chapitre 2 : Analyse en ligne d’entrepôt : OLAP (On-Line Analytical Processing) ............... 12
Introduction et problématique de l’OLAP ........................................................................... 12
OLTP ................................................................................................................................ 12
OLAP ............................................................................................................................... 12
Entrepôt et OLAP, OLAP versus OLTP .......................................................................... 12
Opérations élémentaires OLAP ........................................................................................ 13
Opérations de restructuration (rotate, switch, split, nest, push, pull) ........................... 13
Rotate/pivot .............................................................................................................. 13
Switch ou permutation ............................................................................................. 13
Split ou division ....................................................................................................... 13
Nest ou l’emboîtement ............................................................................................. 14
Push ou l’enfoncement ............................................................................................. 14
Opérations de granularité ............................................................................................. 15
roll-up ou résumé ou cumul ..................................................................................... 15
drill-down ou zoom avant ........................................................................................ 15
Opérations liées au niveau de granularité des données : .............................................. 15
Dice ou couper en clés ............................................................................................. 15
Slice ou trancher ....................................................................................................... 16
Etude de cas .......................................................................................................................... 17
Modélisation en étoile ...................................................................................................... 17
Cas ................................................................................................................................ 17
Analyse. ........................................................................................................................ 17
Explications .............................................................................................................. 18
Il faut savoir : ........................................................................................................... 18
Conclusion ................................................................................................................ 18
Modélisation en flocon ..................................................................................................... 19
Conception d'entrepôts de données ...................................................................................... 20
Constellation..................................................................................................................... 20
Construire un entrepôt de données ................................................................................... 21
Top-Down .................................................................................................................... 21
Bottom-Up .................................................................................................................... 21
Middle-Out ................................................................................................................... 21
Reférences ............................................................................................................................ 22
Chapitre 1 :
Introduction aux entrepôts de données (ED)
Les décideurs d'une entreprise doivent pouvoir répondre à un certain nombre de question pour
diriger leur entreprise :
- Qui sont mes clients ?
- Pourquoi sont-ils mes clients ?
- Comment cibler ma clientèle ?
- Quel est l'évolution de tel produit ?
- Qui sont mes employés ?
- ...
L'objectif est donc d'apporter aux décideurs d'une entreprise les moyens de répondre à ces
questions.
Pour atteindre cet objectif, le concept d’entrepôt de données a été formalisé pour la première
fois en 1990 par Bill Inmon. Il s’agissait de constituer une base de données orientée sujet,
intégrée et contenant des informations historisées, non volatiles et exclusivement destinées aux
processus d’aide à la décision.

Définition d’un ED
Un entrepôt de données est une collection de données thématiques, intégrées, non volatiles et
historisées pour la prise de décisions (Bill Inmon)
Les points clefs garantissant le succès d'un entrepôt de données sont les suivants :
- Les informations d'un entrepôt de données doivent être accessibles et fiables (de
qualité).
- La conception d'un entrepôt de données doit répondre à un besoin de ROI4 élevé.
- La réponse aux demandes très diverses des utilisateurs.
- L’entrepôt de données doit évoluer avec les besoins des utilisateurs et du système
d'information.
-

Les données du système d'information

Les données permettant la prise de décisions diffèrent des données opérationnelles :

Tableau 1 : Différences entres les données opérationnelles et les données décisionnelles

Données orientées sujet

- Organisé autour des sujets majeurs et des métiers de l'entreprise.
- Les données sont organisées par thème, contrairement aux données des systèmes de
production, organisées par processus fonctionnels.
BD Production Employés Facturatio

Données Données Données

produit clients vendeurs
DW

L’avantage
- Réaliser des analyses sur des sujets transversaux aux structures fonctionnelles et
organisationnelles de l'entreprise. Et ainsi, de pouvoir analyser un processus dans le
temps à différentes étapes de sa conception au sein du SI.
- Analyses par itération, sujet après sujet.
L'intégration dans une structure unique est indispensable pour éviter aux données concernées
par plusieurs sujets d'être dupliquées. Dans la pratique il existe également des Datamart pouvant
supporter l'orientation sujet.

Données intégrées
Les données doivent êtres mises en forme et unifiées afin d'avoir un état cohérent. Pour parfaire
cette cohérence, l’intégration nécessite
- Une forte normalisation de données.
- Maîtrise de la sémantique,
- La prise en compte des contraintes référentielles et des règles de gestion.
Ces notions sont énoncées, détaillées et administrées au sein des métadonnées de l’entrepôt de
données.

Données historisées
- Suivre dans le temps l'évolution des différentes valeurs des indicateurs à analyser.
- Un référentiel temps doit être associé aux données afin de permettre l'identification dans
la durée de valeurs précises.

Données non volatiles

Afin de conserver la traçabilité des informations et des décisions prises, les informations
stockées au sein de l’entrepôt de données ne peuvent être supprimées.

Les classes de données

Un entrepôt de données peut se structurer en quatre classes de données organisées selon un axe
historique et un axe de synthèse.
Les données agrégées
Correspondent à des éléments d’analyse représentant les besoins des utilisateurs. Elles
constituent déjà un résultat d’analyse et une synthèse de l’information contenue dans le système
décisionnel, et doivent être facilement accessibles et compréhensibles.
Les données détaillées
Les données détaillées reflètent les événements les plus récents. Les intégrations régulières des
données issues des systèmes de production vont habituellement être réalisées à ce niveau.
Les métadonnées
Les métadonnées constituent l'ensemble des données qui décrivent des règles ou processus
attachés à d'autres données. Ces dernières constituent la finalité du système d'information.
Les données historisées
Chaque nouvelle insertion de données provenant du système de production ne détruit pas les
anciennes valeurs, mais créée une nouvelle occurrence de la donnée.

Architecture fonctionnelle d’un ED

Modélisation multidimensionnelle
La modélisation par sujet
Un entrepôt de données est généralement basé sur un SGBD relationnel. La modélisation par
sujet est une technique de conception logique qui vise à organiser et classifier les informations
des bases légataires en données classées par sujet fonctionnel. Elle est basée sur la modélisation
"Entité/Association" et est préliminaire à la modélisation dimensionnelle. Chaque sujet
correspond à une table gérée au sein de l’entrepôt. Il faut isoler les données stratégiques,
déterminer les informations de détails nécessaires (profondeur, granularité) et conserver les
métadonnées.
La modélisation dimensionnelle
La modélisation dimensionnelle (modèle multidimensionnel) souvent appelée modélisation
OLAP (Codd 1993) se présente comme une alternative au modèle relationnel. Elle correspond
mieux aux besoins du décideur tout en intégrant la modélisation par sujet. C’est une méthode
de conception logique qui vise à présenter les données sous une forme standardisée intuitive et
qui permet des accès hautement performants. Elle aboutit à présenter les données non plus sous
forme de tables mais de cube centré sur une activité. Un cube de dimension n (n > 3) est aussi
dit hyper cube.
Faits, indicateurs et dimensions
La table de faits est la clef de voûte du modèle dimensionnel où sont stockés les indicateurs de
performances. Le concepteur s’efforce de considérer comme indicateurs les informations d’un
processus d’entreprise dans un système d’information. Les indicateurs étant les données les plus
volumineuses d’un système d’information, on ne peut se permettre de les dupliquer dans
d’autres tables mais de les rationaliser au sein de la table de faits.
Exemple : La table de faits des ventes journalières
Ventes
Clé date (CE)
Clé produit (CE)
Clé magasin (CE)
Quantité vendue
Montant des ventes ($)
Tableau 2 : Modèle conceptuel d’une table de faits
Le terme de fait est utilisé pour représenter une mesure économique. Pour exemple, lors de la
vente de produits sur un marché, on comptabilise les types de produits vendus, leur quantité et
le montant de chaque vente au jour le jour et ce, pour chaque produit et pour chaque magasin.
La mesure des quantités et des prix est réalisée à l’intersection de toutes les dimensions (produit,
magasin, temps). Le nombre des dimensions détermine la finesse, la granularité de la table et
indique la portée de l’indicateur.
Additivités des indicateurs
Les indicateurs les plus utiles d’une table de faits sont numériques et additifs. L’additivité des
attributs d’une table de faits est cruciale pour les outils décisionnels. Les utilisateurs demandent
rarement l’analyse d’une seule ligne. Dans notre exemple, constater les ventes de produits sur
une année pour les magasins d’une région demande l'analyse de plusieurs milliers de lignes à
la fois. Pour autant, tous les attributs utiles ne sont pas additifs. Certains sont semi additifs et
ne peuvent être additionnés que pour certaines dimensions. D’autres sont non additifs et ne
peuvent pas être additionnés par dimensions. Pour cette dernière catégorie, on utilise des
fonctions d'agrégations tel que, le calcul de moyenne, le ratio ou le comptage de lignes.
Les dimensions
Les tables de dimensions sont les entités complémentaires à la conception de la table de faits.
Elles contiennent, autant que possible, des attributs sous forme de descriptions textuelles
permettant de qualifier ou d’expliquer l’activité.
Des attributs de dimensions, nombreux, permettent de varier les possibilités d’analyse. En
général, les tables de dimensions tendent à être peu profondes mais elles sont larges (l'inverse
de la table de faits), en d’autres termes elles ont peu de lignes mais beaucoup de colonnes.

"Produit"
Clé produit (CP)
Description du produit
Numéro US (clé naturelle)
Description de la marque
Description de la catégorie
Description du rayon
Description du type d'emballage
…autres attributs
Tableau 3 : Modèle conceptuel d’une table de dimension
Structure de la base de données
Au sein de l’entrepôt de données les données sont redondantes et dénormalisées, cela permet
de faciliter l’utilisation et d’améliorer les performances lors de l'analyse des données. Trois
types de schémas sont fréquemment rencontrés, le schéma en étoile, le schéma en flocon et le
schéma en constellation de faits.
Le schéma en étoile
Dans un schéma en étoile, une table centrale de faits contenant les faits à analyser, référence les
tables de dimensions par des clefs étrangères. Chaque dimension est décrite par une seule table
dont les attributs représentent les diverses granularités possibles.

Figure 1 : image d’un schéma en étoile

Exercice 1.
Une entreprise de fabrication de vaisselle jetable souhaite mettre en place un système
d’information décisionnel sous la forme d’un data mart (un mini entrepôt de données) pour
observer son activité de ventes au niveau des différents lieux de distributions de ses articles et
cela dans plusieurs villes. Ces lieux de distributions sont renseignés par leur enseigne, leur type
(en fonction de leur surface), leur adresse (code postal et ville), leur département, leur région.
Les ventes sont renseignées selon une période qui se décline en mois, en trimestre et année. Les
ventes sont observées par le nombre d’articles selon le type, et le chiffre d’affaire.
- Quel est le fait à observer ?
- Quels sont les axes d’analyse, et les mesures ?
- Construire le modèle en étoile de ce data mart.

Le schéma en flocon
Dans un schéma en flocon, cette même table de faits, référence les tables de dimensions de
premier niveau, au même titre que le schéma en étoile. La différence réside dans le fait que les
dimensions sont décrites par une succession de tables (à l’aide de clefs étrangères) représentant
la granularité de l'information. Ce schéma évite les redondances d’information mais nécessite
des jointures lors des agrégats de ces dimensions.
Les schémas en constellation de faits
Dans un schéma en constellation, plusieurs modèles dimensionnels se partagent les mêmes
dimensions, c'est-à-dire, les tables de faits ont des tables de dimensions en commun. Pour
conclure, les différences entre ces trois modèles sont faibles et ne peuvent donner lieu à des
comparaisons de performance. Ce sont des schémas issus de la modélisation dimensionnelle
utilisés par les outils décisionnels.

Alimentation, stockage, gestion et exploitation d’un ED

L'alimentation des données à partir des bases de production est une phase primordiale d'un
datawarehouse. Des outils logiciels sont alors nécessaires pour intégrer les données dans le
datawharehouse. On parle d'ELT (Extract, Transform, Load). Les phases de l'alimentation d'un
datawarehouse sont les suivantes :
Découverte des données
Il s'agit d'identifier dans les systèmes sources les données à importer dans le datawarehouse. Il
faut prendre les données les plus judicieuses. Un mauvais choix peut considérablement
compliquer les phases suivantes de l'alimentation.
Extraction des données
Il s'agit de collecter les données utiles dans les systèmes de production. Il faut identifier les
données ayant été modifiées afin d'importer le minimum de données dans le datawarehouse.
Transformation des données
Il faut rendre les données cohérentes avec la structure du datawarehouse. On applique alors des
filtres sur les données. Il peut être nécessaire de convertir le format des données (EBCDIC vers
ASCII par exemple) ou d'harmoniser les formats de dates (jj/mm/aaaa). Il faut également
associer les champs source avec les champs cibles. Un champ source « adresse » pourra ainsi
par exemple être décomposé en « numéro », « rue », « code postal » , « ville » ou l'inverse.
Enfin des données des systèmes de production doivent être agrégées ou calculées avant leur
chargement.

m, f

0, 1 m, f

male, female

fcfa

$ €

char(10)

Numeric(10)
Dec(10,2)

Numeric(8)

Figure 2 : Intégration des données

Domaines d’application des ED et « succès stories »
Domaines bancaire
- Pour une banque, il est important de pouvoir regrouper les informations relatives à un
client afin de répondre à ses demandes de crédit par exemple
- Des mailings ciblés doivent aussi être rapidement élaborés à partir de toutes les
informations disponibles sur un client lors de la commercialisation d’un nouveau
produit
- L’utilisation de cartes de crédit nécessite des contrôles à posteriori, par exemple pour la
recherche de fraudes : la mémorisation des mouvements peut rendre de grands services
- Les échanges d’actions et de conseils de courtages sont facilités par une mémorisation
de l’histoire et une exploitation par des outils décisionnels avancés par exemple pour
déterminer des tendances de marchés
Domaines de la grande distribution
- Intéressant de regrouper les informations de ventes pour déterminer les produits à
succès, mieux suivre les modes, détecter les habitudes d’achats, les préférences des
clients par secteur géographique
- La fouille de données (Data Mining) a permis de développer des techniques
sophistiquées d’exploitation de données qui aident à mettre en évidence les règles de
consommation
- Explorer le panier de la ménagère est devenu un exercice d’école : il s’agit de trouver à
partir de l’enregistrement des transactions quelles sont les habitudes d’achats, plus
précisément quels sont les produits achetés en même temps
Apports constatés :
- Augmentation des ventes grâce à un meilleur marketing
- Amélioration des taux de rotation de stocks
- Élimination des produits obsolètes
- Réduction des rabais, remises, ristournes
- Meilleure négociation des achats
Domaines des télécommunications
- Grande masse de données concernant les abonnés et les appels est enregistrée
- Plusieurs mois de description détaillée des appels comprenant, pour chaque appel
appelant, appelé, heure et durée sont disponibles chez les opérateurs
En respectant les lois de sécurité et liberté, que peut-on faire de telles données ?
Couplées ou non avec des informations comptables, l’exploitation de ces données regroupées
en ED par des techniques d’analyse et d’exploration permet :
- D’analyser le trafic,
- De mieux cerner les besoins des clients,
- De classer les clients par catégories,
- De comprendre pourquoi certains changent d’opérateurs et mieux répondre à leurs
besoins

Domaines de l’assurance
- L’exercice de base de l’assureur est de déterminer le facteur de risque d’un assuré
- Celui d’un producteur pharmaceutique est de détecter l’impact d’un médicament
- Plus généralement, le suivi des informations relatives à la liaison produit-client sur un
ED est souvent synonyme de gains importants : meilleure connaissance des produits,
détection des défauts, meilleure connaissance des clients, détection de rejets, ciblage du
marketing, etc
- Le couplage aux technologies du Web ouvre aussi des horizons nouveaux pour le suivi
des produits, des clients, des concurrents : notion émergente de « Data Webhouse »
Chapitre 2 : Analyse en ligne d’entrepôt : OLAP (On-Line Analytical
Processing)
Introduction et problématique de l’OLAP
En réalité SGBD et datawarehouse ont des objectifs différents. Ils stockent les données de
manière différentes et font l'objet de requêtes différentes. Ils sont ainsi basés sur deux systèmes
différents : OLTP et OLAP
OLTP
OLTP ( On Line Transaction Processing) est le modèle utilisé par les SGBD. Le mode de travail
est transactionnel. L'objectif est de pouvoir insérer, modifier et interroger rapidement et en
sécurité la base. Ces actions doivent pourvoir être effectuées très rapidement par de nombreux
utilisateurs simultanément. Chaque transaction travail sur de faibles quantités d'informations,
et toujours sur les versions les plus récentes des données.
OLAP
Les datawarehouses eux reposent sur le système OLAP (On Line Analytical Processing). Ce
système travail en lecture seulement. Les programmes consultent d'importantes quantités de
données pour procéder à des analyses. Les objectifs principaux sont regroupés, organiser des
informations provenant de sources diverses, les intégrer et les stocker pour donner à l’utilisateur
une vue orientée métier, retrouver et analyser l’information facilement et rapidement. Cela
nécessite de consulter des versions historiques de la base et peut se permettre d'ignorer
temporairement les dernières mises à jour.
Ces bases sont souvent d'un ordre de grandeur nettement supérieur à celle des bases OLTP, du
fait de la conservation de l'historique.
Entrepôt et OLAP, OLAP versus OLTP
Tableau récapitulatif des différences entre OLTP et OLAP :

Caractéristiques OLTP OLAP

Utilisation SGBD (base de Datawarehouse
production)
Opération typique Mise à jour Analyse
Type d'accès Lecture écriture Lecture
Niveau d'analyse Elémentaire Global
Quantité d'information Faible Importante
échangées
Orientation Ligne Multidimension
Taille BD Faible (max qq GB) Importante (pouvant
aller à plusieurs TB).
Ancienneté des données Récente Historique
L'objectif des bases OLTP est de pouvoir répondre rapidement à des réponses simples, exemple
: les ventes du produit X. Les bases OLAP permettent des requêtes plus complexes : les ventes
du produit X par vendeur, région et par mois.
Opérations élémentaires OLAP
Opérations de restructuration (rotate, switch, split, nest, push, pull)
Rotate/pivot
Effectue au cube une rotation autour d’un de ses 3 axes passant par le centre de 2 faces opposées,
de façon à présenter un ensemble de faces différent (sélection de faces)

Permet un changement de points de vue selon différentes dimensions : opérations liées à la

structure, manipulation et visualisation du cube.
Switch ou permutation
consiste à interchanger la position des membres d’une dimension :

Split ou division
consiste à présenter chaque tranche du cube et de passer de sa présentation tridimensionnelle à
sa présentation sous la forme d’un ensemble de tables
Nest ou l’emboîtement
permet d’imbriquer des membres à partir du cube. L’intérêt de cette est qu’elle permet de
grouper sur une même représentation bi-dimensionnelle toutes les informations (mesures et
membres) d’un cube quel que soit le nombre de ses dimensions. nest(pièces, région) :

Push ou l’enfoncement
Consiste à combiner les membres d’une dimension aux mesures du cube, i.e. de faire passer des
membres comme contenu de cellules.
Opérations de granularité
roll-up ou résumé ou cumul
On effectue un roll-up1 lorsqu’on souhaite obtenir moins de détails, ou qu’on souhaite obtenir
une vue d’ensemble. On peut d’abord faire un roll-up à même une dimension qui dispose d’une
hiérarchie. Prenons l’exemple des données suivantes :
France 5
Espagne 2
Suisse 47
Canada 30
E.-U. 10
Cameroun 9

La dimension lieu est présentée à la granularité Pays. Si on juge que cela fournit trop de détails
inutiles, on peut demander un roll-up vers le continent :
Europe 54
Amérique du 40
Nord
Afrique 9
drill-down ou zoom avant
Exercice2 Proposer une table représentant un drill-down par rapport à la table précédente

Opérations liées au niveau de granularité des données :

Opérations ensemblistes (slide, dice, jointure (drill-across), data cube

terme anglais traduction

usuel possible
slice trancher
dice couper en clés
concerne l’extraction et l’OLTP classique
Dice ou couper en clés
Une opération de type dice consiste à générer une nouvelle table, qui
comporte autant de dimensions et les mêmes valeurs de mesures, mais
où l’on restreint certaines des dimensions à quelques mesures. Prenons
l’exemple de cette table, qui comprend à la fois des pays et des
couleurs. Imaginons que nous voulions éliminer la couleur orange et

ne conserver que les pays européens :

Slice ou trancher
L’opération slice, quant à elle, réduit le nombre de dimensions (comme une opération roll-up)
mais, tout comme l’opération dice, elle laisse les valeurs de mesures inchangées, se contentant
d’omettre une partie des données.
Imaginons que dans l’exemple des pays et des couleurs, nous nous intéressions qu’a la couleur
rouge. Dans un tel cas, nous pourrions extraire les enregistrements correspondants dans la table

de faits :
Etude de cas
Modélisation en étoile
Nous allons utiliser un exemple pour expliquer la modélisation en étoile. L'important en BI est
de toujours garder à l'esprit que ce que nous faisons est différent des bases de données
traditionnelles. Le schéma créé sera accessible par les utilisateurs et doit donc être le plus simple
et explicite possible !
Cas
On souhaite créer un data Mart (une étoile) pour l'analyse de l'activité des représentants d'une
entreprise de vente d'imprimantes. Le chef d'entreprise veut savoir ce qui se passe pour ses
vendeurs. Les employés font-ils leur travail, quelle est la zone de couverture des vendeurs, à
quels endroits les vendeurs sont le moins efficaces, quelle est la moyenne de ventes des
représentants, etc. L'entreprise possède un système de gestion de ressources humaines, un
système de gestion des ventes et des feuilles de route avec des informations concernant les
vendeurs : kilomètres parcourus, litres d'essence utilisée, frais de voyage, ventes, promesses de
vente, etc.
Analyse.
Notre objectif est d'analyser l'activité des représentants. Il semble que nous ayons toutes les
informations pour ce faire… Mais dans différents systèmes.
Le but du jeu est de déceler les axes d'analyses (les dimensions) avec leurs attributs ainsi que
les éléments à analyser (les faits). La meilleure façon de ce faire, est l'étude approfondie de ce
qui se passe dans l'entreprise : documents échangés, rapports périodiques, interviews des
personnes clés, étude des besoins. Il faut faire un travail d'acteur, et rentrer dans la peau de
chaque utilisateur, savoir comment les analystes organisent leurs raisonnements, savoir ce que
voient les décideurs avant de décider, connaître les indicateurs de bonne santé de l'entreprise et
de la concurrence. Un vrai travail de fourmi.
Les techniques d'acquisition d'information et d'analyse des besoins étant un sujet à eux seuls, je
passerais la main pour ce point … Nous supposerons que tout a été fait selon les règles de l'art
et nous nous contenterons de compiler
Une manière très pratique de modéliser un cas en BI se fait comme suit :
Zone
Date Vendeur Produit Client
géographique

Années Nom Catégorie Pays Nom

Mois Prénom Type Province Adresse

Jours Salaire Groupe Ville Pays

Heures

Analyse : consommation d'essence, Qte

commandée, Qte précommandée,
kilométrage, nombre de visites, etc.

Tableau d’analyse
Explications
Le tableau suivant a été rempli pendant la phase d'analyse, en posant des questions aux
décideurs du type :
- Que voulez-vous analyser (la dernière ligne du tableau) ?
- Quels sont vos critères d'analyse (la première ligne du tableau) ?
- Jusqu’à quel niveau de détail voulez-vous aller (les cellules è l'intérieur) ?
La structure d'un entrepôt étant plus rigide que les systèmes conventionnels (se basent sur des
ETL, des validations créées par l'homme, etc.), il est capital d'avoir une analyse des besoins
exhaustive et conforme aux attentes des décideurs.
Il faut savoir :
- D’où provient chaque champ ?
- Comment transite l'information ?
- Où trouver l'information voulue ?
Se poser des questions du type :
- Ai-je assez de données pour répondre aux besoins ?
- Sinon, qu'est-ce que cela impliquerait de les créer ?
- Comment alimenter mes dimensions ?
- Comment alimenter mes faits ?
- Comment valider mes chargements ?
- Etc.
Vous pouvez penser que c'est de la paranoïa (comme certains clients) et croire que tous ces
problèmes n'apparaîtront pas forcément. Mais rappelez-vous qu'un entrepôt, ça coûte très cher,
et qu'un entrepôt avec des données incomplètes, invalides ou non conformes à la demande est
tout simplement à mettre à la poubelle…
Conclusion
La modélisation en étoile découle naturellement du tableau d’analyse ci-dessus, il en résulte le
schéma suivant :
Schéma en étoile

On comprend maintenant pourquoi on appelle ce schéma « modèle en étoile ». Toutes les

dimensions sont directement reliées à la table de faits, qui contient les données à analyser.
Plusieurs remarques sont à faire pour ce schéma.
- La table de fait contient se qu'on appelle des « mesures », des champs (numériques pour
la plupart) sur lesquels on va faire les analyses, on peut y trouver le montant des ventes
nettes, les quantités vendues, les kilomètres parcourus, les quantités en pré commande,
etc. La table de faits est reliée aux dimensions par des relations (1, n). Pour analyser une
ligne de fait par client par exemple, il faut qu'il y ait une relation entre cette ligne et la
dimension client.
- Les tables de dimension contiennent les éléments qu'utiliseront les décideurs pour voir
la table de faits. Les utilisateurs pourront ainsi apprécier les montants des ventes par
vendeur, par client, ou le kilométrage pour un vendeur pour un client donné (pour voir
si ce client est rentable), calculer le coût de revient d'un produit par rapport aux activités
des vendeurs, etc.
- On n'utilise JAMAIS la clé d'un système de production comme clé de dimension : pour
préserver l'historique des modifications dans l'entrepôt de données
- La granularité des tables de dimensions et de faits doit être la même : imaginez que la
table de faits regroupe les informations par heures et que la table de dimension du temps
gère les minutes, il ne sera pas possible de lier la dimension temps et la table de faits
(multi détermination).
- Chaque ligne de la table de faits doit avoir une relation avec chacune des tables de
dimensions : dans le cas contraire, on aurait perte d'information ou analyse erronée.
- Il n'existe de relations qu'entre les dimensions et les tables de faits. Il sera beaucoup trop
compliqué de gérer et d'utiliser des dimensions liées entre elles. N'oubliez pas que le
schéma doit être assimilable par des non-informaticiens pour pouvoir l'exploiter.
N'ayons pas peur de créer des doublons !
Modélisation en flocon
La modélisation en flocon étant une variante de la modélisation en étoile, nous prendrons le
même cas avec la même analyse. Il faut savoir que la modélisation en flocon existe pour des
raisons de performances. En effet, des dimensions de plusieurs millions de lignes peuvent poser
des problèmes de lenteur lors de l'exploitation des données. Le principe de la modélisation en
flocon est de créer des hiérarchies de dimensions, de telle manière à avoir moins de lignes par
dimensions. Cela semble contredire la dernière remarque de la modélisation en étoile, c’est vrai
mais la performance ici prime sur la structure. C'est la seule façon trouvée pour avoir des
résultats clairs et rapides actuellement. Le schéma d'une modélisation en flocon pourrait être
comme suit :
Modélisation en flocon
Conseil : ne pas adopter cette modélisation à tort et à travers. En effet, pour garder une structure
simple, gérable et compréhensible, utilisez le plus possible la modélisation en étoile. La
modélisation en flocon n'intervenant que lorsque des problèmes de performances apparaissent
ou sont facilement prédictibles. Une règle informelle en BI préconise de floconner que si l'on a
la relation (1-1000). C'est-à-dire que si l'on réussit à créer une hiérarchie de deux dimensions
avec une ligne de la dimension père (groupe produit par exemple) faisant référence à plus de
1000 lignes de la dimension fille (produit par exemple). Dans ce cas, il est peut-être temps de
penser aux flocons.

Conception d'entrepôts de données

Un entrepôt de données, selon la définition officielle, est une vue complète et centralisée des
données de l'entreprise. La modélisation en étoile ou en flocon, ne s'intéresse qu'à la conception
d'un sous-ensemble d'entrepôt, une seule table de fait. On ne peut même pas dire qu'une étoile
ou un flocon représente un data Mart, car une fonction de l'entreprise peut comporter plusieurs
tables de faits. La fonction commerciale d'une entreprise peut comporter une étoile pour les
ventes, un flocon pour les commandes, une autre étoile pour les retours, etc.
Un entrepôt de données est l'ensemble de ces étoiles et/ou flocons. Mais comment organiser
tout ça ?
Constellation
Vous remarquez que tous ces termes sont empruntés à l'astronomie et à la météo : étoile, flocon,
constellation. Une constellation est une série d'étoiles ou de flocons reliés entre eux par des
dimensions. Il s'agit donc d'étoiles avec des dimensions en commun. Un environnement
décisionnel idéal serait une place ou il serait possible de naviguer d'étoile en étoile, de
constellation en constellation et de DataMart en DataMart à la recherche de l'information. Un
des indicateurs clés d'une bonne conception d'entrepôt est la grosseur des constellations. En
effet, plus la constellation est grosse, plus cela veut dire que vous avez réutilisé vos dimensions,
et qui dit réutilisation de dimension, dit dimensions complètes, centralisées et avec une vue
orientée entreprise.
En conception d'entrepôt, dès qu'une dimension existante ne correspond pas parfaitement aux
besoins d'une nouvelle étoile, on en crée une autre, même si elle est « presque » comme la
dimension que nous allions utiliser. C'est pour cela qu'il faut créer, autant que possible, des
dimensions génériques et qui soient vraies tout le temps, pour toutes les fonctions de
l'entreprise. Ces dimensions pourront être réutilisées et assurer une pérennité des données. Et si
de telles dimensions ne peuvent pas être créées, il faut créer des dimensions similaires, mais
adaptées aux besoins de la nouvelle étoile. Mais si vous voyez que dans chaque étoile vous êtes
obligés de créer une nouvelle dimension « client » par exemple, posez-vous des questions sur
votre conception.
Construire un entrepôt de données
Récapitulons, nous avons vu comment créer une étoile ou un flocon, nous avons vu que les data
marts sont des étoiles regroupées par fonction ou par utilité dans l'entreprise et nous savons
qu'un entrepôt est l'ensemble de tous les data marts de l'entreprise. Nous savons faire une étoile,
mais comment les regrouper pour mettre en œuvre un entrepôt de données ? Et bien trois
méthodes s'offrent à nous :
Top-Down
C’est la méthode la plus lourde, la plus contraignante et la plus complète en même temps. Elle
consiste en la conception de tout l'entrepôt (i.e. : toutes les étoiles), puis en la réalisation de ce
dernier. Imaginez le travail qu'une telle méthode implique : savoir à l'avance toutes les
dimensions et tous les faits de l'entreprise, puis réaliser tout ça… Le seul avantage que cette
méthode comporte est qu'elle offre une vision très claire et très conceptuelle des données de
l'entreprise ainsi que du travail à faire ;
Bottom-Up
C’est l'approche inverse, elle consiste à créer les étoiles une par une, puis les regrouper par des
niveaux intermédiaires jusqu'à obtention d'un véritable entrepôt pyramidal avec une vision
d'entreprise. L'avantage de cette méthode est qu'elle est simple à réaliser (une étoile à la fois),
l'inconvénient est le volume de travail d'intégration pour obtenir un entrepôt de données ainsi
que la possibilité de redondances entre les étoiles (car elles sont faites indépendamment les unes
des autres) ;
Middle-Out
C’est l'approche hybride, et conseillée par les professionnels du BI. Elle consiste en la
conception totale de l'entrepôt de données (i.e. : concevoir toutes dimensions, tous les faits,
toutes les relations), puis créer des divisions plus petites et plus gérables et les mettre en œuvre.
Cela équivaut à découper notre conception par éléments en commun et réaliser les découpages
un par un. Cette méthode tire le meilleur des deux précédentes sans avoir les contraintes. Il faut
juste noter que cette méthode implique, parfois, des compromis de découpage (dupliquer des
dimensions identiques pour des besoins pratiques).
Reférences
Bernard ESPINASSE Professeur : Entrepôts de données et analyse en ligne OLAP (On-Line
Analytical Processing) ,Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de
Marseille
https://grim.developpez.com/cours/businessintelligence/concepts/conception-datawarehouse/
Conception d'un entrepôt de données (Data Warehouse) Accédé le 11/12/2021

Vous aimerez peut-être aussi

Entrepôts de données : Concepts et enjeux
Pas encore d'évaluation
Entrepôts de données : Concepts et enjeux
7 pages
Systèmes d'information décisionnels et ED
Pas encore d'évaluation
Systèmes d'information décisionnels et ED
29 pages
Data Warehouse
100% (1)
Data Warehouse
41 pages
Entrepot EMSI
Pas encore d'évaluation
Entrepot EMSI
31 pages
Entrepot EMSI
Pas encore d'évaluation
Entrepot EMSI
43 pages
Introduction aux entrepôts de données
Pas encore d'évaluation
Introduction aux entrepôts de données
73 pages
ED Cours 23-24
Pas encore d'évaluation
ED Cours 23-24
108 pages
Cours de Data Mining à l'Université de Carthage
Pas encore d'évaluation
Cours de Data Mining à l'Université de Carthage
140 pages
chp3 Bi
Pas encore d'évaluation
chp3 Bi
36 pages
Chapitre 1 Et 2
Pas encore d'évaluation
Chapitre 1 Et 2
47 pages
Introduction à la Business Intelligence et Entrepôts de Données
100% (1)
Introduction à la Business Intelligence et Entrepôts de Données
106 pages
Informatique Décisionnelle et ETL
Pas encore d'évaluation
Informatique Décisionnelle et ETL
7 pages
Introduction aux entrepôts de données
Pas encore d'évaluation
Introduction aux entrepôts de données
24 pages
Entrepôts de données et décisionnel
Pas encore d'évaluation
Entrepôts de données et décisionnel
18 pages
Systèmes décisionnels et données
Pas encore d'évaluation
Systèmes décisionnels et données
28 pages
Datawarehousing Cours
Pas encore d'évaluation
Datawarehousing Cours
44 pages
Introduction Aux Entrepôts de Donnees
Pas encore d'évaluation
Introduction Aux Entrepôts de Donnees
27 pages
Fondamentaux de l'Entrepôt de Données
Pas encore d'évaluation
Fondamentaux de l'Entrepôt de Données
58 pages
Conception Dun Outil Decisionnel Pour La Gestion PDF
Pas encore d'évaluation
Conception Dun Outil Decisionnel Pour La Gestion PDF
15 pages
Support de Cours L2 LMD
Pas encore d'évaluation
Support de Cours L2 LMD
19 pages
Formation Entrepot de Donnees
Pas encore d'évaluation
Formation Entrepot de Donnees
23 pages
Résumé Entrepôts de Données
Pas encore d'évaluation
Résumé Entrepôts de Données
7 pages
Intégration et Épuration des Données ETL
Pas encore d'évaluation
Intégration et Épuration des Données ETL
17 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
164 pages
Comprendre l'Entrepôt de Données et BI
Pas encore d'évaluation
Comprendre l'Entrepôt de Données et BI
41 pages
Conception d'Entrepôts de Données
100% (1)
Conception d'Entrepôts de Données
46 pages
CM-DW Olap
Pas encore d'évaluation
CM-DW Olap
63 pages
Chapitre 01
Pas encore d'évaluation
Chapitre 01
26 pages
Résumé Entrepôt de Données
Pas encore d'évaluation
Résumé Entrepôt de Données
10 pages
Introduction aux Entrepôts de Données
Pas encore d'évaluation
Introduction aux Entrepôts de Données
45 pages
Amélioration de La Qualité de Service D'une Application Android À Base D'un Entrepôt de Données Actif.
Pas encore d'évaluation
Amélioration de La Qualité de Service D'une Application Android À Base D'un Entrepôt de Données Actif.
94 pages
COURS ED - Chap1 - ADBD - 2022
Pas encore d'évaluation
COURS ED - Chap1 - ADBD - 2022
22 pages
Entrepôts de données pour décideurs
Pas encore d'évaluation
Entrepôts de données pour décideurs
41 pages
Cours3 DataWarehouse
Pas encore d'évaluation
Cours3 DataWarehouse
36 pages
CM3 - Conception D'un Entrepôt de Données (DataWarehouse)
Pas encore d'évaluation
CM3 - Conception D'un Entrepôt de Données (DataWarehouse)
32 pages
2 Intro Entrepots 4p
Pas encore d'évaluation
2 Intro Entrepots 4p
14 pages
Évolution des entrepôts de données
Pas encore d'évaluation
Évolution des entrepôts de données
37 pages
Introduction à l'OLAP en BI
Pas encore d'évaluation
Introduction à l'OLAP en BI
14 pages
Rapport Projet Talend ZO
100% (1)
Rapport Projet Talend ZO
11 pages
Cours 3 SID
Pas encore d'évaluation
Cours 3 SID
30 pages
Chapitre 2 Architecture Des Systèmes À Base D'entrepôt de Données
Pas encore d'évaluation
Chapitre 2 Architecture Des Systèmes À Base D'entrepôt de Données
12 pages
Automatisation de la gestion de stock
Pas encore d'évaluation
Automatisation de la gestion de stock
7 pages
Entrepôts de Données et ETL avec PyGramETL
Pas encore d'évaluation
Entrepôts de Données et ETL avec PyGramETL
51 pages
Entrepôts de Données par M. Mkaouar
Pas encore d'évaluation
Entrepôts de Données par M. Mkaouar
22 pages
Introduction aux entrepôts de données
Pas encore d'évaluation
Introduction aux entrepôts de données
155 pages
Comprendre les entrepôts de données
Pas encore d'évaluation
Comprendre les entrepôts de données
22 pages
Systèmes d'Information et Data Warehouse
Pas encore d'évaluation
Systèmes d'Information et Data Warehouse
18 pages
Entrepôts de Données : Concepts et Architecture
Pas encore d'évaluation
Entrepôts de Données : Concepts et Architecture
33 pages
Entrepôts de données et Big Data
Pas encore d'évaluation
Entrepôts de données et Big Data
43 pages
Les Entrepôts de Données
Pas encore d'évaluation
Les Entrepôts de Données
68 pages
Architecture et Intégration des Entrepôts de Données
Pas encore d'évaluation
Architecture et Intégration des Entrepôts de Données
93 pages
Cours - SID
0% (1)
Cours - SID
98 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
28 pages
Introduction aux entrepôts de données
Pas encore d'évaluation
Introduction aux entrepôts de données
54 pages
Système d'Information Décisionnel (SID)
Pas encore d'évaluation
Système d'Information Décisionnel (SID)
103 pages
Exemples de systèmes d'information décisionnels
100% (1)
Exemples de systèmes d'information décisionnels
90 pages
Digitalisation bancaire : Risques et enjeux
Pas encore d'évaluation
Digitalisation bancaire : Risques et enjeux
17 pages
Sécurité et Installation d'Aspiration Bois
Pas encore d'évaluation
Sécurité et Installation d'Aspiration Bois
11 pages
Première C
Pas encore d'évaluation
Première C
2 pages
TICE et enseignement du français au Maroc
Pas encore d'évaluation
TICE et enseignement du français au Maroc
10 pages
Les Bascules
Pas encore d'évaluation
Les Bascules
10 pages
Texte 2
Pas encore d'évaluation
Texte 2
2 pages
Étude expérimentale du tube Venturi
Pas encore d'évaluation
Étude expérimentale du tube Venturi
6 pages
Polynômes de Tchebychev et Fractions Rationnelles
Pas encore d'évaluation
Polynômes de Tchebychev et Fractions Rationnelles
7 pages
Échangeurs à Plaques ECS Ygnis 30-1044 kW
Pas encore d'évaluation
Échangeurs à Plaques ECS Ygnis 30-1044 kW
20 pages
Simulation PHAST des explosions à Tiaret
Pas encore d'évaluation
Simulation PHAST des explosions à Tiaret
69 pages
Soft Skills pour Étudiants Universitaires
Pas encore d'évaluation
Soft Skills pour Étudiants Universitaires
383 pages
Compresseurs Axiaux et Centrifuges
Pas encore d'évaluation
Compresseurs Axiaux et Centrifuges
20 pages
Codage et Transmission en Bande de Base
Pas encore d'évaluation
Codage et Transmission en Bande de Base
45 pages
Analyse des procédures de sécurité
Pas encore d'évaluation
Analyse des procédures de sécurité
21 pages
Détection Des Défauts de Roulements Dans Une Machine
Pas encore d'évaluation
Détection Des Défauts de Roulements Dans Une Machine
5 pages
Surveillance Vidéo CCTV Sur Fibre Optique
Pas encore d'évaluation
Surveillance Vidéo CCTV Sur Fibre Optique
5 pages
Data Engineer - DataScientest
Pas encore d'évaluation
Data Engineer - DataScientest
33 pages
Pfe ZR 12
Pas encore d'évaluation
Pfe ZR 12
81 pages
Programme Info Polytech Paris-Saclay Fise 0
Pas encore d'évaluation
Programme Info Polytech Paris-Saclay Fise 0
4 pages
Guide du Prompt Engineering en IA
80% (5)
Guide du Prompt Engineering en IA
36 pages
OKM Exp 5500 Final
Pas encore d'évaluation
OKM Exp 5500 Final
6 pages
Concepts clés de gestion et NTIC
Pas encore d'évaluation
Concepts clés de gestion et NTIC
26 pages
Guide VisualMenus pour Daz Studio
Pas encore d'évaluation
Guide VisualMenus pour Daz Studio
20 pages
Techniques de Multiplexage en Transmission
Pas encore d'évaluation
Techniques de Multiplexage en Transmission
23 pages
Le Rapport BE
Pas encore d'évaluation
Le Rapport BE
15 pages
Écran interactif Silk-In 4K UHD
Pas encore d'évaluation
Écran interactif Silk-In 4K UHD
6 pages
Brahim Delhi
Pas encore d'évaluation
Brahim Delhi
2 pages
Concepts clés des réseaux informatiques
Pas encore d'évaluation
Concepts clés des réseaux informatiques
3 pages
Air Mondeo
Pas encore d'évaluation
Air Mondeo
6 pages
Guide D'utilisation Britax Römer DUALFIX PRO Web FR
Pas encore d'évaluation
Guide D'utilisation Britax Römer DUALFIX PRO Web FR
20 pages