Introduction à l'informatique décisionnelle
Introduction à l'informatique décisionnelle
Département Licence
INFORMATIQUE DÉCISIONNELLE
Parcours
Licence 3 – Administration Bases de Données
Enseignants
Equipe pédagogique
INFORMATIQUE
DECISIONNELLE
INFORMATIQUE DECISIONNELLE
Le nombre de données brutes que regroupe la BI peut parfois paraître écrasant. Surtout, si elles ne
sont pas représentées dans un contexte qui justifie leur utilisation. Elles ne valent alors plus rien et
peuvent même conduire à faire des erreurs. Afin d’avoir un aperçu clair et ordonné de ces
informations, il est nécessaire de les ranger dans un tableau de bord. Celui-ci a pour but de rendre
accessibles et compréhensibles toutes ces données brutes.
Elles sont affichées sous des formes de tableaux ou de graphiques qui apportent une hiérarchisation.
Ainsi, la prise de décision gagne en rapidité et en efficacité. Heureusement, il existe des tutoriels qui
expliquent en détail comment faire un tableau de bord. Ils vous guident pas à pas dans la mise en place
de ce précieux outil et vous permettent de répondre aux besoins que vous avez établis. Le tableau de
bord s’avère donc essentiel en accompagnement de la BI.
L’utilisation sporadique du terme Business Intelligence remonte aux années 1860. Toutefois, le
consultant Howard Dresner est considéré comme le premier à avoir utilisé ce terme pour désigner
l’utilisation des techniques d’analyse de données au profit de la prise de décision en entreprise, en
1989. Les technologies BI sont toutefois plus anciennes. De temps à autre, le terme de business
intelligence est remplacé par celui de business analytics, qui désigne plus généralement les
technologies analytiques avancées mais peut aussi inclure la business intelligence.
1|P a ge
INFORMATIQUE DECISIONNELLE
Les programmes de business intelligence peuvent avoir de nombreux bénéfices pour l’entreprise.
Ils permettent d’accélérer et d’améliorer la prise de décision, d’optimiser les processus internes,
d’augmenter l’efficience d’exploitation, de générer de nouveaux revenus, et de prendre l’avantage
sur la concurrence. Les systèmes BI aident également les entreprises à identifier les tendances du
marché et à repérer les problèmes qui doivent être résolus.
Les systèmes « décisionnels », également appelés OLAP (on-line analytical processing), sont dédiés au
management de l'entreprise pour l'aider au pilotage de l'activité, et donc indirectement opérationnels.
Ils offrent au décideur une vision transversale de l'entreprise. La tendance pour réaliser un système
décisionnel est à la mise en place d'un entrepôt de données.
Bien que les systèmes d'informations OLTP et OLAP aient le point commun de regrouper les données
de l'entreprise dans un S.G.B.D. (système de gestion de bases de données) et d'en fournir l'accès aux
utilisateurs, ils présentent de profondes différences, présentées ci-dessous :
Dans un système OLTP, les données ne sont conservées que sur une courte période ; elles sont
détaillées, personnelles, identifiées (une facture appartient à une personne précise) et
représentent généralement en volume quelques centaines de mégaoctets, voir quelques
gigaoctets.
Dans un système OLAP, les données sont historisées et peuvent être agrégées. Elles peuvent
aussi être anonymes ; il suffit de savoir qu'un client de tel type a effectué tel achat,
l'identification n'est pas obligatoire pour en tirer des renseignements. Mais l'anonymisation
des données dans l'entrepôt peut gêner la recherche d'un lien entre les différents événements
concernant un même individu.
2|P a ge
INFORMATIQUE DECISIONNELLE
La collecte des données est une fonction remplie par une famille d'outils dénommée ETL pour Extract
Transform load. Le système d'information de l'entreprise ne s'est pas bâti en un temps unique. La
majorité des systèmes d'information d'entreprise sont de nature hétérogène pour la plupart. Bien que
la standardisation des échanges entre les divers outils informatiques avance à grands pas, la disparité
des formats des données en circulation est toujours une réalité. C'est le principal obstacle
technologique aux échanges étendus d'informations.
Avant d'être utilisables, les données seront formatées, nettoyées et consolidées. Les outils d'ETL
(Extract Transform load) permettent d'automatiser ces traitements et de gérer les flux de données
alimentant les bases de stockage : Data warehouse ou Datamart.
Les bases de données de production ne sont pas utilisables pour une exploitation décisionnelle. Les
données brutes ne sont pas prêtes à cet usage et par ailleurs les requêtes décisionnelles sont
particulièrement gourmandes en ressources machines.
Les données, au préalable nettoyées et consolidées, seront stockées dans une base spécialisée: le data
warehouse ou le datamart.
Le datamart est une version plus réduite du data warehouse. Le data mart est orienté sujet ou thème
et peut être par exemple utilisé pour des applications de CRM (Custom Relationship Management) ou
3|P a ge
INFORMATIQUE DECISIONNELLE
de Data Mining . Le data warehouse ou le datamart sont alimentés par l'outil d'ETL (Extract Transform
load). À noter que le projet Data Warehouse est assez particulier. Il est préférable de le considérer
comme un processus. Le Data Warehouse est en effet en perpétuelle évolution.
Une fois les données stockées, nettoyées, consolidées et accessibles, elles sont utilisables. Selon les
besoins, différents types d'outils d'extraction et d'exploitation seront envisagés.
Analyser les données, notamment avec les outils de type OLAP pour les analyses multidimensionnelles.
Piloter la performance, aide à la décision des décideurs en situation avec les tableaux de
bord présentant les indicateurs clés de l'activité.
Accéder à la connaissance, échanger avec ses pairs en exploitant pleinement les ressources
coopératives du web social tel que le propose la Business Intelligence de deuxième génération.
Ensemble des solutions informatiques mettant à disposition des utilisateurs les données et les
logiciels permettant d'analyser l'activité de l'entreprise. Les anglo-saxons utilisent
l'expression Business Intelligence, devenue BI pour les initiés.
2. Infocentre
Ancêtre des bases décisionnelles. Il s'agit d'une copie de la base de données de l'application
opérationnelle. Ainsi, les analystes disposent d'une base dédiée et ne ralentissent pas l'application
opérationnelle en raison d'accès simultanés trop nombreux sur la même base de données.
3. Datawarehouse
Base de données qui stocke toutes les données de l'entreprise, quelles que soient leur origine et leur
usage. Il s'agit donc d'une base intermédiaire, qui n'est pas interrogée par les utilisateurs.
4. Datamart
Base de données qui stocke des données à usage décisionnel pour les utilisateurs d'un domaine
fonctionnel (ex : datamart RH, datamart Achats, ...).
4|P a ge
INFORMATIQUE DECISIONNELLE
Elle a pour source principale les données provenant des systèmes opérationnels, enrichit de données
telles que l’année, le trimestre, le mois correspondant aux dates des opérations, telles que les mesures
calculées avec ces données (Chiffre d’affaires, marge, masse salariale, …), mais également de données
externes à l’entreprise (études de marché, …).
5. ETL
Logiciel qui permet de récupérer les données quelles que soient leur origine (applications
opérationnelles, études de marché achetées à l'extérieur, Open Data, ...) et quelles que soient leur
structure (base de données, fichiers TXT, fichiers Excel, données issues de Web Services, ...).
Après traitement de ces données, tels que vérification (cohérence fonctionnel, gestion des rejets pour
les données fausses ou incohérentes), création de données (découpage des dates pour calculer
l'année, le trimestre, le mois, ...) et calcul des mesures, celles-ci sont déposées dans la ou les bases
décisionnelles que sont les datamarts.
6. Tableau de bord
Type de représentation des données (tableau, tableau croisé, graphique) contenant différentes
fonctionnalités d'analyse (formules de calculs, formatage conditionnel, ...).
7. Rapport
8. Rapport ad-hoc
9. Outil de restitution
Terme apparu récemment, associé à la mise à disposition de nouvelles représentations des données,
telles que les cartes de chaleur, les graphes Mekko, ...
Racontez une histoire avec les données. L'auditoire se souviendra bien mieux de celle-ci que de
tableaux de chiffres.
Proposer aux utilisateurs des logiciels qui leur permettent de réaliser les rapports eux-mêmes, en
naviguant dans les données pour récupérer celles dont ils ont besoin. Il est alors indispensable de leur
mettre à disposition des données qui ont été au préalable validées.
13. Mesure
Donnée calculée permettant de mesure l'activité (chiffre d'affaires, masse salariale, montant des en-
cours, ...).
14. Indicateur
5|P a ge
INFORMATIQUE DECISIONNELLE
Association de plusieurs mesures afin de décrire la situation (nous constatons que sur 75% des clients
français dont l'âge moyen dépasse 40 ans, nous réalisons un chiffre d'affaires supérieur à 200€).
15. Dimension
Il s'agit d'une base de données qui permet de gérer le stockage de données organisées de manière
hiérarchique et de stocker les valeurs des mesures aux différentes intersections (par exemple, CA en
France en 2016, CA en France au 1er semestre 2016, marge en Italie en janvier 2016, ...).
Navigation dans les différentes dimensions de données, en passant d'un étage à l'autre de la
hiérarchie, soit de manière visuelle (Drill Down en descendant vers le détail, Drill Up en remontant vers
le global), soit au travers de formules de calcul.
Fonctions permettant de réaliser des calculs sur des données organisées de manière hiérarchique. Elles
permettent par exemple de connaître le chiffre d'affaires total des petits enfants de l'année 2018,
c'est-à-dire de cumuler les chiffres d'affaires des trimestres de 2018, dans une hiérarchie Année.
Cette liste de définitions n'est pas exhaustive, mais elle contient les termes les plus couramment
utilisés dans le domaine du décisionnel, en particulier lors des échanges avec les utilisateurs finaux.
6|P a ge
INFORMATIQUE DECISIONNELLE
CHAPITRE 2 : DATAWAREHOUSE
Section 1 : Introduction au Datawarehouse
Un entrepôt de données ou Datawarehouse est construit en combinant des données provenant de
plusieurs sources diverses qui prennent en charge les rapports analytiques, les requêtes structurées et
non structurées et la prise de décision pour l'organisation, et l'entreposage de données est une
approche étape par étape pour la construction et l'utilisation d'un entrepôt de données. De nombreux
scientifiques des données obtiennent leurs données dans des formats bruts à partir de diverses
sources de données et d'informations. Mais, pour de nombreux scientifiques des données également
en tant que décideurs commerciaux, en particulier dans les grandes entreprises, les principales sources
de données et d'informations sont les entrepôts de données d'entreprise. Un entrepôt de données
contient des données provenant de plusieurs sources, y compris des bases de données internes et des
plates-formes logicielles (SaaS). Une fois les données chargées, elles sont souvent nettoyées,
transformées et vérifiées pour la qualité avant d'être utilisées pour les rapports d'analyse, la science
des données, l'apprentissage automatique ou quoi que ce soit.
Un entrepôt de données est un ensemble d'outils logiciels qui facilite l'analyse d' un grand nombre de
données commerciales utilisées pour aider une organisation à prendre des décisions. Une grande
quantité de données dans les entrepôts de données provient de nombreuses sources telles que les
applications internes telles que le marketing, les ventes et la finance ; applications destinées aux
clients ; et les systèmes de partenaires externes, entre autres. Il s'agit d'un référentiel de données
centralisé pour les analystes qui peut être interrogé chaque fois que nécessaire pour des avantages
commerciaux. Un entrepôt de données est principalement un système de gestion de données conçu
pour activer et prendre en charge les activités de business intelligence (BI), en particulier l'analyse. Les
entrepôts de données sont censés effectuer des requêtes, nettoyer, manipuler, transformer et
analyser les données et ils contiennent également de grandes quantités de données historiques.
Les entreprises utilisent aussi les Data Warehouses pour lier et accéder aux informations en
provenance de sources multiples. Ces solutions permettent aussi de gérer et d’améliorer les relations
clients. Les Data Warehouses peuvent permettre de prédire les futures tendances et besoins, et enfin
d’améliorer la qualité des données.
Les Data Warehouses présentent de nombreux avantages. Pour les responsables informatiques, elles
permettent notamment de séparer les processus analytiques des processus d’exploitation pour
améliorer les performances dans ces deux domaines.
7|P a ge
INFORMATIQUE DECISIONNELLE
Pour les entreprises, une plateforme Data Warehouse est une façon pratique de visualiser le passé
sans affecter les opérations quotidiennes. En effectuant des requêtes et des analyses de données au
sein de la Data Warehouse, les entreprises peuvent améliorer leurs opérations et leur efficience, et
ainsi augmenter leurs revenus et leurs bénéfices.
Les phases du data warehousing se reflètent dans la structure type, l’architecture dite de référence
des systèmes d’entreposage des données. Bien que l’architecture du système varie selon le produit et
l’éditeur, sa structure technique repose sur un schéma modulaire qui peut être divisée en trois
niveaux :
Il existe en outre une composante de contrôle centralisée : c’est le data warehouse manager. Ce
dernier affecte des fonctions spéciales d’administration à chaque niveau du DWH. Les composants
individuels d’un data warehouse ne doivent pas nécessairement provenir d’un seul fournisseur ; en
effet, les services respectifs peuvent également provenir de différents logiciels ou solutions
individuelles.
Les trois niveaux de l’architecture de référence du data warehouse : data provision, data repository et
data collection
8|P a ge
INFORMATIQUE DECISIONNELLE
1. Top-Down : c'est la méthode la plus lourde, la plus contraignante et la plus complète en même
temps. Elle consiste en la conception de tout l'entrepôt (i.e. : toutes les étoiles), puis en la
réalisation de ce dernier. Imaginez le travail qu'une telle méthode implique : savoir à l'avance
toutes les dimensions et tous les faits de l'entreprise, puis réaliser tout ça… Le seul avantage
que cette méthode comporte est qu'elle offre une vision très claire et très conceptuelle des
données de l'entreprise ainsi que du travail à faire ;
2. Bottom-Up : c'est l'approche inverse, elle consiste à créer les étoiles une par une, puis les
regrouper par des niveaux intermédiaires jusqu'à obtention d'un véritable entrepôt pyramidal
avec une vision d'entreprise. L'avantage de cette méthode est qu'elle est simple à réaliser (une
étoile à la fois), l'inconvénient est le volume de travail d'intégration pour obtenir un entrepôt
de données ainsi que la possibilité de redondances entre les étoiles (car elles sont faites
indépendamment les unes des autres) ;
3. Middle-Out : c'est l'approche hybride, et conseillée par les professionnels du BI. Elle consiste
en la conception totale de l'entrepôt de données (i.e. : concevoir toutes dimensions, tous les
faits, toutes les relations), puis créer des divisions plus petites et plus gérables et les mettre en
œuvre. Cela équivaut à découper notre conception par éléments en commun et réaliser les
découpages un par un. Cette méthode tire le meilleur des deux précédentes sans avoir les
contraintes. Il faut juste noter que cette méthode implique, parfois, des compromis de
découpage (dupliquer des dimensions identiques pour des besoins pratiques).
Section 2 : ROLAP
OLAP se compose de trois modèles de données : MOLAP, ROLAP et HOLAP. Ces modèles de données
diffèrent principalement en termes de stockage de données et de technique.
ROLAP est l'abréviation de Relational Online Analytical Processing. Dans ce type de traitement
analytique, le stockage des données se fait dans une base de données relationnelle. Dans cette base
de données, la disposition des données est faite en lignes et en colonnes. Les données sont présentées
aux utilisateurs finaux sous une forme multidimensionnelle.
1. Serveur de base de données : il existe dans la couche de données. Il s'agit de données chargées
dans le serveur ROLAP.
2. Serveur ROLAP : Il s'agit du moteur ROLAP qui existe dans la couche application.
3. Outil frontal : il s'agit du bureau client qui existe dans la couche de présentation.
9|P a ge
INFORMATIQUE DECISIONNELLE
Voyons brièvement comment fonctionne ROLAP. Lorsqu'un utilisateur effectue une requête
(complexe), le serveur ROLAP récupère les données du serveur SGBDR. Le moteur ROLAP créera alors
des cubes de données dynamiquement. L'utilisateur visualisera les données à partir d'un point
multidimensionnel.
Avantages
Désavantages
Les performances sont lentes, en particulier lorsque le volume de données est énorme.
ROLAP a certaines limitations relatives à SQL. Par exemple, la fonctionnalité SQL a des
difficultés à gérer des calculs complexes.
Section 2 : MOLAP
MOLAP est l'abréviation de Multi-dimensional Online Analytical Processing. Dans ce type de
traitement analytique, des bases de données multidimensionnelles (MDDB) sont utilisées pour stocker
les données. Ces données sont ensuite utilisées pour l'analyse. MOLAP se compose de données pré-
calculées et fabriquées. Les cubes de données des MDDB contiennent des données déjà calculées. Cela
augmente la vitesse d'interrogation des données.
10 | P a g e
INFORMATIQUE DECISIONNELLE
Le moteur MOLAP de la couche d'application collecte des données à partir des bases de données de la
couche de données. Il charge ensuite des cubes de données dans les bases de données
multidimensionnelles. Lorsque l'utilisateur effectue une requête, les données se déplacent dans un
format propriétaire des MDDB vers le bureau client dans la couche de présentation. Cela permet aux
utilisateurs de visualiser les données dans plusieurs dimensions.
Avantages
Il fonctionne bien avec des opérations telles que les tranches et les dés.
Les utilisateurs peuvent l'utiliser pour effectuer des calculs complexes.
Il se compose de données pré-calculées qui peuvent être indexées rapidement.
Désavantages
Section 3 : HOLAP
Il s'agit de l'abréviation de Hybrid Online Analytical Processing. Ce type de traitement analytique résout
les limitations de MOLAP et ROLAP et combine leurs attributs. Les données de la base de données sont
divisées en deux parties : le stockage spécialisé et le stockage relationnel. L'intégration de ces deux
aspects résout les problèmes liés aux performances et à l'évolutivité. HOLAP stocke d'énormes
volumes de données dans une base de données relationnelle et conserve les agrégations dans un
serveur MOLAP.
11 | P a g e
INFORMATIQUE DECISIONNELLE
Le modèle HOLAP se compose d'un serveur pouvant prendre en charge ROLAP et MOLAP. Il se
compose d'une architecture complexe qui nécessite une maintenance fréquente. Les requêtes faites
dans le modèle HOLAP impliquent la base de données multidimensionnelle et la base de données
relationnelle. L'outil front-user présente les données du système de gestion de base de données
(directement) ou via le MOLAP intermédiaire.
Avantages
Désavantages
12 | P a g e
INFORMATIQUE DECISIONNELLE
CHAPITRE 4 : CUBES
Section 1 : Hyper cube : mesure et dimension
Pour comprendre le fonctionnement d’un cube OLAP, considérons le tableau suivant :
Supposons que nous souhaitons calculer la somme des ventes par produit et par année. La
représentation de ce tableau sous forme d’une structure multidimensionnelle fournit le cube OLAP
suivant.
Les 3 colonnes de catégories deviennent des dimensions dans le cube, tandis que le prix devient la
mesure, la valeur correspondant au croisement des 3 dimensions simultanément.
Dans le cube, nous avons trois dimensions : Année, Vendeur et Produit ; la mesure c’est le prix de
vente. Pour rendre le cube fonctionnel, on applique à ses cellules (donc à la mesure) une fonction
d’agrégation, cette fonction peut être soit une somme, une moyenne, un maximum ou un minimum.
Pour faciliter la représentation graphique du cube, nous avons présenté la somme des mesures
uniquement sur la première face, mais en réalité, toutes les cellules comportent des valeurs pour
13 | P a g e
INFORMATIQUE DECISIONNELLE
chaque recoupement de dimensions et répondent à une requête bien précise. Par exemple la cellule
qui est à l’intersection de l’attribut « Bikes » de la dimension Produit et de l’attribut « Juvénal » de la
dimension Vendeur a pour somme de ventes 3800; ceci correspond à la requête chiffre d’affaire réalisé
par le Vendeur Juvénal sur les Produits « Bikes » depuis 2001. Cependant, certains croisements de
dimensions peuvent ne pas avoir de valeur (agrégation nulle dans ce cas), c’est ce qui explique que
certaines cellules du cube soient vides.
14 | P a g e
INFORMATIQUE DECISIONNELLE
des critères d’attributs de dimensions. Dans la figure ci-après, nous avons effectué une
opération de DICING de notre cube précédent, le nouveau cube est formé de l’attribut 2002
de la dimension Année et de tous les attributs de la dimension Produit excepte l’attribut «
Accessories »; cela correspond à la zone grisée de par et d’autre du cube.
Attention !!! Lorsqu’on fait une extraction de cube, on obtient une nouvelle partition, distincte
du cube mère.
15 | P a g e
INFORMATIQUE DECISIONNELLE
Dans ce modèle, la table des faits est au centre du schéma et est entourée par des tables de
dimensions. Cela ressemble visuellement à une étoile surtout lorsqu’il y a 5 branches ! Lorsque la table
des faits est entourée par un grand nombre de petites tables de dimensions, on parle de schéma
centipède. C’est une variante du modèle en étoile.
Tant que le volume de données reste limité, il est possible de générer ces rapports en temps réel
directement à partir des données extraites des systèmes transactionnels. Mais lorsque les données en
jeu deviennent trop volumineuses, il devient nécessaire de mettre en place un Data Warehouse pour
rationaliser le process.
16 | P a g e
INFORMATIQUE DECISIONNELLE
La mise en place de la tuyauterie, c’est-à-dire le paramétrage des process ETL pour importer
les données à partir des data sources et les transformer suivant les contours du schéma défini.
Le chargement des données transformées dans le Data Mart.
Le schéma des ventes contient une table des faits (en rouge) et 5 tables de dimensions (en
bleu) :
fact_sales : cette table contient les références des tables de dimensions ainsi que deux faits :
prix et quantité vendue. Les 5 clés étrangères qui composent cette table forment la clé
primaire de la table des faits.
dim_sales_type : cette table de dimensions ne contient qu’un seul attribut : type_name.
dim_employee : cette table stocke les attributs de base sur les employés : prénom, nom et
date de naissance.
dim_product : cette table de dimensions n’a que deux attributs (en dehors de la clé primaire) :
le nom du produit et la catégorie.
dim_time : cette table gère la dimension temporelle. Elle contient 5 attributs à côté de la clé
primaire. Cette table est intéressante pour illustrer ce que nous disions tout à l’heure
concernant les attributs qui sont extraits d’autres attributs. En l’occurrence, tous les attributs
de cette table découlent de l’attribut action_date. La date de la vente contient par elle-même :
la semaine, le mois, l’année et le nom du jour. Cela produit des redondances mais facilite les
analyses.
dim_store : cette table contient 5 attributs, les 4 derniers (ville, région, état et pays) découlant
du premier (adresse). Cette table et la précédente permettent de voir à quel point la
modélisation en étoile est essentiellement dénormalisée.
Il y a beaucoup de points communs entre ce schéma et celui des ventes. Il partage en effet trois tables
de dimension avec le précédent. Les deux tables nouvelles sont :
fact_supply-order : la table des faits, qui agrègent les données relatives aux achats et
provenant des 4 tables de dimensions associées.
17 | P a g e
INFORMATIQUE DECISIONNELLE
dim_supplier : cette table de dimensions stocke les données relatives aux fournisseurs et
utilise les mêmes attributs que la dim_store du schéma des ventes.
La modélisation en étoile comporte de nombreux avantages. Le premier d’entre eux, c’est que la table
des faits est reliée à chaque table de dimensions par une seule et unique relation, une seule et unique
jointure. Cela simplifie considérablement les requêtes et en améliore le temps d’exécution. Lorsque
l’on travaille sur de gros volumes de données, c’est un avantage important.
A cause de cette redondance, la modélisation en étoile utilise plus d’espace de stockage que les autres
modèles. Cela augmente également le risque d’atteinte à l’intégrité du système, les données
exprimant les mêmes informations pouvant provenir de data sources différents et engendrer des
conflits.
C’est pour cette raison que d’autres modélisations sont apparues et en particulier la modélisation en
constellation.
Un schéma en flocon a pour objectif de réduire la redondance en normalisant les données. Un modèle
en flocon est un modèle pour lequel chaque dimension est représentée avec plusieurs tables. Il est
donc plus normalisé (moins redondant) qu'un modèle en étoile.
Le schéma en flocon de neige est un type de schéma en étoile qui inclut la forme hiérarchique des
tables dimensionnelles. Dans ce schéma, il existe une table de faits composée de différentes tables de
dimension et de sous-dimension reliées par des clés primaires et étrangères à la table de faits. Il porte
le nom de flocon de neige car sa structure ressemble à un flocon de neige.
18 | P a g e
INFORMATIQUE DECISIONNELLE
Il utilise la normalisation qui divise les données en tables supplémentaires. Le fractionnement permet
de réduire la redondance et de prévenir les pertes de mémoire. Un schéma de flocon de neige est plus
facile à gérer mais complexe à concevoir et à comprendre. Cela peut également réduire l’efficacité de
la navigation car davantage de jointures seront nécessaires pour exécuter une requête.
19 | P a g e
INFORMATIQUE DECISIONNELLE
En conception d'entrepôt, il ne faut pas se casser la tête, dès qu'une dimension existante ne
correspond pas parfaitement aux besoins d'une nouvelle étoile, on en crée une autre, même si elle est
« presque » comme la dimension que nous allions utiliser. C'est pour cela qu'il faut créer, autant que
possible, des dimensions génériques et qui soient vraies tout le temps, pour toutes les fonctions de
l'entreprise. Ces dimensions pourront être réutilisées et assurer une pérennité des données. Et si de
telles dimensions ne peuvent pas être créées, il ne faut pas avoir de remords à créer des dimensions
similaires, mais adaptées aux besoins de la nouvelle étoile. Mais si vous voyez que dans chaque étoile
vous êtes obligés de créer une nouvelle dimension « client » par exemple, posez-vous des questions
sur votre conception.
Récapitulons, nous avons vu comment créer une étoile ou un flocon, nous avons vu que les data marts
sont des étoiles regroupées par fonction ou par utilité dans l'entreprise et nous savons qu'un entrepôt
est l'ensemble de tous les data marts de l'entreprise. Nous savons faire une étoile, mais comment les
regrouper pour mettre en œuvre un entrepôt de données ? Et bien trois méthodes s'offrent à nous :
1. Top-Down
2. Bottom-Up
3. Middle-Out
20 | P a g e