0% ont trouvé ce document utile (0 vote)
102 vues22 pages

Introduction à l'informatique décisionnelle

Ce document décrit les concepts clés de l'informatique décisionnelle, y compris la définition de la Business Intelligence, les différences entre les systèmes opérationnels et décisionnels, et l'architecture typique d'un système décisionnel.

Transféré par

Énomis Douyou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
102 vues22 pages

Introduction à l'informatique décisionnelle

Ce document décrit les concepts clés de l'informatique décisionnelle, y compris la définition de la Business Intelligence, les différences entre les systèmes opérationnels et décisionnels, et l'architecture typique d'un système décisionnel.

Transféré par

Énomis Douyou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ÉCOLE SUPÉRIEURE DE GESTION

ET D’ADMINISTRATION DES ENTREPRISES


Agrément définitif par Arrêté n°4677/MES/CAB du 05 Juillet 2017
Accréditée par le Conseil Africain et Malgache pour l’Enseignement Supérieur (CAMES)
BP : 2339 – Brazzaville – CONGO
E-mail : esgae@[Link] Site web : [Link]

Département Licence

INFORMATIQUE DÉCISIONNELLE

Parcours
Licence 3 – Administration Bases de Données

Enseignants
Equipe pédagogique
INFORMATIQUE
DECISIONNELLE
INFORMATIQUE DECISIONNELLE

CHAPITRE 1 : INTRODUCTION AU DECISIONNEL


Section 1 : Généralités
Le terme Business Intelligence (BI), ou informatique décisionnelle, désigne les applications, les
infrastructures, les outils et les pratiques offrant l’accès à l’information, et permettant d’analyser
l’information pour améliorer et optimiser les décisions et les performances d’une entreprise. En
d’autres termes, la Business Intelligence est le processus d’analyse de données dirigé par la technologie
dans le but de déceler des informations utilisables pour aider les dirigeants d’entreprises et autres
utilisateurs finaux à prendre des décisions plus informées.

Ainsi, la BI regroupe une large variété d’outils, d’applications et de méthodologies permettant de


collecter des données en provenance de systèmes internes et de sources externes, de les préparer
pour l’analyse, de les développer et de lancer des requêtes au sein de ces ensembles de données. Ces
outils permettent ensuite de créer des rapports, des tableaux de bord et des visualisations de données
pour rendre les résultats des analyses disponibles pour les preneurs de décisions.

Le nombre de données brutes que regroupe la BI peut parfois paraître écrasant. Surtout, si elles ne
sont pas représentées dans un contexte qui justifie leur utilisation. Elles ne valent alors plus rien et
peuvent même conduire à faire des erreurs. Afin d’avoir un aperçu clair et ordonné de ces
informations, il est nécessaire de les ranger dans un tableau de bord. Celui-ci a pour but de rendre
accessibles et compréhensibles toutes ces données brutes.

Elles sont affichées sous des formes de tableaux ou de graphiques qui apportent une hiérarchisation.
Ainsi, la prise de décision gagne en rapidité et en efficacité. Heureusement, il existe des tutoriels qui
expliquent en détail comment faire un tableau de bord. Ils vous guident pas à pas dans la mise en place
de ce précieux outil et vous permettent de répondre aux besoins que vous avez établis. Le tableau de
bord s’avère donc essentiel en accompagnement de la BI.

L’utilisation sporadique du terme Business Intelligence remonte aux années 1860. Toutefois, le
consultant Howard Dresner est considéré comme le premier à avoir utilisé ce terme pour désigner
l’utilisation des techniques d’analyse de données au profit de la prise de décision en entreprise, en
1989. Les technologies BI sont toutefois plus anciennes. De temps à autre, le terme de business
intelligence est remplacé par celui de business analytics, qui désigne plus généralement les
technologies analytiques avancées mais peut aussi inclure la business intelligence.

1|P a ge
INFORMATIQUE DECISIONNELLE

Les programmes de business intelligence peuvent avoir de nombreux bénéfices pour l’entreprise.
Ils permettent d’accélérer et d’améliorer la prise de décision, d’optimiser les processus internes,
d’augmenter l’efficience d’exploitation, de générer de nouveaux revenus, et de prendre l’avantage
sur la concurrence. Les systèmes BI aident également les entreprises à identifier les tendances du
marché et à repérer les problèmes qui doivent être résolus.

Section 2 : Différence entre l’opérationnel et le décisionnel


Les systèmes « opérationnels » ou « de gestion », également appelés systèmes OLTP (on-line
transaction processing), sont dédiés aux métiers de l'entreprise pour les assister dans leurs tâches de
gestion quotidiennes et donc directement opérationnels. La tendance est à l'utilisation de P.G.I.
(progiciels de gestion intégrée) qui regroupent tous les logiciels de gestion de l'entreprise – finances,
ressources humaines, logistique, ventes, etc. – en un unique progiciel paramétrable aux règles de
l'entreprise, organisé autour d'une base de données, réduisant ainsi les coûts de communications
entre applications.

Les systèmes « décisionnels », également appelés OLAP (on-line analytical processing), sont dédiés au
management de l'entreprise pour l'aider au pilotage de l'activité, et donc indirectement opérationnels.
Ils offrent au décideur une vision transversale de l'entreprise. La tendance pour réaliser un système
décisionnel est à la mise en place d'un entrepôt de données.

Bien que les systèmes d'informations OLTP et OLAP aient le point commun de regrouper les données
de l'entreprise dans un S.G.B.D. (système de gestion de bases de données) et d'en fournir l'accès aux
utilisateurs, ils présentent de profondes différences, présentées ci-dessous :

 Dans un système OLTP, les données ne sont conservées que sur une courte période ; elles sont
détaillées, personnelles, identifiées (une facture appartient à une personne précise) et
représentent généralement en volume quelques centaines de mégaoctets, voir quelques
gigaoctets.
 Dans un système OLAP, les données sont historisées et peuvent être agrégées. Elles peuvent
aussi être anonymes ; il suffit de savoir qu'un client de tel type a effectué tel achat,
l'identification n'est pas obligatoire pour en tirer des renseignements. Mais l'anonymisation
des données dans l'entrepôt peut gêner la recherche d'un lien entre les différents événements
concernant un même individu.

Section 3 : Architecture des systèmes décisionnels


Il est coutumier de présenter les éléments et outils composant la chaîne décisionnelle en quatre
catégories correspondant chacune à une fonction spécifique, à une phase du processus.

2|P a ge
INFORMATIQUE DECISIONNELLE

1. Collecter : Les outils d'ETL (Extract Transform and Load)

Collecter, Nettoyer et Consolider les données de l'entreprise étendue.

La collecte des données est une fonction remplie par une famille d'outils dénommée ETL pour Extract
Transform load. Le système d'information de l'entreprise ne s'est pas bâti en un temps unique. La
majorité des systèmes d'information d'entreprise sont de nature hétérogène pour la plupart. Bien que
la standardisation des échanges entre les divers outils informatiques avance à grands pas, la disparité
des formats des données en circulation est toujours une réalité. C'est le principal obstacle
technologique aux échanges étendus d'informations.

Avant d'être utilisables, les données seront formatées, nettoyées et consolidées. Les outils d'ETL
(Extract Transform load) permettent d'automatiser ces traitements et de gérer les flux de données
alimentant les bases de stockage : Data warehouse ou Datamart.

Le Master Data Management, la gestion des données de référence, assure la standardisation et la


traçabilité des données de référence de l'entreprise. C'est un projet en soi dont la finalité dépasse la
constitution de la base décisionnelle. La meilleure solution restant de mettre en œuvre
une gouvernance des données digne de ce nom. Ce sera le moyen de mieux garantir la qualité et la
pertinence des données en fonction de l'usage que l'on en attend. Autrement, dit-on ne peut décider
qu'à la condition que les données utilisées soient toutes de confiance.

2. Stocker : Le Data warehouse et le datamart

Les bases de données de production ne sont pas utilisables pour une exploitation décisionnelle. Les
données brutes ne sont pas prêtes à cet usage et par ailleurs les requêtes décisionnelles sont
particulièrement gourmandes en ressources machines.

Les données, au préalable nettoyées et consolidées, seront stockées dans une base spécialisée: le data
warehouse ou le datamart.

Le datamart est une version plus réduite du data warehouse. Le data mart est orienté sujet ou thème
et peut être par exemple utilisé pour des applications de CRM (Custom Relationship Management) ou

3|P a ge
INFORMATIQUE DECISIONNELLE

de Data Mining . Le data warehouse ou le datamart sont alimentés par l'outil d'ETL (Extract Transform
load). À noter que le projet Data Warehouse est assez particulier. Il est préférable de le considérer
comme un processus. Le Data Warehouse est en effet en perpétuelle évolution.

3. Distribuer les informations

L'écrasement de la pyramide et la multiplication des points de prise de décision modifient


fondamentalement la gestion de l'information. L'information sera perçue en terme de flux et non
d'unité de stockage. Afin de dynamiser la réactivité globale, l'information sera largement distribuée
auprès de l'ensemble des partenaires. Aux premiers temps du web on attendait beaucoup du portail
décisionnel, EIP Enterprise Information Portal, pour remplir cette fonction essentielle. Désormais, le
développement du web a un peu modifier la donne avec une Business Intelligence de 2nde
génération, exploitant pleinement les capacités du web social pour l'entreprise, démocratise très
largement l'accès à l'information décisionnelle.

4. Exploiter : Tableau de bord, analyse OLAP , datamining,...

Une fois les données stockées, nettoyées, consolidées et accessibles, elles sont utilisables. Selon les
besoins, différents types d'outils d'extraction et d'exploitation seront envisagés.

Analyser les données, notamment avec les outils de type OLAP pour les analyses multidimensionnelles.

Rechercher des corrélations peu visibles avec le Data mining .

Piloter la performance, aide à la décision des décideurs en situation avec les tableaux de
bord présentant les indicateurs clés de l'activité.

Communiquer la performance avec le Reporting.

Accéder à la connaissance, échanger avec ses pairs en exploitant pleinement les ressources
coopératives du web social tel que le propose la Business Intelligence de deuxième génération.

Section 4 : Quelques termes usuels du décisionnel


1. Le décisionnel

Ensemble des solutions informatiques mettant à disposition des utilisateurs les données et les
logiciels permettant d'analyser l'activité de l'entreprise. Les anglo-saxons utilisent
l'expression Business Intelligence, devenue BI pour les initiés.

2. Infocentre

Ancêtre des bases décisionnelles. Il s'agit d'une copie de la base de données de l'application
opérationnelle. Ainsi, les analystes disposent d'une base dédiée et ne ralentissent pas l'application
opérationnelle en raison d'accès simultanés trop nombreux sur la même base de données.

3. Datawarehouse

Base de données qui stocke toutes les données de l'entreprise, quelles que soient leur origine et leur
usage. Il s'agit donc d'une base intermédiaire, qui n'est pas interrogée par les utilisateurs.

4. Datamart

Base de données qui stocke des données à usage décisionnel pour les utilisateurs d'un domaine
fonctionnel (ex : datamart RH, datamart Achats, ...).

4|P a ge
INFORMATIQUE DECISIONNELLE

Elle a pour source principale les données provenant des systèmes opérationnels, enrichit de données
telles que l’année, le trimestre, le mois correspondant aux dates des opérations, telles que les mesures
calculées avec ces données (Chiffre d’affaires, marge, masse salariale, …), mais également de données
externes à l’entreprise (études de marché, …).

5. ETL

Logiciel qui permet de récupérer les données quelles que soient leur origine (applications
opérationnelles, études de marché achetées à l'extérieur, Open Data, ...) et quelles que soient leur
structure (base de données, fichiers TXT, fichiers Excel, données issues de Web Services, ...).

Après traitement de ces données, tels que vérification (cohérence fonctionnel, gestion des rejets pour
les données fausses ou incohérentes), création de données (découpage des dates pour calculer
l'année, le trimestre, le mois, ...) et calcul des mesures, celles-ci sont déposées dans la ou les bases
décisionnelles que sont les datamarts.

6. Tableau de bord

Type de représentation des données (tableau, tableau croisé, graphique) contenant différentes
fonctionnalités d'analyse (formules de calculs, formatage conditionnel, ...).

7. Rapport

Document regroupant différents tableaux de bord.

8. Rapport ad-hoc

Rapport simple réalisé en quelques clics par l'utilisateur final.

9. Outil de restitution

Famille de logiciels proposés aux utilisateurs pour réaliser leurs rapports.

10. Data Visualization (DataViz)

Terme apparu récemment, associé à la mise à disposition de nouvelles représentations des données,
telles que les cartes de chaleur, les graphes Mekko, ...

11. Data Storytelling

Racontez une histoire avec les données. L'auditoire se souviendra bien mieux de celle-ci que de
tableaux de chiffres.

12. BI en libre service

Proposer aux utilisateurs des logiciels qui leur permettent de réaliser les rapports eux-mêmes, en
naviguant dans les données pour récupérer celles dont ils ont besoin. Il est alors indispensable de leur
mettre à disposition des données qui ont été au préalable validées.

13. Mesure

Donnée calculée permettant de mesure l'activité (chiffre d'affaires, masse salariale, montant des en-
cours, ...).

14. Indicateur

5|P a ge
INFORMATIQUE DECISIONNELLE

Association de plusieurs mesures afin de décrire la situation (nous constatons que sur 75% des clients
français dont l'âge moyen dépasse 40 ans, nous réalisons un chiffre d'affaires supérieur à 200€).

15. Dimension

Ensemble de critères d'analyse organisés de manière hiérarchique, communément appelé axe


d'analyse. L'exemple le plus courant est la dimension Temps, découpée en Année, Semestre,
Trimestre, Mois, Jour.

16. Cube de données ou Base OLAP (On Line Analytical Processing)

Il s'agit d'une base de données qui permet de gérer le stockage de données organisées de manière
hiérarchique et de stocker les valeurs des mesures aux différentes intersections (par exemple, CA en
France en 2016, CA en France au 1er semestre 2016, marge en Italie en janvier 2016, ...).

17. Analyse multidimensionnelle

Navigation dans les différentes dimensions de données, en passant d'un étage à l'autre de la
hiérarchie, soit de manière visuelle (Drill Down en descendant vers le détail, Drill Up en remontant vers
le global), soit au travers de formules de calcul.

18. Fonctions MDX (Multi Dimensional eXpression)

Fonctions permettant de réaliser des calculs sur des données organisées de manière hiérarchique. Elles
permettent par exemple de connaître le chiffre d'affaires total des petits enfants de l'année 2018,
c'est-à-dire de cumuler les chiffres d'affaires des trimestres de 2018, dans une hiérarchie Année.

Cette liste de définitions n'est pas exhaustive, mais elle contient les termes les plus couramment
utilisés dans le domaine du décisionnel, en particulier lors des échanges avec les utilisateurs finaux.

6|P a ge
INFORMATIQUE DECISIONNELLE

CHAPITRE 2 : DATAWAREHOUSE
Section 1 : Introduction au Datawarehouse
Un entrepôt de données ou Datawarehouse est construit en combinant des données provenant de
plusieurs sources diverses qui prennent en charge les rapports analytiques, les requêtes structurées et
non structurées et la prise de décision pour l'organisation, et l'entreposage de données est une
approche étape par étape pour la construction et l'utilisation d'un entrepôt de données. De nombreux
scientifiques des données obtiennent leurs données dans des formats bruts à partir de diverses
sources de données et d'informations. Mais, pour de nombreux scientifiques des données également
en tant que décideurs commerciaux, en particulier dans les grandes entreprises, les principales sources
de données et d'informations sont les entrepôts de données d'entreprise. Un entrepôt de données
contient des données provenant de plusieurs sources, y compris des bases de données internes et des
plates-formes logicielles (SaaS). Une fois les données chargées, elles sont souvent nettoyées,
transformées et vérifiées pour la qualité avant d'être utilisées pour les rapports d'analyse, la science
des données, l'apprentissage automatique ou quoi que ce soit.

Un entrepôt de données est un ensemble d'outils logiciels qui facilite l'analyse d' un grand nombre de
données commerciales utilisées pour aider une organisation à prendre des décisions. Une grande
quantité de données dans les entrepôts de données provient de nombreuses sources telles que les
applications internes telles que le marketing, les ventes et la finance ; applications destinées aux
clients ; et les systèmes de partenaires externes, entre autres. Il s'agit d'un référentiel de données
centralisé pour les analystes qui peut être interrogé chaque fois que nécessaire pour des avantages
commerciaux. Un entrepôt de données est principalement un système de gestion de données conçu
pour activer et prendre en charge les activités de business intelligence (BI), en particulier l'analyse. Les
entrepôts de données sont censés effectuer des requêtes, nettoyer, manipuler, transformer et
analyser les données et ils contiennent également de grandes quantités de données historiques.

Section 2 : Fonction d’un Datawarehouse


Un Data Warehouse peut être utilisée pour suivre, gérer et améliorer les performances d’une
entreprise. Elle peut être utilisée pour suivre et modifier une campagne marketing. On peut s’en servir
pour passer en revue et optimiser la logistique et les opérations, ou pour améliorer l’efficacité du
développement de produit.

Les entreprises utilisent aussi les Data Warehouses pour lier et accéder aux informations en
provenance de sources multiples. Ces solutions permettent aussi de gérer et d’améliorer les relations
clients. Les Data Warehouses peuvent permettre de prédire les futures tendances et besoins, et enfin
d’améliorer la qualité des données.

Les Data Warehouses présentent de nombreux avantages. Pour les responsables informatiques, elles
permettent notamment de séparer les processus analytiques des processus d’exploitation pour
améliorer les performances dans ces deux domaines.

7|P a ge
INFORMATIQUE DECISIONNELLE

Pour les entreprises, une plateforme Data Warehouse est une façon pratique de visualiser le passé
sans affecter les opérations quotidiennes. En effectuant des requêtes et des analyses de données au
sein de la Data Warehouse, les entreprises peuvent améliorer leurs opérations et leur efficience, et
ainsi augmenter leurs revenus et leurs bénéfices.

Section 3 : Architecture d’un Datawarehouse


Le processus de gestion et d’analyse d’un DWH est appelé data warehousing(ou entreposage de
données) et comporte les phases suivantes :

1. Acquisition et intégration des données


2. Stockage des données
3. Evaluation et analyse des données

Les phases du data warehousing se reflètent dans la structure type, l’architecture dite de référence
des systèmes d’entreposage des données. Bien que l’architecture du système varie selon le produit et
l’éditeur, sa structure technique repose sur un schéma modulaire qui peut être divisée en trois
niveaux :

 Collecte des données (data collection)


 Dépôt et archivage des données (data repository)
 Fourniture et transmission des données (data provision)

Il existe en outre une composante de contrôle centralisée : c’est le data warehouse manager. Ce
dernier affecte des fonctions spéciales d’administration à chaque niveau du DWH. Les composants
individuels d’un data warehouse ne doivent pas nécessairement provenir d’un seul fournisseur ; en
effet, les services respectifs peuvent également provenir de différents logiciels ou solutions
individuelles.

L’illustration suivante représente schématiquement l’architecture de référence d’un DWH.

Les trois niveaux de l’architecture de référence du data warehouse : data provision, data repository et
data collection

8|P a ge
INFORMATIQUE DECISIONNELLE

CHAPITRE 3 : IMPLEMENTATION D’UN DATAWAREHOUSE


Section 1 : Approches pour créer un DW
Trois méthodes s'offrent à nous :

1. Top-Down : c'est la méthode la plus lourde, la plus contraignante et la plus complète en même
temps. Elle consiste en la conception de tout l'entrepôt (i.e. : toutes les étoiles), puis en la
réalisation de ce dernier. Imaginez le travail qu'une telle méthode implique : savoir à l'avance
toutes les dimensions et tous les faits de l'entreprise, puis réaliser tout ça… Le seul avantage
que cette méthode comporte est qu'elle offre une vision très claire et très conceptuelle des
données de l'entreprise ainsi que du travail à faire ;
2. Bottom-Up : c'est l'approche inverse, elle consiste à créer les étoiles une par une, puis les
regrouper par des niveaux intermédiaires jusqu'à obtention d'un véritable entrepôt pyramidal
avec une vision d'entreprise. L'avantage de cette méthode est qu'elle est simple à réaliser (une
étoile à la fois), l'inconvénient est le volume de travail d'intégration pour obtenir un entrepôt
de données ainsi que la possibilité de redondances entre les étoiles (car elles sont faites
indépendamment les unes des autres) ;
3. Middle-Out : c'est l'approche hybride, et conseillée par les professionnels du BI. Elle consiste
en la conception totale de l'entrepôt de données (i.e. : concevoir toutes dimensions, tous les
faits, toutes les relations), puis créer des divisions plus petites et plus gérables et les mettre en
œuvre. Cela équivaut à découper notre conception par éléments en commun et réaliser les
découpages un par un. Cette méthode tire le meilleur des deux précédentes sans avoir les
contraintes. Il faut juste noter que cette méthode implique, parfois, des compromis de
découpage (dupliquer des dimensions identiques pour des besoins pratiques).

Section 2 : ROLAP
OLAP se compose de trois modèles de données : MOLAP, ROLAP et HOLAP. Ces modèles de données
diffèrent principalement en termes de stockage de données et de technique.

ROLAP est l'abréviation de Relational Online Analytical Processing. Dans ce type de traitement
analytique, le stockage des données se fait dans une base de données relationnelle. Dans cette base
de données, la disposition des données est faite en lignes et en colonnes. Les données sont présentées
aux utilisateurs finaux sous une forme multidimensionnelle.

Il y a trois composants principaux dans un modèle ROLAP :

1. Serveur de base de données : il existe dans la couche de données. Il s'agit de données chargées
dans le serveur ROLAP.
2. Serveur ROLAP : Il s'agit du moteur ROLAP qui existe dans la couche application.
3. Outil frontal : il s'agit du bureau client qui existe dans la couche de présentation.

9|P a ge
INFORMATIQUE DECISIONNELLE

Voyons brièvement comment fonctionne ROLAP. Lorsqu'un utilisateur effectue une requête
(complexe), le serveur ROLAP récupère les données du serveur SGBDR. Le moteur ROLAP créera alors
des cubes de données dynamiquement. L'utilisateur visualisera les données à partir d'un point
multidimensionnel.

Avantages

Il peut gérer d'énormes volumes de données.

 Un modèle ROLAP peut stocker des données efficacement.


 ROLAP utilise une base de données relationnelle. Cela permet au modèle d'intégrer le serveur
ROLAP à un SGBDR (système de gestion de base de données relationnelle).

Désavantages

 Les performances sont lentes, en particulier lorsque le volume de données est énorme.
 ROLAP a certaines limitations relatives à SQL. Par exemple, la fonctionnalité SQL a des
difficultés à gérer des calculs complexes.

Section 2 : MOLAP
MOLAP est l'abréviation de Multi-dimensional Online Analytical Processing. Dans ce type de
traitement analytique, des bases de données multidimensionnelles (MDDB) sont utilisées pour stocker
les données. Ces données sont ensuite utilisées pour l'analyse. MOLAP se compose de données pré-
calculées et fabriquées. Les cubes de données des MDDB contiennent des données déjà calculées. Cela
augmente la vitesse d'interrogation des données.

L'architecture de MOLAP se compose de trois composants principaux :

 Serveur de base de données : il existe dans la couche de données.


 Serveur MOLAP : Il s'agit du moteur MOLAP dans la couche application.
 Outil frontal : il s'agit généralement du bureau client dans la couche de présentation.

10 | P a g e
INFORMATIQUE DECISIONNELLE

Le moteur MOLAP de la couche d'application collecte des données à partir des bases de données de la
couche de données. Il charge ensuite des cubes de données dans les bases de données
multidimensionnelles. Lorsque l'utilisateur effectue une requête, les données se déplacent dans un
format propriétaire des MDDB vers le bureau client dans la couche de présentation. Cela permet aux
utilisateurs de visualiser les données dans plusieurs dimensions.

Avantages

 Il fonctionne bien avec des opérations telles que les tranches et les dés.
 Les utilisateurs peuvent l'utiliser pour effectuer des calculs complexes.
 Il se compose de données pré-calculées qui peuvent être indexées rapidement.

Désavantages

 Il ne peut stocker qu'un volume limité de données.


 Les données utilisées pour l'analyse dépendent de certaines exigences qui ont été définies
(précédemment). Cela limite l'analyse des données et la navigation.

Section 3 : HOLAP
Il s'agit de l'abréviation de Hybrid Online Analytical Processing. Ce type de traitement analytique résout
les limitations de MOLAP et ROLAP et combine leurs attributs. Les données de la base de données sont
divisées en deux parties : le stockage spécialisé et le stockage relationnel. L'intégration de ces deux
aspects résout les problèmes liés aux performances et à l'évolutivité. HOLAP stocke d'énormes
volumes de données dans une base de données relationnelle et conserve les agrégations dans un
serveur MOLAP.

11 | P a g e
INFORMATIQUE DECISIONNELLE

Le modèle HOLAP se compose d'un serveur pouvant prendre en charge ROLAP et MOLAP. Il se
compose d'une architecture complexe qui nécessite une maintenance fréquente. Les requêtes faites
dans le modèle HOLAP impliquent la base de données multidimensionnelle et la base de données
relationnelle. L'outil front-user présente les données du système de gestion de base de données
(directement) ou via le MOLAP intermédiaire.

Avantages

 Il améliore les performances et l'évolutivité car il combine les attributs multidimensionnels et


relationnels du traitement analytique en ligne.
 C'est un outil de traitement analytique ingénieux si l'on s'attend à ce que la taille des données
augmente.
 Sa capacité de traitement est supérieure à celle des deux autres outils de traitement
analytique.

Désavantages

 Le modèle utilise un espace de stockage énorme car il se compose de données provenant de


deux bases de données.
 Le modèle nécessite des mises à jour fréquentes en raison de sa nature complexe.

12 | P a g e
INFORMATIQUE DECISIONNELLE

CHAPITRE 4 : CUBES
Section 1 : Hyper cube : mesure et dimension
Pour comprendre le fonctionnement d’un cube OLAP, considérons le tableau suivant :

Supposons que nous souhaitons calculer la somme des ventes par produit et par année. La
représentation de ce tableau sous forme d’une structure multidimensionnelle fournit le cube OLAP
suivant.

Les 3 colonnes de catégories deviennent des dimensions dans le cube, tandis que le prix devient la
mesure, la valeur correspondant au croisement des 3 dimensions simultanément.

Dans le cube, nous avons trois dimensions : Année, Vendeur et Produit ; la mesure c’est le prix de
vente. Pour rendre le cube fonctionnel, on applique à ses cellules (donc à la mesure) une fonction
d’agrégation, cette fonction peut être soit une somme, une moyenne, un maximum ou un minimum.
Pour faciliter la représentation graphique du cube, nous avons présenté la somme des mesures
uniquement sur la première face, mais en réalité, toutes les cellules comportent des valeurs pour

13 | P a g e
INFORMATIQUE DECISIONNELLE

chaque recoupement de dimensions et répondent à une requête bien précise. Par exemple la cellule
qui est à l’intersection de l’attribut « Bikes » de la dimension Produit et de l’attribut « Juvénal » de la
dimension Vendeur a pour somme de ventes 3800; ceci correspond à la requête chiffre d’affaire réalisé
par le Vendeur Juvénal sur les Produits « Bikes » depuis 2001. Cependant, certains croisements de
dimensions peuvent ne pas avoir de valeur (agrégation nulle dans ce cas), c’est ce qui explique que
certaines cellules du cube soient vides.

Section 2 : Opérateurs de manipulation


Pour manipuler un cube OLAP, on utilise des opérateurs multidimensionnels. Les cubes
multidimensionnels disposent de 3 opérateurs multidimensionnels pour leur exploitation à savoir
l’opérateur de rotation (ROTATE/ SWITCH), d’extraction (SLICING/DICING) et de sélection (DRILL
UP/DRILL DOWN/DRILL THROUGH). Voyons ensemble comment utiliser ces opérateurs.

 La rotation du cube (ROTATE/SWITCH) : il est possible d’effectuer une rotation à 90° de 2


dimensions du cube. Cette opération techniquement s’appelle le ROTATE CUBE ou SWITCH
CUBE. Dans l’exemple du cube représentant notre tableau, on a pivoté ou roter ou permuter
la dimension Année avec la dimension Produit. Remarquez que les résultats ne sont pas les
mêmes, on est maintenant capable d’obtenir le chiffre d’affaire réalisé par le vendeur Juvénal
à l’année 2001.

 L’opération d’extraction du cube (SLICING/DICING) : cette opération consiste à extraire du


cube un bloc de données correspondant à un croisement entre plusieurs dimensions. Ce bloc
permet alors de recalculer plus facilement le cube. On distingue 2 types d’opération
d’extraction de données du cube, le SLICING, qui consiste à extraire les mesures correspondant
à une certaine dimension en s’appuyant sur un critère de valeur, par exemple toutes les valeurs
inférieures à 2000 ; et le DICING, qui consiste à extraire un bloc de mesures en s’appuyant sur

14 | P a g e
INFORMATIQUE DECISIONNELLE

des critères d’attributs de dimensions. Dans la figure ci-après, nous avons effectué une
opération de DICING de notre cube précédent, le nouveau cube est formé de l’attribut 2002
de la dimension Année et de tous les attributs de la dimension Produit excepte l’attribut «
Accessories »; cela correspond à la zone grisée de par et d’autre du cube.
Attention !!! Lorsqu’on fait une extraction de cube, on obtient une nouvelle partition, distincte
du cube mère.

 L’opération de sélection : la sélection est similaire l’extraction, à la seule différence que la


sélection navigue simplement à travers les dimensions du cube, sans le partitionner. Les
opérations de sélection sont des réponses à des requêtes, alors que l’extraction sort un bloc
du cube. Les opérations de SLICING et DICING sont également des opérations de sélection. La
sélection permet également de naviguer selon les niveaux de profondeur d’information ou
de « zoomer » sur des sur une ou plusieurs dimensions précises. 3 opérations de sélections
permettent de naviguer dans le cube : le DRILL UP, qui permet de voir la synthèse des
informations en fonction d’une dimension, le DRILL DOWN qui permet de voir la synthèse des
informations à un niveau de profondeur très bas, et le DRILL TROUGH, qui permet d’accéder
au détail élémentaire des informations lorsqu’elles ne sont pas totalisées. Dans l’exemple de
notre cube, un SLICING/DRILL DOWN permet par exemple d’obtenir la synthèse des ventes du
vendeur Juvénal en profondeur sur les années et sur les types de produits.

15 | P a g e
INFORMATIQUE DECISIONNELLE

CHAPITRE 5 : MODELISATION EN ETOILE ET EN FLOCON


Section 1 : Modélisation en étoile
Il y a en gros trois modélisations possibles pour organiser les données stockées dans un Data
Warehouse : la modélisation en étoile, en flocons et en constellation. La modélisation en étoile est la
plus communément utilisée aujourd’hui encore dans la mesure où elle simplifie les requêtes SQL et en
réduit au maximum le temps d’exécution, y compris sur d’énormes volumes de données.

Considérons la schématisation d’une modélisation en étoile du Data mart des ventes :

Dans ce modèle, la table des faits est au centre du schéma et est entourée par des tables de
dimensions. Cela ressemble visuellement à une étoile surtout lorsqu’il y a 5 branches ! Lorsque la table
des faits est entourée par un grand nombre de petites tables de dimensions, on parle de schéma
centipède. C’est une variante du modèle en étoile.

Nous allons présenter deux exemples de schémas en étoile

Exemple 1 : Le schéma des ventes

Tant que le volume de données reste limité, il est possible de générer ces rapports en temps réel
directement à partir des données extraites des systèmes transactionnels. Mais lorsque les données en
jeu deviennent trop volumineuses, il devient nécessaire de mettre en place un Data Warehouse pour
rationaliser le process.

 La mise en place de ce schéma (ie. la création du Data Mart « Sales ») suppose :


 Le design du schéma, dont l’essentiel réside dans la sélection des dimensions.

16 | P a g e
INFORMATIQUE DECISIONNELLE

 La mise en place de la tuyauterie, c’est-à-dire le paramétrage des process ETL pour importer
les données à partir des data sources et les transformer suivant les contours du schéma défini.
 Le chargement des données transformées dans le Data Mart.
 Le schéma des ventes contient une table des faits (en rouge) et 5 tables de dimensions (en
bleu) :
 fact_sales : cette table contient les références des tables de dimensions ainsi que deux faits :
prix et quantité vendue. Les 5 clés étrangères qui composent cette table forment la clé
primaire de la table des faits.
 dim_sales_type : cette table de dimensions ne contient qu’un seul attribut : type_name.
 dim_employee : cette table stocke les attributs de base sur les employés : prénom, nom et
date de naissance.
 dim_product : cette table de dimensions n’a que deux attributs (en dehors de la clé primaire) :
le nom du produit et la catégorie.
 dim_time : cette table gère la dimension temporelle. Elle contient 5 attributs à côté de la clé
primaire. Cette table est intéressante pour illustrer ce que nous disions tout à l’heure
concernant les attributs qui sont extraits d’autres attributs. En l’occurrence, tous les attributs
de cette table découlent de l’attribut action_date. La date de la vente contient par elle-même :
la semaine, le mois, l’année et le nom du jour. Cela produit des redondances mais facilite les
analyses.
 dim_store : cette table contient 5 attributs, les 4 derniers (ville, région, état et pays) découlant
du premier (adresse). Cette table et la précédente permettent de voir à quel point la
modélisation en étoile est essentiellement dénormalisée.

Exemple 2 : Le schéma des achats

Voici à quoi ressemble un schéma des achats :

Il y a beaucoup de points communs entre ce schéma et celui des ventes. Il partage en effet trois tables
de dimension avec le précédent. Les deux tables nouvelles sont :

 fact_supply-order : la table des faits, qui agrègent les données relatives aux achats et
provenant des 4 tables de dimensions associées.

17 | P a g e
INFORMATIQUE DECISIONNELLE

 dim_supplier : cette table de dimensions stocke les données relatives aux fournisseurs et
utilise les mêmes attributs que la dim_store du schéma des ventes.

La modélisation en étoile comporte de nombreux avantages. Le premier d’entre eux, c’est que la table
des faits est reliée à chaque table de dimensions par une seule et unique relation, une seule et unique
jointure. Cela simplifie considérablement les requêtes et en améliore le temps d’exécution. Lorsque
l’on travaille sur de gros volumes de données, c’est un avantage important.

Mais la modélisation en étoile a un gros inconvénient : la redondance. Ce modèle a l’avantage de ses


inconvénients…Chaque dimension est stockée dans une table de dimensions distincte ce qui entraîne
une dé-normalisation. Dans notre exemple, les villes appartiennent à des régions ou à des états,
lesquels appartiennent à des pays et cette relation n’est pas intégrée en tant que règle dans la base de
données. En un mot, un Data Mart conçu à partir d’une modélisation en étoile stocke des données qui
expriment la même information.

A cause de cette redondance, la modélisation en étoile utilise plus d’espace de stockage que les autres
modèles. Cela augmente également le risque d’atteinte à l’intégrité du système, les données
exprimant les mêmes informations pouvant provenir de data sources différents et engendrer des
conflits.

C’est pour cette raison que d’autres modélisations sont apparues et en particulier la modélisation en
constellation.

Section 2 : Modélisation en flocon

Un schéma en flocon a pour objectif de réduire la redondance en normalisant les données. Un modèle
en flocon est un modèle pour lequel chaque dimension est représentée avec plusieurs tables. Il est
donc plus normalisé (moins redondant) qu'un modèle en étoile.

Le schéma en flocon de neige est un type de schéma en étoile qui inclut la forme hiérarchique des
tables dimensionnelles. Dans ce schéma, il existe une table de faits composée de différentes tables de
dimension et de sous-dimension reliées par des clés primaires et étrangères à la table de faits. Il porte
le nom de flocon de neige car sa structure ressemble à un flocon de neige.

18 | P a g e
INFORMATIQUE DECISIONNELLE

Il utilise la normalisation qui divise les données en tables supplémentaires. Le fractionnement permet
de réduire la redondance et de prévenir les pertes de mémoire. Un schéma de flocon de neige est plus
facile à gérer mais complexe à concevoir et à comprendre. Cela peut également réduire l’efficacité de
la navigation car davantage de jointures seront nécessaires pour exécuter une requête.

19 | P a g e
INFORMATIQUE DECISIONNELLE

CHAPITRE 6 : CONCEPTION D’UN DATAWAREHOUSE


Section 1 : Phases de conception d’un Datawarehouse
Plus sérieusement, un entrepôt de données, un vrai, selon la définition officielle et pas celle des
commerciaux, est une vue complète et centralisée des données de l'entreprise. La modélisation en
étoile ou en flocon, elle, ne s'intéresse qu'à la conception d'un sous-ensemble d'entrepôt, une seule
table de fait. On ne peut même pas dire qu'une étoile ou un flocon représente un data Mart, car une
fonction de l'entreprise peut comporter plusieurs tables de faits. La fonction commerciale d'une
entreprise peut comporter une étoile pour les ventes, un flocon pour les commandes, une autre étoile
pour les retours, etc. Ce qui est juste, c'est qu'un entrepôt de données est l'ensemble de ces étoiles
et/ou flocons. Mais comment organiser tout ça ?

En conception d'entrepôt, il ne faut pas se casser la tête, dès qu'une dimension existante ne
correspond pas parfaitement aux besoins d'une nouvelle étoile, on en crée une autre, même si elle est
« presque » comme la dimension que nous allions utiliser. C'est pour cela qu'il faut créer, autant que
possible, des dimensions génériques et qui soient vraies tout le temps, pour toutes les fonctions de
l'entreprise. Ces dimensions pourront être réutilisées et assurer une pérennité des données. Et si de
telles dimensions ne peuvent pas être créées, il ne faut pas avoir de remords à créer des dimensions
similaires, mais adaptées aux besoins de la nouvelle étoile. Mais si vous voyez que dans chaque étoile
vous êtes obligés de créer une nouvelle dimension « client » par exemple, posez-vous des questions
sur votre conception.

Récapitulons, nous avons vu comment créer une étoile ou un flocon, nous avons vu que les data marts
sont des étoiles regroupées par fonction ou par utilité dans l'entreprise et nous savons qu'un entrepôt
est l'ensemble de tous les data marts de l'entreprise. Nous savons faire une étoile, mais comment les
regrouper pour mettre en œuvre un entrepôt de données ? Et bien trois méthodes s'offrent à nous :

1. Top-Down
2. Bottom-Up
3. Middle-Out

Section 2 : Etude de cas : TP

20 | P a g e

Vous aimerez peut-être aussi