INTRODUCTION AUX
ENTREPÔT DE DONNÉES
[Link] Faye Diouf
INTRODUCTION
• De nos jours, l’entreprise est un système ouvert sur son environnement au
cœur des systèmes d'informations confrontée à des phénomènes
économiques et sociaux lourd de conséquences.
conséquences Pour faire face aux
nouveaux enjeux, l’entreprise doit collecter, traiter, analyser les informations
de son environnement pour anticiper. Mais cette information produite par
l'entreprise est surabondante, non organisée et éparpillée dans de multiples
systèmes opérationnels hétérogènes et peut provenir de toutes
• les places de marchés (mondialisation des échanges). Il devient
fondamental de rassembler et d’homogénéiser les données afin de
permettre l'analyse des indicateurs pertinents pour faciliter la prise de
décisions:d’où l’importance de l’entrepôt de Données.
DÉFINITION D’ENTREPÔT DE
DONNÉES
• Le concept d’entrepôt de données a été formalisé pour la
première fois en 1990 par Bill Inmon. Il est aussi appelé en
Anglais « Datawarehouse ». Un entrepôt de données est
une collection de données thématiques, intégrées, non
volatiles et historisées pour la prise de décisions (Bill Inmon).
• Il s’agissait de constituer une base de données orientée
sujet, intégrée et contenant des informations historisées, non
volatiles et exclusivement destinées aux processus d’aide à
la décision.
SUCCÈS DU DATAWAREHOUSE
• Les points clefs garantissant le succès d'un entrepôt de données sont
les suivants :
• - Les informations d'un entrepôt de données doivent être accessibles
et fiables (de qualité).
• - La conception d'un entrepôt de données doit répondre à un besoin
de ROI(Return On Investment, retour sur investissement )élevé.
• - La réponse aux demandes très diverses des utilisateurs(décideurs de
l’entreprise).
• - L’entrepôt de données doit évoluer avec les besoins des utilisateurs
et du système d'information.
OUTILS DE CONCEPTION DE
DATAWAREHOUSE
• L’infrastructure technique mise en œuvre est capable d’intégrer,
d’organiser, de stocker et de coordonner de manière intelligible des
données produites au sein du Système d’Information (issues des
applications de production) ou importées depuis l’extérieur du SI
(louées ou achetées) dans lesquelles les utilisateurs finaux puisent des
informations pertinentes à l’aide d’outils de restitution et d’analyse
(OLAP, Datamining ).
• OLAP : On-Line Analytical Processing,
Processing Désigne une catégorie
d'applications et de technologies permettant de collecter, stocker,
traiter et restituer des données multidimensionnelles, à des fins
d'analyse.
• Ex: Oracle Express, SQLServer 7.0, PowerOLAP
• Datamining : Désigne une catégorie d’outils
d’exploitation d’un entrepôt de données
permettant d’effectuer des fouilles " mining " ou
d’extraire des connaissances permettant de faire
apparaître des corrélations jusqu’alors cachées
entre les données.
• Ex: Python, Le langage R, Tanagra, RapidMiner,
WEKA
LES DONNÉES DÉCISIONNELLES
VS
DES DONNÉES OPÉRATIONNELLES
Les données permettant la prise de décisions diffèrent des données
opérationnelles :
DONNÉES DE DATAWAREHOUSE =DONNÉES
ORIENTÉES SUJET
• L’entrepôt de données est organisé autour des sujets majeurs et des
métiers de l'entreprise.
• Les données sont organisées par thème, contrairement aux données
des systèmes de production, organisées par processus fonctionnels.
• L’avantage de cette représentation demeure dans le fait qu'il devient
possible de réaliser des analyses sur des sujets transversaux aux
structures fonctionnelles et organisationnelles de l'entreprise. Et ainsi,
de pouvoir analyser un processus dans le temps à différentes étapes
de sa conception au sein du SI. Cette orientation permet également
de faire des analyses par itération, sujet après sujet.
• L'intégration dans une structure unique est
indispensable pour éviter aux données concernées
par plusieurs sujets d'être dupliquées.
• Dans la pratique il existe également des Datamart
pouvant supporter l'orientation sujet. En effet, un
Datamart ou Magasin de données est petit entrepôt
de données, en général spécialisé dans un domaine
« métier »
MODÉLISATION DE DONNÉES
• La modélisation par sujet
• Un ED est généralement basé sur un SGBD relationnel.
• La modélisation par sujet est une technique de conception logique
qui vise à organiser et classifier les informations des bases légataires en
données classées par sujet fonctionnel. Elle est basée sur la
modélisation " Entité/Relation " et est préliminaire à la modélisation
dimensionnelle.
• Chaque sujet correspond à une table gérée au sein de l’entrepôt. Il
faut isoler les données stratégiques, déterminer les informations de
détails nécessaires (profondeur, granularité) et conserver les
métadonnées.
MODÉLISATION DE DONNÉES
• La modélisation dimensionnelle
• La modélisation dimensionnelle (modèle multidimensionnel) souvent appelée
modélisation OLAP (Codd 1993) se présente comme une alternative au
modèle relationnel. Elle correspond mieux aux besoins du décideur tout en
intégrant la modélisation par sujet.
• C’est une méthode de conception logique qui vise à présenter les données
sous une forme standardisée, intuitive et qui permet des accès hautement
performants. Elle aboutit à présenter les données non plus sous forme de
tables mais de cube7 centré sur une activité. Un cube de dimension n (n > 3)
est aussi dit hyper cube.
• Cette modélisation met en évidence ces 3 éléments: Faits, indicateurs et
dimensions
LA TABLE DE FAITS
Modèle conceptuel d’une table de faits
• Le terme de fait est utilisé pour représenter une mesure économique.
• Pour exemple, lors de la vente de produits sur un marché, on comptabilise
les types de produits vendus, leur quantité et le montant de chaque vente
au jour le jour et ce, pour chaque produit et pour chaque magasin.
• La mesure des quantités et des prix est réalisée à l’intersection de toutes les
dimensions (produit, magasin, temps).
• Le nombre des dimensions détermine la finesse, la granularité de la table et
indique la portée de l’indicateur.
LES INDICATEURS
• Les indicateurs les plus utiles d’une table de faits sont numériques et additifs.
L’additivité des attributs d’une table de faits est cruciale pour les outils
décisionnels. Les utilisateurs demandent rarement l’analyse d’une seule
ligne. Dans notre exemple, constater les ventes de produits sur une année
pour les magasins d’une région demande l'analyse de plusieurs milliers de
lignes à la fois.
• Pour autant, tous les attributs utiles ne sont pas additifs. Certains sont semi
additifs et ne peuvent être additionnés que pour certaines dimensions.
• D’autres sont non additifs et ne peuvent pas être additionnés par
dimensions. Pour cette dernière catégorie, on utilise des fonctions
d'agrégations tel que, le calcul de moyenne, le ratio ou le comptage de
lignes.
LES DIMENSIONS
Modèle Conceptuel de Dimension Produit
LES DIMENSIONS
• Les tables de dimensions sont les entités complémentaires à la
conception de la table de faits. Elles contiennent, autant que
possible, des attributs sous forme de descriptions textuelles permettant
de qualifier ou d’expliquer l’activité.
• Des attributs de dimensions, nombreux, permettent de varier les
possibilités d’analyse (par tranches ou en dés). Ces attributs rendent
utilisables et intelligibles les données de l’entrepôt de données. Ils
établissent, en quelque sorte une interface homme/entrepôt de
données.
• En général, les tables de dimensions tendent à être peu profondes
mais elles sont larges (l'inverse de la table de faits), en d’autres termes
elles ont peu de lignes mais beaucoup de colonnes.
STRUCTURE DU DATAWAREHOUSE
• Au sein du Datawarehouse, les données sont redondantes et
dénormalisées, nous sommes loin de la modélisation en troisième
forme normale (3NF) et pour cause, cela permet de faciliter
l’utilisation et d’améliorer les performances lors de l'analyse des
données.
• Trois types de schémas sont fréquemment rencontré:
1. le schéma en étoile,
2. le schéma en flocon
3. et le schéma en constellation de faits.
LE SCHÉMA EN ÉTOILE
• Dans un schéma en étoile, une table centrale de
faits contenant les faits à analyser, référence les
tables de de dimensions par des clefs étrangères.
Chaque dimension est décrite par une seule table
(feuille de l’arbre de
• tables) dont les attributs représentent les diverses
granularités possibles.
MODELE EN ÉTOILE
EXEMPLE SCHÉMA EN ÉTOILE
LE SCHÉMA EN FLOCON
• Dans un schéma en flocon, cette même table de faits,
référence les tables de dimensions de premier niveau, au
même titre que le schéma en étoile.
• La différence réside dans le fait que les dimensions sont
décrites par une succession de tables (à l’aide de clefs
étrangères) représentant la granularité de l'information. Ce
schéma évite les redondances d’information mais nécessite
des jointures lors des agrégats de ces dimensions.
MODELE EN FLOCON
EXEMPLE SCHÉMA EN FLOCON
LES SCHÉMAS EN CONSTELLATION DE
FAITS
• un schéma en constellation, plusieurs modèles
dimensionnels se partagent les mêmes dimensions,
c'est-à-dire,
dire, les tables de faits ont des tables de
dimensions en commun.
• En effet, les différences entre ces trois modèles sont
faibles et ne peuvent donner lieu à des
comparaisons de performance. Ce sont des
schémas issus de la modélisation dimensionnelle
utilisés par les outils décisionnels.
MODÈLE EN CONSTELLATION
EXEMPLE SCHÉMA EN
CONSTELLATION
CONCLUSION
• L’entrepôt de Données ou Datawarehouse est une base de données
destinée aux décideurs.
• La structure de cette base de données comprend les faits, les indicateurs et
les dimensions. Ces derniers sont représentés, organisés selon divers types de
schémas conventionnels.
• L’entrepôt est obtenu à partir de diverses bases de données de production
de l’entreprise. Des outils performants nous facilitent la construction du
Datawarehouse.
• Actuellement, l’entrepôt de données est devenu l’un des outils fondamental
et incontournable pour les prises de décisions au sein de l’entreprise.