Université de Tunis
ESSECT
Informatique Décisionnelle, les Entrepôts de Données et la
Fouille de Données
Mastères : Digital Marketing & Digital Management Innovation
1
Elaboré par : Lamia Enneifar
Informatique décisionnelle et ED et FD
Durant les années 90-2000 l’informatique décisionnelle a connu un grand essor. Elle peut être définie comme suit :
• C’est l’ensemble des technologies informatiques permettant le développement d’environnements spécialisés
pour l’aide à la décision notamment des entrepôts de données (data warehouse).
• De nombreux algorithmes, souvent issus des statistiques et de l’Intelligence Artificielle, permettant
d’extraire des informations à partir de données brutes sont arrivés à maturité. Ces algorithmes sont regroupés
dans des logiciels de fouille de données (Data Mining) et permettent la recherche d’informations nouvelles ou
cachées à partir de données.
• De plus, en plus ces données sont issues du Web, aussi la recherche d’information et la fouille de données
sur le Web ou le Web Mining sont de plus en plus d’actualité.
2
Donnée, information et connaissance
Connaissance
Système d’information
décisionnel Information
Système
d’information Donnée
3
Systèmes de Data Warehouse « entrepôts de données » ou
les Systèmes d’Information Décisionnels
Système de data warehouse → système d’information conçu pour des applications décisionnelles de
pilotage, de contrôle et aussi d’intelligence.
Data warehousing→ «entreposage des données» est l’ensemble des outils, techniques et méthodes
permettant de rassembler en un ensemble cohérent des données issues de sources
multiples et de leur « donner du sens » (interpréter l’information quelles contiennent)).
Data warehouse → « entrepôt de données », « magasin » ou « datamart ».
base de données détaillées qui stocke
ces informations. Cette base a pour vocation unique l’aide à la décision (elle n’est pas
utilisée pour les applications transactionnelles).
4
Caractéristiques d’un DW
• Orienté sujet : données organisées par thème (exemple : client, produit, …). Le DW contient uniquement les données
pertinentes à la prise de décision. L’orientation sujet donne une vue plus compréhensible pour l’organisation.
• Intégré : données provenant différentes sources (bases de données disparates) codées différemment. Par exemple la donnée
sexe peut être installée comme 0 et 1 dans un local et m et f dans un autre. Dans le DW elles sont transformées et nettoyées
et stockées sous un format unique et standard. Les données intégrées résolvent les significations inconsistantes et fournissent
une terminologie uniforme à travers l’entreprise
• Varie selon le temps (Série temporelle) : les données ne décrivent pas uniquement l’état actuel. Elles décrivent l’activité
de l’entreprise pendant les cinq ou dix ans passées et sont utilisées connaitre la tendance, la prévision, etc. Le temps est une
importante dimension prise en compte par toutes les données du DW.
• Non volatilité : une fois saisie, la donnée ne peut qu’être consultée elle ne peut cependant être modifiée ni supprimée.
• Résumé : les données opérationnelles sont agrégées, en cas de besoin, en résumés.
• Pas normalisé : les données du DW ne sont pas normalisées et très redondantes
• Sources : toutes les données sont d’origine interne et externe
5
• Métadonnées : ce sont des données qui concernent les données elles mêmes.
Systèmes Datawarehouse « entrepôts de données » ou
les Systèmes d’Information Décisionnels
DataWarehouse→ dédié au décisionnel, l’information est mise à disposition des utilisateurs mais les mises à jour
ne sont jamais en ligne. Le DW vise à répondre aux besoins des utilisateurs en terme
d’informations et non en terme d’applications.
Système de DataWarehousing → constitué de plusieurs produits matériels et logiciels articulés selon trois
fonctions classiques du domaine des bases de données : l’acquisition,
le stockage, l’exploitation
6
Architecture d’un Système d’Information Décisionnel
Acquisition et Stockage Restitution/ Exploitation
Systèmes Datawarehouse : Acquisition des données
1) Acquisition
Les données à entreposer proviennent de trois sources :
- les systèmes opérationnels telles que les applications transactionnelles, qui constituent la source principale ;
- les bases de données utilisateurs : ce sont des fichiers locaux tenus à jour par des utilisateurs individuels pour
leurs activités spécifiques ;
- les bases de données externes, sources documentaires variées, accessibles via des réseaux type internet ou
dupliquées.
Ces sources alimentent la base par l’intermédiaire d’outils logiciels d’extraction, de sélection et filtrage, de
nettoyage ; ces outils assurent l’homogénéité dans la présentation de données pouvant être, à l’origine sous
formats différents. L’ETL (Extract Transform Load) est un outil d’extraction et d’alimentation de DW. Les
logiciels d’acquisition des données sont appelés back –end software.
L’alimentation du DW ne s’effectue pas à temps réel, tous les jours (j) il y traitement des données stockées dans
les BD sources durant le jour (j-1).
8
Systèmes Datawarehouse : Stockage des données
1) Stockage
données stockées sur un support de très grande capacité. Toutes les entités ont un format unique et les données sont
stockées sans redondance. stockage (exprimées en téra-octets ou en péta-octets ou en exa-octet ou en zeta-octet).
méta-données, données de plus haut niveau décrivant les caractéristiques des données stockées, sont aussi stockées sur le
même support. Exemple de méta-dnnée, la source de la donnée, sa fréquence de production, ses utilisateurs exclusifs, etc.
données sont organisées en sujets ou thèmes (par exemple, le sujet « client », le sujet « produit », etc.). Ces différents
« sujets » constituent les entités fondamentales du modèle de données de la base.
données chronologiques, la dimension «temps» est explicite. Pour chaque sujet, les données historiques sont accumulées ;
il n’y a donc pas de mise à jour par modification ou remplacement, mais ajout continuel de données plus récentes. Cette
nécessité d’accumulation des faits sur des périodes allant de 5 à10 ans implique de très fortes capacités de stockage.
Le data warehouse joue ainsi le rôle d’une véritable mémoire de l’organisation où une part importante des informations
relatives aux événements significatifs est conservées sous une forme structurée.
9
Systèmes Datawarehouse : Stockage des données/
Définitions
Décideur → n’utilise pas les données stockées dans l’entrepôt de données,
utilise les données stockées dans le datamart ou le magasin de données,
Datamart → Base de données orientées sujet mises à la disposition des utilisateurs dans
un contexte décisionnel décentralisé. Ils sont également appelés magasin de données.
exemple : un datamart correspond à un projet de l’entreprise
(marketing, production, etc).
Datawarehouse → Base de données qui intègre les différents datamart
Outils ETL → chargent le datawarehouse ensuite les différents datamarts de l’entreprise
10
Systèmes Datawarehouse : Stockage des données
Bases de données Modèle de données Magasin de données
Sources centralisé (niveau projet,
(production, (niveau entreprise) département)
externes) Outils Outils
entreprise) ETL ETL
BD1 Datamart1
DW
BD2
Datamart2
BD3
BD4
•Intègre les données dans modèle unique •Orienté métier
•Consolide l’ensemble des informations •Organisé par sujet
cibles d’intérêt 11
•optimisé
Systèmes Datawarehouse : Stockage des données
Modélisation multidimensionnelle
Quelles sont les tables qui composent le DW et les différents DataMarts ?
Modélisation Multi-Dimensionnelle
Datamart → Schéma en étoile
Datawarehouse → Schéma en constellation
Commencer → par la construction d’un schéma en étoile pour chaque data mart à partir des besoins
utilisateurs,
Intégrer → les différents Schémas en étoile ensemble pour construire le schéma en constellation
12
Systèmes Datawarehouse : Stockage des données
Besoins utilisateurs
Expression des besoins utilisateur:
Chaque décideur va exprimer ses besoins en spécifiant :
• Les indicateurs clé de performance, Key Performance Indicators (KPI) relatifs
à son domaine d’activité qu’il vaut analyser
• Les critères selon lesquels le décideur veut analyser les KPI
• Les rapports qu’il veut générer à partir de son data mart
13
Systèmes Datawarehouse : Stockage des données
Schéma en étoile
Les KPI et les critères ou axes d’analyses servent dans la construction du schéma en étoile
du datamart
• Table de faits centrale contenant les KPI, faits ou mesures
• Tables dimensions correspondant chacune à un axe d’analyse
Hiérarchie des tables dimensions
14
Systèmes Datawarehouse : Stockage des données
Schéma en Etoile du datamart Vente
Table Dimension Table des Table Dimension
KPI= fait= mesure
Produit métriques (faits) Vendeur
Axe d’analyse= ID_produit ID_Vendeur
Critère d’analyse= Nom Nom_vendeur
….
Dimension Gamme
Couleur Table de Faits
Granularité= niveau Ventes
de détail du schéma ID_produit (FK)
ID_VDR (FK) Dimensions
Pour cet exemple la Dimensions ID_CLT (FK)
granularité est Date (FK)
journalière c’est le
Chiffre- d‘affaire
niveau de détail de a
table dimension Marge Table Dimension
temps Table Dimension Nombre d’Unité CLIENT
Temps Prix unitaire ID_CLIENT
Ces différentes tables Date (JJ/MM/YYYY) Nom_client
composent le Jour_sem Tel
datamart vente
Sem_mois Région
Trimestre Age 15
année
Systèmes Datawarehouse : Stockage des données
Schéma en Etoile du datamart Achat
KPI= fait= mesure Table Dimension Table des Table Dimension
Produit métriques (faits) Fournisseur
Axe d’analyse= ID_Fournisseur
ID_produit
Critère d’analyse= Nom_fournisseur
Dimension Nom
catégorie Gouvernorat.
Table de Faits
Granularité= niveau
de détail du schéma
Achat
ID_produit (FK)
granularité ID_FRS (FK)
Dimensions
mensuelle Dimensions Date (FK)
Ces différentes tables Prix achat unitaire
composent le datamart Quantité
Achat
Table Dimension
Temps
Date (MM/YYYY)
mois
16
année
Systèmes Datawarehouse : Stockage des données
Schéma en Constellation du datawarehouse
Table Dimension Table de Faits Table Dimension
dimensions Produit Achat Fournisseur
communes (produit ID_produit ID_produit (FK) ID_Fournisseur
et temps) pour Nom ID_FRS (FK) Nom_fournisseur
intégrer les deux Date (FK) Gouvernorat.
Catégorie
schémas en étoile Prix achat unitaire
Gamme
Couleur Quantité
Ramener tous les
Table Dimension
schémas en étoile
dans la granularité Vendeur
la plus fine ID_Vendeur
Nom_vendeur
Toutes ces tables Table de Faits ….
composent le Ventes
datawarehouse Table Dimension ID_produit (FK)
ID_VDR (FK) Table Dimension
Temps
ID_CLT (FK) CLIENT
Date (JJ/MM/YYYY)
Date (FK) ID_Client
Jour_sem
Chiffre- d‘affaire Nom_client
Sem_mois
Marge Tel
mois
Nombre d’Unité Région 17
Trimestre
Age
Année
Systèmes Datawarehouse : Exploitation des données
Logiciels clients d’un DW → permettent à l’utilisateur d’accéder et d’analyser les données du DW/DM
appelés front –end softwares.
Système datawarehouse → composé d’un ensemble d’outils permettant aux utilisateurs d’extraire des
informations signifiantes pour leurs besoins spécifiques;
Outils permettant → de créer des connaissances tirées de l’expérience (les expériences passées),
de mettre en valeur des corrélations cachées entre les groupes de données,
d’assister le processus d’interprétation, de création de sens.
Ces outils sont très variés
18
Systèmes Datawarehouse : Exploitation des données
• Outils d’interrogation des bases de données : langage du type SQL (sequential query language)
• Outils de reporting : outils permettant de construire et d’éditer des rapports.
• Tableaux de bord électroniques (dashboard) :
Fournit une information (KPI selon les dimensions) au décideur sous forme tabulaire et
graphique. L’information visualisée selon le principe du drill down au niveau du détail choisi par
l’utilisateur.
Les TBE permettent de comparer les valeurs réelles avec les valeurs prévues des indicateurs de
performance du département.
Les TBE peuvent donc influencer la politique de l’entreprise. Les TBE peuvent être utilisés dans
différents départements, y compris celui des ventes et du service à la clientèle.
19
Systèmes Datawarehouse : Exploitation des données
Exemple de TBE
20
Systèmes Datawarehouse : Exploitation des données
Les outils OLAP
• Parmi les procédés existants du Business Intelligence, il y a l’OLAP qui fait l’objet
de ce chapitre.
• OLAP ou On-Line Analytical Processing est une
“catégorie de logiciels axés sur l’exploration et l’analyse rapide des données selon
une approche multidimensionnelle à plusieurs niveaux d’agrégation.”
21
Systèmes Datawarehouse : Exploitation des données
Objectifs de l’OLAP
Les objectifs attendus par l’utilisation d’OLAP sont :
1. Assistance pour une analyse optimale des données sans se focaliser sur les
moyens utilisés (abstraction),
2. Rapidité et facilité,
3. Visualisation multidimensionnelle des données (lacune des bases de données
relationnelles)
22
Systèmes Datawarehouse : Exploitation des données
Les outils OLAP
• hypercube OLAP (ou cube OLAP) est une représentation abstraite
d'informations multidimensionnelles exclusivement numérique utilisé par
l'approche OLAP.
• Cette structure est prévue à des fins d'analyses interactives par une ou plusieurs
personnes (souvent ni informaticiens ni statisticiens) du métier que ces données
sont censées représenter.
23
Systèmes Datawarehouse : Exploitation des données
Les outils OLAP
Les cubes OLAP ont les caractéristiques suivantes :
• obtenir des informations déjà agrégées selon les besoins de l’utilisateur.
• simplicité et rapidité d’accès
• capacité à manipuler les données agrégées selon différentes dimensions
• un cube utilise les fonctions classiques d’agrégation : min, max, count, sum, avg, mais
peut utiliser des fonctions d’agrégations spécifiques
Les opérations typiques de l’OLAP :
Roll up : consolider les données. Passer à un niveau supérieur dans la hiérarchie d’une
dimension.
Drill down : permet de descendre dans la hiérarchie (l’inverse du roll up) ;
Slice and dice : projection et sélection du modèle relationnel.
Pivot : réoriente le cube pour visualisation
24
Systèmes Datawarehouse : Exploitation des données
Les outils OLAP
25