Système d’information Décisionnel
Chapitre 1 : Concepts de base
Dalel Ayed Lakhal
Année universitaire : 2020-2021
Objectifs du Cours : Data Warehouse
- L’étudiant(e) apprendra les concepts de base des data warehouses.
Le processus ETL (Extraction, Transformation & Loading) ainsi
que les techniques de nettoyage des données nécessaires pour la
construction
d’un DWH seront étudiés.
La représentation multidimensionnelle et le stockage des données sous
forme
de Cube de données seront aussi traités ainsi que les opérateurs
multidimensionnels
OLAP associés.
-La conception des DWH sera aussi abordée à travers l’étude des modèles
en étoile, en flocons et en constellation.
2
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
3
Contexte
Besoin: prise de décisions stratégiques
Pourquoi: besoin de réactivité / Améliorer les performances décisionnelles de
l’entreprise
Qui: les décideurs (non informaticiens)
Comment: répondre aux demandes d’analyse des données, dégager des
informations qualitatives nouvelles
Pourquoi et
Qui sont mes
comment le
meilleurs
chiffre d’affaire a
clients?
baissé?
A combien
s’élèvent mes
ventes
journalières?
4
Les données utilisables par les
décideurs
Données opérationnelles (de production)
Bases de données (Oracle, SQL Server)
Fichiers, …
Paye, gestion des RH, gestion des commandes…
Caractéristiques de ces données:
Distribuées: systèmes éparpillés
Hétérogènes: systèmes et structures de données différents
Détaillées: organisation des données selon les processus fonctionnels,
données surabondantes pour l’analyse
Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent bloquer le
système transactionnel
Volatiles: pas d’historisation systématique
5
Problématique
Une grande masse de données :
» Distribuée
» Hétérogène
» Très Détaillée
A traiter :
» Synthétiser / Résumer
» Visualiser
» Analyser
Pour une utilisation par :
» des experts et des analystes d'un métier
» NON informaticiens
» NON statisticiens
6
Problématique
Inconvénient : Analyse de l ’activité par un non-informaticien
7
Problématique
Besoin des entreprises (décideurs)
accéder à toutes les données de l’entreprise
regrouper les informations disséminées
analyser et prendre des décisions rapidement (OLAP)
Comment répondre aux demandes des décideurs?
En donnant un accès rapide et simple à l’information
stratégique
En donnant du sens aux données
8
Problématique
Prise de
décisions
Entrepôt de
données
un data
warehouse
Mettre en place un système d’information dédié aux
applications décisionnelles :
un data warehouse
En Aval des bases de production
(ie bases opérationnelles)
9 En Amont des prises de décision
Comment faciliter la prise de décision ?
Exploiter efficacement de grandes quantités
d’information
•utiliser les données produites par l'entreprise dans la gestion
quotidienne (BD existantes, applications de production, … )
• produire régulièrement des données nécessaires au
processus de décision (résumés, synthèses etc...)
• disposer d'outils d'analyse de données
10
Une des solutions : Construire et
Exploiter un DW
11
Raisons d’être d’un entrepôt de données
Rassembler les données de l’entreprise dans un même lieu
sans surcharger les BD (systèmes opérationnels)
Permettre un accès universel à diverses sources de données
et assurer la qualité des données
Extraire, filtrer, et intégrer les informations pertinentes, à
l’avance, pour des requêtes ultérieures
Dégager des connaissances et faire un apprentissage sur
l’entreprise, le marché et l’environnement
12
Le processus de prise de décision
Champs d’application des
systèmes décisionnels
Définir le Rassembler Analyser les Établir des Décider
problème les données données solutions
Temps de prise d’une décision :
enchaînement des phases
13
Le processus de prise de décision
Prise de
décision
Bases de Data Base multi - Prédiction /
production warehouse dimensionnelle simulation
14
Domaines d’utilisation des DW
Banque : prime plus précise
Santé : Risque alimentaire
Commerce : Ciblage de clientèle, Déterminer des promotions
Assurance : Risque lié à un contrat d’assurance (voiture)
Logistique : Adéquation demande/production
Grande distribution : marketing, maintenance, ...
produits à succès, modes, habitudes d’achat
préférences par secteurs géographiques
Déterminer des promotions
Télécommunications : pannes, fraudes, mobiles, ...
classification des clients, détection fraudes
…
15
Quelques métiers du décisionnel
Strategic Performance Management
Déterminer et contrôler les indicateurs clé de la performance de
l’entreprise
Finance Intelligence
Planifier, analyser et diffuser l’information financière. Mesurer et gérer
les risques
Human Capital Management (gestion de la relation avec les employés)
Aligner les stratégies RH, les processus et les technologies.
Customer Relationship Management (gestion de la relation client)
Améliorer la connaissance client, identifier et prévoir la rentabilité
client, accroitre l’efficacité du marketing client
Supplier Relationship Management (gestion de la relation fournisseur)
Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la
stratégie Achat.
16
Besoins à l’origine des SI décisionnels
Optimisation/automatisation de certaines activités :
exemples
Optimisation des stocks, de la production, de la logistique
Contrôle qualité, diagnostic de panne
Octroi de crédits, risque client (banque, assurance)
Détection de fraude (carte bancaire, télécoms)
Marketing et gestion de la relation client (CRM)
Analyse des ventes dans les grandes surfaces
Utilisateurs de la partie décisionnelle du SI
Direction de l’entreprise
Responsables des différentes unités de l’entreprise
Responsables marketing (stratégique et opérationnel)
17
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
18
Définition d’un DW
W. H. Inmon (1996):
« Le data Warehouse est une collection de données
orientées sujet, intégrées, non volatiles et historisées,
organisées pour le support d’un processus d’aide à la
décision »
Principe: mettre en place une base de données utilisée à des
fins d’analyse
19
Définition d'un data warehouse
" Un data warehouse est un référentiel (repository) de
données historiques orientées sujet et évolutives dans
le temps, utilisé pour l'extraction d'informations et
l'aide à la décision. Il peut contenir des données
atomiques et des données récapitulatives." - Oracle Data
Warehouse Method
Définition d’un DW
Une base de données d’aide à la décision qui est
entretenue de manière séparée de la base de données
opérationnelle de l’organisation.
Aide au traitement de l’information en fournissant une
plateforme de données historiques consolidées pour
l’analyse.
Data warehousing : Le processus de construction et
d’utilisation du data warehouse
21
Les 4 caractéristiques des data
warehouse
1. Données orientées sujet:
Regroupe les informations des différents métiers
Ne tiens pas compte de l’organisation fonctionnelle des
données
Ass. Vie Ass. Auto Ass. Santé
Client
Police
22
Données orientées sujet :
Organisées autour de sujets majeurs comme
consommateur, produit, ventes
Données pour l’analyse et la modélisation en vue de l’aide
à la décision, et non pas pour les opérations et
transactions journalières
Vue synthétique des données selon des sujets intéressant
les décideurs
23
Les 4 caractéristiques des data
warehouse
2. Données intégrées :
Normalisation des données
Définition d’un référentiel unique
h,f
1,0 h,f
homme, femme
D
EUR
CHF
24
USD
Données intégrées :
Construit en intégrant des sources de données
multiples et hétérogènes
BD relationnelles, fichiers, enregistrements de transactions
Nettoyage et intégration des données
Consistence dans les noms des champs, le codage des
données issues de plusieurs sources
La conversion se fait quand les donnés sont transférées dans
le DW
25
Les 4 caractéristiques des data
warehouse
3. Données non volatiles
Traçabilité des informations et des décisions prises
Copie des données de production
Bases de production Entrepôts de données
Ajout
Suppression
Accès
Modification Chargement
26
Données non volatiles :
Stockage indépendant des BD opérationnelles
Pas de mises à jour des données dans le DW
2 actions sur le DW
Alimentation du DW à partir des données des BD opérationnelles
Accès (lecture) de ces données
27
Les 4 caractéristiques des data
warehouse
4. Données datées
Les données persistent dans le temps
Mise en place d’un référentiel temps
Image de la base en Mai 2005 Image de la base en Juillet 2006
Répertoire Répertoire
Base de Nom Ville Nom Ville
production
Ali Paris Ali Marseille
Mohamed Lyon Mohamed Lyon
Calendrier Répertoire
Entrepôt Code Nom VilleVille
Code Année Mois Nom
de
1 2005 Mai 1 Dupont
Ali ParisParis
données
2 2006 Juillet 1 Durand LyonLyon
Mohamed
28
2 Ali Marseille
Données datées
L’échelle de temps dans le DW est beaucoup plus
longue que dans les BD
BD opérationnelle: valeur courante des données
DW: information dans une perspective historique (ex: les 5
dernières années)
Chaque structure dans le DW contient un élément
décrivant le temps
29
SGBD & Datawarehouse
Basés sur deux systèmes différents :
• OLTP
• OLAP
30
OLTP
SGBD traditionnels « We are data rich … »
applications commerciales
importants volumes (Mo/Go)
Fondements mathématiques
processus transactionnels en ligne
(On-Line Transactional Processing)
Exemple : Le 15/01/2013 à 13h12, le client X
a retiré 500DT du compte Y
31
OLTP
(On Line Transaction Processing )
• Utilisé par les SGBD.
• Insérer, modifier, interroger rapidement.
• Accès par plusieurs utilisateurs.
• Faibles quantité d’informations.
32
Les Processus OLTP
Sont
• interactifs et concurrents
• nombreux
• répétitifs et structurés
• simples
Et concernent
• la mise à jour des données
• un nombre de tuples restreint
• des données détaillées et à jour
33
OLAP
« …but information poor »
Nourrir les systèmes d’aide à la décision (DSS) avec un
ensemble de BD
• Exploration et analyse de données historiques
• Énormes volumes de données (To)
• Processus analytiques en ligne
(On-Line Analytical Processing)
Exemple : Quel est le volume des ventes par produit et par
région durant le troisième trimestre de 2012?
34
OLAP
(On Line Analytical Processing )
• Utilisé par les Datawarehouse.
• Lecture seulement.
• Organiser des informations provenant de sources
diverses .
• Ordre de grandeur nettement supérieur à celle des
bases OLTP .
35
Les Processus OLAP
Sont
• interactifs et concurrents
• peu nombreux
• non prévisibles
• complexes
Et concernent
• l’exploration des données
• un nombre de tuples très important
• des données consolidées, synthétiques
36
SGBD et DW
Service Service Service
OLTP: On-Line commercial Financier livraison
Transactional BD prod BD prod BD prod
Processing
Clientèle
H
I
Data Warehouse S
T
OLAP: On-Line O
Analytical R
Clientèle I
Processing
Q
U
37 E
OLTP VS DW
OLTP DW
Orienté transaction Orienté analyse
Orienté application Orienté sujet
Données courantes Données historisées
Données détaillées Données agrégées
Données évolutives Données statiques
Utilisateurs nombreux, Utilisateurs peu nombreux,
administrateurs/opérationnels manager
Temps d’exécution: court Temps d’exécution: long
38
Comparaison
Caractéristiques OLTP OLAP
Utilisation SGBD (base de Datawarehouse
production)
Opération typique Mise à jour Analyse
Type d'accès Lecture écriture Lecture
Niveau d'analyse Elémentaire Global
Quantité d'information Faible Importante
échangées
Orientation Ligne Multidimension
Taille BD Faible (max qq GB) Importante (pouvant aller
à plusieurs TB).
Ancienneté des données Récente Historique
39
1. OLTP et OLAP
Reports
&
Appli.
Appli. OLAP Analysis
Appli.
ETL
DW
OLTP
DM Aide à
la décision
40
Séparation physique
Il est important de séparer les bases de
production (SGBD) du datawarehouse :
• Performances.
• Conservation de données.
• Systèmes de production différents.
41
Pourquoi dissocier une BD d’un ED?
Les objectifs de performances dans les BD ne sont pas les
mêmes que ceux dans les EDs :
BD : requêtes simples, méthodes d’accès et d’indexation
ED : requêtes OLAP souvent complexes!!!
La nécessité de combiner des données provenant de
diverses sources, d’effectuer des agrégations dans un ED et
d’offrir des vues multidimensionnelles
Les données d’un ED sont souvent non volatiles et ont
donc une plus longue durée de vie que celles d’une BD
42
43
44
Facteurs de succès d’un DW
Voici les caractéristiques le plus souvent associées à la
réussite d’un DW :
Des objectifs de progrès clairs
Des informations homogènes et consolidées
Des informations utiles
La garantie de la qualité des données (cohérentes, à jour,
documentées)
Un accès direct pour les utilisateurs
45
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
46
Datamart - Magasin de données
Sous-ensemble d’un entrepôt de données
Destiné à répondre aux besoins d’un secteur ou d’une
fonction particulière de l’entreprise
Point de vue spécifique selon des critères métiers
Datamarts du
service Marketing
Datamart du
DW de l’entreprise service Ressources
Humaines
47
Intérêt des datamart
Nouvel environnement structuré et formaté en fonction
des besoins d’un métier ou d’un usage particulier
Moins de données que DW
Plus facile à comprendre, à manipuler
Amélioration des temps de réponse
Utilisateurs plus ciblés: DM plus facile à définir
48
Datamart - Magasin de données
Entrepôt de données (ED) ou Datawarehouse :
Système d’information agrégeant des données
non volatiles et historisées, dans un but d’aide à
la décision.
Datamart : ED spécialisé « métier », ou ED
partiel
49
Entrepôts et Data Marts
50
Comparaison entre data warehouse et Datamart
Propriété Data Warehouse Datamart
Portée Entreprise Département
Sujets Multiple Sujet unique,
professionnel
Source de données Nombreuses Peu nombreuses
Taille (typique) 100 Go à > 1 To < 100 Go
Temps Mois à années Mois
d'implémentation
Data Datamart
warehouse
Entrepôts et Data Marts
52
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
53
Architecture générale
Zone de
Zone de préparation Zone de stockage présentation
E
X
C
T H
R A
Transformations: Data Requêtes
A R
Nettoyage warehouse Rapports
C G
T Standardisation Visualisation
E
I … Data Mining
M
O …
E
N
N
Sources de Datamart
T
données
54
Architecture générale
55
Architecture Fonctionnelle d’un DWH
56
Architecture Fonctionnelle d’un DWH :les
composants
57
Structure générale des données dans le DWH
58
Structure générale des données dans le DWH
59
Les flux de données
Flux entrant
Extraction: multi-source, hétérogène
Transformation : filtrer, trier, homogénéiser, nettoyer
Chargement : insertion des données dans l’entrepôt
Flux sortant :
Mise à disposition des données pour les utilisateurs finaux
60
Les différentes zones de l’architecture
Zone de préparation (Staging area)
Zone temporaire de stockage des données extraites
Réalisation des transformations avant l’insertion dans le DW:
Nettoyage
Normalisation…
Données souvent détruites après chargement dans le DW
Zone de stockage (DW, DM)
On y transfère les données nettoyées
Stockage permanent des données
Zone de présentation
Donne accès aux données contenues dans le DW
Peut contenir des outils d’analyse programmés:
Rapports
Requêtes…
61