Les entrepôts de données
1
Plan
Introduction
Les entrepôts de données
Les datamart
2
Le contexte
Besoin: prise de décisions stratégiques et tactiques
Pourquoi: besoin de réactivité
Qui: les décideurs (non informaticiens)
Comment: répondre aux demandes d’analyse des données, dégager
des informations qualitatives nouvelles
Pourquoi et
Qui sont mes
comment le
meilleurs
chiffre
clients?
d’affaire a
baissé?
A combien
Quels gens
s’élèvent mes
consomment
ventes
beaucoup de
journalières?
poisson?
3
Les données utilisables par les décideurs
Données opérationnelles (de production)
Bases de données (Oracle, SQL Server)
Fichiers, …
Paye, gestion des RH, gestion des commandes…
Caractéristiques de ces données:
Distribuées: systèmes éparpillés
Hétérogènes: systèmes et structures de données différents
Détaillées: organisation des données selon les processus
fonctionnels, données surabondantes pour l’analyse
Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent
bloquer le système transactionnel
Volatiles: pas d’historisation systématique
4
Problématique
Comment répondre aux demandes des décideurs?
En donnant un accès rapide et simple à l’information
stratégique
En donnant du sens aux données
Mettre en place un système d’information dédié aux
applications décisionnelles:
un data warehouse
5
Le processus de prise de décision
Champs d’application des
systèmes décisionnels
Définir le Rassembler Analyser les Établir des Décider
problème les données données solutions
Temps de prise d’une décision
6
Le processus de prise de décision
Prise de
décision
Bases de Data Base multi - Prédiction /
production warehouse dimensionnelle simulation
7
Domaines d’utilisation des DW
Banque
Risques d’un prêt, prime plus précise
Santé
Épidémiologie
Risque alimentaire
Commerce
Ciblage de clientèle
Déterminer des promotions
Logistique
Adéquation demande/production
Assurance
Risque lié à un contrat d’assurance (voiture)
…
8
Quelques métiers du décisionnel
Strategic Performance Management
Déterminer et contrôler les indicateurs clé de la performance de
l’entreprise
Finance Intelligence
Planifier, analyser et diffuser l’information financière. Mesurer et
gérer les risques
Human Capital Management (gestion de la relation avec les employés)
Aligner les stratégies RH, les processus et les technologies.
Customer Relationship Management (gestion de la relation client)
Améliorer la connaissance client, identifier et prévoir la
rentabilité client, accroitre l’efficacité du marketing client
Supplier Relationship Management (gestion de la relation fournisseur)
Classifier et évaluer l’ensemble des fournisseurs. Planifier et
9
piloter la stratégie Achat.
Domaines d’application
Ceux de l’informatique décisionnelle (Business Intelligence) pour:
aider atteindre les objectifs stratégiques d’une entreprise et faciliter son
pilotage
avoir une connaissance plus approfondie de l’entreprise anticiper les
besoins clients
prendre en compte les nouveaux canaux de distribution (vente en ligne,
etc.)
10
Domaines d’application
Informatique décisionnelle
Entrepôt de données
Outils de veille stratégique et de recueil d’information (intelligence
économique)
Aide aux décideurs pour prendre les bonnes décisions sur la base
des données disponibles
Exemples :
Quels sont les 5 produits les plus vendus pour chaque sous-catégorie de
produits qui représente plus de 20% des ventes dans sa catégorie de
produits ?
Quelle est la priorité d’expédition et quel est le revenu brut potentiel des
commandes de livres qui ont les 10 plus grandes recettes brutes parmi les
commandes qui n’avaient pas encore été expédiées ?
11
Applications
Commerce, finance, transport, télécommunications, santé, services,
...
gestion de la relation client, gestion des commandes, des stocks
prévisions de ventes
définition de profil utilisateur analyse de transactions bancaires
détection de fraudes
...
12
Principales applications autour d’un ED
Réalisation de rapports divers (Reporting )
Réalisation de tableaux de bords (Dashboards)
Fouille de données (Data Mining )
Visualisations autour d’un ED (visualizations)
...
13
Exploitation d’un ED
Rapports (Reporting ) :
Besoin d’un accés régulier à des informations presque figées
Ex: dans les hôpitaux, rapports mensuels envoyés aux agences
nationales
Rapport :
•une ou plusieurs requêtes
•une mise en page (diagrammes, histogrammes)
Production manuelle ou automatique des rapports
14
Exploitation d’un ED
Tableaux de bords (Dashboards) :
Affichage d’une quantité limitée d’informations dans un format
graphique facile à lire
Utilisation fréquente par les cadres supérieurs pour avoir (qui ont
besoin) un rapide aperçu des changements les plus importants
→ un aperçu en temps réel d’évolutions
Remarque : Pas vraiment utile pour une analyse complexe et
détaillée
15
Exemples d’application
Domaine bancaire
Un des premiers utilisateur de ED
Regroupement des informations relatives à un client pour une demande
de crédit
Lors de la commercialisation d’un nouveau produit : Mailing ciblés
rapidement élaborés à partir de toutes les informations disponibles sur
un client
Recherche de fraudes sur les cartes de crédit :
Mémorisation des mouvements et contrôles a posteriori, pour détecter les
comportements suspects
Echanges d’actions et de conseils de courtages Déterminer des
tendances de marchés grâce à :
• la mémorisation de l’historique
• une exploitation par des outils décisionnels avancés 16
Exemples d’application
Grande distribution
Regroupement d’informations sur les ventes pour l’analyse du comportement
(produits à succés, suivi des modes, habitudes d’achats, préférences des clients par
secteur géographique)
•Mise en évidence les régles de consommation grâce à la fouille de données
•Cas d’école : Exploration du panier de la ménagére : connaître les produits achetés en
même temps
Impacts :
augmentation des ventes grâce à un meilleur marketing
amélioration des taux de rotation de stocks
élimination des produits obsolétes
définition des rabais, remises, ristournes, promotions
meilleure négociation des achats
17
Exemples d’application
Télécommunications
Grande masse de données :
• Plusieurs mois de descriptions détaillées des appels
• Pour chaque appel : appelant, appelé, heure et durée
Exploitation de ces données pour
• analyser le traffic
• mieux cerner les besoins des clients
• classer les clients par catégories
• comprendre le comportement des clients (changement d’opérateurs, besoins)
18
Exemples d’application
Assurance et de la pharmacie
Domaines trés demandeurs de techniques décisionnelles pour
Déterminer le facteur de risque d’un assuré
Meilleure connaissance des clients, détection de rejets, ciblage du
marketing, etc
Détecter l’impact d’un médicament, ses effets indésirables, etc.
Couplage avec les technologies du Web : Data Webhouse
(encore plus de données et donc plus d’informations)
19
Les entrepôts de données
1
Plan
Introduction
Les entrepôts de données
Les datamart
Définition d’un DW
W. H. Inmon (1996):
« Le data Warehouse est une collection de
données orientées sujet, intégrées, non
volatiles et historisées, organisées pour le
support d’un processus d’aide à la décision »
Principe: mettre en place une base de données
utilisée à des fins d’analyse
3
Les 4 caractéristiques des data warehouse
1. Données orientées sujet:
Regroupe les informations des différents métiers
Ne tiens pas compte de l’organisation fonctionnelle
des données
Ass. Vie Ass. Auto Ass. Santé
Client
Police
4
Les 4 caractéristiques des data warehouse
2. Données intégrées:
Normalisation des données
Définition d’un référentiel unique
h,f
1,0 h,f
homme, femme
GBP
EUR
CHF
USD 5
Les 4 caractéristiques des data warehouse
3. Données non volatiles
Traçabilité des informations et des décisions prises
Copie des données de production
Bases de production Entrepôts de données
Ajout
Suppression
Accès
Modification Chargement
6
Les 4 caractéristiques des data warehouse
4. Données datées
Les données persistent dans le temps
Mise en place d’un référentiel temps
Image de la base en Mars 2021 Image de la base en Juillet 2021
Répertoire Répertoire
Base de Nom Ville Nom Ville
production
Ali Tunis Ali Sfax
Ahmed Gafsa Ahmed Gafsa
Calendrier Répertoire
Entrepôt Code Année Mois
Code Année Mois
de
1 2021
2005 Mars
Mai 1 Ali
Dupont Tunis
Paris
données
2 2021 Juillet 1 Ahmed
Durand Gafsa
Lyon
7
2 Ali Sfax
Objectifs de l ’Entrepôt de Données
Accessibilité des informations
facile à comprendre donc à utiliser
Information cohérente
idempotence avec le temps
incomplétude signalée
Manipulation des mesures de l’activité
combinaison et séparation (tranches et dès)
Ensemble de données et de moyens
requêtes, analyse, présentation, …
8
Publication de données déjà servies
Vue d’ensemble
Qu’est ce que l’Entreposage des données ?
Conception
Construction
Administration
Restitution
9
Vue d’ensemble
Conception
Il s’agit de définir la finalité du ED :
Piloter quelle activité de l’entreprise ;
Déterminer et recenser les données à entreposer
Définir les aspects techniques de la réalisation ;
modèle de données ;
démarches d’alimentation ;
stratégies d’administration ;
définition des espaces d’analyse ;
mode de restitution…
10
Vue d’ensemble
Construction (Travail technique.)
Extraction des données des différentes BD de production (internes ou
externes)
Nettoyage des données, règles d’homogénéisation des données sous
formes de métadonnées.
Techniques d’alimentation :
Chargement des données dans l’ED ;
Fréquences de rafraîchissement :
par applications d’interfaces entre les sources de données et
l’ED ;
par serveurs de réplication du SGBD ou par outils spécialisés.
11
Vue d’ensemble
Administration
Elle est constituée de plusieurs tâches pour assurer :
la qualité et la pérennité des données aux différents applicatifs ;
la maintenance ;
la gestion de configuration ;
les mises à jour ;
l’organisation, l’optimisation du SI ;
la mise en sécurité du SI.
12
Vue d’ensemble
Restitution
C’est le but du processus d’entreposage des données.
Elle conditionne le choix de l’architecture de l’ED et de sa
construction.
Elle doit permettre toutes la analyses nécessaires pour la
construction des indicateurs recherchés.
13
Vue d’ensemble
Entrepôt de données Versus base de données relationnelle.
OLTP : "On-Line Transactional Processing ”
gérer les importants volumes d'informations
contenus dans leurs systèmes opérationnels
OLAP : "On-Line Analytical Processing”
répondent aux besoins spécifiques d’analyse
d'informations qui doit se faire de manière interactive
et rapide, pour des données quelconques et
historisées
14
SGBD et DW
Service Service Service
OLTP: On-Line commercial Financier livraison
Transactional BD prod BD prod BD prod
Processing
Clientèle
H
I
Data Warehouse S
T
OLAP: On-Line O
Analitical R
Clientèle I
Processing
Q
U
15
E
OLTP VS DW
OLTP DW
Orienté transaction Orienté analyse
Orienté application Orienté sujet
Données courantes Données historisées
Données détaillées Données agrégées
Données évolutives Données statiques
Utilisateurs nombreux, Utilisateurs peu nombreux,
administrateurs/opérationnels manager
Temps d’exécution: court Temps d’exécution: long
16
Les entrepôts de données
1
Plan
Introduction
Les entrepôts de données
Les datamart
2
Datamart
Les Data Warehouses étant, en général, très
volumineux et très complexes à concevoir, on a
décidé de les diviser en bouchées plus faciles à
créer et entretenir. Ce sont les Data Marts.
3
Datamart
Sous-ensemble d’un entrepôt de données
Destiné à répondre aux besoins d’un secteur ou
d’une fonction particulière de l’entreprise
Point de vue spécifique selon des critères métiers
Datamarts du
service Marketing
Datamart du
DW de l’entreprise service Ressources
Humaines 4
On peut faire des divisions par fonction (un data
mart pour les ventes, pour les commandes, pour
les ressources humaines) ou par sous-ensemble
organisationnel (un data mart par succursale).
Nous verrons plus tard comment organiser les
data marts pour créer un entrepôt proprement dit.
5
Intérêt des datamart
Nouvel environnement structuré et formaté en
fonction des besoins d’un métier ou d’un usage
particulier
Moins de données que DW
Plus facile à comprendre, à manipuler
Amélioration des temps de réponse
Utilisateurs plus ciblés: DM plus facile à définir