Les entrepôts de données
1
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
Les bases de données multidimensionnelles
Le marché du décisionnel
Démonstration
2
Le contexte
Besoin: prise de décisions stratégiques et tactiques
Pourquoi: besoin de réactivité
Qui: les décideurs (non informaticiens)
Comment: répondre aux demandes d’analyse des données, dégager
des informations qualitatives nouvelles
Pourquoi et
Qui sont mes
comment le
meilleurs
chiffre
clients?
d’affaire a
baissé?
A combien
Quels clients
s’élèvent mes
consomment
ventes
beaucoup de
journalières?
poisson?
3
Les données utilisables par les décideurs
Données opérationnelles (de production)
Bases de données (Oracle, SQL Server)
Fichiers, …
Paye, gestion des RH, gestion des commandes…
Caractéristiques de ces données:
Distribuées: systèmes éparpillés
Hétérogènes: systèmes et structures de données différents
Détaillées: organisation des données selon les processus
fonctionnels, données surabondantes pour l’analyse
Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent
bloquer le système transactionnel
Volatiles: pas d’historisation systématique
4
Problématique
Comment répondre aux demandes des décideurs?
En donnant un accès rapide et simple à l’information
stratégique
En donnant du sens aux données
Mettre en place un système d’information dédié aux
applications décisionnelles:
DATA WAREHOUSE
5
Le processus de prise de décision
Champs d’application des
systèmes décisionnels
Définir le Rassembler Analyser les Établir des Décider
problème les données données solutions
Temps de prise d’une décision
6
Le processus de prise de décision
Prise de
décision
Bases de Data Base multi - Prédiction /
production warehouse dimensionnelle simulation
7
Domaines d’utilisation des DW
Banque
Risques d’un prêt, prime plus précise
Santé
Épidémiologie
Risque alimentaire
Commerce
Ciblage de clientèle
Déterminer des promotions
Logistique
Adéquation demande/production
Assurance
Risque lié à un contrat d’assurance (voiture)
…
8
Quelques métiers du décisionnel
Strategic Performance Management
Déterminer et contrôler les indicateurs clé de la performance de
l’entreprise
Finance Intelligence
Planifier, analyser et diffuser l’information financière. Mesurer et
gérer les risques
Human Capital Management (gestion de la relation avec les employés)
Aligner les stratégies RH, les processus et les technologies.
Customer Relationship Management (gestion de la relation client)
Améliorer la connaissance client, identifier et prévoir la
rentabilité client, accroitre l’efficacité du marketing client
Supplier Relationship Management (gestion de la relation fournisseur)
Classifier et évaluer l’ensemble des fournisseurs. Planifier et
9
piloter la stratégie Achat.
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
Les bases de données multidimensionnelles
Le marché du décisionnel
Démonstration
10
Définition d’un DW
W. H. Inmon (1996):
« Le data Warehouse est une collection de
données orientées sujet, intégrées, non
volatiles et historisées, organisées pour le
support d’un processus d’aide à la décision »
Principe: mettre en place une base de données
utilisée à des fins d’analyse
11
Les 4 caractéristiques des data warehouse
1. Données orientées sujet:
Regroupe les informations des différents métiers
Ne tiens pas compte de l’organisation fonctionnelle
des données
Ass. Vie Ass. Auto Ass. Santé
Client
Police
12
Les 4 caractéristiques des data warehouse
2. Données intégrées:
Normalisation des données
Définition d’un référentiel unique
h,f
1,0 h,f
homme, femme
GBP
EUR
CHF
USD 13
Les 4 caractéristiques des data warehouse
3. Données non volatiles
Traçabilité des informations et des décisions prises
Copie des données de production
Bases de production Entrepôts de données
Ajout
Suppression
Accès
Modification Chargement
14
Les 4 caractéristiques des data warehouse
4. Données datées
Les données persistent dans le temps
Mise en place d’un référentiel temps
Image de la base en Mai 2005 Image de la base en Juillet 2006
Répertoire Répertoire
Base de Nom Ville Nom Ville
production
Dupont Paris Dupont Marseille
Durand Lyon Durand Lyon
Calendrier Répertoire
Entrepôt Code Année Mois
Code Année Mois
de
1 2005 Mai 1 Dupont Paris
données
2 2006 Juillet 1 Durand Lyon
15
2 Dupont Marseille
SGBD et DW
Les SGBD sont des systèmes conçus pour l'OLTP (On-Line Transaction
Processing).
Permet d'insérer, modifier, interroger des informations rapidement,
efficacement, en sécurité.
Deux objectifs principaux :
- ajouter, retrouver et supprimer des enregistrements repérés par une clef
- ces opérations doivent pouvoir être effectuées très rapidement, et
par de nombreux utilisateurs simultanément.
Les systèmes OLTP sont mal adaptés à l'analyse de données.
SGBD et DW
Les entrepôts sont des systèmes conçus pour l’aide à la prise de décision.
Les objectifs principaux sont
regrouper, organiser, coordonner des informations provenant de
sources diverses,
les intégrer et les stocker pour donner à l’utilisateur une vue
orientée métier,
retrouver et analyser l’information facilement et rapidement.
Questions typiques :
Quels sont les produits qui se vendent le mieux dans chaque région,
et quel est l’impact des données démographiques sur ces résultats
de vente ?
SGBD et DW
Un entrepôt recouvre un horizon bien plus long dans le temps
que les systèmes de production.
Il inclut de nombreuses bases de données «travaillées» de façon à
définir les données uniformément.
Il est optimisé pour répondre à des questions complexes pour décideurs
et analystes.
SGBD et DW
Service Service Service
OLTP: On-Line commercial Financier livraison
Transactional BD prod BD prod BD prod
Processing
Clientèle
H
I
Data Warehouse S
T
OLAP: On-Line O
Analitical R
Clientèle I
Processing
Q
U
19
E
SGBD et DW
Les entrepôts sont physiquement séparés des systèmes de production,
pour des raisons de
Performance : les données des systèmes de production ne sont pas organisées pour
pouvoir répondre efficacement aux requêtes des systèmes d’aide à la décision.
Même les requêtes simples peuvent dégrader sérieusement les performances.
Accès aux données: un entrepôt doit pouvoir accéder aux données uniformément,
quelle que soit la provenance des données.
Formats des données: les données des entrepôts sont transformées, et doivent être
disponibles sous un format simple et unique.
Qualité des données: les données d’un entrepôt sont propres et validées. La qualité
des données est vue au sens large du décisionnel, et ne peut être réalisée qu’après
comparaison avec d’autres éléments.
SGBD et DW
BD- OLTP Entrepôts
Objectif collecte de données consultation et analyse
opérations au jour le jour
Utilisateurs un département (Employé) transversal (Gestionnaire)
Types de
données de gestion données d’analyse
données (données courantes) (données historiques)
Informations détaillées détaillées + agrégées
n-uplets accédés dizaines millions
Opérations requêtes simples, pré-déterminées requêtes complexes, ad-hoc
sélections et mises à jour
nombreuses transactions
sélections peu de transactions
transactions courtes transactions longues
temps réel batch
recherche d'enregistrements
détaillés agrégations et group by
OLTP VS DW
OLTP DW
Orienté transaction Orienté analyse
Orienté application Orienté sujet
Données courantes Données historisées
Données détaillées Données agrégées
Données évolutives Données statiques
Utilisateurs nombreux, Utilisateurs peu nombreux,
administrateurs/opérationnels manager
Temps d’exécution: court Temps d’exécution: long
22