0% ont trouvé ce document utile (0 vote)
49 vues39 pages

Entrepôts de Données

Transféré par

holinesstchitembo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
49 vues39 pages

Entrepôts de Données

Transféré par

holinesstchitembo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Entrepôts de

données
Contexte (1)
 Besoin :
 Prise de décisions stratégiques et tactiques
 Réactivité
 Qui :
 les décideurs (non informaticiens, non statisticiens)
 Comment :
 Répondre aux demandes d’analyse de données
 Dégager des informations qualitatives nouvelles

2
Contexte (2)
 Type de données : données opérationnelles (de
production)
 Bases de données, Fichiers, Paye, Gestion RH, …

 Caractéristiques des données :


 Distribuées : systèmes éparpillés
 Hétérogènes : systèmes et structures de données différents
 Détaillées : organisation de données selon les processus
fonctionnels et données trop abondantes pour l’analyse
 Peu/pas adaptées à l’analyse : des requêtes lourdes peuvent
bloquer le système transactionnel
 Volatiles : pas d’historisation systématique
3
Problématique (1)
Nous avons donc :

 Une grande masse de données


 Distribuées
 Hétérogènes
 Très détaillées

 à traiter
 Synthétiser / résumer
 Visualiser
 Analyser

 pour une utilisation par des


 Experts / analystes d’un métier
 Non informaticiens
 Non statisticiens
4
Solution

Mettre en place un SI dédié aux applications


décisionnelles : un entrepôt de données
(datawarehouse)
 Transformer des données de production en
informations stratégiques

5
Sources : Th. Ester, HEC Lausanne
L’entrepôt : Définition

 Le DW est une collection de données


orientées sujet, intégrées, non volatiles et
historisées, organisées pour le support
d’un processus d’aide à la décision.
W.H. Inmon (1996)

 C’est une BD à des fins d’analyse !!

6
Pourquoi pas un SGBD ? (1)
 Fonctions d’un SGBD :
 Systèmes transactionnels (OLTP)
 Permettre d’insérer, modifier, interroger
rapidement, efficacement et en sécurité les
données de la base
 Répondre à de nombreux utilisateurs
simultanément

7
Pourquoi pas un SGBD ? (2)
 Fonctions d’un DW :
 Systèmes pour l’aide à la prise de décision
(OLAP)
 Regrouper, stocker etorganiser des
informations provenant de sources
diverses (lecture seule!)
 Retrouver et analyser l’information
rapidement et facilement

8
Pourquoi pas un SGBD ? (3)
OLTP DW
Utilisateurs Nombreux Peu
Employés Analystes
Données Alphanumériques Numériques
Détaillées / atomiques Résumées / agrégées
Orientées application Orientées sujet
Dynamiques Statiques
Requêtes Prédéfinies « one-use »
Accès Peu de données Beaucoup d’informations
(courantes) (historisées)
But Dépend de l’application Prise de décision
Temps d’exécution Court Long
Mises à jour Très souvent Périodiquement
9
Pourquoi pas un SGBD ? (4)

10
Sources : Lydie Soler, AgroTechParis
Caractéristiques d’un DW
 Inconvénient :
De par sa taille, le DW est rarement utilisé
directement par les décideurs car il
contient plus que nécessaire pour une
classe de décideurs

11
Le datamart
 Sous-ensemble d’un entrepôt de données
 Destiné à répondre aux besoins d’un secteur/une
fonction particulière de l’entreprise
 Point de vue spécifique selon des critères
métiers

12
Sources : Lydie Soler, AgroTechParis
Architecture d’un système décisionnel

21
Sources : C. Chrisment, IRIT
Plus en détails…

14
Modélisation multidimensionnelle
 Modélisation multidimensionnelle des
données facilitant l’analyse d’une quantité
selon différentes dimensions :
 Temps,
 Localisation géographique,
…

 Les calculs sont réalisés lors du


chargement ou de la mise à jour du cube.
15
Exemple de Cube

16
Fait
 Sujet analysé

 Un fait représente la valeur d’une mesure, calculée ou mesurée, selon un


membre de chacune des dimensions

 La table de fait contient les valeurs des mesures et les clés vers les tables
de dimensions

17
Dimension (1)
 Axes d'analyse avec lesquels on veut faire l'analyse
 Géographique, temporel, produits, etc.
 Chaque dimension comporte un ou plusieurs
attributs/membres

 Une dimension est tout ce qu'on utilisera pour faire


nos analyses.

18
Dimension (2)
Dimension produit
Clé de substitution Clé produit (CP)
Code produit
Description du produit
Attributs de la
dimension Famille du produits
Marque
Emballage
Poids

19
Mesure
 Élément de donnée sur lequel portent les
analyses, en fonction des différentes
dimensions.

 Ces valeurs sont le résultat d’opérations


d’agrégation sur les données
 Exemple :
 Coût des travaux
 Nombre d’accidents
 Ventes
 …

20
Axe d’Analyse

21
Les dimensions
 Une dimension est une catégorisation utilisée pour étaler
une mesure agrégée afin de révéler ses composants.

22
Les dimensions
 On peut analyser une mesure selon plusieurs dimensions.

Cube de données

23
Clés

 Tables de dimension
 Clé primaire

 Tables de fait
 Clé composée
 Clés étrangères des tables de dimension

24
Modélisation

 Au niveau conceptuel, il existe 2 modèles :


 enétoile (star schema)
 Ou en flocon

25
Modèle en étoile (1)
 Une table de fait centrale et des dimensions

 Les dimensions n’ont pas de liaison entre elles

 Avantages :
 Facilité
de navigation
 Nombre de jointures limité

 Inconvénients :
 Redondance dans les dimensions
 Toutes les dimensions ne concernent pas les
mesures

26
Modèle en étoile (2)

27
Sources : Lydie Soler, AgroTechParis
Constellation (1)

 Série d’étoiles
 Fusion de plusieurs modèles en étoile qui
utilisent des dimensions communes
 Plusieurs tables de fait et tables de
dimensions, éventuellement communes

28
Constellation
(2)

38
Sources : [Link]
Modèle en flocon (1)
 Modèle en étoile + normalisation des dimensions
 Une table de fait et des dimensions en sous-hiérarchies
 Un seul niveau hiérarchique par table de dimension
 La table de dimension de niveau hiérarchique le plus bas est
reliée à la table de fait (elle a la granularité la plus fine)

 Avantages :
 Normalisation des dimensions
 Economie d’espace disque (réduction du volume)

 Inconvénients :
 Modèle plus complexe (nombreuses jointures)
 Requêtes moins performantes
 Navigation difficile

30
Modèle en flocon (2)

48
Sources : Lydie Soler, AgroTechParis
Exemple de schéma en flocons

32
Exercice
On considère un entrepôt de données permettant d’observer les ventes de
produits d’une entreprise. Le schéma des tables est le suivant :
 CLIENT (id-client, région, ville, pays, département)
 PRODUIT (id-prod, catégorie, coût-unitaire, fournisseur, prix-
unitaire, nom-prod)
 TEMPS (id-tps, mois, nom-mois, trimestre, année)
 VENTE (id-prod, id-tps, id-client, date-expédition, prix-de-vente,
frais-de-livraison)

Questions
1. Indiquer quelles sont la (les) table(s) de fait et les tables de
dimension de cet entrepôt.
2. Donner la représentation du schéma en étoile de l’entrepôt.
3. On veut transformer ce schéma en schéma en flocon. Donner la
nouvelle représentation de la table TEMPS (ajouter des paramètres
/ attributs, si nécessaire)

33
Application : Exercice 2 du TD

34
Quelques solutions commerciales

35
Quelques solutions Open source

36
Ne pas oublier… (1)
 Le volume de données manipulées

37
Ne pas oublier… (2)
 Voici 2 étapes importantes pour la
réalisation d’un DW :
 Conception
 Acquisition des données

38
Références
 « Data Warehouse Design: Modern
Principles and Methodologies » de Matteo
Golfarelli et Stefano Rizzi, 2009, Ed:
Osborne/McGraw-Hill.

 « Olap Solutions: Building


Multidimensional Information Systems »
de E. Thomsen, 2002, Ed: John Wiley &
Sons Inc.
39

Vous aimerez peut-être aussi