TD1 – Entrepôt de données (ED) 05/10/2022
Ex1 : Questions de cours
1) Pour concevoir un système décisionnel, il y a deux principales approches possibles :
- L’approche matérialisée où les données des sources sont stockées dans un entrepôt de
données et les requêtes décisionnelles sont exécutées sur cet entrepôt ;
- L’approche virtuelle où les requêtes décisionnelles sont directement exécutées sur les
sources de données.
Pourquoi l’approche matérialisée est-elle celle qui est la plus utilisée en pratique ?
Avantages Inconvénients
Ne prend pas de place sur le disque Perte de l’historique
ED Virtuel dur (D.D) Toutes les maj modifient l’entrepôt
Pas de doublon (pas de serveur dédié, accès aux tables
de la BD transactionnelle)
Conservation de l’historique Prend de la place
ED Matérialisé Eviter la surcharge Mise à jour des tables périodiquement
Utiliser un serveur dédié
ED virtuel : basé sur la base transactionnelle (endroit ou se font toutes les opération de tous les
jours)
2) A quoi servent les hiérarchies que l'on construit sur les dimensions d'un entrepôt de données ?
Permet de séparer une des deux tables en flocons et d’avoir moins de doublons. Si on regroupe tout
cela va créer des doublons.
On veut pouvoir faire les requêtes par hiérarchie. Facilite les recherche.
Hiérarchie dans les dimensions requêtes spécifiques par sous-totaux
Ex2 : approche ROLAP
Un directeur d'une entreprise de la grande distribution souhaite analyser et suivre les ventes de
produits dans son réseau de magasins. Les produits sont organisés en famille (‘Sèche-linge’, ‘Plat
préparé’) et gamme de produit (‘Alimentaire’, ‘Electroménager’, etc.) et ont une marque qui peut
être celle de l’entreprise (on parle alors de marque du distributeur).
Le directeur souhaite obtenir une réponse aux questions suivantes :
- Quels produits dégagent la plus forte rentabilité dans le temps (jour, semaine, mois,
trimestre, semestre, année) ?
Même question pour des familles de produits et plus généralement des gammes de produit.
- Existe-t-il des disparités de consommation des produits entre les villes, départements
(caractérisés par un numéro), régions (caractérisées par son chef-lieu) et/ou pays
(caractérisés sa capitale) ?
- Quelle est la répartition des ventes entre les produits de marque des fabricants et ceux de la
marque du distributeur ?
- Quel est le chiffre d'affaire réalisé avec les plus gros fournisseurs ? Même question pour les
groupes de fournisseur.
- Quel est le magasin et l’enseigne de magasin réalisant le plus gros chiffre d’affaire ?
TD1 – Entrepôt de données (ED) 05/10/2022
On suppose pour l’instant que le lieu d’une vente ne correspond pas toujours à la localisation du
magasin qui a fait la vente (un magasin peut avoir un « drive » éloigné du magasin ou faire de la
vente à domicile, etc.).
1) Quelles sont les différentes dimensions d'analyse et leur hiérarchie. Déduisez-en un modèle
conceptuel de l’entrepôt selon le formalisme DFM.
Dimensions : il y a toujours le temps
TEMPS (TID, Année, Semaine, Trimestre, Mois, Semaine, Jour)
PRODUITS (PID, Produit, Famille, Gamme, Marque)
MAGASIN (MID, nomMagasin, Enseigne)
LOCALISATIONS (LID, Ville, Département, Région, Pays)
FOURNISSEURS (FID, nomFournisseur, groupeFournisseur)
Fait : mesures calculables : (exemple : rentabilité, nb ventes, CA)
Ventes (Chiffre d’Affaires, Rentabilité)
Voir schéma papier
Année Semaine
Jour
Semestre Trimestre Mois
2) Que faudrait-il changer si le lieu de vente correspondait forcément à la localisation du magasin
ayant fait la vente ?
faire la liaison entre magasin et ville
3) Construire un schéma en étoile correspondant au modèle conceptuel de la question 1.
Montrez comment vous pouvez normaliser les dimensions pour obtenir un schéma en flocon de
neige (vous le ferez pour au moins une dimension)
TD1 – Entrepôt de données (ED) 05/10/2022
SOULIGNER LES Clés PRIMAIRES
Dans ventes on retrouves tous les ID
On va transformer la tables localisation en flocon de neige.
Ex3
La direction de Génie Physiologique-Informatique de Poitiers souhaite étudier les facteurs influant
sur la réussite de ses étudiants aux examens. Pour cela elle décide de construire un entrepôt de
données afin de répondre aux questions suivantes :
- Quel est le taux de réussite aux examens par cours, pour l'année 2020 ?
- Quel est le taux de réussite aux examens d'un cours obligatoire, pour l'année 2018 ?
- Quel est le taux de réussite aux examens par genre (féminin, masculin), pour l'année 2016?
- Combien d'étudiants ayant l’âge de 22 ans ont réussi leurs examens de POO ?, pour les 20-25
ans ?
- Quel est le nombre de réussites aux examens pendant le semestre d'hiver 2015 ?
Pour construire cet entrepôt la direction dispose de la source de données suivante : pour chaque
examen passé, on connaît l'âge et le sexe de l'étudiant, le nom du cours (les cours peuvent être
regroupés en cours obligatoire et cours à option), la date de l'examen, la note obtenue et si l'examen
est réussi ou non.
1) Proposez un modèle conceptuel au format DFM et/ou le schéma en étoile correspondant.
Fait ? (= Qu’est-ce qu’on mesure ?)
Taux de réussite
Nb d’étudiants
Dimensions
TEMPS (TID, Semestre, Année)
ETUDIANTS (EID, Genre, Age)
COURS (CID, NomCours, Obligatoire)
G_ETUDIANTS pour avoir le gp
Voir TD correction drive