100% ont trouvé ce document utile (1 vote)
871 vues3 pages

Approches des entrepôts de données ED

L'approche matérialisée est la plus utilisée car elle permet la conservation de l'historique des données et évite la surcharge des sources de données, au prix d'une mise à jour et d'un stockage périodiques. Les hiérarchies sur les dimensions permettent de regrouper les données pour faciliter les requêtes par niveau de détail.

Transféré par

Emma
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
871 vues3 pages

Approches des entrepôts de données ED

L'approche matérialisée est la plus utilisée car elle permet la conservation de l'historique des données et évite la surcharge des sources de données, au prix d'une mise à jour et d'un stockage périodiques. Les hiérarchies sur les dimensions permettent de regrouper les données pour faciliter les requêtes par niveau de détail.

Transféré par

Emma
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

TD1 – Entrepôt de données (ED) 05/10/2022

Ex1 : Questions de cours

1) Pour concevoir un système décisionnel, il y a deux principales approches possibles :


- L’approche matérialisée où les données des sources sont stockées dans un entrepôt de
données et les requêtes décisionnelles sont exécutées sur cet entrepôt ;
- L’approche virtuelle où les requêtes décisionnelles sont directement exécutées sur les
sources de données.

Pourquoi l’approche matérialisée est-elle celle qui est la plus utilisée en pratique ?

Avantages Inconvénients
Ne prend pas de place sur le disque Perte de l’historique
ED Virtuel dur (D.D) Toutes les maj modifient l’entrepôt
Pas de doublon (pas de serveur dédié, accès aux tables
de la BD transactionnelle)
Conservation de l’historique Prend de la place
ED Matérialisé Eviter la surcharge Mise à jour des tables périodiquement
 Utiliser un serveur dédié

ED virtuel : basé sur la base transactionnelle (endroit ou se font toutes les opération de tous les
jours)

2) A quoi servent les hiérarchies que l'on construit sur les dimensions d'un entrepôt de données ?

Permet de séparer une des deux tables en flocons et d’avoir moins de doublons. Si on regroupe tout
cela va créer des doublons.
On veut pouvoir faire les requêtes par hiérarchie. Facilite les recherche.
Hiérarchie dans les dimensions  requêtes spécifiques par sous-totaux

Ex2 : approche ROLAP

Un directeur d'une entreprise de la grande distribution souhaite analyser et suivre les ventes de
produits dans son réseau de magasins. Les produits sont organisés en famille (‘Sèche-linge’, ‘Plat
préparé’) et gamme de produit (‘Alimentaire’, ‘Electroménager’, etc.) et ont une marque qui peut
être celle de l’entreprise (on parle alors de marque du distributeur).

Le directeur souhaite obtenir une réponse aux questions suivantes :


- Quels produits dégagent la plus forte rentabilité dans le temps (jour, semaine, mois,
trimestre, semestre, année) ?
Même question pour des familles de produits et plus généralement des gammes de produit.
- Existe-t-il des disparités de consommation des produits entre les villes, départements
(caractérisés par un numéro), régions (caractérisées par son chef-lieu) et/ou pays
(caractérisés sa capitale) ?
- Quelle est la répartition des ventes entre les produits de marque des fabricants et ceux de la
marque du distributeur ?
- Quel est le chiffre d'affaire réalisé avec les plus gros fournisseurs ? Même question pour les
groupes de fournisseur.
- Quel est le magasin et l’enseigne de magasin réalisant le plus gros chiffre d’affaire ?
TD1 – Entrepôt de données (ED) 05/10/2022

On suppose pour l’instant que le lieu d’une vente ne correspond pas toujours à la localisation du
magasin qui a fait la vente (un magasin peut avoir un « drive » éloigné du magasin ou faire de la
vente à domicile, etc.).

1) Quelles sont les différentes dimensions d'analyse et leur hiérarchie. Déduisez-en un modèle
conceptuel de l’entrepôt selon le formalisme DFM.

Dimensions : il y a toujours le temps


TEMPS (TID, Année, Semaine, Trimestre, Mois, Semaine, Jour)
PRODUITS (PID, Produit, Famille, Gamme, Marque)
MAGASIN (MID, nomMagasin, Enseigne)
LOCALISATIONS (LID, Ville, Département, Région, Pays)
FOURNISSEURS (FID, nomFournisseur, groupeFournisseur)

Fait : mesures calculables : (exemple : rentabilité, nb ventes, CA)


Ventes (Chiffre d’Affaires, Rentabilité)

Voir schéma papier

Année Semaine

Jour

Semestre Trimestre Mois

2) Que faudrait-il changer si le lieu de vente correspondait forcément à la localisation du magasin


ayant fait la vente ?
 faire la liaison entre magasin et ville

3) Construire un schéma en étoile correspondant au modèle conceptuel de la question 1.


Montrez comment vous pouvez normaliser les dimensions pour obtenir un schéma en flocon de
neige (vous le ferez pour au moins une dimension)
TD1 – Entrepôt de données (ED) 05/10/2022

SOULIGNER LES Clés PRIMAIRES


Dans ventes on retrouves tous les ID

On va transformer la tables localisation en flocon de neige.

Ex3

La direction de Génie Physiologique-Informatique de Poitiers souhaite étudier les facteurs influant


sur la réussite de ses étudiants aux examens. Pour cela elle décide de construire un entrepôt de
données afin de répondre aux questions suivantes :
- Quel est le taux de réussite aux examens par cours, pour l'année 2020 ?
- Quel est le taux de réussite aux examens d'un cours obligatoire, pour l'année 2018 ?
- Quel est le taux de réussite aux examens par genre (féminin, masculin), pour l'année 2016?
- Combien d'étudiants ayant l’âge de 22 ans ont réussi leurs examens de POO ?, pour les 20-25
ans ?
- Quel est le nombre de réussites aux examens pendant le semestre d'hiver 2015 ?

Pour construire cet entrepôt la direction dispose de la source de données suivante : pour chaque
examen passé, on connaît l'âge et le sexe de l'étudiant, le nom du cours (les cours peuvent être
regroupés en cours obligatoire et cours à option), la date de l'examen, la note obtenue et si l'examen
est réussi ou non.

1) Proposez un modèle conceptuel au format DFM et/ou le schéma en étoile correspondant.

Fait ? (= Qu’est-ce qu’on mesure ?)


Taux de réussite
Nb d’étudiants

Dimensions
TEMPS (TID, Semestre, Année)
ETUDIANTS (EID, Genre, Age)
COURS (CID, NomCours, Obligatoire)

G_ETUDIANTS pour avoir le gp


Voir TD correction drive

Vous aimerez peut-être aussi