0% ont trouvé ce document utile (0 vote)

128 vues36 pages

Cours3 DataWarehouse

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

128 vues36 pages

Cours3 DataWarehouse

Transféré par

fethi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Gestion de données

Réparties
(DW)

1
Data warehouse

• Motivations et architecture
• Conception de la BD support
• Alimentation du DW
• Exploitation OLAP
• Conclusion

2
Data warehouse

Définition, vocabulaire, composantes

Architectures
Structures multidimensionnelles
Opérations OLAP

3
OLTP et OLAP

Reports
&
Appli.
Appli.
Appli.
OLAP Analysis

ETL
OLTP DW

DM Aides à
la décision
4
Datawarehouse

• Entrepôt de données
– Ensemble de données historisées variant dans le temps,
organisé par sujets, consolidé dans une base de données
unique, géré dans un environnement de stockage
particulier, aidant à la prise de décision dans
l’entreprise.
• Trois fonctions essentielles :
– collecte de données de bases existantes et chargement
– gestion des données dans l’entrepôt
– analyse de données pour la prise de décision

5
Datamart

« Le marché de données est une

implantation localisée d’un entrepôt de
données à usage unique » (traduction libre
Devlin 1997)

« L’entrepôt de données est prévu pour

l’entreprise dans son ensemble alors que le
marché de données est sectoriel (il peut être
un sous-ensemble exact ou modifié de
l’entrepôt de données) » (Bédard et al, 1997)
6
Définitions
Systèmes Entrepôts de données Marchés de données
transactionnels (ST)
Construit pour les Construit pour l'analyse Construit pour l'analyse
transactions (OLTP)
Données détaillées Données détaillées et Données détaillées et
résumées résumées
Intégré selon les Intégré pour l'entreprise Intégré par sujet ou
applications département
Mis à jour continuellement Jamais mis à jour, Jamais mis à jour,
seulement ajout de seulement ajout de
nouvelles données nouvelles données
Données actuelles Données actuelles et Données actuelles et
d’archive d’archive
Source originale des Données importées des Données importées des
données ST ST et/ou d’entrepôts
Structure normalisée Structure dénormalisée* Structure dénormalisée*

7
Architecture type

• Une architecture d’entrepôt de données possède

les caractéristiques suivantes :
– les données sources sont extraites de systèmes, de bases
de données et de fichiers
– les données sources sont nettoyées, transformées et
intégrées avant d’être stockées dans l’entrepôt
– l’entrepôt est en lecture seulement et est défini
spécifiquement pour la prise de décision
organisationnelle
– les usagers accèdent à l’entrepôt à partir d’interfaces et
d’applications (clients)
8
Architecture type

9
Architecture centralisée
(Corporated architecture)

Entrepôt de données
Systèmes centralisé, unique et intégré
transactionnels de l’organisation
Clients distribués
de l’organisation

Il s’agit de la version centralisée et intégrée d’un entrepôt

regroupant l’ensemble des données de l’entreprise. Les
différentes bases de données sources sont intégrées et sont
distribuées à partir de la même plate-forme physique
10
Architecture fédérée
(Federated architecture)

Département A

Département B

Département C
Entrepôt de données
de l’organisation
Systèmes
transactionnels Marchés de données Clients
de l’organisation distribués par distribués
département

Il s’agit de la version intégrée d’un entrepôt où les

données sont introduites dans les marchés de
données orientés selon les différentes fonctions de
l’entreprise 11
Concevoir le DW
• Export de données des sources
– Hétérogènes et variées
– Fichiers, BD patrimoniales, Web, …
– Définition des vues exportées
• Définition d'un schéma global
– Intègre les données utiles
– S'appuie sur le modèle relationnel
• Nécessité d'une gestion de méta-données
– Description des sources
– Description des vues exportées
– Description du schéma global

12
Organisation par sujet
• Les données sont organisées par sujets majeurs:
– Clients, produits, ventes, …
• Sujet = faits + dimensions
– Collecte les données utiles sur un sujet
• Exemple: ventes
– Synthétise une vue simple des événements à analyser
• Exemple: Ventes (N°, produit, période, magasin, )
– Détaille la vue selon les dimensions
• Exemple: Produits(IDprod, description, couleur, taille, …)
• Magasins(IDmag, nom, ville, dept, pays)
• Periodes(IDper, année, trimestre, mois, jour)

13
Schémas en étoile
• Une table de faits encadrées par N tables de dimensions

Produits
IDprod
Periode Table de faits “ventes” description
couleur
sIDper
periode taille
année fournisseur
trimestre produit
mois Magasins
magasin
jour
IDmag
unités_vendues nom
montant_ventes ville
département
taxes_ventes pays
14
Vocabulaire
Les outils traditionnels de gestion et d’exploitation
des données sont du type transactionnel ou OLTP
(On-Line Transaction Processing)
Les nouveaux outils d’exploitation des données sont
de type analytique :
Entrepôts de données (Data Warehouses)
Marchés de données (Data Marts)
Requêteurs et rapporteurs (Querying and Reporting Tools)
OLAP (On-Line Analytical Processing)
Fouille de données automatique (Data Mining)

15
Schémas en flocons
• Raffinement du schéma étoile avec des tables normalisées
par dimensions
Produits Fournisseurs
IDprod IDfour
description description
couleur type
taille Adresse
Ventes IDfour
• Avantages
– Évite les redondances
– Conduit aux constellations (plusieurs tables de faits à dimensions
partagées)

16
Conception du schéma intégré
• Isoler les faits à étudier
– Schéma des tables de faits
• Définir les dimensions
– Axes d'analyse
• Normaliser les dimensions
– Éclater en plusieurs tables liés par contraintes référentielles
• Intégrer l'ensemble
– Plusieurs tables de faits partagent quelques tables de dimension
(constellation d’étoiles)

17
Bilan conception
• Le datawarehouse regroupe,
historise, résume les données de
l'entreprise
• Le concepteur définit schéma
exportés et intégrés
– des choix fondamentaux !
– Ciblage essentiel !
• Le datamart c’est plus ciblé et plus
petit.
• Questions ?
– Peut-on ajouter des données au
niveau de l’entrepôt ?

18
Alimenter le DW
• ETL = Extracteur+Intégrateur
– Extract + Transform + Load
• Extraction
– Depuis les bases sources ou les journaux
– Différentes techniques
• Push = règles (triggers)
• Pull = requêtes (queries)
– Périodique et répétée
• Dater ou marquer les données envoyées
– Difficulté
• Ne pas perturber les applications OLTP

19
Transformation
• Accès unifiés aux données
– Unification des modèles
• Traduction de fichiers, BD réseaux, annuaires en tables
• Evolution vers XML (modèle d'échange) plus riche
– Unification des accès
• Rowset, SQL limité, SQL complet, …
• Mapping plus ou moins sophistiqué
– Unification des noms
• Appeler pareil les mêmes choses et différemment les choses différentes
• Application des "business rules"
– Elimination des doubles
– Jointure, projection, agrégation (SUM, AVG)
• Cleaning des données

20
Data Cleaning
• Valeurs manquantes (nulles)
– Ignorer le tuple
– Remplacer par une valeur fixe ou par la moyenne
• Valeurs erronées ou inconsistantes
– Générées en présence de bruits
– Détecter par une analyse de voisinage
• Écart par rapport à la moyenne
• Factorisation en groupes (outliers)
– Remplacer par une valeur fixe ou par la moyenne
• Inspection manuelle de certaines données possible
21
Chargement
• Pas de mise à jour
– Insertion de nouvelles données
– Archivage de données anciennes
• De gros volumes
– Périodicité parfois longue
– Chargement en blocs (bulk load)
– Mise à jour des index et résumés
• Problèmes
– Cohabitation avec l'OLAP ?
– Procédures de reprises ?

22
Gérer l'entrepôt
• Base relationnelle
– Support de larges volumes (qq 100 gigas à qq téras)
– Historisation des données (fenêtres)
– Importance des agrégats et chargements en blocs
• Base spécialisée
– Base multidimensionnelle
– Combinaison des deux
• Machine support parallèle
– Multiprocesseurs
– Mémoire partagée, cluster, bus partagé, etc.

23
Le multidimensionnel

• Dimensions: • Indicateurs:
– Temps – Nombre d’unités
– Géographie vendues
– Produits – CA
– Clients – Coût
– Canaux de ventes..... – Marge.....

24
Cube de données

0
10
Date
NumFou 2002 350 600 300

0
15
2001 300 500 400

0
12
NumPro 2000 250 200 F2
F1
P1 P2 P3
25
Le data cube et les
dimensions
Axe d'analyse: La géographie
(Pays - région - ville)

Variables analysées:
Nb unités, CA, marge...

Axe d'analyse: Les produits

(classe, produit)

Axes d'analyse: dimensions

Axe d'analyse: Le temps Variables analysées: indicateurs
(Année, trimestre, mois, semaine)
26
La granularité des dimensions

Temps Jours Mois Trimestres Années

Géographie Villes Régions Pays

Produits Numéros Types Gammes Marques

27
Le multidimensionnel
Exemple
• Montant des ventes fonction de (Mois, région, Produit)

Granularité des dimensions :

on
gi

Type Région Année

Ré

Catégorie Pays Trimestre

Produit

Produit Ville Mois Semaine

Magasin Jour

Mois
28
La navigation
multidimensionnelle
Projection en 2 dimensions Coupe d ’un cube
Produits Produits
pour une région donnée
CA CA

Région
Temps en semaines
Réduction selon 1 dimension
Produits Zoom selon une dimension
France

CA Est Sud Ouest

Temps en mois Lyon Marseille Nice

29
L'algèbre des cubes
• Roll up :
– Agréger selon une dimension
• Semaine  Mois
• Drill down :
– Détailler selon une dimension
• Mois  Semaine
• Slice et Dice:
– Sélection et projection selon 1 axe
• Mois = 04-2003 ; Projeter(Région, Produit)
• Pivot :
– Tourne le cube pour visualiser une face
• (Région,Produit)(Région, Mois)

30
Le multidimensionnel
Les vues d'un cube
• Partant d'un cube 3D, il est possible d'agréger selon une
dimension tournante
• On obtient un treillis de vues (calculable en SQL)

NumPro, NumFou, Date

NumPro, NumFouNumPro, DateNumFou, Date

NumPro NumFou Date

31
Le multidimensionnel
Extension de SQL
• ROLLUP: • CUBE:
– SELECT <column list> – SELECT <column list>
– FROM <table…> – FROM <table…>
– GROUP BY – GROUP BY
ROLLUP(column_list);
CUBE(column_list);
• Crée des agrégats à n+1
niveaux, n étant le nombre • Crée 2n combinaisons
de colonne de groupage d'agrégats, n étant le
– n, n-1, n-2,…0 colonnes nombre de colonne de
groupage

32
Implémentation
Exemple CUBE

Animal Lieu Quantite Animal Lieu Quantite

Chien Paris 12 Chat Paris 18
Chat Paris 18 Chat Naples 9
Tortue Rome 4 Chat - 27
Chien Rome 14 Chien Paris 12
Chat Naples 9 Chien Naples 5
Chien Naples 5 Chien Rome 14
Tortue Naples 1 Chien - 31
Tortue Naples 1
• SELECT Animal, Lieu, Tortue Rome 4
SUM(Quantite) as Quantite Tortue - 5
- - 63
FROM Animaux
- Paris 30
GROUP BY Animal, Lieu - Naples 15
WITH CUBE - Rome 18
33
Implémentation
Exemple ROLLUP

Animal Lieu Quantite Animal Lieu Quantite

Chien Paris 12 Chat Paris 18
Chat Paris 18 Chat Naples 9
Tortue Rome 4
Chat - 27
Chien Rome 14
Chat Naples 9
Chien Paris 12
Chien Naples 5 Chien Naples 5
Tortue Naples 1 Chien Rome 14
Chien - 31
Tortue Naples 1
• SELECT Animal, Lieu,
Tortue Rome 4
SUM(Quantite) as Quantite Tortue - 5
FROM Animaux - - 63
GROUP BY Animal,Lieu
WITH ROLLUP
34
Implémentation
Quelques outils OLAP
• Oracle • Cognos
– OLAP API = Datacube – Impromptu = Reporting
– Express = Analyse – Powerplay = Datacube
– Report = Reporting – Query = Requêtage
• Business Object • Hyperion
– BusinessQuery = – ESS Base = Base MOLAP
Requêtage – ESS Analysis= Analyse +
– BusinessObject = Datacube
Requêtage + Analyse +
Reporting
– WebIntelligence =
Datacube
35
Implémentation
Les Data …
• Datawarehouse
– entrepôt des données historisées de l'entreprise
• Datamart
– magasin de données ciblé sur un sujet précis
• Datamining
– exploration des données afin de découvrir des connaissances
• Datacube
– cube de présentation d'unités selon 3 dimensions
• Datawebhouse
– entrepôt des données collectées sur le web

Vous aimerez peut-être aussi

Architecture et conception d'un Data Warehouse
100% (1)
Architecture et conception d'un Data Warehouse
31 pages
Guide Complet du Data Warehouse et OLAP
Pas encore d'évaluation
Guide Complet du Data Warehouse et OLAP
31 pages
15 Datawarehouse
Pas encore d'évaluation
15 Datawarehouse
31 pages
Les Entrepôts de Données
Pas encore d'évaluation
Les Entrepôts de Données
68 pages
Entrepôts de Données : Concepts et Architecture
Pas encore d'évaluation
Entrepôts de Données : Concepts et Architecture
33 pages
Datawarehouse
Pas encore d'évaluation
Datawarehouse
50 pages
Inbound 1707729765403319330
Pas encore d'évaluation
Inbound 1707729765403319330
41 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
27 pages
Introduction aux entrepôts de données
Pas encore d'évaluation
Introduction aux entrepôts de données
54 pages
00 - Notion de Base
Pas encore d'évaluation
00 - Notion de Base
75 pages
ED Cours 23-24
Pas encore d'évaluation
ED Cours 23-24
108 pages
Cours DW PDF
Pas encore d'évaluation
Cours DW PDF
77 pages
Guide Complet sur les Entrepôts de Données
Pas encore d'évaluation
Guide Complet sur les Entrepôts de Données
74 pages
Chapitre 2 Architecture Des Systèmes À Base D'entrepôt de Données
Pas encore d'évaluation
Chapitre 2 Architecture Des Systèmes À Base D'entrepôt de Données
12 pages
1 PrincipesDataWarehouse
Pas encore d'évaluation
1 PrincipesDataWarehouse
19 pages
Processus d'Entreposage des Données
Pas encore d'évaluation
Processus d'Entreposage des Données
60 pages
Séquence 1
Pas encore d'évaluation
Séquence 1
76 pages
Synthese Support
Pas encore d'évaluation
Synthese Support
40 pages
Cours Entrepôt de Données
Pas encore d'évaluation
Cours Entrepôt de Données
77 pages
Cours-2 Sid2021
Pas encore d'évaluation
Cours-2 Sid2021
44 pages
Chapitre 01
Pas encore d'évaluation
Chapitre 01
26 pages
CM-DW Olap
Pas encore d'évaluation
CM-DW Olap
63 pages
Partie Theorique BI
Pas encore d'évaluation
Partie Theorique BI
7 pages
Introduction aux Data Warehouses
Pas encore d'évaluation
Introduction aux Data Warehouses
37 pages
Cours sur le Data Warehouse en BI
Pas encore d'évaluation
Cours sur le Data Warehouse en BI
18 pages
Cours DWimportant
100% (1)
Cours DWimportant
77 pages
Cours DW
Pas encore d'évaluation
Cours DW
77 pages
Introduction aux Entrepôts de Données
Pas encore d'évaluation
Introduction aux Entrepôts de Données
59 pages
Séance 2
Pas encore d'évaluation
Séance 2
33 pages
Les Entrepôts de Données: Boukil - Stid 2020
Pas encore d'évaluation
Les Entrepôts de Données: Boukil - Stid 2020
120 pages
Presentation Finale
Pas encore d'évaluation
Presentation Finale
157 pages
Entrepôts de données et décisionnel
Pas encore d'évaluation
Entrepôts de données et décisionnel
23 pages
03-DW BI Modelisation Dimensionnelle
Pas encore d'évaluation
03-DW BI Modelisation Dimensionnelle
21 pages
Présentation Data Warehousing-2022
Pas encore d'évaluation
Présentation Data Warehousing-2022
71 pages
Chapitre 1 Et 2
Pas encore d'évaluation
Chapitre 1 Et 2
47 pages
Entrepôts de données et OLAP : Guide complet
Pas encore d'évaluation
Entrepôts de données et OLAP : Guide complet
64 pages
Introduction aux Entrepôts de Données
Pas encore d'évaluation
Introduction aux Entrepôts de Données
18 pages
2-Datawarehouse - English
Pas encore d'évaluation
2-Datawarehouse - English
42 pages
Chapitre 2:: Cours Les Entrepôts de Données Data Warehouses
100% (1)
Chapitre 2:: Cours Les Entrepôts de Données Data Warehouses
44 pages
DAta Warehouse
80% (5)
DAta Warehouse
22 pages
chp3 Bi
Pas encore d'évaluation
chp3 Bi
36 pages
Chap 3 - ISIL
Pas encore d'évaluation
Chap 3 - ISIL
46 pages
DW Hilal 2019
Pas encore d'évaluation
DW Hilal 2019
96 pages
Entrepot de Données Datawarehouse
Pas encore d'évaluation
Entrepot de Données Datawarehouse
64 pages
DWH Complet Avec Grands Schemas Biens
100% (2)
DWH Complet Avec Grands Schemas Biens
42 pages
Introduction aux Entrepôts de Données
Pas encore d'évaluation
Introduction aux Entrepôts de Données
66 pages
Entrepôts de Données et ETL avec PyGramETL
Pas encore d'évaluation
Entrepôts de Données et ETL avec PyGramETL
51 pages
Entrepot EMSI
Pas encore d'évaluation
Entrepot EMSI
43 pages
Cours Datamart PDF
0% (1)
Cours Datamart PDF
60 pages
BI2024 DW Part1
Pas encore d'évaluation
BI2024 DW Part1
29 pages
Analyse décisionnelle avec OLAP
Pas encore d'évaluation
Analyse décisionnelle avec OLAP
47 pages
Entrepôt de Données pour Décideurs
Pas encore d'évaluation
Entrepôt de Données pour Décideurs
71 pages
Complexité des algorithmes expliquée
Pas encore d'évaluation
Complexité des algorithmes expliquée
4 pages
Thesis
Pas encore d'évaluation
Thesis
215 pages
TD 5
Pas encore d'évaluation
TD 5
1 page
ExamBDIA NOV 07corrige
80% (5)
ExamBDIA NOV 07corrige
5 pages
Schémas Relationnels et OLAP pour Données Médicales et Assurances
100% (1)
Schémas Relationnels et OLAP pour Données Médicales et Assurances
2 pages
TD 1
Pas encore d'évaluation
TD 1
2 pages
TD GAV Et LAV
Pas encore d'évaluation
TD GAV Et LAV
2 pages
Projet Decisionnel
100% (1)
Projet Decisionnel
164 pages
Expert BI avec Compétences Avancées
Pas encore d'évaluation
Expert BI avec Compétences Avancées
5 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
65 pages
Modélisation d'un entrepôt de données BI
100% (1)
Modélisation d'un entrepôt de données BI
8 pages
Entrepot de Donnee Chapitre 1
Pas encore d'évaluation
Entrepot de Donnee Chapitre 1
33 pages
Rapport de Fin D'etude S.R
Pas encore d'évaluation
Rapport de Fin D'etude S.R
72 pages
Rapport Big Data Pfe
Pas encore d'évaluation
Rapport Big Data Pfe
69 pages
Syllabus Cour Architecture Big Data 1
Pas encore d'évaluation
Syllabus Cour Architecture Big Data 1
47 pages
01-DW BI Introduction
Pas encore d'évaluation
01-DW BI Introduction
14 pages
DAM M10 T01 PDF
Pas encore d'évaluation
DAM M10 T01 PDF
37 pages
Master Data Science et Modélisation
Pas encore d'évaluation
Master Data Science et Modélisation
31 pages
Portail décisionnel pour pesage import
Pas encore d'évaluation
Portail décisionnel pour pesage import
76 pages
2 Intro Entrepots 4p
Pas encore d'évaluation
2 Intro Entrepots 4p
14 pages
Steps at End Briefing Mise À Jour Archi Entraides Et Fraternités
Pas encore d'évaluation
Steps at End Briefing Mise À Jour Archi Entraides Et Fraternités
5 pages
2 Chapitre 1 ID L3
Pas encore d'évaluation
2 Chapitre 1 ID L3
26 pages
Servir des données pour l'analyse et ML
Pas encore d'évaluation
Servir des données pour l'analyse et ML
55 pages
Rapport de Fin D Étude - Licences SIID - Hind AMARA
Pas encore d'évaluation
Rapport de Fin D Étude - Licences SIID - Hind AMARA
26 pages
QCM BI Reponses
Pas encore d'évaluation
QCM BI Reponses
4 pages
Case Study
Pas encore d'évaluation
Case Study
21 pages
UE 8 - Management Des Systã Mes D - Information - C - 231230 - 121403
Pas encore d'évaluation
UE 8 - Management Des Systã Mes D - Information - C - 231230 - 121403
22 pages
DWH Introduction Et Generalites
Pas encore d'évaluation
DWH Introduction Et Generalites
157 pages
Introduction à la Business Intelligence
Pas encore d'évaluation
Introduction à la Business Intelligence
11 pages
Khelifi Sabrina
Pas encore d'évaluation
Khelifi Sabrina
73 pages
Memoire Licence IBWENDJI L2 ISIPA
Pas encore d'évaluation
Memoire Licence IBWENDJI L2 ISIPA
162 pages
TD 6 - Si
Pas encore d'évaluation
TD 6 - Si
2 pages
Entrepôts de Données 2CS-Cours04
0% (1)
Entrepôts de Données 2CS-Cours04
24 pages
Quiz OLTP OLAP DW DM Operateurs Complet
Pas encore d'évaluation
Quiz OLTP OLAP DW DM Operateurs Complet
3 pages
Data Warehousing, Mining et Big Data
100% (1)
Data Warehousing, Mining et Big Data
5 pages
Exemple de Modélisation Dimensionnelle
Pas encore d'évaluation
Exemple de Modélisation Dimensionnelle
17 pages
Datamining et Churn Client Télécom
Pas encore d'évaluation
Datamining et Churn Client Télécom
41 pages