0% ont trouvé ce document utile (0 vote)
200 vues90 pages

Bi 2023

Transféré par

ti 106
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
200 vues90 pages

Bi 2023

Transféré par

ti 106
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Entrepôts de données

Siwar Louati
2022-2023
Plan du chapitre
 Objectifs des entrepôts de données.

 Architecture des systèmes à base d'entrepôts de données.

 Modélisation multidimensionnelle
Business Intelligence?
 “Business Intelligence est le process qui permet la transformation des données
en information et ensuite de passer du stade information au stade de
connaissances.”

 Gartner Group
Objectif de Business Intelligence
 L'objectif de la business intelligence est de convertir le
volume de données en valeur pour l'entreprise grâce à des
rapports d'analyse.

Decision Valeur
Connaissance
Information
Data
Volume
Analyse des Données depuis les systèmes
Operationnels (OLTP)

 Les structures de données sont complexes


 Les systèmes OLTP sont conçus pour de grandes performances dans le contexte
opérationnel et non analytique.
 Les données ne sont pas représentées de façon significative.
 Les données sont dispersées..
 OLTP peuvent être inappropriés pour les requêtes intensives.

Production
platforms

Operational reports
Pourquoi OLTP n’est pas approprié pour le
reporting Analytique?

OLTP Analytical Reporting

Information pour appuyer Information historique à


un service au jour le jour analyser
Les données stockées au Les données doivent être
niveau de la transaction intégrées
Modélisation de la BD: Modélisation de la
Normalisée BD:Dénormalisée, exp
schema en étoile
Data Warehousing (entrepôt de données)

Enterprise Data
Warehouse
anciennes
données

OLTP

Données Reporting
Data Marts Analytique
externes
Advantages of Warehouse
Processing Environments
 Controlé
 Fiable
 Informations de qualité
 Unique source d’information

Système interne Data Preneurs de Décision


+ système externe warehouse
Advantages d’un environnement de traitement d’un entrepôt de données

 Pas de duplication d’effort


 Pas besoin d’outils pour maintenir plusieurs
 Pas de dispersion dans les données, de leurs sens ou de leurs
représentations
 Pas de restriction dans les drill-down (analyse hiérarchiques
des données agrégées vers celles atomiques)
Definir le Data Warehousing
Concepts et Terminologie
Definition d’un Data Warehouse
 “Un entrepôt de données est une collecte de données orientée sujet, intégrée, non
volatile variable en fonction du temps dont l'objectif est d'appuyer des décisions de
gestion.”
 —W.H. Inmon

 “Un référentiel structuré des données de l'entreprise, orienté vers le sujet, variant
dans le temps, contenant des données historiques, utilisé pour la recherche
d'information et aide à la décision. L'entrepôt de données stocke les données
atomique et résumé.”
 — Oracle’s Data Warehouse Definition
Propriétés d’unnData Warehouse
Integré
Orienté sujet

Data
Warehouse

Non volatil Time-variant


Orienté sujet
 Les données sont classées et stockées par objet d’analyse plutôt que par
application.

Applications OLTP Sujet du Data


Warehouse
Plans d'actions

actions

assurance

prêts

épargnes Renseignements financiers de la clientèle


Integrated
 Les données sur un sujet donné est définie et stockées une fois.

épargnes

Comptes
courants

Crédits
Client

Applications Data Warehouse


OLTP
Variant dans le temps
 Les données sont stockées dans une série de clichés
représentant chacun une période de temps données.

Data
Warehouse
Non volatil
 Typiquement les données de l'entrepôt de données ne sont pas mises à jour
ni supprimées.

OLTP Warehouse

Load

Insert, Update, Read


Delete, or Read
Changing Warehouse Data
Operational Databases Warehouse Database

Chargement initial

Refresh

Refresh

Purge ou
Refresh Archive
Data Warehouse Versus OLTP
Propriété OLTP Data Warehouse

Temps de réponse Sous secondes à Secondes à heures


secondes
Opérations LMD Lecture seule

Nature des Donées 30 – 60 jours clichés au fil du


temps
Organisation des Selon Application Selon le sujet et le
données temps
Volume Petit à grand Grand à très grand

Source de Operationelle, Interne Operationelles,


données Internes, Externes
Activitiés Processes Analyses
Data Warehouses Versus
Data Marts

Propriété Data Warehouse Data Mart

Scope (cadre) Enterprise Department

Sujet Multiple Sujet unique

Source de données Plusieurs Très peu voire une


seule
Temps De mois à années Mois
d’Implémentation
Data Mart Dependent
Data Marts
Operational
Systems

Flat Files Data


Legacy Data Warehouse Marketing

Operations Sales
Marketing
Data
Sales
Finance
HR

External Data External Finance


Data
Data Mart Independent
Operational
Systems

Flat Files
Legacy Data
Sales or
Marketing

Operations
Data

External Data External


Data
Composants Typiques d’un Data
Warehouse
Source Staging Presentation Access
Systems Area Area Tools
(zone intérmédiaire)

Legacy

Data
Warehouse
External
ODS

Operational Data Marts

Metadata Repository (Référentiel de métadonnées)


Approches de développement d'un Entrepôt
de données

 Approche “Big bang”


 Approches Incrementales :
 Top-down
 Bottom-up
“Big Bang” Approach

Analyser les besoins


de l'entreprise

Construire l' entrepôt de


données de l’entreprise

Rapport en sous-ensembles
ou stockages en Datamarts
L’ approcheTop-Down
Analyser les besoins au niveau de l'entreprise
Développer un modèle d'information conceptuel
Identifier et hiérarchiser les domaines
Procéder à un modèle du secteur de recherche sélectionné
Cartographier les données disponibles
Effectuer une analyse du système source
Mettre en œuvre l'architecture technique de base
Mettre en place les métadonnées, Les processus d'extraction
et de chargement pour la zone initiale de l'objet

Créer et peupler la zone initiale de l'objet de entrepôt de


données dans le cadre de entrepôt global.
L’approche Bottom-Up
Définir la portée et la couverture de l'entrepôt de données
et analyser les source systèmes au sein de ce périmètre

Définir l'incrémentation initiale sur la base des avantages supposés


de l' entreprise et le volume des données

Mettre en œuvre l'architecture technique de base et mettre


en place les métadonnées, l'extraction, et les processus de
chargement tel que requis par le système

Créer et peupler la zone initiale de l'objet de entrepôt de


données dans le cadre de entrepôt global.
Les approches incrémentales
 Itérations Multiple
 implémentations plus courtes Increment 1
 Validation de chaque phase
Strategie

Definif

Analyser

Modéliser

Iterative Implémenter

Production
Composants des processus d’un Data
Warehouse
 Methodologie
 Architecture
 Extraction, Transformation, and Load (ETL)
 Implementation
 Exploitation et Support
Métodologie
 Assure un entrepôt de données réussie
 Encourage le développement incrémental
 Fournit une approche progressive pour un entrepôt échelle de
l'entreprise:
• sûr
• gérable
• prouvé
• recommandé
Architecture
 “Fournit la planification, la structure et la normalisation nécessaire
pour assurer l'intégration de multiples composants, des projets et des
processus dans le temps.”
 “Établit le cadre, les normes et les procédures pour l'entrepôt de
données au niveau de l'entreprise.”
 — The Data Warehousing Institute
Extraction, Transformation,
and Load (ETL)

 “Une extraction de données , Transformation et chargement (ETL) efficace


représente le principal facteur de succès pour votre projet d'entrepôt de
données et peut absorber jusqu'à 70 pour cent du temps passé sur un projet
typique d'entreposage de données.”

 — DM Review, March 2001

Source Staging Area Cible


Implementation
Data Warehouse Architecture

Ex., Incremental Implementation

Implementation

Increment 1

Increment 2
.
.
.
Increment n
Exploitation et support
 L'accès aux données et aux rapports
 Le Rafraichissement des données de l'entrepôt
 Surveillance du système
 Réagir au changement
Phases of the
Incremental Approach
 Strategie
 Definition
 Analyse
Strategy Increment 1
 Modéliser
 Implémenter Definition
 Production Analysis

Design

Build

Production
Sommaire
 Dans cette leçon, vous devriez avoir appris à:
• Connaitre une définition commune, largement acceptée d'un entrepôt de
données
• Décrire les différences entre les datamarts dépendants et indépendants
• Identifier certaines des principales approches de développement d’entrepôt
de données
• Reconnaître certaines des propriétés d'exploitation et la terminologie
commune d'un entrepôt de données
Modélisation d’un entrepôt de
données
Caractéristiques d'un data warehouse
 Un datawarehouse est une base de données conçue pour
l'interrogation, l'analyse et l'édition d'états.
 Un datawarehouse contient des données historiques dérivées
de données transactionnelles.
 Les datawarehouses séparent la charge d'analyse de la charge
transactionnelle.
 Un datawarehouse est avant tout un outil analytique.
Modèle en étoile
Product Table Store Table
Product_id Store_id
Product_disc,... District_id,...

Sales Fact Table


Product_id
Store_id
Central Denormalized
fact table Item_id dimensions
Day_id
Sales_amount
Sales_units, ...

Time Table
Day_id Item Table
Month_id Item_id
Year_id,... Item_desc,...
Modèle en Flocan
Store Table
Product Table District Table
Store_id
Product_id District_id
Store_desc
Product_desc District_desc
District_id
Sales Fact Table
Item_id
Store_id
Product_id
Week_id
Sales_amount
Sales_units

Time Table Item Table Dept Table Mgr Table


Week_id Item_id Dept_id Dept_id
Period_id Item_desc Dept_desc Mgr_id
Year_id Dept_id Mgr_id Mgr_name
Création du Business Model
 La définition des besoins d'entreprise :
 Identifier les mesures de l'activité de l'entreprise
 Identifier les dimensions
 Identifier la granularité de l’analyse
 Identifier les définitions d'entreprise et les règles métier
 Verifier les sources de données
Identifier les Mesures
et les Dimensions
 Les attribues varient
continuellement:
Mesures  Solde
 Unités vendues
 Coût
 Ventes

 L'attribut est perçue comme


constante ou discret:
 Produits Dimensions
 Localisation
 Temps
 Taille
Utilisation d'une matrice de Business
Process
Business Processes
Business
Sales Returns Inventory
Dimensions
Customer

Date

Product

Channel

Promotion

Sample of business process matrix


Determiner la Granularité

ANNEE
TRIMESTRE?
MOIS?
SEMAINE?
JOUR?
Identifier les Règles Métier
Location Product

Geographic proximity Type Monitor Status

0 - 1 miles PC 15 inch New


1 - 5 miles Server 17 inch Rebuilt
> 5 miles 19 inch Custom
None

Time Store
Month > Quarter > Year Store > District > Region
Sommaire
Ce chapitre vous a permis d'apprendre à :
• expliquer les différences entre les schémas en
étoile et les schémas en flocons
•Connaitre les composants d’un Data warehouse
Modéliser un Data warehouse Basique
Modélisation décisionnelle
Les agrégats, les rapports et les cubes
• Une fois l’entrepôt de données, les faits, les
dimensions, voir les agrégats construits, on passe
à l’outillage de la navigation dans les données.
• Solutions :
– Publication d’un rapport visualisant le résultat de
recherches/analyses régulières sur l’entrepôt,
– Construction d’analyse spécifique visant à chercher
une partie de faits (ou des opérations de sommes sur
les faits) sans idées à priori des dimensions
parcourues.
– Construction de tables d’agrégats
– Construction de cubes
Modélisation décisionnelle
Les agrégats
• L’agrégation est le moyen de passer d’une granularité
fine à une granularité plus importante.
• Par exemple, la table des faits des tickets de caisses
contient l’ensemble des tickets. Si les analyses sont
uniquement basées sur une période journalière (voir
hebdomadaire ou mensuelle), chaque interrogation de
l’entrepôt va demander de recalculer les mêmes
sommes. Des tables de faits agrégés (tables d’agrégats)
vont alors être construites sur le niveau requis pour les
analyses.
Modélisation décisionnelle
Les agrégats
• Avantage : gain significatif du temps de calcul des
analyses
• Inconvénient : l’espace nécessaire au stockage de
l’entrepôt croit de manière importante (même si
les tables d’agrégats sont, pas nature, de taille
moindre aux tables de faits initiales).
• Usage : généralement utilisé pour passer de
l’entrepôt de données d’entreprise vers les
datamarts conçu de manière précise pour des
champs d’analyse.
Modélisation décisionnelle
Les agrégats
• La gestion de la granularité dans la modélisation décisionnelle suit
alors le schéma suivant
– Analyse du processus métier
• Faits de type Transaction de granularité la plus fine
– Construction des faits orientés analyse
• Agrégation stable pour des périodicité (pas que temporelles) fixes : création
d’instantanés périodiques
• Agrégation dynamique pour des périodicités (pas que temporelles) de taille
variables : création d’instantanés récapitulatifs
• Mise en place des calculs d’agrégats en mode batch en parallèle du
processus d’alimentation des données.

Les méthodes utilisées pour l’agrégation des faits sont liées au


niveau d’additivité des mesures présentes dans les faits
transactionnels.
Modélisation décisionnelle
Les rapports
• La différence entre un rapport d’analyse et la navigation dans un
cube et que le rapport est statique et présente une vue unique sur
les données. La construction de rapports reviendra alors à :
– Identifier les informations métier nécessaires à une activité de
pilotage : nombre de produit vendu par XXX sur la période YYY dans la
région ZZZ,
– Les données de l’entrepôt à la source des informations et les calculs
composant le rapport : Fait X, Dimension Y, agrégation, fonction sur les
données, …
– La forme la plus appropriée pour la lecture des informations : table de
valeur, élément graphique (camembert, …),
• Le risque le plus courant est la réalisation d’un nombre trop
important de rapports par rapport au besoin métier.
– Le point d’attention réside dans l’identification du besoin de
navigation dans le cube par un nombre réduit d’utilisateur par rapport
à la consultation d’un nombre d’information limité pour le pilotage
courant de l’activité métier.
Modélisation décisionnelle
Les cubes
• Les cubes sont un moyens de naviguer dans les
données de l’entrepôt afin d’en découvrir des
propriétés sous différents points de vues. Par
exemple, nous voulons pouvoir analyser les
ventes d’un produit ou d’une gamme de produits
selon une période données dans toutes les
régions puis, pour affiner notre analyse, souhaiter
voir quelles sont les ventes pour une région
particulière mais sur une période de temps
différente, … Ce type de navigation est facilité via
l’utilisation de cube.
Modélisation décisionnelle
Les cubes
• Voici un exemple d’entrepôt :
Modélisation décisionnelle
Les cubes
• Chaque ligne du cube correspond à un
produit, chaque colonne à une région
et chaque profondeur à une année.
• Chaque point du cube correspond à un
fait correspondant aux différentes
données des dimensions (vente de
Modems en Asie en 2000).
• Si on prend la tranche (slice) Asie, on
obtient toutes les ventes des différents
produits en Asie de 2000 à 2003.
• La tranche 2000 permet d’avoir la table
des données correspondant aux ventes
des différents produits dans le monde.
• La tranche Modems permet d’avoir la
table des données de ventes des
Modems dans le monde de 2000 à
2003.
Modélisation décisionnelle
Les cubes
• One peut également
choisir une ligne ou
une sous partie du
cube.
• Ces opérations (de
sélection d’une partie
des données du cube),
s’appelle Drill Down
lorsqu’on réduit la
partie des données du
cube sélectionnées et
Drill Up lorsqu’on
l’élargie.
Modélisation décisionnelle
Les cubes
• Il est également possible de varier le grain d’agrégation des
données dans les cubes.
• Cette opération de concentration (agrégation) est appelée
Roll-Up. L’inverse sera Roll-Down…
Modélisation décisionnelle
Les cubes
• Enfin, il est également possible de changer
l’orientation du cube (et de changer les points
de vue) en le faisant pivoter :
Modélisation décisionnelle
Les cubes
• La construction d’un cube d’analyse reviendra à
sélectionner un ensemble de mesures d’un fait (ou un
ensemble de mesures d’une agrégation issues d’un fait) et
les dimensions qui seront parcourues. Exemple :
– Pour la mesure quantité du fait Vente,
– Les niveaux hebdomadaire, mensuels et annuels de la
dimension date,
– L’ensemble des caractéristiques de la dimension produit,
– L’ensemble des caractéristiques des clients.
• Il pourra alors être généré au sein du système d’entrepôt de
données, les différents croisements possibles entre les
mesures et dimensions choisies (éléments du cube)
permettant de réaliser les différentes rotations et
agrégations (drill-up et down).
Base Multidimensionnelle

agrégations

 Analyse multidimensionnelle
» capacité à manipuler des données qui ont été aggrégées
selon différentes dimensions
 ex. : analyse des ventes /catégorie de produit 1 dim.
+ /année 2 dim.
+ /département commercial 3 dim.
+ / zone géographique 4 dim.
....
313131
<#>
L'Analyse MultiDimensionnelle
 Objectif
» obtenir des informations déjà aggrégées selon les besoins
de l’utilisateur : simplicité et rapidité d’accès
 HyperCube OLAP
» représentation de l’information
dans un hypercube à N dimensions
 OLAP (On-Line Analytical Processing)
» fonctionnalités qui servent à faciliter l’analyse
multidimensionnelle : opérations réalisables sur
l’hypercube

323232
<#>
Glossaire OLAP
 Dimension
» Temps, Produit, Géographie, ...
 Niveau : hiérarchisation des dimensions
» Temps :
 Année, Semestre, Trimestre, Mois, Semaine, ...
» Produit :
 Rayon, Catégorie, Nature, ...
» Géographie :
 Région, Département, Ville, Magasin
 Membre d'un Niveau
» Produit::Rayon
 Frais, Surgelé, ..., Liquide
» Produit::[Link]égorie
 [Link], ..., [Link]
» Produit::[Link]é[Link]
 [Link], ... , [Link]
333333
<#>
Glossaire OLAP
 Cellule
» intersection des membres des différentes dim.
 Formule
» calcul, expression, règle, croisement des dim.
 Somme(Qte), Somme(Qte*PrixVente),
Moyenne(Qte*(PrixVente-PrixAchat)), ...

343434
<#>
Opérations OLAP
 But
» Visualisation/Utilisation
d'un fragment de l'Hypercube
 Opérations OLAP
» Drill Up / Drill Down
» Rotate
» Slicing
» Scoping

353535
<#>
Opérations OLAP -Drill Up/Down
vue synthétique / vue détaillée
Drill Up
95 96 97

Alim. 496 520 255


Drill Up Dimension Temps
95-97 95 96 97 1S95 2S95 1S96 2S96 1S97

Frais 623 Frais 221 263 139 Frais 100 121 111 152 139

Liquide 648 Liquide 275 257 116 Liquide 134 141 120 137 116

95 96 97 Drill Down
Dimension
Produit

Yaourt 20 19 22

••• ••• ••• •••


Salade 40 43 48
Drill Down

363636
<#>
Opérations OLAP -Rotate

95 96 97 95 96 97
Frais 221 263 139 NordPdC 101 120 52

Liquide 275 257 116 IdF 395 400 203

373737
<#>
Opérations OLAP -Slicing
1995 1996 1997 1996
Frais IdF 220 265 284 Frais IdF 265
Province 225 245 240 Province 245
Liquide IdF 163 152 145 Liquide IdF 152
Province 187 174 184 Province 174

383838
<#>
Opérations OLAP -Scoping
1995 1996 1997
Frais IdF 220 265 284
Province 225 245 240
Liquide IdF 163 152 145
Province 187 174 184

1995 1996
Frais IdF 220 265
Province 225 245

393939
<#>
OLAP
 Constitution de l'Hypercube
» Administration
» Définition des Dimensions / Niveaux / Membres
 Automatique, Manuel, Configuration Métier

 Serveurs OLAP / Clients OLAP


» Le client utilise une partie de l'hypercube qu'il cache
» Le serveur calcule, stocke l'hypercube et permet son partage.
 Stockage
» M-OLAP : accède à une base multidimensionnelle
+ rapidité

» R-OLAP : accède à une base relationnelle


+ mise à jour

» H-OLAP : hybride, multidimensionnel avec accès au niveau le


+ bas à une base relationnelle
404040
<#>
Rappel- Orientation métier : les Data Marts
 Data Mart
» vue partielle et orientée métier sur les données du D.W.
» à chacun son ensemble d’hypercubes OLAP

Data Marts du
service Marketing

Data Mart du
service Ressources
Humaines

414141
<#>
Exemple d’entrepôt

• Le service marketing d’une compagnie aérienne veut analyser les


vols de chaque participant de son programme passagers réguliers. Il
s’intéresse aux vols que prennent les passagers, aux avions qu’ils
utilisent, aux tarifs de base qu’ils paient, à la fréquence à laquelle ils
passent à une classe supérieure, à la façon dont ils obtiennent et
font usage de leur bonus kilométrique de passagers réguliers, il veut
savoir s’ils réagissent sur certains vols, connaître la durée de leur
séjours, ainsi que la promotion de ceux qui sont dans la catégorie
première classe, affaire et économique.
• Le processus d’entreprise mis en jeu par cette étude est l’activité de
vol proprement dite. Nous ne nous intéressons pas à la réservation
ni à l’émission de billets qui ne concerne pas un passager régulier.

D. Ploix - M2 MIAGE - Conception EDD 52

Vous aimerez peut-être aussi