0% ont trouvé ce document utile (0 vote)
97 vues5 pages

3-Ed Cours-Architecture Ed

Ce chapitre décrit plusieurs architectures pour les entrepôts de données, notamment les architectures en magasins de données indépendants, en bus de magasins, hub-and-spoke, centralisée et fédérée. Il présente leurs caractéristiques, avantages et limites.

Transféré par

fokom talom gaetan
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
97 vues5 pages

3-Ed Cours-Architecture Ed

Ce chapitre décrit plusieurs architectures pour les entrepôts de données, notamment les architectures en magasins de données indépendants, en bus de magasins, hub-and-spoke, centralisée et fédérée. Il présente leurs caractéristiques, avantages et limites.

Transféré par

fokom talom gaetan
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 3

Architecture d'un entrepôt de


données

3.1 Introduction
La mise en place d'un entrepôt de données est un dé de taille. Il existe plusieurs
façons de penser un entrepôt. Le choix de la bonne architecture se base sur la
combinaison de plusieurs critères : les besoins exprimés en termes d'objectifs, des
utilisateurs cibles, du temps alloué pour la mise en place...etc. Nous retrouvons dans
la littérature 5 diérentes architectures. Deux d'entre elles sont les plus utilisées
dans la pratique. Elles correspondent aux visions des deux fondateurs du domaine
décisionnel : Bill Inmon et Ralph Kimball.
Nous présentons dans ce chapitre les diérentes architectures, leurs caractéristiques,
avantages et limites.
3.2 Magasins de données indépendants
Comme dénit précédemment, un magasin de données peut être vu comme une
sous-partie d'un entrepôt de données répondant à un besoin fonctionnel précis. Dans
une logique de regrouper tous les besoins d'une organisation, ce type d'architecture
propose de regrouper les diérents magasins de données. Ces magasins de données
sont construits de manière indépendante les uns des autres, pouvant utiliser des
sources de données indépendantes. La gure 3.1 illustre l'indépendance de mise en
place de chaque magasin et la possibilité aux diérents utilisateurs d'utiliser les
diérents magasins ensemble.
Datamarts
Sources ETL Restitution Utilisateurs
Indépendants

Source 1 Datamart 1

Source 2 Datamart 2
Silos
de
données

Source 1
Datamart n

Source 3

Figure 3.1: Magasins de données indépendants

13
14 CHAPITRE 3. ARCHITECTURE D'UN ENTREPÔT DE DONNÉES

Avantages et inconvénients
+ Architecture simple et peu coûteuse dans sa mise en place.
+ Fortement orientée sujet.
+ Personnalisation des analyses pour les diérents utilisateurs.
− Certaines données peuvent se retrouver dans diérents magasins, ce qui
implique une répétition de traitements.
− Incohérence et redondances entre les magasins de données.
− Analyse inter-fonctionnelle dicile, voire impossible.

3.3 Architecture en bus de magasins de données


Cette architecture est proposée par R. Kimball. Connue aussi sous le nom
d'approche Bottom-Up, elle propose de construire des magasins de données mais
en utilisant des dimensions conformes. Autrement dit, il s'agit toujours d'une
conception fortement orientée sujet mais pour certaines données, les magasins
utiliseront des dimensions communes. Par exemple, les dimensions temporelle et
géographique. Cela permet de pallier les limites de l'architecture précédente en
éliminant certaines redondances et incohérences au niveau des données.
La gure 3.2 illustre l'architecture. L'ensemble des magasins de données
représentent un entrepôt de données.
Datamarts liés par
Sources ETL dimensions Restitution Utilisateurs
conformes

Source 1

Datamart 1

Source 2
Datamart 2

Datamart n
Source n

Entrepôt de données

Figure 3.2: Architecture en bus de magasins de données

Avantages et inconvénients
+ Architecture incrémentale : Permet de rajouter des magasins au besoin et de
traiter les processus les plus importants en premier.
+ Fortement orientée sujet.
+ Une intégration de données cohérentes grâce aux dimensions conformes.
− Analyse inter-fonctionnelle peu performante impliquant plusieurs magasins.
− Planication de nouveaux magasins complexe car il faudra les intégrer à
l'existant.
3.4. ARCHITECTURE HUB-AND-SPOKE 15
3.4 Architecture Hub-and-Spoke
Proposée par B. Inmon, cette architecture est l'opposée de celle en bus d'un point
de vue approche. Appelée aussi approche Top-Down, elle propose de centraliser
toutes les données en construisant en premier lieu tout l'entrepôt de données ( )
et d'alimenter à partir de ce dernier les diérents magasins ( ).
hub

spokes

La gure 3.3 présente l'architecture. L'entrepôt contiendra les données


atomiques, quant aux magasins, ils contiendront des données agrégées. Les analyses
se font directement sur les magasins.
Sources Entrepôt de Datamarts Restitution Utilisateurs
ETL
données dépendants

Source 1 Datamart 1

Source 2 Datamart 2
Entrepôt de données

Source n Datamart n

Hub Spokes

Figure 3.3: Architecture Hub and Spoke

Avantages et inconvénients
+ Intégration et consolidation complète de toutes les données dans un seul
entrepôt.
+ Approche extensible : Il est plus facile de dénir de nouveaux magasins.

− Analyse inter-fonctionnelle peu performante impliquant plusieurs magasins.


− Temps de mise en place : Construction de tout l'entrepôt avant de créer un
magasin de données.

3.5 Architecture centralisée


Similaire à l'architecture Hub and Spoke, son but est de centraliser toutes les
données dans un seul entrepôt. La diérence réside dans l'inexistence des magasins de
données dans l'architecture centralisée. La gure 3.4 illustre le principe. Les requêtes
analytiques se font directement sur l'entrepôt. Ce dernier contient les données aussi
bien détaillées que résumées.
16 CHAPITRE 3. ARCHITECTURE D'UN ENTREPÔT DE DONNÉES

Sources Entrepôt de Restitution Utilisateurs


ETL
données

Source 1

Source 2
Entrepôt de données

Source n

Figure 3.4: Architecture centralisée

Avantages et inconvénients
+ Les utilisateurs peuvent requêter toutes les données de l'entrepôt.
+ Performance optimale.
− Approche non incrémentale.
− Extensibilité limitée et très coûteuse : Il faudrait repenser toute la conception
de l'entrepôt.
3.6 Architecture fédérée
Cette architecture est utilisée dans le cas où un ou plusieurs entrepôts sont déjà
mis en place, comme dans le cas de fusions de compagnies. Au lieu de reconcevoir un
nouvel entrepôt, l'architecture propose de mettre en place un entrepôt de données
virtuel. Ce dernier représente une vue globale sur les diérents entrepôts existants et
un point d'entrée unique pour les utilisateurs. La gure 3.5 présente l'architecture.
L'intégration de données dans l'entrepôt peut être logique ou physique à l'aide de
métadonnées.
Entrepôts de
Sources ETL Restitution Utilisateurs
données autonomes

Source 1

EDW 1

Source 2
EDW 2

EDW n
Source n

Entrepôt de données virtuel

Figure 3.5: Architecture fédérée


3.7. FACTEURS À CONSIDÉRER POUR LE CHOIX DE L'ARCHITECTURE 17
Avantages et inconvénients
+ Pratique s'il existe au-préalable des entrepôts déjà mis en place.
+ L'intégration virtuelle ne demande que peu de ressources matérielles
additionnelles.
− La gestion de l'intégration est complexe : Il faut prendre en compte la
synchronisation, le parallélisme...
− Performance analytique faible.

3.7 Facteurs à considérer pour le choix de


l'architecture
Comme présenté auparavant, il faut prendre en considération plusieurs critères
pour choisir l'architecture la plus adaptée pour la construction d'un entrepôt de
données. Nous citons dans ce qui suit une liste non exhaustive des paramètres qui
inuencent ce choix :
 L'interdépendance informationnelle entre les métiers d'une organisation
(Bonne intégration VS silos de données).
 L'urgence d'obtenir une solution fonctionnelle.
 Les contraintes sur les ressources (nancières, mains d'÷uvre...).
 Le nombre de sources de données.
 La quantité de données (Gigaoctets, Téraoctets, Zettaoctets...).
 La fréquence de mise à jour de données (Mise à jour hebdomadaire, temps
réel...).
 La nature des tâches des utilisateurs naux (rapports simples, fouille de
données).
 Le nombre d'utilisateurs.
 Les objectifs du projet (stratégique, opérationnel...).
 ...

Vous aimerez peut-être aussi