0% ont trouvé ce document utile (0 vote)
45 vues98 pages

Chapitre 2

Le chapitre 2 présente l'architecture des entrepôts de données, définissant un entrepôt comme une base de données relationnelle centralisée qui intègre des données de diverses sources pour soutenir l'analyse et la prise de décision. Il décrit les processus ETL (Extraction, Transformation, Chargement) et les différents types d'entrepôts, y compris les Enterprise Data Warehouses, Data Marts, Data Lakes et Operational Data Stores, chacun ayant des caractéristiques et des objectifs spécifiques. L'importance de l'intégration des données, de la qualité et de la gouvernance est également soulignée pour garantir des analyses fiables et pertinentes.

Transféré par

ouafi.meryem
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
45 vues98 pages

Chapitre 2

Le chapitre 2 présente l'architecture des entrepôts de données, définissant un entrepôt comme une base de données relationnelle centralisée qui intègre des données de diverses sources pour soutenir l'analyse et la prise de décision. Il décrit les processus ETL (Extraction, Transformation, Chargement) et les différents types d'entrepôts, y compris les Enterprise Data Warehouses, Data Marts, Data Lakes et Operational Data Stores, chacun ayant des caractéristiques et des objectifs spécifiques. L'importance de l'intégration des données, de la qualité et de la gouvernance est également soulignée pour garantir des analyses fiables et pertinentes.

Transféré par

ouafi.meryem
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 2 : Architecture des Entrepôts de Données:

types, composants et concepts

Pr. Naoufal EL ALLALI

Département Informatique
Faculté Pluridisciplinaire de Nador (FPN)
Université Mohamed Premier (UMP)

Septembre 02, 2023

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 1 / 98
Définition d’un Entrepôt de Données
Qu’est-ce qu’un entrepôt de données ?
Un entrepôt de données est une base de données relationnelle qui
stocke des données issues de plusieurs systèmes opérationnels.
Ces systèmes peuvent appartenir à une ou plusieurs entreprises.
Caractéristiques principales :
Combinaison des données : Les données de différentes sources sont
intégrées et consolidées.
Organisation structurée : Les données sont transformées et
organisées pour répondre aux besoins analytiques.
Prise en charge de la décision : Permet de soutenir l’analyse
commerciale et d’aider à la prise de décision stratégique.
Pourquoi utiliser un entrepôt de données ?
Offrir une vue unifiée des données d’entreprise.
Faciliter l’intelligence d’affaires (Business Intelligence).
Améliorer l’efficacité et la rapidité des analyses pour des décisions
mieux informées.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 2 / 98
Définition et Objectif d’un Entrepôt de Données
Définition :
Un entrepôt de données est un dépôt centralisé et intégré qui stocke
de grandes quantités de données structurées, semi-structurées et non
structurées provenant de diverses sources au sein d’une organisation.
Objectif Principal :
Fournir une vue consolidée et historique des données aux décideurs.
Faciliter l’accès aux données et leur analyse pour répondre aux besoins
en :
Intelligence d’affaires (Business Intelligence).
Reporting.
Différence avec les Bases de Données Opérationnelles :
Les bases opérationnelles sont conçues pour les transactions et
l’utilisation quotidienne.
Un entrepôt de données est conçu pour le stockage à long terme et
l’analyse des données.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 3 / 98
Différents Noms d’un Entrepôt de Données (Partie 1)
Un entrepôt de données est aussi connu sous d’autres noms :

Decision Support System (DSS) :


Fournit des outils pour aider à la prise
de décision basée sur les données.
Executive Information System (EIS)
:
Système d’information utilisé par les
cadres pour suivre les performances.
Management Information System
(MIS) :
Système conçu pour fournir des
rapports aux managers et aux
décideurs. Figure: Les différents noms d’un
entrepôt de données (Partie 1)

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 4 / 98
Différents Noms d’un Entrepôt de Données (Partie 2)
Un entrepôt de données est aussi connu sous d’autres noms :

Business Intelligence Solution :


Utilisé pour générer des analyses
stratégiques et opérationnelles.
Analytic Application :
Application conçue pour effectuer des
analyses spécialisées et répondre à des
besoins métiers spécifiques.
Data Warehouse :
Désignation générique pour un
système consolidé de données destiné
à l’analyse.
Figure: Les différents noms d’un
entrepôt de données (Partie 2)

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 5 / 98
Illustration du Flux de Données dans un Entrepôt
Description de l’Illustration :
Les données des systèmes opérationnels sont consolidées dans un
entrepôt de données.
L’entrepôt supporte plusieurs applications analytiques comme :
Les systèmes d’aide à la décision (DSS).
Les systèmes d’information pour les cadres (EIS).
Les systèmes d’intelligence d’affaires (BI).
Ces systèmes facilitent la visualisation, le reporting et les analyses
stratégiques.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 6 / 98
Processus ETL (Extract, Transform, Load)

Étapes du Processus ETL :


1 Extraction (Extract) :

Les données sont extraites de plusieurs sources telles que des bases de
données, fichiers ou applications.
2 Transformation (Transform) :
Les données extraites sont nettoyées, formatées et organisées.
Elles sont adaptées pour répondre aux besoins d’analyse et garantir leur
cohérence.
3 Chargement (Load) :
Les données transformées sont chargées dans l’entrepôt de données.
Cela garantit un stockage centralisé pour une vue unifiée des
informations.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 7 / 98
Architecture d’un Entrepôt de Données

Composants Clés :
Sources de données (Data Sources) :
Ce sont les origines des données.
Exemple : Bases de données, fichiers, API ou applications.
Entrepôt de Données (Data Warehouse) :
Un espace centralisé où les données transformées sont stockées.
Permet une vue unifiée des données d’entreprise.
Applications Utilisatrices :
Visualisation : Création de graphiques pour explorer les données.
Rapports (Reporting) : Génération de rapports analytiques.
Intelligence d’affaires : Analyse approfondie pour prendre des
décisions stratégiques.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 8 / 98
Illustration : Flux des Données dans un Entrepôt

Figure: Flux des Données vers un Entrepôt

Explication :
Les données sont extraites de plusieurs sources (Data Source 1, 2, 3).
Le processus ETL (Extraction, Transformation, Chargement) centralise
les données.
L’entrepôt de données est utilisé pour des applications comme :
Visualisation.
Reporting.
Intelligence d’affaires.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 9 / 98
Types d’Entrepôts de Données

Introduction :
Il existe 5 principaux types d’entrepôts de données, chacun répondant
à des besoins analytiques spécifiques.
Ces types permettent de répondre aux exigences diverses d’une
organisation.
Les 5 types principaux sont :
1 Enterprise Data Warehouse (EDW) : Un entrepôt centralisé
couvrant l’ensemble de l’organisation.
2 Data Mart : Un sous-ensemble d’un EDW, conçu pour un
département ou une fonction spécifique.
3 Virtual Data Warehouse : Une vue virtuelle des données sans
stockage physique .
4 Data Lakes et ODS

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 10 / 98
Enterprise Data Warehouse (EDW)

Qu’est-ce qu’un EDW ?


Un dépôt centralisé et intégré qui combine les données de différentes
sources d’une organisation entière.
Sert de source unique et fiable pour :
Le reporting.
L’analyse.
La prise de décision.
Fournit une vue globale et unifiée des données de l’organisation.
Objectifs principaux :
Faciliter la compréhension des performances, des processus, et des
tendances de l’organisation.
Aider à la prise de décisions basées sur des données précises et
centralisées.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 11 / 98
Caractéristiques d’un Enterprise Data Warehouse

Les principales caractéristiques d’un EDW :


Intégration des données :
Procédures d’intégration pour harmoniser, standardiser et transformer
les données.
Supprime les doublons et incohérences pour offrir une vue unifiée.
Stockage de données historiques :
Capacité à gérer et stocker des données historiques pour analyser les
tendances sur le long terme.
Les utilisateurs peuvent examiner les variations dans le temps.
Qualité et gouvernance des données :
Met l’accent sur la cohérence, la précision et la fiabilité des données
stockées.
Garantit que les données respectent les politiques de gouvernance.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 12 / 98
Avantages d’un Enterprise Data Warehouse

Pourquoi utiliser un EDW ?


Prise de décision basée sur les données :
Facilite les décisions stratégiques basées sur des données fiables.
Planification stratégique :
Aide à identifier les tendances et à élaborer des plans pour le futur.
Amélioration des performances :
Permet un suivi efficace des performances organisationnelles.
Efficacité opérationnelle :
Centralise les données pour réduire les redondances et améliorer
l’efficacité.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 13 / 98
Data Mart : Définition

Qu’est-ce qu’un Data Mart ?


Un sous-ensemble d’un EDW qui se concentre sur une fonction
commerciale spécifique ou un département.
Conçu pour répondre aux besoins d’analyse spécifiques d’un segment
particulier de l’organisation.
Différences avec un EDW :
Plus petit et ciblé, avec des données pertinentes pour une fonction
spécifique.
Fournit une vue personnalisée des données, adaptée aux utilisateurs
finaux.
Exemples d’utilisation :
Ventes, marketing, finance ou ressources humaines.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 14 / 98
Caractéristiques d’un Data Mart

Les principales caractéristiques d’un Data Mart :


Focus spécifique :
Conçu pour un domaine particulier comme les ventes, le marketing, ou
la finance.
Structure simplifiée et ciblée :
Utilise des modèles dimensionnels comme le schéma en étoile pour
organiser les données.
Temps de réponse rapide :
Optimisé pour des requêtes et analyses rapides.
Accessibilité pour les utilisateurs :
Permet aux utilisateurs finaux d’accéder facilement aux données
pertinentes pour leurs besoins.
Implémentation indépendante ou dépendante :
Peut fonctionner de manière autonome ou en lien avec un EDW.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 15 / 98
Data Lake : Définition

Qu’est-ce qu’un Data Lake ?


Un dépôt centralisé permettant de stocker de grandes quantités de
données brutes, structurées, semi-structurées et non structurées.
Contrairement aux bases de données traditionnelles, un Data Lake
n’impose pas de structure préalable aux données.
Analogie : Comparable à un lac où convergent différents flux d’eau
(données de sources variées).
Utilité :
Stocke des types variés de données : texte, images, vidéos, etc.
Permet une analyse flexible et exploratoire des données à l’échelle.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 16 / 98
Caractéristiques des Data Lakes

Principales caractéristiques :
Flexibilité de stockage :
Accepte des données de tous types, en conservant leur format d’origine.
Évolutivité :
S’adapte à des volumes de données croissants grâce à une scalabilité
horizontale.
Approche "Schema-on-Read" :
Les données ne sont structurées qu’au moment de leur analyse.
Prise en charge des traitements variés :
Supporte des frameworks comme Hadoop ou Spark pour les
traitements batch, temps réel, et apprentissage automatique.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 17 / 98
Utilisations des Data Lakes

Applications principales :
Analyses avancées :
Soutient les modèles de machine learning, l’analyse prédictive et
d’autres tâches intensives en données.
Vue globale à 360° :
Centralise les données provenant de sources variées pour fournir une
perspective holistique.
Stockage économique :
Moins coûteux que les solutions traditionnelles, surtout dans un
environnement cloud.
Exploration agile des données :
Favorise l’analyse rapide sans structure prédéfinie, utile dans des
environnements dynamiques.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 18 / 98
Operational Data Store (ODS) : Définition et Rôle

Qu’est-ce qu’un ODS ?


Une base de données intermédiaire utilisée pour intégrer et stocker des
données opérationnelles en temps réel ou quasi temps réel.
Fournit une vue consolidée et actualisée des données transactionnelles.
Différences avec un entrepôt de données :
ODS :
Se concentre sur les données opérationnelles actuelles.
Conçu pour les besoins en temps réel.
Entrepôt de données :
Se concentre sur les données historiques.
Conçu pour des analyses stratégiques et à long terme.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 19 / 98
Operational Data Store (ODS) – Définition et Rôle
Qu’est-ce qu’un ODS ?
Une zone de stockage intermédiaire utilisée pour intégrer, stocker, et gérer
les données opérationnelles en temps réel ou quasi temps réel.
Optimisé pour des requêtes rapides et des mises à jour fréquentes,
répondant aux besoins immédiats des opérations quotidiennes.
Caractéristiques Principales :
Stockage temporaire :
Les données restent dans l’ODS pendant une période limitée.
Permet une mise à jour continue des données sans surcharge des
systèmes sources.
Structure optimisée :
Simplifiée pour un accès rapidee et Conçue pour gérer des volumes de
données croissants provenant de diverses sources.
Actualisation en temps réel :
Garantit que les utilisateurs accèdent toujours aux données les plus
récentes.
Idéal pour les rapports opérationnels et la prise de décision immédiate.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 20 / 98
Schéma de l’Architecture ODS - Vue Générale

Figure: Structure d’un Operational Data Store (ODS)

Les données sont extraites de sources variées (ERP, SAP, bases


Oracle, fichiers plats, etc.).
Après extraction, transformation et chargement (ETL), elles sont
centralisées dans l’ODS.
L’ODS sert de source principale pour :Les rapports de gestion, et Les
applications opérationnelles et analytiques.
Enfin, les données peuvent être transférées vers des entrepôts de
données (Data Warehouse) ou des Data Marts pour des analyses
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 21 / 98
Composants de l’Architecture ODS
1. Operational Data Store (ODS) :
Zone de stockage intermédiaire :
Regroupe les données opérationnelles après leur transformation.
Structure optimisée pour un accès rapide et des mises à jour fréquentes.
Stockage temporaire :
Les données restent dans l’ODS pendant une période limitée avant
d’être transférées vers un entrepôt de données.
2. Consommateurs de l’ODS :
Applications opérationnelles :
Génèrent des rapports en temps réel pour les managers.
Permettent la prise de décisions rapides.
Applications analytiques :
Utilisent les données consolidées pour des analyses stratégiques.
Exemple : Prévisions des ventes, suivi des performances.
3. Intégration avec d’autres systèmes :
L’ODS peut alimenter des entrepôts de données (Data Warehouse) ou
des Data Marts.
Pr. Naoufal EL ALLALIChapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 22 / 98
Operational Data Store (ODS) – Fonctionnement et
Utilisation
Fonctionnement de l’ODS :
Intégration des données :
Collecte des données depuis plusieurs sources opérationnelles (ERP,
CRM, POS, etc.).
Consolidation des données pour offrir une vue unifiée et cohérente.
Mises à jour dynamiques :
Les données sont actualisées en temps réel pour refléter les
changements les plus récents dans les systèmes opérationnels.
Utilisations de l’ODS :
Applications opérationnelles :
Génération de rapports pour le suivi des performances quotidiennes
(ventes, stocks, etc.).
Analyse immédiate pour des décisions basées sur des données actuelles.
Alimentation des systèmes analytiques :
Transfert des données vers des entrepôts de données ou Data Marts
pour
Pr. Naoufal des analyses
EL ALLALI à long
Chapitre terme. des Entrepôts de Données:
2 : Architecture Septembre 02, 2023 23 / 98
Quand Utiliser un ODS ?
Un ODS est utilisé lorsque :
Besoins en données en temps réel ou quasi temps réel :
Les entreprises nécessitent des données opérationnelles à jour pour des
décisions immédiates.
Exemple : Suivi des stocks dans plusieurs entrepôts.
Consolidation des données provenant de multiples sources :
Lorsqu’il est nécessaire de regrouper des données issues de systèmes
hétérogènes (ERP, CRM, POS).
Exemple : Combiner les données des ventes physiques et en ligne.
Réduction de la charge sur les systèmes opérationnels :
Un ODS permet de décharger les systèmes sources en servant de
référentiel intermédiaire.
Exemple : Générer des rapports sans affecter les performances des
systèmes transactionnels.
Rapports opérationnels en temps réel :
L’ODS permet de générer des rapports rapidement, sans attendre les
processus de transformation plus longs d’un entrepôt de données.
Exemple
Pr. Naoufal : Tableaux
EL ALLALI de2 bord
Chapitre pour des
: Architecture surveiller
Entrepôtsles ventes
de Données: et les
Septembre 02, 2023 24 / 98
Exemple 1 : Gestion d’un Centre d’Appels
Problème :
Les agents reçoivent de nombreuses requêtes concernant les
commandes, mais les informations client proviennent de plusieurs
systèmes (ERP, CRM, historique des commandes).
Les données doivent être accessibles immédiatement pour répondre aux
clients en temps réel.
Solution via un ODS :
Intégration :
L’ODS regroupe les données client provenant des systèmes ERP
(commandes), CRM (interactions) et autres bases (paiements, retours).
Accès rapide :
Les données consolidées dans l’ODS permettent aux agents d’accéder
instantanément aux informations nécessaires pour répondre aux clients.
Résultat :
Amélioration du temps de réponse aux clients.
Réduction des erreurs dues à des données incohérentes entre les
systèmes.
Meilleure satisfaction client grâce à des réponses précises et rapides.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 25 / 98
Objectifs de l’Entrepôt de Données et de l’ODS

1. Objectif Principal :
Entrepôt de Données (Data Warehouse) :
Conçu pour l’analyse stratégique et les décisions à long terme.
Fournit une vue historique et consolidée des données de l’entreprise.
Exemple : Analyse des tendances des ventes sur plusieurs années.
ODS (Operational Data Store) :
Conçu pour les opérations quotidiennes et les décisions immédiates.
Fournit une vue actuelle et en temps réel des données opérationnelles.
Exemple : Suivi en temps réel des niveaux de stock.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 26 / 98
Type de Données

2. Type de Données :
Entrepôt de Données :
Données historiques provenant de multiples sources.
Transformées et structurées pour des analyses complexes et
stratégiques.
Exemple : Analyse des ventes, des performances clients et des
produits sur plusieurs années pour identifier les tendances.
ODS :
Données opérationnelles actuelles mises à jour en temps réel ou
quasi temps réel.
Optimisées pour les opérations quotidiennes.
Exemple : Données de commandes en cours, transactions récentes, ou
niveaux de stock actuels.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 27 / 98
Processus ETL – Vue Générale

ETL (Extract, Transform, Load) :


Extract : Extraction des données brutes
depuis diverses sources.
Transform : Nettoyage, harmonisation, et
préparation des données.
Load : Chargement des données dans un
entrepôt pour analyse.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 28 / 98
Staging – Stockage Temporaire
Qu’est-ce que le Staging ?
Zone intermédiaire utilisée pour stocker les données brutes extraites des
sources.
Prépare les données pour les étapes de transformation et de nettoyage.
Exemple :
Données d’employés extraites d’un ERP, organisées temporairement par
département pour analyse.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 29 / 98
Transformation des Données
Transformation :
Combine les données issues de différentes sources pour créer une vue unifiée.
Corrige les incohérences et élimine les doublons dans les données.
Structure les données selon des modèles analytiques (schéma étoile, flocon
de neige, etc.).
Exemple :
Fusion des données de plusieurs départements, comme RH et IT, pour
obtenir une vue consolidée des employés.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 30 / 98
Nettoyage des Données

Nettoyage :
Supprime les valeurs invalides ou manquantes des données.
Corrige les erreurs de formatage et standardise les valeurs (exemple :
uniformiser les dates).
Assure la qualité et la cohérence des données pour les rendre exploitables.
Avantages :
Améliore la précision des analyses et rapports.
Garantit une meilleure prise de décision basée sur des données fiables.
Exemple :
Suppression des doublons dans les informations d’un employé, comme des
enregistrements multiples pour la même personne.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 31 / 98
Chargement dans le Data Warehouse
Data Warehouse :
Entrepôt centralisé contenant des données nettoyées, intégrées et prêtes
pour analyse.
Conçu pour les requêtes complexes, les rapports stratégiques, et les analyses
prédictives.
Utilisation :
Rapports financiers, analyses marketing, tableaux de bord de performance.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 32 / 98
Data Marts et Analyses Prédictives
Data Marts :
Sous-ensembles spécifiques du Data Warehouse, dédiés à des besoins
analytiques particuliers (ventes, RH, marketing, etc.).
Fournissent des informations détaillées pour des analyses ciblées.
Analyses Prédictives :
Exploitent les données pour prévoir des tendances futures et prendre des
décisions stratégiques.
Exemples : Prévision des ventes, analyse des comportements des clients.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 33 / 98
Résumé du Processus ETL
Étapes du Processus ETL :
1. Extraction : Collecte des données brutes depuis des sources multiples.
2. Staging : Stockage temporaire des données brutes.
3. Transformation : Nettoyage, structuration, et harmonisation des
données.
4. Chargement : Intégration des données dans un Data Warehouse.
5. Analyse : Exploitation des données pour des rapports, tableaux de bord,
et analyses prédictives.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 34 / 98
Architecture d’un Entrepôt de Données
1. Définition :
Un entrepôt de données est un système centralisé conçu pour stocker,
consolider et analyser des données provenant de multiples sources.
Il supporte les besoins décisionnels grâce à des données nettoyées et
structurées.
2. Composants de l’Architecture :
Sources de Données : Données brutes provenant de bases
transactionnelles, CRM, ERP, fichiers plats, etc.
Processus ETL : Extraction, transformation, et chargement des données
dans l’entrepôt.
Staging Area : Zone intermédiaire pour le stockage temporaire et la
préparation des données.
Entrepôt de Données Centralisé : Contient des données consolidées,
nettoyées et historisées.
Outils de Reporting et d’Analyse : Tableaux de bord, visualisations,
analyses prédictives.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 35 / 98
Présentation des Architectures d’un Entrepôt de Données
Définition :
Une architecture d’entrepôt de données détermine comment les données
sont collectées, stockées, et analysées.
L’objectif principal est de fournir une vue unifiée et consolidée des données
pour une prise de décision stratégique.
Types d’Architectures :
Architecture à un niveau (Single-tier) : Combine les données
opérationnelles et analytiques dans une seule couche.
Architecture à deux niveaux (Two-tier) : Sépare les données
opérationnelles et analytiques en deux couches distinctes.
Architecture à trois niveaux (Three-tier) : Ajoute une couche
intermédiaire pour centraliser et organiser les données avant l’analyse.
Choix de l’Architecture :
Dépend des besoins analytiques, de la taille de l’organisation, et du budget.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 36 / 98
Architecture à un Niveau (Single-tier Architecture)

Qu’est-ce que l’Architecture à un Niveau ?


Une architecture à un niveau regroupe toutes les données opérationnelles et
analytiques dans une seule base de données ou un seul système.
Les données sont directement accessibles, sans distinction entre traitement
transactionnel (OLTP) et analytique (OLAP).
Ce modèle vise à centraliser toutes les opérations dans une couche unique
pour simplifier l’infrastructure technique.
Fonctionnement :
Les données proviennent de diverses sources (ERP, CRM, fichiers plats, etc.).
Elles sont directement stockées dans une base centrale, sans transformation
ou traitement préalable.
Les utilisateurs exécutent des analyses simples ou créent des rapports
directement sur cette base unique.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 37 / 98
Architecture à un Niveau (Single-tier Architecture)

L’architecture à un seul niveau est rarement utilisée en pratique.


Son objectif principal est de réduire la quantité de données stockées en
éliminant la redondance.
Limites principales :
Ce type d’architecture n’est pas adapté aux entreprises ayant des besoins
complexes en données ou un grand nombre de flux de données.
Absence d’un composant dédié à la séparation entre :
Le traitement transactionnel (OLTP).
Le traitement analytique (OLAP).

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 38 / 98
Structure et Fonctionnement de l’Architecture à un Niveau

Organisation :
Cette architecture regroupe trois couches principales :
Une couche source physique pour collecter les données.
Un entrepôt de données virtuel pour centraliser les informations.
Une couche d’analyse intégrant des outils de reporting ou OLAP.
Ne dispose ni de zone de staging ni de data marts pour le prétraitement des
données.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 39 / 98
Architecture à un Niveau (Single-tier Architecture)

Schéma : Centralisation des Données dans une Architecture à


un Niveau

Les données des systèmes opérationnels (ventes, stocks, RH) sont


directement accessibles.
Pas de séparation entre couches transactionnelles et analytiques.
Tout est regroupé dans un seul système pour simplifier l’accès et
l’analyse.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 40 / 98
Limites et Cas d’Utilisation de l’Architecture à un Niveau

Limites principales :
Absence de subdivision : Toutes les données sont regroupées au même
niveau, sans hiérarchisation.
Manque de flexibilité : Difficulté à gérer des données complexes ou
volumineuses.
Impact sur les performances : Les analyses lourdes peuvent ralentir les
opérations transactionnelles.
Scénarios d’utilisation :
Idéal pour les petites entreprises avec des besoins analytiques simples.
Convient lorsque l’objectif est de minimiser les coûts et de simplifier la
gestion des données.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 41 / 98
Exemple dans Single-tier
Une petite entreprise nommée XYZ Co., spécialisée dans la vente de
produits en ligne.
Données provenant de différentes sources :
Système des ventes : Commandes, revenus, produits.
Marketing : Résultats des campagnes publicitaires.
Ressources humaines (RH) : Suivi des employés.
L’objectif : Centraliser toutes ces données pour produire des rapports
analytiques simples (par exemple : revenus mensuels, taux de conversion
marketing).
Caractéristiques de l’entrepôt de données à un seul niveau :
Consolidation : Toutes les données (ventes, finances, RH, etc.) sont
stockées dans une seule base de données.
Pas de segmentation claire : Il n’y a pas de séparation claire entre les
données opérationnelles, analytiques ou par département.
Simplicité de gestion : La gestion est simple puisqu’un seul endroit
regroupe toutes les données.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 42 / 98
Types d’architecture : Two-tier Architecture

L’architecture Two-tier se réfère à une structure en deux niveaux principaux.


Ces deux niveaux sont conçus pour séparer les données brutes des données
transformées et analysées.
Chaque niveau a une fonction spécifique :
Niveau 1 : Zone de staging (préparation des données).
Niveau 2 : Entrepôt principal et outils d’analyse.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 43 / 98
Niveau 1 : Zone de Staging
Fonction :
Premier niveau où les données brutes sont extraites des sources externes
(bases opérationnelles, fichiers plats, API, etc.).
Les données sont nettoyées, transformées et préparées selon des normes de
qualité et de structure.
Caractéristiques principales :
Stockage temporaire : Les données préparées sont stockées dans la zone
de staging avant d’être transférées vers l’entrepôt principal.
Validation : La qualité des données est évaluée pour garantir leur intégrité.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 44 / 98
Niveau 2 : Présentation et Analyse
Fonction :
C’est le niveau principal où les données propres et transformées sont
stockées.
Ces données sont organisées pour permettre des analyses complexes.
Caractéristiques principales :
Structure : Les données peuvent être organisées en tables, cubes, ou autres
formats adaptés aux besoins analytiques.
Accès et analyse : Les utilisateurs peuvent interroger l’entrepôt, créer des
rapports et effectuer des analyses.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 45 / 98
Avantages de l’Architecture Two-tier

Avantages :
Séparation claire : Les données brutes sont isolées des données
transformées, ce qui améliore l’organisation et la gestion.
Flexibilité : Les processus de nettoyage et de validation dans la zone de
staging permettent d’adapter les données à divers besoins analytiques.
Performance : La séparation des niveaux réduit la charge sur l’entrepôt
principal, améliorant ainsi les performances des requêtes.
Évolutivité : Convient aux entreprises avec un volume de données croissant.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 46 / 98
Limites de l’Architecture Two-tier

Limites :
Complexité accrue : Nécessite une gestion supplémentaire entre la zone de
staging et l’entrepôt principal.
Temps de traitement : Les processus ETL peuvent ralentir si la qualité ou
la taille des données est importante.
Coût élevé : Besoin d’outils dédiés pour le staging et le stockage des
données.
Synchronisation : Un décalage peut exister entre les données en temps réel
et celles disponibles pour l’analyse.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 47 / 98
Exemple: Une Grande Entreprise et Two-tier Architecture

Contexte :
Une grande entreprise de commerce électronique (E-Store Inc.) gère des
données massives provenant de :
Systèmes des ventes : Transactions, commandes, paiements.
Marketing digital : Données des campagnes publicitaires en ligne.
Service client : Données CRM (gestion des relations clients).
Objectif : Centraliser les données pour des analyses approfondies sur les
comportements d’achat et les performances marketing.
Mise en œuvre :
Les données brutes sont nettoyées et validées dans une zone de staging.
Les données transformées sont chargées dans l’entrepôt principal, prêtes
pour des analyses complexes.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 48 / 98
Résultats et Applications de l’Exemple

Résultats :
Rapports dynamiques : Analyse des tendances d’achat pour optimiser les
campagnes marketing.
Gestion des stocks : Prévision des besoins en inventaire selon les données
historiques.
Performance client : Suivi des interactions et amélioration des relations
clients grâce aux analyses CRM.
Applications :
Analyse OLAP pour détecter les zones de forte demande.
Prévision des ventes à l’aide de modèles basés sur les données de l’entrepôt.
Génération automatique de rapports pour les décideurs.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 49 / 98
Architecture à Trois Niveaux : Introduction

Qu’est-ce que l’architecture à trois niveaux ?


Une structure d’entrepôt de données largement utilisée pour répondre aux
besoins analytiques des grandes organisations.
Conçue pour résoudre les limites des architectures à un ou deux niveaux,
comme les problèmes de performance et de gestion des données.
Particulièrement adaptée aux systèmes complexes et aux entreprises ayant
un grand volume de données.
Pourquoi trois niveaux ?
Chaque niveau a un rôle spécifique :
1 Couche source : Extraction des données de systèmes hétérogènes.
2 Couche réconciliée : Centralisation et stockage des données
transformées.
3 Couche présentation : Analyse et visualisation des données.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 50 / 98
Architecture à Trois Niveaux : Vue d’Ensemble

Composition des trois niveaux :


1 Sources : Systèmes opérationnels, fichiers plats, données externes,
etc.
2 Entrepôt principal : Regroupe les données transformées et validées.
3 Outils de présentation : Reporting, outils d’analyse (OLAP), outils
de data mining.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 51 / 98
Caractéristiques et Avantages de l’Architecture à Trois
Niveaux
Caractéristiques principales :
Séparation des responsabilités entre les couches (extraction, stockage,
présentation).
Intégration des marts de données pour des analyses spécifiques.
Gestion centralisée des données pour assurer leur qualité et leur cohérence.
Avantages :
Évolutivité : Convient aux entreprises en croissance avec des besoins de
données importants.
Flexibilité : Facilite les analyses globales et locales.
Performance optimisée : Répartition des tâches entre les couches pour
réduire la charge sur les systèmes.
Analyses avancées : Utilisation des outils comme OLAP pour explorer les
données en profondeur.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 52 / 98
Composants de l’Architecture d’un Entrepôt de Données :
La Staging Area

Définition :
La Staging Area est une zone temporaire où les données brutes
provenant des sources sont collectées, stockées et préparées avant leur
intégration dans l’entrepôt de données.
Elle est essentielle pour exécuter les processus d’ETL (Extract,
Transform, Load) de manière efficace.
Importance :
Sépare les données brutes des données transformées pour assurer leur
qualité.
Réduit l’impact des transformations sur l’entrepôt principal.
Permet de traiter des volumes de données massifs sans perturber les
systèmes sources ou les bases analytiques.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 53 / 98
Fonctionnalités de la Staging Area

Rôles de la Staging Area :


Collecte des Données :
Stocke temporairement les données extraites des sources multiples :
bases de données opérationnelles, fichiers plats, API, etc.
Nettoyage et Transformation :
Supprime les doublons, gère les valeurs manquantes, convertit les
formats pour harmoniser les structures.
Validation :
Vérifie l’intégrité des données pour assurer leur cohérence avant le
chargement dans l’entrepôt.
Avantages :
Gère les formats variés (structurés, semi-structurés, non structurés).
Préserve l’entrepôt de données des charges lourdes liées au traitement
initial.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 54 / 98
Illustration Visuelle de la Staging Area

Les données brutes provenant de différentes sources (systèmes


opérationnels, fichiers plats, données externes) sont collectées dans la
Staging Area.
Ces données sont nettoyées, validées, puis transformées via les outils
d’ETL avant d’être transférées dans l’entrepôt de données principal.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 55 / 98
Qu’est-ce qu’une métadonnée ?
Les métadonnées sont des "données sur les données".
Elles fournissent des informations détaillées sur la structure, le contenu
et l’utilisation des données dans un entrepôt.
Analogie :
Imaginez une bibliothèque :
Les livres représentent les données.
Le catalogue de la bibliothèque (titre, auteur, sujet, emplacement)
représente les métadonnées.
Les métadonnées permettent de savoir où trouver les données et
comment les utiliser.
Exemple :
Une table de base de données appelée VENTES.
Métadonnées associées :
Noms des colonnes : Produit, Quantité, Prix.
Type des colonnes : String, Integer, Float.
Relations : ProduitID lié à la table PRODUITS.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 56 / 98
Types de Métadonnées
1. Métadonnées Techniques :
Décrivent la structure physique et logique des données.
Exemple :
Une table CLIENTS avec :
Colonnes : Nom, Prénom, Adresse.
Type des colonnes : String, String, String.
2. Métadonnées Métiers :
Fournissent des définitions compréhensibles pour les utilisateurs métier.
Exemple : Définir un indicateur clé (KPI) :
Taux de Conversion = (Ventes / Visiteurs) * 100.
3. Métadonnées Opérationnelles :
Suivent les processus ETL (chargement, transformation, mise à jour
des données).
Exemple : "Dernière mise à jour de la table VENTES : 2024-12-01 à
02:00."
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 57 / 98
Exemple de Métadonnées

Contexte :
Une entreprise veut analyser les ventes par région et produit.
Les données sont stockées dans une table VENTES.

Métadonnées associées :
Technique :
Colonnes : ProduitID, RégionID, Montant.
Type des colonnes : Integer, String, Float.
Métier :
Définir le KPI Chiffre d’Affaires Mensuel = Somme(Montant)
par Région.
Opérationnel :
Mise à jour des données chaque nuit à 02:00.
Enregistrement des erreurs dans un fichier Logs.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 58 / 98
Données Résumées (Summary Data)

Qu’est-ce que les données résumées ?


Les données résumées sont des informations condensées ou agrégées
générées à partir des données brutes.
Elles sont produites par le gestionnaire de l’entrepôt de données.
Ces données se mettent à jour automatiquement lorsque de nouvelles
informations sont chargées dans l’entrepôt.

Exemple :
Total des ventes journalières par produit.
Moyenne mensuelle des ventes par région.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 59 / 98
Types et Rôle des Données Résumées

Types de données résumées :


Légèrement résumées : Agrégations simples, comme le total des
ventes journalières.
Fortement résumées : Résultats complexes, comme les tendances
mensuelles ou annuelles.

Pourquoi sont-elles importantes ?


Elles accélèrent les performances des requêtes, notamment pour
les analyses stratégiques.
Elles simplifient les données, offrant une vue globale pour les
décideurs.
Exemple d’application : Analyse des revenus trimestriels globaux ou
régionaux.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 60 / 98
Comparaison : Données Brutes vs Résumées
Données Brutes :
Contiennent tous les détails, comme chaque transaction individuelle.
Exemple :
Produit A vendu pour 100€, 120€, et 150€ sur trois jours.
Produit B vendu pour 80€, 90€, et 110€ sur trois jours.

Données Résumées :
Agrégations des données brutes pour une vue d’ensemble.
Exemple :
Total des ventes : Produit A = 370€, Produit B = 280€.
Moyenne des ventes journalières : Produit A = 123€, Produit B =
93€.

Avantages des Données Résumées :


Accélèrent les analyses stratégiques grâce à leur format simplifié.
Réduisent les calculs lors de l’exécution des requêtes.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 61 / 98
Les outils d’accès, d’analyse et de reporting

Rôle des outils dans l’entrepôt de données :


Les utilisateurs interagissent avec les informations collectées grâce à
divers outils et technologies.
Permettent d’analyser les données, de collecter des informations et de
générer des rapports.

Objectifs principaux :
Simplifier l’accès aux données stockées dans l’entrepôt.
Faciliter les prises de décisions stratégiques grâce à des visualisations
et des rapports.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 62 / 98
Les outils d’accès, d’analyse et de reporting

Rôle des outils dans l’entrepôt de données :


Les utilisateurs interagissent avec les informations collectées grâce à
divers outils et technologies.
Permettent d’analyser les données, de collecter des informations et de
générer des rapports.

Objectifs principaux :
Simplifier l’accès aux données stockées dans l’entrepôt.
Faciliter les prises de décisions stratégiques grâce à des visualisations
et des rapports.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 63 / 98
Types d’outils dans l’entrepôt de données

Classification des outils :


Outils d’interrogation et de reporting :
Utilisés pour créer des rapports et répondre à des questions spécifiques.
Exemples : Rapports de vente mensuels, tableaux de bord financiers.
Outils OLAP :
Permettent l’analyse multidimensionnelle des données.
Utilisés pour explorer les tendances et les modèles.
Outils d’exploration de données (Data Mining Tools) :
Identifient des modèles cachés dans les données.
Exemples : Prédiction des ventes, segmentation client.
Outils de développement d’applications :
Dédiés à la création de solutions personnalisées.
Exemples : Applications pour l’analyse financière ou la gestion de la
chaîne d’approvisionnement.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 64 / 98
Outils de reporting

Outils de reporting :
Permettent aux utilisateurs d’interagir avec les données collectées
grâce à divers outils technologiques.
Utilisés pour :
Générer des rapports.
Visualiser les données pour analyser les tendances et soutenir les prises
de décision.
Intègrent des tableaux de bord pour surveiller les indicateurs de
performance clés (KPI).
Exemple d’utilisation :
Une entreprise surveille ses ventes par région, par chaîne de
distribution et par manager.
Aide à identifier les produits performants et les goulots d’étranglement.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 65 / 98
Exemple de Tableau de Bord

Figure: Tableau de bord des ventes d’un groupe de mode.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 66 / 98
Description du Tableau de Bord
Principales sections du tableau de bord :
Ventes par chaîne : Analyse des performances des différentes
chaînes au fil du temps.
Ventes par manager : Classement des performances des
responsables de vente.
Ventes par catégorie : Comparaison des ventes par type de produit
(mode, maison, etc.).
Ventes par région : Distribution des ventes sur une carte
géographique.

Avantages :
Visualisation claire et rapide des performances clés.
Identification des tendances pour des décisions stratégiques.
Communication efficace des résultats commerciaux.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 67 / 98
Les Outils de Reporting
Les outils de reporting permettent de générer des rapports interactifs et
visuels à partir des données collectées dans un entrepôt de données. Ils
sont essentiels pour :
Analyser les performances de l’entreprise.
Prendre des décisions stratégiques basées sur des données factuelles.
Communiquer efficacement les informations clés à différents
départements.
Exemples d’Outils de Reporting :
Microsoft SQL Server Reporting Services (SSRS) : Solution
robuste pour créer des rapports dynamiques.
Power BI : Plateforme d’analyse visuelle de Microsoft, idéale pour des
tableaux de bord interactifs.
Tableau : Un des outils leaders pour des visualisations de données
intuitives et personnalisées.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 68 / 98
Outils OLAP – Analyse Multidimensionnelle
Les outils OLAP (Online Analytical Processing) sont utilisés pour
analyser les données selon plusieurs angles de vue.
Objectif principal :
Aider les utilisateurs à extraire des informations utiles et à prendre des
décisions basées sur les données.
Les données sont organisées dans un format multidimensionnel :
Les données sont regroupées en dimensions (par exemple : temps,
région, produit).
Ce modèle permet d’explorer facilement les données via des requêtes
rapides et complexes.
Exemple pratique :
Analyser les ventes d’un produit par région et par période.
Avantages des outils OLAP :
Rapidité : Permet des calculs instantanés (totaux, moyennes, etc.).
Flexibilité : Les données peuvent être explorées sous différents angles.
Visualisation : Facilite la compréhension des tendances et des
relations dans les données.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 69 / 98
Exemple d’utilisation des outils OLAP : Cube de données

Les outils OLAP organisent les données dans un format


multidimensionnel, appelé cube de données.
Chaque dimension représente une catégorie d’analyse :
Produit : DVD, PC, VCR.
Région : Amérique, Europe, Asie.
Temps : 1er trimestre (1Qtr), 2e trimestre (2Qtr), etc.
Le cube OLAP permet de répondre rapidement à des questions
complexes en naviguant dans les dimensions.

Avantage principal : Simplifie l’analyse des données grâce à une structure


claire et intuitive.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 70 / 98
Exemple concret : Analyse dans le Cube OLAP

Exemple de requête à analyser :


Calculer les ventes annuelles
totales de DVD en
Amérique.
Étapes :
1 Sélectionner la dimension
Produit : DVD.
2 Filtrer la dimension Région :
Amérique.
3 Additionner les ventes sur les
4 trimestres (1Qtr, 2Qtr,
3Qtr, 4Qtr).
Résultat : Une analyse rapide Figure: Exemple d’un cube OLAP
des données pour répondre à la
question posée.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 71 / 98
Data Marts

Un Data Mart est une partie spécifique d’un Data Warehouse.


Il est conçu pour répondre à un besoin précis, en se concentrant sur un
seul sujet d’analyse.
Exemple : analyser uniquement les ventes ou les stocks.
Les Data Marts sont :
Moins volumineux que les Data Warehouses.
Rapides à créer et faciles à utiliser.
Avantage principal :
Ils permettent un accès rapide aux données pour une analyse ciblée.

Un Data Mart est comme un « petit magasin » de données, spécialisé pour


un domaine précis.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 72 / 98
Data Marts

Techniquement :
Un Data Mart peut être :
Stocké dans le même système que le Data Warehouse.
Ou dans une base de données séparée.
Modélisation :
Les données sont organisées dans des schémas :
Schéma en étoile : Plus simple et efficace.
Schéma en flocon de neige (Snowflake) : Plus complexe.
Types de Data Marts :
Indépendant : Fonctionne sans Data Warehouse.
Dépendant : Utilise les données extraites du Data Warehouse.
Hybride : Combine les deux approches.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 73 / 98
Illustration : Data Mart

Un Data Mart est un


sous-ensemble d’un Data
Warehouse.
Il se concentre sur un sujet
spécifique, par exemple :
Les ventes d’une entreprise. Figure: Illustration d’un Data Mart
La gestion des stocks.

Un Data Mart est comme une version spécialisée et plus petite d’un Data
Warehouse.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 74 / 98
Data Mart Dépendant : Définition

Un Data Mart dépendant extrait ses données directement à partir


d’un Data Warehouse (DW).
Suivant une approche descendante (*Top-Down*), les données
globales sont centralisées dans le DW avant d’être filtrées pour créer le
Data Mart.
Caractéristiques principales :
Spécialisé dans un domaine précis (ex. : ventes, stocks, marketing).
Plus petit et rapide que le DW.

Exemple : Analyser uniquement les ventes dans une région ou pour un


produit spécifique.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 75 / 98
Data Mart Dépendant : Fonctionnement
Deux types de construction possibles :
1 Vue logique (*Logical View*) :
Le Data Mart utilise les données directement à partir du DW via des
vues virtuelles.
Aucun stockage séparé n’est nécessaire.
2 Sous-ensemble physique (*Physical Subset*) :
Les données sont extraites, transformées et chargées (ETL) dans une
base séparée.
Meilleure performance pour des analyses spécifiques.

Figure: Illustration : Vue logique et sous-ensemble physique

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 76 / 98
Data Mart Dépendant : Vue Logique (Logical View)

La Vue Logique signifie que le Data Mart est intégré directement


dans le Data Warehouse.
Les données ne sont pas physiquement déplacées :
Elles restent dans le DW et sont accessibles à travers des vues
virtuelles ou des tables virtuelles.
Une vue est créée à partir de requêtes SQL pour filtrer ou organiser les
données nécessaires.
Avantages :
Pas besoin de stockage supplémentaire.
Mise en place rapide car les données ne sont pas dupliquées.
Limites :
Les performances peuvent être limitées, car chaque requête accède
directement au DW principal.
Une vue logique est idéale pour les petites analyses ou lorsqu’on veut
éviter de dupliquer les données.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 77 / 98
Data Mart Dépendant : Sous-ensemble Physique (Physical
Subset)
Le Sous-ensemble Physique signifie que les données sont extraites
du Data Warehouse et stockées séparément.
Ces données sont transformées et chargées (ETL) dans une base
spécifique dédiée au Data Mart.
Avantages :
Améliore les performances des analyses, car elles ne dépendent plus
directement du DW principal.
Convient aux analyses complexes nécessitant beaucoup de ressources.
Limites :
Nécessite plus de stockage.
Les données peuvent devenir obsolètes si elles ne sont pas mises à jour
régulièrement.

Un sous-ensemble physique est idéal pour les analyses intensives nécessitant


des performances élevées.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 78 / 98
Logical View vs Physical Subset

Logical View Physical Subset


Les données restent dans le DW principal. Les données sont extraites et stockées sé-
parément.
Utilise des vues ou tables virtuelles. Nécessite un processus ETL.
Pas besoin de stockage supplémentaire. Besoin d’un espace de stockage.
Performances limitées pour des analyses Performances élevées pour des analyses
lourdes. complexes.
Idéal pour des petites analyses. Idéal pour des analyses intensives.
Le choix entre Logical View et Physical Subset dépend des besoins en

performances et des ressources disponibles.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 79 / 98
Data Mart Indépendant : Définition

Un Data Mart Indépendant est un système autonome qui ne dépend


pas d’un Data Warehouse central.
Caractéristiques principales :
Les données sont collectées directement depuis les sources (fichiers
plats, systèmes locaux, etc.).
Les analyses sont exécutées de manière totalement indépendante.
Approche utilisée : ascendante (Bottom-Up) :
On construit un Data Mart pour répondre à un besoin spécifique.
Pas besoin d’une infrastructure centralisée ou complexe.

Exemple : Une petite entreprise analyse ses ventes locales sans créer un
système global.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 80 / 98
Fonctionnement d’un Data Mart Indépendant
Étapes principales :
1 Collecte des données :
Les données sont récupérées directement depuis des sources spécifiques.
Exemples : fichiers plats, systèmes de gestion locaux, bases externes.
2 Transformation :
Les données sont nettoyées et formatées pour répondre aux besoins
d’analyse.
3 Chargement dans le Data Mart :
Les données sont stockées dans une petite base autonome.
Outils utilisés : ETL (*Extract, Transform, Load*).

Figure: Processus de création d’un Data Mart Indépendant


Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 81 / 98
Avantages et Limites des Data Marts Indépendants

Avantages :
Facilité de mise en place : Pas besoin d’une infrastructure complexe.
Coût réduit : Idéal pour les petites entreprises ou départements.
Flexibilité : Chaque équipe peut créer un Data Mart pour ses propres
besoins.
Limites :
Duplication des données : Si plusieurs Data Marts existent dans la
même organisation.
Difficulté d’intégration : Si une vue globale devient nécessaire, les
Data Marts indépendants ne s’intègrent pas facilement.

Les Data Marts indépendants sont idéaux pour des besoins spécifiques,
mais ils peuvent poser des problèmes pour des analyses globales.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 82 / 98
Quand utiliser un Data Mart Indépendant ?

Idéal pour :
Petites entreprises : Lorsque les ressources et les besoins sont limités.
Départements ou magasins indépendants : Chaque unité peut
analyser ses propres données.
Besoins spécifiques : Par exemple, analyser uniquement les ventes
d’un produit ou d’une région.
Exemple:
Une équipe marketing veut analyser les résultats d’une campagne
publicitaire locale.
Un Data Mart indépendant est créé avec les données de la région
concernée.
Résultat : Analyse rapide et ciblée sans attendre une vue globale.
Un Data Mart Indépendant est utile pour des analyses locales ou
spécifiques, mais pas pour une vision globale de l’entreprise.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 83 / 98
Qu’est-ce qu’un Data Mart Hybride ?

Un Data Mart Hybride combine deux approches :


Les données sont collectées directement depuis un Data Warehouse
(DW).
En parallèle, elles peuvent être collectées depuis des sources externes.
Cette méthode mixte permet d’avoir une solution flexible pour
répondre à des besoins variés.
Caractéristiques principales :
Les données provenant du Data Warehouse sont enrichies par des
données externes.
Utilise des processus ETL pour extraire, transformer et charger les
données.

Un Data Mart Hybride combine la robustesse du Data Warehouse avec la


flexibilité des sources locales ou externes.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 84 / 98
Hybrid Data Marts : Définition
Un Hybrid Data Mart combine deux sources de données :
Les données extraites du Data Warehouse central (Path-1).
Les données provenant de sources locales ou externes (Path-2).
Objectif : Offrir une analyse enrichie en intégrant les données
globales et locales.
Géré via un processus ETL (Extract, Transform, Load) pour garantir
la qualité des données.

Figure: Structure des Hybrid Data Marts avec Path-1 et Path-2.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 85 / 98
Hybrid Data Marts : Fonctionnement – Path 1 (Data
Warehouse)
Path 1 : Les données sont extraites du Data Warehouse central.
Étapes principales :
1 Extraction : Récupérer les données globales (ex. : ventes totales,
stocks).
2 Transformation : Organiser les données selon les besoins spécifiques.
3 Chargement : Stocker ces données dans les Data Marts (DM1, DM2,
DM3).
Exemple : Une entreprise analyse les ventes globales par produit ou
région.

Figure: Path-1 : Les données proviennent directement du Data Warehouse.


Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 86 / 98
Hybrid Data Marts : Fonctionnement – Path 2 (Sources
locales)
Path 2 : Les données sont extraites de sources locales ou externes.
Étapes principales :
1 Extraction : Récupérer des données spécifiques (ex. : préférences
clients, données régionales).
2 Transformation : Nettoyer et enrichir ces données locales.
3 Chargement : Intégrer les données transformées dans les Hybrid Data
Marts.
Exemple : Un département régional collecte des données sur les
préférences clients pour une analyse locale.

Figure: Path-2 : Les données proviennent de sources locales ou externes.


Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 87 / 98
Avantages et Cas Pratiques des Hybrid Data Marts
Avantages :
Flexibilité : Combine données globales et locales pour une analyse
enrichie.
Richesse des données : Permet d’ajouter des insights locaux ou
externes.
Rapidité : Répond rapidement aux besoins spécifiques des
départements.
Cas Pratiques :
Une entreprise analyse les ventes globales tout en intégrant des
données locales (ex. : campagnes marketing régionales).
Un département collecte des données régionales pour des analyses
ciblées sur les préférences clients.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 88 / 98
Approches pour Construire un Entrepôt de Données

Un entrepôt de données est une collection organisée de données


provenant de différentes sources.
Ces données sont structurées selon un schéma unifié pour permettre
des analyses efficaces.
Objectif principal : Fournir une vue globale et cohérente des données
de l’entreprise.
Deux approches pour construire un entrepôt de données :
Approche descendante (Top-Down).
Approche ascendante (Bottom-Up).

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 89 / 98
Approche Descendante (Inmon’s Approach)
Définition :
Développée par Bill Inmon, connu comme le "père de l’entreposage de
données".
Méthode pour construire un entrepôt de données en suivant une
approche structurée.
Principe de base :
Construire d’abord un entrepôt de données centralisé.
Puis, créer des Data Marts pour répondre à des besoins spécifiques
(ventes, marketing, etc.).
Étapes principales :
1 Collecter les données depuis diverses sources (bases internes, fichiers,
etc.).
2 Transformer les données pour les rendre cohérentes et unifiées.
3 Charger ces données dans l’entrepôt centralisé.
4 Créer des Data Marts en extrayant des sous-ensembles de données
spécifiques.
Exemple : Une entreprise collecte toutes les données (ventes, clients,
stocks) dans un entrepôt central, puis crée un Data Mart pour
analyser les ventes régionales.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 90 / 98
Avantages et Limites de l’Approche Descendante

Avantages :
Vue globale et cohérente des données pour toute l’entreprise.
Favorise une analyse stratégique et centralisée.
Limites :
Coût élevé et mise en place longue.
Complexité dans la gestion initiale des données.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 91 / 98
Approche Descendante

Construire un entrepôt de données centralisé avant de créer des Data


Marts.
Développée par Bill Inmon, cette méthode offre une vue stratégique.
Idéal pour les grandes organisations cherchant une structure bien
organisée.
Exemple :
Collecter toutes les données de l’entreprise (ventes, clients, stocks).
Charger ces données dans un entrepôt central.
Créer un Data Mart dédié aux analyses des ventes régionales.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 92 / 98
Approche Ascendante (Kimball’s Approach)
Définition :
Développée par Ralph Kimball, cette approche est orientée vers les
besoins opérationnels et spécifiques.
Construit des Data Marts indépendants en premier, puis les connecte
pour former un entrepôt global.
Principe de base :
Commence par répondre à des besoins immédiats à l’aide de Data
Marts locaux.
Les Data Marts sont progressivement intégrés pour construire un
entrepôt de données global.
Étapes principales :
1 Identifier un domaine clé (ex. : ventes, stocks, clients) pour créer un
Data Mart.
2 Extraire et transformer les données locales nécessaires.
3 Charger les données dans un Data Mart spécialisé.
4 Répéter pour d’autres domaines, puis connecter les Data Marts.
Exemple : Une entreprise crée d’abord un Data Mart pour les ventes,
puis un autre pour le marketing. Ces Data Marts sont ensuite
connectés pour former une vue globale.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 93 / 98
Comparaison Approche Descendante vs Ascendante

Approche Descendante (In- Approche Ascendante (Kim-


mon) ball)
Débute avec un entrepôt global Débute avec des Data Marts lo-
centralisé. caux.
Vision stratégique et cohérente. Répond aux besoins opéra-
tionnels immédiats.
Coût élevé, mise en œuvre Coût réduit, mise en œuvre
longue. rapide.
Convient aux grandes en- Idéal pour les petites/moyennes
treprises. entreprises.
Exemple : Entrepôt global, puis Exemple : Data Marts, puis en-
Data Marts. trepôt global.

Le choix dépend des besoins stratégiques ou opérationnels, ainsi que des


ressources disponibles.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 94 / 98
Qu’est-ce que l’ETL ? (Extract, Transform, Load)
ETL signifie Extract, Transform, Load.
Processus :
1 Extraction (Extract) : Récupérer les données de différentes sources
(fichiers, bases de données, etc.).
2 Transformation (Transform) : Nettoyer et formater les données
avant leur chargement.
3 Chargement (Load) : Stocker les données transformées dans un
entrepôt cible.
Utilisé pour des systèmes traditionnels comme les Data Warehouses.

Figure: Illustration du processus ETL.


Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 95 / 98
Qu’est-ce que l’ELT ? (Extract, Load, Transform)
ELT signifie Extract, Load, Transform.
Processus :
1 Extraction (Extract) : Récupérer les données depuis diverses sources.
2 Chargement (Load) : Charger directement les données brutes dans le
système cible.
3 Transformation (Transform) : Effectuer les transformations
directement dans le système cible.
Utilisé dans des systèmes modernes comme les Data Lakes.

Figure: Illustration du processus ELT.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 96 / 98
Quand utiliser ETL et ELT ?
Utilisation de ETL :
Lorsque les données doivent être nettoyées et transformées avant le
chargement.
Idéal pour les Data Warehouses traditionnels, où les données sont
structurées et bien définies.
Utilisé dans des entreprises où les volumes de données sont modérés.
Exemples :
Analyses financières.
Données de vente ou de stocks.
Utilisation de ELT :
Lorsque les données peuvent être chargées brutes dans un système
cible pour transformation ultérieure.
Idéal pour les Data Lakes modernes, capables de gérer de grandes
quantités de données brutes.
Adapté aux organisations utilisant des technologies modernes de cloud
ou de Big Data.
Exemples :
Analyses en temps réel.
Données issues de capteurs IoT ou logs d’application.
Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:
Septembre 02, 2023 97 / 98
Différences entre ETL et ELT

ETL ELT
Transformation avant le charge- Transformation après le charge-
ment. ment.
Utilisé avec des Data Ware- Utilisé avec des Data Lakes ou
houses traditionnels. systèmes modernes.
Plus lent pour traiter de grandes Optimisé pour les traitements
données. massifs.
Nécessite des outils externes Utilise les capacités de transfor-
pour transformer les données. mation du système cible.
Convient pour des données bien Convient pour des données
définies et structurées. brutes et non structurées.

L’ETL est classique pour les entrepôts traditionnels, tandis que l’ELT est
adapté aux environnements modernes.

Pr. Naoufal EL ALLALI Chapitre 2 : Architecture des Entrepôts de Données:


Septembre 02, 2023 98 / 98

Vous aimerez peut-être aussi