0% ont trouvé ce document utile (0 vote)
220 vues38 pages

BI Chapitre2

Ce document introduit les concepts d'entrepôts de données et de magasins de données. Il définit ces termes, compare leurs caractéristiques et décrit leurs contextes d'utilisation respectifs.

Transféré par

amine.belaabed.01
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
220 vues38 pages

BI Chapitre2

Ce document introduit les concepts d'entrepôts de données et de magasins de données. Il définit ces termes, compare leurs caractéristiques et décrit leurs contextes d'utilisation respectifs.

Transféré par

amine.belaabed.01
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre -2-

Introduction aux entrepôts


de données
Faculté des Sciences
Département d’Informatique - L3 – ISIL
2023-2024
1- Les entrepôts de données

1. Définition
2. De l'entrepôt de données à l'aide à la décision
3. Entrepôt de données et magasin de données
4. Types de magasin de données
5. Comparaison
6. Contexte d'utilisation
7. Cas d'utilisation
29/04/2024 2
Définition
⚫ W.H. Inmon (Building the data Warehouse, 1992):
"C'est une collection de données
⚫ Thématiques ou orientées sujet: Les données sont rassemblées par sujet ou thème
⚫ Intégrées: Les données résultent de l'intégration de données provenant de diverses sources
pouvant être hétérogènes. Exemple: attribut sexe (m,f);(0,1);(homme,femme);(masculin,féminin)
⚫ Non volatiles: Les données sont utilisées consultation et ne peuvent pas être modifiées (sauf par
rafraîchissement),
⚫ Historisées: Elles représentent l'activité de l'entreprise sur une certaine période (plusieurs
années) ce qui permet l'analyse de la variation dans le temps,
Organisées pour le support d'un processus d'aide à la décision"

29/04/2024 3
De l'entrepôt de données à l'aide à la décision (1)
Entreposage des données :
Avant d'être chargées dans l'entrepôt, les données sélectionnées doivent être:
• Extraites des sources: BD opérationnelles internes ou externes (notamment issus du Web),
• Soigneusement épurées: afin d'éliminer des erreurs et réconcilier les différentes sémantiques associées aux
sources.

Exploitation des données de l'ED (Systèmes décisionnels):


• A partir des données de l'ED diverses analyses peuvent être réalisées, notamment par des techniques (OLAP,
Fouille de données et de visualisation),
• Notons que les informations et connaissances obtenues par exploitation de l'ED ont un impact direct sur les
bénéfices de l'entreprise

29/04/2024 4
De l'entrepôt de données à l'aide à la décision (2)

E
T
L

Data marts

Sources de données Sources de stockage Moteur d'analyse Outils de sortie


29/04/2024 5
Entrepôt de données versus BD opérationnelles
Paramètres Base de données Entreposage De Données

Objectif Sauvegarde Analyser

Méthode de traitement OLTP OLAP

Utilisation SELECT, INSRT, UPDATE et DELETE SELECT

Orientation Application ou Traitement Thème ou Sujet

Limite de stockage Une seule application Stocke les données de plusieurs applications

29/04/2024 6
Entrepôt de données versus BD opérationnelles
Paramètres Base de données Entreposage De Données

Disponibilité En temps réel A partir des systèmes sources en cas de besoin

Technique Capturer des données Analyser les données

Données hétérogènes (Intégration), historiques rafraichies (pas


Type de données Données homogènes à jour.
de mise à jour).

Stockage des données Approche Relationnelle Approche dimensionnelle (schéma en étoile, en flocon de neige).

Type de requête Transactionnelles Analyse

Historisation NON (Archivage) OUI

29/04/2024 7
Entrepôt de données et Magasin de données
⚫ L'entrepôt de données - ED (Data Warehouse – DW):
⚫ Nécessitent de puissantes machines pour gérer de très grandes bases de données contenant des données de
détail historisées.
⚫ Lieu de stockage centralisé d'un extrait des bases de production.
⚫ L’organisation des données est faite selon un modèle facilitant la gestion efficace des données et leur historisation.

⚫ Les magasins de données - MD (Data Marts - DM):


⚫ Petits entrepôts nécessitant une infrastructure plus légère et sont mis en œuvre plus rapidement (6 mois environs).
⚫ Conçus pour l’aide à la décision à partir de données extraites d’un ED plus conséquent ou de BD sources existantes.
⚫ Les données extraites sont adaptées pour l’aide à la décision (pour classe de décideurs, usage particulier, recherche de
corrélation, logiciel de statistiques,...)
⚫ L’organisation des données est faite selon un modèle facilitant les traitements décisionnels.

29/04/2024 8
Types de magasin de données
⚫ Magasins de données dépendants
Construit à l'aide d'un entrepôt de données existant. Il adopte une approche descendante qui commence par
sauvegarder toutes les données commerciales dans un emplacement central unique, puis extrait une partie
spécifique des données lorsque cela est nécessaire pour l'analyse. Il s’agit essentiellement d’un sous -ensemble
d’un entrepôt de données plus vaste, axé sur un sujet ou un domaine d’activité spécifique.
⚫ Magasins de données indépendants
Ce sont des entités autonomes construites sans entrepôt de données. Il est facile de développer des objectifs à
court terme. Cependant, chaque datamart indépendant est livré avec son propre Outil ETL et logique; par
conséquent, ils deviennent difficiles à gérer à mesure que les entreprises se développent.
⚫ Magasins de données hybrides
Combine des éléments de datamarts dépendants et indépendants. Cette approche est particulièrement
intéressante lorsque certains services nécessitent des solutions de données sur mesure tout en bénéficiant de la
cohérence et de la gouvernance d'un environnement de données centralisé.

29/04/2024 9
Comparaison
Data Warehouse Data Mart
Utilisé pour stocker les données de nombreux domaines. Transporte des données liées à un département
Il agit comme un référentiel de données central pour une Il s'agit d'une sous-section logique d'un entrepôt de données
entreprise. pour des applications départementales particulières.
Conçu à l’a ide d’un schéma d’étoile, de flocon de neige, de
Utilisent un schéma en étoile pour concevoir des tables.
galaxie ou de constellation de faits.
Délicat à concevoir et à utiliser (sa taille > 100 Go). Comparativement plus gérable (sa taille < 100 Go).
Conçu pour accompagner le processus de prise de décision Conçus pour des groupes d'utilisateurs ou des services
dans une entreprise. d'entreprise particuliers.
Utilisés pour stocker des informations détaillées sous forme Contiennent des données hautement dénormalisées sous une
dénormalisée ou normalisée. forme résumée.
A de grandes dimensions et intègre des données provenant de Des dimensions plus petites pour intégrer des ensembles de
nombreuses sources. données provenant d’un plus petit nombre de sources.
Orientés sujet et varient dans le temps, les données existant Utilisés pour des domaines particuliers et conservent les
pendant une durée plus longue. données pendant une durée plus courte.

29/04/2024 10
Contexte d'utilisation (1)
⚫ Les entrepôts de données:
⚫ Analyse à l'échelle de l'entreprise : Si votre organisation nécessite une analyse complète et
approfondie de différents départements et fonctions, un entrepôt de données est la solution idéale.
Il centralise les données provenant de différentes sources et fournit une vue unifiée pour des
rapports et des analyses complets.
⚫ Intégration de données: Les processus ETL robustes d'un entrepôt de données deviennent
cruciaux si vous avez affaire à diverses sources de données qui doivent être intégrées et nettoyées.
Il garantit que les données sont cohérentes et fiables dans toute l’organisation.
⚫ Évolutivité: Pour le stockage et le traitement de données à grande échelle, les entrepôts de
données offrent une évolutivité permettant de gérer efficacement des quantités massives de
données. Ils sont conçus pour prendre en charge les besoins complexes en matière de requêtes et
de reporting de l’ensemble d’une organisation.

29/04/2024 11
Contexte d'utilisation (2)
⚫ Les magasins de données:
⚫ Objectif du département : Si les besoins en matière d'analyse sont spécifiques à un service ou à
une équipe particulière, la mise en œuvre d'un datamart permet une approche plus ciblée et
rationalisée. Chaque département peut disposer de son propre datamart adapté à ses besoins
uniques.
⚫ Déploiement rapide : Les data marts sont plus rapides à déployer que les entrepôts de données à
grande échelle. Si une unité commerciale spécifique a besoin d’un accès rapide aux analyses sans
attendre l’ensemble de l’infrastructure de l’organisation, un datamart constitue une solution plus
agile.
⚫ Rapport coût-efficacité: La mise en œuvre de datamarts peut être plus rentable pour les projets à
plus petite échelle. Au lieu d'investir dans une infrastructure d'entrepôt de données massive, vous
pouvez créer des datamarts ciblés qui répondent à des besoins spécifiques, réduisant ainsi le
temps et les coûts.
29/04/2024 12
Contexte d'utilisation (3)
Dans la pratique, on utilise fréquemment une combinaison
d’entrepôts de données et de datamarts.

Il ne s’agit donc pas vraiment d’une situation de «quand


utiliser l’un plutôt que l’autre», mais plutôt d’un scénario
de «comment peuvent-ils se compléter».
29/04/2024 13
Cas d'utilisation des data marts
⚫ Analyse des campagnes marketing
⚫ Scénario: Le service marketing souhaite analyser l'efficacité d'une campagne récente.
⚫ Rôle du datamart : Vous pouvez attribuer un datamart marketing pour stocker et analyser des données spécifiquement
pertinentes pour les activités marketing. Il pourrait fournir des informations rapides et ciblées sur les mesures liées à
l’engagement client et aux taux de conversion.
⚫ Suivi des performances des ventes
⚫ Scénario: L'équipe commerciale a besoin de données en temps réel sur les performances commerciales.
⚫ Rôle du datamart : Vous pouvez créer un datamart de ventes pour offrir un accès rapide et ciblé aux données de vente
pertinentes, y compris les mesures des vendeurs individuels et les tendances des ventes régionales.
⚫ Planification et analyse financières
⚫ Scénario: Le service financier a besoin de données financières détaillées à des fins de budgétisation et de prévision.
⚫ Rôle du datamart : En mettant en œuvre un datamart financier, vous pouvez stocker et fournir à l'équipe financière les
informations spécifiques dont elle a besoin pour la planification et l'analyse.

29/04/2024 14
Cas d'utilisation des Data Warehouse
⚫ Rapports à l'échelle de l'entreprise
⚫ Scénario: Un PDG souhaite un rapport complet sur les performances globales de l’entreprise.
⚫ Rôle : Un entrepôt de données intégrant les données des ventes, des finances, du marketing et de la production
fournit un référentiel centralisé nécessaire pour visualiser les performances de l'entreprise de bout en bout.
⚫ Analyse des tendances historiques
⚫ Scénario: Une organisation souhaite analyser les tendances des 10 dernières années pour prendre des décisions
stratégiques à long terme.
⚫ Rôle : Les entrepôts de données stockent efficacement les données historiques, permettant une analyse des tendances
et une planification stratégique basées sur une perspective historique complète.
⚫ Requêtes complexes pour la Business Intelligence
⚫ Scénario: Les analystes métier doivent exécuter des requêtes complexes qui impliquent l’agrégation et l’analyse de
données provenant de plusieurs sources.
⚫ Rôle : Les entrepôts de données sont optimisés pour les requêtes complexes, fournissant ainsi une plate-forme de
veille économique et d'analyse approfondies.

29/04/2024 15
2- Modélisation et implantation d'un entrepôts de données

1. Modélisation multidimensionnelle
2. Notion de cube OLAP
3. Stratégie d'implantation
4. OLAP et Big Data
5. Schémas d'un ED
29/04/2024 16
Modélisation multidimentionnelle
03 niveaux de modélisation:
⚫ Conceptuel: Description de la base multidimensionnelle indépendamment des choix
d'implantation Logique. Utilisation des concepts de:
⚫ Dimensions et hierarchies
⚫ Faits et mesures

⚫ Logique: Description de la base multidimensionnelle suivant la technologie utilisée :


⚫ ROLAP(Relational-OLAP)
⚫ MOLAP (Multidimensional-OLAP)
⚫ HOLAP (Hybrid-OLAP)

⚫ Physique: l’implantation dépend donc du logiciel utilisé.

29/04/2024 17
Modélisation conceptuelle (1)
⚫ Concept "Fait et mesures"
Un fait modélise le sujet (thème) de l'analyse. Il est constitué de mesures qui correspondent aux
informations de l'activité analysée.
Ces mesures sont numériques généralement valorisées de façon continue. Elles sont calculables, on
peut:
• Les cumuler, les dénombrer, calculer le maximum,le minimum ou la moyenne, … etc.
• Exemple:
• Le fait VENTE constitué des mesures :
• quantité: Quantité de produits vendus
• montant: Montant total des ventes

29/04/2024 18
Modélisation conceptuelle (2)
• Concept "Dimension"
Le sujet ou fait est analysé suivant différentes perspectives ou axes
caractérisant ses mesures de l’activité : on parle de dimensions.
Une dimension :
• Modélise un axe d'analyse
• Se compose de paramètres correspondant aux informations
faisant varier les mesures de l'activité.

Exemple: Dans l'exemple précédent, le fait «Vente» peut être analysé


suivant différentes perspectives correspondant à trois dimensions :
• Temps,
• Geographie,
• Categorie

29/04/2024 19
Modélisation conceptuelle (3)
• Concept "Hiérarchie de dimension"
• Les faits sont analysés selon les dimensions qui les caractérisent
• Il est nécessaire de définir pour chaque dimension ses différents
niveaux hiérarchiques de détail (d’agrégation),
• Les hiérarchies de dimensions définissent des niveaux de détail
de l'analyse sur les dimensions.

29/04/2024 20
Modélisation conceptuelle (4)
• Concept "Hiérarchie de dimension"
Exemple:
• Dimension «temps» :
• H1 : jour -> mois -> année ;
• H2 : jour -> mois -> trimestre -> année ;
• H3 : jour -> mois -> saison -> année ;
• Dimension «géographie» :
• ville -> département -> région (chaque ville appartient à un département qui est situé
dans une région)
• Dimension «catégorie» :
• couleur -> nomProduit -> gamme -> typeProduit (chaque produit appartient à une
gamme de produit qui appartient à un type de produit)

29/04/2024 21
Notion de cube OLAP (1)
• Les requêtes décisionnelles sont généralement des requêtes
multidimensionnelles
Exemple:
Si nous considérons un chiffre d'affaires sous 3 axes à savoir : le temps, la zone de chalandise et la région, une requête
multidimensionnelle serait de calculer le chiffre d'affaires par région, ou encore le chiffre d'affaires par région pour la période t et à la
zone de chalandise Z.

• Les SGBD Classiques sont incapables


de répondre dans les délais
• Utilisation de structure adéquate

HYPERCUBE ou CUBE

29/04/2024 22
Notion de cube OLAP (2)
• Définition
Un cube OLAP est une structure de données multidimensionnelle stockant les faits (Sujets) comme
des mesures indexées par plusieurs dimensions.
Chaque cellule d’un cube représente la mesure ou valeur quantitative d’un fait sur le croisement de
plusieurs dimensions.

29/04/2024 23
Notion de cube OLAP (3)
Les cases vides signifie qu'il n'y a pas de chiffres
• Exemple d'affaires pour ce croissement de dimensions.
Vendeur Produit Date de Vente Prix de vente
Ali Accessories 01/04/2001 800
Mohamed Bikes 09/05/2001 1400
Omar Clothing 02/02/2002 500
Omar Components 02/03/2002 1000
Ali Bikes 15/03/2002 1800
Ali Bikes 10/03/2003 2000
Mohamed Components 12/10/2003 700
Mohamed Bikes 25/12/2004 2200
Ali Components 10/01/2004 500
… … … ... Chiffre d'affaires réalisé par Mohamed sur Bikes
Omar Bikes 15/11/2004 2500 durant l'année 2001

29/04/2024 24
Stratégie d'implantation (1)
Technologie OLAP

Stockage des données Interrogation des données

Doit respecter au moins 5 conditions, regroupées sur le sigle FASMI – Fast Analysis of
Shared Multidimensionnal Information

29/04/2024 25
Stratégie d'implantation (2)
• Fast:
• Répondre aux utilisateurs avec une latence inférieure ou égale à 5 secondes.
• Des études ont montré que les utilisateurs considèrent qu’un traitement de Reporting a échoué si les résultats ne sont pas
affichés dans les 30 secondes.
• Analysis:
• Capable d’effectuer des calculs statistiques et des calculs d’agrégation pour répondre aux besoins métiers des utilisateurs.
• Fournir une interface graphique, pour les requêtes, suffisamment intuitive pour les utilisateurs.
• Shared:
• Implémente des mécanismes de sécurité jusqu’au niveau de la cellule du cube pour garantir la confidentialité, et garantir le
verrouillage en cas d’utilisation concurrente.
• Multidimentional
• Offre une vue multidimensionnelle des données, nécessaire pour l’analyse décisionnelle des données.
• Information
• Stockage des données et des agrégations.

29/04/2024 26
Stratégie d'implantation (3)
Problème d'implantation d'OLAP est leur nature peu dense (serré), et très éparse
(dispersé).
Beaucoup de cellules sont vides , les données ne sont pas distribuées uniformément
dans tout l’espace multidimensionnel, elles sont concentrées en groupes dans des
espaces-temps où les événements métier occurrent le plus souvent Ce problème
rend le stockage et le traitement des données du cube plus complexe.
Options de stockage
BD Relationnelle BD Multidimensionnelle Fichiers Plats
SQL ROLAP
Serveur
Options de Traitement HOLAP MOLAP
Multidimensionnel
Client Multidimensionnel DOLAP DOLAP DOLAP

29/04/2024 27
Stratégie d'implantation (3)
• Usage d’un système Relationnel OLAP:
• Les SGBDR représentant plus de 80% des SGBD : ils sont principalement envisagés pour le
développement d’ED mais doivent être adaptés vu qu'ils n’ont pas les caractéristiques adéquates pour
répondre aux besoins des ED.
• Usage système Multidimensionnel OLAP:
• Un SGBD Multidimensionnel (SGBDM) est un SGBD capable de stocker et traiter des données
multidimensionnelles.
• A ce jour pas encore de cadre technologique commun pour le développement de tels systèmes :
chaque produit est spécifique.
• Usage d’un système Hybride OLAP:
• un ROLAP pour stocker, gérer les données détaillées (stockage)
• un MOLAP pour stocker, gérer les données agrégées (traitement)
• Usage d’un système Desktop OLAP:
• C'est un client lourd installé en local, les données y sont stockées soit de façon relationnelle, soit de
façon multidimensionnelle, ou soit sous la forme de fichiers plats. Ainsi, les utilisateurs peuvent faire
leurs analyses directement sous leur poste dans dépendre du service informatique.

29/04/2024 28
OLAP et Big Data (1)
Cluster computing

Approche
appropriée
utilisée

• Le traitement des données est distribué et parallélisé entre les


nœuds d’un cluster. Il n’y a pas nécessité d'avoir O
• La multi dimensionnalité propre aux requêtes décisionnelles LAP au sens strict du terme.
est gérée facilement grâce aux nœuds de calcul du cluster.

29/04/2024 29
OLAP et Big Data (2)
• Solutions décisionnelles du Big Data (Moteurs Hadoop, Moteurs natif Hadoop,
SGBD MPP)
Moteur SQL sur Hadoop
Toute technologie permettant d'écrire et d'exécuter des jobs sur Hadoop en
Définition
utilisant SQL
Complètement dépendant d'Hadoop, Installé sur Hadoop
Lien avec Hadoop

Le code SQL écrit est transformé en job MapReduce/TEZ. Il est exécuté en tant
Exécution du SQL
que job Hadoop classique
Exemples de solution Hive, Pig, Cascading

29/04/2024 30
OLAP et Big Data (3)

Moteur SQL natif sur Hadoop


Catégorie de moteurs SQL sur Hadoop qui exécutent le SQL directement sur le HDFS
Définition
sans le transformer en job MapReduce ou job TEZ (comme le fait Hive ou Pig).
Lien avec Indépendant d'Hadoop, mais installé sur le cluster Hadoop
Hadoop
Exécution du Le code SQL écrit est transformé en plan d'exécution SQL et directement exécuté sur les
SQL données stockées dans le HDFS.
Exemples de Impala
solution

29/04/2024 31
OLAP et Big Data (4)
Moteur SQL relationnel MPP
SGBD relationnel distribué sur Hadoop ou Moteur SQL relationnel MPP (Massively
Définition Parallel Processing) classique qui est capable d'exécuter le SQL sur un cluster
Hadoop
Lien avec Hadoop Complètement Indépendant du cluster Hadoop
Les tables de la BD sont partitionnées et distribuées sur les nœuds du cluster Hadoop
(et non des nœuds du serveur MPP).
Exécution du SQL Lorsque le SQL du client est soumis, le plan d'exécution du SQL est géré au niveau du
master et réparti entre les nœuds du cluster Hadoop qui contiennent les prtitions des
tables concernées.
Exemples de Teradata, HAWQ, GreenPlum et Druid
solution

32
29/04/2024
Schéma d'un ED (1)
• Système ROLAP: 3 grands types de schémas :
• schéma en étoile (star schema)
• schéma en flocon (snowflake schema)
• schéma en constellation (fact constellation)

Le schéma en étoile est souvent utilisé pour l'implantation physique

29/04/2024 33
Schéma en étoile (1)
• Table des faits : Normalisée, de taille très importante, avec de nombreux champs
• Tables de dimensions : Dimensions de l'analyse, taille peu importante, avec peu de champs

Exemple 1 : Vente de médicaments dans des pharmacies

Schéma en étoile modélisant les analyses des quantités et des montants


des médicaments dans les pharmacies selon 3 dimensions : le temps, la
catégorie et la situation géographique

29/04/2024 34
Schéma en étoile (2)
Exemple 2 : Vente d'articles dans un supermarché

29/04/2024 35
Schéma en flocon
Evolution du schéma en étoile avec une décomposition des tables de dimensions du
modèle en étoile selon leurs hiérarchies (normalisation des tables de dimensions)
• Exemple 3: Vente de médicaments dans des pharmacies (Chaque dimension est dénormalisée)

Dimension "Temps"
avec sa hiérarchie Dimension "Catégorie"
avec sa hiérarchie

Dimension "Géographie" avec sa hiérarchie

29/04/2024 36
Schéma en constellation
• Fusionne plusieurs modèles en étoile qui utilisent des dimensions communes.
• Comprend en conséquence plusieurs faits et des dimensions communes ou non
Exemple 3: Vente de médicaments dans des pharmacies

Modèle 2: Fait
"Prescription"
Modèle 1: Fait
"Vente"

Dimensions communes

29/04/2024 37
Fin du chapitre 2
Faculté des Sciences
Département d’Informatique - L3 – ISIL
2023-2024

Vous aimerez peut-être aussi