100% ont trouvé ce document utile (1 vote)
535 vues56 pages

Développement de Microstrategy au Maroc

Transféré par

Marouane Amhidi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
535 vues56 pages

Développement de Microstrategy au Maroc

Transféré par

Marouane Amhidi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Warehouse

Mme Sara SAHNOUN


Sommaire :

Chapitre 1 : Business Intelligence

Chapitre 2 : Architecture du système d’information décisionnel

Chapitre 3 : Modélisation d’un DataWarehouse

Chapitre 4 : Etude de cas

2
Chapitre 1
Business Intelligence

3
Qu’est ce que la Business Intelligence ?

La Business Intelligence (BI), également connue sous le nom


d’informatique décisionnelle, est l’ensemble des outils et méthodes visant
à transmettre les informations pertinentes aux managers d’entreprise.

Son but est de les aider à comprendre leur environnement et de les


accompagner dans leurs prises de décisions stratégiques. Les besoins de
l’utilisateur sont donc au cœur d’une Business Intelligence efficace.

4
Objectif de la Business Intelligence

L'objectif de la Business Intelligence est d'optimiser les processus décisionnels en


transformant les données de l'entreprise en informations pertinentes :

• Rendre les données utiles accessibles au décideur


• Rendre le décideur autonome
• Transformer la « donnée » en « information » pertinente
• Permettre au décideur de prendre des décisions rapidement

Pour les entreprises, l'enjeu est important car une prise de décision plus rapide
permet une meilleure réactivité aux évolutions de leur écosystème.

5
Objectif de la Business Intelligence

Données Information Connaissance


Texte, fichier Base de données Résultats d’une
son, image rapport, tableau analyse sur
message … l’information
Décisions
et actions

Données Toute l’information Liste des


BI

sur un client

BI
de caisse « bons clients »

6
Architecture Générale des systèmes décisionnels
Restitution
Sources de données Entrepôt de données
• Requêtes
• Analyses
• Tableaux de bord
•…

Data Warehouse

 7
Exemples

Quelques questions stratégiques :

• Comment l’entreprise peut augmenter sa part du marché de 5% ?

• Quel produit n’est pas bien vendu ?

• Quel agent a le moins de ventes ?

• Quelle est la qualité de service fournit aux clients ? Quels sont les points
d’améliorations ?

8
Chapitre 2
Architecture du système
d’information décisionnel

9
Architecture Détaillées des systèmes décisionnels
Sources Zone de Consolidation Analyse
travail Stockage Restitution
Bases
externes
Outils d'analyse OLAP
MOLAP, ROLAP, HOLAP
Dictionnaire de données
Référentiel

Mainframe Métadonnées
Garde la trace des données, de leur origine
et de l'exploitation faite OLAP

E
ERP
T
ODS Consultation/
L Datamart 1 Interrogation
Tableaux de bord
Tableur
Spécifique E Data
E Requêteurs

T Warehouse T
Simulation/
L L Prédiction
Fichiers Plats
Datamart n
10Datamining
Statistiques


Outil d'alimentation - ETL
Architecture Détaillées des systèmes décisionnels
Sources Zone de Consolidation Analyse
travail Stockage Restitution
Bases
externes
Outils d'analyse OLAP
MOLAP, ROLAP, HOLAP
Dictionnaire de données
Référentiel

Mainframe Métadonnées
Garde la trace des données, de leur origine
et de l'exploitation faite OLAP

E
ERP
T
ODS Consultation/
L Datamart 1 Interrogation
Tableaux de bord
Tableur
Spécifique E Data
E Requêteurs

T Warehouse T
Simulation/
L L Prédiction
Fichiers Plats
Datamart n
11Datamining
Statistiques


Outil d'alimentation - ETL
Outils sources : Systèmes transactionnels

• Le système transactionnel est développé pour gérer les transactions


quotidiennes.

• Très souvent plusieurs de ces systèmes existent indépendamment les uns


des autres.

• Il permettent la saisie, stockage, la mise à jour des données en respectant


l’intégrité des données.

• Le contenu est fait de données actuelles, pas d’archives

• Les données sont très détaillées (détails de chacune des transactions).


12
Système transactionnel Vs Système décisionnel

Système transactionnel (OLTP) Système décisionnel

Informations très détaillées Informations synthétiques ou détaillées


Généralités Pas d’historisation des données Historisation des données
Données non figées de temps Données figés dans le temps : Archivage.

Structure statique Structure flexible


Structure
Structure normalisée Structure dénormalisée

Maj autorisées Pas de maj de la part des utilisateurs


Utilisateurs Requêtes prédéfinies Requêtes ouvertes/prédéfinies
Employés de bureau Analystes / Managers/Décideurs

13
Données opérationnelles Vs données décisionnelles

Données opérationnelles Données décisionnelles


Orientées application, détaillées, précises au Orientée activité (thème, sujet), condensées,
moment de l’accès représentes des données historiques
Mise à jour interactive possible de la part des Pas de mise à jour interactive de la part des
utilisateurs utilisateurs
Accédées de façon unitaires par une personne Utilisées par l’ensemble des analystes, gérées
à la fois par sous-ensemble
Haute disponibilité en continu Exigence différente, haute disponibilité
ponctuelle
Uniques (pas de redondance en théorie) Peuvent être redondantes
Structure statique, contenu variable Structure flexible
Petite quantité de données utilisées par un Grande quantité de données utilisée par les
traitement traitements
Forte probabilité d’accès Faible probabilité d’accès

14
Architecture Détaillées des systèmes décisionnels
Sources Zone de Consolidation Analyse
travail Stockage Restitution
Bases
externes
Outils d'analyse OLAP
MOLAP, ROLAP, HOLAP
Dictionnaire de données
Référentiel

Mainframe Métadonnées
Garde la trace des données, de leur origine
et de l'exploitation faite OLAP

E
ERP
T
ODS Consultation/
L Datamart 1 Interrogation
Tableaux de bord
Tableur
Spécifique E Data
E Requêteurs

T Warehouse T
Simulation/
L L Prédiction
Fichiers Plats
Datamart n
15Datamining
Statistiques


Outil d'alimentation - ETL
ETL : Extract,Transform and Load

ETL est un progiciel voué au transfert de données d’un source quelconque vers une
cible quelconque.

1. Extraction :

• Récupération des données depuis différents systèmes de gestion.


• Stratégies d’extraction :
• Extraction totale
• Extraction partielle (Delta) avec notification de MAJ (prendre tout le delta de
toutes les données)
• Extraction partielle (Delta) sans notification de MAJ (ne prendre que les
données de la veille)
• L’extraction des données ne doit pas affecter les performances du système
source. 16
ETL : Extract,Transform and Load

2. Transformation :

Les données extraite dans l’ODS ne sont pas exploitables en l’état, des nettoyages,
mapping et transformation s’imposent !

Taches de transformations basiques :


• Sélection
• Matching (lookup)
• Nettoyage et enrichissement des données

17
ETL : Extract,Transform and Load

2. Transformation (suite) :

Types de transformation majeurs :


• Homogénéisation des nomenclatures des différentes sources
• Changement d’encodage de données
• Calcul de nouveaux champs ( indicateurs)
• Duplication des données
• Split et fusion de champs
• Conversion de données en de nouvelles unités de mesures
• Consolidation , aggregation et regroupement de données
• Restructuration des clés

18
ETL : Extract,Transform and Load

3. Chargement :

Il s’agit du chargement des données dans le Data Warehouse.


• Types de chargements :
• Chargement initial des données , se fait en mode FULL au démarrage du
Datawarehouse.
• Chargement incrémental des données: se fait d’une manière périodique, pour
la prise en compte des changements (se fait aux heures creuses)
• Automatisation de la planification
• Suivi des exécutions des chargements

19
Architecture Détaillées des systèmes décisionnels
Sources Zone de Consolidation Analyse
travail Stockage Restitution
Bases
externes
Outils d'analyse OLAP
MOLAP, ROLAP, HOLAP
Dictionnaire de données
Référentiel

Mainframe Métadonnées
Garde la trace des données, de leur origine
et de l'exploitation faite OLAP

E
ERP
T
ODS Consultation/
L Datamart 1 Interrogation
Tableaux de bord
Tableur
Spécifique E Data
E Requêteurs

T Warehouse T
Simulation/
L L Prédiction
Fichiers Plats
Datamart n
20Datamining
Statistiques


Outil d'alimentation - ETL
ODS : Operational Data Store

Zone tampon permettant d’accéder à l’ensemble des données sources (dans un


modèle physique très proche de leur modèle d’origine) au sein d’une base de
données unique.

Objectifs de l’ODS est de :


• Limiter les impacts performances sur les bases transactionnelles.
• Se détacher du format d’échange (aujourd’hui fichier plat, demain DB Link).
• Effectuer des agrégations multi-source performantes.

Caractéristiques de l’ODS :
• Données destinées à l’aide à la décision ou au reporting.
• Organisation souvent très proche de celle des bases opérationnelles.
• Répond au besoins de capture d’informations volatiles ou de
synchronisation de flux.
• Peu ou pas d'historique. 21
Architecture Détaillées des systèmes décisionnels
Sources Zone de Consolidation Analyse
travail Stockage Restitution
Bases
externes
Outils d'analyse OLAP
MOLAP, ROLAP, HOLAP
Dictionnaire de données
Référentiel

Mainframe Métadonnées
Garde la trace des données, de leur origine
et de l'exploitation faite OLAP

E
ERP
T
ODS Consultation/
L Datamart 1 Interrogation
Tableaux de bord
Tableur
Spécifique E Data
E Requêteurs

T Warehouse T
Simulation/
L L Prédiction
Fichiers Plats
Datamart n
22Datamining
Statistiques


Outil d'alimentation - ETL
Data WareHouse

« A data warehouse is a copy of transaction data specifically


structured for querying and reporting. »
(Kimball/Greenfield)

Un entrepôt de données, ou data Warehouse, est une base de données


spécialisée dont l’objectif est d’améliorer la capacité d’une organisation à
prendre des décisions basées sur l’ensemble des informations disponibles.

Ces informations proviennent des systèmes opérationnels de l’organisation et


parfois de données externes à l’organisation.

Le Data Warehouse est basé sur une modélisation dimensionnelle qui facilite
l’analyse selon des axes prédéfinis.
23
Caractéristiques d’un Data WareHouse

‘ …..A data warehouse is a subject-oriented, integrated time-variant, non-


volatile collection of data in support of management decisions…. ’
B.Inmon.94
Orienté sujet :
• Organisé autour des thèmes majeurs de l’entreprise.
• Intégration de différents sujets dans une structure commune, évitant de
dupliquer l’information
Intégré :
• Homogénéité des données, ce qui signifie qu’une donnée doit avoir une
description et un codage unique. (0/1 ou Vrai/Faux,H/F ou M/F..)
• Les données proviennent de différents systèmes opérationnels.
• Consolidation des données
• La phase de nettoyage des données est délicate, longue, coûteuse (60% du coût)
24
Caractéristiques d’un Data WareHouse

Historisés :
• Les données de l’entrepôt varient en fonction du temps. Elles sont des clichés
datés des données des systèmes opérationnels à un instant T.
• L’historisation permet l’analyse des tendances.
• Le rafraichissement des données se fait par une périodicités qui est déterminées
selon les besoins.

Non volatile :
• Les informations sont conservées pendant une certaine durée.
• La même requête avec la même date de référence aura le même résultat à tout
moment. (Conséquence de l’historisation)
• La volumétrie des données est très importante.

25
Architecture Détaillées des systèmes décisionnels
Sources Zone de Consolidation Analyse
travail Stockage Restitution
Bases
externes
Outils d'analyse OLAP
MOLAP, ROLAP, HOLAP
Dictionnaire de données
Référentiel

Mainframe Métadonnées
Garde la trace des données, de leur origine
et de l'exploitation faite OLAP

E
ERP
T
ODS Consultation/
L Datamart 1 Interrogation
Tableaux de bord
Tableur
Spécifique E Data
E Requêteurs

T Warehouse T
Simulation/
L L Prédiction
Fichiers Plats
Datamart n
26Datamining
Statistiques


Outil d'alimentation - ETL
DataMart

Le Datamart est ciblé sur un sujet unique et est lié à un métier de l'entreprise
(marketing, finance, DRH, etc), pour répondre à une problématique définie
d’aide à la décision.

Il s’agit de données agrégées extraites du data warehouse, alimentant les


restitutions programmées tel les rapports et cubes prédéfinis.

Les Datamarts sont composés de données mesurables, indicateurs et faits, et


de données d’analyses décrivant les données mesurables.
DataMart Vs Data Warehouse

Data Warehouse DataMart


Cible utilisateur Toute l’entreprise Département

Temps d’implémentation Elevé Faible ou moyen

Modèles de données A l’échelle de l’entreprise Département

Champ applicatif Multi sujet Quelques sujets

Sources de données Multiples Quelques unes

Stockage Base de données Plusieurs bases distribuées


Type des Data Mart
Data Mart Dépendant :
Les données sont extraites à partir du système Système OLTP Data Warehouse Data Mart
transactionnel, transformée et chargées dans le Data
Warehouse, à partir du quel les données sont aussi
extraites et chargées vers le Data Mart, (sécurité donnée)

Data Mart Indépendant :


Les données du Data Mart sont directement extraites à Système OLTP Data Mart
partir du système transactionnel. Ceci souhaitable pour
les petits systèmes et organisation.

Data Mart Hybride : Data Warehouse


Il s’agit d’un mixte entre les deux types précédent: Les
données sont extraites à la fois du Data Warehouse et du
systèmes transactionnel.
Système OLTP Data Mart
Architecture Détaillées des systèmes décisionnels
Sources Zone de Consolidation Analyse
travail Stockage Restitution
Bases
externes
Outils d'analyse OLAP
MOLAP, ROLAP, HOLAP
Dictionnaire de données
Référentiel

Mainframe Métadonnées
Garde la trace des données, de leur origine
et de l'exploitation faite OLAP

E
ERP
T
ODS Consultation/
L Datamart 1 Interrogation
Tableaux de bord
Tableur
Spécifique E Data
E Requêteurs

T Warehouse T
Simulation/
L L Prédiction
Fichiers Plats
Datamart n
30Datamining
Statistiques


Outil d'alimentation - ETL
Référentiel & Métadonnées (Data about Data)

Les méta-données représentent la totalité des informations concernant le Data


Warehouse et les processus associés, elles sont intégrées dans un référentiel.

• Définition des données


• Description du process d’alimentation
• Englobe la partie gestion des erreurs pour suivre les causes de rejet et l’historique
des flux d’alimentation (nb de lignes insérées, mises à jours, rejetées, date de
chargement, …)
• Servent de mémoire pour les données externes en recueillant les informations
suivantes : l’identifiant du document, sa date d’entrée dans l’entrepôt de données,
la description du document, l’origine du document, la date d’origine du document,
les mots indexés du document , la place physique du document, sa longueur...
Architecture Détaillées des systèmes décisionnels
Sources Zone de Consolidation Analyse
travail Stockage Restitution
Bases
externes
Outils d'analyse OLAP
MOLAP, ROLAP, HOLAP
Dictionnaire de données
Référentiel

Mainframe Métadonnées
Garde la trace des données, de leur origine
et de l'exploitation faite OLAP

E
ERP
T
ODS Consultation/
L Datamart 1 Interrogation
Tableaux de bord
Tableur
Spécifique E Data
E Requêteurs

T Warehouse T
Simulation/
L L Prédiction
Fichiers Plats
Datamart n
32Datamining
Statistiques


Outil d'alimentation - ETL
OLAP (On line Analytical Processing)

OLAP : Base de données proposant un format de stockage multidimensionnel


(mdx). Il fait généralement intervenir des requêtes complexes manipulant de
grandes quantités de données.

Avantages :
• Performances d’accès. (Pré-calcul)
• Règles d’agrégation (même complexes) inclues dans la définition du cube.
• Gestion de la sécurité.

Inconvénients :
• Temps de génération du cube ou de re-calcul lors de l’ajout de nouvelles
données.
• Utilisation avec un outil d’analyse non-propriétaire souvent problématique ou
limitée.

33
OLAP - Exemple

Question : Combien de machines à laver grises ont été vendues à Marjane Californie le
10/04/2016 ?

• Les cubes multidimensionnels permettent de


répondre à des questions suivants des axes et des
indicateurs définis à l’avance.

• Les cubes multidimensionnels stockent chaque


information élémentaire à l'intersection de tous
les axes d'analyse.
Caractéristiques OLAP = FASMI

F – Fast : Les temps de réponses doivent être bon même avec beaucoup de données
(moins de 5 secondes)

A – Analysis : Le système OLAP doit être flexible et offrir une richesse d’analyse.

S – Shared : Le système doit gérer les accès multiples aux données en garantissant la
confidentialité des données..

M – Multidimensional : Le modèle doit être multidimensionnel.

I – Information : L’information comprend l'ensemble des données et des


informations dérivées, quel que soit leur volume et leur stockage.

35
OLTP Vs OLAP

36
OLTP Vs OLAP

37
Outils d’extraction :
Editeurs
Datastage,
PowerMart,
BODI, Genio
Sunopsis, OWB, REQUETEURS
Talend, SSIS Cognos,SSRS
Informatica, SAP BO, SAS,SSRS
Pentaho Microstrategy, Jasper

OLAP
Essbase,
ETL SGBD : Oracle, DB2 Powerplay,
Oracle Olap,
SQLServer, Teradata,
Sybase, SAS, MicroStrategy
sur UNIX, MVS, NT

DATAMINING
SAS, Scénario,
Alice, 4Thought,

 Statlab,Seeker
Knowledge

Alimentation Stockage Outils d'accès


Infrastructure
Chapitre 3
Modélisation d’un Data Warehouse

39
Modélisation dimensionnelle

C'est la définition des besoins qui détermine quelles sont les données requises
pour répondre aux besoins d'analyse des utilisateurs. Le résultat de cette analyse
est le modèle dimensionnel.

Le modèle identifie :
• La table de fait avec ses mesures et sa granularité
• Les dimensions associées avec attributs et hiérarchisation.

Cet ensemble d'activités s'achèvera sur le développement d'une mise en


correspondance des données sources et cibles dans des métadonnées.

40
Modélisation relationnelle Vs Modélisation dimensionnelle

Modélisation relationnelle Modélisation dimensionnelle

Modèle de données normalisés (3FN) Modèle de données dénormalisé

Absence de redondances Présence de redondances


d’informations d’informations

Analyse difficile de l’activité Analyse de l’activité plus facile grâce à


un modèle de données lisible et intuitif

41
Schéma relationnel

42
Schéma en étoile

43
Schéma en flocon de neige

44
Schéma en étoile Vs Schéma en flocon de neige

Schéma en étoile Schéma en flocon

Redondance de données (Schéma Absence de redondance données


dénormalisé) (Schéma normalisé)
Requêtes moins complexes Requête plus complexes

Exécution plus rapide des requêtes Exécution moins rapides des requêtes
dues à la présence de jointure
Nombre de dimension moins important Nombre de requêtes plus important

45
Les dimensions

Les dimensions sont des tables qui constituent les différents Axes
d’analyses. Elle sont composées d’un ensemble attributs, qui peuvent être :
• Des champs textuels
• Des champs discret, ayant un nombre limité de valeur (civilité,
couleur..)

Nous retrouvons dans les dimensions, la notion d’hiérarchie :


• Ville -> Région -> Pays
• Jour -> Mois -> Trimestre -> Année

Il existe différents types de dimensions.

Exemple de dimensions : Fournisseur, client, Temps, magasin, produit…


46
Exemple de Dimension
ID_Prod ID_Produit Description Taille Couleur
1 R32 Bicyclette Chicago Noir
2 R54 Bicyclette 786 Rouge
3 R22 Bicyclette 21 Vert
4 R11 Bicyclette 96 Bleu

• Transformation en amont du chargement des données dans les


dimensions.
• Plusieurs types de clés :
• Clé fonctionnelle ou naturelle : provient du système source. (ID_Produit)
• Clé composée ou concaténée : la clé se compose de plusieurs champs (fait)
• Clé technique : pour garantir l’unicité au niveau des dimensions (ID_Prod)
• Clé étrangère : similaire au modèle relationnel.
47
Dimension Temps

La dimension Temps est essentielle, elle est commune à tout l’entrepôt de


données.
• Dimension pour gérer le temps (Année/trimestre/mois/semaine/jour..)
• Une ligne par fraction de temps (dépendant des exigences)
• Chaque table de fait est liée à cette dimension temps.
Il existe plusieurs notions de date dans l’entrepôt
• Date de l’événement, Date de transaction, Date de chargement

ID_Date Date Annee Trimestre mois Semaine jour


2046 01/01/2016 2016 T1 01 1 1
2047 02/01/2016 2016 T1 01 1 2
2048 03/01/2016 2016 T1 01 1 3
2049 04/01/2016 2016 T1 01 2 4
2050 05/01/2016 2016 T1 01 2 5
2051 06/01/2016 2016 T1 01 2 486
2052 07/01/2016 2016 T1 01 2 7
2053 08/01/2016 2016 T1 01 2 8
2054 09/01/2016 2016 T1 01 2 9
Dimensions à évolution lente

Il s’agit d’une dimension dont les attributs changent lentement dans le


temps.
Exemple : Changement d’adresse, ou de civilité.
Il existe trois type de dimensions à évolution lente.

Slowly Changing Dimension

Type 1 Type 2 Type 3


Ecrasement de Ajouter une ligne Ajouter une colonne
l’ancienne valeur

49
SCD – Type 2: Ajout d’une nouvelle ligne
Approche 1 : Date début et la Date fin.
Tables 1 : Avant changement
ID ID Client Date Début Date Fin Nom Ville
1 453 01/01/2014 NULL James New York

Tables 1 :Après changement


ID ID Client Date Début Date Fin Nom Ville
1 453 01/01/2014 31/12/2015 James New York
2 453 01/01/2016 NULL James Chicago

Avantage : L’historique est gardé


Inconvenient : Gestion un peu complexe de l’historique.
50
SCD – Type 2: Ajout d’une nouvelle ligne
Approche 2 : Indicateur
Tables 1 : Avant changement
ID ID Client Date Début Nom Ville Indic
1 453 01/01/2014 James New York 1

Tables 1 :Après changement


ID ID Client Date Début Nom Ville Indic
1 453 01/01/2014 James New York 0
2 453 01/01/2016 James Chicago 1

Avantage : L’historique est gardé


Inconvenient : Gestion un peu complexe de l’historique.
51
SCD – Type 3: Ajout d’une nouvelle colonne

Tables 1 : Avant changement


ID ID Client Date Début Nom Ville Old_Ville Old_Date
1 453 01/01/2014 James New York - -

Tables 1 :Après changement

ID ID Client Date Début Nom Ville Old_Ville Old_Date


1 453 01/01/2016 James Chicago New York 01/01/2014

Inconvenient : Seule la valeure précédente est historisée. Aussi, il faut


créer pour chaque champs à historiser un champs correspondant.
52
Les dimensions dégénérés

Ces dimensions ne contiennent pas d’attributs et ne font pas partie d’une


table. La clé se trouve dans la table de fait. Cette clé a une signification
fonctionnelle.

Exemple : La table facture dans le système opérationnel devient une clé


dans la table de fait : Num_facture

54
La table de faits

La table de fait est une table qui contient l’activité de l’entreprise que nous
voulons analyser, par exemple les articles vendus aux clients sur une période
de temps donnée.
C’est une table centrale entourée des différents dimensions, qui constituent
les axes d’analyses.
Elle contient les clés de l’ensemble des dimensions qui lui sont liées ainsi que
d’autres champs appelés les mesures (champs numériques).

Data Warehouse

55
Chapitre 4
Etude de Cas

56
Etude de Cas

• Elaborer le MCD de l’application

• Elaborer la Matrice des indicateurs

• Créer le schéma décisionnel

57

Vous aimerez peut-être aussi