0% ont trouvé ce document utile (0 vote)
63 vues98 pages

SID - Seminaire Encours

Le cours d'Informatique Décisionnelle vise à familiariser les étudiants avec les concepts clés de l'informatique décisionnelle, y compris la modélisation dimensionnelle, le data warehousing et l'utilisation d'outils BI. Il aborde également les différences entre les systèmes d'information opérationnels (SIO) et décisionnels (SID), en soulignant l'importance de l'intégration et de l'accessibilité des données pour une prise de décision efficace. Enfin, le cours présente des techniques d'analyse et des méthodes pour transformer les données en informations exploitables pour les décideurs.

Transféré par

Kimassoum Ngaradji
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
63 vues98 pages

SID - Seminaire Encours

Le cours d'Informatique Décisionnelle vise à familiariser les étudiants avec les concepts clés de l'informatique décisionnelle, y compris la modélisation dimensionnelle, le data warehousing et l'utilisation d'outils BI. Il aborde également les différences entre les systèmes d'information opérationnels (SIO) et décisionnels (SID), en soulignant l'importance de l'intégration et de l'accessibilité des données pour une prise de décision efficace. Enfin, le cours présente des techniques d'analyse et des méthodes pour transformer les données en informations exploitables pour les décideurs.

Transféré par

Kimassoum Ngaradji
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

INFORMATIQUE DECISIONNELLE

INFORMATIQUE DECISIONNELLE

– Objectif Général du Cours:

• Connaitre l’objet de l’Informatique Décisionnelle


• Connaitre Les constituants d’un environnement décisionnel;
• Connaitre les spécificités d’un SID/SIO;
• Savoir modéliser et mettre en œuvre un Système d’Information
Décisionnel;
• Apprendre un outil BI.
INFORMATIQUE DECISIONNELLE

– AGENDA:

• Objectif de l’Informatique Décisionnelle


• Modélisation Dimensionnelle;
• Data warehousing;
• Les Outils;
• Exercices/Mini-projet.
INFORMATIQUE DECISIONNELLE

– Bibliographie:
• Multidimensional Databases and Data Warehousing,
Christian S. Jensen, Torben Bach. Pedersen, Christian Thomsen,
Morgan & Claypool Publishers, 2010

• Data Warehouse Design: Modern Principles and Methodologies,


Golfarelli and Rizzi, McGraw-Hill, 2009

• Advanced Data Warehouse Design: From Conventional to Spatial and Temporal Applications,
Elzbieta Malinowski, Esteban Zimányi, Springer, 2008

• The Data Warehouse Lifecycle Toolkit, Kimball et al., Wiley 1998

•The Data Warehouse Toolkit, 2nd Ed., Kimball and Ross, Wiley, 2002

• Le projet Decisionnel - Enjeux, Modeles, Architecture du Data Warehouse.


Jean-Marie GOUARNE. Eyrolles 1998
INFORMATIQUE DECISIONNELLE

– Catégorie d’applications permettant aux décideurs de prendre


des décisions informées et rationnelles sur tous les aspects de
leurs métiers:

• Fidélisation des clients;


• Services commercial et clientèles;
• Marketing;
• Évaluation des risques et détection des fraudes;
• Etc.

• [BI] refers to a set of tools and techniques that enable a company to transform its
business data into timely and accurate information for the decisional process, to be
made available to the right persons in the most suitable form
INFORMATIQUE DECISIONNELLE

– Catégories d’Analyse:

• Analyses rétrospectives:
• événements passés et présents
• ex: analyse des ventes au cours des deux dernières années;

• Analyses prédictives
• prédiction de certains événements et comportements en se
basant sur les informations historiques.
INFORMATIQUE DECISIONNELLE
– Types d’application/techniques:

• Classification: classifier les enregistrements en un ensemble de


classes prédéfinies sur la base de certains critères.
Ex: classer les risques clients en Bon, Moyen et Mauvais.

• Clustering/segmentation: segmenter une BD en sous-ensembles


ou clusters sur la base d’un certain nombre d’attributs

• Association: identifier des affinités entre les collections à partir d’un


échantillon d’enregistrements. Souvent exprimées sous forme de
règles: ex.: 60% des enregistrements contenant les items A et B
contiennent également les items C et D.

• Séquençage: identifie des patterns avec le temps.


• Un client qui achète A et B lors d’une visite achètera C au cours
de la prochaine visite
INFORMATIQUE DECISIONNELLE
• Outils/Méthodes/Techniques

• Le SIAD (Système Intelligent/Interactif d’Aide à la Décision)

• Mathématiques Appliquées (statistiques, méthodes d’analyse de


données, etc.)

• Les principes et techniques de l’Intelligence Artificielle.


– Les arbres de décision, la programmation par contraintes, les
réseaux de neurones, etc.

• Data Mining

• Système d’Information Décisionnelle


– Information + outils de visualisation et d’interrogation des
données
LES SYSTEMES D’INFORMATION
DECISIONNELS
SYSTEMES D’INFORMATION DECISIONNELS

SID vs SIO

« Une somme de connaissances en constante accumulation est


aujourd’hui éparpillée de par le monde. Elle suffirait probablement à
résoudre toutes les grandes difficultés de notre temps, si elle n’était
dispersée et inorganisée. » H. G. WELLS, 1940.
SYSTEMES D’INFORMATION DECISIONNELS SIO vs
SID

• Système d’information « Opérationnel » (SIO)


– organisation mise en place pour acquérir, stocker et exploiter
toutes les informations relatives à l’activité de l’entreprise. Le
système d'information de l'entreprise utilise et produit des
informations.

– Données gérées: données « opérationnelles ».

– Un SIO est conçu pour faciliter la tâche quotidienne des


différents acteurs de l’entreprise (traitements opérationnels).
Son contenu est donc directement calqué sur les différents
traitements métiers.
 OLTP( On-line Transactionnal Processing ).

– Généralement le SIO est la concaténation de plusieurs


applications mises en place de façon plus ou moins
indépendante.
SYSTEMES D’INFORMATION DECISIONNELS SIO vs
SID

• Système d’Information Décisionnel

– Un ensemble de données organisées de façon spécifique,


facilement accessibles et appropriées à la prise de décision
(pilotage de l'entreprise).

– Il constitue une synthèse d'informations opérationnelles, internes


ou externes, choisies pour leur pertinence et leur transversalité
fonctionnelle.
SYSTEMES D’INFORMATION DECISIONNELS SIO vs
SID

Données opérationnelles Données décisionnelles


Orientées activité (thème, sujet),
Orientées application, détaillées,
condensées, représentent des données
précises au moment de l’accès
historiques

Mise à jour interactive possible de la Pas de mise à jour interactive de la


part des utilisateurs part des utilisateurs

Accédées de façon unitaires par une Utilisées par l’ensemble des


personne à la fois analystes, gérées par sous-ensemble

Cohérence atomique Cohérence globale


Exigence différente, haute
Haute disponibilité en continu
disponibilité ponctuelle
SYSTEMES D’INFORMATION DECISIONNELS SIO vs
SID

Données opérationnelles Données décisionnelles


Uniques (pas de redondance en
Peuvent être redondantes
théorie)
Structure statique, contenu variable Structure flexible
Petite quantité de données utilisées Grande quantité de données utilisée
par un traitement par les traitements
Réalisation des opérations au jour le
Cycle de vie différent
jour
Forte probabilité d’accès Faible probabilité d’accès
Utilisées de façon répétitive Utilisée de façon aléatoire
SYSTEMES D’INFORMATION DECISIONNELS SIO vs
SID

• Le SIO contient des données importantes mais il a des limites pour une
exploitation au niveau managérial:

• Données → reflet des flux et des stocks opérationnels de l’organisation. Inexploitables pour
des analyses et des synthèses stratégiques sans traitement préalables de mise en forme.

• SIO → automatisation de fonctions particulières sans perspective de cohérence


informationnelle globale : la sémantique et la codification varie d’une fonction à l’autre.

• L’efficacité intrinsèque de chaque fonction est individuellement mesurable mais il est difficile de
définir et de calculer les indicateurs d’efficacité pour un processus qui implique plusieurs
fonctions.

• Les données ne concernent que le fonctionnement ; elles ne décrivent pas l’environnement,

• Exclusivement destinées à être traitées dans le cadre de procédures prédéterminées, ces


données ont des structures figées et sans rapport avec le point de vue informationnel.
SYSTEMES D’INFORMATION DECISIONNELS SIO vs
SID

• A l’Inverse, un SID est destiné à offrir à l’utilisateur un point de vue


informationnel sur les données:

• rendre les données de l’organisation facilement accessibles ;

• présenter l’information de l’organisation de manière cohérente et sous une


forme intelligible et directement exploitable par les analystes et les décideurs;

• constituer un forteresse sûre protégeant la richesse informationnelle de


l’entreprise.

• une vision intégrée et transversale aux différentes fonctions de l’entreprise,


• une vision métier au travers de différents axes d’analyse,
• une vision agrégée ou détaillée suivant le besoin des utilisateurs.
• Un support explicite pour représenter correctement le passé.
SYSTEMES D’INFORMATION DECISIONNELS

Environnement Décisionnel
SYSTEMES D’INFORMATION DECISIONNELS

• Le SID possède des caractéristiques fondamentales suivantes :


• séparé dans sa conception mais dépendant pour son alimentation par rapport
aux applications de production ;

• L’information est conditionnée d’une manière intégrée et indépendante de ses


sources d’alimentation;

• L’information est, dans son contenu et dans sa forme, indépendante des


structures et des procédures courantes de la production. Porte sur le métier sans
être confinée dans le cadre organique d’exercice de ce métier (Information
orientée Sujet) ;

• Pas d’algorithmes préétablis, pas de transactions au sens habituel du terme :


rapprochements et consolidations par l’utilisateur (approche multidimensionnelle)

• L’information chronologique;

• un mode de conduite de projet particulier.


SYSTEMES D’INFORMATION DECISIONNELS
Environnement Décisionnel

Metadonne
es

CLIENTS

•IUG/Logique P. Données du
•Requête DW
•Analyse
•Rapport •Logique des Données
•Synthèse •Services de Données
•Accès aux Données •Métadonnées
•Services Fichiers
SYSTEMES D’INFORMATION DECISIONNELS
Environnement Décisionnel

Metadonnées
Metadonnées

CLIENTS

•IUG/Logique P. Serveur de Données Données du


•Requête Multidimensionnelles DW
•Analyse
•Rapport •Logique des Données
•Accès aux Données Filtrage
Synthèse •Services de Données
Métadonnées •Métadonnées
Vues multidimensionnelles •Services Fichiers
Accès aux données
SYSTEMES D’INFORMATION DECISIONNELS
Environnement Décisionnel

• Un ensemble de Technologies et de composants destinés à intégrer les


données opérationnelles dans un environnement qui permet l’utilisation
stratégique des données.

• Composants:

– Base de Données du Data Warehouse


– Outils d’extraction, de nettoyage et de transformation
– Métadonnées
– Outils d’accès
– Data Mart
– Administration et Gestion du DW
SYSTEMES D’INFORMATION DECISIONNELS
Environnement Décisionnel
Système de distribution

Applications
De l’Info
opérationnelles
MétaDonnée

Reporting
Requêteur,
Outil
MRDB
ETL

MDDB
DW

OLAP
Outil
SGBD
Data Mart

Mining
Outil Dta
Plateforme d’administration Applications & Outils

Et de management Référentiel
Data Warehouse/Contenu
SYSTEMES D’INFORMATION DECISIONNELS Data
Warehouse/Contenu
• Entrepôt de Données

Un SID avec les attributs suivants:

• BD conçue pour les taches d’analyse utilisant des données provenant de multiples
applications;

• Utilisée intensivement en lecture;

• Un nombre relativement faible d’utilisateur pour de longues interactions

• Maj. périodiquement (essentiellement de ajouts)

• Des données courantes et historiées

• Grandes tables en petit nombre

• Chaque requête produit un ensemble de résultat volumineux et requiert un accès exhaustif a


une/des tables+ des jointures
SYSTEMES D’INFORMATION DECISIONNELS Data
Warehouse/Contenu

• Entrepôt de Données- définition formelle [W. H. Inmon]

– Collection de données:
• orientées sujet (thématiques),

• intégrées,

• non volatiles et historiées,

• Organisées pour l’aide à la prise de décision de niveau managériale


SYSTEMES D’INFORMATION DECISIONNELS Data
Warehouse/Contenu

– Orientés sujet
• Le Datawarehouse est organisé autour des sujets majeurs de l’entreprise en
transcendant les structures fonctionnelles et organisationnelles de
l’entreprise.

• Intérêt : Disposer de l’ensemble des informations utiles sur un sujet le plus


souvent transversal aux structures fonctionnelles et organisationnelles de
l’entreprise.

• Possibilité d’utiliser une approche itérative et incrémentale pour développer


le DW (sujet après sujet).

• Dans la pratique, une structure supplémentaire appelée Data-Mart (magasin


de données) peut être créée pour supporter l’orientation sujet. On appelle
data-mart un sous-ensemble de l'entrepôt de données, défini à l'intention
d'un département précis de l'entreprise

• Exemple de Sujets: Achats, Ventes, …


SYSTEMES D’INFORMATION DECISIONNELS Data
Warehouse/Contenu

• Données Intégrées

• Un indicateur du Datawarehouse peut être renseigné à partir de


plusieurs sources. Pour y parvenir, les données doivent être
intégrées et consolidées pour présenter une vue cohérente et
homogène de l’indicateur.
– Exemple : la consolidation de l’ensemble des informations concernant
un client donné est nécessaire pour donner une vue homogène de ce
client.

• Une donnée doit avoir une description et un codage unique

• Cette phase d’intégration est très complexe et représente 60 à 90 %


de la charge totale d’un projet DW.
SYSTEMES D’INFORMATION DECISIONNELS Data
Warehouse/Contenu

– Données Intégrées

Opérationnel Intégration DataWarehouse

Appli 1 : m,f
Appli 2 : 1,0 Codage m, f
Appli 3 : x, y
Appli 4 : mâle, femelle

Appli 1 : pipeline cm
pipeline cm
Appli 2 : pipeline m mesure
Appli 3 : pipeline yd
Appli 4 : pipeline inches

Appli 1 : description1
Appli 2 : description2 description description
Appli 3 : description3
Appli 4 : description4
SYSTEMES D’INFORMATION DECISIONNELS Data
Warehouse/Contenu

• Non volatiles et Historisées

• Les données du Datawarehouse ne sont pas supprimées


(lecture seule), avec une conservation de l’historique et de
leur évolution. Un référentiel temps doit être associé à la
donnée afin d’être capable d’identifier une valeur particulière
dans le temps.
• La dimension Temps est indispensable.
SYSTEMES D’INFORMATION DECISIONNELS Data
Warehouse/Contenu

Niveau de Synthèse Données fortement agrégées

Données agrégées
constituent un résultat d’analyse et
une synthèse de l’information
contenue dans le système
décisionnel, et doivent être
facilement accessibles et
compréhensibles (« navigables »)

Méta Données
Données détaillées
Elles reflètent les événements les plus
récents. Les intégrations régulières des
données issues des systèmes de production
sont réalisées à ce niveau

Données détaillées
historisées
Niveau
historique
DW/ Modélisation des Données
SYSTEMES D’INFORMATION DECISIONNELS
DW/ Modélisation des Données

Vues Informationnelles
Analyse
Spécification V1 V2 V3

Intégration
Normalisation
Modèle Conceptuelle des Données

Optimisation
Dénormalisation
Modèle Logique des Données

Mise en œuvre
Modèle Physique des Données

Les trois niveaux de modélisation des données


SYSTEMES D’INFORMATION DECISIONNELS
DW/ Modélisation des Données

• Cinq critères permettent de qualifier un modèle décisionnel :

– lisibilité du point de vue de l'utilisateur final ;


– performances de chargement ;
– performances d'exécution ;
– administration (faire vivre le Data Warehouse) ;
– évolutivité (que tous les autres projets décisionnels s'intègrent
facilement).

• Inadéquation du modèle Entité-Relation classique

– La cohérence des données est restreinte à celle d’une transaction


– L’absence de support explicite pour représenter correctement le passé
– L’élimination de toute redondance dans la modélisation entité relation
conduit à des représentations très complexes des données
SYSTEMES D’INFORMATION DECISIONNELS
DW/ Modélisation des Données

• Inadéquation du modèle Entité-Relation classique


• La cohérence des données est restreinte à celle d’une transaction

• L’absence de support explicite pour représenter correctement le passé

• L’élimination des redondances dans la modélisation E-R conduit à d es


représentations très complexes des données

• Performances transactionnelles et sauvegarde de l’intégrité référentielle : sans objet

• raisons conceptuelles et techniques de normalisation par les DF : sans objet

• Dans le SIO, la SDD est (très) masquée à l’utilisateur par un client logiciel
SYSTEMES D’INFORMATION DECISIONNELS
DW/Modélisation des Données

• Modèle dimensionnel:

– Dérive des concepts d’analyse multidimensionnelle OLAP


– Mise en œuvre :
• OLAP (BD multidimensionnelle)
• ROLAP (SGBDRs) ;

– Organisation des données le long de dimensions (hypercubes)


permettant aux utilisateurs d’analyser les données suivant les axes
propres à leur métier

– schéma en étoile (principalement) ou schéma en Flocon


• Principe: classifier l’information en deux groupes : les Faits (Données importantes à
analyser) et les Dimensions (attributs sur les faits, axes d’analyse).
SYSTEMES D’INFORMATION DECISIONNELS
DW/Modélisation des Données

• Modèle dimensionnel:

– Table des Faits


• Grande Table Centrale qui stocke les mesures de l’activité/Processus
• Chaque mesures (faits est à l’intersection de toutes les dimensions.
• La table des Faits a une clé primaire qui est la concaténation des clés
(étrangères) des tables de dimensions qui lui sont reliées
• grain ou finesse de la table de faits : niveau de détail de l’information; plus
spécifiquement, unité de temps la plus petite qui correspond à
l’enregistrement de chaque fait. Par exemple dans un processus de vente le
grain peut être horaire, journalier ou hebdomadaire

– Fait:
• indicateur qui rend compte de l’activité d’une organisation
• généralement numérique, valorisé de façon continue et additif
SYSTEMES D’INFORMATION DECISIONNELS
DW/Modélisation des Données

• Modèle dimensionnel:
• Fait Additif: Il est possible d’additionner les valeurs du fait pour n’importe quelle
combinaison des dimensions.
• Flux exprimés en montants absolus(CA, Qté produites, etc)

• Fait semi-additif: cumulable par addition seulement dans certaines dimensions.


• Stocks exprimés en montant absolus (balance comptable, encours, …)

• Fait non additif: non cumulable par addition


• Montants relatifs représentant des flux ou des stocks sous forme de rapports ou de
variations (part de marché, taux d’utilisation, indice des prix, …)

• La définition d’un contexte inclut la spécification de la méthode de


consolidation de chaque fait.
SYSTEMES D’INFORMATION DECISIONNELS
DW/Modélisation des Données

• Modèle dimensionnel:

– Table de Dimension
• Table satellite qui stocke les données d’une dimension
• Est reliée a la table des faits (a travers sa clé primaire)

– Dimension:
• Axe d’analyse par rapport auquel un fait peut être analysé
• Attributs de dimension généralement textuels
• Les attributs les plus intéressants sont textuels, discrets et sont utilisés comme
source de contraintes et d’en-tête de lignes dans le jeu de réponse de l’utilisateur
• La liste des attributs de dimension doit être la plus exhaustive possible pour permettre
des analyses « diverses et variées »

• Exemple d’attributs de la dimension Produit : description en abrégé, description longue,


nom de la marque, nom de la catégorie, type d’emballage, taille
SYSTEMES D’INFORMATION DECISIONNELS
DW/Modélisation des Données

• Modèle dimensionnel:

– Fait vs Attribut Dimension


• Donnée numérique , variant de façon continue à chaque fois qu’on en
prend un exemple  un fait,

• valeur discrète décrivant une caractéristique plus ou moins constante  un


attribut de dimension.
• Critère de distinction non absolu

• Question : le coût standard d’un produit est-il un fait ou un attribut de


dimension ?
SYSTEMES D’INFORMATION DECISIONNELS
DW/Modélisation des Données
Table de Dimensions

Produit
Temps
Clé composée clé-produit
clé-temps description
jourdeSemaine marque
mois Vente
catégorie
trimestre
année clé-temps
flagférié clé-produit
clé-magasin
Magasin
venteen$ clé-magasin
Table des Faits quantitévendue
coûten$
nom
adresse
typeImmeuble

Exemple de modèle dimensionnel (en Etoile)


SYSTEMES D’INFORMATION DECISIONNELS
DW/Modélisation des Données

• Modèle de Requête Standard:

– Requête de navigation
• Requête portant sur une table de dimension, pour permettre d’en explorer le
contenu

• Exemple : Donner la liste des marques de véhicules

– Requête analytique
– Porte sur la table des faits et sur les dimensions

– Exemple : Trouver toutes les marques des produits vendues au cours du


premier trimestre 1995 avec le total des ventes en dollars ainsi que le total
des unités vendues
SYSTEMES D’INFORMATION DECISIONNELS
DW/Modélisation des Données

• Modèle de Requête Standard:


– Requête analytique

select [Link], sum([Link]), sum([Link]és) Liste de sélection

from Ventes f, produit p , temps t Clause From avec alias

where [Link]é-produit = [Link]é-produit


Contrainte de Jointure
and [Link]é-temps = [Link]é-temps
and [Link] = « 1er trim 1995 » Contrainte applicative
group by [Link]
Clauses Group et Order
order by [Link]
SYSTEMES D’INFORMATION DECISIONNELS
DW/Modélisation des Données

• Hiérarchie de Dimension:

– Les valeurs d’une dimension sont généralement organisées à l’intérieur


d’une hiérarchie

– Une dimension peut comporter plusieurs hiérarchies

– Une hiérarchie peut comporter plusieurs niveaux


Dimension Temps Dimension Geographique

Drilling Down Année Pays

Trimestr Saison Semaine Canton


e

Mois Ville

Date Quartier
Rolling Up
Client
Gamme Clé-client
Produit
nom
Clé-gamme adresse
nom Clé-produit
nom …
responsable
… Clé-gamme Ventes

Clé-produit
Clé-client
Clé-jour

Coût
CA
Nb Unités

Jour
Mois
Clé-jour Année
Clé-mois
jour
mois Clé-année
Clé-mois
Clé-année année

Modèle en Flocon
Production
clé-temps
clé-produit

qtitéProduite Produit
Temps
clé-produit
clé-temps description
jourdeSemaine marque
mois catégorie
trimestre
année
Vente
flagférié clé-temps
clé-produit Magasin
clé-magasin
clé-magasin
venteen$ nom
quantitévendue adresse
coûten$ typeImmeuble

modèle en constellation
SYSTEMES D’INFORMATION DECISIONNELS
DW/Modélisation des Données

• La dimension Temps
• Les systèmes transactionnels et les entrepôts de données traitent le
temps de manière très différente :
– dans un SIO:
• on a une vue instantanée des affaires mises à jours à chaque instant à mesure que les
transactions ont lieu (base de données scintillante)

• pas de support explicite pour représenter correctement le passé : comment marchait


les affaires le mois passé, le trimestre passé ?

• Il est pratiquement impossible de reconstruire la vision instantanée d’une activité à un
point donné dans le temps.

– Dans un entrepôt de donnée :


• Les données sont explicitement des séries temporelles.

– Question: Pourquoi ne pas se contenter d’une colonne de type date


dans la table des faits? Parce que très souvent, une analyse fine requiert des
informations spécifiques attachées à la période: jour ouvrable? Férié?, exercices
comptables, saisons, événements, etc.
SYSTEMES D’INFORMATION DECISIONNELS
DW/Modélisation des Données
La dimension Temps- Exemple de dimension temps pour les faits de
ventes d’un magasin d’alimentation

TEMPS
Heure
Jourdelasemaine
Numjourdslemois
Numjourglobal
Numsemainedslannée
Numsemainglobal
Mois 12h00
Nummoisglobal Mardi
Trimestre n  [1..31]
Periode_fiscale
Flagférié
joursemaine
Flagdernierjourdumois
Saison
Événemen
FlagJourDePaiet
SYSTEMES D’INFORMATION DECISIONNELS
DW/Modélisation des Données

• Règles de Normalisation

• R1: Pas de DF entre deux entités appartenant à des dimensions différente


d’un même contexte

• R2: Tous les faits d’un même contexte doivent être définis d’une manière
cohérente pour toutes les combinaisons dimensionnelles de ce contexte

• R3: Tous les faits d ’un contexte doivent être définis pour le grain de ce
contexte

• R4: Le graphe de chaque dimension doit être acyclique

• Dimensions conformes: des dimensions conformes sont soit identiques à la


dimension la plus granulaire et la plus détaillée, soit des sous-ensembles
strictes de celle-ci. (même clé de dimension, mêmes noms d’attributs,
mêmes valeurs d’attributs, …)
DW/Construction
SYSTEMES D’INFORMATION DECISIONNELS
DW/Construction

• Plusieurs aspects à prendre en compte

1. Retour sur Investissement


2. Conception
3. Techniques
SYSTEMES D’INFORMATION DECISIONNELS
DW/Construction

• 1. retour sur Investissement


– Approche Top-down
• Développement d’un modèle de données de l’entreprise;
• Collecte des besoins métiers de l’entreprise;
• Construction d’un DW de l’entreprise duquel on pourra dériver
des datamarts(sous-ensembles)

– Approche Bottom-up
• Priorisation des besoins métiers avec pour résultante la
construction de datamarts individuels
• Intégration des différents DM pour avoir le DW
• approche plus réaliste mais le problème de l’intégration
des DM peut être un frein.
SYSTEMES D’INFORMATION DECISIONNELS
DW/Construction

DM
SD 1

DW
SD 1
INT DM

SD 1 DM

SD 1 1. DM1 → DW1
2. DW1 + DM2 → DW2
3. DW2 + DM3 → DW3
BOTTOM-UP
[Link]
TOP-DOWN 2.A. Integ DM → DM
[Link] 2.B. pas d’integ
[Link]
SYSTEMES D’INFORMATION DECISIONNELS
DW/Construction

• 2. Conception
– Facteurs de complexité lors de la mise en place d’un DW
• Hétérogénéité de sources de données qui affecte la conversion
des données, la qualité des données et le temps

• L’utilisation de données historisées

• L’expansion très marquée de la base de données

– Plusieurs points spécifiques a la conception des DW


• Contenu des données
• Métadonnées
• Distribution des données
• Les Outils
• Performances
• Décisions de conceptions
SYSTEMES D’INFORMATION DECISIONNELS
DW/Construction

• 2. Conception
– Contenu des données
• Données formatées différemment par rapport aux données
opérationnelles
– Modèle de données différent  modèle dimensionnel
• Niveau de détail le plus souvent similaire a l’opérationnel
• Les données d’un DM sont généralement plus agrégées

– Métadonnées
• La conception doit inclure un mécanisme pour populariser et
maintenir le répertoire des métadonnées.

• Le concepteur doit avoir une approche holistique


SYSTEMES D’INFORMATION DECISIONNELS
DW/Construction
Planning du Projet

Définition des besoins de l’entreprise

Conception de Modélisation Spécification des


l’architecture technique Dimensionnelle Applis d’Analyse

Conception Physique
Sélection et installation
Développement des
des produits Conception/Dev de la Applis d’Analyse
Préparation des Données

Mise en Route

Maintenance/Evolution
SYSTEMES D’INFORMATION DECISIONNELS
DW/Construction

• Etapes de Conception multidimensionnelle :


– choix du processus d’activité à modéliser :
• c’est un processus opérationnel important pour l’organisation, étayé par une ou
des applications existante(s) . (ex : commande, facturation, stock, compte
clients, vente et comptabilité, …)

– choix du grain du processus d’activité


• niveau de détail atomique des données devant figurer dans la table des faits ;

– choix des dimensions applicables à chaque dimension faits ;


• Déduites en grande partie du grain du processus d’activité.
• dimensions supplémentaires, à condition que celles-ci ne puissent prendre
qu’une seule valeur pour chaque combinaisons des dimensions élémentaires.

– choix des faits mesurés.


SYSTEMES D’INFORMATION DECISIONNELS
DW/Construction

• L'ETL

• Du ressort de l'équipe de l'entrepôt de données


• Partie la plus lourde, souvent sous-estimée
• Doit minimiser le temps d'indisponibilité du DW du chargement (solution
possible = configuration en miroir)

• Plusieurs étapes:
– Extraction de base (Lecture du format + données sources)
• De facile a très difficile selon les situations

– Identification des enregistrements modifiés pour une table de faits d’instantanés


– Extension des clés pour les dimensions évolutives
– Gestion de metadonnées
– Transformation en image d’enregistrement à charger et migration dans l’entrepôt
• Disposer convenablement les données opérationnelles pour un chargement direct et
immédiat.
• Opérations de tri et de création des agrégats
Systèmes Zone de Zone de Outils d’acces
opérationnels préparation Présentation aux données
Sources des données des données

•Fonctions:
• nettoie, combine et Marche d’Info 1
Dimensionnel • Outils de
standardise Requêtes ad hoc
• rend les dimensions
conformes Infos atomiques et
• Pas de requête récapitulatives
utilisateur basées sur un seul
processus
d’entreprise • Générateurs de
rapports
•Stockage :
• Fichiers plats et tables Bus: Faits et
relationnelles dimensions
conformes • Applications
d’analyse

•Traitements: Marche d’Info 2 • Modélisations:


• Tris et traitements Dimensionnel • Prévisions
séquentiels • Evaluation
(conception similaire) • Forage des
données

Extraire Charger Accéder


SYSTEMES D’INFORMATION DECISIONNELS
DW/Construction

• Approches d’Implémentation

– Relational OLAP (ROLAP)


• Données stockées dans un SGBD relationnel
• Un moteur OLAP permet de simuler le comportement multi-dimensionnel

– Multidimensional OLAP (MOLAP)


• Structure de stockage en cube
• Accès direct aux données dans le cube

– Hybrid OLAP (HOLAP)


• Données (de base) stockées dans SGBD relationnel
• + Données ( agrégées) stockées dans des cubes
SYSTEMES D’INFORMATION DECISIONNELS
DW/Construction

•ROLAP

– SGBDR
– Schéma en Etoile ou en Flocon
– Vues (matérialisées) pour la représentation multidimensionnelle
– Les requêtes OLAP (slice, rollup…) sont traduites en SQL
– Utilisation d'index spéciaux: bitmap
– Administration (tuning) particulier de la base

– Avantages/inconvénients
• Souplesse, évolution facile, permet de stocker de gros volumes
• Mais peu efficace pour les calculs complexes
ROLAP
SYSTEMES D’INFORMATION DECISIONNELS
DW/Construction

•MOLAP

– Modélisation directe du cube


– Cubes implémentés sous forme de matrices à plusieurs
dimensions: CUBE [1:m, 1:n, 1:p…] (mesure)
– Les cube sont indexés sur ses dimensions

– Avantages/inconvénients
• rapide
• formats propriétaires
• ne supporte pas de très gros volumes de données
MOLAP
SYSTEMES D’INFORMATION DECISIONNELS
DW/Construction

•HOLAP

– MOLAP + ROLAP
• Données stockées dans SGBD relationnel (Données de base) et dans des
cubes (Données agrégées)
– Les requêtes portent à la fois sur les tables relationnelles et sur
les cubes

– Avantages/inconvénients
• Est censé Cumuler les avantages des deux approches de bases
HOLAP
Gestion des Dimensions à Evolution Lente
• DEL : dimension dont un attribut évolue lentement avec le temps

• Trois techniques de base:

• T1: Ecrasement de la valeur précédente


• Mise en œuvre facile
• Pas de traces des valeurs antérieures des attributs
• Nécessité de reconstruire certains agrégats

• T2: Ajout d’une ligne de dimension


• Principale technique permettant le suivi des évolutions
• La ligne de dimension supplémentaire permet la segmentation de la
table des faits
• La clé naturelle sert a raccorder les lignes relatives au même produit

• T3: Ajout d’une colonne de dimension


• « At. », « At. Antérieur »
• Permet de voir les données antérieur à la fois selon les anciennes et les
nouvelle valeurs
• Technique peu utilisée
Méta Données

• Ensemble des informations concernant le Data Warehouse et les processus


associés.

• Métadonnées: Données sur les données. Utilisées pour construire, maintenir,


manager, et utiliser le DW.

• Les principales informations sont destinées :


– à l’utilisateur (sémantique, localisation) ;

– aux équipes responsables des processus de transformation des données du système de


production vers le Data Warehouse (localisation dans les systèmes de production,
description des règles, processus de transformation) ;

– aux équipes responsables des processus de création des données agrégées à partir des
données détaillées ;

– aux équipes d’administration de la base de données (structure de la base


implémentant le Data Warehouse) ;

– aux équipes de production (procédures de changement, historique de mise à jour,…).


Méta Données
– Métadonnées Techniques : informations sur les données du DW
utilisées par les concepteurs et administrateurs du DW pour les tâches
de développement et de gestion.

• Informations sur les sources de données;

• Description des transformations: méthodes de mappage des données


sources vers le DW, algorithmes de conversion et de transformation des
données;

• Objet du DW, définitions des SDD;

• Règles utilisées pour le nettoyage des données et leur amélioration;

• Autorisation d’accès, historique des backup/archivages, historique


acquisition des données, de l’accès des données, etc
Méta Données
– MétaDonnées Métiers : informations donnant une vue «
compréhensibles des données du DW:

• Aire des sujet et type des données (requêtes, rapports, image, vidéo, …);

• Autres infos pour supporter les composants DW (infos sur le système de


diffusion des infos,);

• Information opérationnelles du DW: historiques des donnée (versions des


snapshots, audit, utilisation des données.

Problème: la plupart des outils ETL sont immatures quant à la gestion des
métadonnées. Conséquence: il est souvent nécessaire de créer une
interface d’accès aux métadonnées (duplication de l’effort)
Méta Données
• Les métadonnées doivent (idéalement) être gérées à travers un référentiel
(metadata repository)

• Le référentiel doit:
– Être une « passerelle » vers l’environnement du DW: doit donc être accessible à
partir de n’importe quelle plateforme de façon transparente;
– permettre une réplication et distribution aisée de son contenu;
– permettre des recherches avec des mot-clé métiers;
– Être une plateforme d’appui d’accès et à l’analyse des données par l’utilisateur
final;
– Permettre le partage des objets d’information (tels que les requêtes, les
rapports, les souscriptions) entre les utilisateurs;
– Permettre plusieurs options de gestions des requêtes : à la demande, une fois,
répétitive, conduit par les événements, conditionnel.
– Fournir des interfaces à d’autres applications telles que les e-mails, les tableurs .
Data Mart
• Une implémentation du DW dans lequel la portée des données est
relativement limitée comparativement a celle du DW de l’entreprise.

– Contient des données légèrement synthétisées d’un département et est calibrées


pour les besoins d’un dép. particulier.

– Un moyen de construire le DW selon une approche incrémentale. Une collection


de data mart compose le DW de l’entreprise; D’un autre côté, un DW peut être
construit comme une collection de sous-ensemble Data mart.
Data Mart
• Plusieurs « acception s»

• Un entrepôt qui est subsidiaire a l’entrepôt global de l’entreprise

• Une partition des données dédiées à un groupes d’utilisateurs (sujet).

• Peut être un ensemble de données dénormalisées, synthétiques ou agrégées.

• Le plus souvent le DM est stocké hors du DW et sur un autre serveur

• Parfois, le DM est constitué seulement à partir de la technologie OLAP relationnel,


par la création de cubes de données dédiés à un groupe d’utilisateurs;

• Tous ces cas correspondent à des DM dépendants: les données du DM proviennent


de la même source de données intégrée : le DW.
Data Mart
• Autre vision: Data Marts indépendants. Considérer le DM comme
une alternative (moins coûteuse) au DW.
 Data Mart indépendants pose deux Pbs:
• manque de cohésion et d’intégration.
• Pb de scalabilité si le dimensionnement de la plateforme se fait sur
la base d’un Data Mart.

– Approche à envisager seulement quand: urgence extrême, absence de budget


pour une stratégie DW, absence de sponsor pour une stratégie « système d’aide
à la décision » au niveau global de l’entreprise, les unités sont décentralisées.

– Approche recommandée par Ralph Kimball pour l’intégration des Data


Marts:
• Pour tout couple de Data marts de l’entreprise, les dimensions communes
doivent se conformer à la « règle de l’égalité et du roll-up » (ou ces
dimensions sont égales ou l’une est un roll-up strict de l’autre).
– Ex.: dimension Temps ( Jour et Semaine : OK. Jour et Quartile Fiscal : Non OK)
Administration & Gestion
• Gestion de la sécurité et des priorités;

• Gérer les mises à jours à partir de sources multiples;

• Contrôler la qualité des données;

• Gérer et mettre à jour les méta données;

• Auditer et rapporter l’usage et le statut du DW (pour le gestion des


temps de réponse et l’utilisation des ressources);

• Purger les données;

• Répliquer, distribuer les données;

• Backup et restauration;

• Gestion du stockage du DW : planification de la capacité, gestion du


stockage hiérarchique, purges des vieilles données .
On-Line Analytical Processing
(OLAP)
On-Line Analytical Processing
(OLAP)
• Motivation de la technologie OLAP:

– La nature des problèmes dans plusieurs domaines métriers (analyse de


marchés, prévision financière, …) requièrent des schémas de BD orientés
tableaux et multidimensionnels.

– Retrouver un grand nombre d’enregistrements à partir de très larges BD et


les agréger à la volée. L’ensemble des résultats ressemble le plus souvent
à un tableur multidimensionnel.

– SQL et la représentation relationnelle bidimensionnelle du modèle


relationnelle présentent des inconvénients:
• Complexité des requêtes SQL engendrées (scannage exhaustive des tables,
multiples jointures, agrégations, tri, larges tables temporaires, …)
• Temps de réponse élévé;
• Faiblesse dans la gestion des séries temporelles;
• Navigabilité faible
OLAP
• Modèle de Données Multidimensionnel
OLAP
Modèle de Données

Produit Client Ventes


Lait Jean 50
Table Relationnel
Lait Pierre 100
Café Jean 30
Sucre Jacques 45

Jean Pierre Jacques


Lait 50 100 0 Cube
Café 30 0 0 Multidimensionnel
Sucre 0 0 45
OLAP
Modèle de Données

Produit Client Temps Ventes

Table Relationnel

n ts
l ie
C
Cube
Multidimensionnel
Produit

Temps
OLAP
• Le cube peut être étendue en intégrant d’autres mesures associées aux
dimensions

• Le cube supporte l’arithmétique matricielle (+, *, …)

• Le nb de cellules croit exponentiellement % Nbr de dimension

• L’efficacité est liée a la mise en place de tables de synthèse precalculées

• Autre amélioration: Gestion efficace des matrices creuses

• Hiérarchie dimensionnel + Gestion de matrices creuse + Preagregation


OLAP
• Manipulation d'un cube
– Les Opérateurs appliqués sur le cube sont algébriques (le
résultat est un autre cube) et peuvent être combinés :

– Slicing & Dicing (extraction)

– Changement de la granularité
• Roll up (agrégation)

• Drill down (plus détaillées)


OLAP
– Slicing & Dicing (extraction)
• Slicing: Sélection de tranches du cube par des prédicats sur
une dimension
– Exemple les ventes de l’année 2016
OLAP
– Slicing & Dicing (extraction)
• Slicing: Sélection de tranches du cube par des prédicats sur
une dimension
– Exemple les ventes de l’année 2016
OLAP
SLICE(année = 2016)

Ventes(2016) Café Sucre Lait


Pierre
Jean
Jacques
André

n ts
l ie
C

Cube
Produit

Multidimensionnel

Temps 2016
OLAP
DICE
Applications et Outils

• Plusieurs catégories d’outils:

– Requêteur et outils de reporting;

– Outil de développement d’applications;

– Outils EIS (Executive Information System);

– Outils de Traitement OLAP (On-Line Analytical


Processing);

– Outils Data mining.


Applications et Outils

– Outils de reporting: 2 catégories

• Outil « reporting de Production »: permet de


générer des rapports opérationnels réguliers ou
gérer des travaux batch importants tels que
calculer et imprimer les états de salaires;
– L3G (COBOL), L4G (Information Builders, Focus, SQR)

• Générateur de rapports: outils bureautique


conçus permettre aux utilisateurs finals de
concevoir et d’exécuter des rapports.

– Exemples: Crystal Reports, Actuate Reporting System, IQ


Objetcs, InfoReport
Applications et Outils

– Requêteur:
• affranchit l’utilisateur final de la complexité de SQL et de la
structure de la BD en intercalant un niveau méta entre
l’utilisateur et la base de données.

• Niveau Méta: logiciel qui fournit des vues orientées sujet de


la BD et permette la création par clicks des requêtes.
– Porte des noms différents selon les fournisseurs (BO: univers,
Cognos Corp: catalogue);

• Exemples: Business Objects (BO), Cognos, IQ Objects (IQ


S/W), GQL, Decision Server IBM), Discoverer(Oracle).
Applications et Outils

– Outils EIS (Executive Information System)

• Précurseurs des réquêteurs et des outils de reporting


initialement déployés sur les mainframes.

• Permet aux développeurs de construire des


applications (graphiques) d’aide à la décision
spécifiques qui donnent aux décideurs une vue
synthétique de son business et lui permet d’avoir
accès à des sources externes.

• Exemples: LightShip (Pilot S/W), Forest and Trees


(Platinum Technology), Express Analyser (Oracle),
SAS/EIS (SAS Institute),
Applications et Outils
– Outils de Traitement OLAP

• Fournissent à l’utilisateur une vue intuitive des données.

• Agrègent les données par rapport aux sujets métier et les


dimensions pertinentes.

• Permettent à l’utilisateur de naviguer (par des clicks) à travers


les hiérarchies et les dimensions: drill down, drill up, drill across,
pivot, swap d’une dimension etc.

• Certains outils précalculent les données dans des BD


multidimensionnelles, d’autres travaillent directement à partir
de la BDR, en calculant les données à la volée.

• Exemple: ESSBase (Arbor), Express (Oracle), PowerPlay


(Cognos),
Applications et Outils

– Outils Data Mining.

• Découverte de connaissance
– Segmentation,
– Classification
– Association

• Visualisation et Correction des données


Applications et Outils

– Outil de développement d’applications;

– Outils EIS (Executive Information System);

– Outils de Traitement OLAP (On-Line Analytical


Processing);

– Outils Data mining.


BIBLIOGRAPHIE
• Multidimensional Databases and Data Warehousing, Christian S. Jensen, Torben Bach Pedersen, Christian
Thomsen, Morgan & Claypool Publishers, 2010

• Data Warehouse Design: Modern Principles and Methodologies, Golfarelli and Rizzi, McGraw-Hill, 2009

• Advanced Data Warehouse Design: From Conventional to Spatial and Temporal Applications, Elzbieta
Malinowski, Esteban Zimányi, Springer, 2008

• The Data Warehouse Lifecycle Toolkit, Kimball et al., Wiley 1998

• The Data Warehouse Toolkit, 2nd Ed., Kimball and Ross, Wiley, 2002

Vous aimerez peut-être aussi