Business Intelligence
Chapitre 1
Introduction au domaine du décisionnel
L. Bouziani
ESI, 2019
Objectifs
• Connaître les principaux domaines d'application des Datawarehouses
• Connaître le paradigme du décisionnel
• Connaître les principes, les étapes et les méthodes de la modélisation
dimensionnelle
2
1. Le décisionnel
• Objectifs
• Connaître le paradigme du décisionnel (et ses différences avec le paradigme
transactionnel)
• Connaître les principaux domaines d'application des Datawarehouses
• Points traités
• Présentation
• Enjeux du décisionnel
• Concepts clés
• Exploitation des données
• Éthique et limites des systèmes décisionnels
• Architecture d'un système décisionnel
• Conception d'un système décisionnel
• Quelques exemples d'application
• Facteurs de risques d'un projet décisionnel
3
Présentation du décisionnel
• Le système d'information décisionnel est un ensemble de données
organisées de façon spécifiques, facilement accessibles et
appropriées à la prise de décision
• La finalité d'un système décisionnel est le pilotage d'entreprise
• Les systèmes de gestion sont dédiés aux métiers de l'entreprise
• Les systèmes décisionnels sont dédiés au management de l'entreprise
(Goglin, 2001)
• Synonymes : informatique décisionnelle, business intelligence, BI
4
Présentation du décisionnel
• Business Intelligence
• Terme générique qui englobe les applications, l’infrastructure, les outils et les
meilleures pratiques permettant l’accès et l’analyse de l’information afin
d’améliorer et d’optimiser les décisions et les performances
• Un ensemble de solutions informatiques permettant l’analyse des données de
l’entreprise, afin d’en dégager les informations qualitatives nouvelles qui vont
fonder des décisions, qu’elles soient tactiques ou stratégiques
5
Enjeux du décisionnel
• La prise de décisions stratégiques dans une organisation nécessite le
recours et le croisement de multiples informations qui concernent
tous les départements : production, RH, DAF, achats, ventes,
marketing, service après-vente, maintenance, R&D...
• Or ces données sont généralement :
• éparpillées au sein des départements et non connectées entre elles
• hétérogènes dans leurs formats techniques et leurs organisations
structurelles, voire leurs sémantiques
• implémentées pour l'action et non pour l'analyse
• volatiles, au sens où leur mise à jour peut conduire à oublier des informations
obsolètes
6
Concepts Clés
• Donnée:
• Résultat direct d’une mesure
• Peut être collectée par un outil de mesure, ou être présente dans une base de
données
• Ne permet pas de prendre de décision sur une action à lancer
• Exemple
• Le mois dernier, on a enregistré 1217 incidents au Datacenter
• 10 nouveaux prestataires ont été employés à la direction informatique
7
Concepts Clés
• Information:
• Donnée à laquelle un sens et une interprétation ont été donnés
• Permet au responsable de prendre une décision sur une action
• Exemple
• Le mois dernier, on a enregistré une augmentation de 240% du nombre
d’incidents par rapport au mois précédent
• L’emploi des 10 prestataires est lié à une augmentation temporaire de la
charge de travail
8
Concepts Clés
• Connaissance:
• Résultat d’une réflexion sur les informations analysées
• Se base sur les expériences, les idées, valeurs, avis des personnes consultées
• Exemple
• Le gestionnaire de changement peut établir une corrélation entre l’arrivée des
nouveaux prestataires et l’augmentation du nombre d’incidents
9
Exploitation des données
• Les données agrégées dans un système décisionnel servent à trois
grandes catégories d'usage :
• La production de rapport récurrents (Reporting)
• L'exploration / Fouille
• L'analyse de données (descriptive ou prédictive)
10
Reporting
• Le principe du Reporting est d'agréger et de synthétiser des données
nombreuses et complexes sous forme d'indicateurs, de tableaux, de
graphiques permettant d'en avoir une appréhension globale et
simplifiée
• Le Reporting s'appuie principalement sur les agrégations (GROUP BY
en SQL par exemple) afin de faire apparaître des comptages, sommes
ou moyennes en fonction de critères d'analyses
• Le Reporting est généralement récurrent, le même rapport sera
produit à intervalles réguliers pour contrôler les variations des
indicateurs
11
Exploration / Fouille
• Une autre exploitation de données en contexte décisionnel consiste à
pouvoir explorer les données de façon peu dirigée (heuristique) afin
de trouver des réponses à des questions que l'on ne s'est pas posées
avant
• L'idée générale est plutôt que les réponses aux premières questions
que l'on se posent conduiront à se poser de nouvelles questions
12
Analyse de données
• L'analyse de données est une branche de la statistique qui permet de
mettre en évidence des tendances des données ou corrélations entre
les données non évidentes a priori
• Dans le cas de l'analyse descriptive, il s'agit de rechercher une information
statistique "cachée" que l'on ne connaît pas a priori
• L'approche prédictive consiste à réaliser un modèle statistique des
corrélations entre les données à partir d'échantillons d'apprentissage, puis à
appliquer le modèle à des données nouvelles pour prédire leur
comportement, avec des raisonnements du type "si ... alors" ; ou pour
classifier des données (tel objet caractérisé par telles données appartient-il à
telle classe ?). Les résultats sont généralement qualifiés par une probabilité
d’occurrence
13
Éthique et limites des systèmes décisionnels
• L'interprétation est humaine
• Un système informatique produit des indicateurs qui nécessitent des
interprétations humaines, expertes dans le cas du décisionnel. Un système
informatique ne produit pas des directives qu'une organisation humaine doit
suivre
• L'erreur est informatique !
• Les résultats produits par les systèmes décisionnels sont le résultat de
conceptions informatiques et mathématiques complexes, qui peuvent receler
des erreurs ou des raccourcis, par ailleurs les résultats sont souvent
statistiques, donc non déterministes
• La possibilité d'une erreur ou d'une approximation inadaptée devra toujours
être prise en compte dans les décisions
14
Architecture d'un système décisionnel
• Tout système décisionnel est architecturé globalement de la même
façon :
• En amont un accès au système transactionnel en lecture seule
• Un DW fusionnant les données requises
• Un ETL permettant d'alimenter le DW à partir des données existantes
• Des applications d'exploitation de Reporting, exploration et/ou prédiction
• D'éventuels DM permettant de simplifier le DW en vue de certaines
applications
15
Architecture d'un système décisionnel
16
Architecture d'un système décisionnel
• Lors de la conception d’un système décisionnel, deux approches se
confrontent : la méthode de Bill Inmon et celle de Ralph Kimball
• Chacune adaptée à son environnement d’intégration et présentant ses
avantages et inconvénients
Bill Inmon Ralph Kimball
17
Architecture d'un système décisionnel
• L’approche Top-Down
18
Architecture d'un système décisionnel
• L’approche Bottom-Up
19
Conception d'un système décisionnel
• Un projet de système décisionnel se structure selon quatre grands axes :
1. Étude des besoins et de l'existant
• Étude des besoins utilisateurs
• Étude des données existantes
2. Modélisation et conception
• Modélisation dimensionnelle
• Architecture technique
• Spécification des outils d'exploitation
3. Implémentation du Datawarehouse
• Implémentation du DW et des DM
• Mise en place de l'ETL
4. Implémentation des outils d'exploitation
• Implémentation des outils de Reporting
• Implémentation des outils d'exploration
• Implémentation des outils de prédiction
20
Conception d'un système décisionnel
Lifecycle approach to DW/BI (Kimball, 2008) 21
Quelques exemples d'application
• Analyse du comportement des consommateurs ou de citoyens, en
fonction de leurs caractéristiques (sexe, age...), de critères socio-
économiques (profession...), géographiques, ...
• Analyse de ventes en fonction de l'implantation géographique de
magasins (densité, caractéristiques des régions...), de l'organisation
de magasins (rayonnage, marketing, RH...)
• Analyse des structures de paniers (quel produit est vendu en même
temps que quel autre et à quelles conditions ?)
• Contrôle qualité et analyse de défaut des chaînes de production en
fonction des centres de production, des organisations, des
fournisseurs...
22
Facteurs de risques dans un projet
décisionnel
• Orientation technologique du projet, plutôt qu’utilisateur
• Mise en cause de la fiabilité et/ou cohérence des informations
• Alimentations trop longues et irrégulières
• Outils et architecture technique inadaptés
• Fraîcheur insuffisante des informations
• Pas d’administrateur du système
• Surenchère fonctionnelle concernant les analyses et les outils à
utiliser par rapport aux réels enjeux métiers
23
2. Le Datawarehouse
• Objectifs
• Comprendre ce qu'est et à quoi sert un Datawarehouse.
• Comprendre les différences entre un Datawarehouse et une base de données
transactionnelle.
• Points traités
• Présentation
• Différence entre un DW et un système transactionnel
• Implémentation du DW avec un SGBDR
• Caractéristiques d’un Datawarehouse
• Datawarehouse et Datamart
24
Présentation du data warehousing
• Définition historique :
• A Datawarehouse is a subject-oriented, integrated, nonvolatile, and time-
variant collection of data in support of management's decisions. The
Datawarehouse contains granular corporate data. (Inmon, 2002)
• Un Datawarehouse (DW) est une base de données construite par
copie et réorganisation de multiples sources, afin de servir de source
de données à des applications décisionnelles (Goglin, 2001) :
• il agrège de nombreuses données de l'entreprise (intégration)
• il mémorise les données dans le temps (historisation)
• il les organise pour faciliter les requêtes de prise de décision (optimisation)
25
Différence entre un DW et un système
transactionnel
• BD transactionnelle
• Une base données classique est destinée à assumer des transactions en
temps réel :
• Ajout, mise à jour et suppression de données
• Requêtes sur des données identifiées ou requêtes statistiques
• Datawarehouse
• Un DW est uniquement destiné à l'exécution de requêtes statistiques sur des
données statiques (ou faiblement dynamiques).
26
Implémentation du DW avec un SGBDR
• Les deux problématiques fondamentales des DW sont l'optimisation
et la simplification : comment rester performant et lisible avec de très
gros volumes de données et des requêtes portant sur de nombreuses
tables (impliquant beaucoup de jointures) ?
• On utilise massivement :
• Les vues matérialisées : Un Datawarehouse procède par copie depuis le ou les
systèmes transactionnels
• La dénormalisation : Un Datawarehouse est hautement redondant
27
Caractéristiques d’un Datawarehouse
• Orienté sujet : Les données sont obligatoirement liées au métier de
l’entreprise et organisées par fonctions. Exemple : La production, Les
ventes …
• Intégré: Les données manipulées au niveau d’un Datawarehouse doivent
être standardisées pour éviter les anomalies. Le Datawarehouse intégrera
ces éléments pour former une vision unique de l'activité de l'entreprise
• Non volatile : Une fois les données stockées au niveau d’un
Datawarehouse, les opérations de mise à jour ou de suppression ne sont
plus autorisées. L’accès est autorisé uniquement en mode lecture
• Evolutif dans le temps : C’est le faite de garder l’historique des
changements et de pouvoir visualiser leurs évolutions dans le temps
28
Datawarehouse et Datamart
• Un Datawarehouse et un Datamart se distinguent par le spectre qu'il
recouvre :
• Le Datawarehouse recouvre l'ensemble des données et problématiques d'analyse
visées par l'entreprise
• Le Datamart recouvre une partie des données et problématiques liées à un métier ou
un sujet d'analyse en particulier
• Un Datamart est fréquemment un sous-ensemble du Datawarehouse de
l'entreprise, obtenu par extraction et agrégation des données de celui-ci
• Exemple
• Si un Datawarehouse enregistre un ensemble de ventes d'articles avec un grain très
fin, un Datamart peut faciliter une analyse dite de ticket de caisse (co-occurrence de
ventes de produits par exemple) en adoptant un grain plus grossier (le ticket plutôt
que l'article)
29
Datawarehouse et Datamart
• Les Datamarts sont destinés à pré-agréger des données disponibles
de façon plus détaillée dans les Datawarehouse, afin à traiter plus
facilement certaines questions spécifiques, critiques, etc.
30
3. Le modèle en étoile
• Objectifs
• Connaître les principes de la modélisation dimensionnelle
• Points traités
• Présentation
• Objectifs du modèle dimensionnel
• L'ETL
31
Présentation de la modélisation en étoile
• Définition
• Le modèle en étoile est une représentation fortement dénormalisée qui
assure un haut niveau de performance des requêtes même sur de gros
volumes de données
• Variantes
• Modèle en flocons de neige
• Modèle en constellations
32
Présentation de la modélisation en étoile
• Exemple
33
Objectifs du modèle dimensionnel
• La modélisation par schéma en étoile, par opposition aux schémas
normalisés en 3NF, permet de répondre à deux besoins caractéristiques
des systèmes décisionnels : la performance et la simplicité des requêtes.
• Caractéristiques d'un bon modèle décisionnel
• Être performant pour le calcul d’agrégats sur de gros volumes de données
(exploration de données, Reporting)
• Être appréhendable par un utilisateur final, en particulier pour formuler facilement
des requêtes (exploration de données)
• Être suffisamment performant au chargement pour répondre aux sollicitations de
mise à jour (ETL)
• Être évolutif en fonction des évolutions amont (sources transactionnels) et aval
(besoins d'exploitation) (ETL, métadonnées)
34
ETL
• L'ETL (Extraction Transformation Loading) est le processus de copie
des données depuis les tables des systèmes transactionnels vers les
tables du modèle en étoile du Datawarehouse.
35
4. Les outils du décisionnel
• Objectifs
• Connaître les grandes classes d'outils du domaine du décisionnel
• Connaître quelques outils du marché
• Points traités
• ETL, Reporting, exploration/fouille, analyse
• SGBD orientés décisionnel
36
Principaux types d'outils d'une architecture
décisionnel
• ETL
• Ils permettent de concevoir et d'organiser les processus de migration du
système transactionnel vers le système décisionnel.
• Outils de Reporting
• Ils permettent la création graphique de rapports
• Outils d'exploration/fouille
• Ils permettent de manipuler interactivement des cubes multidimensionnels
(choix des dimensions à croiser et des types d'agrégations à effectuer)
• Outils d'analyse
• Ils permettent l'analyse statistique de données
37
Principaux types d'outils d'une architecture
décisionnel
• Exemple d’outil ETL
Open Source :
• Talend
38
Principaux types d'outils d'une architecture
décisionnel
• Exemple d'outils
de Reporting Open
Source :
• Birt
39
Principaux types d'outils d'une architecture
décisionnel
• Exemple d'outils
d’exploration Open
Source :
• JPivot
40
Principaux types d'outils d'une architecture
décisionnel
• Exemple d'outils
d'analyse statistique
Open Source :
• Weka
41
SGBD orientés décisionnel
• Il est possible d'utiliser une base relationnelle classique pour
implémenter un entrepôt de données modélisé en étoile
• C'est même aujourd'hui encore la forme la plus largement utilisée
• Il existe également des technologies dédiées (SGBD
multidimensionnels)
• Les principes de modélisation dimensionnels sont indépendants de la
technologie choisie pour l'implémentation
42
Bibliographie
• Goglin J.-F. (2001, 1998).
• La construction du datawarehouse : du datamart au dataweb. Hermes, 2ème
édition.
• Inmon W.-H. (2002, 1990).
• Building the Datawarehouse. Wiley Publishing, 3rd edition.
• Kimball R., Ross M. (2003).
• Entrepôts de données : guide pratique de modélisation dimensionnelle.
Vuibert.
• Kimball R., Ross M., Thornthwaite W., Mundy J., Becker B. (2008, 1998).
• The Datawarehouse Lifecycle Toolkit. Wiley Publishing, second edition.
43