0% ont trouvé ce document utile (0 vote)
32 vues43 pages

Chap 1

Le document présente une introduction au domaine de la Business Intelligence, en détaillant les objectifs, les concepts clés et l'architecture des systèmes décisionnels. Il aborde également la différence entre les Datawarehouses et les bases de données transactionnelles, ainsi que les méthodes de modélisation dimensionnelle. Enfin, il discute des outils utilisés dans le domaine du décisionnel, tels que l'ETL, le reporting et l'analyse de données.

Transféré par

lcflak630
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Thèmes abordés

  • Données objectives,
  • Analyse de données,
  • Approche Bottom-Up,
  • Statistiques,
  • ETL,
  • Business Intelligence,
  • Agrégation de données,
  • Systèmes décisionnels,
  • Gestion des données,
  • Systèmes d'information
0% ont trouvé ce document utile (0 vote)
32 vues43 pages

Chap 1

Le document présente une introduction au domaine de la Business Intelligence, en détaillant les objectifs, les concepts clés et l'architecture des systèmes décisionnels. Il aborde également la différence entre les Datawarehouses et les bases de données transactionnelles, ainsi que les méthodes de modélisation dimensionnelle. Enfin, il discute des outils utilisés dans le domaine du décisionnel, tels que l'ETL, le reporting et l'analyse de données.

Transféré par

lcflak630
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Thèmes abordés

  • Données objectives,
  • Analyse de données,
  • Approche Bottom-Up,
  • Statistiques,
  • ETL,
  • Business Intelligence,
  • Agrégation de données,
  • Systèmes décisionnels,
  • Gestion des données,
  • Systèmes d'information

Business Intelligence

Chapitre 1
Introduction au domaine du décisionnel

L. Bouziani
ESI, 2019
Objectifs
• Connaître les principaux domaines d'application des Datawarehouses
• Connaître le paradigme du décisionnel
• Connaître les principes, les étapes et les méthodes de la modélisation
dimensionnelle

2
1. Le décisionnel
• Objectifs
• Connaître le paradigme du décisionnel (et ses différences avec le paradigme
transactionnel)
• Connaître les principaux domaines d'application des Datawarehouses
• Points traités
• Présentation
• Enjeux du décisionnel
• Concepts clés
• Exploitation des données
• Éthique et limites des systèmes décisionnels
• Architecture d'un système décisionnel
• Conception d'un système décisionnel
• Quelques exemples d'application
• Facteurs de risques d'un projet décisionnel

3
Présentation du décisionnel
• Le système d'information décisionnel est un ensemble de données
organisées de façon spécifiques, facilement accessibles et
appropriées à la prise de décision
• La finalité d'un système décisionnel est le pilotage d'entreprise
• Les systèmes de gestion sont dédiés aux métiers de l'entreprise
• Les systèmes décisionnels sont dédiés au management de l'entreprise
(Goglin, 2001)
• Synonymes : informatique décisionnelle, business intelligence, BI

4
Présentation du décisionnel
• Business Intelligence
• Terme générique qui englobe les applications, l’infrastructure, les outils et les
meilleures pratiques permettant l’accès et l’analyse de l’information afin
d’améliorer et d’optimiser les décisions et les performances
• Un ensemble de solutions informatiques permettant l’analyse des données de
l’entreprise, afin d’en dégager les informations qualitatives nouvelles qui vont
fonder des décisions, qu’elles soient tactiques ou stratégiques

5
Enjeux du décisionnel
• La prise de décisions stratégiques dans une organisation nécessite le
recours et le croisement de multiples informations qui concernent
tous les départements : production, RH, DAF, achats, ventes,
marketing, service après-vente, maintenance, R&D...
• Or ces données sont généralement :
• éparpillées au sein des départements et non connectées entre elles
• hétérogènes dans leurs formats techniques et leurs organisations
structurelles, voire leurs sémantiques
• implémentées pour l'action et non pour l'analyse
• volatiles, au sens où leur mise à jour peut conduire à oublier des informations
obsolètes

6
Concepts Clés
• Donnée:
• Résultat direct d’une mesure
• Peut être collectée par un outil de mesure, ou être présente dans une base de
données
• Ne permet pas de prendre de décision sur une action à lancer

• Exemple
• Le mois dernier, on a enregistré 1217 incidents au Datacenter
• 10 nouveaux prestataires ont été employés à la direction informatique

7
Concepts Clés
• Information:
• Donnée à laquelle un sens et une interprétation ont été donnés
• Permet au responsable de prendre une décision sur une action

• Exemple
• Le mois dernier, on a enregistré une augmentation de 240% du nombre
d’incidents par rapport au mois précédent
• L’emploi des 10 prestataires est lié à une augmentation temporaire de la
charge de travail

8
Concepts Clés
• Connaissance:
• Résultat d’une réflexion sur les informations analysées
• Se base sur les expériences, les idées, valeurs, avis des personnes consultées

• Exemple
• Le gestionnaire de changement peut établir une corrélation entre l’arrivée des
nouveaux prestataires et l’augmentation du nombre d’incidents

9
Exploitation des données
• Les données agrégées dans un système décisionnel servent à trois
grandes catégories d'usage :
• La production de rapport récurrents (Reporting)
• L'exploration / Fouille
• L'analyse de données (descriptive ou prédictive)

10
Reporting
• Le principe du Reporting est d'agréger et de synthétiser des données
nombreuses et complexes sous forme d'indicateurs, de tableaux, de
graphiques permettant d'en avoir une appréhension globale et
simplifiée
• Le Reporting s'appuie principalement sur les agrégations (GROUP BY
en SQL par exemple) afin de faire apparaître des comptages, sommes
ou moyennes en fonction de critères d'analyses
• Le Reporting est généralement récurrent, le même rapport sera
produit à intervalles réguliers pour contrôler les variations des
indicateurs

11
Exploration / Fouille
• Une autre exploitation de données en contexte décisionnel consiste à
pouvoir explorer les données de façon peu dirigée (heuristique) afin
de trouver des réponses à des questions que l'on ne s'est pas posées
avant
• L'idée générale est plutôt que les réponses aux premières questions
que l'on se posent conduiront à se poser de nouvelles questions

12
Analyse de données
• L'analyse de données est une branche de la statistique qui permet de
mettre en évidence des tendances des données ou corrélations entre
les données non évidentes a priori
• Dans le cas de l'analyse descriptive, il s'agit de rechercher une information
statistique "cachée" que l'on ne connaît pas a priori
• L'approche prédictive consiste à réaliser un modèle statistique des
corrélations entre les données à partir d'échantillons d'apprentissage, puis à
appliquer le modèle à des données nouvelles pour prédire leur
comportement, avec des raisonnements du type "si ... alors" ; ou pour
classifier des données (tel objet caractérisé par telles données appartient-il à
telle classe ?). Les résultats sont généralement qualifiés par une probabilité
d’occurrence
13
Éthique et limites des systèmes décisionnels
• L'interprétation est humaine
• Un système informatique produit des indicateurs qui nécessitent des
interprétations humaines, expertes dans le cas du décisionnel. Un système
informatique ne produit pas des directives qu'une organisation humaine doit
suivre
• L'erreur est informatique !
• Les résultats produits par les systèmes décisionnels sont le résultat de
conceptions informatiques et mathématiques complexes, qui peuvent receler
des erreurs ou des raccourcis, par ailleurs les résultats sont souvent
statistiques, donc non déterministes
• La possibilité d'une erreur ou d'une approximation inadaptée devra toujours
être prise en compte dans les décisions

14
Architecture d'un système décisionnel
• Tout système décisionnel est architecturé globalement de la même
façon :
• En amont un accès au système transactionnel en lecture seule
• Un DW fusionnant les données requises
• Un ETL permettant d'alimenter le DW à partir des données existantes
• Des applications d'exploitation de Reporting, exploration et/ou prédiction
• D'éventuels DM permettant de simplifier le DW en vue de certaines
applications

15
Architecture d'un système décisionnel

16
Architecture d'un système décisionnel
• Lors de la conception d’un système décisionnel, deux approches se
confrontent : la méthode de Bill Inmon et celle de Ralph Kimball
• Chacune adaptée à son environnement d’intégration et présentant ses
avantages et inconvénients
Bill Inmon Ralph Kimball

17
Architecture d'un système décisionnel
• L’approche Top-Down

18
Architecture d'un système décisionnel
• L’approche Bottom-Up

19
Conception d'un système décisionnel
• Un projet de système décisionnel se structure selon quatre grands axes :
1. Étude des besoins et de l'existant
• Étude des besoins utilisateurs
• Étude des données existantes
2. Modélisation et conception
• Modélisation dimensionnelle
• Architecture technique
• Spécification des outils d'exploitation
3. Implémentation du Datawarehouse
• Implémentation du DW et des DM
• Mise en place de l'ETL
4. Implémentation des outils d'exploitation
• Implémentation des outils de Reporting
• Implémentation des outils d'exploration
• Implémentation des outils de prédiction
20
Conception d'un système décisionnel

Lifecycle approach to DW/BI (Kimball, 2008) 21


Quelques exemples d'application
• Analyse du comportement des consommateurs ou de citoyens, en
fonction de leurs caractéristiques (sexe, age...), de critères socio-
économiques (profession...), géographiques, ...
• Analyse de ventes en fonction de l'implantation géographique de
magasins (densité, caractéristiques des régions...), de l'organisation
de magasins (rayonnage, marketing, RH...)
• Analyse des structures de paniers (quel produit est vendu en même
temps que quel autre et à quelles conditions ?)
• Contrôle qualité et analyse de défaut des chaînes de production en
fonction des centres de production, des organisations, des
fournisseurs...
22
Facteurs de risques dans un projet
décisionnel
• Orientation technologique du projet, plutôt qu’utilisateur
• Mise en cause de la fiabilité et/ou cohérence des informations
• Alimentations trop longues et irrégulières
• Outils et architecture technique inadaptés
• Fraîcheur insuffisante des informations
• Pas d’administrateur du système
• Surenchère fonctionnelle concernant les analyses et les outils à
utiliser par rapport aux réels enjeux métiers

23
2. Le Datawarehouse
• Objectifs
• Comprendre ce qu'est et à quoi sert un Datawarehouse.
• Comprendre les différences entre un Datawarehouse et une base de données
transactionnelle.
• Points traités
• Présentation
• Différence entre un DW et un système transactionnel
• Implémentation du DW avec un SGBDR
• Caractéristiques d’un Datawarehouse
• Datawarehouse et Datamart

24
Présentation du data warehousing
• Définition historique :
• A Datawarehouse is a subject-oriented, integrated, nonvolatile, and time-
variant collection of data in support of management's decisions. The
Datawarehouse contains granular corporate data. (Inmon, 2002)
• Un Datawarehouse (DW) est une base de données construite par
copie et réorganisation de multiples sources, afin de servir de source
de données à des applications décisionnelles (Goglin, 2001) :
• il agrège de nombreuses données de l'entreprise (intégration)
• il mémorise les données dans le temps (historisation)
• il les organise pour faciliter les requêtes de prise de décision (optimisation)

25
Différence entre un DW et un système
transactionnel
• BD transactionnelle
• Une base données classique est destinée à assumer des transactions en
temps réel :
• Ajout, mise à jour et suppression de données
• Requêtes sur des données identifiées ou requêtes statistiques
• Datawarehouse
• Un DW est uniquement destiné à l'exécution de requêtes statistiques sur des
données statiques (ou faiblement dynamiques).

26
Implémentation du DW avec un SGBDR
• Les deux problématiques fondamentales des DW sont l'optimisation
et la simplification : comment rester performant et lisible avec de très
gros volumes de données et des requêtes portant sur de nombreuses
tables (impliquant beaucoup de jointures) ?
• On utilise massivement :
• Les vues matérialisées : Un Datawarehouse procède par copie depuis le ou les
systèmes transactionnels
• La dénormalisation : Un Datawarehouse est hautement redondant

27
Caractéristiques d’un Datawarehouse
• Orienté sujet : Les données sont obligatoirement liées au métier de
l’entreprise et organisées par fonctions. Exemple : La production, Les
ventes …
• Intégré: Les données manipulées au niveau d’un Datawarehouse doivent
être standardisées pour éviter les anomalies. Le Datawarehouse intégrera
ces éléments pour former une vision unique de l'activité de l'entreprise
• Non volatile : Une fois les données stockées au niveau d’un
Datawarehouse, les opérations de mise à jour ou de suppression ne sont
plus autorisées. L’accès est autorisé uniquement en mode lecture
• Evolutif dans le temps : C’est le faite de garder l’historique des
changements et de pouvoir visualiser leurs évolutions dans le temps

28
Datawarehouse et Datamart
• Un Datawarehouse et un Datamart se distinguent par le spectre qu'il
recouvre :
• Le Datawarehouse recouvre l'ensemble des données et problématiques d'analyse
visées par l'entreprise
• Le Datamart recouvre une partie des données et problématiques liées à un métier ou
un sujet d'analyse en particulier
• Un Datamart est fréquemment un sous-ensemble du Datawarehouse de
l'entreprise, obtenu par extraction et agrégation des données de celui-ci
• Exemple
• Si un Datawarehouse enregistre un ensemble de ventes d'articles avec un grain très
fin, un Datamart peut faciliter une analyse dite de ticket de caisse (co-occurrence de
ventes de produits par exemple) en adoptant un grain plus grossier (le ticket plutôt
que l'article)

29
Datawarehouse et Datamart
• Les Datamarts sont destinés à pré-agréger des données disponibles
de façon plus détaillée dans les Datawarehouse, afin à traiter plus
facilement certaines questions spécifiques, critiques, etc.

30
3. Le modèle en étoile
• Objectifs
• Connaître les principes de la modélisation dimensionnelle
• Points traités
• Présentation
• Objectifs du modèle dimensionnel
• L'ETL

31
Présentation de la modélisation en étoile
• Définition
• Le modèle en étoile est une représentation fortement dénormalisée qui
assure un haut niveau de performance des requêtes même sur de gros
volumes de données
• Variantes
• Modèle en flocons de neige
• Modèle en constellations

32
Présentation de la modélisation en étoile
• Exemple

33
Objectifs du modèle dimensionnel
• La modélisation par schéma en étoile, par opposition aux schémas
normalisés en 3NF, permet de répondre à deux besoins caractéristiques
des systèmes décisionnels : la performance et la simplicité des requêtes.
• Caractéristiques d'un bon modèle décisionnel
• Être performant pour le calcul d’agrégats sur de gros volumes de données
(exploration de données, Reporting)
• Être appréhendable par un utilisateur final, en particulier pour formuler facilement
des requêtes (exploration de données)
• Être suffisamment performant au chargement pour répondre aux sollicitations de
mise à jour (ETL)
• Être évolutif en fonction des évolutions amont (sources transactionnels) et aval
(besoins d'exploitation) (ETL, métadonnées)

34
ETL
• L'ETL (Extraction Transformation Loading) est le processus de copie
des données depuis les tables des systèmes transactionnels vers les
tables du modèle en étoile du Datawarehouse.

35
4. Les outils du décisionnel
• Objectifs
• Connaître les grandes classes d'outils du domaine du décisionnel
• Connaître quelques outils du marché
• Points traités
• ETL, Reporting, exploration/fouille, analyse
• SGBD orientés décisionnel

36
Principaux types d'outils d'une architecture
décisionnel
• ETL
• Ils permettent de concevoir et d'organiser les processus de migration du
système transactionnel vers le système décisionnel.
• Outils de Reporting
• Ils permettent la création graphique de rapports
• Outils d'exploration/fouille
• Ils permettent de manipuler interactivement des cubes multidimensionnels
(choix des dimensions à croiser et des types d'agrégations à effectuer)
• Outils d'analyse
• Ils permettent l'analyse statistique de données

37
Principaux types d'outils d'une architecture
décisionnel
• Exemple d’outil ETL
Open Source :
• Talend

38
Principaux types d'outils d'une architecture
décisionnel
• Exemple d'outils
de Reporting Open
Source :
• Birt

39
Principaux types d'outils d'une architecture
décisionnel
• Exemple d'outils
d’exploration Open
Source :
• JPivot

40
Principaux types d'outils d'une architecture
décisionnel
• Exemple d'outils
d'analyse statistique
Open Source :
• Weka

41
SGBD orientés décisionnel
• Il est possible d'utiliser une base relationnelle classique pour
implémenter un entrepôt de données modélisé en étoile
• C'est même aujourd'hui encore la forme la plus largement utilisée
• Il existe également des technologies dédiées (SGBD
multidimensionnels)
• Les principes de modélisation dimensionnels sont indépendants de la
technologie choisie pour l'implémentation

42
Bibliographie
• Goglin J.-F. (2001, 1998).
• La construction du datawarehouse : du datamart au dataweb. Hermes, 2ème
édition.
• Inmon W.-H. (2002, 1990).
• Building the Datawarehouse. Wiley Publishing, 3rd edition.
• Kimball R., Ross M. (2003).
• Entrepôts de données : guide pratique de modélisation dimensionnelle.
Vuibert.
• Kimball R., Ross M., Thornthwaite W., Mundy J., Becker B. (2008, 1998).
• The Datawarehouse Lifecycle Toolkit. Wiley Publishing, second edition.

43

Common questions

Alimenté par l’IA

A Datawarehouse is designed for executing statistical queries on static data, focusing on read-only access where data is integrated, non-volatile, and time-variant, facilitating strategic decision-making . In contrast, a transactional database handles real-time data transactions involving addition, updating, and deletion, catering to immediate transactional needs .

A decision support system architecture typically includes components like Extract, Transform, Load (ETL) processes, Datawarehouse (DW), and data marts, which collectively enable the integration of disparate data sources into a unified, analyzable format . The ETL processes extract data from transactional systems, transform it into a consistent format, and load it into the DW for analysis purposes .

Time-variance in a Datawarehouse is essential as it allows for historical data analysis, enabling organizations to track changes over time and perform trend analyses, critical for strategic planning and forecasting . It helps in understanding past behaviors and predicting future outcomes by maintaining a chronological record of data changes .

The star schema offers significant performance benefits due to its highly denormalized structure, allowing for efficient query processing even on large datasets . It simplifies query formulation, making it user-friendly for end-users to explore data and create reports, directly supporting data exploration and reporting requirements in Business Intelligence systems .

The integration feature in a Datawarehouse standardizes disparate data formats and structures, providing a cohesive view of organizational data, which is crucial for informed decision-making . It addresses data heterogeneity by ensuring all data sources are combined into a unified, subject-oriented format, minimizing confusion and errors that arise from disparate data systems .

Key risks in decision support system projects include technological misalignment, data inconsistency, extended load times, and inadequate system administration . Mitigation strategies involve aligning technology with user requirements, ensuring robust data quality practices, implementing efficient ETL processes, and appointing knowledgeable system administrators to maintain system health and relevance .

Human interpretation is crucial in Business Intelligence systems to derive actionable insights from data. While the system provides indicators and trends, expert human analysis is essential to apply the findings contextually . Potential challenges include the risk of subjective bias, and misinterpretation, and the need for domain expertise to accurately evaluate results .

Exploration and data mining methods are particularly beneficial for uncovering unexpected insights in Business Intelligence. These methods allow for heuristic examination of data, leading to new questions and insights that were not previously considered, thus enhancing the depth and scope of analysis beyond predefined parameters .

ETL processes enhance Datawarehouse functionality by managing the extraction of data from transactional systems, transforming it into a consistent format, and loading it into a Datawarehouse . This systematic approach ensures data accuracy, consistency, and readiness for complex queries and analysis, which are central to Business Intelligence operations .

Ethical considerations in decision support systems include ensuring accurate interpretation of indicators and acknowledging the inherent uncertainty in statistical outputs . Limitations involve potential biases in data interpretation and model assumptions that can misguide decision-making, necessitating cautious, well-informed human oversight to prevent erroneous conclusions .

Vous aimerez peut-être aussi