BI
Chapitre 1 :
Définition :
Bi est un ensemble de processus de technologies son objectif est d'aider les entreprises à
prendre des décisions en permettant d’analyser l’information et fournissant des
informations pertinentes et en temps réel sous forme d'un tableau de bord.
La hiérarchie de la connaissance :
Signal ----- Données brutes ----- information ----- savoir (connaissance)
Problématiques :
Manque de visibilité globale
Faible compréhension des clients
Décisions basées sur des données non fiables
BI et sa chronologie :
Dans le passé BI est utilisé afin de voir l'évolution et comparer les ventes d'un produit sur
plusieurs années, dans le présent il est utilisé afin d'avoir une vue en temps réel dans le futur
il est utilisé pour obtenir des prévisions sur le futur.
BI et mon entreprise :
Ma BI d’entreprise doit me permettre de :
Mesurer l’activité de mon entreprise
Analyser les zones de croissance et les facteurs de risque
Etc.
Les données de mon entreprise :
On peut valoriser les données de mon entreprise par les rendre disponibles à toute personne
peut bénéficier d’elle pour ton activité, Les associer avec des données externes pour les
transformer en informations « signifiantes » …
Le marché de la Business Intelligence :
Top 5 des priorités des décideurs :
Réduction des coûts
Amélioration des processus business
Attirer et fidéliser les clients
Augmentation de l’usage de l’information
Amélioration de la productivité
A qui s’adresse la Business Intelligence
Les décideurs
Les analystes
Les consommateurs d'information
Quelques domaines d’application :
E-commerce
Santé
Transport
Education
Cycle de vie standard de l’analyse de donnéesDW :
Pour créer du sens il faut transformer la donnée en information
Processus :
Signal ----- Données ----- information ----- connaissance ----- décision
Signal :
Un signal est un message codé de façon à pouvoir être communiqué à distance.
On peut classer les signaux par :
Leur usage.
Le type de message.
Le moyen de transmission.
Donnée :
Une donnée est le résultat direct d'une mesure. Elle peut être collectée par un outil de
supervision, par une personne ou être déjà présente dans une base de données.
Information :
Une information est une donnée à laquelle un sens, permet à un responsable opérationnel
de prendre une décision.
Connaissance :
La connaissance est le résultat d'une réflexion sur les informations analysées en se basant
sur : – ses expériences, ses idées, ses valeurs.
Décision :
Un choix ou une conclusion prise après avoir examiné des informations, des connaissances…
S.I.A.D :
Système d'Information d'Aide à la Décision : est un ensemble d'outils, de processus et de
technologies qui collectent, organisent et analysent des données pour aider les entreprises à
prendre des décisions éclairées.
Tableau de bord :
Un tableau de bord est un instrument de mesure de la performance, une représentation
visuelle concise des principales informations, données pertinentes.
Définition d'un Datawarehouse :
Le Datawarehouse (entrepôt de données) une base de données permet de collecter les
données transactionnelles d'une entreprise afin d’avoir un environnement centralisé pour la
prise de décision.
Le Data Warehouse doit être capable de gérer les niveaux requis :
D’évolutivité (données)
De simultanéité (nombre d'utilisateurs)
De complexité (requêtes, charge)
Processus décisionnel :
Intégration de données sources :
Deux approches sont possibles :
Intégration virtuelle (Middleware/Ontologie)
Intégration concrète/Matérialisée (Datawarehouse)
BI: Cas du Maroc
Marché en plein essor
Sur la voie de maturité
Pentaho Business Analytics :
Est un outil de BI offre des fonctionnalités avancées pour l'analyse, le reporting et la création
de tableaux de bord.
JasperSoft BI : est un outil de BI.
Jedox : est un outil de BI.
Pentaho Data Integration :
Est utilisé pour collecter des données à partir de différentes sources, les transformer selon
les besoins spécifiques, puis les charger dans un entrepôt de données data warehouse.
Talend Big Data Integration :
Est utilisé pour collecter des données à partir de différentes sources, les transformer selon
les besoins spécifiques, puis les charger dans un entrepôt de données data warehouse.
Pentaho Report Designer :
Est une plate-forme technologique Open source complète de conception rapports et de
visualisation de données.
BIRT :
Est une plate-forme technologique Open source complète de conception rapports et de
visualisation de données.
JasperReports :
Est un moteur de génération de rapports open source.
Saiku :
Est un client OLAP (web) qui permet d’élaborer en ligne des vues analytiques (tableaux
croisés et graphiques) au-dessus du serveur ROLAP Mondrian.
Chapitre 2 :
Ontologie :
une ontologie est un ensemble structuré de termes et de relations qui est partagé au sein
d'une communauté ou d'un domaine spécifique. Son rôle principal est de résoudre le
problème de l'hétérogénéité sémantique entre différentes sources de données.
Les avantages de Datawarehouse :
Les données sont thématiques : Organisées autour de sujets majeurs comme
consommateur, produit, ventes, etc.
Données Intégrées : des sources de données multiples et hétérogènes.
Données historisées.
Données Non Volatiles : Pas de mises à jour des données dans le DW, les données
qui ne changent pas fréquemment.
Approches de mise en place de DW :
Trois approches :
Top-Down
Bottom-up
Hybride
Les étapes du décisionnel :
Préparation (Extraction / Nettoyage / Stockage ✓Archivage ✓Historisation) Présentation
(Analyse/ Reporting).
Les approches académiques :
Un infocentre :
Est un endroit où les informations sont rassemblées et organisées.
Data mart :
Est comme une version plus petite et spécialisée d'un entrepôt de données. Il se concentre
sur un domaine spécifique au sein d'une entreprise. Moins de données que DW et
Utilisateurs plus ciblés.
Modélisation Entité/Association :
Avantages: (Normalisation/ Optimisation des transactions/ Réduction de l’espace de
stockage).
Inconvénients pour un utilisateur final: (Schéma très/trop complet/ pour l’analyse).
Modélisation des DW :
Introduction de nouveaux types de table: (Table de faits/ Table de dimensions)
Introduction de nouveaux modèles: (Modèle en étoile/ Modèle en flocon)
Le décisionnel en 3 mots :
La mesure
La dimension
Les faits
Table de faits (contient des données quantitatives):
Ce que l’on souhaite mesurer
Contient les clés étrangères des axes d’analyse
Trois types de faits: • Additif • Semi additif • Non additif
Typologie des faits :
Additif: additionnable suivant toutes les dimensions
Semi additif: additionnable suivant certaines dimensions – Solde d’un compte
bancaire: Pas de sens d’additionner sur les dates car cela représente des instantanés
d’un niveau
Non additif: fait non additionnable quelque soit la dimension – Prix unitaire
Table de dimension (qualitatives) :
Dimension = axe d’analyse
Contient souvent un grand nombre de colonnes
Contient en général beaucoup moins d’enregistrements qu’une table de faits
Une dimension contient des membres organisés en hiérarchie.
Modèle en flocons de neige :
Modèle en flocons de neige = Modèle en étoile + Normalisation des dimensions
Schématisation :
Le modèle en constellation :
Un modèle en constellation comprend donc plusieurs tables de faits et des tables de
dimensions communes ou non à ces tables de faits.
Processus de modélisation :
Le sponsor est l’utilisateur
On modélise quoi ?
Déclarer le grain : définir la manière dont les données seront stockées.
Choisir les dimensions qui s’appliquent
Identifier les mesures
Dimensions à évolution lente :
Écrasement de l’ancienne valeur : – Correction des informations erronées
Ajout d’un nouvel enregistrement: – Utilisation d’une clé de substitution
Ajout d’un nouvel attribut: – Valeur origine/valeur courante
Dimensions à évolution rapide :
Changements fréquents des attributs dont on veut garder l’historique
Isoler les attributs qui évoluent vite
Le modèle en étoile :
Avantages : – Facilité de navigation – Gestion des agrégats
Inconvénients : – Toutes les dimensions ne concernent pas les mesures.
Chapitre 3 :
L’ETL :
Est le processus qui permet de charger un datawarehouse à partir de données externes
généralement issues de bases transactionnelles.
Est un intégrateur offre une très grande connectivité aux bases de données, Entrepôts de
données.
Le dictionnaire de données est comme un guide qui contient des informations cruciales sur
toutes les données dans un entrepôt de données. Il explique comment les données sont
définies, créées, stockées, accessibles et présentées.