0% ont trouvé ce document utile (0 vote)
57 vues88 pages

Business Intelligence

Le document présente une introduction à la Business Intelligence (BI) dans le contexte d'une entreprise de vente automobile, en mettant l'accent sur l'analyse du chiffre d'affaires, de la satisfaction client et de la gestion des stocks. Il aborde les motivations, les sources de données, les problèmes d'intégration, ainsi que les étapes clés du processus BI, y compris la collecte, le nettoyage, le stockage et l'analyse des données. Enfin, il distingue les systèmes transactionnels des systèmes décisionnels et décrit les composants d'un système décisionnel, tels que l'ETL, le datawarehouse et les datamarts.

Transféré par

Faiçal Bhar
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
57 vues88 pages

Business Intelligence

Le document présente une introduction à la Business Intelligence (BI) dans le contexte d'une entreprise de vente automobile, en mettant l'accent sur l'analyse du chiffre d'affaires, de la satisfaction client et de la gestion des stocks. Il aborde les motivations, les sources de données, les problèmes d'intégration, ainsi que les étapes clés du processus BI, y compris la collecte, le nettoyage, le stockage et l'analyse des données. Enfin, il distingue les systèmes transactionnels des systèmes décisionnels et décrit les composants d'un système décisionnel, tels que l'ETL, le datawarehouse et les datamarts.

Transféré par

Faiçal Bhar
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Business Intelligence

Génie informatique

Semestre 4 - Année universitaire 2024-2025

Professeur : Kawtar YOUNSI DAHBI


[email protected]
Introduction à l’information décisionnelle
Business intelligence :Motivations
Contexte : Une entreprise de vente automobile souhaite augmenter ses ventes et
améliorer la satisfaction de ses clients. Le directeur général souhaiter avoir une :
• Analyse du chiffre d'affaires : une vue d'ensemble sur le chiffre d'affaires de
l'entreprise, en analysant les ventes.
• Analyse de la satisfaction client : une vue d'ensemble sur la satisfaction des clients,
en analysant les données sur la fréquence d'achat, le montant des achats, les
récompenses de fidélité, les enquêtes de satisfaction, les commentaires des clients,
et les réclamations,
• Analyse de la gestion de stock: avoir une vue d'ensemble sur la gestion de stock
de l'entreprise, en analysant les niveaux de stock, les coûts de stockage, les délais
de livraison, les coûts d'approvisionnement, etc.
Business intelligence :Motivations
Les axes de l’analyse
• Les tendances temporelles : L'analyse des tendances de vente ou de satisfaction client au
fil du temps peut aider à identifier les évolutions et les changements dans les
comportements des clients.
• Les segments de marché : L'analyse des ventes ou de la satisfaction client par segment de
marché peut aider à identifier les segments les plus rentables ou les plus prometteurs,
ainsi que les segments à améliorer.
• Les produits/services : L'analyse des ventes ou de la satisfaction client par produit ou
service peut aider à identifier les produits ou services les plus rentables, les plus
populaires ou les moins performants.
• Les régions géographiques : L'analyse des ventes ou de la satisfaction client par région
géographique peut aider à identifier les régions les plus rentables ou les plus
prometteuses,ainsi que les régions à améliorer.
Business intelligence :Motivations

Sources de données :Les données nécéssaires pour l’analyse se trouvent dans des
sources hétérogènes :
• Les systèmes de gestion de la relation client (CRM) :sont utilisés pour collecter et
stocker les données clients, telles que les achats précédents, les préférences,etc.
• Les systèmes de gestion de la chaîne d'approvisionnement (SCM) :sont utilisés pour
suivre les stocks, les commandes, les livraisons, les retours, etc.
• Les systèmes de comptabilité et de gestion financière :sont utilisés pour collecter et
stocker des informations financières, telles que les ventes, les coûts, et les bénéfices
• Les systèmes de gestion des ventes et des concessions :sont utilisés pour suivre les
ventes de voitures, les options de vente, les promotions, les remises, etc.
• Les systèmes de marketing et de publicité :sont utilisés pour collecter et stocker des
données sur les campagnes de marketing et de publicité, telles que les dépenses,les
impressions, les clics, les conversions, etc.
Business intelligence :Motivations
• Problèmes identifiés:
• Hétérogénéité des sources de données : Les sources de données peuvent non seulement avoir des
formats différents, mais également des structures et des schémas différents ce qui peut rendre
difficile la comparaison et l'analyse.
• Des difficultés à intégrer les données : Les sources de données peuvent être stockées dans des
endroits différents,ce qui peut rendre difficile l'intégration des données
• Des difficultés à identifier les relations entre les données : Les données de sources multiples
peuvent contenir des relations et des données complémentaires qui ne sont pas immédiatement
identifiables
• Des données manquantes, incomplètes ou de mauvaise qualité: Les sources de données peuvent
contenir des données manquantes ou incomplètes ou des erreurs, telles que des doublons ou des
données incorrectes
• Manque de vue d'ensemble : Les sources sont conçues pour gérer des tâches spécifiques, ce qui
signifie que les informations sont souvent limitées à un domaine d'activité spécifique. Cela peut
rendre difficile la compréhension de la situation globale de l'entreprise
Business intelligence :Motivations

• Besoin d'avoir un accès centralisé et rapide à toutes les sources de données


• Besoin de données nettoyées et formatées de manière homogène pour faciliter
l'analyse et la comparaison des données.
• Besoin de comprendre les relations complexes entre les données pour une prise
de décision éclairée.
• Besoin d'une vue en temps réel des indicateurs clés de performance pour suivre
l'évolution des activités de l'entreprise
• Besoin d'analyser les tendances et les anomalies des données pour identifier les
opportunités d'amélioration et les problèmes rapidement.
Business intelligence

• L'informatique décisionnelle, également connue sous le nom de Business


Intelligence (BI), est un ensemble de techniques, de processus et de technologies
qui permettent de collecter, d'intégrer, d'analyser et de visualiser les données de
l'entreprise afin de fournir des informations utiles aux décideurs pour les aider à
prendre des décisions éclairées et à améliorer la performance de l'entreprise,
Système transactionnel VS système décisionnel

• Un système transactionnel ou opérationnel est un système informatique qui


permet de gérer les transactions quotidiennes d'une entreprise, telles que la
vente de produits, la gestion des stocks, la facturation et le traitement des
commandes. Les systèmes transactionnels sont conçus pour gérer des volumes
élevés de transactions en temps réel et sont optimisés pour les opérations de
lecture/écriture.
• Un système décisionnel est un système informatique qui permet de
collecter, nettoyer, organiser et analyser les données de l'entreprise pour
prendre des décisions. Les systèmes décisionnels sont conçus pour fournir une
vue globale et consolidée des données de l'entreprise à travers des rapports,
des tableaux de bord et des analyses de données
Système transactionnel et système décisionnel
Caractéristique Système transactionnel Système décisionnel
Gérer les transactions quotidiennes de Fournir des informations pour la prise de
Objectif principal
l'entreprise décisions
Structure de données Données structurées et normalisées Données dénormalisées et agrégées
Gère des volumes élevés de données en Traite des volumes importants de données
Volume de données
temps réel historiques
Analyse des ventes, rapports financiers,
Exemples d'utilisation Saisie de commande, facturation, paiement
prévisions de marché
Utilisateurs Utilisateurs opérationnels Utilisateurs de la direction et analystes
Simples, basées sur des critères de Complexes, basées sur des agrégats, des
Complexité des requêtes
recherche standard tendances et des modèles
Mises à jour régulières (quotidiennes,
Fréquence de mise à jour Mises à jour en temps réel
hebdomadaires, etc.)
Chaine décisionnelle
La chaîne décisionnelle est un processus qui comprend plusieurs étapes clés pour l'analyse et la
prise de décision basée sur les données.
Collecte de données : Cette étape consiste à rassembler les données provenant de différents
systèmes transactionneles
Nettoyage et préparation des données : Cette étape consiste à nettoyer et à préparer les
données pour l'analyse en éliminant les doublons, en corrigeant les erreurs et en appliquant des
normes de formatage.
Stockage des données : Cette étape consiste à stocker les données collectées dans un système
de stockage approprié,tel qu'un data warehouse ou un datamart
Restitution/Présentation des données : Cette étape consiste à présenter les résultats de
l'analyse sous forme de rapports, de tableaux de bord ou de visualisations graphiques pour aider à la
compréhension et à la prise de décision.
Analyse des données : Cette étape consiste à utiliser des techniques d'analyse de données pour
découvrir des tendances et des modèles, identifier des corrélations et des relations, et produire des
indicateurs clés de performance (KPI) pour aider à la prise de décision.
Les composants d’un système décisionnel
ETL

• L'ETL est un acronyme pour Extract, Transform, Load, qui désigne un processus
qui permet de collecter, transformer et charger des données provenant de
sources hétérogènes dans un entrepôt de données (data warehouse). Le
processus ETL est une étape cruciale dans le cadre de la mise en place de
systèmes d'informatique décisionnelle
• Extraction (Extract) : cette première étape consiste à extraire les données des sources et à
les rassembler en un seul endroit.
• Transformation (Transform) : cette étape consiste à nettoyer, transformer et normaliser les
données extraites, afin de les rendre cohérentes et exploitables pour l'analyse. Cette étape
peut également inclure des calculs, des agrégations, des filtres, des dé-duplications, des
corrections de données manquantes ou incorrectes,etc.
• Chargement (Load) : cette dernière étape consiste à charger les données transformées dans
l'entrepôt de données, qui est une base de données centralisée conçue pour la prise de
décision.
Datawarehouse

• Un datawarehouse est une base de données centrale conçue pour stocker de


grandes quantités de données historiques, agrégées et structurées, provenant de
différentes sources.
• Elle est optimisée pour les requêtes de données complexes et l’analyse
multidimensionnelle.
• Les données sont agrégées et structurées en fonction des besoins d'analyse, ce
qui permet de fournir une vue consolidée des données de l'entreprise.
• Les données sont également historisées, ce qui permet de retracer l'historique
des données sur une période donnée.
Reporting

• Le reporting est une pratique qui consiste à produire des rapports périodiques,
souvent sous forme de tableaux ou de graphiques, qui permettent de présenter
des informations clés sur les performances de l'entreprise
• Les rapports peuvent être produits à différents niveaux de l'organisation, depuis
les rapports de niveau opérationnel qui fournissent des informations sur les
tâches et les activités quotidiennes, jusqu'aux rapports de niveau stratégique qui
présentent une vue d'ensemble des performances de l'entreprise sur une période
donnée
Tableaux de bord

• Un tableau de bord est un outil de gestion visuel qui permet de suivre et de


mesurer les performances d'une entreprise ou d'une organisation. Il est
généralement présenté sous forme de graphiques, de tableaux, de diagrammes et
d'indicateurs clés de performance (KPIs) qui permettent de représenter de
manière synthétique les données les plus importantes pour les décideurs.
• Le tableau de bord joue un rôle essentiel pour les managers, car il leur permet
de:
• Suivre en temps réel les performances de l'entreprise et de ses différents départements ou
filiales
• Identifier les écarts entre les résultats attendus et les résultats réels
• Analyser les tendances et les évolutions de l'activité
• Prendre des décisions éclairées en se basant sur des données fiables et actualisées
• Communiquer les résultats et les objectifs à l'ensemble des collaborateurs pour favoriser
l'alignement et la motivation
Visualisation des données

• La visualisation de données est le processus de représentation graphique des


données et de leur relations afin de communiquer de manière efficace et
interactive des informations significatives aux utilisateurs. Cette technique permet
de transformer les données brutes en graphiques, tableaux et autres formes de
représentations visuelles qui facilitent la compréhension, l'analyse et la prise de
décision
Etapes du projet BI

•Analyse du besoin
•Conception et modélisation du Data Warehouse
•Processus ETL (Extraction, Transformation, Chargement)
•Analyse multidimensionnelle
•Reporting et visualisation des données
•Data Mining et analyse avancée
Analyse du besoin
Objectifs
• Déterminer les attentes des utilisateurs et les décisions à supporter
• Identifier les indicateurs clés de performance (KPIs) pour suivre et améliorer
les performances
• Définir les sources de données et les dimensions d’analyse
Livrables :
✔ Une vision claire des besoins métier et des décisions à supporter avec la BI.
✔ Une liste de KPIs validés permettant de mesurer efficacement la
performance.
✔ Une compréhension détaillée des sources de données et de leur qualité.
✔ Un cahier des charges BI complet servant de référence pour la suite du
projet.
Analyse des besoins

Un KPI (Key Performance Indicator) ou Indicateur Clé de Performance est une


mesure quantitative utilisée pour évaluer l’efficacité d’un processus, d’une
activité ou d’une stratégie par rapport à un objectif prédéfini.
Utilité des KPI
Les KPI permettent de :
• Surveiller la santé financière de l’entreprise.
• Mesurer les progrès par rapport aux objectifs stratégiques.
• Déceler les problèmes de façon précoce.
• Ajuster les tactiques en fonction des résultats.
• Motiver les membres de l’équipe.
• Prendre de meilleures décisions plus rapidement.
Analyse de l’existant
Une fois les besoins métier définis, il est crucial d’évaluer les SI existants et les
sources de données pour s’assurer de leur pertinence et de leur qualité.
1. Recensement des Sources de Données
•Bases de données internes : ERP, CRM, outils de gestion de production,
comptabilité.
•Sources externes : Open Data, API tierces, données des réseaux sociaux.
•Fichiers plats et autres formats : CSV, Excel, logs métiers, etc.
2. Évaluation de la Qualité des Données
•Complétude → Les données contiennent-elles toutes les informations nécessaires
?
•Exactitude → Les données sont-elles fiables et à jour ?
•Cohérence → Les données provenant de différentes sources sont-elles
harmonisées ?
•Accessibilité → Les données sont-elles disponibles en temps voulu ?
Conception de datawarehouse
Datawarehouse

• Un datawarehouse doit respecter les principes suivants :


• Orienté sujet: les données stockées dans le datawarehouse doivent être organisées par sujet
métier, tel que les ventes, la logistique, la finance, etc.
• Intégré :les données provenant de différentes sources doivent être intégrées et normalisées
pour garantir la cohérence des données dans le datawarehouse.
• Historisé : les données historiques doivent être conservées pour permettre une analyse
temporelle et l'identification des tendances.
• Non-volatilite : les données du datawarehouse ne sont pas modifiées une fois qu'elles sont
stockées.
• Accès en lecture seule : les données stockées dans le datawarehouse sont destinées à être
utilisées pour l'analyse et la prise de décision, et ne sont pas modifiées par les utilisateurs. Les
utilisateurs peuvent accéder aux données pour l'analyse et l'extraction d'informations.
Datamart

• Un datamart est conçue pour répondre aux besoins d'analyse spécifiques d'un
département, d'une unité opérationnelle ou d'une équipe.
• Les datamarts contiennent des données agrégées, nettoyées et structurées qui
sont optimisées pour l'analyse de données.
• Les datamarts sont conçus pour répondre à des besoins d'analyse spécifiques,
contrairement à un datawarehouse qui est conçu pour fournir une vue
consolidée des données de l'entreprise à l'échelle de l'ensemble de l'entreprise.
• En raison de leur conception orientée sujet, les datamarts sont souvent plus
faciles à comprendre et à utiliser pour les utilisateurs finaux, car ils contiennent
des données qui sont pertinentes pour leur domaine d'activité spécifique
Datamart

• Datamart de vente : Il contient des données spécifiques aux ventes, telles que les chiffres
d'affaires, les volumes de ventes, les prix de vente, les clients et les produits vendus. Il est
utilisé par les équipes de vente et de marketing pour analyser les tendances de vente, les
performances des produits et la segmentation des clients.
• Datamart de finance : Il contient des données financières telles que les bénéfices, les
coûts, les dépenses, les budgets et les soldes. Il est utilisé par les équipes de finance pour
analyser les performances financières de l'entreprise, le suivi des budgets et les
prévisions financières.
• Datamart de production : Il contient des données spécifiques aux processus de
production, tels que les volumes de production, les temps de cycle, les coûts de
production et les niveaux de qualité. Il est utilisé par les équipes de production pour
analyser les performances de production, la planification de la production et
l'optimisation des processus de production.
Datamart Vs datawarehouse
Critère Datawarehouse Datamart
Contenir des données spécifiques à un
Stocker de grandes quantités de données historiques domaine métier particulier pour répondre
But provenant de différentes sources pour faciliter l'analyse aux besoins d'analyse spécifiques d'un
et la prise de décision département, d'une unité opérationnelle ou
d'une équipe
Taille Généralement plus grande Plus petite qu'un datawarehouse
Un département, une unité opérationnelle
Portée Tout l'entreprise
ou une équipe
Plus long en raison de la complexité et du volume des Plus court car il contient un sous-ensemble
Temps de mise en œuvre
données de données
Données agrégées, nettoyées et
Données agrégées et structurées pour une vue
Niveau d'agrégation structurées pour une analyse de données
consolidée des données de l'entreprise
spécifique
Analyse multidimensionnelle pour des requêtes de Analyse de données spécifiques pour
Analyse
données complexes répondre aux besoins d'un domaine métier
Les utilisateurs d'un département, d'une
Utilisateurs Les utilisateurs de l'ensemble de l'entreprise
unité opérationnelle ou d'une équipe
Structure multidimensionnelle du
datawarehouse
Dans un data warehouse, les données sont organisées en deux types d'objets : les
faits et les dimensions
• Un fait ou une mesure représente une information quantitative qui peut être
agrégée et analysée. Il peut s'agir, par exemple, d'une valeur monétaire (comme le
chiffre d'affaires ou le bénéfice), d'une quantité physique (comme le nombre de
produits vendus) ou d'une durée (comme le temps de traitement d'une
commande).Les faits sont présentés dans une table de faits
• Une dimension est une dimension représente une caractéristique ou un
attribut d'une entité ou d'un événement que l'on souhaite analyser. Elle peut être
considérée comme une catégorie, un axe d'analyse ou une perspective
particulière sur les données.Les dimensions sont présentés dans une table de
dimension
Structure multidimensionnelle du
datawarehouse
Table de fait

• Les tables de faits sont généralement constituées de colonnes de mesures (par


exemple, ventes, bénéfices, quantités) et de colonnes de clés étrangères qui
pointent vers les tables de dimensions
Table de fait :Types de fait

Nous distinguons trois types de faits:


• Faits additifs :sont ceux qui peuvent être additionnés pour toutes les dimensions.
Par exemple, si nous avons une table de faits de ventes pour une entreprise, le
montant total des ventes pour toutes les régions sera égal à la somme des
montants de vente pour chaque région
• Faits semi-additifs: sont ceux qui peuvent être additionnés pour certaines
dimensions, mais pas pour d'autres. Par exemple, si nous avons une table de faits
de stock pour une entreprise, nous pouvons additionner la quantité de stock
pour chaque produit et chaque entrepôt, mais nous ne pouvons pas additionner
le stock à une date donnée, car cela ne donne pas de sens.
Table de fait :Types de fait

Faits non-additifs : Les faits non-additifs sont ceux qui ne peuvent pas être
additionnés pour toutes les dimensions. Ils nécessitent des mesures différentes
pour chaque dimension. Par exemple, si nous avons une table de faits de ventes
pour une entreprise, le prix moyen de vente ne peut pas être additionné pour
chaque région, car le prix moyen est différent pour chaque région
• A noter que la table de fait doit contenir uniquement des faits additifs ou semi-
additifs
• Une attention particulière doit être portée lors des calculs avec des faits semi-
additifs
Table de dimension

• Les tables de dimensions contiennent des informations décrivant les


caractéristiques des données de la table de faits. Les dimensions représentent
généralement les attributs non numériques tels que le temps, le lieu, le produit, le
client, etc. Les tables de dimensions sont généralement constituées de colonnes
d'attributs (par exemple, date, région, catégorie de produit, nom du client) et
d'une clé primaire qui identifie de manière unique chaque ligne.
Table de dimension
Les modèles de D W

• Il existe principalementdeux types de modèles multidimensionnels dans la


conception de data warehouses
• Modèle en étoile
• Modèle en flocons de neige
Modèle en étoile

• Le modèle en étoile est constitué d'une table centrale de faits reliée à des tables
de dimensions par des clés étrangères.
• Le nom "étoile" provient de la forme du schéma, où la table de fait se trouve au
centre, entourée des tables de dimensions qui ressemblent aux branches d'une
étoile. Cette structure facilite les requêtes et les analyses en permettant de
naviguer rapidement entre les différentes dimensions pour obtenir une vue
d'ensemble ou une vue détaillée des mesures
Modèle en étoile
Modèle en flocon

• Le modèle en flocon est conçu pour gérer des dimensions avec plusieurs niveaux
hiérarchiques. Dans ce modèle, les tables de dimension sont normalisées en
plusieurs tables pour permettre une meilleure gestion des données.
• Par exemple, une table de dimension qui contient les informations sur les clients
peut être normalisée en plusieurs tables de dimension qui contiennent des
informations sur les clients, les villes, les pays, etc. Ces tables sont reliées entre
elles par des clés étrangères.
• Le modèle en flocon permet de gérer des dimensions avec plusieurs niveaux
hiérarchiques de manière efficace, en évitant la redondance des données et en
permettant une gestion plus flexible des hiérarchies de donnée
Modèle en flocon
Modèle en étoile vs modèle en flocon
Critères de comparaison Modèle en flocon Modèle en étoile
Structure de données Tables de dimensions normalisées Tables de dimensions dénormalisées

Gestion de dimensions avec plusieurs Gestion de dimensions avec un seul


Niveaux hiérarchiques
niveaux hiérarchiques niveau hiérarchique

Réduction de la redondance des Augmentation de la redondance des


Redondance de données
données données
Permet une gestion flexible des Limite la flexibilité des hiérarchies de
Flexibilité de hiérarchies
hiérarchies de données données
Plus complexe à modéliser et à Plus simple à modéliser et à
Complexité de modélisation
maintenir maintenir
Requêtes plus complexes et plus
Performance de requête Requêtes plus simples et plus rapides
lentes
Modèle en constellation

• Le modèle en constellation (ou Galaxy schema en anglais) est un autre modèle de


données utilisé en informatique décisionnelle. Ce modèle est une extension du
modèle en étoile et permet de gérer des données plus complexes en utilisant des
tables de dimensions partagées.
• Dans un modèle en constellation, les tables de faits sont reliées à plusieurs tables
de dimensions, chacune de ces tables de dimensions étant reliée à d'autres tables
de dimensions par des clés étrangères. Les tables de dimensions partagées sont
utilisées pour réduire la redondance des données dans le modèle.
• Le modèle en constellation permet ainsi de gérer des données plus complexes et
plus variées que le modèle en étoile. Il est particulièrement utile pour les
entreprises qui ont des processus commerciaux complexes et des données
multidimensionnelles.
Modèle en constellation
Processus de modélisation D W
ETL
ETL

• Un ETL est un processus informatique qui permet d'extraire des données de


différentes sources de données, de les transformer pour répondre aux besoins
spécifiques de l'utilisateur, puis de les charger dans une base de données cible ou
un entrepôt de données pour l'analyse et la prise de décision ultérieure.
• Les outils ETL sont utilisés par les entreprises pour automatiser le processus de
gestion des données, pour s'assurer que les données sont de haute qualité,
précises et cohérentes, et pour réduire le temps et les coûts nécessaires pour
préparer les données avant leur utilisation
Fonctionalités d’un ETL

• L'ETL est une étape essentielle dans le traitement des données car il permet
d'intégrer des données provenant de sources hétérogènes en un format
homogène, pour faciliter leur utilisation ultérieure par les utilisateurs métier. Les
étapes principales de l'ETL sont :
• Extraction :récupération de données brutes à partir de différentes sources de données.
• Transformation :nettoyage,filtrage,enrichissement ou agrégation de données afin de les
rendre utilisables pour une analyse ultérieure.
• Chargement :insertion des données transformées dans une base de données cible ou un
entrepôt de données.
Extraction des données

• La phase d’extraction consiste à récupérer les données depuis une ou plusieurs


sources de données, par exemple :
• Extraction de données depuis une base de données transactionnelle (Oracle, MySQL, etc.)
• Extraction de fichiers plats (CSV, Excel, etc.)
• Extraction de données depuis des API (REST, SOAP, etc.)
Transformation des données :Qualité des données
La qualité des données désigne le degré auquel les données sont correctes, complètes,
cohérentes et exploitables pour répondre aux besoins des utilisateurs et des systèmes.
Des données de mauvaise qualité peuvent entraîner des décisions erronées, des
inefficacités et des pertes financières.
Dimensions de la Qualité des Données
• Exactitude : Les données sont-elles correctes et précises ?
• Complétude : Toutes les informations nécessaires sont-elles présentes ?
• Cohérence : Les données sont-elles uniformes entre différentes sources ?
• Actualité (Fraîcheur des données) : Les données sont-elles à jour ?
• Unicité : Les doublons sont-ils éliminés ?
• Intégrité : Les relations entre les données sont-elles respectées ?
Le nettoyage des données est le processus consistant à identifier, corriger ou supprimer
les erreurs et incohérences présentes dans les données afin d'améliorer sa qualité. Il
comprend la suppression des doublons, la gestion des valeurs manquantes,
l’uniformisation des formats et la validation des données.
Transformation des données :Qualité des
données
Problèmes de Qualité des Données
Problèmes liés à l’Exactitude
• Données erronées (ex. une date de naissance impossible : 30/02/1990).
• Erreurs de saisie (ex. "Morroco" au lieu de "Morocco").
• Mauvaise catégorisation (ex. un client "VIP" marqué comme "Standard").
• Valeurs aberrantes (ex. un salaire de 1 000 000€ pour un employé junior).
• Valeurs en dehors des seuils métier (ex. un taux de TVA à 50% alors que la norme est
entre 5% et 20
Problèmes de Complétude
• Valeurs manquantes (ex. une adresse email absente dans une base client).
Problèmes de Cohérence
• Formats incohérents (ex. "01-01-2024" dans un champ, "2024/01/01" dans un autre).
• Données non harmonisées (ex. devise en EUR dans une colonne et en USD ailleurs).
Transformation des données :Qualité des
données
5. Problèmes d’Unicité
• Doublons exacts (ex. un client enregistré deux fois avec le même email).
• Doublons partiels (ex. même nom mais une variation sur l’adresse).
6. Problèmes d’Intégrité
• Données orphelines (ex. un employé affecté à un département qui n’existe plus).
• Incohérence entre sources (ex. une commande validée dans un système mais non présente dans
un autre).
7. Problèmes de Standardisation
• Différences de nomenclature (ex. "USA" vs "United States" vs "États-Unis").
• Formatage variable (ex. numéros de téléphone : "+33 6 12 34 56 78" vs "06.12.34.56.78").
Transformation des données

• La phase de transformation dans un processus ETL est souvent la plus complexe


et la plus importante. Elle comprend plusieurs étapes clés qui permettent de
préparer les données pour l'analyse:
• Nettoyage
• Agrégation /Regroupement
• Enrichissement des données
• Mappage des données
Transformation des données :Nettoyage

Le nettoyage des données est le processus visant à identifier, corriger ou


supprimer les erreurs, incohérences et imprécisions présentes dans un
ensemble de données afin d'améliorer sa qualité et sa fiabilité.
Ce processus comprend :
• La suppression des doublons
• Le traitement des valeurs manquantes
• L’uniformisation des formats
• La correction des erreurs (valeurs aberrantes, incohérences, fautes de
saisie)
• La validation des données selon des règles métier
Transformation des données :Nettoyage

Exemples d’opérations :
• Suppression des données dupliquées :supprimer les doublons dans une table.
• Correction des fautes de frappe : corriger les erreurs de saisie de données.
• Remplacement des valeurs manquantes : remplacer les valeurs manquantes par
des valeurs cohérentes ou plausibles.
 Suppression des valeurs manquantes (lignes ou colonnes)
 Remplacement par une valeur fixe (0, moyenne, médiane, mode, catégorie
spéciale)
 Propagation des valeurs adjacentes (valeur précédente ou suivante)
 Interpolation (linéaire, polynomiale)/Modèles prédictifs (régression, classification)
Transformation des données :Nettoyage

Exemples d’opérations :
• Sélection des données pertinentes : cela implique de sélectionner les données qui
sont pertinentes pour l'analyse et de supprimer les données inutiles. Par exemple,
si une table de données clients contient des données clients inactifs ou des
données obsolètes, ces données peuvent être supprimées pour réduire la taille de
la table et améliorer les performances de l'analyse.
• Contrôle de la qualité des données : cela implique de vérifier que les données
respectent les règles et contraintes définies. Par exemple, si une table de données
clients doit contenir des adresses e-mail valides, le contrôle de la qualité des
données permettra de s'assurer que toutes les adresses e-mail sont valides et
conformes aux règles définies.
Transformation des données :Nettoyage

L’uniformisation des données est le processus qui consiste à harmoniser la


structure, le format et la représentation des données afin d’assurer leur
cohérence et leur compatibilité entre différentes sources.
Elle permet d’éliminer les incohérences, variations et erreurs dans l’écriture et
l’enregistrement des données pour faciliter leur traitement, analyse et intégration
dans les systèmes informatiques.
Exemples d’opérations :
• Convertir toutes les dates dans un format unique (YYYY-MM-DD).
• Standardiser les unités de mesure (mètres au lieu de kilomètres et miles mélangés).
• Uniformiser la notation des codes pays ("USA" au lieu de "United States" ou "États-Unis").
• Uniformisation des devises
• Standardiser les devises (convertir toutes les valeurs en une seule devise de référence, ex. EUR
Transformation des données :Agrégation

L ’agrégation des données consiste à combiner plusieurs enregistrements de données en


un seul.
Exemple :
• Agréger les données de ventes par catégorie de produits
• Agréger les données de ventes par région géographique
Transformation des données :Filtrage

• Le filtrage des données consiste à sélectionner uniquement les données


nécessaires pour l'analyse ultérieure.

• Exemple :
• Si une entreprise souhaite analyser les ventes de produits pour une région
spécifique, elle peut filtrer les données pour ne conserver que celles liées à cette
région
Transformation des données :Enrichissement
des données
• L’enrichissement des données consiste à ajouter des informations
supplémentairesaux données existantes afin d'en améliorer la qualité,la
pertinence ou l'utilité.
• Il peut être utilisée dans différents contextes, tels que le marketing, la gestion de
la relation client, la recherche de renseignements, la veille économique, etc.
Transformation des données :Enrichissement
des données
Exemple :
• Ajouter des données démographiques aux données client existantes, telles que
l'âge, le sexe, le niveau de revenu,etc.
• Intégrer des données de médias sociaux aux données de marketing pour suivre
les conversations et les sentiments des clients à propos de la marque et des
produits.
• Ajouter des informations de catégorisation aux données produit existantes, telles
que les catégories de produits et les sous-catégories, pour faciliter l'analyse des
ventes par catégorie.
• Intégrer des données de tierces parties pour enrichir les données client, telles
que des données sur les comportements en ligne, les habitudes d'achat, etc.
Transformation des données :Mappage des
données
• Le mappage des données est un processus qui permet de spécifier comment les
données d'une source de données doivent être transformées pour être chargées
dans une destination de données.
• Le processus de mappage de données implique souvent la création d'une
correspondance entre les colonnes des tables source et des tables cibles, ainsi
que la spécification des règles de transformation et de manipulation des données.
Par exemple, cela peut inclure des opérations telles que la conversion de formats
de données, la suppression de données en double, la fusion de plusieurs colonnes
en une seule ou le calcul de nouvelles colonnes à partir de données existantes.
Chargement

• La phase de chargement (Load) est la dernière étape d'un processus ETL dans
laquelle les données transformées sont chargées dans une cible, généralement un
data warehouse .
Stratégie de chargement
• Le chargement complet : cette méthode consiste à charger toutes les données
transformées dans la cible à chaque exécution du processus ETL. Cette méthode est simple
à mettre en œuvre mais peut être lente et consommatrice de ressources si le volume de
données est important.
• Avantages :
• Toutes les données sont chargées à chaque fois, ce qui assure que la cible est toujours à jour avec la
source.
• Il est simple et facile à implémenter.
• Il est idéal pour les données statiques qui ne changent pas souvent.
• Inconvénients :
• Consomme beaucoup de temps et de ressources, en particulier lorsque la source de données est
volumineuse.
• Il risque de surcharger la cible si elle contient déjà des données existantes.
• coûteux en termes de stockage si les données sources sont volumineuses.
• Il n'est pas adapté aux données en temps réel car il est difficile d'exécuter ce processus fréquemment
sans surcharger la cible.
Stratégie de chargement
• Le chargement incrémental :cette méthode consiste à charger uniquement les données modifiées ou
ajoutées depuis la dernière exécution du processus ETL.
• Avantages :
• Le chargement incrémental est plus rapide que le chargement complet car il ne traite que les
données modifiées.
• Il consomme moins de ressources et est donc moins coûteux en termes de stockage et de
temps de traitement.
• Il permet de maintenir la précision des données en évitant le chargement de données en
double ou la surcharge de la cible.
• Il convient bien aux données qui changent fréquemment.
• Inconvénients :
• Le chargement incrémental nécessite une planification précise pour déterminer les données
qui ont été modifiées depuis la dernière exécution.
• Les données manquantes ou supprimées ne sont pas chargées,ce qui peut entraîner des
incohérences dans la cible.
• Il est plus difficile à mettre en œuvre que le chargement complet.
Architecture ETL

• Il existe plusieurs types d'architecture ETL, mais voici les trois principales :
• L'architecture ETL en batch : cette architecture consiste à extraire les données de différentes
sources, à les transformer selon les règles et les contraintes définies, et à les charger dans une
cible de manière périodique, souvent une fois par jour ou par semaine.
• L'architecture ETL en temps réel : cette architecture consiste à extraire les données en temps
réel à partir de différentes sources, à les transformer et à les charger en temps réel dans une
cible. Cette architecture est souvent utilisée pour le traitement de données critiques en
temps réel,comme les données de transaction ou les données de surveillance.
• L'architecture ETL hybride : cette architecture combine les avantages des architectures ETL
en batch et en temps réel. Elle permet de traiter les données en mode batch pour les
volumes importants, tout en offrant des capacités de traitement en temps réel pour les
données critiques.
Architecture ETL classique

• L'architecture ETL classique est une architecture traditionnelle qui utilise une
infrastructure physique sur site pour stocker et traiter les données. Elle est
composée de trois étapes principales : l'extraction, la transformation et le
chargement (ETL).
• L'architecture ETL classique nécessite souvent des serveurs physiques pour
stocker et traiter les données, ce qui peut entraîner des coûts élevés de
maintenance et d'exploitation. Elle peut également nécessiter des compétences
techniques avancées pour gérer les serveurs et les logiciels ETL. Cependant, elle
offre un contrôle total sur les données et les processus ETL, ainsi qu'une
personnalisation facile du processus ETL.
Architecture ETL Cloud

• L'architecture ETL Cloud est une architecture moderne qui utilise les services
cloud pour stocker et traiter les données. Elle est basée sur les mêmes principes
que l'architecture ETL classique, mais elle offre des avantages supplémentaires tels
que la flexibilité, l'évolutivité et la facilité de gestion.
• Dans l'architecture ETL Cloud, les données sont extraites de différentes sources
telles que des applications SaaS, des bases de données cloud ou des fichiers
stockés dans le cloud. Les données sont ensuite stockées dans le cloud dans un
entrepôt de données ou une zone tampon.
• La transformation des données est effectuée en utilisant des services de
traitement distribué.Ces services sont conçus pour gérer des volumes massifs de
données et offrent des fonctionnalités avancées de transformation de données
telles que le traitement parallèle, le filtrage et la jointure.
Architecture ETL Cloud vs Classique

Architecture ETL Avantages Inconvénients


Contrôle complet du processus Coûts initiaux élevés, nécessite des
Classique ETL, sécurité des données, compétences techniques spécialisées,
performances optimales,flexibilité évolutivité limitée

Dépendance à l'égard du fournisseur de


Évolutivité facile,coûts initiaux
services cloud, sécurité des données
réduits, temps de déploiement
Cloud potentiellement vulnérable,performances
rapide,pas besoin d'infrastructures
variables en fonction de la qualité de la
internes
connexion Internet
OLAP
Cube O L A P

• L'analyse multidimensionnelle, également connue sous le nom d'analyse OLAP


(Online Analytical Processing), est une méthode d'exploration et d'analyse de
données dans un environnement de données multidimensionnel.
• Elle permet aux utilisateurs d'analyser les données (les indicateurs) sous
différents axes en utilisant des dimensions multiples, telles que le temps, la
géographie, le produit, le client, etc
Exemples:
• Vente au détail : Les ventes au détail peuvent être analysées en fonction de
plusieurs axes tels que la date, le produit, la région géographique et le canal de
vente. Les indicateurs peuvent inclure les ventes totales, le nombre de
transactions, le chiffre d'affaires par produit, la part de marché par région, etc.
Cube O L A P

• Finance : Les données financières peuvent être analysées en fonction de plusieurs axes de
dimensions, tels que la période, la catégorie de dépenses, le type de revenus et la région
géographique. Les indicateurs peuvent inclure le chiffre d'affaires, les coûts, la marge
bénéficiaire, le retour sur investissement, etc.
• Marketing : Les données de marketing peuvent être analysées en fonction de plusieurs
axes de dimensions, tels que le produit, le marché, le canal de vente et le comportement
des clients. Les indicateurs peuvent inclure le taux de conversion, le coût par clic, le taux
d'ouverture des courriels, le taux de réponse aux campagnes publicitaires, etc.
• Logistique : Les données de logistique peuvent être analysées en fonction de plusieurs
axes de dimensions, tels que le fournisseur, le lieu d'expédition, le mode de transport et
la catégorie de produits. Les indicateurs peuvent inclure le taux de livraison à temps, le
coût d'expédition, le taux d'erreur de commande, le taux de retour, etc.
Cube O L A P
• L'analyse multidimensionnelle utilise un cube de données pour stocker les données
multidimensionnelles et fournit une interface utilisateur conviviale pour explorer et
analyser les données.
• Un cube OLAP (Online Analytical Processing) est une structure de données
multidimensionnelle qui permet une analyse rapide et flexible des données. Le cube
OLAP est organisé en dimensions (axes) qui permettent d'explorer les données sous
différents angles.
• Les données sont pré-agrégées en différentes combinaisons de dimensions, ce qui
permet d'obtenir des réponses immédiates aux requêtes analytiques, sans avoir à
effectuer de calculs complexes sur les données brutes,
• Les cubes OLAP sont également utilisés pour créer des rapports, des graphiques et des
tableaux de bord interactifs qui permettent aux utilisateurs de visualiser les données
sous différents angles et de découvrir des tendances et des relations cachées.
O L A P vs OLTP
Caractéristiques OLAP OLTP
But Analyse de données Traitement de transactions
Agrégées, historiques, Opérationnelles, transactionnelles,
Données
multidimensionnelles détaillées
Structure Denormalisée Normalisée
Rapide pour les transactions
Temps de réponse Rapide pour les requêtes complexes
individuelles
Utilisateurs Analystes, décideurs, planificateurs Utilisateurs opérationnels, employés
Agrégation, consolidation, drill- Ajout, mise à jour,suppression de
Opérations
down, slice and dice données
Volume de données Grand Petit à moyen
Fréquence de mise à jour Faible Haute
Analyse de ventes, rapports de Gestion de commandes, réservation
Exemples d'applications
performances,analyse de marché de vols, transactions bancaire
MOLAP
Définition
MOLAP stocke les données sous forme de cubes multidimensionnels dans un serveur OLAP dédié.
Toutes les données et leurs agrégats sont pré-calculés et stockés pour accélérer l’accès aux
informations.
Stockage
• Les données sont stockées dans une base multidimensionnelle et non dans une base relationnelle
classique.
• Les agrégations sont calculées à l’avance, ce qui améliore la vitesse d’exécution des requêtes.
Avantages
• Très rapide pour l’analyse, car les données sont déjà préparées.
• Optimisé pour les requêtes complexes et répétitives.
• Bonne compression des données.
Inconvénients
• Temps de mise à jour long : il faut recalculer le cube en cas de modification des données.
• Moins flexible si les analyses changent souvent.
• Problèmes de scalabilité pour les très gros volumes de données.
ROLAP
Stockage
• Les données restent sous forme de tables relationnelles (modèle en étoile ou flocon).
• Les calculs sont effectués au moment de la requête via SQL.
Rôle du Moteur ROLAP
• Le moteur ROLAP est responsable de l’exécution des requêtes analytiques.
• Il traduit les requêtes multidimensionnelles OLAP en requêtes SQL relationnelles.
• Il utilise des index, des vues matérialisées et des techniques d'optimisation pour accélérer le
traitement des agrégats.
• Il fonctionne avec un serveur de base de données relationnelle qui exécute les calculs sur les
données stockées.
Avantages
• Pas de limite sur la quantité de données, car repose sur des bases relationnelles.
• Plus flexible : permet des analyses dynamiques sans avoir besoin de recalculer un cube.
Inconvénients
• Plus lent que MOLAP, car les calculs sont faits en temps réel.
• Les requêtes SQL complexes peuvent être gourmandes en ressources.
HOLAP

HOLAP est une combinaison de MOLAP et ROLAP, qui stocke certaines données sous forme de cubes
MOLAP (pré-agrégées) et d’autres dans des bases relationnelles ROLAP.
Stockage
• Les données détaillées restent en base relationnelle (ROLAP).
• Les agrégats sont stockés sous forme de cubes MOLAP, ce qui permet d’accélérer les requêtes les
plus fréquentes.
Avantages
• Bonne performance grâce aux pré-agrégations.
• Évolutif car les données brutes restent en base relationnelle.
• Moins de stockage nécessaire que MOLAP seul.
Inconvénients
• Plus complexe à gérer que MOLAP ou ROLAP seuls.
• Peut être difficile à optimiser selon les types de requêtes.
Opérations sur les cubes

slice (projection): sélectionne une valeur unique pour


l'une de ses dimensions et crée un sous-ensemble du
cube
Opérations sur les cubes

Dice (sélection): sélectionne des valeurs


spécifiques de plusieurs dimensions pour
produire un nouveau sous-cube.
Opérations sur les cubes

Drill down : permet de visualiser des données détaillées


en élargissant une dimension dans un cube.
Opérations sur les cubes

Roll Up : permet de regrouper des données de niveau inférieur en


une agrégation de niveau supérieur
Reporting

• Les outils de reporting statique : permettent de créer des rapports qui sont pré-
conçus et qui ne peuvent pas être modifiés en temps réel. Les rapports sont
généralement basés sur des données provenant de bases de données
relationnelles ou d'entrepôts de données. Exemples d'outils de reporting statique
:Crystal Reports, Oracle Reports, SSRS (SQL Server Reporting Services).
• Les outils de reporting dynamique : permettent aux utilisateurs de créer des
rapports interactifs qui peuvent être modifiés en temps réel. Les utilisateurs
peuvent également interagir avec les données en filtrant, triant ou en explorant
les données à l'aide de tableaux de bord interactifs. Exemples d'outils de
reporting dynamique :Power BI,Tableau, QlikView.
Reporting :les types de graphiques
Reporting :Solutions sur le marché
Datamining

Le Data Mining, ou fouille de données, est une technique d’analyse qui permet de
découvrir des relations, des modèles et des tendances cachées dans de grands
ensembles de données.
🔹 Objectifs du Data Mining :
• Explorer les données à l’aide de techniques statistiques et d’algorithmes
d’apprentissage automatique.
• Identifier des relations cachées et extraire des informations utiles.
• Utilisé dans des domaines comme le marketing, la finance, la santé et la recherche
scientifique.
• Aider à prendre des décisions éclairées et réaliser des analyses prédictives basées
sur des données historiques.
Les techniques du Data Mining

• Les techniques de classification : sont utilisées pour classer des données dans des
catégories prédéfinies. Elles reposent sur des algorithmes qui permettent de
construire un modèle de classification à partir d'un ensemble de données
d'entraînement. Ce modèle est ensuite utilisé pour prédire la classe
d'appartenance d'un nouvel ensemble de données.
Exemples de classification :
 Reconnaissance de spam → Un e-mail est classé comme spam ou non spam.
 Diagnostic médical → Un patient est classé en malade ou non malade en
fonction de ses symptômes.
 Prédiction de churn client → Déterminer si un client va quitter une entreprise
ou non.
Les techniques du Data Mining

• Les techniques de régression : sont utilisées pour modéliser la relation entre une
variable dépendante et une ou plusieurs variables indépendantes. Elles permettent
de prédire la valeur d'une variable dépendante en fonction des valeurs des
variables indépendantes. Les techniques de régression sont utilisées dans de
nombreuses applications, telles que la prévision de ventes, la prédiction de prix
ou encore la modélisation de la demande.
Les techniques du Data Mining

• Les techniques de clustering : sont utilisées pour regrouper des données


similaires en clusters ou en groupes homogènes. Les algorithmes de clustering
cherchent à minimiser la variance intra-cluster et à maximiser la variance inter-
cluster. Les clusters peuvent être utilisés pour segmenter des clients, regrouper
des produits ou encore détecter des anomalies dans des données
Les techniques du Data Mining

• Les techniques d'association: sont utilisées pour découvrir des relations entre des
éléments dans un ensemble de données. Elles permettent de trouver des règles
d'association entre des items, c'est-à-dire des associations entre des produits
souvent achetés ensemble ou des symptômes souvent associés dans des maladies.
Les techniques d'association sont utilisées dans de nombreuses applications, telles
que la recommandation de produits ou de services,
Datamining :La méthode CRISP-D M

• La méthode CRISP-D M (Cross Industry Standard Process for Data Mining) est un
processus standard utilisé pour guider les projets de data mining ou d'analyse de
données. Cette méthode est très populaire dans le domaine de la science des
données et est utilisée par de nombreuses entreprises et organisations à travers
le monde.
Datamining :La méthode CRISP-D M
• Compréhension du problème : cette étape consiste à définir le problème à résoudre et les objectifs
du projet. Il s'agit également de déterminer les données disponibles pour résoudre le problème.
• Collecte des données : cette étape consiste à collecter les données nécessaires pour résoudre le
problème. Les données peuvent provenir de diverses sources telles que des bases de données, des
fichiers plats,des flux de données en temps réel,etc.
• Préparation des données : cette étape consiste à nettoyer, transformer et structurer les données pour
qu'elles soient prêtes à être analysées. Cela peut inclure l'élimination des données manquantes, la
normalisation des données, la création de nouvelles variables et la sélection des variables les plus
pertinentes.
• Modélisation : cette étape consiste à construire un modèle statistique ou d'apprentissage automatique
pour résoudre le problème. Cela peut impliquer l'utilisation de techniques telles que la régression, la
classification,la segmentation,la prédiction,etc.
• Évaluation : cette étape consiste à évaluer la qualité du modèle en utilisant des métriques de
performance telles que la précision, le rappel, etc. Le modèle peut être ajusté en fonction des résultats
de cette étape.
• Déploiement : cette étape consiste à mettre en œuvre le modèle dans un environnement de
production afin qu'il puisse être utilisé pour résoudre le problème

Vous aimerez peut-être aussi