Business Intelligence
Business Intelligence
Génie informatique
Sources de données :Les données nécéssaires pour l’analyse se trouvent dans des
sources hétérogènes :
• Les systèmes de gestion de la relation client (CRM) :sont utilisés pour collecter et
stocker les données clients, telles que les achats précédents, les préférences,etc.
• Les systèmes de gestion de la chaîne d'approvisionnement (SCM) :sont utilisés pour
suivre les stocks, les commandes, les livraisons, les retours, etc.
• Les systèmes de comptabilité et de gestion financière :sont utilisés pour collecter et
stocker des informations financières, telles que les ventes, les coûts, et les bénéfices
• Les systèmes de gestion des ventes et des concessions :sont utilisés pour suivre les
ventes de voitures, les options de vente, les promotions, les remises, etc.
• Les systèmes de marketing et de publicité :sont utilisés pour collecter et stocker des
données sur les campagnes de marketing et de publicité, telles que les dépenses,les
impressions, les clics, les conversions, etc.
Business intelligence :Motivations
• Problèmes identifiés:
• Hétérogénéité des sources de données : Les sources de données peuvent non seulement avoir des
formats différents, mais également des structures et des schémas différents ce qui peut rendre
difficile la comparaison et l'analyse.
• Des difficultés à intégrer les données : Les sources de données peuvent être stockées dans des
endroits différents,ce qui peut rendre difficile l'intégration des données
• Des difficultés à identifier les relations entre les données : Les données de sources multiples
peuvent contenir des relations et des données complémentaires qui ne sont pas immédiatement
identifiables
• Des données manquantes, incomplètes ou de mauvaise qualité: Les sources de données peuvent
contenir des données manquantes ou incomplètes ou des erreurs, telles que des doublons ou des
données incorrectes
• Manque de vue d'ensemble : Les sources sont conçues pour gérer des tâches spécifiques, ce qui
signifie que les informations sont souvent limitées à un domaine d'activité spécifique. Cela peut
rendre difficile la compréhension de la situation globale de l'entreprise
Business intelligence :Motivations
• L'ETL est un acronyme pour Extract, Transform, Load, qui désigne un processus
qui permet de collecter, transformer et charger des données provenant de
sources hétérogènes dans un entrepôt de données (data warehouse). Le
processus ETL est une étape cruciale dans le cadre de la mise en place de
systèmes d'informatique décisionnelle
• Extraction (Extract) : cette première étape consiste à extraire les données des sources et à
les rassembler en un seul endroit.
• Transformation (Transform) : cette étape consiste à nettoyer, transformer et normaliser les
données extraites, afin de les rendre cohérentes et exploitables pour l'analyse. Cette étape
peut également inclure des calculs, des agrégations, des filtres, des dé-duplications, des
corrections de données manquantes ou incorrectes,etc.
• Chargement (Load) : cette dernière étape consiste à charger les données transformées dans
l'entrepôt de données, qui est une base de données centralisée conçue pour la prise de
décision.
Datawarehouse
• Le reporting est une pratique qui consiste à produire des rapports périodiques,
souvent sous forme de tableaux ou de graphiques, qui permettent de présenter
des informations clés sur les performances de l'entreprise
• Les rapports peuvent être produits à différents niveaux de l'organisation, depuis
les rapports de niveau opérationnel qui fournissent des informations sur les
tâches et les activités quotidiennes, jusqu'aux rapports de niveau stratégique qui
présentent une vue d'ensemble des performances de l'entreprise sur une période
donnée
Tableaux de bord
•Analyse du besoin
•Conception et modélisation du Data Warehouse
•Processus ETL (Extraction, Transformation, Chargement)
•Analyse multidimensionnelle
•Reporting et visualisation des données
•Data Mining et analyse avancée
Analyse du besoin
Objectifs
• Déterminer les attentes des utilisateurs et les décisions à supporter
• Identifier les indicateurs clés de performance (KPIs) pour suivre et améliorer
les performances
• Définir les sources de données et les dimensions d’analyse
Livrables :
✔ Une vision claire des besoins métier et des décisions à supporter avec la BI.
✔ Une liste de KPIs validés permettant de mesurer efficacement la
performance.
✔ Une compréhension détaillée des sources de données et de leur qualité.
✔ Un cahier des charges BI complet servant de référence pour la suite du
projet.
Analyse des besoins
• Un datamart est conçue pour répondre aux besoins d'analyse spécifiques d'un
département, d'une unité opérationnelle ou d'une équipe.
• Les datamarts contiennent des données agrégées, nettoyées et structurées qui
sont optimisées pour l'analyse de données.
• Les datamarts sont conçus pour répondre à des besoins d'analyse spécifiques,
contrairement à un datawarehouse qui est conçu pour fournir une vue
consolidée des données de l'entreprise à l'échelle de l'ensemble de l'entreprise.
• En raison de leur conception orientée sujet, les datamarts sont souvent plus
faciles à comprendre et à utiliser pour les utilisateurs finaux, car ils contiennent
des données qui sont pertinentes pour leur domaine d'activité spécifique
Datamart
• Datamart de vente : Il contient des données spécifiques aux ventes, telles que les chiffres
d'affaires, les volumes de ventes, les prix de vente, les clients et les produits vendus. Il est
utilisé par les équipes de vente et de marketing pour analyser les tendances de vente, les
performances des produits et la segmentation des clients.
• Datamart de finance : Il contient des données financières telles que les bénéfices, les
coûts, les dépenses, les budgets et les soldes. Il est utilisé par les équipes de finance pour
analyser les performances financières de l'entreprise, le suivi des budgets et les
prévisions financières.
• Datamart de production : Il contient des données spécifiques aux processus de
production, tels que les volumes de production, les temps de cycle, les coûts de
production et les niveaux de qualité. Il est utilisé par les équipes de production pour
analyser les performances de production, la planification de la production et
l'optimisation des processus de production.
Datamart Vs datawarehouse
Critère Datawarehouse Datamart
Contenir des données spécifiques à un
Stocker de grandes quantités de données historiques domaine métier particulier pour répondre
But provenant de différentes sources pour faciliter l'analyse aux besoins d'analyse spécifiques d'un
et la prise de décision département, d'une unité opérationnelle ou
d'une équipe
Taille Généralement plus grande Plus petite qu'un datawarehouse
Un département, une unité opérationnelle
Portée Tout l'entreprise
ou une équipe
Plus long en raison de la complexité et du volume des Plus court car il contient un sous-ensemble
Temps de mise en œuvre
données de données
Données agrégées, nettoyées et
Données agrégées et structurées pour une vue
Niveau d'agrégation structurées pour une analyse de données
consolidée des données de l'entreprise
spécifique
Analyse multidimensionnelle pour des requêtes de Analyse de données spécifiques pour
Analyse
données complexes répondre aux besoins d'un domaine métier
Les utilisateurs d'un département, d'une
Utilisateurs Les utilisateurs de l'ensemble de l'entreprise
unité opérationnelle ou d'une équipe
Structure multidimensionnelle du
datawarehouse
Dans un data warehouse, les données sont organisées en deux types d'objets : les
faits et les dimensions
• Un fait ou une mesure représente une information quantitative qui peut être
agrégée et analysée. Il peut s'agir, par exemple, d'une valeur monétaire (comme le
chiffre d'affaires ou le bénéfice), d'une quantité physique (comme le nombre de
produits vendus) ou d'une durée (comme le temps de traitement d'une
commande).Les faits sont présentés dans une table de faits
• Une dimension est une dimension représente une caractéristique ou un
attribut d'une entité ou d'un événement que l'on souhaite analyser. Elle peut être
considérée comme une catégorie, un axe d'analyse ou une perspective
particulière sur les données.Les dimensions sont présentés dans une table de
dimension
Structure multidimensionnelle du
datawarehouse
Table de fait
Faits non-additifs : Les faits non-additifs sont ceux qui ne peuvent pas être
additionnés pour toutes les dimensions. Ils nécessitent des mesures différentes
pour chaque dimension. Par exemple, si nous avons une table de faits de ventes
pour une entreprise, le prix moyen de vente ne peut pas être additionné pour
chaque région, car le prix moyen est différent pour chaque région
• A noter que la table de fait doit contenir uniquement des faits additifs ou semi-
additifs
• Une attention particulière doit être portée lors des calculs avec des faits semi-
additifs
Table de dimension
• Le modèle en étoile est constitué d'une table centrale de faits reliée à des tables
de dimensions par des clés étrangères.
• Le nom "étoile" provient de la forme du schéma, où la table de fait se trouve au
centre, entourée des tables de dimensions qui ressemblent aux branches d'une
étoile. Cette structure facilite les requêtes et les analyses en permettant de
naviguer rapidement entre les différentes dimensions pour obtenir une vue
d'ensemble ou une vue détaillée des mesures
Modèle en étoile
Modèle en flocon
• Le modèle en flocon est conçu pour gérer des dimensions avec plusieurs niveaux
hiérarchiques. Dans ce modèle, les tables de dimension sont normalisées en
plusieurs tables pour permettre une meilleure gestion des données.
• Par exemple, une table de dimension qui contient les informations sur les clients
peut être normalisée en plusieurs tables de dimension qui contiennent des
informations sur les clients, les villes, les pays, etc. Ces tables sont reliées entre
elles par des clés étrangères.
• Le modèle en flocon permet de gérer des dimensions avec plusieurs niveaux
hiérarchiques de manière efficace, en évitant la redondance des données et en
permettant une gestion plus flexible des hiérarchies de donnée
Modèle en flocon
Modèle en étoile vs modèle en flocon
Critères de comparaison Modèle en flocon Modèle en étoile
Structure de données Tables de dimensions normalisées Tables de dimensions dénormalisées
• L'ETL est une étape essentielle dans le traitement des données car il permet
d'intégrer des données provenant de sources hétérogènes en un format
homogène, pour faciliter leur utilisation ultérieure par les utilisateurs métier. Les
étapes principales de l'ETL sont :
• Extraction :récupération de données brutes à partir de différentes sources de données.
• Transformation :nettoyage,filtrage,enrichissement ou agrégation de données afin de les
rendre utilisables pour une analyse ultérieure.
• Chargement :insertion des données transformées dans une base de données cible ou un
entrepôt de données.
Extraction des données
Exemples d’opérations :
• Suppression des données dupliquées :supprimer les doublons dans une table.
• Correction des fautes de frappe : corriger les erreurs de saisie de données.
• Remplacement des valeurs manquantes : remplacer les valeurs manquantes par
des valeurs cohérentes ou plausibles.
Suppression des valeurs manquantes (lignes ou colonnes)
Remplacement par une valeur fixe (0, moyenne, médiane, mode, catégorie
spéciale)
Propagation des valeurs adjacentes (valeur précédente ou suivante)
Interpolation (linéaire, polynomiale)/Modèles prédictifs (régression, classification)
Transformation des données :Nettoyage
Exemples d’opérations :
• Sélection des données pertinentes : cela implique de sélectionner les données qui
sont pertinentes pour l'analyse et de supprimer les données inutiles. Par exemple,
si une table de données clients contient des données clients inactifs ou des
données obsolètes, ces données peuvent être supprimées pour réduire la taille de
la table et améliorer les performances de l'analyse.
• Contrôle de la qualité des données : cela implique de vérifier que les données
respectent les règles et contraintes définies. Par exemple, si une table de données
clients doit contenir des adresses e-mail valides, le contrôle de la qualité des
données permettra de s'assurer que toutes les adresses e-mail sont valides et
conformes aux règles définies.
Transformation des données :Nettoyage
• Exemple :
• Si une entreprise souhaite analyser les ventes de produits pour une région
spécifique, elle peut filtrer les données pour ne conserver que celles liées à cette
région
Transformation des données :Enrichissement
des données
• L’enrichissement des données consiste à ajouter des informations
supplémentairesaux données existantes afin d'en améliorer la qualité,la
pertinence ou l'utilité.
• Il peut être utilisée dans différents contextes, tels que le marketing, la gestion de
la relation client, la recherche de renseignements, la veille économique, etc.
Transformation des données :Enrichissement
des données
Exemple :
• Ajouter des données démographiques aux données client existantes, telles que
l'âge, le sexe, le niveau de revenu,etc.
• Intégrer des données de médias sociaux aux données de marketing pour suivre
les conversations et les sentiments des clients à propos de la marque et des
produits.
• Ajouter des informations de catégorisation aux données produit existantes, telles
que les catégories de produits et les sous-catégories, pour faciliter l'analyse des
ventes par catégorie.
• Intégrer des données de tierces parties pour enrichir les données client, telles
que des données sur les comportements en ligne, les habitudes d'achat, etc.
Transformation des données :Mappage des
données
• Le mappage des données est un processus qui permet de spécifier comment les
données d'une source de données doivent être transformées pour être chargées
dans une destination de données.
• Le processus de mappage de données implique souvent la création d'une
correspondance entre les colonnes des tables source et des tables cibles, ainsi
que la spécification des règles de transformation et de manipulation des données.
Par exemple, cela peut inclure des opérations telles que la conversion de formats
de données, la suppression de données en double, la fusion de plusieurs colonnes
en une seule ou le calcul de nouvelles colonnes à partir de données existantes.
Chargement
• La phase de chargement (Load) est la dernière étape d'un processus ETL dans
laquelle les données transformées sont chargées dans une cible, généralement un
data warehouse .
Stratégie de chargement
• Le chargement complet : cette méthode consiste à charger toutes les données
transformées dans la cible à chaque exécution du processus ETL. Cette méthode est simple
à mettre en œuvre mais peut être lente et consommatrice de ressources si le volume de
données est important.
• Avantages :
• Toutes les données sont chargées à chaque fois, ce qui assure que la cible est toujours à jour avec la
source.
• Il est simple et facile à implémenter.
• Il est idéal pour les données statiques qui ne changent pas souvent.
• Inconvénients :
• Consomme beaucoup de temps et de ressources, en particulier lorsque la source de données est
volumineuse.
• Il risque de surcharger la cible si elle contient déjà des données existantes.
• coûteux en termes de stockage si les données sources sont volumineuses.
• Il n'est pas adapté aux données en temps réel car il est difficile d'exécuter ce processus fréquemment
sans surcharger la cible.
Stratégie de chargement
• Le chargement incrémental :cette méthode consiste à charger uniquement les données modifiées ou
ajoutées depuis la dernière exécution du processus ETL.
• Avantages :
• Le chargement incrémental est plus rapide que le chargement complet car il ne traite que les
données modifiées.
• Il consomme moins de ressources et est donc moins coûteux en termes de stockage et de
temps de traitement.
• Il permet de maintenir la précision des données en évitant le chargement de données en
double ou la surcharge de la cible.
• Il convient bien aux données qui changent fréquemment.
• Inconvénients :
• Le chargement incrémental nécessite une planification précise pour déterminer les données
qui ont été modifiées depuis la dernière exécution.
• Les données manquantes ou supprimées ne sont pas chargées,ce qui peut entraîner des
incohérences dans la cible.
• Il est plus difficile à mettre en œuvre que le chargement complet.
Architecture ETL
• Il existe plusieurs types d'architecture ETL, mais voici les trois principales :
• L'architecture ETL en batch : cette architecture consiste à extraire les données de différentes
sources, à les transformer selon les règles et les contraintes définies, et à les charger dans une
cible de manière périodique, souvent une fois par jour ou par semaine.
• L'architecture ETL en temps réel : cette architecture consiste à extraire les données en temps
réel à partir de différentes sources, à les transformer et à les charger en temps réel dans une
cible. Cette architecture est souvent utilisée pour le traitement de données critiques en
temps réel,comme les données de transaction ou les données de surveillance.
• L'architecture ETL hybride : cette architecture combine les avantages des architectures ETL
en batch et en temps réel. Elle permet de traiter les données en mode batch pour les
volumes importants, tout en offrant des capacités de traitement en temps réel pour les
données critiques.
Architecture ETL classique
• L'architecture ETL classique est une architecture traditionnelle qui utilise une
infrastructure physique sur site pour stocker et traiter les données. Elle est
composée de trois étapes principales : l'extraction, la transformation et le
chargement (ETL).
• L'architecture ETL classique nécessite souvent des serveurs physiques pour
stocker et traiter les données, ce qui peut entraîner des coûts élevés de
maintenance et d'exploitation. Elle peut également nécessiter des compétences
techniques avancées pour gérer les serveurs et les logiciels ETL. Cependant, elle
offre un contrôle total sur les données et les processus ETL, ainsi qu'une
personnalisation facile du processus ETL.
Architecture ETL Cloud
• L'architecture ETL Cloud est une architecture moderne qui utilise les services
cloud pour stocker et traiter les données. Elle est basée sur les mêmes principes
que l'architecture ETL classique, mais elle offre des avantages supplémentaires tels
que la flexibilité, l'évolutivité et la facilité de gestion.
• Dans l'architecture ETL Cloud, les données sont extraites de différentes sources
telles que des applications SaaS, des bases de données cloud ou des fichiers
stockés dans le cloud. Les données sont ensuite stockées dans le cloud dans un
entrepôt de données ou une zone tampon.
• La transformation des données est effectuée en utilisant des services de
traitement distribué.Ces services sont conçus pour gérer des volumes massifs de
données et offrent des fonctionnalités avancées de transformation de données
telles que le traitement parallèle, le filtrage et la jointure.
Architecture ETL Cloud vs Classique
• Finance : Les données financières peuvent être analysées en fonction de plusieurs axes de
dimensions, tels que la période, la catégorie de dépenses, le type de revenus et la région
géographique. Les indicateurs peuvent inclure le chiffre d'affaires, les coûts, la marge
bénéficiaire, le retour sur investissement, etc.
• Marketing : Les données de marketing peuvent être analysées en fonction de plusieurs
axes de dimensions, tels que le produit, le marché, le canal de vente et le comportement
des clients. Les indicateurs peuvent inclure le taux de conversion, le coût par clic, le taux
d'ouverture des courriels, le taux de réponse aux campagnes publicitaires, etc.
• Logistique : Les données de logistique peuvent être analysées en fonction de plusieurs
axes de dimensions, tels que le fournisseur, le lieu d'expédition, le mode de transport et
la catégorie de produits. Les indicateurs peuvent inclure le taux de livraison à temps, le
coût d'expédition, le taux d'erreur de commande, le taux de retour, etc.
Cube O L A P
• L'analyse multidimensionnelle utilise un cube de données pour stocker les données
multidimensionnelles et fournit une interface utilisateur conviviale pour explorer et
analyser les données.
• Un cube OLAP (Online Analytical Processing) est une structure de données
multidimensionnelle qui permet une analyse rapide et flexible des données. Le cube
OLAP est organisé en dimensions (axes) qui permettent d'explorer les données sous
différents angles.
• Les données sont pré-agrégées en différentes combinaisons de dimensions, ce qui
permet d'obtenir des réponses immédiates aux requêtes analytiques, sans avoir à
effectuer de calculs complexes sur les données brutes,
• Les cubes OLAP sont également utilisés pour créer des rapports, des graphiques et des
tableaux de bord interactifs qui permettent aux utilisateurs de visualiser les données
sous différents angles et de découvrir des tendances et des relations cachées.
O L A P vs OLTP
Caractéristiques OLAP OLTP
But Analyse de données Traitement de transactions
Agrégées, historiques, Opérationnelles, transactionnelles,
Données
multidimensionnelles détaillées
Structure Denormalisée Normalisée
Rapide pour les transactions
Temps de réponse Rapide pour les requêtes complexes
individuelles
Utilisateurs Analystes, décideurs, planificateurs Utilisateurs opérationnels, employés
Agrégation, consolidation, drill- Ajout, mise à jour,suppression de
Opérations
down, slice and dice données
Volume de données Grand Petit à moyen
Fréquence de mise à jour Faible Haute
Analyse de ventes, rapports de Gestion de commandes, réservation
Exemples d'applications
performances,analyse de marché de vols, transactions bancaire
MOLAP
Définition
MOLAP stocke les données sous forme de cubes multidimensionnels dans un serveur OLAP dédié.
Toutes les données et leurs agrégats sont pré-calculés et stockés pour accélérer l’accès aux
informations.
Stockage
• Les données sont stockées dans une base multidimensionnelle et non dans une base relationnelle
classique.
• Les agrégations sont calculées à l’avance, ce qui améliore la vitesse d’exécution des requêtes.
Avantages
• Très rapide pour l’analyse, car les données sont déjà préparées.
• Optimisé pour les requêtes complexes et répétitives.
• Bonne compression des données.
Inconvénients
• Temps de mise à jour long : il faut recalculer le cube en cas de modification des données.
• Moins flexible si les analyses changent souvent.
• Problèmes de scalabilité pour les très gros volumes de données.
ROLAP
Stockage
• Les données restent sous forme de tables relationnelles (modèle en étoile ou flocon).
• Les calculs sont effectués au moment de la requête via SQL.
Rôle du Moteur ROLAP
• Le moteur ROLAP est responsable de l’exécution des requêtes analytiques.
• Il traduit les requêtes multidimensionnelles OLAP en requêtes SQL relationnelles.
• Il utilise des index, des vues matérialisées et des techniques d'optimisation pour accélérer le
traitement des agrégats.
• Il fonctionne avec un serveur de base de données relationnelle qui exécute les calculs sur les
données stockées.
Avantages
• Pas de limite sur la quantité de données, car repose sur des bases relationnelles.
• Plus flexible : permet des analyses dynamiques sans avoir besoin de recalculer un cube.
Inconvénients
• Plus lent que MOLAP, car les calculs sont faits en temps réel.
• Les requêtes SQL complexes peuvent être gourmandes en ressources.
HOLAP
HOLAP est une combinaison de MOLAP et ROLAP, qui stocke certaines données sous forme de cubes
MOLAP (pré-agrégées) et d’autres dans des bases relationnelles ROLAP.
Stockage
• Les données détaillées restent en base relationnelle (ROLAP).
• Les agrégats sont stockés sous forme de cubes MOLAP, ce qui permet d’accélérer les requêtes les
plus fréquentes.
Avantages
• Bonne performance grâce aux pré-agrégations.
• Évolutif car les données brutes restent en base relationnelle.
• Moins de stockage nécessaire que MOLAP seul.
Inconvénients
• Plus complexe à gérer que MOLAP ou ROLAP seuls.
• Peut être difficile à optimiser selon les types de requêtes.
Opérations sur les cubes
• Les outils de reporting statique : permettent de créer des rapports qui sont pré-
conçus et qui ne peuvent pas être modifiés en temps réel. Les rapports sont
généralement basés sur des données provenant de bases de données
relationnelles ou d'entrepôts de données. Exemples d'outils de reporting statique
:Crystal Reports, Oracle Reports, SSRS (SQL Server Reporting Services).
• Les outils de reporting dynamique : permettent aux utilisateurs de créer des
rapports interactifs qui peuvent être modifiés en temps réel. Les utilisateurs
peuvent également interagir avec les données en filtrant, triant ou en explorant
les données à l'aide de tableaux de bord interactifs. Exemples d'outils de
reporting dynamique :Power BI,Tableau, QlikView.
Reporting :les types de graphiques
Reporting :Solutions sur le marché
Datamining
Le Data Mining, ou fouille de données, est une technique d’analyse qui permet de
découvrir des relations, des modèles et des tendances cachées dans de grands
ensembles de données.
🔹 Objectifs du Data Mining :
• Explorer les données à l’aide de techniques statistiques et d’algorithmes
d’apprentissage automatique.
• Identifier des relations cachées et extraire des informations utiles.
• Utilisé dans des domaines comme le marketing, la finance, la santé et la recherche
scientifique.
• Aider à prendre des décisions éclairées et réaliser des analyses prédictives basées
sur des données historiques.
Les techniques du Data Mining
• Les techniques de classification : sont utilisées pour classer des données dans des
catégories prédéfinies. Elles reposent sur des algorithmes qui permettent de
construire un modèle de classification à partir d'un ensemble de données
d'entraînement. Ce modèle est ensuite utilisé pour prédire la classe
d'appartenance d'un nouvel ensemble de données.
Exemples de classification :
Reconnaissance de spam → Un e-mail est classé comme spam ou non spam.
Diagnostic médical → Un patient est classé en malade ou non malade en
fonction de ses symptômes.
Prédiction de churn client → Déterminer si un client va quitter une entreprise
ou non.
Les techniques du Data Mining
• Les techniques de régression : sont utilisées pour modéliser la relation entre une
variable dépendante et une ou plusieurs variables indépendantes. Elles permettent
de prédire la valeur d'une variable dépendante en fonction des valeurs des
variables indépendantes. Les techniques de régression sont utilisées dans de
nombreuses applications, telles que la prévision de ventes, la prédiction de prix
ou encore la modélisation de la demande.
Les techniques du Data Mining
• Les techniques d'association: sont utilisées pour découvrir des relations entre des
éléments dans un ensemble de données. Elles permettent de trouver des règles
d'association entre des items, c'est-à-dire des associations entre des produits
souvent achetés ensemble ou des symptômes souvent associés dans des maladies.
Les techniques d'association sont utilisées dans de nombreuses applications, telles
que la recommandation de produits ou de services,
Datamining :La méthode CRISP-D M
• La méthode CRISP-D M (Cross Industry Standard Process for Data Mining) est un
processus standard utilisé pour guider les projets de data mining ou d'analyse de
données. Cette méthode est très populaire dans le domaine de la science des
données et est utilisée par de nombreuses entreprises et organisations à travers
le monde.
Datamining :La méthode CRISP-D M
• Compréhension du problème : cette étape consiste à définir le problème à résoudre et les objectifs
du projet. Il s'agit également de déterminer les données disponibles pour résoudre le problème.
• Collecte des données : cette étape consiste à collecter les données nécessaires pour résoudre le
problème. Les données peuvent provenir de diverses sources telles que des bases de données, des
fichiers plats,des flux de données en temps réel,etc.
• Préparation des données : cette étape consiste à nettoyer, transformer et structurer les données pour
qu'elles soient prêtes à être analysées. Cela peut inclure l'élimination des données manquantes, la
normalisation des données, la création de nouvelles variables et la sélection des variables les plus
pertinentes.
• Modélisation : cette étape consiste à construire un modèle statistique ou d'apprentissage automatique
pour résoudre le problème. Cela peut impliquer l'utilisation de techniques telles que la régression, la
classification,la segmentation,la prédiction,etc.
• Évaluation : cette étape consiste à évaluer la qualité du modèle en utilisant des métriques de
performance telles que la précision, le rappel, etc. Le modèle peut être ajusté en fonction des résultats
de cette étape.
• Déploiement : cette étape consiste à mettre en œuvre le modèle dans un environnement de
production afin qu'il puisse être utilisé pour résoudre le problème