Data Mining
Bienvenue dans le cours
Introduction
Bienvenue dans ce cours dédié au data mining avec R ! Au fil des séances, vous apprendrez à
extraire des motifs significatifs et des informations utiles à partir de jeux de données complexes.
Le data mining se situe à l’intersection de la data visualization, de l’Exploratory Data Analysis
(EDA), du supervised learning et du unsupervised learning. À la fin de ce cours, vous aurez une
compréhension solide des concepts clés du data mining et serez en mesure de les mettre en
œuvre dans R.
1. Introduction et Motivation
Qu’est-ce que le Data Mining ?
Le data mining consiste à découvrir des modèles, des tendances et des relations cachées dans de
grands jeux de données. Tout comme l’extraction de minerais précieux nécessite de creuser la
roche, le data mining implique de fouiller d’immenses quantités d’informations pour en tirer des
insights exploitables. Alors que la data visualization et la manipulation de données servent
principalement à décrire vos données, le data mining va plus loin en révélant des motifs non
immédiatement visibles.
Le data mining mobilise différentes disciplines, notamment :
• Data Visualization : Représenter les données graphiquement pour faire ressortir
tendances, anomalies et relations.
• Exploratory Data Analysis (EDA) : Explorer et résumer les jeux de données afin
d’identifier des modèles ou anomalies.
• Supervised Learning : Exploiter des données étiquetées pour construire des modèles
prédictifs (ex. classification, régression).
• Unsupervised Learning : Découvrir des structures cachées dans des données non
étiquetées (ex. clustering).
Pourquoi le Data Mining est-il important ?
Le data mining est essentiel dans de nombreux secteurs :
1. Prise de décision en entreprise
Les entreprises utilisent le data mining pour soutenir leurs décisions stratégiques. Par
exemple, l’analyse des historiques de ventes aide à prévoir la demande, à ajuster les
stocks et à optimiser l’agencement des produits.
2. Innovation dans le secteur de la santé
Dans le domaine de la santé, le data mining aide à identifier les facteurs de risque, à
prédire les résultats cliniques et à adapter les traitements aux besoins individuels. Par
exemple, repérer des schémas dans les données patients peut révéler des indicateurs
précoces de maladies comme le diabète ou les affections cardiaques.
3. Analyse des performances étudiantes
Les établissements d’enseignement utilisent le data mining pour étudier les données de
performance des étudiants. En examinant la fréquentation, les notes et la participation, ils
peuvent identifier rapidement les étudiants à risque et intervenir en amont pour améliorer
leurs résultats.
4. Détection de la fraude
Les techniques de data mining sont cruciales pour repérer les activités frauduleuses dans
la finance, l’assurance ou le commerce en ligne. Détecter des comportements d’achat
inhabituels ou des transactions suspectes aide à limiter les risques.
5. Recherche scientifique
Les chercheurs appliquent le data mining à des jeux de données de grande envergure, par
exemple en génomique, astrophysique ou climatologie. L’analyse de données génétiques
peut ainsi isoler des variants liés à certaines maladies.
6. Politiques publiques et gouvernance
Les gouvernements et les ONG analysent les données de recensements, les indicateurs
économiques et les statistiques sanitaires pour comprendre les tendances, allouer les
ressources efficacement et élaborer des politiques basées sur l’évidence.
Exemples Motivants
1. Market Basket Analysis
Les détaillants utilisent le data mining pour détecter des associations entre produits. Si le
pain et le beurre sont fréquemment achetés ensemble, les placer à proximité peut
augmenter les ventes.
2. Fraud Detection
Les banques et les plateformes e-commerce analysent des millions de transactions pour
repérer des anomalies. Un achat important à l’étranger sur une carte rarement utilisée à
l’international peut indiquer une fraude. Des transactions rapides et géographiquement
dispersées, des achats nocturnes inhabituels ou un changement soudain de comportement
d’achat sont autant d’indices à surveiller.
3. Prédiction du Churn
Les grossistes peuvent analyser l’historique de commandes pour prévoir quels clients
pourraient réduire leurs volumes d’achat ou cesser complètement de commander.
Identifier une baisse de fréquence des commandes ou des retards de paiement permet
d’agir proactivement et de fidéliser la clientèle.
4. Social Media Sentiment Analysis
Les entreprises surveillent les réseaux sociaux pour évaluer l’opinion publique. Grâce aux
techniques de sentiment analysis, elles peuvent classer les commentaires en positifs,
négatifs ou neutres, identifier des tendances émergentes et ajuster leur stratégie pour
maintenir une bonne réputation et accroître la satisfaction client.
5. Prédiction du Risque en Santé
Les hôpitaux analysent les données patients afin d’identifier les groupes plus exposés à
certains risques. Par exemple, combiner la tension artérielle, le taux de cholestérol et
l’âge peut révéler des profils à risque de maladies cardiaques, permettant d’intervenir
plus tôt.
6. Analyse des Flux de Trafic
Les urbanistes exploitent les données GPS et les relevés de trafic pour comprendre les
heures de pointe, les points de congestion et le comportement des usagers. Ces
informations aident à concevoir des infrastructures plus efficaces, à optimiser les feux
tricolores et à améliorer globalement la circulation.
7. Text Mining pour le Support Client
Les entreprises examinent les échanges de support client (chats, e-mails) afin d’identifier
des problèmes récurrents. Repérer des mots-clés fréquents liés à un défaut produit ou
analyser la tonalité globale grâce au sentiment analysis permet de prioriser les
améliorations et d’augmenter la satisfaction client.
Résultats d’Apprentissage du Cours
À la fin de ce cours, vous serez en mesure de :
• Comprendre les concepts fondamentaux et les défis du data mining.
• Appliquer des techniques de prétraitement pour nettoyer, structurer et transformer des
données brutes.
• Maîtriser les bases du clustering, de la détection d’anomalies, du text mining et des
systèmes de recommandation.
• Utiliser R pour mener une analyse exploratoire des données et construire des modèles de
data mining de base.
2. Introduction aux Concepts du Data Mining
Le Processus de Data Mining : Le Cadre CRISP-DM
Le cadre CRISP-DM (Cross Industry Standard Process for Data Mining), mis en place en
1996 par un consortium incluant Daimler-Benz et NCR, propose une méthode structurée et
indépendante du domaine pour mener à bien des projets de data mining. En suivant CRISP-DM,
les équipes peuvent planifier, exécuter et évaluer leurs projets de façon systématique.
Les phases de CRISP-DM :
1. Business Understanding
o Définir le problème, les objectifs et les critères de réussite.
o Exemple : Un détaillant souhaite fidéliser sa clientèle en identifiant les
caractéristiques des clients réguliers (fréquence d’achat, catégories de produits
préférées, panier moyen) afin de mettre en place des programmes de fidélité et des
promotions ciblées.
2. Data Understanding
o Recueillir, décrire et explorer les données.
o La qualité des données est cruciale. Par exemple, examiner l’historique des achats
clients peut révéler des champs manquants, des doublons ou des formats de date
incohérents. Corriger ces problèmes garantit une analyse fiable.
3. Data Preparation
o Nettoyer, transformer et intégrer les données pour le modeling.
o Exemple : Regrouper les âges des clients en classes (18–25, 26–35) ou
uniformiser les descriptions de produits.
4. Modeling
o Appliquer des techniques de data mining appropriées (ex. clustering,
classification).
o Exemple : Segmenter les clients selon la fréquence et la valeur de leurs achats
pour identifier des groupes tels que « chasseurs de bonnes affaires » ou «
acheteurs premium réguliers ». Ces segments éclairent les stratégies marketing
ciblées.
5. Evaluation
o Évaluer les modèles quant à leur précision, leur pertinence et leur utilité pratique.
o Exemple : Évaluer un modèle de prédiction de churn avec des mesures comme la
précision, le rappel ou la matrice de confusion pour s’assurer qu’il identifie
efficacement les clients à risque.
6. Deployment
o Mettre en œuvre le modèle et intégrer ses insights dans la prise de décision.
o Exemple : Exploiter le modèle de churn pour envoyer automatiquement des offres
personnalisées aux clients susceptibles de partir.
Types de Tâches en Data Mining
Les tâches de data mining se répartissent généralement en deux grandes catégories :
1. Predictive Tasks
o Classification : Attribuer des instances à des catégories prédéfinies (ex. classer
les e-mails en « spam » ou « non-spam »).
o Regression : Prédire des valeurs continues (ex. prévoir le chiffre d’affaires du
prochain trimestre).
2. Descriptive Tasks
o Clustering : Regrouper des éléments similaires en ensembles cohérents (ex.
segmenter la clientèle par comportement d’achat).
o Association Rules : Identifier des relations entre produits (ex. « clients achetant
du pain achètent souvent aussi du beurre »).
3. Text Mining
o Extraire des informations utiles de données textuelles non structurées.
o Applications :
▪ Sentiment Analysis : Déterminer si des commentaires ou des avis sont
positifs, négatifs ou neutres.
▪ Topic Modeling : Découvrir automatiquement les thèmes dominants dans
un corpus de documents.
▪ Spam Filtering : Distinguer les courriels indésirables des e-mails
légitimes.
Défis du Data Mining
1. Qualité des Données
o Les valeurs manquantes, les enregistrements incohérents ou le bruit peuvent
fausser les résultats.
o Exemple : Un jeu de données avec de nombreuses valeurs manquantes dans la
colonne « revenu » peut biaiser les analyses et mener à de mauvaises conclusions.
2. Échelle des Données
o Gérer et analyser d’immenses jeux de données nécessite des algorithmes
efficaces, voire un environnement distribué.
o Exemple : Les données issues de capteurs IoT en temps réel exigent un traitement
rapide et évolutif.
3. Interprétabilité
o Certains modèles, tels que les neural networks, sont difficiles à interpréter, ce qui
peut freiner leur adoption.
o Les décideurs ont souvent besoin d’explications claires sur les résultats des
modèles pour prendre des décisions éclairées.
4. Considérations Éthiques
o Le data mining doit respecter la vie privée et être conforme aux principes
d’équité.
o Exemple : Inférer des attributs personnels sensibles ou cibler certains individus
sur la base de caractéristiques délicates peut soulever des questions éthiques et
légales. De même, un modèle de recrutement qui favorise injustement certains
groupes compromet l’équité.