Maher JAOUADI
Septembre 2024
Définition du Data Mining
Pourquoi le Data Mining ?
Description du processus KDD (Knowledge
Data Discovery)
Applications
Tâches du Data Mining
Techniques utilisées
Processus inductif, itératif et interactif de
découverte dans les BD larges de modèles de
données valides, nouveaux, utiles et
compréhensibles.
◦ Itératif : nécessite plusieurs passes
◦ Interactif : l’utilisateur est dans la boucle du processus
◦ Valides : valables dans le futur
◦ Nouveaux : non prévisibles
◦ Utiles : permettent à l’utilisateur de prendre des
décisions
◦ Compréhensibles : présentation simple
Opération mentale qui consiste à remonter
des faits à la loi, de cas particuliers à une
proposition plus générale (opposé
à déduction).
Raisonnement par induction.
Synonymes : généralisation
Induction : Généralisation d’une observation
ou d’un raisonnement établis à partir de cas
singuliers.
Utilisée en Data mining : tirer une conclusion
à partir d ’une série de faits. (pas sûr à 100%)
La clio a 4 roues, La Peugeot 106 a 4 roues,
La BMW M3 a 4 roues, La Mercedes 190 a 4
roues
==> Toutes les voitures ont 4 roues
Déduction : Raisonnement qui conclut à partir
de prémisses et d’hypothèses à la vérité
d’une proposition en usant des règles
d’inférence.
Toutes les voitures ont 4 roues
La Peugeot 206 est une voiture
==> La Peugeot 206 a 4 roues
Explosion des données
Masse importante de données (millions de milliards
d’instances) : elle double tous les 20 mois.
BD très larges - Very Large Databases (VLDB)
Données multi-dimensionnelles (milliers d’attributs)
BD denses inexploitables par les méthodes d’analyse
classiques
Collecte de masses importantes de données
(Gbytes/heure)
◦ Données satellitaires, génomiques (micro-arrays, …),
simulations scientifiques, etc.
Besoin de traitement en temps réel de ces données
Améliorer la productivité
◦ Forte pression due à la concurrence du marché
◦ Brièveté du cycle de vie des produits
◦ Besoin de prendre des décisions stratégiques
efficaces
Exploiter le vécu (données historiques) pour prédire le
futur et anticiper le marché
individualisation d es consommateurs
(démassification).
Croissance en puissance/coût des machines
capables de supporter de gros volumes de
données d’exécuter le processus intensif
d’exploration hétérogénéité des supports de
stockage
Masses importantes de données – supports hétérogènes
Data Mining : cœur de KDD
(Knowledge Data Discovery)
Comprendre l’application
- Connaissances a priori, objectifs, etc.
Sélectionner un échantillon de données
- Choisir une méthode d’échantillonnage
Nettoyage et transformation des données
- Supprimer le «bruit» : données superflues,
marginales, données manquantes, etc.
- Effectuer une sélection d’attributs, réduire la
dimension du problème, etc.
Appliquer les techniques de fouille de données
- Choisir le bon algorithme
Visualiser, évaluer et interpréter les modèles
découverts
- Analyser la connaissance (intérêt)
- Vérifier sa validité (sur le reste de la base de
données)
- Réitérer le processus si nécessaire
Gérer la connaissance découverte
- La mettre à la disposition des décideurs
- L’échanger avec d’autres applications
(système expert, …) etc.
Développer des techniques et systèmes
efficaces et extensibles pour l’exploration de
:
- BD larges et multi-dimensionnelles
- Données distribuées
Faciliter l’utilisation des systèmes de DM
- Limiter l’intervention de l’utilisateur
- Représentation simple de la connaissance
- Visualisation sous forme exploitable
Intelligence artificielle et apprentissage
Bases de données
Analyse de données (statistiques)
Visualisation
Recherche opérationnelle et optimisation
Informatique parallèle et distribuée
Etc.
Prise de décision
basée sur de
nouvelles
connaissances
Ex., impact sur le
marketing
Le rôle et
l’importance du
KDD et DM est de
plus en plus
important
Mais le DM n’est
pas seulement dans
le marketing...
Marketing direct : population à cibler (âge, sexe,
profession, habitation, région, …) pour un
publipostage.
Gestion et analyse des marchés : Ex. Grande
distribution : profils des consommateurs, modèle
d’achat, effet des périodes de solde ou de
publicité,
« panier de la ménagère »
Détection de fraudes : Télécommunications, ...
Gestion de stocks : quand commander un
produit, quelle quantité demander, …
Analyse financière : maximiser l’investissement
de portefeuilles d’actions.
Gestion et analyse de risque : Assurances,
Banques (crédit accordé ou non)
- Compagnies aériennes
Bioinformatique et Génome : ADN mining, …
Médecine et pharmacie :
- Diagnostic : découvrir d ’après les
symptomes du patient sa maladie
- Choix du médicament le plus approprié
pour guérir une maladie donné
Web mining, text mining, etc.
Vous êtes gestionnaire marketing d’un
opérateur de télécommunications mobiles :
◦ Les clients reçoivent un téléphone gratuit (valeur
150€) avec un contrat d’un an ; vous payer une
commission de vente de 250€ par contrat
◦ Problème : Taux de renouvellement (à la fin du
contrat) est de 25%
◦ Donner un nouveau téléphone à toute personne
ayant expirer son contrat coûte cher.
◦ Faire revenir un client après avoir quitter est
difficile et coûteux.
Trois mois avant
l’expiration du
contrat, prédire
les clients qui
vont quitter :
Si vous voulez les
garder, offrir un
nouveau
téléphone.
Vous êtes un agent et vous devez définir un paiement
mensuel adapté à un jeune de 18 ans qui a acheté
une Ferrari.
Qu’est ce qu’il faut faire ?
Analyser les données de tous les clients de la
compagnie.
La probabilité d’avoir un accident est basée sur :
- Sexe du client (M/F) et l’
- âge Modèle de la voiture,
- âge du conducteur,
- adresse, .... etc.
Si la probabilité d’avoir un accident est supérieure à
la moyenne, initialiser la mensualité suivant les
risques .
Vous êtes à l’étranger et quelqu’un a volé
votre carte de crédir ou votre mobile …
compagnies bancaires …
◦ Utiliser les données historiques pour construire un
modèle de comportement frauduleux et utiliser le
data mining pour identifier des instances similaires.
compagnies téléphoniques …
◦ Analyser les “patterns” qui dérivent du
comportement attendu (destinataire, durée, etc.)
Les logs des accés Web sont analysés pour …
◦ Découvrir les préférences des utilisateurs
◦ Améliorer l’organisation du site Web
De manière similaire …
◦ L’analyse de tous les types d’informations sur les
logs
◦ Adaptation de l’interface utilisateur/service
Valeurs des champs des enregistrements des
tables de l’entropot (base de données)
Types :
- Données discrètes : données binaires (sexe, …),
données énumératives (couleur, …),
énumératives ordonnées (réponses 1:très
satisfait, 2:satisfait, …).
- Données continues : données entières ou
réelles (âge, salaire, …)
- Dates
- Données textuelles
- Pages/liens web, Multimédia, …
Classification
Clustering (Segmentation)
Recherche d’associations
Recherche de séquences
Détection de déviation
Elle permet de prédire si une instance de donnée est
membre d’un groupe ou d’une classe prédéfinie.
Classes
- Groupes d’instances avec des profils particuliers
- Apprentissage supervisé : classes connues à
l’avance
- Applications : marketing direct (profils des
consommateurs), grande distribution (classement des
clients), médecine (malades/non malades), etc.
- Exemple : les acheteurs de voitures de sport sont
de jeunes citadins ayant un revenu important
Partitionnement logique de la base de
données en clusters
◦ Clusters : groupes d’instances ayant les mêmes
caractéristiques
◦ Apprentissage non supervisé (classes inconnues)
◦ Pb : interprétation des clusters identifiés
◦ Applications : Economie (segmentation de
marchés), médecine (localisation de tumeurs dans
le cerveau), etc.
Corrélations (ou relations) entre attributs
(méthode non supervisée)
Applications : grande distribution, gestion
des stocks, web (pages visitées), etc.
Exemple
◦ BD commerciale : panier de la ménagère
◦ Articles figurant dans le même ticket de caisse
◦ Ex : achat de lait + café ==> achat de sucre.
Recherche de séquences
Liaisons entre événements sur une période de temps
Extension des règles d’association
◦ Prise en compte du temps (série temporelle)
◦ Achat Télévision ==> Achat Magnétoscope d’ici 5 ans
Applications : marketing direct (anticipation des
commandes), bioinformatique (séquences d’ADN), bourse
(prédiction des valeurs des actions)
Exemple
BD commerciale (ventes par correspondance)
Commandes de clients
Ex : 60% des consommateurs qui commandent la bière
«Mort subite» commandent de l’aspro juste après
Séquences d’ADN : ACGTC est suivie par GTCA après un
gap de 9, avec une probabilité de 30%.
Instances ayant des caractéristiques les plus
différentes des autres
◦ Basée sur la notion de distance entre instances
◦ Expression du problème
Temporelle : évolution des instances ?
Spatiale : caractéristique d’un cluster d’instances ?
Applications
◦ Détection de fraudes (transactions avec une carte
bancaire inhabituelle en telemarketing)
Caractéristiques
◦ Problème d’interprétation : bruit ou exception (donc
connaissance intéressante)
K-moyennes, A-priori, K-NN
Réseaux de neurones
Algorithmes génétiques
Chaînes de Markov cachées
Arbres de décision
Réseaux bayesiens
Soft computing : ensembles flous
…