Data Mining
Introduction aux techniques DataMining
Type des données & Prétraitement
Processus Data mining
Table of Contents
1 Introduction
2 KDD: Knowledge Discovery in Databases
3 Data Mining
4 Type de techniques de Data Mining
5 Types de données
6 Processus Data Mining
7 Prétraitement des données
8 Mesures d’évaluation
Introduction
Data Mining
- Technique d’analyse de données qui consiste à analyser de
grandes quantités de données pour y déceler des tendances
- But : repérer des corrélations ou des schémas au sein d’une
masse de données brutes
- Permet d’observer des liens entre des phénomènes apparemment
distincts et mettre ces conclusions au service d’une stratégie.
Utilisation
Le Data Mining est aujourd’hui appliqué dans une grande variété
de secteurs d’activité :
Recherche scientifique
Marketing
Education
Finance
Santé
...
- Permet d’analyser une grande quantité d’informations et de
résoudre des problèmes avec une rapidité spectaculaire (lié par
définition au Big Data).
- Formuler des prédictions et ajuster des stratégie future
Exemples
Exemple 1 : Lutte contre la fraude fiscale
- L’administration fiscale française utilise le Data Mining depuis
2014 pour l’aider dans sa traque des fraudeurs du fisc.
L’expérience a permis d’augmenter sa collecte d’impôts. Sur les
trois premiers trimestres de 2019, l’État avait enregistré 40% de
hausse par rapport à la somme collectée à la même date l’année
d’avant.
- Pour parvenir à ce résultat, l’administration fiscale a mis en
place un système de croisement des données des particuliers et des
professionnels. Le traitement automatisé et le recoupement de
données collectées auprès des contribuables ont permis de déceler
des fraudes passées inaperçues.
*Finances, Bourses, Assurances, Crédits
A.Lyazidi (
[email protected]) DataMining 5 / 91
Exemple 2 : Les performances sportives
- Certaines équipes (Football, Basketball, ...) utilisent le Data
Mining pour améliorer le jeu de leurs joueurs. Les mouvements
des joueurs et les éléments du match sont enregistrés grâce à des
systèmes de suivi vidéo.
- Les analystes des équipes collectent et analysent une très grosse
quantité de données : les résultats antérieurs, les forces et les
faiblesses des équipes, les mouvements des joueurs, le déroulement
des matchs, ... Et grâce aux techniques de Data Mining, ces
mégadonnées livrent des conclusions sur les performances des
joueurs et des pronostics pour les matchs futurs.
*Paris Spostifs
Exemple 3 : Les super-marchés
- Les super-marchés et distributeurs utilisent le Data Mining pour
répondre aux attentes des clients. L’outil permet d’analyser
(parfois en temps réel) des mégadonnées pour avoir un rapide
aperçu des requêtes des clients.
Par exemple, grâce au Data Mining, ils parvienent à identifier les
heures, jours et mois de pointe. Ces informations permettent
d’optimiser le temps de travail des employés et la composition des
équipes, les livraisons, les shifts, ...
Les résultats permettent d’optimiser le fonctionnement et de
personnaliser l’expérience client : Répartition des rayons et
caisses, approvisionnement, assortiment des produits,
combinaisons, ...
*Marketing, Logistique
A.Lyazidi ([email protected]) DataMining 7 / 91
Exemple détaillé : Demande de crédit bancaire immo.
- Critères de bases :
Célibataire ou marié ?
Salarié, étudiant, commerçant, retraité ?
Intervalle de salaire, d’age
Propriétés acquises
Historique de comptes, de comportements financiers, ...
Homme (30), marié, salarié (7 ans), 2 enfants, propriétaire d’une
voiture, compte stable depuis les 5 dernières années, ...
Homme (45), divorcé, salarié (20 ans), 4 enfants à charge, aucune
propriété, compte toujours à découvert durant les 5 dernières
années, ...
Exemple détaillé : Stock de produits
- Cout d’achat
- Cout de stockage
- Possible arret d’activité/Retour des produits sans gains
- ...
Marketing : Liquidation, Promotion, Combinaisons, ...
Exemple détaillé : Elements de réseaux sociaux
- Cout de développement
- Cout de stockage des données (serveurs)
- Cout de maintenance et mises à jour
- ...
Satisfaction utilisateur (fidélisation → consommation) :
- Marketing ciblé (utilisateurs et créateurs)
- Optimisation d’utilisation
KDD: Knowledge Discovery in Databases
KDD : Knowledge Discovery in Databases
KDD = Extraction de Connaissances à partir des Données
Processus (semi)-automatique d’extraction de connaissances à
partir de bases de données où les connaissances sont :
valides
non connues a priori
potentiellement utiles
KDD: Knowledge Discovery in Databases
KDD: Knowledge Discovery in Databases
Motivations (1)
Explosion des données
- Masse importante de données (millions de milliards
d’instances) : quantité qui double tous les 20 mois → BDDs très
larges.
- Données multi-dimensionnelles (milliers d’attributs) : BDDs
denses non exploitables par les méthodes d’analyse classiques.
- Collecte de masses importantes de données (rythme de
Gbytes/heure)
- Besoin de traitement en temps réel de ces données pour un
meilleur rendement
Motivations (2)
Améliorer la productivité
- Forte pression due à la concurrence du marché
- Brièveté du cycle de vie des produits
- Besoin de prendre des décisions stratégiques efficaces :
Exploiter le vécu (données historiques) pour prédire le futur et
anticiper le marché
Motivations (3)
Croissance en coût
- Croissance en puissance/coût des machines capables :
de supporter de gros volumes de données
d’exécuter le processus intensif d’exploration
Motivations (4)
Supports hétérogènes
- Diversification des appareils intélligents et connectés utilisés
- Collecte de toute sorte de données, avec toute forme possible
Data Mining
Définition
Un processus permettant l’extraction de connaissances et
découverte de règle, relations, corrélations et/ou dépendances
sous la forme de modèles à partir de grandes masses de données
Modèles
Ces modèles peuvent être de nature :
Descriptive : permettant d’expliquer le comportement
actuel des données
Prédictive : comportement futur des données
Data Mining
Data Science : vocabulaire associé
- Reconnaissance des formes (pattern recognition)
- Apprentissage automatique (machine learning)
- Intelligence artificielle
- Fouille de données (data mining)
- Statistiques
Liaison avec des domaines différents, avec des intersections plus
ou moins grandes
Data Mining
La rencontre de plusieurs disciplines
- BDDs : Règles d’associations, ...
- Statistique : Régression, Maximum de vraisemblance, ...
- ML, DL & IA : Analyse discriminante, Apprentissage, Réseau de
neurone, ...
Data Mining : Positionnement
Data Mining vs Big data
Data Mining Big Data
Relation vs Volume travaille sur la relation entre se concentre sur un très grand vol-
les données ume de données non structurées
technique vs Concept une méthode scientifique un concept (voir un environ-
d’extraction nement)
Typologie de données des données structurées travaille sur des données com-
plexes et non structurées
Décision vs Prédiction un outil d’aide à la décision analyse de macro-statistiques
précis sur une question qui permettent d’établir des
prédictions basées sur un grand
volume de données
Data Mining vs BI
Data Mining BI
Volume Utiliser des ensembles de données Utilisation de grands ensembles de
de plus petite taille données pour trouver des informa-
tions
Style Utilise l’intelligence de calcul et Utilise le suivi des métriques pour
des algorithmes pour découvrir des obtenir des informations
modèles utiles
Résultat Donne des réponses à des questions Fournit des informations qui peu-
particulières vent aider à la prise de décision
Data Mining : Exemple d’application
Problématique
Un éditeur vend 5 sortes de magazines : sport, voiture, maison,
musique, cinéma.
Objectif
Il veut étudier ses clients pour découvrir de nouveaux marchés ou
vendre plus à ses clients habituels.
Data Mining : Exemple d’application
Questions prédictives
1) Combien de personnes ont pris un abonnement à une magazine
de cinéma cette année ?
2) A-t-on vendu plus d’abonnement de magazines de sport cette
année que l’année dernière ?
3) Est-ce que les acheteurs de magazines de musique sont aussi
amateurs de cinéma ?
4) Quelles sont les caractéristiques principales des lecteurs de
magazine de cinéma ?
5) Peut-on prévoir les pertes de client et prévoir des mesures pour
les diminuer ?
A.Lyazidi (
[email protected]) DataMining 25 / 91
Data Mining : Exemple d’application
Question Solution
Q1 Requête SQL à partir des données opérationnelles suf-
fit (les tables concernées suffisamment indexées)
Q2 Nécessite de garder toutes les dates de souscription,
même pour les abonnements résiliés: Requêtes multi-
dimensionnelles de type OLAP
Q3 - Exemple simplifié de problème où l’on demande si les
données vérifient une règle.
- Réponse formulée par une valeur estimant la proba-
bilité que la règle soit vraie.
- Utilisation d’outils statistiques/probabilités.
*Q4 *Question ouverte : il s’agit de trouver une règle et
non plus de la vérifier ou de l’utiliser
*Q5 *Question ouverte : il faut disposer d’indicateurs
comme durée d’abonnement, délai de paiement, ...
A.Lyazidi (
[email protected]) DataMining 26 / 91
Data Mining : Exemple d’application
Synthèse
→ C’est pour ce type de questions que sont mis en œuvre les
outils de fouille de données.
Il ne s’agit pas de (re)trouver une information (somme, moyenne,
nombre de fois, ...) ou de confirmer une chose qui s’est passée,
mais de trouver (potentiellement) si une action peut être faite et
avec quelle estimation de réussite.
Data Mining : Domaine d’application
- Entreprise et Relation Clients : création de profils clients,
ciblage de clients potentiels et nouveaux marchés
- Bio-informatique : analyse du génome, ADN, ...
- Médecine : diagnostic, traitement, ...
- Internet : spam, e-commerce, détection d’intrusion, Sécurité
- Gestion et analyse de risque : Assurances, Banques, Fraud
- App : Web mining, Text mining, Web scraping
Data Mining : Exemple E-commerce
Targeting
- Stocker les séquences de clicks des visiteurs, analyser les
caractéristiques des acheteurs
- Faire du ”targeting” lors de la visite d’un client potentiel
Systèmes de recommandation
Opportunité : les clients notent les produits ! Comment tirer
profit de ces données pour proposer des produits à un autre client
Solutions : technique de filtrage collaboratif pour regrouper les
clients ayant les mêmes ”goûts”.
Data Mining : Exemple E-commerce
- Classifier (Classes/kluster) : groupes d’utilisateurs (visiteur ou
profil) avec les mêmes qualités, comportement, envies, idées, ...
- Suivre et mettre à jour cette classification régulièrement.
- Création de pattern pré-définis pour considérer chaque
utilisateur selon un chemin/une possibilité (Arbre de décision)
Data Mining : Exemple Commerce
Différent Targeting
Différents filtres
Différents critères
Différentes opportunités
Même solution/technique
Data Mining : Divers Exemples
- Plateforme de réseaux sociaux :
Text Mining : Traitement de commentaires
Profile Mining : Suggestion de personnes/pages
Behavior Mining : Injéction de contenu
...
- Plateforme de vidéos :
Behavior & Profile Mining : Suggestion de vidéos/films/séries
Data Mining : Type de techniques
Nettoyage et préparation des données
Etape essentielle du processus d’exploration des données.
- Les données insignifiantes et peu fiables en raison de leur qualité.
- Faire confiance aux données, aux résultats de leurs analyses et à
l’action qui découle de ces résultats.
Les données brutes → nettoyées et formatées → exploitables dans
différentes méthodes d’analyse.
*Etapes de modélisation des données, de transformation, de migration
des données, d’ETL et ELT, d’intégration des données et d’agrégation.
C’est une étape nécessaire pour comprendre les caractéristiques et les
attributs de base des données afin de déterminer leur meilleur usage.
Data Mining : Type de techniques
Classification
- Les techniques d’exploration de données à des fins de
classification impliquent l’analyse de divers attributs associés à
différents types de données.
- Une fois que les entreprises ont identifié les principales
caractéristiques de ces types de données, elles peuvent les classer
ou les catégoriser en fonction.
→ Définir des classes de sorties précises
Data Mining : Type de techniques
Association
- L’association est une technique d’exploration de données liée
aux statistiques. Elle permet d’indiquer lorsque certaines données
(ou évènements identifiés dans les données) sont liées à d’autres
données ou évènements data-driven.
- Elle est similaire au concept statistique de corrélation. Cela
signifie que l’analyse des données indique qu’il existe une relation
(forte ou faible) entre deux évènements.
Exemples :
Commande de burgers s’accompagne fréquemment de frites.
Visite d’une page suivi souvent d’une action précise
...
A.Lyazidi ([email protected]) DataMining 35 / 91
Data Mining : Type de techniques
Regroupement (clustering)
- Le clustering est une technique d’analytics qui repose sur des
approches visuelles pour bien appréhender les données.
- Les mécanismes de clustering utilisent des graphiques pour
montrer où se situe la distribution des données par rapport à
différents types de mesures.
- Les approches graphiques sont idéales pour l’analytics de
regroupement. Grâce aux graphiques et clustering en particulier,
les utilisateurs disposent d’un aperçu visuel pour identifier les
tendances qui sont pertinentes par rapport à leurs objectifs.
Data Mining : Type de techniques
Régression
- Les techniques de régression sont utiles pour identifier la nature
de la relation entre les variables dans un ensemble de données.
- Ces relations peuvent être causales dans certains cas, ou
simplement corrélées dans d’autres. La régression est une
technique simple de test en boı̂te blanche, qui permet de révéler
clairement comment les variables sont liées.
- Les techniques de régression sont utilisées dans certains aspects
de la prévision et de la modélisation des données.
Exemples : Ventes immo, Actions de bourses, ...
Data Mining : Type de techniques
Prédiction
- La prédiction est un aspect très puissant du data mining, qui
représente l’une des quatre branches de l’analytics. L’analytics
prédictif utilise les modèles établis grâce aux données actuelles ou
historiques pour les étendre à l’avenir.
- Il existe différentes façons d’utiliser l’analytics prédictif. Parmi
les plus avancées se trouvent le machine learning et l’intelligence
artificielle. Cependant, l’analytics prédictif ne dépend pas
nécessairement de ces techniques : il peut également être facilité
par des algorithmes plus simples.
Data Mining : Type de techniques
Arbres de décision
- Les arbres de décision sont un type spécifique de modèle prédictif qui
permet aux entreprises d’exploiter efficacement leurs données.
Techniquement, un arbre de décision fait partie du machine learning,
mais il est plus connu sous le nom de test en boı̂te blanche en raison de
sa nature extrêmement simple.
Un arbre de décision permet aux utilisateurs de comprendre clairement
comment les entrées de données affectent les sorties.
*Lorsque différents modèles d’arbres de décision sont combinés, ils
créent des modèles d’analytics prédictif connus sous le nom de random
forest. Les modèles de random forest complexes sont considérés comme
des techniques de machine learning en boı̂te noire, car il n’est pas
toujours facile de comprendre les sorties en fonction des entrées.
A.Lyazidi (
[email protected]) DataMining 39 / 91
Data Mining : Type de techniques
Techniques statistiques
- Les différents modèles d’analytics sont basés sur des concepts
statistiques, qui génèrent des valeurs digitales applicables à des
objectifs métier spécifiques. Par exemple, les réseaux de neurones
utilisent des statistiques complexes basées sur différents poids et
mesures pour déterminer si une image est un objet 1 ou un objet
2 dans les systèmes de reconnaissance d’image.
- Les modèles statistiques représentent l’une des deux branches
principales de l’intelligence artificielle. Les modèles de certaines
techniques statistiques sont statiques, tandis que d’autres
impliquant des techniques de machine learning s’améliorent avec
le temps.
Data Mining : Type de techniques
Réseaux de neurones
- Un réseau de neurones est un type spécifique de modèle de
machine learning, souvent utilisé avec l’intelligence artificielle et le
deep learning. Nommés ainsi car ils présentent différentes couches
qui ressemblent à la façon dont les neurones fonctionnent dans le
cerveau humain, les réseaux de neurones sont l’un des modèles de
machine learning les plus précis utilisés aujourd’hui.
Un outil puissant pour l’exploration de données : certains modèles
de réseaux de neurones sont incroyablement complexes. Il est
souvent difficile de comprendre comment un réseau neuronal a
déterminé un résultat donné.
Data Mining : Type de techniques
Data warehousing
- Le data warehousing est une partie importante du processus
d’exploration de données (data mining).
- Aujourd’hui, il existe des data warehouses cloud et des data
warehouses semi-structurés et non structurés comme Hadoop.
- Nombreuses approches modernes permettent de fournir une
analyse approfondie et en temps réel des données.
Data Mining : Type de techniques
Machine learning et intelligence artificielle
- Le machine learning et l’intelligence artificielle (IA) représentent
certains des développements les plus avancés en matière
d’exploration de données.
- Les formes avancées de machine learning offrent des prévisions
très précises lorsque l’on travaille avec des données à grande
échelle : vision par ordinateur, reconnaissance vocale, analyse de
texte à l’aide du traitement automatique des langues.
Ces techniques d’exploration de données sont pertinentes pour
déterminer la valeur de données semi-structurées et non
structurées.
Data Mining : Types de données
Les données peuvent être vues comme une collection d’objets
(enregistrements) et leurs attributs
- Un attribut est une propriété et ou une caractéristique de
l’objet (Exemple: température, poids, ...)
*L’attribut est également appelé caractéristique, variable, champ
- Un ensemble d’attributs décrit un objet
*L’objet est également appelé enregistrement, observation, entité
ou instance
Data Mining : Types de données
Data Mining : Types de données
Quantitative
Somme
Moyenne
Intervalles
Ratio
Qualitative
Nominale : catégorielle, expriment une qualité comme le
sexe, le métier, le nom, la catégorie, ...
Ordinale : désigne des rangs, grandeurs, classements
▶ peu, moyen, beaucoup, énormément
▶ favorable, neutre, défavorable
Data Mining : Exemple de données
Données de transaction
Data Mining : Exemple de données
Graph data
Data Mining : Exemple de données
Données de séquence génétique
Data Mining : Exemple de données
Données spatio-temporelles
Processus Data Mining
Processus Data Mining
1. Définition du problème
Quel est le but de l’analyse, que recherche-t-on ?
Quels sont les objectifs ?
Comment traduire le problème en une question pouvant servir
de sujet d’enquête pour cet outil d’analyse bien spécifique ?
→ Se souvenir que l’on travaille à partir des données existantes, la
question doit être ciblée selon les données disponibles.
Processus Data Mining
2. Collecte et prétraitement des données
Analyser que des données ”propres” et consolidées.
Supprimer de l’analyse les données de qualité douteuse.
Souvent, les données méritent d’être retravaillées.
S’assurer que la quantité de données soit suffisante pour
éviter de fausser les résultats.
→ La phase de collecte nécessite le plus grand soin
Processus Data Mining
3. Choix du modèle d’analyse
Choisir l’algorithme d’analyse convenable.
Valider le choix d’analyse sur plusieurs jeux d’essais en
variant les échantillons.
Une première évaluation peut conduire à reprendre les étapes
1 ou 2.
Processus Data Mining
3. Choix du modèle d’analyse
Modèles prédictifs : Utilisent les données existantes et des
résultats connus sur ces données pour développer des modèles
capables de prédire les valeurs d’autres données.
Exemple: Prédire les clients qui ne rembourseront pas leur
crédit.
Modèles descriptifs : Proposent des descriptions de données
pour aider à la prise de décision.
Exemple: Donner les critères des clients qui risquent de ne
pas rembourser un crédit.
Processus Data Mining
Processus Data Mining
3. Choix du modèle d’analyse : Classification
La variable décisionnelle est qualitative :
Un dossier de crédit peut être classifié : BON ou MAUVAIS
Un patient peut présenter un fort risque de maladie cardiaque
La Classification a pour objectifs :
Détecter les variables possédant un lien fort avec la variable décisionnelle
Construire un modèle de classification liant ces variables à la décision
Plusieurs méthodes et techniques pour classifier :
Arbre de décision
Forêts Aléatoires (random forest) : Composition de plusieurs Arbres de
décision
K-NN k-nearest neighbor
A.Lyazidi (
[email protected]) DataMining 57 / 91
Processus Data Mining
Processus Data Mining
Processus Data Mining
3. Choix du modèle d’analyse : Classification
Exemple d’arbre de décision
Processus Data Mining
3. Choix du modèle d’analyse : Classification
- La variable ”ensoleillement” est la première variable utilisée
(variable de segmentation).
- Sur le deuxième niveau, par exemple pour ”soleil”, on couvre 5
observations correspondant aux individus 1, 2, 3, 4, 5, la
distribution de fréquence nous indique qu’il y a 2 ”jouer = oui” et
3 ”jouer = non”
- Continuer avec un autre niveau, en faisant le calcul sur un autre
critère ”humidité”, ”température” ou ”Vent”.
Processus Data Mining
3. Choix du modèle d’analyse : Classification
Exemple de K-NN (k-nearest neighbor) : prédir si un nouveau
client achètera un téléphone de Type A ou B, en fonction de
certaines caractéristiques comme l’âge et le revenu.
Client ID Âge Revenu Type de téléphone
1 25 40k A
2 30 50k A
3 35 60k A
4 45 70k B
5 50 80k B
6 55 90k B
Processus Data Mining
3. Choix du modèle d’analyse : Classification
Étapes :
- Préparer les données : Organiser les données des clients existants.
- Calculer les distances entre le nouveau client et les clients existants à l’aide
de la distance euclidienne (exemple : Âge = 40 ans, Revenu = 65k)
- Déterminer les voisins les plus proches en fonction de ces distances : 1 -
Client 3 (7.07, Type A) 2 - Client 4 (7.07, Type B) 3 - Client 2 (18.03, Type
A) 4 - Client 5 (18.03, Type B) 5 - Client 1 (29.15, Type A) 6 - Client 6
(29.15, Type B)
- Classer le nouveau client en fonction de la majorité des voisins :
Si K = 3, on prend les 3 premiers clients les plus proches, donc le résultat
sera de 2/3 pour le type A et 1/3 pour le type B.
Processus Data Mining
3. Choix du modèle d’analyse : Classification
K-NN : A prendre en considération :
Que se passe-t-il si on choisit une autre valeur de K, par exemple
K=5?
Comment l’algorithme KNN se comporte-t-il avec des données
ayant plus de dimensions (plus de caractéristiques) ?
Comment gérer la mise à l’échelle (normalisation) des
caractéristiques lorsqu’elles ont des unités très différentes ?
Processus Data Mining
3. Choix du modèle d’analyse : Régression
La variable décisionnelle est quantitative :
Prédire les tendances salariales la prochaine année
Prédire le meilleur pourcentage de réduction de coûts
La régression a pour objectifs :
Détecter les variables possédant un lien fort avec la variable cible
Construire un modèle prédictif avec l’ensemble des variables pertinentes
afin de prédire la variable d’intérêt
Régression Linéaire :
Méthode des moindres carrés (sous forme de fonctions)
Meilleurs prédicteurs
Processus Data Mining
Processus Data Mining
3. Choix du modèle d’analyse : Régression
Exemple :
Taille (cm) Poids (kg)
150 50
160 55
170 65
180 72
190 80
- Construction d’une fonction de prédiction de poids à base de
taille (Poids=a×Taille+b)
- Prédire le poids pour une taille donnée (Exemple 175cm donne
68.5 kg)
Processus Data Mining
3. Choix du modèle d’analyse : Segmentation
Aucune variable décisionnelle
Les variables d’entrées servent à créer des groupes homogènes
Les individus de chaque groupe se ressemblent le plus
Les groupes d’appartenances obtenus se distinguent le plus
La Segmentation a pour objectifs :
Trouver les variables métiers influençant la répartition en groupes
Affecter les individus à leurs nouveaux groupes d’appartenance
Plusieurs méthodes et techniques pour segmenter :
Partionnement : k-means
Hiérarchique : CAH (Classification ascendante hiérarchique)
Processus Data Mining
Processus Data Mining
3. Choix du modèle d’analyse : Segmentation
Exemple de K-means :
- Données d’initialisation : [1, 2, 3, 6, 7, 9, 10, 15, 20]
- Besoin : 3 classes
1) Affectation aléatoire (1 élément)
2) Calcul de moyennes
3) Affectation des éléments restants (par distance)
4) Recalcul de moyennes et réaffectation jusqu’à stabilisation du
modèle
Test : ajouter de nouveaux éléments (4, 40)
Processus Data Mining
3. Choix du modèle d’analyse : Association
- Les règles d’association sont utilisées pour trouver des corrélations et
des co-occurrences entre des ensembles de données.
- Elles sont utilisées pour expliquer des modèles dans des
données provenant de référentiels d’informations indépendants, tels
que des bases de données relationnelles et des bases de données
transactionnelles.
* L’exploration de règles d’association basée sur les contraintes vise
généralement à extraire des règles d’association qui satisfont les
contraintes spécifiées par l’utilisateur, où l’antécédent et le conséquent
des règles sont des ensembles d’éléments fréquents qui satisfont les
contraintes spécifiées par l’utilisateur.
Processus Data Mining
3. Choix du modèle d’analyse : Association
Exemple médical : les symptômes associés pour une maladie
précise
Processus Data Mining
3. Choix du modèle d’analyse : Association
Exemple détaillé : Recherche des articles les plus/moins associés
Un magasin a enregistré les achats de plusieurs clients et souhaite
analyser quelles associations de produits sont fréquentes dans les
transactions pour organiser ses promotions et ses étagères.
L’analyse de base sur les transactions (paniers d’achat).
Processus Data Mining
3. Choix du modèle d’analyse : Association
Transaction Produits achetés
1 Pain, Lait, Beurre
2 Pain, Lait
3 Lait, Beurre
4 Pain, Lait, Fromage
5 Pain, Beurre
6 Lait, Fromage
- Calculer le support, la confiance, et le lift
Processus Data Mining
Support : d’un itemset (ensemble de produits) est le pourcentage de
transactions contenant cet ensemble :
Support de Pain = 4/6, Support de Lait = 4/6,
Support de Pain, Lait = 3/6, Support de Pain, Beurre = 2/6,
etc...
Confiance : probabilité qu’un client achète le conséquent, sachant qu’il a
déjà acheté l’antécédent :
Confiance de Pain → Lait = 0.50/0.67 = 0.75
Confiance de Pain → Beurre = 0.33/0.67 = 0.50
etc...
Lift : compare la confiance avec la probabilité de base d’acheter le produit
(support).Permet de savoir si la présence du produit antécédent augmente la
probabilité d’acheter le produit conséquent, ou si c’est juste dû au hasard :
Lift de Pain → Lait = 0.75/0.67 = 1.12
Lift de Pain → Beurre = 0.50/0.50 = 1
etc...
A.Lyazidi (
[email protected]) DataMining 75 / 91
Processus Data Mining
Résultats
- Un lift de 1.12 signifie que la présence de pain dans un panier
augmente légèrement la probabilité d’acheter du lait par rapport à
une transaction aléatoire.
- Un lift de 1 indique que la présence de pain ne change pas la
probabilité d’acheter du beurre (aucune corrélation particulière).
Processus Data Mining
4. Evaluation des résultats
- Observer et exploiter les résultats.
- Pour affiner l’analyse, reprendre les étapes 1, 2 ou 3 si les
résultats s’avéraient insatisfaisants.
* C’est à dire que les résultats ne sont pas en phase avec les
objectifs fixés à l’étape 1.
Processus Data Mining
5. Formalisation et diffusion
- Les résultats sont formalisés pour être diffuser.
- Incorporation de ces connaissances dans d’autres systèmes pour
d’autres actions.
- Mesurer l’effet de ces connaissances sur le système, vérifier et
résoudre les conflits possibles avec les connaissances antérieures.
Prétraitement des données
Soit l’ensemble de données suivant auquel une technique data
mining va être appliqué pour répondre à une question stratégique
pour l’entreprise
Prétraitement des données
Corrections des doublons, des erreurs de saisie
Prétraitement des données
Intégrité de domaine
Prétraitement des données
Information manquante :
Cas où les champs ne contiennent aucune donnée.
Parfois intéressant de conserver ces enregistrements car
l’absence d’information peut être informative (e.g. fraude).
Prétraitement des données
Représentation horizontale ou éclatée (verticale)
Prétraitement des données
Pourquoi prétraiter les données ?
Données réelles souvent :
Incomplètes : valeurs manquantes, données simplifiées
Bruitées : erreurs et exceptions
Incohérentes : nommage, codage
Résultats de la fouille dépendent de la qualité des données
Prétraitement des données
Principales étapes dans le prétraitement
Prétraitement des données
Suppression :
Ignorer/supprimer les cas avec des données manquantes
Peu efficace quand le pourcentage de valeurs manquantes est
élevé
Tolérance :
Stratégie de traitement internes dans lesquelles l’analyse est
effectuée directement, en utilisant les ensembles de données
avec des données manquantes.
Imputation :
Stratégie pour remplir le données manquantes d’un ensemble
de données (moyenne, médiane, valeur par défaut, valeur
fréquente, valeur probable, valeur estimée, ...)
A.Lyazidi ([email protected]) DataMining 86 / 91
Prétraitement des données
Exemple : Suppression des exceptions par Clustering
- Supprimer les éléments distantes
- Réentrainer le modèle pour plus de précision
Prétraitement des données
Normalisation
- Normaliser certains attributs numériques afin qu’ils varient dans
une plage plus petite
- Ex: Normaliser l’attribut Age pour qu’il varie entre 0 et 1.
- Méthode de normalisation :
min-max
z-score
mise à l’échelle décimale
Mesures d’évaluation
Construction d’un modèle DataMining
1) Diviser les données en ensemble d’apprentissage et ensembles
de test
2) Construire le modèle DM en utilisant l’ensemble
d‘apprentissage
3) Evaluer le modèle en utilisant l’ensemble de test
Mesures d’évaluation
Mesures d’évaluation
Qualités attendues d’un modèle DataMining
Précision Le taux d’erreur, proportion d’individus mal
classés doit être le plus bas possible
Robustesse Le modèle doit dépendre peu que possible de
l’échantillon d’apprentissage et se généraliser à
d’autres échantillons
Concision Les règles du modèle doivent être aussi simples
et aussi peu nombreuses que possible
Rapidité de Apprentissage rapide pour affinement du
calcul modèle
Paramétrage Pouvoir pondérer les erreurs de classement