Cours de Datamining 2024-2025
Cours de Datamining 2024-2025
Cours Datamining
Année académique 2024-2025
Pr. A. ELOUARDIGHI
[Link]@[Link]
Pr. A. ELOUARDIGHI
Présentation Générale
2
Définition
✓ Datamining : Fouille de données
Objectif
✓ Extraction des connaissances à partir d’une base de données
Comment ?
Pr. A. ELOUARDIGHI
Processus de découverte de connaissance
3
Pr. A. ELOUARDIGHI
Plan Cours Datamining
4
Pr. A. ELOUARDIGHI
Plan Cours Datamining
5
✓ TD / TP Segmentation
Pr. A. ELOUARDIGHI
Connaissances requises
6
✓ Connaissances en statistique
➢ Statistiques descriptives
Pr. A. ELOUARDIGHI
Connaissances et compétences à acquérir
7
Pr. A. ELOUARDIGHI
8
Chapitre 1:
INTRODUCTION DATAMINING
Pr. A. ELOUARDIGHI
PLAN
9
❑ Définition du datamining
❑ Exemples d’applications
Pr. A. ELOUARDIGHI
Définition de Datamining
10
❑ Vocabulaire:
Extraction de connaissances dans les données (ECD) ou Knowledge
Discovery in DataBases (KDD) Fouille de données ou Datamining.
❑ Définition:
« Le terme Datamining correspond à l’ensemble des techniques et des
méthodes, qui à partir des données, permettant d’obtenir des connaissances
exploitable ».
Connaissance
Données Processus
Pr. A. ELOUARDIGHI
Convergence de plusieurs disciplines
11
Datamining
Pr. A. ELOUARDIGHI
Exemples d’applications
12
Pr. A. ELOUARDIGHI
Exemple
13
✓ Entreprise : banque
✓ Activité : Les prêts
✓ Problème : accepter ou refuser une demande de crédit ?
✓ Solution actuelle : évaluation de la solvabilité du client sur base de critères
définis par des gestionnaires expérimentés
✓ Solution Datamining: Analyser la solvabilité observée lors des anciens
crédits
Pr. A. ELOUARDIGHI
Anciens crédit
Pr. A. ELOUARDIGHI
Modélisation utilisant les arbres de décision
15
Pr. A. ELOUARDIGHI
Modélisation utilisant la régression logistique
16
Pr. A. ELOUARDIGHI
Application du modèle sur de nouveaux clients
12
Pr. A. ELOUARDIGHI
Méthodologie de datamining
12
Pr. A. ELOUARDIGHI
Cycle de vie d'un projet de datamining
12
Pr. A. ELOUARDIGHI
Les phases d’un projet de datamining
20
❑ Compréhension du problème
✓ Détermination des objectives et l’utilité de la connaissance
✓ Production d’un plan de projet
❑ Compréhension des données
✓ Identifier les données nécessaires
✓ Description et Exploration des données
✓ Vérification de la qualité des données
❑ Préparer les données
✓ Nettoyage des données: Données manquantes, données aberrantes
(Outliers)…
✓ Recodage (Features Engineering) rendre les données exploitable par les
algorithmes qui seront utilisés,
✓ Réduction de la dimensionnalité
✓ Partition de données en base d’apprentissage et base de test.
Pr. A. ELOUARDIGHI
Les phases d’un projet de datamining
21
❑ Modélisation
✓ C’est la phase de datamining proprement dite.
✓ La modélisation comprend le choix, le paramétrage des différents algorithmes.
✓ Création des modèles utilisant la base d’apprentissage
❑Evaluation
✓ Cette phase vise à vérifier le(s) modèle(s) ou les connaissances obtenues afin
de s’assurer qu’ils répondent aux objectifs formulés au début du projet
❑Le déploiement
✓ Il s’agit de l’étape finale du processus.
✓ Son objectif est de mettre la connaissance obtenue par la modélisation, dans
une forme adaptée, et l’intégrer au processus de prise de décision.
Pr. A. ELOUARDIGHI
Paramètres d’un processus datamining
22
Technique(s) ?
Format, Type de données ?
Type de
Modèles représentation ?
Pr. A. ELOUARDIGHI
Les différents types et formats de données
23
Remarque important:
✓ L’exploration, la préparation , le choix d’une technique de datamining
et l’évaluation dépendent du type et du format des données utilisées.
Pr. A. ELOUARDIGHI
Deux grandes familles de méthodes
24
Pr. A. ELOUARDIGHI
Les méthodes prédictives
25
Pr. A. ELOUARDIGHI
Les méthodes prédictives: Classification
26
Pr. A. ELOUARDIGHI
Les méthodes prédictive : Régression
27
Pr. A. ELOUARDIGHI
Les méthodes descriptives
28
Pr. A. ELOUARDIGHI
Les méthodes descriptives
29
Pr. A. ELOUARDIGHI
Exemple de plateformes et langages
pour le datamining
30
Pr. A. ELOUARDIGHI
Langages pour le datamining
31
[Link]
Pr. A. ELOUARDIGHI
Langages pour le datamining
32
[Link]
Pr. A. ELOUARDIGHI
Plateformes et outils pour le datamining
33
[Link]
Pr. A. ELOUARDIGHI
Plateformes et outils pour le datamining
34
[Link]
Pr. A. ELOUARDIGHI
Plateformes et outils pour le datamining
35
[Link]
Pr. A. ELOUARDIGHI
Plateformes et outils pour le datamining
36
[Link]
Pr. A. ELOUARDIGHI
37
Chapitre 2:
Exploration et préparation des données
Pr. A. ELOUARDIGHI
PLAN
38
Pr. A. ELOUARDIGHI
Introduction à l’exploration et préparation des
données
39
Pr. A. ELOUARDIGHI
Introduction à l’exploration et préparation des
données
40
Pr. A. ELOUARDIGHI
Introduction à l’exploration et préparation des
données
41
Pr. A. ELOUARDIGHI
Introduction à l’exploration et préparation des
données
42
Pr. A. ELOUARDIGHI
Exploration visuelle et statistique des donnée
44
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données manquantes
45
❑ Données manquantes
➢ Les données manquantes sont l’un des problèmes les plus courants
qu’on rencontrer lors de la préparation des données.
➢ Les valeurs manquantes peuvent être dues à :
✓ Des erreurs humaines,
✓ Des interruptions du flux de données,
✓ Des préoccupations relatives à la protection de la vie privée,
✓ Etc...
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données manquantes
46
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données manquantes
47
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données manquantes
48
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données manquantes
49
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
50
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
51
➢ A partir des données ci-dessus, tous les joueurs ont marqué plus de 300
sauf le Player3 qui a marqué 10.
➢ Ce chiffre peut être juste une erreur de frappe ou il montre que le
Player3 a une très faible performance , donc, a besoin d’améliorations.
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
52
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
53
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
55
➢ Les points les plus éloignés peuvent être considérer comme des
valeurs aberrante (coins supérieur et inférieur)
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
56
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
57
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
58
➢ Les points de données qui sont beaucoup trop éloignés de zéro (centre)
seront traités comme des valeurs aberrantes.
➢ Dans la plupart des cas, un seuil de 3 ou de -3 est utilisé
➢ Les ponts dont la valeur du Z-score supérieure à 3 ou inférieure à -3
seront identifiées comme des valeurs aberrantes.
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
59
Pr. A. ELOUARDIGHI
Analyse des relations entre les données
60
Pr. A. ELOUARDIGHI
Feature Engineering ou Ingénierie des
caractéristiques
61
❑ Présentation
➢ Feature Engineering ou Ingénierie des caractéristiques est l’une des
compétences les plus importantes nécessaires en data mining et le
Machine Learning.
➢ Il a une influence majeure sur la performance des modèles de data
mining et même sur la qualité des informations obtenues lors de
l’analyse exploratoire des données.
Pr. A. ELOUARDIGHI
Feature Engineering
62
Pr. A. ELOUARDIGHI
Feature Engineering des données catégorielles
63
❑ Données catégorielles
➢ Les données catégorielles sont des caractéristiques qui peuvent
prendre des valeurs à partir d’un ensemble limité
➢ On distingue deux types de caractéristiques catégorielles :
✓ Caractéristiques catégorielles ordinales ont des modalités (valeurs)
ordonnées. Exemple: la température d’un liquide (Chaud, Tiède, Froid).
✓ Caractéristiques catégorielles non ordonnées appelée aussi
caractéristiques nominales: ce type de caractéristique n’a pas d’ordre
spécifique. Exemple : Couleur (Noire, Blanc, Gris).
Pr. A. ELOUARDIGHI
Feature Engineering des données catégorielles
64
Pr. A. ELOUARDIGHI
Feature Engineering des données catégorielles
65
Pr. A. ELOUARDIGHI
Feature Engineering des données catégorielles
67
None 0
Low 1
Medium 2
High 3
Very-High 4
Pr. A. ELOUARDIGHI
Feature Engineering des données catégorielles
68
❑ Encodage One-Hot
➢ L’encodage One-Hot utilise des valeurs binaires pour représenter les
classes. L’encodeur One-Hot crée une caractéristique par classe, et
devient inefficace si le nombre de classes dans la caractéristique
catégorielle est grand.
Pont
Pont(Texte) Ach Beam Truss Cantilever Tied Arche SuspensionCable
(Numérique)
Arch 0 1 0 0 0 0 0 0
Beam 1 0 1 0 0 0 0 0
Truss 2 0 0 1 0 0 0 0
Cantilever 3 0 0 0 1 0 0 0
Tied Arche 4 0 0 0 0 1 0 0
Suspension 5 0 0 0 0 0 1 0
Cable 6 0 0 0 0 0 0 1
Pr. A. ELOUARDIGHI
Feature Engineering des données catégorielles
69
Pr. A. ELOUARDIGHI
Feature Engineering des données numériques
70
❑ Présentation
➢ Les données numériques représentent généralement des données sous
la forme de valeurs scalaires représentant des observations, des
enregistrements ou des mesures.
➢ Les données numériques peuvent être représentées sous forme d’un
vecteur de valeurs où chaque valeur peut représenter une
caractéristique spécifique.
➢ Les entiers et les flottants sont les types de données numériques les
plus courants et les plus largement utilisés pour les données
numériques continues.
Pr. A. ELOUARDIGHI
Feature Engineering des données numériques
71
❑ Transformation logarithmique
➢ La transformation log permet de centrer (ou en termes statistiques de
distribuer normalement) les données.
➢ Cette stratégie permet à la plupart des méthodes de data mining de
mieux fonctionner.
➢ Les transformations logarithmiques sont principalement effectuées
sur des distributions asymétriques.
➢ Les caractéristiques peuvent être inclinées à gauche ou à droite.
L'asymétrie peut être facilement vérifiée par visualisation.
Pr. A. ELOUARDIGHI
Feature Engineering des données numériques
72
❑ Transformation logarithmique
❑ Normalisation
➢ Également appelée mise à l'échelle min-max ou normalisation min-
max, c'est la méthode qui consiste à redimensionner la plage de
caractéristiques pour les mettre à l'échelle en [0, 1]
➢ Cette transformation ne change pas la distribution de la
caractéristique, les effets des valeurs aberrantes augmentent.
➢ Par conséquent, avant la normalisation, il est recommandé de traiter
les valeurs aberrantes.
Pr. A. ELOUARDIGHI
Feature Engineering des données numériques
74
❑ Standardisation
➢ Standardisation (ou normalisation z-score) permet d’évaluer les
valeurs tout en tenant compte de l’écart-type.
➢ Cela réduit l’effet des valeurs aberrantes dans les caractéristiques.
μ: la moyenne
σ: l’écart-type
Pr. A. ELOUARDIGHI
Feature Engineering des données numériques
75
❑ Transformation polynomiale
➢ Les caractéristiques polynomiales créent des interactions entre les
caractéristiques.
➢ Ils permettent de capturer les relations entre les variables
indépendantes et peuvent aider à réduire le biais d’une méthode de
data mining.
➢ Nous pouvons créer manuellement des caractéristiques polynomiales
en ajoutant, multipliant ou divisant simplement les caractéristiques
entre elles.
Pr. A. ELOUARDIGHI
76
Pr. A. ELOUARDIGHI
77
Chapitre 3:
Les méthodes prédictives supervisées
Pr. A. ELOUARDIGHI
PLAN
78
Pr. A. ELOUARDIGHI
79
Pr. A. ELOUARDIGHI
Régression linéaire multiple
80
Pr. A. ELOUARDIGHI
Objectif
81
Pr. A. ELOUARDIGHI
Interprétation des paramètres du modèle de
régression
82
Pr. A. ELOUARDIGHI
Les méthodes de régression multiple
83
❑ Les méthodes les plus utilisées sont les méthodes pas à pas.
Pr. A. ELOUARDIGHI
Qualité d’ajustement d’un modèle de régression
84
Pr. A. ELOUARDIGHI
85
Simulation
Pr. A. ELOUARDIGHI
86
Pr. A. ELOUARDIGHI
Problématiques
87
❑ Exemples
Pr. A. ELOUARDIGHI
Problématiques
88
Pr. A. ELOUARDIGHI
89
Pr. A. ELOUARDIGHI
La régression logistique
90
Pr. A. ELOUARDIGHI
Principe du modèle
91
❑ L’idée est de faire intervenir une fonction réelle G définie de [0, 1] dans
IR et donc de chercher un modèle linéaire de la forme :
G(π)=Xi*βi
❑ Il existe de nombreuses fonctions, qui sont candidates pour remplir ce
rôle, la plus utilisée est la fonction logit définie par :
G ( ) = log it ( ) = ln
1−
i i
Pr. A. ELOUARDIGHI
Estimation des paramètres
92
Pr. A. ELOUARDIGHI
Régression logistique multinomiale
93
Pr. A. ELOUARDIGHI
Les méthodes de régression logistique
94
Pr. A. ELOUARDIGHI
Interprétation des coefficients d’un modèle
de régression logistique
95
Pr. A. ELOUARDIGHI
97
Pr. A. ELOUARDIGHI
Les arbres de décision
98
Pr. A. ELOUARDIGHI
Exemple d’arbre de décision
Pr. A. ELOUARDIGHI
Avantages des Arbres de décision
101
Pr. A. ELOUARDIGHI
Inconvénients des Arbres de décision
102
Pr. A. ELOUARDIGHI
103
Simulation
Pr. A. ELOUARDIGHI
104
Pr. A. ELOUARDIGHI
Validation des modèles prédictifs
105
❑ Action par laquelle on tente d'estimer les performances futures d'un modèle
qui vient d'être construit sur un jeu de données.
Pr. A. ELOUARDIGHI
Erreur d’apprentissage et de généralisation
106
❑ Erreur d'apprentissage?
✓ C’est l’erreur obtenu utilisant le même ensemble d’apprentissage
✓ Cette erreur ne dit absolument rien sur les performances de l'algorithme sur de
nouvelles données
❑ Erreur de généralisation
✓ L'erreur de généralisation = l'erreur calculée sur de nouvelles données
✓ Les données doivent être partagées en 2 ensembles: base d’apprentissage et
base de test
✓ Il est donc possible de calculer l'erreur de généralisation avec l'ensemble de
test
Pr. A. ELOUARDIGHI
Validation d’un modèle
107
✓ Les proportions les plus utilisé: 80% pour l’apprentissage, 20% pour les tests.
Pr. A. ELOUARDIGHI
Validation d’un modèle
108
❑ Validation croisé
Pr. A. ELOUARDIGHI
Validation croisée
109
Pr. A. ELOUARDIGHI
Métriques d'évaluation d’un modèle de régression
110
Pr. A. ELOUARDIGHI
Métriques d'évaluation d’un modèle de classification
111
✓ Une matrice de confusion est utilisée pour analyser les performances d’un
modèle de classification sur un ensemble de données test pour lesquelles les
valeurs réelles sont connues.
Pr. A. ELOUARDIGHI
Métriques d'évaluation d’un modèle de
classification
112
Pr. A. ELOUARDIGHI
Métriques d'évaluation d’un modèle de
classification
113
✓ Vrai positif (VP): Prédiction est positive, la valeur réelle est effectivement positive.
➢ Exemple : Prédiction correct du médecin que le patient est diabétique.
✓ Vrai négatif (VN): La prédiction est négative, et la valeur réelle est négative.
➢ Exemple : Prédiction correct du médecin que le patient n'est pas diabétique.
✓ Faux positif (FP): La prédiction est positive, mais la valeur réelle est négative.
➢ Exemple: Prédiction du médecin que le patients est diabétique alors qu'il ne l'est pas.
✓ Faux négatif (FN): La prédiction est négative, mais la valeur réelle est positive.
➢ Exemple: Prédiction du médecin que le patient n'est pas diabétique alors qu'il l'est .
Pr. A. ELOUARDIGHI
Métriques d'évaluation d’un modèle de
classification
114
Pr. A. ELOUARDIGHI
Métriques d'évaluation d’un modèle de
classification
115
Pr. A. ELOUARDIGHI
Métriques d'évaluation d’un modèle de
classification
116
Pr. A. ELOUARDIGHI
Evaluation d’un modèle de classification par
Courbe de ROC
117
Pr. A. ELOUARDIGHI
Evaluation d’un modèle de classification par
Courbe de ROC
118
Aire Prédiction
1 Parfaite
0,9 Excellente
0,8 Bonne
0,7 Médiocre
0,6 Faible
0,5 Aléatoire
<0,5 Pire que l’aléatoire
Pr. A. ELOUARDIGHI
Sélection d’un algorithme
119
Pr. A. ELOUARDIGHI
120
Simulation
Pr. A. ELOUARDIGHI
121
Chapitre 4:
Les méthodes descriptives non
supervisée
Pr. A. ELOUARDIGHI
PLAN
122
✓ Simulation pratique
Pr. A. ELOUARDIGHI
Principe de la segmentation
123
Pr. A. ELOUARDIGHI
Définition
124
Pr. A. ELOUARDIGHI
Qualité d’un clustering
125
Pr. A. ELOUARDIGHI
Mesure de similarité
d (i, j) = (| x − x |2 + | x − x |2 +...+ | x − x |2 )
i1 j1 i2 j 2 ip jp
Pr. A. ELOUARDIGHI
Distance Euclidienne
Pr. A. ELOUARDIGHI
Méthodologie de Clustering
128
✓ Algorithmes de partitionnement
✓ Algorithmes hiérarchiques
1
mk =
Nk
xC k
x
Pr. A. ELOUARDIGHI
Méthode des K-Means
130
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
131
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
132
✓ Constitution de 3 classes
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
133
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
134
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
135
✓ Constitution de 3 classes
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
136
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
137
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
138
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
139
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=2
140
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=2
141
✓ Constitution de 2 classes
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=2
142
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=2
143
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=2
144
✓ Constitution de 2 Classes
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=2
145
Pr. A. ELOUARDIGHI
Méthode des K-Means: K=2
146
Pr. A. ELOUARDIGHI
Commentaires sur la méthode des K-Means
147
✓ Force
➢ Relativement efficace: O(tkn), où n est nombre objets, k est nombre de
clusters, et t est nombre itérations. Normalement, k, t << n.
➢ Terminent souvent dans un optimum local
✓ Faiblesses
➢ N’est pas applicable en présence d’attributs qui ne sont pas du type
numérique (moyenne=?)
➢ On doit spécifier k (nombre de clusters)
Pr. A. ELOUARDIGHI
148
Simulation
Pr. A. ELOUARDIGHI