Classification et
prédiction
Azzeddine Mazroui
Master d’Ingénierie Informatique
M2I
2024-2025
Introduction
Il ne suffit pas de collecter un grand nombre
d'informations, de les stocker dans des bases de données,
mais l’objectif est de les analyser pour en extraire des
connaissances et par la suite exploiter ces connaissances.
Parmi les application des fouilles de données la prédiction
d’une information spécifique.
Cours Data Mining 2024-2025 A. Mazroui 2
Définitions
Une classe est un ensemble d’éléments qui sont semblables
entre eux et qui sont dissemblables à ceux d’autres classes.
La classification permet de prédire si un élément est
membre d’une classe donnée en se basant sur ses
caractéristiques.
Dans la tâche de classification, les classes sont prédéfinies
(donc connues à l’avance).
Cours Data Mining 2024-2025 A. Mazroui 3
Définitions
L'objectif de la classification est principalement de définir
des règles permettant de classer des objets dans des classes
prédéfinies à partir de variables qualitatives ou
quantitatives caractérisant ces objets.
L'affectation à une classe à partir des caractéristiques
explicatives se fait généralement par :
– une formule mathématique ;
– un algorithme ;
– ou un ensemble de règles. Cours Data Mining 2024-2025 A. Mazroui 4
Exemple : construction de modèle
Caractéristiques Classes
Personne Grade NAAG Titulaire
Ali Prof. Assistant 3 Non Données
Hassan Prof. Assistant 7 Oui
Fatiha Professeur 2 Oui
Souad Prof. Habilité 7 Oui
Ahmed Prof. Assistant 6 Non Règles de
Hanane Prof. Habilité 3 Non classification
Karim Professeur 3 Oui
Si Grade=‘Professeur’
NAAG = nombre d’années ou NAAG > 3
d’ancienneté dans le grade alors Titulaire=‘Oui’
Exemple : Prédiction
Sujet Grade NAAG
Règles de
Alae Prof. Assistant 5
classification
Imane Prof. Habilité 3
Si Grade=‘Professeur’
ou NAAG > 3
alors Titulaire=‘Oui’
Sujet Titulaire
Alae Oui
Imane Non
Cours Data Mining 2024-2025 A. Mazroui 6
Applications
Médecine : Identification de la maladie suite à un
diagnostique.
Grande distribution : Classement des clients.
Banques : Evaluer les demandes de crédit pour classer les
clients selon le critère risque par exemple.
Finances : Détecter les tendances boursières.
Cours Data Mining 2024-2025 A. Mazroui 7
Etapes de la classification
La classification se déroule en quatre étapes :
▪ Etape 1 : Construction du modèle
▪ Etape 2 : Validation du modèle
▪ Etape 3 : Test du modèle
▪ Etape 4 : Application du modèle
Cours Data Mining 2024-2025 A. Mazroui 8
Etapes de la classification :
Construction du modèle
La construction du modèle se fera à partir d’un ensemble
d’apprentissage (training set).
Un ensemble d’apprentissage est un ensemble d'instances
(individus) dont les classes d’appartenance sont connues.
◦ Chaque instance est supposée appartenir à une classe
prédéfinie.
◦ L’ensemble des instances d’apprentissage est utilisé
dans la construction du modèle.
◦ Le modèle est représenté par :
des règles de classification ;
arbres de décision ;
formules mathématiques ;
... Cours Data Mining 2024-2025 A. Mazroui 9
Etapes de la classification
Construction du modèle
Exemple : Supposons qu'on cherche à répartir en tranches
de revenu des personnes d'une certaine base de données.
Nous supposons ici que nous avons trois tranches de
revenu : faible, moyen et élevé.
Sujet (Instance) Age Sexe Profession Tranche de revenu
1 47 F Chômeur Faible
2 28 M Ingénieur Moyen
3 35 M Professeur Moyen
4 50 M Consultant Elevé
5 42 F Médecin Elevé
6 55 M Technicien Faible
… … … … Cours Data Mining 2024-2025…A. Mazroui 10
Etapes de la classification
Validation du modèle
Pour vérifier la pertinence du modèle obtenu dans la phase
d’apprentissage, nous testons le modèle sur un deuxième
échantillon formé de nouvelles instances dont on connaît
les classes (ces instances n’appartiennent pas à l’ensemble
d’apprentissage).
Cet ensemble est appelé ensemble de validation.
Cours Data Mining 2024-2025 A. Mazroui 11
Etapes de la classification
Validation du modèle
Ensuite, nous estimons le taux d’erreur du modèle appliqué
sur l’ensemble de validation :
◦ la classe connue d’une instance de l’ensemble de
validation est comparée avec la classe prédite par le
modèle.
◦ Taux d’erreur = pourcentage d’instances de l’ensemble
de validation incorrectement classées par le modèle.
◦ Si le résultat du test est insatisfaisant (taux d’erreur
élevé), alors nous recommençons la première étape
(étape de construction du modèle).
Cours Data Mining 2024-2025 A. Mazroui 12
Etapes de la classification
Test du modèle
Le test du modèle se fera une fois nous sommes satisfaits
des résultats de validation.
Il se fera sur un troisième ensemble (différent des
ensembles d’apprentissage et de validation), pour mesurer
avec plus de précision le taux d’erreur.
L’ensemble de validation sert à ajuster le modèle, alors que
l’ensemble de test permet d’évaluer le modèle.
Cours Data Mining 2024-2025 A. Mazroui 13
Etapes de la classification
Application du modèle
Une fois le modèle est validé et testé, nous pouvons
l’appliquer à l’ensemble de la population à classer, pour
déterminer la classe de chaque individu.
Cours Data Mining 2024-2025 A. Mazroui 14
Etapes de la classification
Choix des échantillons
Un soin particulier doit être apporté à la phase
d'apprentissage, car cette phase conditionne les
performances du modèle.
L’échantillon (l’ensemble d’apprentissage) utilisé dans la
phase d'apprentissage doit être représentatif.
L’utilisation d’un petit échantillon d'apprentissage a pour
conséquence un taux d’erreur relativement élevé durant la
phase de test.
Inversement, un ensemble d'apprentissage adéquat
permet au modèle de réaliser de bonnes performances en
phase de test.
Cours Data Mining 2024-2025 A. Mazroui 15
Etapes de la classification
Choix des échantillons
Pour construire le modèle puis valider la classification, nous
devons au préalable disposer d’un ensemble C d’instances
classifiées (c.à.d. la classe de chaque instance est connue).
Ensuite, nous procédons selon l’une des deux approches
suivantes.
Cours Data Mining 2024-2025 A. Mazroui 16
Etapes de la classification
Choix des échantillons
Partitionnement : Tirer au hasard 20% de l’ensemble C,
puis 10%, et considérer les échantillons suivants :
◦ L’ensemble de test est constitué des 20% d’instances
obtenues au premier tirage.
◦ L’ensemble de validation est constitué des 10%
d’instances obtenues au deuxième tirage.
◦ L’ensemble d’apprentissage est constitué des instances
correspondantes aux 70% restantes du corpus C.
Cours Data Mining 2024-2025 A. Mazroui 17
Etapes de la classification
Choix des échantillons
Validation croisée : choisir un entier k, puis scinder d’une
manière aléatoire le corpus en k échantillons de même
taille. Ensuite,
◦ Choisir (k-1) échantillons pour l'apprentissage et le kème
restant pour le test, et calculer le taux d’erreur.
◦ Répéter cette opération k fois en changeant chaque fois
l’échantillon de test.
◦ Le taux d’erreur du modèle est la moyenne des k taux
d'erreur obtenus dans les phases précédentes.
Cours Data Mining 2024-2025 A. Mazroui 18
Etapes de la classification
Choix des échantillons
Validation croisée : Exemple avec k=4
1 2 3 4
1 2 3 4 1 2 3 4
1 2 3 4 1 2 3 4
Echantillon d’apprentissage Echantillon de test
19
Indicateurs de performances
Matrice de confusion
Exemple : Supposons que nous avons classé 5100 instances
de l’ensemble de test selon 3 classes A, B et C. Les résultats
sont présentés dans le tableau suivant :
Valeurs observées
Valeurs réelles A B C total
A 1400 350 250 2000
B 150 1650 100 1900
C 120 170 910 1200
total 1670 2170 1260 5100
Cours Data Mining 2024-2025 A. Mazroui 20
Indicateurs de performances
Matrice de confusion
La case (A,A) qui contient la valeur 1400 indique le
nombre d’instances que le système a classées dans la
classe A alors qu’elles appartiennent à la classe A.
La case (B,A) qui contient la valeur 150 indique le nombre
d’instances que le système a classées dans la classe A alors
qu’elles appartiennent à la classe B.
5100 indique le nombre total d’instances testées.
1670 indique le nombre d’instances de l’ensemble de test
que le système a classées dans la classe A.
1900 indique le nombre d’instances de la classe B dans
l’ensemble de test.
Cours Data Mining 2024-2025 A. Mazroui 21
Indicateurs de performances
Matrice de confusion
La somme des cellules de la diagonale indique le nombre
total de prédictions justes.
La somme des cellules hors diagonale indique le nombre
total de prédictions erronées.
Cours Data Mining 2024-2025 A. Mazroui 22
Indicateurs de performances
Matrice de confusion
Valeurs observées
Valeurs réelles A B C total
A 1400 350 250 2000
B 150 1650 100 1900
C 120 170 910 1200
total 1670 2170 1260 5100
𝟑𝟓𝟎 + 𝟐𝟓𝟎 + 𝟏𝟓𝟎 + 𝟏𝟎𝟎 + 𝟏𝟐𝟎 + 𝟏𝟕𝟎
𝑻𝒂𝒖𝒙 𝒅’𝒆𝒓𝒓𝒆𝒖𝒓 = = 𝟐𝟐, 𝟑𝟓%
𝟓𝟏𝟎𝟎
𝟏𝟒𝟎𝟎 + 𝟏𝟔𝟓𝟎 + 𝟗𝟏𝟎
𝑻𝒂𝒖𝒙 𝒅’𝒆𝒙𝒂𝒄𝒕𝒊𝒕𝒖𝒅𝒆 = = 𝟕𝟕, 𝟔𝟓%
𝟓𝟏𝟎𝟎
23
Indicateurs de performances
Matrice de confusion
Supposons que nous nous intéressons à un problème de
classification avec m classes Ci.
Valeurs observées
Valeurs réelles C1 C2 …. Cj …. Cm total
C1 n11 n12 …. n1j …. n1m n1.
C2 n21 n22 …. n2j …. n2m n2.
. . . . . . .
. . . . . . .
Ci ni1 ni2 …. nij …. nim ni.
. . . . . . .
. . . . . . .
Cm nm1 nm2 …. nmj …. nmm nm.
total n.1 n.2 …. n.j …. n.m n
Indicateurs de performances
Matrice de confusion
Après la phase de test, on note :
◦ 𝑛𝑖j = le nombre d’instances de la classe Ci que le système a
classé dans la classe Cj.
𝑚
𝑛𝑖. = 𝑛𝑖𝑗 = le nombre d’instances réelles de Ci.
𝑗=1
𝑚
𝑛.𝑗 = 𝑛𝑖𝑗 = le nombre d’instances de l’ensemble de
𝑖=1
test que le système a classées dans la classe Cj.
Cours Data Mining 2024-2025 A. Mazroui 25
Indicateurs de performances
Exactitude
◦ L’exactitude du système (Accuracy) est le taux de bonnes
classifications :
σ𝑚
𝑖=1 𝑛𝑖𝑖
𝐸𝑥𝑎𝑐𝑡𝑖𝑡𝑢𝑑𝑒 =
𝑛
◦ σ𝑚
𝑖=1 𝑛𝑖𝑖 est égale au nombre d’instances de l’ensemble de
test bien classées, et n est la taille de l’ensemble de test.
Cours Data Mining 2024-2025 A. Mazroui 26
Indicateurs de performances
Précision, Rappel et F-mesure
❑ Précision (Precision) de la classe Ci : c’est le pourcentage
des instances que le système a classé correctement dans la
classe Ci :
𝑛𝑖𝑖
𝑃𝑖 =
𝑛.𝑖
❑ Rappel (Recall) de la classe Ci : c’est le pourcentage des
instances réelles de la classe Ci que le système a pu
identifier :
𝑛𝑖𝑖
𝑅𝑖 =
𝑛𝑖.
❑ F-mesure (F-measure) de la classe Ci :
2 × 𝑃𝑖 × 𝑅𝑖
𝐹𝑖 =
𝑃𝑖 + 𝑅𝑖 Cours Data Mining 2024-2025 A. Mazroui 27
Indicateurs de performances
Précision, Rappel et F-mesure
❑ Précision globale du modèle de classification : c’est la
moyenne des précisions des différentes classes Ci
𝑚
1
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑃𝑖
𝑚
𝑖=1
❑ Rappel global du modèle de classification : c’est la
moyenne des rappels des différentes classes Ci
𝑚
1
𝑅𝑎𝑝𝑝𝑒𝑙 = 𝑅𝑖
𝑚
𝑖=1
❑ F-mesure globale du modèle de classification :
2× 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛×𝑅𝑎𝑝𝑝𝑒𝑙
𝐹 − 𝑚𝑒𝑠𝑢𝑟𝑒 =
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛+𝑅𝑎𝑝𝑝𝑒𝑙
Cours Data Mining 2024-2025 A. Mazroui 28
Indicateurs de performances
Précision, Rappel et F-mesure
Exemple
Valeurs observées
Valeurs réelles A B C total
A 1400 350 250 2000
B 150 1650 100 1900
C 120 170 910 1200
total 1670 2170 1260 5100
Classes A B C Indicateurs
Précision 84% 76% 72% Précision globale 77.33%
Rappel 70% 87% 76% Rappel global 77.66%
F-mesure 76% 81% 74% F-mesure globale 77.49%
Exemple : construction du modèle
Données : Nous disposons d’un ensemble d’individus
(instances) sur lesquels nous avons fait trois mesures
(attributs) : Grade, Nombre d’années d’ancienneté dans le
grade (NAAG) et Titulaire.
Sujet (Instance) Grade NAAG Titulaire
Ali Assistant 3 Non
Hassan Assistant 7 Oui
Fatiha Professeur 2 Oui
Souad Professeur Habilité 7 Oui
Ahmed Assistant 6 Non
Hanane Professeur Habilité 3 Non
Karim Professeur 3 Oui
Objectif : Classer les individus selon la troisième variable
en se basant sur les deux premières. 30
Exemple : construction du modèle
Sujet Grade Année Titulaire
Ali Prof. Assistant 3 Non Données
Hassan Prof. Assistant 7 Oui d’apprentissage
Fatiha Professeur 2 Oui
Souad Prof. Habilité 7 Oui
Ahmed Prof. Assistant 6 Non
Hanane Prof. Habilité 3 Non Algorithme de
classification
Karim Professeur 3 Oui
Si Grade=‘Professeur’
ou NAAG> 3 Modèle
alors Titulaire=‘Oui’
Cours Data Mining 2024-2025 A. Mazroui 31
Exemple : test du modèle
Sujet Grade Année Titulaire Sujet Grade Année
Samia Prof. Assistant 3 Non Samia Prof. Assistant 3
Fouad Prof. Habilité 7 Oui Fouad Prof. Habilité 7
Younes Professeur 1 Non Younes Professeur 2
Si Grade=‘Professeur’ ou NAAG > 3
alors Titulaire=‘Oui’
Sujet Titulaire
Samia Non
Fouad Oui Modèle Données de test
Younes Oui
Oui Non n.j
Oui 1 0 1
Table de confusion
Non 1 1 2
ni. 2 1 3 32
Exemple : test du modèle
Table de confusion
Oui Non ni.
◦ Exactitude :
Oui 1 0 1
2
𝐴𝑐𝑐 = = 67% Non 1 1 2
3
n.j 2 1 3
◦ Précision :
1 1 1 1
𝑃𝑂𝑢𝑖 = = 50% ; 𝑃𝑁𝑜𝑛 = = 100% ; 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 = + 1 = 75%
2 1 2 2
◦ Rappel
1 1 1 1
𝑅𝑂𝑢𝑖 = = 100% ; 𝑅𝑁𝑜𝑛 = = 50% ; 𝑅𝑎𝑝𝑝𝑒𝑙 = 1+ = 75%
1 2 2 2
◦ F-mesure :
1 1 3 3
2× 1×2 2 2× 2×1 2 2× 4×4
𝐹𝑂𝑢𝑖 = 1 = ; 𝐹𝑁𝑜𝑛 = 1 = ; 𝐹 − 𝑚𝑒𝑠𝑢𝑟𝑒 = 3 3 = 75%
1+2 3 +1 3 +
2 4 4
33
Exemple : Prédiction
Sujet Grade Année
Alae Prof. Assistant 7
Imane Prof. Habilité 2 Modèle
Fatiha Professeur 1
Si Grade=‘Professeur’ ou Année > 3
Sujet Titulaire alors Titulaire=‘Oui’
Alae Oui
Imane Non
Fatiha Oui
Cours Data Mining 2024-2025 A. Mazroui 34