0% ont trouvé ce document utile (0 vote)
34 vues34 pages

Chap2 Classification

Ce document traite de la classification et de la prédiction dans le cadre de l'ingénierie informatique, en mettant l'accent sur les étapes de construction, validation, test et application des modèles de classification. Il présente également des exemples d'application dans divers domaines tels que la médecine et la finance, ainsi que des indicateurs de performance comme la matrice de confusion et l'exactitude. Enfin, il souligne l'importance d'un échantillon d'apprentissage représentatif pour garantir la performance du modèle.

Transféré par

osamya973
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
34 vues34 pages

Chap2 Classification

Ce document traite de la classification et de la prédiction dans le cadre de l'ingénierie informatique, en mettant l'accent sur les étapes de construction, validation, test et application des modèles de classification. Il présente également des exemples d'application dans divers domaines tels que la médecine et la finance, ainsi que des indicateurs de performance comme la matrice de confusion et l'exactitude. Enfin, il souligne l'importance d'un échantillon d'apprentissage représentatif pour garantir la performance du modèle.

Transféré par

osamya973
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Classification et

prédiction

Azzeddine Mazroui
Master d’Ingénierie Informatique
M2I
2024-2025
Introduction
 Il ne suffit pas de collecter un grand nombre

d'informations, de les stocker dans des bases de données,

mais l’objectif est de les analyser pour en extraire des

connaissances et par la suite exploiter ces connaissances.

 Parmi les application des fouilles de données la prédiction

d’une information spécifique.

Cours Data Mining 2024-2025 A. Mazroui 2


Définitions

 Une classe est un ensemble d’éléments qui sont semblables


entre eux et qui sont dissemblables à ceux d’autres classes.

 La classification permet de prédire si un élément est


membre d’une classe donnée en se basant sur ses
caractéristiques.

 Dans la tâche de classification, les classes sont prédéfinies


(donc connues à l’avance).

Cours Data Mining 2024-2025 A. Mazroui 3


Définitions
 L'objectif de la classification est principalement de définir
des règles permettant de classer des objets dans des classes
prédéfinies à partir de variables qualitatives ou
quantitatives caractérisant ces objets.

 L'affectation à une classe à partir des caractéristiques


explicatives se fait généralement par :

– une formule mathématique ;

– un algorithme ;

– ou un ensemble de règles. Cours Data Mining 2024-2025 A. Mazroui 4


Exemple : construction de modèle
Caractéristiques Classes

Personne Grade NAAG Titulaire


Ali Prof. Assistant 3 Non Données
Hassan Prof. Assistant 7 Oui
Fatiha Professeur 2 Oui
Souad Prof. Habilité 7 Oui
Ahmed Prof. Assistant 6 Non Règles de
Hanane Prof. Habilité 3 Non classification
Karim Professeur 3 Oui

Si Grade=‘Professeur’
NAAG = nombre d’années ou NAAG > 3
d’ancienneté dans le grade alors Titulaire=‘Oui’
Exemple : Prédiction

Sujet Grade NAAG


Règles de
Alae Prof. Assistant 5
classification
Imane Prof. Habilité 3

Si Grade=‘Professeur’
ou NAAG > 3
alors Titulaire=‘Oui’
Sujet Titulaire
Alae Oui
Imane Non
Cours Data Mining 2024-2025 A. Mazroui 6
Applications
 Médecine : Identification de la maladie suite à un

diagnostique.

 Grande distribution : Classement des clients.

 Banques : Evaluer les demandes de crédit pour classer les

clients selon le critère risque par exemple.

 Finances : Détecter les tendances boursières.

Cours Data Mining 2024-2025 A. Mazroui 7


Etapes de la classification

La classification se déroule en quatre étapes :

▪ Etape 1 : Construction du modèle

▪ Etape 2 : Validation du modèle

▪ Etape 3 : Test du modèle

▪ Etape 4 : Application du modèle

Cours Data Mining 2024-2025 A. Mazroui 8


Etapes de la classification :
Construction du modèle
 La construction du modèle se fera à partir d’un ensemble
d’apprentissage (training set).
 Un ensemble d’apprentissage est un ensemble d'instances
(individus) dont les classes d’appartenance sont connues.
◦ Chaque instance est supposée appartenir à une classe
prédéfinie.
◦ L’ensemble des instances d’apprentissage est utilisé
dans la construction du modèle.
◦ Le modèle est représenté par :
 des règles de classification ;
 arbres de décision ;
 formules mathématiques ;
 ... Cours Data Mining 2024-2025 A. Mazroui 9
Etapes de la classification
Construction du modèle
 Exemple : Supposons qu'on cherche à répartir en tranches
de revenu des personnes d'une certaine base de données.
 Nous supposons ici que nous avons trois tranches de
revenu : faible, moyen et élevé.
Sujet (Instance) Age Sexe Profession Tranche de revenu
1 47 F Chômeur Faible
2 28 M Ingénieur Moyen
3 35 M Professeur Moyen
4 50 M Consultant Elevé
5 42 F Médecin Elevé
6 55 M Technicien Faible
… … … … Cours Data Mining 2024-2025…A. Mazroui 10
Etapes de la classification
Validation du modèle
 Pour vérifier la pertinence du modèle obtenu dans la phase

d’apprentissage, nous testons le modèle sur un deuxième

échantillon formé de nouvelles instances dont on connaît

les classes (ces instances n’appartiennent pas à l’ensemble

d’apprentissage).

 Cet ensemble est appelé ensemble de validation.

Cours Data Mining 2024-2025 A. Mazroui 11


Etapes de la classification
Validation du modèle
 Ensuite, nous estimons le taux d’erreur du modèle appliqué
sur l’ensemble de validation :
◦ la classe connue d’une instance de l’ensemble de
validation est comparée avec la classe prédite par le
modèle.
◦ Taux d’erreur = pourcentage d’instances de l’ensemble
de validation incorrectement classées par le modèle.
◦ Si le résultat du test est insatisfaisant (taux d’erreur
élevé), alors nous recommençons la première étape
(étape de construction du modèle).
Cours Data Mining 2024-2025 A. Mazroui 12
Etapes de la classification
Test du modèle

 Le test du modèle se fera une fois nous sommes satisfaits


des résultats de validation.

 Il se fera sur un troisième ensemble (différent des


ensembles d’apprentissage et de validation), pour mesurer
avec plus de précision le taux d’erreur.

 L’ensemble de validation sert à ajuster le modèle, alors que


l’ensemble de test permet d’évaluer le modèle.

Cours Data Mining 2024-2025 A. Mazroui 13


Etapes de la classification
Application du modèle

 Une fois le modèle est validé et testé, nous pouvons

l’appliquer à l’ensemble de la population à classer, pour

déterminer la classe de chaque individu.

Cours Data Mining 2024-2025 A. Mazroui 14


Etapes de la classification
Choix des échantillons
 Un soin particulier doit être apporté à la phase
d'apprentissage, car cette phase conditionne les
performances du modèle.
 L’échantillon (l’ensemble d’apprentissage) utilisé dans la
phase d'apprentissage doit être représentatif.
 L’utilisation d’un petit échantillon d'apprentissage a pour
conséquence un taux d’erreur relativement élevé durant la
phase de test.
 Inversement, un ensemble d'apprentissage adéquat
permet au modèle de réaliser de bonnes performances en
phase de test.
Cours Data Mining 2024-2025 A. Mazroui 15
Etapes de la classification
Choix des échantillons

 Pour construire le modèle puis valider la classification, nous


devons au préalable disposer d’un ensemble C d’instances
classifiées (c.à.d. la classe de chaque instance est connue).
Ensuite, nous procédons selon l’une des deux approches
suivantes.

Cours Data Mining 2024-2025 A. Mazroui 16


Etapes de la classification
Choix des échantillons
 Partitionnement : Tirer au hasard 20% de l’ensemble C,
puis 10%, et considérer les échantillons suivants :

◦ L’ensemble de test est constitué des 20% d’instances


obtenues au premier tirage.

◦ L’ensemble de validation est constitué des 10%


d’instances obtenues au deuxième tirage.

◦ L’ensemble d’apprentissage est constitué des instances


correspondantes aux 70% restantes du corpus C.
Cours Data Mining 2024-2025 A. Mazroui 17
Etapes de la classification
Choix des échantillons
 Validation croisée : choisir un entier k, puis scinder d’une
manière aléatoire le corpus en k échantillons de même
taille. Ensuite,

◦ Choisir (k-1) échantillons pour l'apprentissage et le kème


restant pour le test, et calculer le taux d’erreur.

◦ Répéter cette opération k fois en changeant chaque fois


l’échantillon de test.
◦ Le taux d’erreur du modèle est la moyenne des k taux
d'erreur obtenus dans les phases précédentes.
Cours Data Mining 2024-2025 A. Mazroui 18
Etapes de la classification
Choix des échantillons
Validation croisée : Exemple avec k=4
1 2 3 4

1 2 3 4 1 2 3 4

1 2 3 4 1 2 3 4

Echantillon d’apprentissage Echantillon de test


19
Indicateurs de performances
Matrice de confusion
 Exemple : Supposons que nous avons classé 5100 instances
de l’ensemble de test selon 3 classes A, B et C. Les résultats
sont présentés dans le tableau suivant :
Valeurs observées
Valeurs réelles A B C total

A 1400 350 250 2000


B 150 1650 100 1900
C 120 170 910 1200
total 1670 2170 1260 5100

Cours Data Mining 2024-2025 A. Mazroui 20


Indicateurs de performances
Matrice de confusion
 La case (A,A) qui contient la valeur 1400 indique le
nombre d’instances que le système a classées dans la
classe A alors qu’elles appartiennent à la classe A.
 La case (B,A) qui contient la valeur 150 indique le nombre
d’instances que le système a classées dans la classe A alors
qu’elles appartiennent à la classe B.
 5100 indique le nombre total d’instances testées.
 1670 indique le nombre d’instances de l’ensemble de test
que le système a classées dans la classe A.
 1900 indique le nombre d’instances de la classe B dans
l’ensemble de test.
Cours Data Mining 2024-2025 A. Mazroui 21
Indicateurs de performances
Matrice de confusion

 La somme des cellules de la diagonale indique le nombre


total de prédictions justes.

 La somme des cellules hors diagonale indique le nombre


total de prédictions erronées.

Cours Data Mining 2024-2025 A. Mazroui 22


Indicateurs de performances
Matrice de confusion
Valeurs observées
Valeurs réelles A B C total

A 1400 350 250 2000


B 150 1650 100 1900
C 120 170 910 1200
total 1670 2170 1260 5100

𝟑𝟓𝟎 + 𝟐𝟓𝟎 + 𝟏𝟓𝟎 + 𝟏𝟎𝟎 + 𝟏𝟐𝟎 + 𝟏𝟕𝟎


𝑻𝒂𝒖𝒙 𝒅’𝒆𝒓𝒓𝒆𝒖𝒓 = = 𝟐𝟐, 𝟑𝟓%
𝟓𝟏𝟎𝟎

𝟏𝟒𝟎𝟎 + 𝟏𝟔𝟓𝟎 + 𝟗𝟏𝟎


𝑻𝒂𝒖𝒙 𝒅’𝒆𝒙𝒂𝒄𝒕𝒊𝒕𝒖𝒅𝒆 = = 𝟕𝟕, 𝟔𝟓%
𝟓𝟏𝟎𝟎
23
Indicateurs de performances
Matrice de confusion
Supposons que nous nous intéressons à un problème de
classification avec m classes Ci.
Valeurs observées
Valeurs réelles C1 C2 …. Cj …. Cm total

C1 n11 n12 …. n1j …. n1m n1.


C2 n21 n22 …. n2j …. n2m n2.
. . . . . . .
. . . . . . .
Ci ni1 ni2 …. nij …. nim ni.
. . . . . . .
. . . . . . .
Cm nm1 nm2 …. nmj …. nmm nm.
total n.1 n.2 …. n.j …. n.m n
Indicateurs de performances
Matrice de confusion
 Après la phase de test, on note :

◦ 𝑛𝑖j = le nombre d’instances de la classe Ci que le système a


classé dans la classe Cj.
𝑚

𝑛𝑖. = ෍ 𝑛𝑖𝑗 = le nombre d’instances réelles de Ci.


𝑗=1
𝑚

𝑛.𝑗 = ෍ 𝑛𝑖𝑗 = le nombre d’instances de l’ensemble de


𝑖=1
test que le système a classées dans la classe Cj.

Cours Data Mining 2024-2025 A. Mazroui 25


Indicateurs de performances
Exactitude
◦ L’exactitude du système (Accuracy) est le taux de bonnes
classifications :

σ𝑚
𝑖=1 𝑛𝑖𝑖
𝐸𝑥𝑎𝑐𝑡𝑖𝑡𝑢𝑑𝑒 =
𝑛

◦ σ𝑚
𝑖=1 𝑛𝑖𝑖 est égale au nombre d’instances de l’ensemble de

test bien classées, et n est la taille de l’ensemble de test.

Cours Data Mining 2024-2025 A. Mazroui 26


Indicateurs de performances
Précision, Rappel et F-mesure
❑ Précision (Precision) de la classe Ci : c’est le pourcentage
des instances que le système a classé correctement dans la
classe Ci :
𝑛𝑖𝑖
𝑃𝑖 =
𝑛.𝑖
❑ Rappel (Recall) de la classe Ci : c’est le pourcentage des
instances réelles de la classe Ci que le système a pu
identifier :
𝑛𝑖𝑖
𝑅𝑖 =
𝑛𝑖.
❑ F-mesure (F-measure) de la classe Ci :
2 × 𝑃𝑖 × 𝑅𝑖
𝐹𝑖 =
𝑃𝑖 + 𝑅𝑖 Cours Data Mining 2024-2025 A. Mazroui 27
Indicateurs de performances
Précision, Rappel et F-mesure
❑ Précision globale du modèle de classification : c’est la
moyenne des précisions des différentes classes Ci
𝑚
1
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 = ෍ 𝑃𝑖
𝑚
𝑖=1
❑ Rappel global du modèle de classification : c’est la
moyenne des rappels des différentes classes Ci
𝑚
1
𝑅𝑎𝑝𝑝𝑒𝑙 = ෍ 𝑅𝑖
𝑚
𝑖=1
❑ F-mesure globale du modèle de classification :
2× 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛×𝑅𝑎𝑝𝑝𝑒𝑙
𝐹 − 𝑚𝑒𝑠𝑢𝑟𝑒 =
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛+𝑅𝑎𝑝𝑝𝑒𝑙

Cours Data Mining 2024-2025 A. Mazroui 28


Indicateurs de performances
Précision, Rappel et F-mesure
 Exemple
Valeurs observées
Valeurs réelles A B C total

A 1400 350 250 2000


B 150 1650 100 1900
C 120 170 910 1200
total 1670 2170 1260 5100

Classes A B C Indicateurs
Précision 84% 76% 72% Précision globale 77.33%
Rappel 70% 87% 76% Rappel global 77.66%
F-mesure 76% 81% 74% F-mesure globale 77.49%
Exemple : construction du modèle
Données : Nous disposons d’un ensemble d’individus
(instances) sur lesquels nous avons fait trois mesures
(attributs) : Grade, Nombre d’années d’ancienneté dans le
grade (NAAG) et Titulaire.
Sujet (Instance) Grade NAAG Titulaire
Ali Assistant 3 Non
Hassan Assistant 7 Oui
Fatiha Professeur 2 Oui
Souad Professeur Habilité 7 Oui
Ahmed Assistant 6 Non
Hanane Professeur Habilité 3 Non
Karim Professeur 3 Oui

Objectif : Classer les individus selon la troisième variable


en se basant sur les deux premières. 30
Exemple : construction du modèle
Sujet Grade Année Titulaire
Ali Prof. Assistant 3 Non Données
Hassan Prof. Assistant 7 Oui d’apprentissage
Fatiha Professeur 2 Oui
Souad Prof. Habilité 7 Oui
Ahmed Prof. Assistant 6 Non
Hanane Prof. Habilité 3 Non Algorithme de
classification
Karim Professeur 3 Oui

Si Grade=‘Professeur’
ou NAAG> 3 Modèle
alors Titulaire=‘Oui’
Cours Data Mining 2024-2025 A. Mazroui 31
Exemple : test du modèle
Sujet Grade Année Titulaire Sujet Grade Année
Samia Prof. Assistant 3 Non Samia Prof. Assistant 3
Fouad Prof. Habilité 7 Oui Fouad Prof. Habilité 7
Younes Professeur 1 Non Younes Professeur 2

Si Grade=‘Professeur’ ou NAAG > 3


alors Titulaire=‘Oui’

Sujet Titulaire

Samia Non
Fouad Oui Modèle Données de test
Younes Oui
Oui Non n.j
Oui 1 0 1
Table de confusion
Non 1 1 2
ni. 2 1 3 32
Exemple : test du modèle
Table de confusion
Oui Non ni.
◦ Exactitude :
Oui 1 0 1
2
𝐴𝑐𝑐 = = 67% Non 1 1 2
3
n.j 2 1 3
◦ Précision :
1 1 1 1
𝑃𝑂𝑢𝑖 = = 50% ; 𝑃𝑁𝑜𝑛 = = 100% ; 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 = + 1 = 75%
2 1 2 2

◦ Rappel
1 1 1 1
𝑅𝑂𝑢𝑖 = = 100% ; 𝑅𝑁𝑜𝑛 = = 50% ; 𝑅𝑎𝑝𝑝𝑒𝑙 = 1+ = 75%
1 2 2 2

◦ F-mesure :
1 1 3 3
2× 1×2 2 2× 2×1 2 2× 4×4
𝐹𝑂𝑢𝑖 = 1 = ; 𝐹𝑁𝑜𝑛 = 1 = ; 𝐹 − 𝑚𝑒𝑠𝑢𝑟𝑒 = 3 3 = 75%
1+2 3 +1 3 +
2 4 4
33
Exemple : Prédiction

Sujet Grade Année


Alae Prof. Assistant 7
Imane Prof. Habilité 2 Modèle

Fatiha Professeur 1

Si Grade=‘Professeur’ ou Année > 3


Sujet Titulaire alors Titulaire=‘Oui’

Alae Oui
Imane Non
Fatiha Oui
Cours Data Mining 2024-2025 A. Mazroui 34

Vous aimerez peut-être aussi