0% ont trouvé ce document utile (0 vote)
79 vues45 pages

Chapitre3 Part1 Classification

Ce document présente une introduction à la classification en machine learning, définissant le processus de classification et ses étapes clés, notamment la construction et l'utilisation du modèle. Il aborde également l'évaluation des méthodes de classification à travers des indicateurs tels que la matrice de confusion, l'accuracy, le recall, la précision et le F1 score. Enfin, il souligne l'importance de ces mesures pour déterminer la performance et la fiabilité des modèles de classification.

Transféré par

farah.berriche
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
79 vues45 pages

Chapitre3 Part1 Classification

Ce document présente une introduction à la classification en machine learning, définissant le processus de classification et ses étapes clés, notamment la construction et l'utilisation du modèle. Il aborde également l'évaluation des méthodes de classification à travers des indicateurs tels que la matrice de confusion, l'accuracy, le recall, la précision et le F1 score. Enfin, il souligne l'importance de ces mesures pour déterminer la performance et la fiabilité des modèles de classification.

Transféré par

farah.berriche
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Cours Machine

Learning:
Classification

Chapitre 3
Partie 1: Classification

Equipe Machine 1 Octobre 1/


Plan

1 Introductio
n
2 Classification
D´efinition et g´en´
eralit´es Processus
de classification
3 Evaluation des m´ethodes de
classification G´en´eralit´es
Exemple
Matrice de confusion
Accuracy, Recall, Pr´ecision, F1
score Courbe ROC
AUC

2 2/
Machine
learning

Equipe Machine 3 Octobre 3/


Exemple: Apprentissage
supervis´e

4
Plan

1 Introductio
n
2 Classification
D´efinition et g´en´
eralit´es Processus
de classification
3 Evaluation des m´ethodes de
classification G´en´eralit´es
Exemple
Matrice de confusion
Accuracy, Recall, Pr´ecision, F1
score Courbe ROC
AUC

5 5/
Classification

D´efinition
La classification permet de pr´edire si un ´el´ement est
membre d’un groupe ou d’une cat´egorie donn´ee.

Classes:
Identification de groupes avec des profils particuliers.
Possibilit´e de d´ecider de l’appartenance d’une entit´e `a
une classe.
Caract´eristiques de classification:
Apprentissage supervis´e: classes connues
`a l’avance. Qualit´e de la classification
(taux d’erreur).

Equipe Machine 6 Octobre 6/


Exemples de probl`eme de classification

La d´etection de spams:
Apr`es avoir scann´e le texte
d’un mail, Tagguer certains
mots et phrases.
La signature du message peut ˆetre inject´ee dans un
algorithme de classification.
D´eterminer si oui ou non il s’agit d’un spam.
L’analyse du risque dans le domaine de la sant´e:
Les statistiques vitales d’un
patient. L’historique de sant
´e.
Les niveaux d’activit´es.
Les donn´ees d
´emographiques
Ces donn´ees peuvent ˆetre crois´ees pour attribuer
une note (un niveau de risque) et ´evaluer la
Equipe Machine 7 Octobre 7/
Processus de
classification

Le processus de classification se fait en deux


´etapes:

Equipe Machine 8 Octobre 8/


Processus de classification

Le processus de classification se fait en deux ´etapes:


Etape 1
Construction du mod`ele `a partir de l’ensemble
d’apprentissage (training set).

Equipe Machine 8 Octobre 8/


Processus de classification

Le processus de classification se fait en deux ´etapes:


Etape 1
Construction du mod`ele `a partir de l’ensemble
d’apprentissage (training set).

Etape 2
Utilisation du mod`ele: tester la pr´ecision du mod`ele (test
set) et l’utiliser dans la classification de futur donn
´ee( nouvelles donn´ees) .

Equipe Machine 8 Octobre 8/


Etape 1: Construction de mod`ele

Chaque donn´ee est affect´ee `a une classe


selon
1 Laces valeurs.
classe d’une donn´ee est d´etermin´ee par l’attribut
2 classe.
L’ensemble des donn´ees d’apprentissage (train set) est
3 utilis´e dans la construction du mod`ele (entrainement).

Le mod`ele est repr´esent´e par des r`egles de


classification (Algorithme d’apprentisage)

Equipe Machine 9 Octobre 9 / 43


Etape 2: Utilisation du mod`ele

Classification de nouvelles donn´ee ou donn´ee


inconnues Estimer le taux d’erreur du mod`ele
La classe connue d’une donn´ee test est compar´ee avec le r
´esultat du mod`ele.
Taux d’erreur = pourcentage de tests incorrectement class´es
par le mod`ele.

Equipe Machine 10 Octobre 10 /


Train test split
Estimation des taux d’erreurs.
Partitionnement des donn´ees en deux deux ensemble
1 Ensemble d’appretissage: en g´enerale 80% (ou 70%) des
ind´ependants:
2 donn´ees. Ensemble de test: en g´enerale 20% (ou 30%)
des donn´ees.

Equipe Machine 11 Octobre 11 /


Train test split
Estimation des taux d’erreurs.
Partitionnement des donn´ees en deux deux ensemble
1 Ensemble d’appretissage: en g´enerale 80% (ou 70%) des
ind´ependants:
2 donn´ees. Ensemble de test: en g´enerale 20% (ou 30%)
des donn´ees.

Equipe Machine 11 Octobre 11 /


Train test split
Estimation des taux d’erreurs.
Partitionnement des donn´ees en deux deux ensemble
1 Ensemble d’appretissage: en g´enerale 80% (ou 70%) des
ind´ependants:
2 donn´ees. Ensemble de test: en g´enerale 20% (ou 30%)
des donn´ees.

Figure: Train test


Equipe Machine split 11 Octobre 11 /
Cross validation
Cross
validation
La cross validation consite `a entrainer puis valider notre mod`ele sur plusieurs d
´ecoupes possibles du train set.
Diviser les donn´ees d’entrainement en k sous-ensembles.
Utiliser k − 1 sous-ensembles comme donn´ees d’apprentissage et un sous-
ensemble comme donn´ees de test.

Equipe Machine 12 Octobre 12 /


Cross validation
Cross
validation
La cross validation consite `a entrainer puis valider notre mod`ele sur plusieurs d
´ecoupes possibles du train set.
Diviser les donn´ees d’entrainement en k sous-ensembles.
Utiliser k − 1 sous-ensembles comme donn´ees d’apprentissage et un sous-
ensemble comme donn´ees de test.

12 12 /
Exemple:Construction de
mod`ele

13 13 /
Exemple:Validation de
mod`ele

14 14 /
Exemple:Utilisation de
mod`ele

15 15 /
Plan

1 Introductio
n
2 Classification
D´efinition et g´en´
eralit´es Processus
de classification
3 Evaluation des m´ethodes de
classification G´en´eralit´es
Exemple
Matrice de confusion
Accuracy, Recall, Pr´ecision, F1
score Courbe ROC
AUC

16 16 /
Evaluation des m´ethodes de classification

E´valuer les performances d’un mod`ele de classification est


primordial:
Pour savoir si le mod`ele est globalement significatif:
Mon mod`ele traduit-il vraiment une causalit´e ?
Pour se donner une id´ee des performances en d
´eploiement : Quelle sera la fiabilit´e (les couˆts associ
´es) lorsque j’utiliserai mon mod`ele ?
Pour comparer plusieurs mod`eles candidats: Lequel
parmi plusieurs mod`eles sera le plus performant compte
tenu de mes objectifs ?

Remarque
La mesure et l’´evaluation de la performance d’un mod`ele de
classification se fait toujours sur l’´echantillon de test: Il faut
tester la performance de mod`ele sur des donn´ees qui n’ont
17 17 /
Evaluation des m´ethodes de classification

Plusieurs indicateurs permettent de mesurer la


performance des mod`eles de classification.
Chaque indicateur a ses sp´ecificit´es.
il faut bien souvent en utiliser plusieurs pour avoir
une vision compl`ete de la performance de votre
mod`ele.
Pour ´evaluer la performance d’un mod`ele de classification
nous pr´esentons quatre indicateurs qui sont calcul´es A˜
partir de la matrice de confusion:
L’accurac
y. Le
recall.
La
18 18 /
Exemple de classification
Exemple
Nous avons une base de donn´ees client qui ont ´et´e abonn
´es `a un service.
Des clients qui sont encore
abonn´es. Des clients qui ont
r´esili´e le service.

19 19 /
Exemple de
classification
Pour chaque client, on pr´edit s’il va r´esilier ou conserver son
abonnement le mois suivant.

Quelle est la performance de ce score ?


A quel point je peux lui faire confiance pour pr´edire les r
´esiliations futures?
20 20 /
Evaluation des m´ethodes de classification
Matrice de
confusion
Une matrice de confusion sert `a ´evaluer la qualit´e d’une classification. Elle
est obtenue en comparant les donn´ees class´ees avec des donn´ees de r´ef
´erence (test set) qui doivent ˆetre diff´erentes de celles ayant servi `a r´ealiser
la classification (train set).

Classification supervis´ee binaire, y ∈ {0, 1} , ou` la modalit´e de la variable `a pr


´edire correpond `a la classe postive et l’autre `a la classe n´egative, on nomme les
coefficients de la matrice de confusion:

21 21 /
Matrice de confusion

Les fausses pr´edictions:


Nombre de faux n´egatifs (FN): les clients qui ont r´esili
´e mais pour lesquels le score a pr´edit `a tort qu’ils
allaient rester abonn´es.
Nombre de faux positifs (FP): les clients qui sont rest´es
abonn´es alors que le score a pr´edit `a tort qu’ils allaient r
´esilier.
Les bonnes pr´edictions:
Nombre de vrais positifs (VP): les clients qui ont r´esili´e
pour lesquels le score a bien pr´edit qu’ils allaient r´esilier.
Nombre de vrais n´egatifs (VN): les clients qui sont toujours
abonn´es et pour lesquels l’algorithme a bien pr´edit qu’ils
resteraient abonn´es.

22 22 /
Evaluation des m´ethodes de classification

Accuracy
Il indique le pourcentage de bonnes pr
´edictions.
vrais positifs + vrais n
Accuracy
´egatifs tota
=
l
Parfois, l’accuracy ne suffit pas:
Consid´erons un probl`eme de
2-classes:
Nombre de Classes 0 ´egal `a 9990
Numbre de Classes 1 ´egal `a 10.
La base de donn´ees n’est pas
´equilibr´ee.
Si le mod`ele pr´edit que tout est de classe 0, la pr´ecision
est de 9990/10000 = 99, 9%. La pr´ecision est trompeuse
car le mod`ele ne d´etecte aucun exemple de classe 1.
23 23 /
Reca
ll

Le recall (rappel) permet de r´epondre `a la question


suivante :

Quelle proportion de r´esultats positifs r´eels a ´et´e identifi


´ee correctement ?

24 24 /
Reca
ll

Le recall (rappel) permet de r´epondre `a la question


suivante :

Quelle proportion de r´esultats positifs r´eels a ´et´e identifi


´ee correctement ?
Recall
Il donne une indication sur la part de faux n
´egatifs.
vrais
Recall =
positifs
Vrais positif + faux n
´egatifs

24 24 /
Reca
ll

Le recall (rappel) permet de r´epondre `a la question


suivante :

Quelle proportion de r´esultats positifs r´eels a ´et´e identifi


´ee correctement ?
Recall
Il donne une indication sur la part de faux n
´egatifs.
vrais
Recall =
positifs
Vrais positif + faux n
´egatifs

Un mod`ele ne produisant aucun faux n´egatif a un


rappel de 1, 0.

24 Octobre 24 /
Pr´ecision

La pr´ecision permet de r´epondre `a la question suivante:

Quelle proportion d’identifications positives ´etait


effectivement correcte ?

Equipe Machne 25 Octobre 25 /


Pr´ecision

La pr´ecision permet de r´epondre `a la question suivante:

Quelle proportion d’identifications positives ´etait


effectivement correcte ?
Pr´ecision
Il donne une indication sur les faux
positifs.
vrais
Precision =
positifs+ faux
Vrais positifs
positifs

25 25 /
Pr´ecision

La pr´ecision permet de r´epondre `a la question suivante:

Quelle proportion d’identifications positives ´etait


effectivement correcte ?
Pr´ecision
Il donne une indication sur les faux
positifs.
vrais
Precision =
positifs+ faux
Vrais positifs
positifs

Un mod`ele de classification ne produisant aucun faux


positif a une pr´ecision de 1, 0.

Equipe Machine 25 Octobre 25 /


Pr´ecision et
Recall

Pour ´evaluer les performances d’un mod`ele de fa¸con


compl`ete: Il faut analyser `a la fois la pr´ecision et le
rappel.
La pr´ecision et rappel sont fr´equemment en tension: l’am
´elioration de la pr´ecision se fait g´en´eralement au d
´etriment du rappel et r´eciproquement.
Si on veut comparer les performances de deux
classificateurs et on a: Supposons que le classificateur A a
un recall plus ´elev´e et le classificateur B a une pr´ecision
plus ´elev´ee.
Alors on ne peut pas comparer les classificateurs A et B
Diff´erents outils ont ´et´e cr´e´es pour ´evaluer simultan
´ement la pr´ecision et le rappel. La F-score en fait partie.

Equipe Machine 26 Octobre 26 /


F1
score
Le F1 score combine la pr´ecision et le recall d’un
classificateur en une seule m´etrique en prenant leur
moyenne harmonique.
Le F1 score est utilis´e pour comparer les
performances de deux classificateurs dans le cas
suivant:
Supposons que le classificateur A a un recall plus
´elev´e et le classificateur B a une pr´ecision plus
´elev´ee.
Dans ce cas, les F1 score des deux classificateurs peuvent
ˆetre utilis´es pour d´eterminer celui qui produit les
meilleurs r´esultats.

Equipe Machine 27 Octobre 27 /


F1
score
Le F1 score combine la pr´ecision et le recall d’un
classificateur en une seule m´etrique en prenant leur
moyenne harmonique.
Le F1 score est utilis´e pour comparer les
performances de deux classificateurs dans le cas
suivant:
Supposons que le classificateur A a un recall plus
´elev´e et le classificateur B a une pr´ecision plus
´elev´ee.
F1 score Dans ce cas, les F1 score des deux classificateurs peuvent
ˆetre pond´er´ee
Il est la moyenne utilis´es depour d´eterminer
la pr´ecision et du celui
recall. qui produit lesce
Par cons´equent,
score prendmeilleurs
en compter´esultats.
`a la fois les faux positifs et les faux n´egatifs.

2 ∗ (Recall ∗
F1 score =
Precision)
Recall +
Precision

Equipe Machine 27 Octobre 27 /


Courbe ROC

D´efinition
Une courbe ROC (receiver operating characteristic) est un
graphique repr´esentant les performances d’un mod`ele de
classification pour tous les seuils de classification.
Cette courbe trace le taux de vrais positifs en fonction
du taux de faux positifs:
vrais
Taux de vrais positifs
positifs+ faux n
Vrais positifs
(TVP) =
´egatifs faux
Taux de faux
faux positifs + Vrais n
positifs
positifs(TFP) =
´egatifs

Equipe Machine 28 Octobre 28 /


Courbe ROC

Une courbe ROC trace les valeurs TVP et TFP pour diff´erents seuils de
classification.
Diminuer la valeur du seuil de classification permet de classer plus d’´el
´ements comme positifs, ce qui augmente le nombre de faux positifs et de
vrais positifs.

Equipe Machine 29 Octobre 29 /


Objectifs de la courbe ROC

La courbe ROC est un outil d’´evaluation et de comparaison


des
1 mod`eles
Ind´ependant des matrices de confusion de mauvaise
affectation : Il permet de savoir si un mod`ele M 1 sera
meilleur que le mod`ele M 2 quelle que soit la matrice de
2 confusion.

Op´erationnel mˆeme dans le cas des distributions tr`es d


´es´equilibr´ees : Sans les effets pervers de la matrice de
3 confusion li´es `a la n´ecessit´e de r´ealiser une
affectation.
R´esultats valables mˆeme si l’´echantillon test n’est pas
4 repr´esentatif : Tirage prospectif ou tirage r´etrospectif :
les indications fournies restent les mˆemes.
Un outil graphique qui permet de visualiser les
5 performances : Un seul coup d’oeil doit permettre de voir le
mod`ele susceptible de nous int´eresser.
Un Machine
Equipe indicateur synth´etique associ´e
30 : Ais´ement interpr 30 /
Octobre
AU
C
AUC est la surface situ´ee sous la courbe
ROC: Mesure de la performance
Mesure la qualit´e de discrimination du mod`ele en traduisant la
d’un score.
probabilit´e qu’un vrai positif aura un score sup´erieur au score d’un
faux positif.
AUC varie entre 0 et 1, et en pratique elle est entre 0.5 et 1, car si A U C <
0, 5 cela signifie que les scores ont ´et´e invers´es.
AUC indique la probabilit´e pour que la fonction SCORE place un positif devant
un n´egatif dans le meilleur des cas A U C = 1.

35 35 /
Interpr´etation de
l’AUC

Equipe Machine 40 Octobre 40 /


Interpr´etation de l’AUC

Enveloppe convexe:
Elle est form´ee par les courbes qui, `a un moment ou `a
un autre, n’ont aucune courbe au-dessus d’elles.
Les courbes situ´ees sur cette enveloppe correspondent
aux mod`eles qui sont potentiellement les plus
performantes pour une matrice de couˆt donn´ee.
Les mod`eles qui ne participent jamais `a cette
enveloppe peuvent ˆetre
´elimin´es.
Dans notre exemple, l’enveloppe convexe est form´ee par
les courbes de M 3 et M 2.
M 1 est domin´e par tous les mod`eles, il peut ˆetre
´elimin´e.
M 4 peut ˆetre meilleur que M 3 dans certains cas, mais
dans ces cas l`a, il sera moins bon que M 2 : M 4 peut
Equipe Machine 41 Octobre 41 /
M´ethode de classification

Il existe des m´ethodes de


classification: k-Nearest
Neighbor (k-NN).
Arbre de d´ecision.
Support vector Machine (SVM)
Naive Bayes
R´egression logistique.

Equipe Machine 42 Octobre 42 /


MERCI POUR VOTRE
ATTENTION

Equipe Machine 43 Octobre 43 /

Vous aimerez peut-être aussi