0% ont trouvé ce document utile (0 vote)
32 vues5 pages

3 Evaluation

Le document traite de l'évaluation des modèles de machine learning, en mettant l'accent sur la minimisation de l'erreur de généralisation à travers des méthodes comme la validation croisée et le bootstrap. Il présente également des critères de performance pour évaluer les modèles, tels que la matrice de confusion, le rappel, la précision, et les courbes ROC et Précision-Rappel. L'objectif est de sélectionner le modèle avec la meilleure performance prédictive sur des ensembles de données équilibrés.

Transféré par

Abdelghaffour Mouhsine
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
32 vues5 pages

3 Evaluation

Le document traite de l'évaluation des modèles de machine learning, en mettant l'accent sur la minimisation de l'erreur de généralisation à travers des méthodes comme la validation croisée et le bootstrap. Il présente également des critères de performance pour évaluer les modèles, tels que la matrice de confusion, le rappel, la précision, et les courbes ROC et Précision-Rappel. L'objectif est de sélectionner le modèle avec la meilleure performance prédictive sur des ensembles de données équilibrés.

Transféré par

Abdelghaffour Mouhsine
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Sidi Mohamed Ben Abdellah Université Sidi Mohamed Ben Abdellah

Faculté des Sciences et Techniques Faculté des Sciences et Techniques


Département d’Informatique Département d’Informatique

Evaluation des modèles


Machine Learning
Pr. Jamal Kharroubi
de machine learning

Rappel Rappel
 Soit X = {x1, x2, .., xn } un ensemble de vecteurs de m  L’objectif est de trouver une fonction fd dans l’espace de hypothèses

et Y = {y1, y2, .., yn} l’ensemble des étiquettes de X respectivement Fd qui a le risque empirique minimal.
 Cette minimisation de risque empirique est estimée sur l’ensemble
 Soit f: X Y
d’apprentissage
xi yi
 Se fier à l’erreur obtenue sur les données d’apprentissage est une très
 L’ensemble A = { (xi, yi) pour i =1, .., n) } représente l ’ensemble
mauvaise stratégie parce que cette erreur est souvent trop faible voir
d’apprentissage
nulle
 Solution : choisir le modèle qui a l’erreur de généralisation minimale

1
Erreur de généralisation Erreur de généralisation minimal
 Soit l’ensemble D un jeu de données. Pour la mise en place d’un bon  Comment sélectionner ce modèle qui a l’erreur de généralisation
modèle de ML, on divise cet ensemble en deux ensembles disjoints minimale ?
 A : l’ensemble d’apprentissage ( en général, 2/3 des données)  En mettant en place, un bon protocole expérimental
 T : l’ensemble de test (en général, 1/3 des données)
 Diviser l’ensemble des données D en des ensembles A et T équilibrés (Dans le
 Le modèle est construit sur l’ensemble A avec un risque empirique sens où toutes les variations existantes soient présentes dans les deux
minimal (le taux d’erreur est trop faible) ensembles et avec la même proportion)

 Le modèle est testé sur l’ensemble T. L’erreur obtenue sur cet ensemble  Utiliser un ensemble de validation si c’est possible

est l’erreur de généralisation  Tester le maximum des espaces d’hypothèses possibles

 Le meilleur modèle est celui qui l’erreur de généralisation minimale

Validation croisée (Cross Validation) Bootstrap


 Diviser le jeu de données en K ensembles disjoint équilibrées  Le bootstrap est la procédure qui consiste à construire K ensemble
 Faire l’apprentissage sur (K-1) ensembles et le test sur l’ensemble qui d’apprentissage A1, A2, .. , AK en tirant aléatoirement n échantillon du
reste jeu de données D avec remplacement.
 Chaque échantillon peut apparaitre plusieurs fois ou pas du tout dans
les Ai
 L’évaluation des performances des modèles se fait sur l’intégralité
 Le meilleur choix est de prendre K = 3 des données (tout l’ensemble D)
 Permet de tester le modèle sur tout le jeu de données

2
Bootstrap Critères de performance
 Les résultats obtenus sont un peu biaisées à cause de la présence des  Il existe plusieurs façons d’évaluer la performance prédictive d’un
données d’apprentissage dans l’ensemble de test modèle d’apprentissage supervisé
 Pour y remédier :  Matrice de confusion : C’est une matrice qui représente les classes
 On peut se limiter au test au données D \ Ai réelles par rapport aux classes prédites
 Choisir un n = Card(Ai) infiniment petit par rapport Card(D)
Classe réelle
 Cette méthode d’échantillonnage est très peu utilisé en pratique parce C1 C2 ... Ck
C1 NB(C1,C1) NB(C1,C2) ... NB(C1,Ck)
qu’elle jugée trop complexe en terme de temps de calcul et en besoin Classe
prédite C2 NB(C2,C1) NB(C2,C2) ... NB(C2,Ck)

de mémoire ... ... ... ... ...


Ck NB(Ck,C1) NB(Ck,C2) ... NB(Ck,Ck)

Critères de performance Critères de performance


 Matrice de confusion : Cas binaire  Matrice de confusion : Cas binaire
 Autre mesure de performance à partir de la matrice de confusion :
Classe réelle
-1 1  Rappel (Recall ou sensitivity) :
Classe -1 TN FN
Prédite
𝑇𝑃
1 FP TP
𝑇𝑃 + 𝐹𝑁
 TN : True Negative
 Précision (Positive Predictive Value PPV) :
 FN : False Negative
𝑇𝑃
 TP : True Positive 𝑇𝑃 + 𝐹𝑃
 FP : False Positive

3
Critères de performance Critères de performance
 F-mesure (F-Score) la moyenne de la précision et du rappel:  Soit l’exemple des scores obtenus en classement binaire sur 20
2 ∗ 𝑇𝑃 échantillons (10 positifs et 10 négatifs) suivant :
𝐹=
2 ∗ 𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁
 Sur les données Positifs

 Spécificité : 0,9 0,8 0,9 0,2 0,7 0,3 0,6 0,7 0,5 0,4

𝑇𝑁
𝑇𝑁 + 𝐹𝑃  Sur les données négatifs
0,2 0,7 0,3 0,2 0,5 0,4 0,7 0,1 0,6 0,3

Critères de performance Critères de performance


 La courbe ROC  La courbe Précision-Rappel
< 00/10 , 00/10 > < 00/10 , ------- >
< 00/10 , 02/10 > < 02/10 , 02/02 >
< 00/10 , 03/10 > < 03/10 , 03/03 >
< 02/10 , 05/10 > < 05/10 , 05/07 >
< 03/10 , 06/10 > < 06/10 , 06/09 >

Précision
TPR

< 04/10 , 07/10 > < 07/10 , 07/11 >


< 05/10 , 08/10 > < 08/10 , 08/13 >
< 07/10 , 09/10 > < 09/10 , 09/16 >
< 09/10 , 10/10 > < 10/10 , 10/19 >
< 10/10 , 10/10 > < 10/10 , 10/20 >

FPR Rappel

4
Critères de performance
 La courbe DET (Detection Error Tradeoff)
< 10/10 , 00/10 >
< 08/10 , 00/10 >
< 07/10 , 00/10 >
< 05/10 , 02/10 >
< 04/10 , 03/10 >
FNR

< 03/10 , 04/10 >


< 02/10 , 05/10 >
< 01/10 , 07/10 >
< 00/10 , 09/10 >
< 00/10 , 10/10 >

FPR

Vous aimerez peut-être aussi