Université Sidi Mohamed Ben Abdellah Université Sidi Mohamed Ben Abdellah
Faculté des Sciences et Techniques Faculté des Sciences et Techniques
Département d’Informatique Département d’Informatique
Evaluation des modèles
Machine Learning
Pr. Jamal Kharroubi
de machine learning
Rappel Rappel
Soit X = {x1, x2, .., xn } un ensemble de vecteurs de m L’objectif est de trouver une fonction fd dans l’espace de hypothèses
et Y = {y1, y2, .., yn} l’ensemble des étiquettes de X respectivement Fd qui a le risque empirique minimal.
Cette minimisation de risque empirique est estimée sur l’ensemble
Soit f: X Y
d’apprentissage
xi yi
Se fier à l’erreur obtenue sur les données d’apprentissage est une très
L’ensemble A = { (xi, yi) pour i =1, .., n) } représente l ’ensemble
mauvaise stratégie parce que cette erreur est souvent trop faible voir
d’apprentissage
nulle
Solution : choisir le modèle qui a l’erreur de généralisation minimale
1
Erreur de généralisation Erreur de généralisation minimal
Soit l’ensemble D un jeu de données. Pour la mise en place d’un bon Comment sélectionner ce modèle qui a l’erreur de généralisation
modèle de ML, on divise cet ensemble en deux ensembles disjoints minimale ?
A : l’ensemble d’apprentissage ( en général, 2/3 des données) En mettant en place, un bon protocole expérimental
T : l’ensemble de test (en général, 1/3 des données)
Diviser l’ensemble des données D en des ensembles A et T équilibrés (Dans le
Le modèle est construit sur l’ensemble A avec un risque empirique sens où toutes les variations existantes soient présentes dans les deux
minimal (le taux d’erreur est trop faible) ensembles et avec la même proportion)
Le modèle est testé sur l’ensemble T. L’erreur obtenue sur cet ensemble Utiliser un ensemble de validation si c’est possible
est l’erreur de généralisation Tester le maximum des espaces d’hypothèses possibles
Le meilleur modèle est celui qui l’erreur de généralisation minimale
Validation croisée (Cross Validation) Bootstrap
Diviser le jeu de données en K ensembles disjoint équilibrées Le bootstrap est la procédure qui consiste à construire K ensemble
Faire l’apprentissage sur (K-1) ensembles et le test sur l’ensemble qui d’apprentissage A1, A2, .. , AK en tirant aléatoirement n échantillon du
reste jeu de données D avec remplacement.
Chaque échantillon peut apparaitre plusieurs fois ou pas du tout dans
les Ai
L’évaluation des performances des modèles se fait sur l’intégralité
Le meilleur choix est de prendre K = 3 des données (tout l’ensemble D)
Permet de tester le modèle sur tout le jeu de données
2
Bootstrap Critères de performance
Les résultats obtenus sont un peu biaisées à cause de la présence des Il existe plusieurs façons d’évaluer la performance prédictive d’un
données d’apprentissage dans l’ensemble de test modèle d’apprentissage supervisé
Pour y remédier : Matrice de confusion : C’est une matrice qui représente les classes
On peut se limiter au test au données D \ Ai réelles par rapport aux classes prédites
Choisir un n = Card(Ai) infiniment petit par rapport Card(D)
Classe réelle
Cette méthode d’échantillonnage est très peu utilisé en pratique parce C1 C2 ... Ck
C1 NB(C1,C1) NB(C1,C2) ... NB(C1,Ck)
qu’elle jugée trop complexe en terme de temps de calcul et en besoin Classe
prédite C2 NB(C2,C1) NB(C2,C2) ... NB(C2,Ck)
de mémoire ... ... ... ... ...
Ck NB(Ck,C1) NB(Ck,C2) ... NB(Ck,Ck)
Critères de performance Critères de performance
Matrice de confusion : Cas binaire Matrice de confusion : Cas binaire
Autre mesure de performance à partir de la matrice de confusion :
Classe réelle
-1 1 Rappel (Recall ou sensitivity) :
Classe -1 TN FN
Prédite
𝑇𝑃
1 FP TP
𝑇𝑃 + 𝐹𝑁
TN : True Negative
Précision (Positive Predictive Value PPV) :
FN : False Negative
𝑇𝑃
TP : True Positive 𝑇𝑃 + 𝐹𝑃
FP : False Positive
3
Critères de performance Critères de performance
F-mesure (F-Score) la moyenne de la précision et du rappel: Soit l’exemple des scores obtenus en classement binaire sur 20
2 ∗ 𝑇𝑃 échantillons (10 positifs et 10 négatifs) suivant :
𝐹=
2 ∗ 𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁
Sur les données Positifs
Spécificité : 0,9 0,8 0,9 0,2 0,7 0,3 0,6 0,7 0,5 0,4
𝑇𝑁
𝑇𝑁 + 𝐹𝑃 Sur les données négatifs
0,2 0,7 0,3 0,2 0,5 0,4 0,7 0,1 0,6 0,3
Critères de performance Critères de performance
La courbe ROC La courbe Précision-Rappel
< 00/10 , 00/10 > < 00/10 , ------- >
< 00/10 , 02/10 > < 02/10 , 02/02 >
< 00/10 , 03/10 > < 03/10 , 03/03 >
< 02/10 , 05/10 > < 05/10 , 05/07 >
< 03/10 , 06/10 > < 06/10 , 06/09 >
Précision
TPR
< 04/10 , 07/10 > < 07/10 , 07/11 >
< 05/10 , 08/10 > < 08/10 , 08/13 >
< 07/10 , 09/10 > < 09/10 , 09/16 >
< 09/10 , 10/10 > < 10/10 , 10/19 >
< 10/10 , 10/10 > < 10/10 , 10/20 >
FPR Rappel
4
Critères de performance
La courbe DET (Detection Error Tradeoff)
< 10/10 , 00/10 >
< 08/10 , 00/10 >
< 07/10 , 00/10 >
< 05/10 , 02/10 >
< 04/10 , 03/10 >
FNR
< 03/10 , 04/10 >
< 02/10 , 05/10 >
< 01/10 , 07/10 >
< 00/10 , 09/10 >
< 00/10 , 10/10 >
FPR