0% ont trouvé ce document utile (0 vote)
54 vues13 pages

Selection de Modele

Ce chapitre traite de la sélection et de l'évaluation des modèles d'apprentissage supervisé, en soulignant l'importance de distinguer l'évaluation de la sélection pour éviter le sur-apprentissage. Il présente des méthodes d'estimation de l'erreur de généralisation, telles que la validation croisée et le bootstrap, ainsi que des critères de performance comme la matrice de confusion, le rappel et la précision. L'objectif est de concevoir un cadre expérimental pour choisir le meilleur modèle tout en évaluant sa capacité à généraliser sur de nouvelles données.

Transféré par

christian n'takpe
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
54 vues13 pages

Selection de Modele

Ce chapitre traite de la sélection et de l'évaluation des modèles d'apprentissage supervisé, en soulignant l'importance de distinguer l'évaluation de la sélection pour éviter le sur-apprentissage. Il présente des méthodes d'estimation de l'erreur de généralisation, telles que la validation croisée et le bootstrap, ainsi que des critères de performance comme la matrice de confusion, le rappel et la précision. L'objectif est de concevoir un cadre expérimental pour choisir le meilleur modèle tout en évaluant sa capacité à généraliser sur de nouvelles données.

Transféré par

christian n'takpe
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 3

Sélection de modèle et évaluation

Nous avons formalisé au chapitre 2 l’apprentissage supervisé comme la recherche d’un modèle dont
l’erreur empirique est minimale sur un ensemble donné d’observations. Cependant, minimiser cette erreur
empirique ne garantit pas de minimiser l’erreur du modèle sur la totalité de l’espace des données. En effet,
dans une situation de sur-apprentissage, l’erreur du modèle sera sous-estimée. C’est cependant cette erreur,
ou, en d’autres mots, notre capacité à faire des prédictions sur des choses qui ne sont pas connues, qui nous
intéresse. Ce chapitre présente comment mettre en place un cadre expérimental qui permette d’évaluer un
modèle en évitant le biais du sur-apprentissage. Dans cette optique, nous veillerons à distinguer l’évaluation
d’un modèle, qui consiste à déterminer sa performance sur l’espace des données dans sa totalité, de sa
sélection, qui consiste à choisir le meilleur modèle parmi plusieurs.

Objectifs
— concevoir un cadre expérimental dans lequel sélectionner un modèle d’apprentissage supervisé ;
— choisir un ou des critères d’évaluation d’un modèle d’apprentissage supervisé ;
— estimer la performance en généralisation d’un modèle d’apprentissage supervisé.

Le théorème du no free lunch de Wolpert et Macready (1997) indique qu’aucun algorithme de machine
learning ne peut bien fonctionner pour tous les problèmes d’apprentissage : un algorithme qui fonctionne
bien sur un type particulier de problèmes le compensera en fonctionnant moins bien sur d’autres types de
problèmes. En d’autres termes, il n’y a pas de « baguette magique » qui puisse résoudre tous nos problèmes
de machine learning, et il est donc essentiel, pour un problème donné, de tester plusieurs possibilités afin
de sélectionner le modèle optimal. Notons au passage que plusieurs critères peuvent intervenir dans ce
choix : non seulement celui de la qualité des prédictions, qui nous intéresse dans ce chapitre, mais aussi
celui des ressources de calcul nécessaires, qui peuvent être un facteur limitant en pratique.

3.1 Estimation empirique de l’erreur de généralisation


L’erreur empirique mesurée sur les observations qui ont permis de construire le modèle est un mauvais
estimateur de l’erreur du modèle sur l’ensemble des données possibles, ou erreur de généralisation : si le
modèle sur-apprend, cette erreur empirique peut être proche de zéro voire nulle, tandis que l’erreur de
généralisation peut être arbitrairement grande.

36
3.1. Estimation empirique de l’erreur de généralisation 37

3.1.1 Jeu de test


Il est donc indispensable d’utiliser pour évaluer un modèle des données étiquetées qui n’ont pas servi
à le construire. La manière la plus simple d’y parvenir est de mettre de côté une partie des observations,
réservées à l’évaluation du modèle, et d’utiliser uniquement le reste des données pour le construire.
Définition 3.1 (Jeu de test, jeu d’entraînement) Étant donné un jeu de données D = {(~x i , y i )}i=1,...,n ,
partitionné en deux jeux Dtr et Dte , on appelle jeu d’entraînement (training set en anglais) l’ensemble Dtr uti-
lisé pour entraîner un modèle prédictif, et jeu de test (test set en anglais) l’ensemble Dte utilisé pour son
évaluation. 

Comme nous n’avons pas utilisé le jeu de test pour entraîner notre modèle, il peut être considéré comme
un jeu de données « nouvelles ». La perte calculée sur ce jeu de test est un estimateur de l’erreur de géné-
ralisation.

3.1.2 Jeu de validation


Considérons maintenant la situation dans laquelle nous voulons choisir entre K modèles. Nous pouvons
alors entraîner chacun des modèles sur le jeu de données d’entraînement, obtenant ainsi K fonctions de
décision f1 , f2 , . . . , fK , puis calculer l’erreur de chacun de ces modèles sur le jeu de test. Nous pouvons
ensuite choisir comme modèle celui qui a la plus petite erreur sur le jeu de test :

1 X
fˆ = arg min L(y, fk (~x)) (3.1)
k=1,...,K |Dte |
~
x,y∈Dte

Mais quelle est son erreur de généralisation ? Comme nous avons utilisé Dte pour sélectionner le modèle,
il ne représente plus un jeu indépendant composé de données nouvelles, inutilisées pour déterminer le
modèle.
La solution est alors de découper notre jeu de données en trois parties :
— Un jeu d’entraînement Dtr sur lequel nous pourrons entraîner nos K algorithmes d’apprentissage ;
— Un jeu de validation (validation set en anglais) Dval sur lequel nous évaluerons les K modèles ainsi
obtenus, afin de sélectionner un modèle définitif ;
— Un jeu de test Dte sur lequel nous évaluerons enfin l’erreur de généralisation du modèle choisi.
On voit ici qu’il est important de distinguer la sélection d’un modèle de son évaluation : les faire sur les
mêmes données peut nous conduire à sous-estimer l’erreur de généralisation et le sur-apprentissage du
modèle choisi.
Remarque
Une fois un modèle sélectionné, on peut le ré-entraîner sur l’union du jeu d’entraînement et du jeu de
validation afin de construire un modèle final.

3.1.3 Validation croisée


La séparation d’un jeu de données en un jeu d’entraînement et un jeu de test est nécessairement ar-
bitraire. Nous risquons ainsi d’avoir, par hasard, créé des jeux de données qui ne sont pas représentatifs.
Pour éviter cet écueil, il est souhaitable de reproduire plusieurs fois la procédure, puis de moyenner les
résultats obtenus afin de moyenner ces effets aléatoires. Le cadre le plus classique pour ce faire est celui de
la validation croisée, illustré sur la figure 3.1
38 Chapitre 3. Sélection de modèle et évaluation

Définition 3.2 (Validation croisée) Étant donné un jeu D de n observations, et un nombre K, on


appelle validation croisée la procédure qui consiste à
1. partitionner D en K parties de tailles sensiblement similaires, D1 , D2 , . . . , DK
2. pour chaque valeur de k = 1, S. . . , K,
— entraîner un modèle sur l6=k Dl
— évaluer ce modèle sur Dk .
S
Chaque partition de D en deux ensembles Dk et l6=k Dl est appelée un fold de la validation croisée. 

Chaque observation étiquetée du jeu D appartient à un unique jeu de test, et à (K − 1) jeux d’entraîne-
ment. Ainsi, cette procédure génère une prédiction par observation de D. Pour conclure sur la performance
du modèle, on peut :
— soit évaluer la qualité des prédictions sur D ;
— soit évaluer la qualité de chacun des K prédicteurs sur le jeu de test Dk correspondant, et moyenner
leurs performances. Cette deuxième approche permet aussi de rapporter l’écart-type de ces perfor-
mances, ce qui permet de se faire une meilleure idée de la variabilité de la qualité des prédictions
en fonction des données d’entraînement.

Figure 3.1 – Une validation croisée en 5 folds : Chaque observation appartient à un des 5 jeux de validation
(en blanc) et aux 4 autres jeux d’entraînement (en noir).

Stratification
Définition 3.3 (Validation croisée stratifiée) Une validation croisée est dite stratifiée si la moyenne
des étiquettes des observations est sensiblement la même dans chacun des K sous-ensembles Dk :
1 X i 1 X i 1 X i 1 X i
y ≈ y ≈ ··· ≈ y ≈ y.
|D1 | |D2 | |DK | |D|
i∈D1 i∈D2 i∈DK i∈D

Dans le cas d’un problème de classification, cela signifie que la proportion d’exemples de chaque classe
est la même dans chacun des Dk . Cette proportion est donc aussi la même que dans le jeu de données D
complet.
L’intérêt de cette procédure est de faire en sorte que la distribution des observations au sein de chaque
Dk soit la même qu’au sein du jeu de données D. Imaginons que par malchance un des folds ne contienne
que des exemples positifs dans son jeu d’entraînement et que des exemples négatifs dans son jeu de test :
il est vraisemblable que, sur ce fold, tout modèle apprenne à prédire que tout est positif et ait une très
mauvaise performance.
3.1. Estimation empirique de l’erreur de généralisation 39

Leave-one-out

Un algorithme d’apprentissage apprendra d’autant mieux qu’il y a d’avantage de données disponibles


pour l’entraînement : plus on connaît d’étiquettes pour des observations de l’espace X , plus on peut contraindre
le modèle à les respecter. Or pour un jeu de données de taille n, un jeu de test d’une validation croisée à
K folds contient (K−1)n
K points : les modèles entraînés apprendront d’autant mieux sur chacun des folds
qu’ils sont grands, ce qui nous pousse à considérer le cas où K = n.

Définition 3.4 (Validation croisée leave-one-out) Une validation croisée dont le nombre de folds est
égal au nombre d’observations dans le jeu d’entraînement, et dont chaque fold est donc composé d’un jeu
d’entraînement de taille n − 1 et d’un jeu de test de taille 1, est appelée leave one out : on met de côté, pour
chaque fold, un unique exemple. 

L’évaluation par leave-one-out présente deux inconvénients. Tout d’abord, elle requiert un grand temps
de calcul : on entraîne n modèles, chacun sur n−1 observations, au lieu de (dans le cas K = 10) 10 modèles,
chacun sur 90% des observations. De plus, les jeux d’entraînement ainsi formés sont très similaires entre
eux. Les modèles entraînés seront eux aussi très similaires, et généralement peu différents d’un modèle
entraîné sur l’intégralité du jeu de données. Par contre, les jeux de test seront disjoints, et les performances
pourront ainsi avoir une grande variabilité, ce qui compliquera leur interprétation.

3.1.4 Bootstrap
Une autre façon de rééchantillonner les données afin d’estimer l’erreur de généralisation est connue
sous le nom de bootstrap.

Définition 3.5 (Bootstrap) Étant donné un jeu D de n observations, et un nombre B, on appelle boots-
trap la procédure qui consiste à créer B échantillons D1 , D2 , . . . , DB de D, obtenus chacun en tirant n
exemples de D avec remplacement. Ainsi, chaque exemple peut apparaître plusieurs fois, ou pas du tout,
dans Db . 

Le bootstrap est une procédure couramment utilisée en statistiques pour estimer un paramètre en fonc-
tion de son estimation sur les B échantillons. En la suivant, on pourrait entraîner le modèle à évaluer sur
chaque échantillon Db , puis évaluer sa performance sur l’intégralité de D. Cependant, cette estimation se-
rait biaisée par la présence d’une partie des exemples de D dans Db . Il faut donc se limiter aux exemples
de D \ Db . En pratique, cette procédure est jugée trop complexe pour être souvent appliquée.

Remarque
La probabilité que (~x i , y i )
apparaisse dans Db peut être calculée comme le complémentaire à 1 de la
probabilité que (~x i , y i ) ne soit tiré aucune des n fois. La probabilité de (~x i , y i ) soit tiré une fois vaut n1 .
Ainsi
1 n
 
i i
P[(~x , y ) ∈ Db ] = 1 − 1 − .
n
n
Quand n est grand, cette probabilité vaut donc environ 1 − e−1 ≈ 0.632, car la limite en +∞ de 1 + nx
vaut ex .
Ainsi, Db contient environ deux tiers des observations de D.
40 Chapitre 3. Sélection de modèle et évaluation

3.2 Critères de performance


Il existe de nombreuses façons d’évaluer la performance prédictive d’un modèle d’apprentissage super-
visé. Cette section présente les principaux critères utilisés.

3.2.1 Matrice de confusion et critères dérivés


Comme nous l’avons vu, le nombre d’erreurs de classification permet d’évaluer la qualité d’un mo-
dèle prédictif. Notons que l’on préférera généralement décrire le nombre d’erreurs comme une fraction du
nombre d’exemples : un taux d’erreur de 1% est plus parlant qu’un nombre absolu d’erreurs.
Mais toutes les erreurs ne se valent pas nécessairement. Prenons l’exemple d’un modèle qui prédise si
oui ou non une radiographie présente une tumeur inquiétante : une fausse alerte, qui sera ensuite infirmée
par des examens complémentaires, est moins problématique que de ne pas déceler la tumeur et de ne pas
traiter la personne concernée. Les performances d’un modèle de classification, binaire comme multi-classe,
peuvent être résumée dans une matrice de confusion.
Définition 3.6 (Matrice de confusion) Étant donné un problème de classification, on appelle matrice
de confusion une matrice M contenant autant de lignes que de colonnes que de classes, et dont l’entrée Mck
est le nombre d’exemples de la classe c pour laquelle l’étiquette k a été prédite.
Dans le cas de la classification binaire, la matrice de confusion prend la forme suivante :
Classe réelle
0 1
Classe 0 vrais négatifs (TN) faux négatifs (FN)
prédite 1 faux positifs (FP) vrais positifs (TP)
On appelle vrais positifs (en anglais true positives) les exemples positifs correctement classifiés ; faux posi-
tifs (en anglais false positives) les exemples négatifs étiquetés positifs par le modèle ; et réciproquement pour
les vrais négatifs (true negatives) et les faux négatifs (false negatives). On note généralement par TP le nombre de
vrais positifs, FP le nombre de faux positifs, TN le nombre de vrais négatifs et FN le nombre de faux négatifs.
Les faux positifs sont aussi appelés fausses alarmes ou erreurs de type I, par opposition aux erreurs de type
II qui sont les faux négatifs. 

Il est possible de dériver de nombreux critères d’évaluation à partir de la matrice de confusion. En voici
quelques exemples :
Définition 3.7 (Rappel) On appelle rappel (recall en anglais), ou sensibilité (sensitivity en anglais), le taux
de vrais positifs, c’est-à-dire la proportion d’exemples positifs correctement identifiés comme tels :
TP
Rappel = .
TP + FN


Il est cependant très facile d’avoir un bon rappel en prédisant que tous les exemples sont positifs. Ainsi,
ce critère ne peut pas être utilisé seul. On lui adjoint ainsi souvent la précision :
Définition 3.8 (Précision) On appelle précision, ou valeur positive prédictive (positive predictive value, PPV)
la proportion de prédictions correctes parmi les prédictions positives :
TP
Précision = .
TP + FP

3.2. Critères de performance 41

De même que l’on peut facilement avoir un très bon rappel au détriment de la précision, il est aisé
d’obtenir une bonne précision (au détriment du rappel) en faisant très peu de prédictions positives (ce qui
réduit le risque qu’elles soient erronées)
Attention
L’anglais distingue precision (la précision ci-dessus) et accuracy, qui est la proportion d’exemples cor-
rectement étiquetés, soit le complémentaire à 1 du taux d’erreur, aussi traduit par précision en français. On
utilisera donc ces termes avec précaution.

Pour résumer rappel et précision en un seul nombre, on calculera la F-mesure :


Définition 3.9 (F-mesure) On appelle F-mesure (F-score ou F1-score en anglais) la moyenne harmonique
de la précision et du rappel :

Précision . Rappel 2TP


F =2 = .
Précision + Rappel 2TP + FP + FN

Définition 3.10 (Spécificité) On appelle spécificité le taux de vrais négatifs, autrement dit la proportion
d’exemples négatifs correctement identifiés comme tels.
TN
Spécificité = .
FP + TN


Exemple
Prenons l’exemple d’un test clinique pour illustrer ces différents critères. Il ne s’agit pas ici d’un modèle
d’apprentissage automatique, mais d’un frottis de dépistage du cancer du col de l’utérus : il s’agit d’un
examen beaucoup plus simple et moins invasif qu’un examen histologique, qui doit être interprété par un
expert, et servira de vérité terrain.
Les résultats d’une expérience menée sur 4 000 femmes âgées de 40 ans et plus sont présentés sur le
tableau 3.1.

Cancer Pas de cancer Total


Frottis + 190 210 400
Frottis - 10 3590 3600
Total 200 3800 4000

Table 3.1 – Matrice de confusion pour une expérience sur le dépistage du cancer du col de l’utérus par
frottis.

Le rappel est de 95%, la spécificité de 94.5%, mais la précision ne vaut que 47.5%. En effet, ce test est
un bon outil de dépistage : la probabilité de n’avoir effectivement pas de cancer quand le frottis est négatif
est élevée (3590/3600 ≈ 99.7%). Cependant, c’est un mauvais outil diagnostique, au sens où la probabilité
de fausse alarme est très élevée.
42 Chapitre 3. Sélection de modèle et évaluation

3.2.2 Évaluation de méthodes de classification binaire retournant un score


De nombreux algorithmes de classification ne retournent pas directement une étiquette de classe, mais
utilisent une fonction de décision qui doit ensuite être seuillée pour devenir une étiquette. Cette fonction
de décision peut être un score arbitraire (par exemple, la proportion d’exemples positifs parmi les k plus
proches voisins du point à étiqueter – nous verrons l’algorithme des k plus proches voisins en détails au
chapitre 8) ou la probabilité d’appartenir à la classe positive (comme c’est par exemple le cas pour la ré-
gression logistique présentée à la section 5.3).
Plusieurs critères permettent d’évaluer la qualité de la fonction de décision avant seuillage.

Courbe ROC

Définition 3.11 (Courbe ROC) On appelle courbe ROC, de l’anglais Receiver-Operator Characteristic la
courbe décrivant l’évolution de la sensibilité en fonction du complémentaire à 1 de la spécificité, parfois
appelé antispécificité, lorsque le seuil de décision change.
Le terme vient des télécommunications, où ces courbes servent à étudier si un système arrive à séparer
le signal du bruit de fond.
On peut synthétiser une courbe ROC par l’aire sous cette courbe, souvent abrégée AUROC pour Area
Under the ROC. 

Un exemple de courbe ROC est présenté sur la figure 3.2. Le point (0, 0) apparaît quand on utilise comme
seuil un nombre supérieur à la plus grande valeur retournée par la fonction de décision : ainsi, tous les
exemples sont étiquetés négatifs. À l’inverse, le point (1, 1) apparaît quand on utilise pour seuil une valeur
inférieure au plus petit score retourné par la fonction de décision : tous les exemples sont alors étiquetés
positifs.

Figure 3.2 – Les courbes ROC de deux modèles.

Pour construire la courbe ROC, on prend pour seuil les valeurs successives de la fonction de décision sur
notre jeu de données. Ainsi, à chaque nouvelle valeur de seuil, une observation que l’on prédisait précédem-
ment négative change d’étiquette. Si cette observation est effectivement positive, la sensibilité augmente
3.2. Critères de performance 43

de 1/np (où np est le nombre d’exemples positifs) ; sinon, c’est l’antispécificité qui augmente de 1/nn , où
nn est le nombre d’exemples négatifs. La courbe ROC est donc une courbe en escaliers.
Un classifieur idéal, qui ne commet aucune erreur, associe systématique des scores plus faibles aux
exemples négatifs qu’aux exemples positifs. Sa courbe ROC suit donc le coin supérieur gauche du carré
[0, 1]2 ; il a une aire sous la courbe de 1.
La courbe ROC d’un classifieur aléatoire, qui fera sensiblement la même proportion d’erreurs que de
classifications correctes quel que soit le seuil utilisé, suit la diagonale de ce carré. L’aire sous la courbe ROC
d’un classifieur aléatoire vaut donc 0.5.
Exemple
Pour illustrer la construction d’une courbe ROC, prenons l’exemple décrit sur le tableau 3.2.

Étiquette + - + + - -
Score 0.9 0.8 0.6 0.4 0.3 0.1

Table 3.2 – Exemple de résultats d’une expérience de classification binaire, évaluée sur 6 échantillons.

Pour un seuil supérieur à 0.9, les 6 exemples sont étiquetés négatifs. On commence donc par le point
(0, 0). Pour un seuil entre 0.95 et 0.9, seule la première observation est étiquetée positive. La sensibilité est
donc de 31 tandis que l’antispécificité reste nulle. On peut continuer ainsi jusqu’à utiliser un seuil inférieur
à 0.1 :
Seuil > 0.9 0.8–0.9 0.6–0.8 0.4–0.6 0.3–0.4 0.1–0.3 < 0.1
TP/P 0 1/3 1/3 2/3 1 1 1
FP/P 0 0 1/3 1/3 1/3 2/3 1
La courbe ROC correspondante est visible sur la figure 3.3.

Figure 3.3 – Courbe ROC correspondant à l’expérience du tableau 3.2.

On peut enfin utiliser la courbe ROC pour choisir un seuil de décision, à partir de la sensibilité (ou de la
spécificité) que l’on souhaite garantir.
44 Chapitre 3. Sélection de modèle et évaluation

Courbe précision-rappel
La courbe précision-rappel vient souvent complémenter la courbe ROC.
Définition 3.12 (Courbe précisioj-rappel) On appelle courbe précision-rappel, ou Precision-Recall curve
en anglais, la courbe décrivant l’évolution de la précision en fonction du rappel, lorsque le seuil de décision
change.
Pour synthétiser cette courbe, on peut utiliser l’aire sous celle-ci, souvent abrégée AUPR pour Area Under
the Precision-Recall curve. 

Un exemple de courbe précision-rappel, pour les mêmes données que la figure 3.2, est présenté sur la
figure 3.4.

Figure 3.4 – Les courbes précision-rappel de deux modèles.

Remarque
Pour le seuil le plus élevé, aucun exemple n’est étiqueté positif, et la précision n’est donc pas définie. Par
convention, on utilise généralement une précision de 1 si la première observation à considérer est positive,
et une précision de 0 sinon.

Exemple
Reprenons l’exemple précédent pour construire une courbe précision-rappel. Les valeurs de la préci-
sion et du rappel sont les suivantes :

Seuil > 0.9 0.8–0.9 0.6–0.8 0.4–0.6 0.3–0.4 0.1–0.3 < 0.1
Rappel 0 1/3 1/3 2/3 1 1 1
Précision – 1 1/2 2/3 3/4 3/5 3/6

On obtient donc la courbe précision-rappel visible sur la figure 3.5.


3.2. Critères de performance 45

Figure 3.5 – Courbe précision-rappel correspondant à l’expérience du tableau 3.2.

3.2.3 Erreurs de régression


Dans le cas d’un problème de régression, le nombre d’erreurs n’est pas un critère approprié pour évaluer
la performance. D’une part, à cause des imprécisions numériques, il est délicat de dire d’une prédiction à
valeur réelle si elle est correcte ou non. D’autre part, un modèle dont 50% des prédictions sont correctes à
0.1% près et les 50 autres pourcent sont très éloignées des vraies valeurs vaut-il mieux qu’un modèle qui
n’est correct qu’à 1% près, mais pour 100% des exemples ?
Ainsi, on préférera quantifier la performance d’un modèle de régression en fonction de l’écart entre les
prédictions et les valeurs réelles.
Un premier critère est donc l’erreur quadratique moyenne :

Définition 3.13 (Erreur quadratique moyenne (MSE)) Étant données n étiquettes réelles y 1 , y 2 , . . . , y n
et n prédictions f (~x 1 ), f (~x 2 ), . . . , f (~x n ), on appelle erreur quadratique moyenne, ou MSE de l’anglais mean
squared error la valeur
n
1X 2
MSE = f (~x i ) − y i .
n
i=1

Pour mesurer l’erreur dans la même unité que la cible, on lui préfère souvent sa racine :

Définition 3.14 (RMSE) Étant données n étiquettes réelles y 1 , y 2 , . . . , y n et n prédictions f (~x 1 ), f (~x 2 ), . . . , f (~x n ),
on appelle racine de l’erreur quadratique moyenne, ou RMSE de l’anglais root mean squared error la valeur
v
u n
u1 X
RMSE = t (f (~x i ) − y i )2 .
n
i=1


46 Chapitre 3. Sélection de modèle et évaluation

Dans le cas où les valeurs cibles couvrent plusieurs ordres de grandeur, on préfère parfois passer au log
avant de comparer f (~x i ) à y i , afin de ne pas donner plus d’importance aux erreurs faites pour des valeurs
plus élevées.

Définition 3.15 (RMSLE) Étant données n étiquettes réelles y 1 , y 2 , . . . , y n et n prédictions f (~x 1 ), f (~x 2 ), . . . , f (~x n ),
on appelle racine du log de l’erreur quadratique moyenne, ou RMSLE de l’anglais root mean squared log error la va-
leur v
u n
u1 X
RMSLE = t (log (f (~x i ) + 1) − log (y i + 1))2 .
n
i=1

L’interprétation de ces erreurs requiert néanmoins de connaître la distribution des valeurs cibles : une
RMSE de 1 cm n’aura pas la même signification selon qu’on essaie de prédire la taille d’humains ou celle de
drosophiles. Pour répondre à cela, il est possible de normaliser la somme des carrés des résidus non pas en
en faisant la moyenne, mais en la comparant à la somme des distances des valeurs cibles à leur moyenne.

Définition 3.16 (Coefficient de détermination) Étant données n étiquettes réelles y 1 , y 2 , . . . , y n et


n prédictions f (~x 1 ), f (~x 2 ), . . . , f (~x n ), on appelle erreur carrée relative, ou RSE de l’anglais relative squared
error la valeur
Pn 2
i=1 f (~x i) − yi
RSE = Pn  .
i 1 Pn l 2
i=1 y − n l=1 y

Le complémentaire à 1 de la RSE est le coefficient de détermination, noté R2 . 

On note le coefficient de détermination R2 car il s’agit du carré du coefficient de corrélation entre ~y et


(f (~x 1 ), f (~x 2 ), . . . , f (~x n )) donné par
Pn
y i − n1 nl=1 y l f (~x i ) − n1 nl=1 f (~x l )
P  P 
i=1
R = qP 2 qPn 2 (3.2)
n
y i − n1 nl=1 y l x i ) − n1 nl=1 f (~x l ) .
P P
i=1 i=1 f (~

Ce coefficient indique à quel point les valeurs prédites sont corrélées aux valeurs réelles ; attention, il sera
élevé aussi si elles leur sont anti-corrélées.

3.2.4 Comparaison à des algorithmes naïfs


Pour construire un modèle de machine learning, nous nous appuyons d’une part sur les données, et
d’autre part sur des hypothèses quant à la forme de ce modèle ; ces hypothèses déterminent l’espace des
hypothèses. La validité de ces hypothèses dépend du problème étudié. Ce problème peut être plus ou moins
facile, et la performance d’un modèle que nous avons entraîné ne peut être interprétée qu’à la lueur de cette
difficulté.
Pour la déterminer, il peut être très utile d’utiliser des approches d’apprentissage naïves, autrement dit
très simples, qui utilisent certaines propriétés du jeu d’entraînement mais pas de l’observation à étiqueter.
Nous n’attendons pas de bonnes performances de ces méthodes mais elles servent d’étalon pour mieux
comprendre les performances mesurées par ailleurs, en nous indiquant le « strict minimum » que l’on peut
attendre de nos modèles.
3.2. Critères de performance 47

Méthodes naïves pour la classification


Pour un problème de classification, on peut par exemple considérer une des approches suivantes :
— Prédire systématiquement l’étiquette majoritaire dans le jeu d’entraînement.
— Prédire une étiquette aléatoire, selon la distribution des étiquettes dans le jeu d’entraînement.
— Dans le cas d’une classification binaire, prédire des scores de manière uniforme avant de les seuiller.
Cette méthode est plus recommandée si l’on cherche à tracer des courbes ROC ou PR.
Remarque
Si le jeu d’entraînement est déséquilibré, à savoir qu’une classe y est largement plus présente que les
autres, le premier algorithme naïf que nous décrivons peut avoir un taux d’erreur très faible. Il faudra aussi
prendre en compte la spécificité de l’algorithme.

Méthodes naïves pour la régression


Pour un problème de régression, on peut considérer les approches naïves suivantes :
— Prédire une valeur aléatoire, uniformément entre la plus petite et la plus grande des valeurs des
étiquettes du jeu d’entraînement ;
— Prédire systématiquement la moyenne ou la médiane des étiquettes du jeu d’entraînement.

Points clefs
— Pour éviter le sur-apprentissage, il est essentiel lors de l’étape de sélection du modèle de valider les
différents modèles testés sur un jeu de données différent de celui utilisé pour l’entraînement.
— Pour estimer la performance en généralisation d’un modèle, il est essentiel de l’évaluer sur des don-
nées qui n’ont été utilisées ni pour l’entraînement, ni pour la sélection de ce modèle.
— De nombreux critères permettent d’évaluer la performance prédictive d’un modèle. On les choisira
en fonction de l’application.
— Pour interpréter la performance d’un modèle, il peut être utile de le comparer à une approche naïve.

Pour aller plus loin


• En construisant la courbe précision-rappel de la figure 3.5, nous avons relié les points par des seg-
ments. Cette interpolation linéaire n’est en fait pas appropriée. On pourra se référer aux articles de
Davis et Goadrich (2006) et Fawcett (2006).
• Pour certains modèles, en particulier linéaires (voir chapitre 5), il est possible d’estimer l’optimisme,
c’est-à-dire la différence entre l’erreur d’entraînement et l’erreur de test, de manière théorique,
plutôt que d’utiliser une validation croisée. Dans le cas des modèles linéaires, on pourra notamment
utiliser le coefficient Cp de Mallow, le critère d’information d’Akaike ou le critère d’information bayésien.
Pour plus de détails, on se reportera au livre de Dodge et Rousson (2004).
• La longueur de description minimale (ou minimum description length, MDL) est un concept issu de la théo-
rie de l’information qui peut être utilisé pour la sélection de modèle (Rissanen, 1978). Dans ce cadre,
les étiquettes d’un jeu de données D peuvent être représentées par, d’une part une représentation
d’un modèle, et d’autre part une représentation de la différence entre les prédictions du modèle et
48 Chapitre 3. Sélection de modèle et évaluation

leurs vraies étiquettes dans D. Le meilleur modèle est celui pour lequel la somme des tailles de ces
représentations est minimale : un bon modèle permet de compresser efficacement les données.
• Pour une discussion détaillée des procédures de validation croisée, on pourra consulter Arlot et
Celisse (2010).

Bibliographie

Arlot, S. et Celisse, A. (2010). A survey of cross-validation procedures for model selection. Statistics Surveys,
4 :40–79.

Davis, J. et Goadrich, M. (2006). The relationship between Precision-Recall and ROC curves. In Proceedings
of the 23rd International Conference on Machine Learning, ICML ’06, pages 233–240, New York, NY, USA. ACM.

Dodge, Y. et Rousson, V. (2004). Analyse de régression appliquée. Dunod.

Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27 :861–874.

Rissanen, J. (1978). Modeling by shortest data description. Automatica, 14(5) :465–471.

Wolpert, D. H. et Macready, W. G. (1997). No free lunch theorems for optimization. IEEE Transactions on
Evolutionary Computation, 1(1) :67–82.

Vous aimerez peut-être aussi