0% ont trouvé ce document utile (0 vote)

54 vues13 pages

Selection de Modele

Ce chapitre traite de la sélection et de l'évaluation des modèles d'apprentissage supervisé, en soulignant l'importance de distinguer l'évaluation de la sélection pour éviter le sur-apprentissage. Il présente des méthodes d'estimation de l'erreur de généralisation, telles que la validation croisée et le bootstrap, ainsi que des critères de performance comme la matrice de confusion, le rappel et la précision. L'objectif est de concevoir un cadre expérimental pour choisir le meilleur modèle tout en évaluant sa capacité à généraliser sur de nouvelles données.

Transféré par

christian n'takpe

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

54 vues13 pages

Selection de Modele

Transféré par

christian n'takpe

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 3

Sélection de modèle et évaluation

Nous avons formalisé au chapitre 2 l’apprentissage supervisé comme la recherche d’un modèle dont
l’erreur empirique est minimale sur un ensemble donné d’observations. Cependant, minimiser cette erreur
empirique ne garantit pas de minimiser l’erreur du modèle sur la totalité de l’espace des données. En effet,
dans une situation de sur-apprentissage, l’erreur du modèle sera sous-estimée. C’est cependant cette erreur,
ou, en d’autres mots, notre capacité à faire des prédictions sur des choses qui ne sont pas connues, qui nous
intéresse. Ce chapitre présente comment mettre en place un cadre expérimental qui permette d’évaluer un
modèle en évitant le biais du sur-apprentissage. Dans cette optique, nous veillerons à distinguer l’évaluation
d’un modèle, qui consiste à déterminer sa performance sur l’espace des données dans sa totalité, de sa
sélection, qui consiste à choisir le meilleur modèle parmi plusieurs.

Objectifs
— concevoir un cadre expérimental dans lequel sélectionner un modèle d’apprentissage supervisé ;
— choisir un ou des critères d’évaluation d’un modèle d’apprentissage supervisé ;
— estimer la performance en généralisation d’un modèle d’apprentissage supervisé.

Le théorème du no free lunch de Wolpert et Macready (1997) indique qu’aucun algorithme de machine
learning ne peut bien fonctionner pour tous les problèmes d’apprentissage : un algorithme qui fonctionne
bien sur un type particulier de problèmes le compensera en fonctionnant moins bien sur d’autres types de
problèmes. En d’autres termes, il n’y a pas de « baguette magique » qui puisse résoudre tous nos problèmes
de machine learning, et il est donc essentiel, pour un problème donné, de tester plusieurs possibilités afin
de sélectionner le modèle optimal. Notons au passage que plusieurs critères peuvent intervenir dans ce
choix : non seulement celui de la qualité des prédictions, qui nous intéresse dans ce chapitre, mais aussi
celui des ressources de calcul nécessaires, qui peuvent être un facteur limitant en pratique.

3.1 Estimation empirique de l’erreur de généralisation

L’erreur empirique mesurée sur les observations qui ont permis de construire le modèle est un mauvais
estimateur de l’erreur du modèle sur l’ensemble des données possibles, ou erreur de généralisation : si le
modèle sur-apprend, cette erreur empirique peut être proche de zéro voire nulle, tandis que l’erreur de
généralisation peut être arbitrairement grande.

36
3.1. Estimation empirique de l’erreur de généralisation 37

3.1.1 Jeu de test

Il est donc indispensable d’utiliser pour évaluer un modèle des données étiquetées qui n’ont pas servi
à le construire. La manière la plus simple d’y parvenir est de mettre de côté une partie des observations,
réservées à l’évaluation du modèle, et d’utiliser uniquement le reste des données pour le construire.
Définition 3.1 (Jeu de test, jeu d’entraînement) Étant donné un jeu de données D = {(~x i , y i )}i=1,...,n ,
partitionné en deux jeux Dtr et Dte , on appelle jeu d’entraînement (training set en anglais) l’ensemble Dtr uti-
lisé pour entraîner un modèle prédictif, et jeu de test (test set en anglais) l’ensemble Dte utilisé pour son
évaluation.

Comme nous n’avons pas utilisé le jeu de test pour entraîner notre modèle, il peut être considéré comme
un jeu de données « nouvelles ». La perte calculée sur ce jeu de test est un estimateur de l’erreur de géné-
ralisation.

3.1.2 Jeu de validation

Considérons maintenant la situation dans laquelle nous voulons choisir entre K modèles. Nous pouvons
alors entraîner chacun des modèles sur le jeu de données d’entraînement, obtenant ainsi K fonctions de
décision f1 , f2 , . . . , fK , puis calculer l’erreur de chacun de ces modèles sur le jeu de test. Nous pouvons
ensuite choisir comme modèle celui qui a la plus petite erreur sur le jeu de test :

1 X
fˆ = arg min L(y, fk (~x)) (3.1)
k=1,...,K |Dte |
~
x,y∈Dte

Mais quelle est son erreur de généralisation ? Comme nous avons utilisé Dte pour sélectionner le modèle,
il ne représente plus un jeu indépendant composé de données nouvelles, inutilisées pour déterminer le
modèle.
La solution est alors de découper notre jeu de données en trois parties :
— Un jeu d’entraînement Dtr sur lequel nous pourrons entraîner nos K algorithmes d’apprentissage ;
— Un jeu de validation (validation set en anglais) Dval sur lequel nous évaluerons les K modèles ainsi
obtenus, afin de sélectionner un modèle définitif ;
— Un jeu de test Dte sur lequel nous évaluerons enfin l’erreur de généralisation du modèle choisi.
On voit ici qu’il est important de distinguer la sélection d’un modèle de son évaluation : les faire sur les
mêmes données peut nous conduire à sous-estimer l’erreur de généralisation et le sur-apprentissage du
modèle choisi.
Remarque
Une fois un modèle sélectionné, on peut le ré-entraîner sur l’union du jeu d’entraînement et du jeu de
validation afin de construire un modèle final.

3.1.3 Validation croisée

La séparation d’un jeu de données en un jeu d’entraînement et un jeu de test est nécessairement ar-
bitraire. Nous risquons ainsi d’avoir, par hasard, créé des jeux de données qui ne sont pas représentatifs.
Pour éviter cet écueil, il est souhaitable de reproduire plusieurs fois la procédure, puis de moyenner les
résultats obtenus afin de moyenner ces effets aléatoires. Le cadre le plus classique pour ce faire est celui de
la validation croisée, illustré sur la figure 3.1
38 Chapitre 3. Sélection de modèle et évaluation

Définition 3.2 (Validation croisée) Étant donné un jeu D de n observations, et un nombre K, on

appelle validation croisée la procédure qui consiste à
1. partitionner D en K parties de tailles sensiblement similaires, D1 , D2 , . . . , DK
2. pour chaque valeur de k = 1, S. . . , K,
— entraîner un modèle sur l6=k Dl
— évaluer ce modèle sur Dk .
S
Chaque partition de D en deux ensembles Dk et l6=k Dl est appelée un fold de la validation croisée.

Chaque observation étiquetée du jeu D appartient à un unique jeu de test, et à (K − 1) jeux d’entraîne-
ment. Ainsi, cette procédure génère une prédiction par observation de D. Pour conclure sur la performance
du modèle, on peut :
— soit évaluer la qualité des prédictions sur D ;
— soit évaluer la qualité de chacun des K prédicteurs sur le jeu de test Dk correspondant, et moyenner
leurs performances. Cette deuxième approche permet aussi de rapporter l’écart-type de ces perfor-
mances, ce qui permet de se faire une meilleure idée de la variabilité de la qualité des prédictions
en fonction des données d’entraînement.

Figure 3.1 – Une validation croisée en 5 folds : Chaque observation appartient à un des 5 jeux de validation
(en blanc) et aux 4 autres jeux d’entraînement (en noir).

Stratification
Définition 3.3 (Validation croisée stratifiée) Une validation croisée est dite stratifiée si la moyenne
des étiquettes des observations est sensiblement la même dans chacun des K sous-ensembles Dk :
1 X i 1 X i 1 X i 1 X i
y ≈ y ≈ ··· ≈ y ≈ y.
|D1 | |D2 | |DK | |D|
i∈D1 i∈D2 i∈DK i∈D

Dans le cas d’un problème de classification, cela signifie que la proportion d’exemples de chaque classe
est la même dans chacun des Dk . Cette proportion est donc aussi la même que dans le jeu de données D
complet.
L’intérêt de cette procédure est de faire en sorte que la distribution des observations au sein de chaque
Dk soit la même qu’au sein du jeu de données D. Imaginons que par malchance un des folds ne contienne
que des exemples positifs dans son jeu d’entraînement et que des exemples négatifs dans son jeu de test :
il est vraisemblable que, sur ce fold, tout modèle apprenne à prédire que tout est positif et ait une très
mauvaise performance.
3.1. Estimation empirique de l’erreur de généralisation 39

Leave-one-out

Un algorithme d’apprentissage apprendra d’autant mieux qu’il y a d’avantage de données disponibles

pour l’entraînement : plus on connaît d’étiquettes pour des observations de l’espace X , plus on peut contraindre
le modèle à les respecter. Or pour un jeu de données de taille n, un jeu de test d’une validation croisée à
K folds contient (K−1)n
K points : les modèles entraînés apprendront d’autant mieux sur chacun des folds
qu’ils sont grands, ce qui nous pousse à considérer le cas où K = n.

Définition 3.4 (Validation croisée leave-one-out) Une validation croisée dont le nombre de folds est
égal au nombre d’observations dans le jeu d’entraînement, et dont chaque fold est donc composé d’un jeu
d’entraînement de taille n − 1 et d’un jeu de test de taille 1, est appelée leave one out : on met de côté, pour
chaque fold, un unique exemple.

L’évaluation par leave-one-out présente deux inconvénients. Tout d’abord, elle requiert un grand temps
de calcul : on entraîne n modèles, chacun sur n−1 observations, au lieu de (dans le cas K = 10) 10 modèles,
chacun sur 90% des observations. De plus, les jeux d’entraînement ainsi formés sont très similaires entre
eux. Les modèles entraînés seront eux aussi très similaires, et généralement peu différents d’un modèle
entraîné sur l’intégralité du jeu de données. Par contre, les jeux de test seront disjoints, et les performances
pourront ainsi avoir une grande variabilité, ce qui compliquera leur interprétation.

3.1.4 Bootstrap
Une autre façon de rééchantillonner les données afin d’estimer l’erreur de généralisation est connue
sous le nom de bootstrap.

Définition 3.5 (Bootstrap) Étant donné un jeu D de n observations, et un nombre B, on appelle boots-
trap la procédure qui consiste à créer B échantillons D1 , D2 , . . . , DB de D, obtenus chacun en tirant n
exemples de D avec remplacement. Ainsi, chaque exemple peut apparaître plusieurs fois, ou pas du tout,
dans Db .

Le bootstrap est une procédure couramment utilisée en statistiques pour estimer un paramètre en fonc-
tion de son estimation sur les B échantillons. En la suivant, on pourrait entraîner le modèle à évaluer sur
chaque échantillon Db , puis évaluer sa performance sur l’intégralité de D. Cependant, cette estimation se-
rait biaisée par la présence d’une partie des exemples de D dans Db . Il faut donc se limiter aux exemples
de D \ Db . En pratique, cette procédure est jugée trop complexe pour être souvent appliquée.

Remarque
La probabilité que (~x i , y i )
apparaisse dans Db peut être calculée comme le complémentaire à 1 de la
probabilité que (~x i , y i ) ne soit tiré aucune des n fois. La probabilité de (~x i , y i ) soit tiré une fois vaut n1 .
Ainsi
1 n

i i
P[(~x , y ) ∈ Db ] = 1 − 1 − .
n
n
Quand n est grand, cette probabilité vaut donc environ 1 − e−1 ≈ 0.632, car la limite en +∞ de 1 + nx
vaut ex .
Ainsi, Db contient environ deux tiers des observations de D.
40 Chapitre 3. Sélection de modèle et évaluation

3.2 Critères de performance

Il existe de nombreuses façons d’évaluer la performance prédictive d’un modèle d’apprentissage super-
visé. Cette section présente les principaux critères utilisés.

3.2.1 Matrice de confusion et critères dérivés

Comme nous l’avons vu, le nombre d’erreurs de classification permet d’évaluer la qualité d’un mo-
dèle prédictif. Notons que l’on préférera généralement décrire le nombre d’erreurs comme une fraction du
nombre d’exemples : un taux d’erreur de 1% est plus parlant qu’un nombre absolu d’erreurs.
Mais toutes les erreurs ne se valent pas nécessairement. Prenons l’exemple d’un modèle qui prédise si
oui ou non une radiographie présente une tumeur inquiétante : une fausse alerte, qui sera ensuite infirmée
par des examens complémentaires, est moins problématique que de ne pas déceler la tumeur et de ne pas
traiter la personne concernée. Les performances d’un modèle de classification, binaire comme multi-classe,
peuvent être résumée dans une matrice de confusion.
Définition 3.6 (Matrice de confusion) Étant donné un problème de classification, on appelle matrice
de confusion une matrice M contenant autant de lignes que de colonnes que de classes, et dont l’entrée Mck
est le nombre d’exemples de la classe c pour laquelle l’étiquette k a été prédite.
Dans le cas de la classification binaire, la matrice de confusion prend la forme suivante :
Classe réelle
0 1
Classe 0 vrais négatifs (TN) faux négatifs (FN)
prédite 1 faux positifs (FP) vrais positifs (TP)
On appelle vrais positifs (en anglais true positives) les exemples positifs correctement classifiés ; faux posi-
tifs (en anglais false positives) les exemples négatifs étiquetés positifs par le modèle ; et réciproquement pour
les vrais négatifs (true negatives) et les faux négatifs (false negatives). On note généralement par TP le nombre de
vrais positifs, FP le nombre de faux positifs, TN le nombre de vrais négatifs et FN le nombre de faux négatifs.
Les faux positifs sont aussi appelés fausses alarmes ou erreurs de type I, par opposition aux erreurs de type
II qui sont les faux négatifs.

Il est possible de dériver de nombreux critères d’évaluation à partir de la matrice de confusion. En voici
quelques exemples :
Définition 3.7 (Rappel) On appelle rappel (recall en anglais), ou sensibilité (sensitivity en anglais), le taux
de vrais positifs, c’est-à-dire la proportion d’exemples positifs correctement identifiés comme tels :
TP
Rappel = .
TP + FN

Il est cependant très facile d’avoir un bon rappel en prédisant que tous les exemples sont positifs. Ainsi,
ce critère ne peut pas être utilisé seul. On lui adjoint ainsi souvent la précision :
Définition 3.8 (Précision) On appelle précision, ou valeur positive prédictive (positive predictive value, PPV)
la proportion de prédictions correctes parmi les prédictions positives :
TP
Précision = .
TP + FP

3.2. Critères de performance 41

De même que l’on peut facilement avoir un très bon rappel au détriment de la précision, il est aisé
d’obtenir une bonne précision (au détriment du rappel) en faisant très peu de prédictions positives (ce qui
réduit le risque qu’elles soient erronées)
Attention
L’anglais distingue precision (la précision ci-dessus) et accuracy, qui est la proportion d’exemples cor-
rectement étiquetés, soit le complémentaire à 1 du taux d’erreur, aussi traduit par précision en français. On
utilisera donc ces termes avec précaution.

Pour résumer rappel et précision en un seul nombre, on calculera la F-mesure :

Définition 3.9 (F-mesure) On appelle F-mesure (F-score ou F1-score en anglais) la moyenne harmonique
de la précision et du rappel :

Précision . Rappel 2TP

F =2 = .
Précision + Rappel 2TP + FP + FN

Définition 3.10 (Spécificité) On appelle spécificité le taux de vrais négatifs, autrement dit la proportion
d’exemples négatifs correctement identifiés comme tels.
TN
Spécificité = .
FP + TN

Exemple
Prenons l’exemple d’un test clinique pour illustrer ces différents critères. Il ne s’agit pas ici d’un modèle
d’apprentissage automatique, mais d’un frottis de dépistage du cancer du col de l’utérus : il s’agit d’un
examen beaucoup plus simple et moins invasif qu’un examen histologique, qui doit être interprété par un
expert, et servira de vérité terrain.
Les résultats d’une expérience menée sur 4 000 femmes âgées de 40 ans et plus sont présentés sur le
tableau 3.1.

Cancer Pas de cancer Total

Frottis + 190 210 400
Frottis - 10 3590 3600
Total 200 3800 4000

Table 3.1 – Matrice de confusion pour une expérience sur le dépistage du cancer du col de l’utérus par
frottis.

Le rappel est de 95%, la spécificité de 94.5%, mais la précision ne vaut que 47.5%. En effet, ce test est
un bon outil de dépistage : la probabilité de n’avoir effectivement pas de cancer quand le frottis est négatif
est élevée (3590/3600 ≈ 99.7%). Cependant, c’est un mauvais outil diagnostique, au sens où la probabilité
de fausse alarme est très élevée.
42 Chapitre 3. Sélection de modèle et évaluation

3.2.2 Évaluation de méthodes de classification binaire retournant un score

De nombreux algorithmes de classification ne retournent pas directement une étiquette de classe, mais
utilisent une fonction de décision qui doit ensuite être seuillée pour devenir une étiquette. Cette fonction
de décision peut être un score arbitraire (par exemple, la proportion d’exemples positifs parmi les k plus
proches voisins du point à étiqueter – nous verrons l’algorithme des k plus proches voisins en détails au
chapitre 8) ou la probabilité d’appartenir à la classe positive (comme c’est par exemple le cas pour la ré-
gression logistique présentée à la section 5.3).
Plusieurs critères permettent d’évaluer la qualité de la fonction de décision avant seuillage.

Courbe ROC

Définition 3.11 (Courbe ROC) On appelle courbe ROC, de l’anglais Receiver-Operator Characteristic la
courbe décrivant l’évolution de la sensibilité en fonction du complémentaire à 1 de la spécificité, parfois
appelé antispécificité, lorsque le seuil de décision change.
Le terme vient des télécommunications, où ces courbes servent à étudier si un système arrive à séparer
le signal du bruit de fond.
On peut synthétiser une courbe ROC par l’aire sous cette courbe, souvent abrégée AUROC pour Area
Under the ROC.

Un exemple de courbe ROC est présenté sur la figure 3.2. Le point (0, 0) apparaît quand on utilise comme
seuil un nombre supérieur à la plus grande valeur retournée par la fonction de décision : ainsi, tous les
exemples sont étiquetés négatifs. À l’inverse, le point (1, 1) apparaît quand on utilise pour seuil une valeur
inférieure au plus petit score retourné par la fonction de décision : tous les exemples sont alors étiquetés
positifs.

Figure 3.2 – Les courbes ROC de deux modèles.

Pour construire la courbe ROC, on prend pour seuil les valeurs successives de la fonction de décision sur
notre jeu de données. Ainsi, à chaque nouvelle valeur de seuil, une observation que l’on prédisait précédem-
ment négative change d’étiquette. Si cette observation est effectivement positive, la sensibilité augmente
3.2. Critères de performance 43

de 1/np (où np est le nombre d’exemples positifs) ; sinon, c’est l’antispécificité qui augmente de 1/nn , où
nn est le nombre d’exemples négatifs. La courbe ROC est donc une courbe en escaliers.
Un classifieur idéal, qui ne commet aucune erreur, associe systématique des scores plus faibles aux
exemples négatifs qu’aux exemples positifs. Sa courbe ROC suit donc le coin supérieur gauche du carré
[0, 1]2 ; il a une aire sous la courbe de 1.
La courbe ROC d’un classifieur aléatoire, qui fera sensiblement la même proportion d’erreurs que de
classifications correctes quel que soit le seuil utilisé, suit la diagonale de ce carré. L’aire sous la courbe ROC
d’un classifieur aléatoire vaut donc 0.5.
Exemple
Pour illustrer la construction d’une courbe ROC, prenons l’exemple décrit sur le tableau 3.2.

Étiquette + - + + - -
Score 0.9 0.8 0.6 0.4 0.3 0.1

Table 3.2 – Exemple de résultats d’une expérience de classification binaire, évaluée sur 6 échantillons.

Pour un seuil supérieur à 0.9, les 6 exemples sont étiquetés négatifs. On commence donc par le point
(0, 0). Pour un seuil entre 0.95 et 0.9, seule la première observation est étiquetée positive. La sensibilité est
donc de 31 tandis que l’antispécificité reste nulle. On peut continuer ainsi jusqu’à utiliser un seuil inférieur
à 0.1 :
Seuil > 0.9 0.8–0.9 0.6–0.8 0.4–0.6 0.3–0.4 0.1–0.3 < 0.1
TP/P 0 1/3 1/3 2/3 1 1 1
FP/P 0 0 1/3 1/3 1/3 2/3 1
La courbe ROC correspondante est visible sur la figure 3.3.

Figure 3.3 – Courbe ROC correspondant à l’expérience du tableau 3.2.

On peut enfin utiliser la courbe ROC pour choisir un seuil de décision, à partir de la sensibilité (ou de la
spécificité) que l’on souhaite garantir.
44 Chapitre 3. Sélection de modèle et évaluation

Courbe précision-rappel
La courbe précision-rappel vient souvent complémenter la courbe ROC.
Définition 3.12 (Courbe précisioj-rappel) On appelle courbe précision-rappel, ou Precision-Recall curve
en anglais, la courbe décrivant l’évolution de la précision en fonction du rappel, lorsque le seuil de décision
change.
Pour synthétiser cette courbe, on peut utiliser l’aire sous celle-ci, souvent abrégée AUPR pour Area Under
the Precision-Recall curve.

Un exemple de courbe précision-rappel, pour les mêmes données que la figure 3.2, est présenté sur la
figure 3.4.

Figure 3.4 – Les courbes précision-rappel de deux modèles.

Remarque
Pour le seuil le plus élevé, aucun exemple n’est étiqueté positif, et la précision n’est donc pas définie. Par
convention, on utilise généralement une précision de 1 si la première observation à considérer est positive,
et une précision de 0 sinon.

Exemple
Reprenons l’exemple précédent pour construire une courbe précision-rappel. Les valeurs de la préci-
sion et du rappel sont les suivantes :

Seuil > 0.9 0.8–0.9 0.6–0.8 0.4–0.6 0.3–0.4 0.1–0.3 < 0.1
Rappel 0 1/3 1/3 2/3 1 1 1
Précision – 1 1/2 2/3 3/4 3/5 3/6

On obtient donc la courbe précision-rappel visible sur la figure 3.5.

3.2. Critères de performance 45

Figure 3.5 – Courbe précision-rappel correspondant à l’expérience du tableau 3.2.

3.2.3 Erreurs de régression

Dans le cas d’un problème de régression, le nombre d’erreurs n’est pas un critère approprié pour évaluer
la performance. D’une part, à cause des imprécisions numériques, il est délicat de dire d’une prédiction à
valeur réelle si elle est correcte ou non. D’autre part, un modèle dont 50% des prédictions sont correctes à
0.1% près et les 50 autres pourcent sont très éloignées des vraies valeurs vaut-il mieux qu’un modèle qui
n’est correct qu’à 1% près, mais pour 100% des exemples ?
Ainsi, on préférera quantifier la performance d’un modèle de régression en fonction de l’écart entre les
prédictions et les valeurs réelles.
Un premier critère est donc l’erreur quadratique moyenne :

Définition 3.13 (Erreur quadratique moyenne (MSE)) Étant données n étiquettes réelles y 1 , y 2 , . . . , y n
et n prédictions f (~x 1 ), f (~x 2 ), . . . , f (~x n ), on appelle erreur quadratique moyenne, ou MSE de l’anglais mean
squared error la valeur
n
1X 2
MSE = f (~x i ) − y i .
n
i=1

Pour mesurer l’erreur dans la même unité que la cible, on lui préfère souvent sa racine :

Définition 3.14 (RMSE) Étant données n étiquettes réelles y 1 , y 2 , . . . , y n et n prédictions f (~x 1 ), f (~x 2 ), . . . , f (~x n ),
on appelle racine de l’erreur quadratique moyenne, ou RMSE de l’anglais root mean squared error la valeur
v
u n
u1 X
RMSE = t (f (~x i ) − y i )2 .
n
i=1

46 Chapitre 3. Sélection de modèle et évaluation

Dans le cas où les valeurs cibles couvrent plusieurs ordres de grandeur, on préfère parfois passer au log
avant de comparer f (~x i ) à y i , afin de ne pas donner plus d’importance aux erreurs faites pour des valeurs
plus élevées.

Définition 3.15 (RMSLE) Étant données n étiquettes réelles y 1 , y 2 , . . . , y n et n prédictions f (~x 1 ), f (~x 2 ), . . . , f (~x n ),
on appelle racine du log de l’erreur quadratique moyenne, ou RMSLE de l’anglais root mean squared log error la va-
leur v
u n
u1 X
RMSLE = t (log (f (~x i ) + 1) − log (y i + 1))2 .
n
i=1

L’interprétation de ces erreurs requiert néanmoins de connaître la distribution des valeurs cibles : une
RMSE de 1 cm n’aura pas la même signification selon qu’on essaie de prédire la taille d’humains ou celle de
drosophiles. Pour répondre à cela, il est possible de normaliser la somme des carrés des résidus non pas en
en faisant la moyenne, mais en la comparant à la somme des distances des valeurs cibles à leur moyenne.

Définition 3.16 (Coefficient de détermination) Étant données n étiquettes réelles y 1 , y 2 , . . . , y n et

n prédictions f (~x 1 ), f (~x 2 ), . . . , f (~x n ), on appelle erreur carrée relative, ou RSE de l’anglais relative squared
error la valeur
Pn 2
i=1 f (~x i) − yi
RSE = Pn .
i 1 Pn l 2
i=1 y − n l=1 y

Le complémentaire à 1 de la RSE est le coefficient de détermination, noté R2 .

On note le coefficient de détermination R2 car il s’agit du carré du coefficient de corrélation entre ~y et

(f (~x 1 ), f (~x 2 ), . . . , f (~x n )) donné par
Pn
y i − n1 nl=1 y l f (~x i ) − n1 nl=1 f (~x l )
P P
i=1
R = qP 2 qPn 2 (3.2)
n
y i − n1 nl=1 y l x i ) − n1 nl=1 f (~x l ) .
P P
i=1 i=1 f (~

Ce coefficient indique à quel point les valeurs prédites sont corrélées aux valeurs réelles ; attention, il sera
élevé aussi si elles leur sont anti-corrélées.

3.2.4 Comparaison à des algorithmes naïfs

Pour construire un modèle de machine learning, nous nous appuyons d’une part sur les données, et
d’autre part sur des hypothèses quant à la forme de ce modèle ; ces hypothèses déterminent l’espace des
hypothèses. La validité de ces hypothèses dépend du problème étudié. Ce problème peut être plus ou moins
facile, et la performance d’un modèle que nous avons entraîné ne peut être interprétée qu’à la lueur de cette
difficulté.
Pour la déterminer, il peut être très utile d’utiliser des approches d’apprentissage naïves, autrement dit
très simples, qui utilisent certaines propriétés du jeu d’entraînement mais pas de l’observation à étiqueter.
Nous n’attendons pas de bonnes performances de ces méthodes mais elles servent d’étalon pour mieux
comprendre les performances mesurées par ailleurs, en nous indiquant le « strict minimum » que l’on peut
attendre de nos modèles.
3.2. Critères de performance 47

Méthodes naïves pour la classification

Pour un problème de classification, on peut par exemple considérer une des approches suivantes :
— Prédire systématiquement l’étiquette majoritaire dans le jeu d’entraînement.
— Prédire une étiquette aléatoire, selon la distribution des étiquettes dans le jeu d’entraînement.
— Dans le cas d’une classification binaire, prédire des scores de manière uniforme avant de les seuiller.
Cette méthode est plus recommandée si l’on cherche à tracer des courbes ROC ou PR.
Remarque
Si le jeu d’entraînement est déséquilibré, à savoir qu’une classe y est largement plus présente que les
autres, le premier algorithme naïf que nous décrivons peut avoir un taux d’erreur très faible. Il faudra aussi
prendre en compte la spécificité de l’algorithme.

Méthodes naïves pour la régression

Pour un problème de régression, on peut considérer les approches naïves suivantes :
— Prédire une valeur aléatoire, uniformément entre la plus petite et la plus grande des valeurs des
étiquettes du jeu d’entraînement ;
— Prédire systématiquement la moyenne ou la médiane des étiquettes du jeu d’entraînement.

Points clefs
— Pour éviter le sur-apprentissage, il est essentiel lors de l’étape de sélection du modèle de valider les
différents modèles testés sur un jeu de données différent de celui utilisé pour l’entraînement.
— Pour estimer la performance en généralisation d’un modèle, il est essentiel de l’évaluer sur des don-
nées qui n’ont été utilisées ni pour l’entraînement, ni pour la sélection de ce modèle.
— De nombreux critères permettent d’évaluer la performance prédictive d’un modèle. On les choisira
en fonction de l’application.
— Pour interpréter la performance d’un modèle, il peut être utile de le comparer à une approche naïve.

Pour aller plus loin

• En construisant la courbe précision-rappel de la figure 3.5, nous avons relié les points par des seg-
ments. Cette interpolation linéaire n’est en fait pas appropriée. On pourra se référer aux articles de
Davis et Goadrich (2006) et Fawcett (2006).
• Pour certains modèles, en particulier linéaires (voir chapitre 5), il est possible d’estimer l’optimisme,
c’est-à-dire la différence entre l’erreur d’entraînement et l’erreur de test, de manière théorique,
plutôt que d’utiliser une validation croisée. Dans le cas des modèles linéaires, on pourra notamment
utiliser le coefficient Cp de Mallow, le critère d’information d’Akaike ou le critère d’information bayésien.
Pour plus de détails, on se reportera au livre de Dodge et Rousson (2004).
• La longueur de description minimale (ou minimum description length, MDL) est un concept issu de la théo-
rie de l’information qui peut être utilisé pour la sélection de modèle (Rissanen, 1978). Dans ce cadre,
les étiquettes d’un jeu de données D peuvent être représentées par, d’une part une représentation
d’un modèle, et d’autre part une représentation de la différence entre les prédictions du modèle et
48 Chapitre 3. Sélection de modèle et évaluation

leurs vraies étiquettes dans D. Le meilleur modèle est celui pour lequel la somme des tailles de ces
représentations est minimale : un bon modèle permet de compresser efficacement les données.
• Pour une discussion détaillée des procédures de validation croisée, on pourra consulter Arlot et
Celisse (2010).

Bibliographie

Arlot, S. et Celisse, A. (2010). A survey of cross-validation procedures for model selection. Statistics Surveys,
4 :40–79.

Davis, J. et Goadrich, M. (2006). The relationship between Precision-Recall and ROC curves. In Proceedings
of the 23rd International Conference on Machine Learning, ICML ’06, pages 233–240, New York, NY, USA. ACM.

Dodge, Y. et Rousson, V. (2004). Analyse de régression appliquée. Dunod.

Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27 :861–874.

Rissanen, J. (1978). Modeling by shortest data description. Automatica, 14(5) :465–471.

Wolpert, D. H. et Macready, W. G. (1997). No free lunch theorems for optimization. IEEE Transactions on
Evolutionary Computation, 1(1) :67–82.

Vous aimerez peut-être aussi

Arbre Decision 2324 4p 12 22
Pas encore d'évaluation
Arbre Decision 2324 4p 12 22
11 pages
Chapitre 5
Pas encore d'évaluation
Chapitre 5
20 pages
Validation croisée en apprentissage
Pas encore d'évaluation
Validation croisée en apprentissage
42 pages
TD 3 Classification: Exercice 1
Pas encore d'évaluation
TD 3 Classification: Exercice 1
12 pages
Validation de modèles en apprentissage supervisé
Pas encore d'évaluation
Validation de modèles en apprentissage supervisé
26 pages
Chap2 ML
Pas encore d'évaluation
Chap2 ML
44 pages
Méthodes de Rééchantillonnage et Validation
Pas encore d'évaluation
Méthodes de Rééchantillonnage et Validation
4 pages
C2 Classsification
Pas encore d'évaluation
C2 Classsification
68 pages
ML Motivation SelectionduModele French
Pas encore d'évaluation
ML Motivation SelectionduModele French
47 pages
Chapitre - MachineLearning - Arbre de Decison
Pas encore d'évaluation
Chapitre - MachineLearning - Arbre de Decison
31 pages
K plus proches voisins : TP et exercices R
Pas encore d'évaluation
K plus proches voisins : TP et exercices R
10 pages
Approches supervisées en Data Mining
Pas encore d'évaluation
Approches supervisées en Data Mining
2 pages
Seance 3
Pas encore d'évaluation
Seance 3
30 pages
Classification Supervisée Et Non Supervisé
Pas encore d'évaluation
Classification Supervisée Et Non Supervisé
5 pages
TD 1 - Apprentissage Supervise
Pas encore d'évaluation
TD 1 - Apprentissage Supervise
5 pages
Evaluation Et Séléction Du Modèle 2
Pas encore d'évaluation
Evaluation Et Séléction Du Modèle 2
36 pages
Chap02.concepts Apprentissage
Pas encore d'évaluation
Chap02.concepts Apprentissage
58 pages
Introduction à la Data Science et ML
Pas encore d'évaluation
Introduction à la Data Science et ML
61 pages
Classification par apprentissage supervisé
Pas encore d'évaluation
Classification par apprentissage supervisé
7 pages
Introduction à l'apprentissage supervisé
Pas encore d'évaluation
Introduction à l'apprentissage supervisé
32 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
29 pages
Examen Master 2 ISEFAR : Classification Data-Mining
Pas encore d'évaluation
Examen Master 2 ISEFAR : Classification Data-Mining
3 pages
Évaluation des Modèles de Machine Learning
Pas encore d'évaluation
Évaluation des Modèles de Machine Learning
16 pages
Statistique Apprentissage Superisé
Pas encore d'évaluation
Statistique Apprentissage Superisé
16 pages
Correction TD2
Pas encore d'évaluation
Correction TD2
2 pages
Chap02.Concepts Apprentissage
Pas encore d'évaluation
Chap02.Concepts Apprentissage
64 pages
Méthodes supervisées en apprentissage machine
Pas encore d'évaluation
Méthodes supervisées en apprentissage machine
4 pages
DM Chapitre 02 Partie 02
Pas encore d'évaluation
DM Chapitre 02 Partie 02
70 pages
Évaluation des modèles en Machine Learning
Pas encore d'évaluation
Évaluation des modèles en Machine Learning
51 pages
Fondamentaux de l'apprentissage statistique
Pas encore d'évaluation
Fondamentaux de l'apprentissage statistique
126 pages
Cours Apprentissage Stat
Pas encore d'évaluation
Cours Apprentissage Stat
22 pages
Test Stat
Pas encore d'évaluation
Test Stat
59 pages
Cours - Apprentissage Statistique
100% (1)
Cours - Apprentissage Statistique
24 pages
Apprentissage - Supervise - M
Pas encore d'évaluation
Apprentissage - Supervise - M
24 pages
Entraîner Un Modèle
100% (1)
Entraîner Un Modèle
16 pages
Chap 2
Pas encore d'évaluation
Chap 2
34 pages
Cours Complet ML Mory - (Partie 1)
Pas encore d'évaluation
Cours Complet ML Mory - (Partie 1)
91 pages
Classification et évaluation des modèles
Pas encore d'évaluation
Classification et évaluation des modèles
5 pages
Apprentissage Statistique en Ingénierie Mathématique
Pas encore d'évaluation
Apprentissage Statistique en Ingénierie Mathématique
24 pages
Cours4 - Sélection de Modèle D'apprentissage
Pas encore d'évaluation
Cours4 - Sélection de Modèle D'apprentissage
20 pages
Xups13 02
Pas encore d'évaluation
Xups13 02
34 pages
DM2 - 14 10 2024
Pas encore d'évaluation
DM2 - 14 10 2024
110 pages
Apprentissage Supervisé et Classification
Pas encore d'évaluation
Apprentissage Supervisé et Classification
83 pages
K Means
Pas encore d'évaluation
K Means
32 pages
Corrigé D'un Examen de Machine Learning S4 Génie MIS
100% (1)
Corrigé D'un Examen de Machine Learning S4 Génie MIS
25 pages
Cours Bishop
Pas encore d'évaluation
Cours Bishop
10 pages
Cours de Data Mining en Statistiques Appliquées
100% (1)
Cours de Data Mining en Statistiques Appliquées
117 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
63 pages
Introduction à l'apprentissage supervisé KPPV
100% (1)
Introduction à l'apprentissage supervisé KPPV
25 pages
1.4 Principales Difficultés de L'Apprentissage Automatique: Données D'apprentissage en Nombre Insuf Sant
Pas encore d'évaluation
1.4 Principales Difficultés de L'Apprentissage Automatique: Données D'apprentissage en Nombre Insuf Sant
5 pages
Bases du Machine Learning en Statistiques
Pas encore d'évaluation
Bases du Machine Learning en Statistiques
60 pages
TD 2 ML Corr
Pas encore d'évaluation
TD 2 ML Corr
6 pages
Introduction à l'Apprentissage Automatique
Pas encore d'évaluation
Introduction à l'Apprentissage Automatique
36 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
74 pages
Intelligence-Artificielle 25 Cours
Pas encore d'évaluation
Intelligence-Artificielle 25 Cours
19 pages
Estimation de paramètres et efficacité des estimateurs
Pas encore d'évaluation
Estimation de paramètres et efficacité des estimateurs
6 pages
Une Démarche Méthodologique en Modélisation Statistique
Pas encore d'évaluation
Une Démarche Méthodologique en Modélisation Statistique
19 pages
Algo 011
Pas encore d'évaluation
Algo 011
23 pages
Devoir1 ISPA
Pas encore d'évaluation
Devoir1 ISPA
2 pages
Cybersec IA Ispa 2025 2
Pas encore d'évaluation
Cybersec IA Ispa 2025 2
2 pages
Reduction de Dimension
Pas encore d'évaluation
Reduction de Dimension
16 pages
Évaluation dans le système LMD
100% (2)
Évaluation dans le système LMD
36 pages
Presentation ML
Pas encore d'évaluation
Presentation ML
10 pages
Introdelliptic
Pas encore d'évaluation
Introdelliptic
116 pages
Clustering
Pas encore d'évaluation
Clustering
14 pages
Réseaux Sans Fil : Protocoles et Défis
Pas encore d'évaluation
Réseaux Sans Fil : Protocoles et Défis
2 pages
Mise en œuvre du système LMD en Côte d'Ivoire
Pas encore d'évaluation
Mise en œuvre du système LMD en Côte d'Ivoire
67 pages
Sujet Transmission
Pas encore d'évaluation
Sujet Transmission
2 pages
03topologie Des DataCenter
Pas encore d'évaluation
03topologie Des DataCenter
23 pages
Plan d'Action LMD en Côte d'Ivoire
Pas encore d'évaluation
Plan d'Action LMD en Côte d'Ivoire
64 pages
Introduction au Machine Learning 2023
Pas encore d'évaluation
Introduction au Machine Learning 2023
42 pages
01 Introduction
100% (1)
01 Introduction
15 pages
TP C++
Pas encore d'évaluation
TP C++
2 pages
Algorithme de Tri
Pas encore d'évaluation
Algorithme de Tri
66 pages
Chariot Élévateur Électrique EFG 110-115
Pas encore d'évaluation
Chariot Élévateur Électrique EFG 110-115
4 pages
SIG Notion
Pas encore d'évaluation
SIG Notion
6 pages
Rapport de Stage en Génie Mécanique
Pas encore d'évaluation
Rapport de Stage en Génie Mécanique
36 pages
Série1 20 21
Pas encore d'évaluation
Série1 20 21
4 pages
1CO1 - Exercices Supplémentaires
Pas encore d'évaluation
1CO1 - Exercices Supplémentaires
4 pages
Cours - Commande Électronique Des Moteurs-20-25
Pas encore d'évaluation
Cours - Commande Électronique Des Moteurs-20-25
6 pages
VarioCam Plus de Porsche
Pas encore d'évaluation
VarioCam Plus de Porsche
3 pages
Galbe Manche Brun Maurel
Pas encore d'évaluation
Galbe Manche Brun Maurel
4 pages
Leçon numérationCE1
Pas encore d'évaluation
Leçon numérationCE1
12 pages
Comportement Mécanique des Composites
Pas encore d'évaluation
Comportement Mécanique des Composites
39 pages
TD2-grue MODELISATION
Pas encore d'évaluation
TD2-grue MODELISATION
4 pages
Introduction aux Codes Cycliques
Pas encore d'évaluation
Introduction aux Codes Cycliques
17 pages
Système de Stéganographie d'Images
100% (1)
Système de Stéganographie d'Images
101 pages
Test de QI
100% (1)
Test de QI
5 pages
Contre-réaction en électronique fondamentale
Pas encore d'évaluation
Contre-réaction en électronique fondamentale
7 pages
TD - Chapitre 4 - Correcteur Numerique
Pas encore d'évaluation
TD - Chapitre 4 - Correcteur Numerique
3 pages
Chapitre 3 - Optique Physique
Pas encore d'évaluation
Chapitre 3 - Optique Physique
29 pages
Exercices d'Arithmétique et PGCD
Pas encore d'évaluation
Exercices d'Arithmétique et PGCD
1 page
Exploitation Ferroviaire DIF (Voie Et Ouvrages)
Pas encore d'évaluation
Exploitation Ferroviaire DIF (Voie Et Ouvrages)
29 pages
Méthodes Numériques en Génie Civil
Pas encore d'évaluation
Méthodes Numériques en Génie Civil
3 pages
TS Ex. Sur Les Limites de Fonctions Par Comparaison
Pas encore d'évaluation
TS Ex. Sur Les Limites de Fonctions Par Comparaison
4 pages
Lexique Simplifié Du Vocabulaire Télécommunication
Pas encore d'évaluation
Lexique Simplifié Du Vocabulaire Télécommunication
10 pages
4 Ercompos
Pas encore d'évaluation
4 Ercompos
1 page
Exercices d'Algèbre Linéaire - TD 1
Pas encore d'évaluation
Exercices d'Algèbre Linéaire - TD 1
8 pages
Tâche 3 - Mathématiques de Base UAPA
Pas encore d'évaluation
Tâche 3 - Mathématiques de Base UAPA
5 pages
Maths A Grands Pas PS MS GSProgression Maths
Pas encore d'évaluation
Maths A Grands Pas PS MS GSProgression Maths
4 pages
12 Brochure TD
100% (2)
12 Brochure TD
22 pages
Transformations nucléaires en physique
Pas encore d'évaluation
Transformations nucléaires en physique
10 pages