Université de Tunis-Elmanar
Institut Supérieur d’Informatique
Cours : Indexation et recherche
d’informations MultiMedia
Niveau : 3 GLSI
Chapitre 4: Evaluation des SRI
présenté par:
Mohamed Sahbi Bahroun
Année Universitaire 2017/2018 1
Plan du chapitre
1) Evaluation des SRI
2) Mesures subjectives d’évaluation
3) Mesures objectives d’évaluation
4) Comparaison de performances
2
1- Évaluation des SRI
3
Recherche d'Information
Indexation
(modèle de document)
Collections dynamiques
vs. statiques
Modèle de
recherche
Évaluation
Requête
2éme SIL
4
Qu’est-ce qu’un bon moteur de recherche ?
• Il est rapide !
Une analyse rapide de la requête
Une recherche rapide dans l’index
Un tri rapide des résultats
• Il est complet et à jour !
– Tous les (ou de nombreux) documents de la collection sont traités
– Les nouveaux documents sont incorporés rapidement aux résultats
Une construction rapide de l’index
(sur le Web) Une découverte permanente, efficace et rapide des nouveaux
documents
2éme SIL
5
Qu’est-ce qu’un bon moteur de recherche ?
• Son langage de requêtes est simple et expressif
– Ces notions dépendent des types d’utilisateurs
Un modèle de recherche et d’indexation approprié
• Son interface est sympa
De nombreuses recherches dans ce domaine
• Il est gratuit ou pas cher
Les moteurs de recherche (sur le Web mais pas seulement) sont un
enjeu économique très important (et il faut trouver des recettes)
2éme SIL
6
Qu’est-ce qu’un bon moteur de recherche ?
• Mais surtout… il est pertinent !
– Ses résultats doivent satisfaire le besoin d’information de l’utilisateur
– Mais ce point est plus difficile à mesurer
– Le SRI doit retourner les bons résultats au plus tôt (avant les mauvais)
• La pertinence dépend des utilisateurs
– Les humains sont subjectifs
– Ils ont leurs propres connaissances
– Ils ont des besoins différents qui n’apparaissent
pas toujours dans leur expression de ces besoins
• La définition de la pertinence peut être :
– Objective (automatique)
– Subjective (manuelle)
7
Qu’est-ce qu’une bonne évaluation ?
• Évaluer un système sert à :
– Savoir s’il remplit la tâche assignée
– Savoir s’il est meilleur que la concurrence
– Savoir où on peut l’améliorer
• Il faut donc une évaluation :
– Reproductible
• Pour évaluer plusieurs systèmes de la même façon
• Pour estimer les progrès accomplis
– Interprétable
• Pour identifier les zones de progrès possible
– Rapide
• Pour pouvoir évaluer chaque modification du système indépendamment
– Objective
8
2- Mesures subjectives d’évaluation d’un
système de recherche d’informations MM
9
Mesures subjectives
10
Mesures subjectives pour l’image
11
Mesures subjectives : difficultés
12
3- Mesures objectives d’évaluation d’un
système de recherche d’informations MM
13
Pré-requis pour l’évaluation
2 points principaux :
• La base de test : ~ 30% de la base totale
– De petite taille (ensemble de documents présélectionnées)
– Les documents serviront pour la requête
• La base d’apprentissage : ~ 70% de la base totale
– De grande taille et appelée vérité terrain (ground truth)
– On connait exactement le contenu de ces images
– Les documents résultats seront pris de la base d’apprentissage.
• Pour chaque document de la base d’apprentissage on sait exactement à
l’avance combien de documents lui sont similaires dans la base de test
• Les deux bases sont formés manuellement
• Pour évaluer on compare les résultats du système aux résultats attendus
14
Comment rendre la pertinence objective ?
• Pour rendre la pertinence objective :
– On en simplifie la définition
• Les documents sont traités indépendamment les uns des autres
• La pertinence est transformée en notion binaire (pertinent ou pas).
On ne parle pas de pertinence partielle
• Pour comparer les performances de deux systèmes ou de deux descripteurs,
on utilise :
– La même base d’apprentissage
– La même base de test
– La base de test doit être partagée par tous les chercheurs du domaine et
elle est appelée « Benchmark »
– La taille de la base de test doit être suffisamment grande pour diminuer
la variance des évaluations
15
Précision/rappel
Tous les
documents
Retrouné
Pertinent
16
Précision/rappel
17
Précision et rappel
• Pourquoi pas juste la précision ?
– La précision évalue la capacité d’un système à renvoyer SURTOUT des
documents pertinents
– Renvoyer un seul document pertinent suffit à obtenir 100 % de précision
Ce n’est pas compatible avec la satisfaction de l’utilisateur !
• Pourquoi pas juste le rappel ?
– Le rappel évalue la capacité d’un système à renvoyer TOUS les documents
pertinents
– Renvoyer tous les documents de la collection permet d’obtenir 100 % de
rappel
Ce n’est pas compatible avec la satisfaction de l’utilisateur !
18
Précision/rappel
• Précision : pourcentage de bons résultats parmi les résultats
retournés
• Rappel : pourcentage de bons résultats parmi la totalité de bons
résultats
• Un SRI parfait est caractérisé par une précision et un rappel égaux à
1
– Précision = 1 : le SRI n’a retourné aucun mauvais résultat ( tous
les résultats retournés sont similaires à la requête)
– Rappel = 1 : Le SRI a retourné tous les bons résultats (n’a oublié
aucun document similaire)
19
Autres mesures d’Évaluation : silence et bruit
20
Autres mesures d’Évaluation : F-mesure
• Appelée moyenne harmonique : c’est une mesure qui tient compte à la
fois du rappel et de la précision
2 P. R
F=
P+R
21
Autres mesures d’Évaluation : F-mesure paramétrée
• Une mesure populaire qui combine la précision et le rappel est leur
pondération, nommée F-mesure (soit F-measure en anglais) ou F-
score (moyenne harmonique)
1 ( β 2 + 1) × P × R 1
F= = 2
avec α = 2
1 1 β P+R β +1
α + (1 − α )
p R
• β = 1 : moyenne harmonique : précision et rappel ont une importance
égale
• β < 1 favorise la précision,
• β > 1 favorise le rappel
22
4- Comparaison de performances
23
Comparaison entre deux SRIs
• Soit un SRI1. Pour une requête I on a
R =20, A=25, Ra=15
Precision =15/25, Rappel = 15/20
Le SRI1 retourne les 15 bons résultats puis les 10 mauvais résultats
• Soit un SRI2. Pour une requête I on a
R =20, A=25, Ra=15
Precision =15/25, Rappel = 15/20
Le SRI2 retourne les 10 mauvais résultats puis les 15 bons résultats
Conclusion :
Ces deux SRI ont les mêmes valeurs de précision et rappel global mais
avec des performances différentes
Les mesures de précision et de rappel global ne permettent pas de
comparer les performances de deux SRIs
Besoin de tracer la courbe de precision=f(rappel)
24
Courbe précision/rappel
La courbe de précision=f(rappel) permet d’évaluer la qualité
des résultats retournés au plutôt par un SRI.
Le rappel Ri est en absice et la précision Pi en ordonné
Pi=f(Ri)
Mesure des précisions Pi et du rappel Ri à chaque rang i des
résultats retournés.
Pour le calcul de Pi et Ri à chaque rang i, on ne tient compte
que des rangs qui précèdent i
La courbe de précision=f(rappel) doit obligatoirement être
décroissante (interpolation des points où il y a des problèmes
de phase croissante)
25
Courbe rappel/précision
• Le rappel augmente bien sûr avec le nombre de réponses
• La précision diminue (en général)
• la courbe rappel/précision doit être forcément décroissante et ne doit
contenir aucune phase croissante
0,8
0,6
0,4
0,2
0
,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 1
26
Traçage de la courbe (interpolation)
27
Exemple 1 : SRI1
Rang Pertinence Precision Pi Rappel Ri
1 × 1/1 1/6
2 × 2/2 2/6 On sait que pour
3 2/3 2/6 la requête I il y a 6
documents
4 × 3/4 3/6
pertinents dans la
5 3/5 3/6 base
6 × 4/6 4/6
7 4/7 4/6
8 4/8 4/6
9 4/9 4/6
10 4/10 4/6
11 4/11 4/6
12 4/12 4/6
13 × 5/13 5/6
14 5/14 5/6
28
Traçage de la courbe (SRI2)
Precision
1.0
0.8
0.6
0.4
0.2
0.2 0.4 0.6 0.8 1.0
Recall
R=1/6 R=2/6 R=3/6 R=4/6 R=5/6 R=6/6
29
Exemple 2 : SRI2
Rang Pertinence Precision Pi Rappel Ri
1 × 1/1 1/6
2 1/2 1/6 On sait que pour
3 × 2/3 2/6 la même requête I
il y a 6 documents
4 2/4 2/6
pertinents dans la
5 × 3/5 3/6 base
6 3/6 3/6
7 3/7 3/6
8 × 4/8 4/6
9 × 5/9 5/6
10 5/10 5/6
11 5/11 5/6
12 5/12 5/6
13 5/13 5/6
14 × 6/14 6/6
30
Traçage de la courbe (SRI2)
Precision
1.0
0.8
0.6
0.4
0.2
0.2 0.4 0.6 0.8 1.0
Recall
R=1/6 R=2/6 R=3/6 R=4/6 R=5/6 R=6/6
31
Interprétation
Un système de recherche documentaire parfait fournira des
réponses dont la précision et le rappel sont égaux à 1 (l'algorithme
trouve la totalité des documents pertinents - rappel - et ne fait
aucune erreur - précision).
Dans la réalité, les algorithmes de recherche sont plus ou moins
précis, et plus ou moins pertinents. Il sera possible d'obtenir un
système très précis (par exemple un score de précision de 0,99),
mais peu performant (par exemple avec un rappel de 0.10, qui
signifiera qu'il n'a trouvé que 10% des réponses possibles).
32
Interprétation
Dans le même ordre d'idée, un algorithme dont le rappel est fort
(par exemple 0.99 soit la quasi totalité des documents pertinents),
mais la précision faible (par exemple 0.10) fournira en guise de
réponse de nombreux documents erronés en plus de ceux
pertinents: il sera donc difficilement exploitable.
Par exemple, un système de recherche documentaire qui renvoie
la totalité des documents de sa base aura un rappel de 1 (mais une
mauvaise précision). Tandis qu'un système de recherche qui renvoie
uniquement la requête de l'utilisateur aura une précision de 1 pour
un rappel très faible. La valeur d'un classifieur ne se réduit donc pas
à un bon score en précision ou en rappel.
33
Comparer deux ou plusieurs systèmes
Dans ce cas le SRI dont la courbe qui est toujours supérieure
est le plus performant
1
0,8 SRI2 SRI1
Precision
0,6
0,4
0,2
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Rappel
34
Comparer deux ou plusieurs systèmes
• Dans ce cas de chevauchement entre les deux courbes, on ne
peux pas comparer directement les performances. Il faut
calculer les précisions moyennes des deux SRIs
1
0,8 SRI2 SRI1
Precision
0,6
0,4
0,2
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Rappel
35
Précision moyenne
36
Mean Average Precision : MAP
37
Campagnes d'évaluation
• TREC (Text REtrieval Conference) :
– Événement phare du domaine, tous les ans depuis 1992
– Sponsorisée par la DARPA
– De nombreux axes de recherche :
• Multimédia : image, vidéo, Web
• Types de recherche spécifiques : questions-réponses, interactif, filtrage,
"cross-language", "home page«
• Domaines spécifiques : génomique, légal
• Modes d'expression spécifiques : blogs, spams
• ...
• CLEF (Cross-Language Evaluation Forum), spécialisée dans les langages
européens
• NTCIR, spécialisée dans les langages asiatiques
38