100% ont trouvé ce document utile (1 vote)
545 vues38 pages

Évaluation des Systèmes de Recherche d'Information

Ce document présente les principales mesures d'évaluation des systèmes de recherche d'informations. Il décrit les mesures subjectives et objectives comme la précision, le rappel et la F-mesure. Le document explique également comment comparer les performances de différents systèmes à l'aide des courbes précision-rappel.

Transféré par

Sahar MANAII
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
545 vues38 pages

Évaluation des Systèmes de Recherche d'Information

Ce document présente les principales mesures d'évaluation des systèmes de recherche d'informations. Il décrit les mesures subjectives et objectives comme la précision, le rappel et la F-mesure. Le document explique également comment comparer les performances de différents systèmes à l'aide des courbes précision-rappel.

Transféré par

Sahar MANAII
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université de Tunis-Elmanar

Institut Supérieur d’Informatique

Cours : Indexation et recherche


d’informations MultiMedia
Niveau : 3 GLSI

Chapitre 4: Evaluation des SRI


présenté par:
Mohamed Sahbi Bahroun
Année Universitaire 2017/2018 1
Plan du chapitre

1) Evaluation des SRI


2) Mesures subjectives d’évaluation
3) Mesures objectives d’évaluation
4) Comparaison de performances

2
1- Évaluation des SRI

3
Recherche d'Information

Indexation
(modèle de document)
Collections dynamiques
vs. statiques

Modèle de
recherche
Évaluation

Requête

2éme SIL
4
Qu’est-ce qu’un bon moteur de recherche ?

• Il est rapide !
Une analyse rapide de la requête
Une recherche rapide dans l’index
Un tri rapide des résultats

• Il est complet et à jour !


– Tous les (ou de nombreux) documents de la collection sont traités
– Les nouveaux documents sont incorporés rapidement aux résultats
Une construction rapide de l’index
(sur le Web) Une découverte permanente, efficace et rapide des nouveaux
documents

2éme SIL
5
Qu’est-ce qu’un bon moteur de recherche ?
• Son langage de requêtes est simple et expressif
– Ces notions dépendent des types d’utilisateurs
Un modèle de recherche et d’indexation approprié

• Son interface est sympa


De nombreuses recherches dans ce domaine

• Il est gratuit ou pas cher


Les moteurs de recherche (sur le Web mais pas seulement) sont un
enjeu économique très important (et il faut trouver des recettes)

2éme SIL
6
Qu’est-ce qu’un bon moteur de recherche ?
• Mais surtout… il est pertinent !
– Ses résultats doivent satisfaire le besoin d’information de l’utilisateur
– Mais ce point est plus difficile à mesurer
– Le SRI doit retourner les bons résultats au plus tôt (avant les mauvais)

• La pertinence dépend des utilisateurs


– Les humains sont subjectifs
– Ils ont leurs propres connaissances
– Ils ont des besoins différents qui n’apparaissent
pas toujours dans leur expression de ces besoins

• La définition de la pertinence peut être :


– Objective (automatique)
– Subjective (manuelle)

7
Qu’est-ce qu’une bonne évaluation ?
• Évaluer un système sert à :
– Savoir s’il remplit la tâche assignée
– Savoir s’il est meilleur que la concurrence
– Savoir où on peut l’améliorer
• Il faut donc une évaluation :
– Reproductible
• Pour évaluer plusieurs systèmes de la même façon
• Pour estimer les progrès accomplis
– Interprétable
• Pour identifier les zones de progrès possible
– Rapide
• Pour pouvoir évaluer chaque modification du système indépendamment
– Objective

8
2- Mesures subjectives d’évaluation d’un
système de recherche d’informations MM

9
Mesures subjectives

10
Mesures subjectives pour l’image

11
Mesures subjectives : difficultés

12
3- Mesures objectives d’évaluation d’un
système de recherche d’informations MM

13
Pré-requis pour l’évaluation
2 points principaux :

• La base de test : ~ 30% de la base totale


– De petite taille (ensemble de documents présélectionnées)
– Les documents serviront pour la requête

• La base d’apprentissage : ~ 70% de la base totale


– De grande taille et appelée vérité terrain (ground truth)
– On connait exactement le contenu de ces images
– Les documents résultats seront pris de la base d’apprentissage.

• Pour chaque document de la base d’apprentissage on sait exactement à


l’avance combien de documents lui sont similaires dans la base de test
• Les deux bases sont formés manuellement
• Pour évaluer on compare les résultats du système aux résultats attendus

14
Comment rendre la pertinence objective ?
• Pour rendre la pertinence objective :
– On en simplifie la définition
• Les documents sont traités indépendamment les uns des autres
• La pertinence est transformée en notion binaire (pertinent ou pas).
On ne parle pas de pertinence partielle
• Pour comparer les performances de deux systèmes ou de deux descripteurs,
on utilise :
– La même base d’apprentissage
– La même base de test
– La base de test doit être partagée par tous les chercheurs du domaine et
elle est appelée « Benchmark »
– La taille de la base de test doit être suffisamment grande pour diminuer
la variance des évaluations

15
Précision/rappel

Tous les
documents
Retrouné

Pertinent

16
Précision/rappel

17
Précision et rappel
• Pourquoi pas juste la précision ?
– La précision évalue la capacité d’un système à renvoyer SURTOUT des
documents pertinents
– Renvoyer un seul document pertinent suffit à obtenir 100 % de précision
Ce n’est pas compatible avec la satisfaction de l’utilisateur !

• Pourquoi pas juste le rappel ?


– Le rappel évalue la capacité d’un système à renvoyer TOUS les documents
pertinents
– Renvoyer tous les documents de la collection permet d’obtenir 100 % de
rappel
Ce n’est pas compatible avec la satisfaction de l’utilisateur !

18
Précision/rappel

• Précision : pourcentage de bons résultats parmi les résultats


retournés
• Rappel : pourcentage de bons résultats parmi la totalité de bons
résultats
• Un SRI parfait est caractérisé par une précision et un rappel égaux à
1
– Précision = 1 : le SRI n’a retourné aucun mauvais résultat ( tous
les résultats retournés sont similaires à la requête)
– Rappel = 1 : Le SRI a retourné tous les bons résultats (n’a oublié
aucun document similaire)

19
Autres mesures d’Évaluation : silence et bruit

20
Autres mesures d’Évaluation : F-mesure

• Appelée moyenne harmonique : c’est une mesure qui tient compte à la


fois du rappel et de la précision

2 P. R
F=
P+R

21
Autres mesures d’Évaluation : F-mesure paramétrée
• Une mesure populaire qui combine la précision et le rappel est leur
pondération, nommée F-mesure (soit F-measure en anglais) ou F-
score (moyenne harmonique)

1 ( β 2 + 1) × P × R 1
F= = 2
avec α = 2
1 1 β P+R β +1
α + (1 − α )
p R

• β = 1 : moyenne harmonique : précision et rappel ont une importance


égale
• β < 1 favorise la précision,
• β > 1 favorise le rappel

22
4- Comparaison de performances

23
Comparaison entre deux SRIs
• Soit un SRI1. Pour une requête I on a
R =20, A=25, Ra=15
Precision =15/25, Rappel = 15/20
Le SRI1 retourne les 15 bons résultats puis les 10 mauvais résultats
• Soit un SRI2. Pour une requête I on a
R =20, A=25, Ra=15
Precision =15/25, Rappel = 15/20
Le SRI2 retourne les 10 mauvais résultats puis les 15 bons résultats
Conclusion :
Ces deux SRI ont les mêmes valeurs de précision et rappel global mais
avec des performances différentes
Les mesures de précision et de rappel global ne permettent pas de
comparer les performances de deux SRIs
Besoin de tracer la courbe de precision=f(rappel)

24
Courbe précision/rappel
La courbe de précision=f(rappel) permet d’évaluer la qualité
des résultats retournés au plutôt par un SRI.
Le rappel Ri est en absice et la précision Pi en ordonné
Pi=f(Ri)
Mesure des précisions Pi et du rappel Ri à chaque rang i des
résultats retournés.
Pour le calcul de Pi et Ri à chaque rang i, on ne tient compte
que des rangs qui précèdent i
La courbe de précision=f(rappel) doit obligatoirement être
décroissante (interpolation des points où il y a des problèmes
de phase croissante)

25
Courbe rappel/précision
• Le rappel augmente bien sûr avec le nombre de réponses
• La précision diminue (en général)
• la courbe rappel/précision doit être forcément décroissante et ne doit
contenir aucune phase croissante

0,8

0,6

0,4

0,2

0
,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 1

26
Traçage de la courbe (interpolation)

27
Exemple 1 : SRI1
Rang Pertinence Precision Pi Rappel Ri
1 × 1/1 1/6
2 × 2/2 2/6 On sait que pour
3 2/3 2/6 la requête I il y a 6
documents
4 × 3/4 3/6
pertinents dans la
5 3/5 3/6 base
6 × 4/6 4/6
7 4/7 4/6
8 4/8 4/6
9 4/9 4/6
10 4/10 4/6
11 4/11 4/6
12 4/12 4/6
13 × 5/13 5/6
14 5/14 5/6
28
Traçage de la courbe (SRI2)
Precision

1.0

0.8

0.6

0.4

0.2

0.2 0.4 0.6 0.8 1.0


Recall
R=1/6 R=2/6 R=3/6 R=4/6 R=5/6 R=6/6

29
Exemple 2 : SRI2
Rang Pertinence Precision Pi Rappel Ri
1 × 1/1 1/6
2 1/2 1/6 On sait que pour
3 × 2/3 2/6 la même requête I
il y a 6 documents
4 2/4 2/6
pertinents dans la
5 × 3/5 3/6 base
6 3/6 3/6
7 3/7 3/6
8 × 4/8 4/6
9 × 5/9 5/6
10 5/10 5/6
11 5/11 5/6
12 5/12 5/6
13 5/13 5/6
14 × 6/14 6/6
30
Traçage de la courbe (SRI2)
Precision

1.0

0.8

0.6

0.4

0.2

0.2 0.4 0.6 0.8 1.0


Recall
R=1/6 R=2/6 R=3/6 R=4/6 R=5/6 R=6/6

31
Interprétation
Un système de recherche documentaire parfait fournira des
réponses dont la précision et le rappel sont égaux à 1 (l'algorithme
trouve la totalité des documents pertinents - rappel - et ne fait
aucune erreur - précision).

Dans la réalité, les algorithmes de recherche sont plus ou moins


précis, et plus ou moins pertinents. Il sera possible d'obtenir un
système très précis (par exemple un score de précision de 0,99),
mais peu performant (par exemple avec un rappel de 0.10, qui
signifiera qu'il n'a trouvé que 10% des réponses possibles).

32
Interprétation
Dans le même ordre d'idée, un algorithme dont le rappel est fort
(par exemple 0.99 soit la quasi totalité des documents pertinents),
mais la précision faible (par exemple 0.10) fournira en guise de
réponse de nombreux documents erronés en plus de ceux
pertinents: il sera donc difficilement exploitable.

Par exemple, un système de recherche documentaire qui renvoie


la totalité des documents de sa base aura un rappel de 1 (mais une
mauvaise précision). Tandis qu'un système de recherche qui renvoie
uniquement la requête de l'utilisateur aura une précision de 1 pour
un rappel très faible. La valeur d'un classifieur ne se réduit donc pas
à un bon score en précision ou en rappel.

33
Comparer deux ou plusieurs systèmes

Dans ce cas le SRI dont la courbe qui est toujours supérieure


est le plus performant

1
0,8 SRI2 SRI1
Precision

0,6

0,4
0,2
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Rappel

34
Comparer deux ou plusieurs systèmes
• Dans ce cas de chevauchement entre les deux courbes, on ne
peux pas comparer directement les performances. Il faut
calculer les précisions moyennes des deux SRIs

1
0,8 SRI2 SRI1
Precision

0,6

0,4
0,2
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Rappel

35
Précision moyenne

36
Mean Average Precision : MAP

37
Campagnes d'évaluation
• TREC (Text REtrieval Conference) :
– Événement phare du domaine, tous les ans depuis 1992
– Sponsorisée par la DARPA
– De nombreux axes de recherche :
• Multimédia : image, vidéo, Web
• Types de recherche spécifiques : questions-réponses, interactif, filtrage,

"cross-language", "home page«


• Domaines spécifiques : génomique, légal
• Modes d'expression spécifiques : blogs, spams
• ...
• CLEF (Cross-Language Evaluation Forum), spécialisée dans les langages
européens
• NTCIR, spécialisée dans les langages asiatiques

38

Vous aimerez peut-être aussi