100% ont trouvé ce document utile (1 vote)

545 vues38 pages

Évaluation des Systèmes de Recherche d'Information

Ce document présente les principales mesures d'évaluation des systèmes de recherche d'informations. Il décrit les mesures subjectives et objectives comme la précision, le rappel et la F-mesure. Le document explique également comment comparer les performances de différents systèmes à l'aide des courbes précision-rappel.

Transféré par

Sahar MANAII

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

100% ont trouvé ce document utile (1 vote)

545 vues38 pages

Évaluation des Systèmes de Recherche d'Information

Transféré par

Sahar MANAII

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université de Tunis-Elmanar

Institut Supérieur d’Informatique

Cours : Indexation et recherche

d’informations MultiMedia
Niveau : 3 GLSI

Chapitre 4: Evaluation des SRI

présenté par:
Mohamed Sahbi Bahroun
Année Universitaire 2017/2018 1
Plan du chapitre

1) Evaluation des SRI

2) Mesures subjectives d’évaluation
3) Mesures objectives d’évaluation
4) Comparaison de performances

2
1- Évaluation des SRI

3
Recherche d'Information

Indexation
(modèle de document)
Collections dynamiques
vs. statiques

Modèle de
recherche
Évaluation

Requête

2éme SIL
4
Qu’est-ce qu’un bon moteur de recherche ?

• Il est rapide !
Une analyse rapide de la requête
Une recherche rapide dans l’index
Un tri rapide des résultats

• Il est complet et à jour !

– Tous les (ou de nombreux) documents de la collection sont traités
– Les nouveaux documents sont incorporés rapidement aux résultats
Une construction rapide de l’index
(sur le Web) Une découverte permanente, efficace et rapide des nouveaux
documents

2éme SIL
5
Qu’est-ce qu’un bon moteur de recherche ?
• Son langage de requêtes est simple et expressif
– Ces notions dépendent des types d’utilisateurs
Un modèle de recherche et d’indexation approprié

• Son interface est sympa

De nombreuses recherches dans ce domaine

• Il est gratuit ou pas cher

Les moteurs de recherche (sur le Web mais pas seulement) sont un
enjeu économique très important (et il faut trouver des recettes)

2éme SIL
6
Qu’est-ce qu’un bon moteur de recherche ?
• Mais surtout… il est pertinent !
– Ses résultats doivent satisfaire le besoin d’information de l’utilisateur
– Mais ce point est plus difficile à mesurer
– Le SRI doit retourner les bons résultats au plus tôt (avant les mauvais)

• La pertinence dépend des utilisateurs

– Les humains sont subjectifs
– Ils ont leurs propres connaissances
– Ils ont des besoins différents qui n’apparaissent
pas toujours dans leur expression de ces besoins

• La définition de la pertinence peut être :

– Objective (automatique)
– Subjective (manuelle)

7
Qu’est-ce qu’une bonne évaluation ?
• Évaluer un système sert à :
– Savoir s’il remplit la tâche assignée
– Savoir s’il est meilleur que la concurrence
– Savoir où on peut l’améliorer
• Il faut donc une évaluation :
– Reproductible
• Pour évaluer plusieurs systèmes de la même façon
• Pour estimer les progrès accomplis
– Interprétable
• Pour identifier les zones de progrès possible
– Rapide
• Pour pouvoir évaluer chaque modification du système indépendamment
– Objective

8
2- Mesures subjectives d’évaluation d’un
système de recherche d’informations MM

9
Mesures subjectives

10
Mesures subjectives pour l’image

11
Mesures subjectives : difficultés

12
3- Mesures objectives d’évaluation d’un
système de recherche d’informations MM

13
Pré-requis pour l’évaluation
2 points principaux :

• La base de test : ~ 30% de la base totale

– De petite taille (ensemble de documents présélectionnées)
– Les documents serviront pour la requête

• La base d’apprentissage : ~ 70% de la base totale

– De grande taille et appelée vérité terrain (ground truth)
– On connait exactement le contenu de ces images
– Les documents résultats seront pris de la base d’apprentissage.

• Pour chaque document de la base d’apprentissage on sait exactement à

l’avance combien de documents lui sont similaires dans la base de test
• Les deux bases sont formés manuellement
• Pour évaluer on compare les résultats du système aux résultats attendus

14
Comment rendre la pertinence objective ?
• Pour rendre la pertinence objective :
– On en simplifie la définition
• Les documents sont traités indépendamment les uns des autres
• La pertinence est transformée en notion binaire (pertinent ou pas).
On ne parle pas de pertinence partielle
• Pour comparer les performances de deux systèmes ou de deux descripteurs,
on utilise :
– La même base d’apprentissage
– La même base de test
– La base de test doit être partagée par tous les chercheurs du domaine et
elle est appelée « Benchmark »
– La taille de la base de test doit être suffisamment grande pour diminuer
la variance des évaluations

15
Précision/rappel

Tous les
documents
Retrouné

Pertinent

16
Précision/rappel

17
Précision et rappel
• Pourquoi pas juste la précision ?
– La précision évalue la capacité d’un système à renvoyer SURTOUT des
documents pertinents
– Renvoyer un seul document pertinent suffit à obtenir 100 % de précision
Ce n’est pas compatible avec la satisfaction de l’utilisateur !

• Pourquoi pas juste le rappel ?

– Le rappel évalue la capacité d’un système à renvoyer TOUS les documents
pertinents
– Renvoyer tous les documents de la collection permet d’obtenir 100 % de
rappel
Ce n’est pas compatible avec la satisfaction de l’utilisateur !

18
Précision/rappel

• Précision : pourcentage de bons résultats parmi les résultats

retournés
• Rappel : pourcentage de bons résultats parmi la totalité de bons
résultats
• Un SRI parfait est caractérisé par une précision et un rappel égaux à
1
– Précision = 1 : le SRI n’a retourné aucun mauvais résultat ( tous
les résultats retournés sont similaires à la requête)
– Rappel = 1 : Le SRI a retourné tous les bons résultats (n’a oublié
aucun document similaire)

19
Autres mesures d’Évaluation : silence et bruit

20
Autres mesures d’Évaluation : F-mesure

• Appelée moyenne harmonique : c’est une mesure qui tient compte à la

fois du rappel et de la précision

2 P. R
F=
P+R

21
Autres mesures d’Évaluation : F-mesure paramétrée
• Une mesure populaire qui combine la précision et le rappel est leur
pondération, nommée F-mesure (soit F-measure en anglais) ou F-
score (moyenne harmonique)

1 ( β 2 + 1) × P × R 1
F= = 2
avec α = 2
1 1 β P+R β +1
α + (1 − α )
p R

• β = 1 : moyenne harmonique : précision et rappel ont une importance

égale
• β < 1 favorise la précision,
• β > 1 favorise le rappel

22
4- Comparaison de performances

23
Comparaison entre deux SRIs
• Soit un SRI1. Pour une requête I on a
R =20, A=25, Ra=15
Precision =15/25, Rappel = 15/20
Le SRI1 retourne les 15 bons résultats puis les 10 mauvais résultats
• Soit un SRI2. Pour une requête I on a
R =20, A=25, Ra=15
Precision =15/25, Rappel = 15/20
Le SRI2 retourne les 10 mauvais résultats puis les 15 bons résultats
Conclusion :
Ces deux SRI ont les mêmes valeurs de précision et rappel global mais
avec des performances différentes
Les mesures de précision et de rappel global ne permettent pas de
comparer les performances de deux SRIs
Besoin de tracer la courbe de precision=f(rappel)

24
Courbe précision/rappel
La courbe de précision=f(rappel) permet d’évaluer la qualité
des résultats retournés au plutôt par un SRI.
Le rappel Ri est en absice et la précision Pi en ordonné
Pi=f(Ri)
Mesure des précisions Pi et du rappel Ri à chaque rang i des
résultats retournés.
Pour le calcul de Pi et Ri à chaque rang i, on ne tient compte
que des rangs qui précèdent i
La courbe de précision=f(rappel) doit obligatoirement être
décroissante (interpolation des points où il y a des problèmes
de phase croissante)

25
Courbe rappel/précision
• Le rappel augmente bien sûr avec le nombre de réponses
• La précision diminue (en général)
• la courbe rappel/précision doit être forcément décroissante et ne doit
contenir aucune phase croissante

0,8

0,6

0,4

0,2

0
,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 1

26
Traçage de la courbe (interpolation)

27
Exemple 1 : SRI1
Rang Pertinence Precision Pi Rappel Ri
1 × 1/1 1/6
2 × 2/2 2/6 On sait que pour
3 2/3 2/6 la requête I il y a 6
documents
4 × 3/4 3/6
pertinents dans la
5 3/5 3/6 base
6 × 4/6 4/6
7 4/7 4/6
8 4/8 4/6
9 4/9 4/6
10 4/10 4/6
11 4/11 4/6
12 4/12 4/6
13 × 5/13 5/6
14 5/14 5/6
28
Traçage de la courbe (SRI2)
Precision

1.0

0.8

0.6

0.4

0.2

0.2 0.4 0.6 0.8 1.0

Recall
R=1/6 R=2/6 R=3/6 R=4/6 R=5/6 R=6/6

29
Exemple 2 : SRI2
Rang Pertinence Precision Pi Rappel Ri
1 × 1/1 1/6
2 1/2 1/6 On sait que pour
3 × 2/3 2/6 la même requête I
il y a 6 documents
4 2/4 2/6
pertinents dans la
5 × 3/5 3/6 base
6 3/6 3/6
7 3/7 3/6
8 × 4/8 4/6
9 × 5/9 5/6
10 5/10 5/6
11 5/11 5/6
12 5/12 5/6
13 5/13 5/6
14 × 6/14 6/6
30
Traçage de la courbe (SRI2)
Precision

1.0

0.8

0.6

0.4

0.2

0.2 0.4 0.6 0.8 1.0

Recall
R=1/6 R=2/6 R=3/6 R=4/6 R=5/6 R=6/6

31
Interprétation
Un système de recherche documentaire parfait fournira des
réponses dont la précision et le rappel sont égaux à 1 (l'algorithme
trouve la totalité des documents pertinents - rappel - et ne fait
aucune erreur - précision).

Dans la réalité, les algorithmes de recherche sont plus ou moins

précis, et plus ou moins pertinents. Il sera possible d'obtenir un
système très précis (par exemple un score de précision de 0,99),
mais peu performant (par exemple avec un rappel de 0.10, qui
signifiera qu'il n'a trouvé que 10% des réponses possibles).

32
Interprétation
Dans le même ordre d'idée, un algorithme dont le rappel est fort
(par exemple 0.99 soit la quasi totalité des documents pertinents),
mais la précision faible (par exemple 0.10) fournira en guise de
réponse de nombreux documents erronés en plus de ceux
pertinents: il sera donc difficilement exploitable.

Par exemple, un système de recherche documentaire qui renvoie

la totalité des documents de sa base aura un rappel de 1 (mais une
mauvaise précision). Tandis qu'un système de recherche qui renvoie
uniquement la requête de l'utilisateur aura une précision de 1 pour
un rappel très faible. La valeur d'un classifieur ne se réduit donc pas
à un bon score en précision ou en rappel.

33
Comparer deux ou plusieurs systèmes

Dans ce cas le SRI dont la courbe qui est toujours supérieure

est le plus performant

1
0,8 SRI2 SRI1
Precision

0,6

0,4
0,2
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Rappel

34
Comparer deux ou plusieurs systèmes
• Dans ce cas de chevauchement entre les deux courbes, on ne
peux pas comparer directement les performances. Il faut
calculer les précisions moyennes des deux SRIs

1
0,8 SRI2 SRI1
Precision

0,6

0,4
0,2
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Rappel

35
Précision moyenne

36
Mean Average Precision : MAP

37
Campagnes d'évaluation
• TREC (Text REtrieval Conference) :
– Événement phare du domaine, tous les ans depuis 1992
– Sponsorisée par la DARPA
– De nombreux axes de recherche :
• Multimédia : image, vidéo, Web
• Types de recherche spécifiques : questions-réponses, interactif, filtrage,

"cross-language", "home page«

• Domaines spécifiques : génomique, légal
• Modes d'expression spécifiques : blogs, spams
• ...
• CLEF (Cross-Language Evaluation Forum), spécialisée dans les langages
européens
• NTCIR, spécialisée dans les langages asiatiques

Vous aimerez peut-être aussi

Chapitre 2 Les Modèles de Recherche D'information
Pas encore d'évaluation
Chapitre 2 Les Modèles de Recherche D'information
14 pages
Cours Technique D'indexation Et Recherche Multimedia
100% (3)
Cours Technique D'indexation Et Recherche Multimedia
148 pages
Évaluation et comparaison de SRI
Pas encore d'évaluation
Évaluation et comparaison de SRI
2 pages
Introduction à la Recherche d'Information
Pas encore d'évaluation
Introduction à la Recherche d'Information
18 pages
Recherche D Information
Pas encore d'évaluation
Recherche D Information
49 pages
Chapitre1 VF
100% (1)
Chapitre1 VF
44 pages
Evaluation de Recherche D
Pas encore d'évaluation
Evaluation de Recherche D
5 pages
Termes d'indexation et matrices de poids
100% (1)
Termes d'indexation et matrices de poids
5 pages
TD 1-Correction
Pas encore d'évaluation
TD 1-Correction
4 pages
Recherche d'Information et Classement Documentaire
Pas encore d'évaluation
Recherche d'Information et Classement Documentaire
4 pages
Recherche d'information et TF-IDF en LSI
Pas encore d'évaluation
Recherche d'information et TF-IDF en LSI
4 pages
Série 1-RI-ISIL
100% (1)
Série 1-RI-ISIL
4 pages
Contrôle final en recherche d'information
100% (1)
Contrôle final en recherche d'information
3 pages
TD 1: Modèles de Recherche D'information: I & RI Glsi2 R. M
0% (1)
TD 1: Modèles de Recherche D'information: I & RI Glsi2 R. M
1 page
LSI2 Techniques Indexation Recherche Multimédia 1
100% (2)
LSI2 Techniques Indexation Recherche Multimédia 1
12 pages
Chapitre - II Indexation en RI
Pas encore d'évaluation
Chapitre - II Indexation en RI
73 pages
Correction td1
Pas encore d'évaluation
Correction td1
6 pages
Série TD2
100% (3)
Série TD2
3 pages
Chapitre3 Indexation
Pas encore d'évaluation
Chapitre3 Indexation
69 pages
Recherche Et Indexation D'image: h1c I h1 K
100% (1)
Recherche Et Indexation D'image: h1c I h1 K
6 pages
Chap2 Indexation OL
100% (1)
Chap2 Indexation OL
28 pages
Chapitre 2 - Les Modèles de Recherche D'information
Pas encore d'évaluation
Chapitre 2 - Les Modèles de Recherche D'information
50 pages
TD1 2
100% (5)
TD1 2
4 pages
TD 4 Correction
100% (1)
TD 4 Correction
10 pages
Cours sur la Recherche d'Information
Pas encore d'évaluation
Cours sur la Recherche d'Information
90 pages
Exercices de recherche d'information LSI
Pas encore d'évaluation
Exercices de recherche d'information LSI
2 pages
Indexation Des Images: Descripteures Globaux: Exercice 1
100% (1)
Indexation Des Images: Descripteures Globaux: Exercice 1
2 pages
Exercices sur les structures de données en B+
Pas encore d'évaluation
Exercices sur les structures de données en B+
2 pages
2 Indexation Et Recherche D'images
Pas encore d'évaluation
2 Indexation Et Recherche D'images
6 pages
Examen sur la Recherche d'Information
86% (14)
Examen sur la Recherche d'Information
3 pages
Flex Sous Windows
100% (1)
Flex Sous Windows
2 pages
Indexation et Recherche d'Information
Pas encore d'évaluation
Indexation et Recherche d'Information
36 pages
Multimédia GDM-M1-GSI-Exam-correction-2018 PDF
Pas encore d'évaluation
Multimédia GDM-M1-GSI-Exam-correction-2018 PDF
4 pages
Exceptions et Classes Abstraites en Java
Pas encore d'évaluation
Exceptions et Classes Abstraites en Java
7 pages
Logique des propositions en IA
Pas encore d'évaluation
Logique des propositions en IA
2 pages
Gestion de base de données informatique
Pas encore d'évaluation
Gestion de base de données informatique
7 pages
Massih-Reza AMINI, Éric GAUSSIER - Recherche D'information (2013) PDF
Pas encore d'évaluation
Massih-Reza AMINI, Éric GAUSSIER - Recherche D'information (2013) PDF
255 pages
Chapitre3 VF
100% (1)
Chapitre3 VF
52 pages
Correction TD SQL : Création et Gestion des Tables
Pas encore d'évaluation
Correction TD SQL : Création et Gestion des Tables
14 pages
Introduction aux réseaux sémantiques
Pas encore d'évaluation
Introduction aux réseaux sémantiques
65 pages
07 CSP Exercices+
Pas encore d'évaluation
07 CSP Exercices+
17 pages
Contrôle Master Informatique : Web Sémantique
Pas encore d'évaluation
Contrôle Master Informatique : Web Sémantique
2 pages
Cours avancé en fouille de données
Pas encore d'évaluation
Cours avancé en fouille de données
96 pages
Examen IA 22-23 - Cycle
Pas encore d'évaluation
Examen IA 22-23 - Cycle
4 pages
Examen Indexation et Recherche d'Info
Pas encore d'évaluation
Examen Indexation et Recherche d'Info
3 pages
Corrigé Examen Master Data Mining
Pas encore d'évaluation
Corrigé Examen Master Data Mining
99 pages
Examen - Final NLP - MRII 2022 2023
Pas encore d'évaluation
Examen - Final NLP - MRII 2022 2023
4 pages
Méthodes de Conception OO en Java
100% (2)
Méthodes de Conception OO en Java
2 pages
Résolution de CSP avec Backtracking et AC3
Pas encore d'évaluation
Résolution de CSP avec Backtracking et AC3
1 page
Modélisation de Graphe avec EMF
Pas encore d'évaluation
Modélisation de Graphe avec EMF
24 pages
TD - Diagramme de Classes - Corrigé
Pas encore d'évaluation
TD - Diagramme de Classes - Corrigé
7 pages
Algorithmes de Recherche Heuristique: Intelligence Artificielle - TD 2
100% (1)
Algorithmes de Recherche Heuristique: Intelligence Artificielle - TD 2
3 pages
Évaluation des Algorithmes d'Apprentissage
Pas encore d'évaluation
Évaluation des Algorithmes d'Apprentissage
22 pages
Évaluation des Systèmes de Recherche d'Information
Pas encore d'évaluation
Évaluation des Systèmes de Recherche d'Information
24 pages
Chapitre4 Evaluation
Pas encore d'évaluation
Chapitre4 Evaluation
30 pages
Chapitre 3 Evaluation SRI
Pas encore d'évaluation
Chapitre 3 Evaluation SRI
28 pages
Évaluation des performances en SRI
Pas encore d'évaluation
Évaluation des performances en SRI
62 pages
Évaluation des systèmes de recherche d'information
Pas encore d'évaluation
Évaluation des systèmes de recherche d'information
28 pages
Évaluation des Systèmes de Recherche d'Information
Pas encore d'évaluation
Évaluation des Systèmes de Recherche d'Information
25 pages
Évaluation de la performance des SRI
Pas encore d'évaluation
Évaluation de la performance des SRI
15 pages
Gestion des processus métier SOA
Pas encore d'évaluation
Gestion des processus métier SOA
13 pages
Introduction à l'architecture REST
Pas encore d'évaluation
Introduction à l'architecture REST
13 pages
Corrigé Exercices Réseaux de Neurones
Pas encore d'évaluation
Corrigé Exercices Réseaux de Neurones
2 pages
Descripteurs globaux d'images en multimédia
Pas encore d'évaluation
Descripteurs globaux d'images en multimédia
90 pages
Chap3-Recherche Par Le Contenu
Pas encore d'évaluation
Chap3-Recherche Par Le Contenu
117 pages
Modélisation des Données Décisionnelles
Pas encore d'évaluation
Modélisation des Données Décisionnelles
74 pages
Template Pfe Isi 2
Pas encore d'évaluation
Template Pfe Isi 2
84 pages
Raccordement Télérupteur TGBT Communicant
Pas encore d'évaluation
Raccordement Télérupteur TGBT Communicant
9 pages
Flashcards Littérature
Pas encore d'évaluation
Flashcards Littérature
3 pages
Proje Assurance
Pas encore d'évaluation
Proje Assurance
17 pages
Optimisez vos posts Instagram
Pas encore d'évaluation
Optimisez vos posts Instagram
1 page
Atelier : Additionneur 2 bits et Afficheur 7 Segments
Pas encore d'évaluation
Atelier : Additionneur 2 bits et Afficheur 7 Segments
5 pages
Condensation
Pas encore d'évaluation
Condensation
2 pages
Billet Camair-Co: Yaoundé-Maroua 2024
Pas encore d'évaluation
Billet Camair-Co: Yaoundé-Maroua 2024
1 page
EMC 1ere Partie
Pas encore d'évaluation
EMC 1ere Partie
3 pages
Memoire-MR Audit Interne Et Performance
100% (2)
Memoire-MR Audit Interne Et Performance
73 pages
Putain de Guerre-1
Pas encore d'évaluation
Putain de Guerre-1
8 pages
Enam La Vraie Generosite Envers Avenir Consiste A Tout Donner Au Present
Pas encore d'évaluation
Enam La Vraie Generosite Envers Avenir Consiste A Tout Donner Au Present
5 pages
TP 1 Budget de Tresorerie, Ouhamouche Rachida
0% (1)
TP 1 Budget de Tresorerie, Ouhamouche Rachida
9 pages
LA Congomanie
Pas encore d'évaluation
LA Congomanie
15 pages
Pharmacologie : Médicaments et Toxicité
Pas encore d'évaluation
Pharmacologie : Médicaments et Toxicité
49 pages
Islam Mystique Et Révolution Armée Dans Les Balkans Ottomans Vie Du Cheikh Bedreddîm Le Hallaj Des Turcs (135859-1416) (Michel Balivet) - Compressed
Pas encore d'évaluation
Islam Mystique Et Révolution Armée Dans Les Balkans Ottomans Vie Du Cheikh Bedreddîm Le Hallaj Des Turcs (135859-1416) (Michel Balivet) - Compressed
183 pages
Teste Frances
Pas encore d'évaluation
Teste Frances
6 pages
Module4 Formation Naturopathie v2
Pas encore d'évaluation
Module4 Formation Naturopathie v2
37 pages
Le New Deal Technologique
100% (1)
Le New Deal Technologique
2 pages
Cours et exercices 2nde C Lycée Roi des Rois
Pas encore d'évaluation
Cours et exercices 2nde C Lycée Roi des Rois
6 pages
Examen de Risque Et Incertitude L2 Seg Upb
Pas encore d'évaluation
Examen de Risque Et Incertitude L2 Seg Upb
1 page
Rapport de Voyage d'Aventure : Guide Pratique
Pas encore d'évaluation
Rapport de Voyage d'Aventure : Guide Pratique
3 pages
Wa0000
Pas encore d'évaluation
Wa0000
37 pages
Electricité de Batiments
100% (2)
Electricité de Batiments
27 pages
Liste d'objets en bois et modèles
Pas encore d'évaluation
Liste d'objets en bois et modèles
113 pages
Exercices Prépositions
Pas encore d'évaluation
Exercices Prépositions
3 pages
Contrat Type Architecte
Pas encore d'évaluation
Contrat Type Architecte
19 pages
Adolphe Thiers
Pas encore d'évaluation
Adolphe Thiers
40 pages
CV Flavien Le Moing
Pas encore d'évaluation
CV Flavien Le Moing
1 page
Dimensionnement des échangeurs de chaleur
Pas encore d'évaluation
Dimensionnement des échangeurs de chaleur
35 pages
Définition du marché en concurrence
Pas encore d'évaluation
Définition du marché en concurrence
9 pages