100% ont trouvé ce document utile (5 votes)

3K vues4 pages

TD1 2

Ce document contient plusieurs exercices sur la recherche d'information portant sur différents modèles et algorithmes comme le modèle booléen pondéré, le modèle vectoriel, la pondération tf-idf, l'algorithme de Porter, l'analyse de systèmes de recherche d'information et la comparaison de systèmes.

Transféré par

Ķőőķie Šâm

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

100% ont trouvé ce document utile (5 votes)

3K vues4 pages

TD1 2

Transféré par

Ķőőķie Šâm

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

MIASH– Option Recherche d'Information 2019/2020

TD – Recherche d'information

Exercice 1 – modèle booléen pondéré

Considérons deux documents D1 et D2, représentés sur un vocabulaire T={t1, …, t10}.

La formule logique de D1, est :
- WD1 est défini par :
t t1 t2 t3 t4 t5 t6 t7 t8 t9 t10
WD1(t) 0.5 0 0.8 0 1 0 0.6 0.8 0 0.9

La formule logique de D2 est :

- WD2 est défini par :
t t1 t2 t3 t4 t5 t6 t7 t8 t9 t10
WD2(t) 1 0.7 0 0 1 0 0 0 0 0.9

Traiter les deux requêtes suivantes :

Q1 : t1 Ù t5
Q2 : (t1 Ù t5) Ú (t8 Ù t10)

1. En utilisant une similarité basée sur la logique floue (similarité 1 du cours)

2. En utilisant la seconde similarité (similarité 2 du cours).

Exercice 2 – modèle vectoriel

Considérons deux documents d1=(0.5, 0.5) et d2=(0.25, 1), et une requête q=(1, 0.5).
Représenter ces vecteurs graphiquement, et déduire d’après vous l’ordre des réponses d’un
système vectoriel. Valider votre intuition en utilisant une correspondance utilisant un cosinus.

Exercice 3 – modèle vectoriel

Considérons les documents suivants :

d1 = (1,0,1,0,0,0) d2 = (3,0,2,1,0,0) d3 = (1,2,3,0,1,0)
Considérons les requêtes q1 = (2,0,2,0,0,0) et q2 =(0,0,0,2,0,2).

Utiliser comme fonction de correspondance la méthode du cosinus pour calculer la valeur de

pertinence système des ces documents. Les ordonner par pertinence décroissante et donner la
liste de réponse pour chaque requête.

Exercice 4 – pondération dans le modèle vectoriel

Un document contient uniquement la phrase « deux un deux». Supposons que chaque mot est
dans le vocabulaire d’indexation. Le corpus de documents contient 1 000 documents et le
terme "deux" apparaît dans 150 documents et le terme "un" dans 50 documents. Si nous
utilisons la pondération tf.idf vue en cours, donner le poids de chacun des termes du
document. Faire les calculs avec les deux manières de calculer l’idf vues en cours.
Commenter les valeurs obtenues.
Valeurs possiblement utiles: log10(5)=0.70 ; log10(6.67)=0.82 ; log10(10)=1 ;
log10(20)=1.30 ; 1/100 = 0.01 ; 1/150 = 0.0067 ; 1/200 = 0.005 ; 1/50 = 0.02 .

1
MIASH– Option Recherche d'Information 2019/2020

Exercice 5 – indexation dans le modèle vectoriel

Considérons les textes suivants :

Document 1 : « Le professeur parle de la recherche d'information textuelle. »
Document 2 : « La recherche d'information est un domaine de recherche qui s'intéresse à des
nombreux problèmes. »
Document 3 : « Le modèle vectoriel de recherche d'information est un modèle simple à
comprendre. »

1. En considérant un anti-dictionnaire composé des termes :

{à, au, d, de, du, des, elle, elles, est, je, il, ils, le, la, les, lui, qui, son, s, sa, ses, tu, un, une}
représenter l'ensemble des termes d'indexation de chacun des documents ci-dessus.
2. Calculer les tf de chacun de ces termes pour chaque document.
3. Calculer l'idf de chacun des termes présents dans les documents
4. En déduire le tableau du fichier inverse pour ce corpus.
5. Calculer les normes de chaque vecteur document.

Exercice 6 – pondération dans le modèle vectoriel

Fournir les résultats des requêtes suivantes pour le corpus de l'exercice 5 :

Q0 : pomme de terre
Q1 : recherche d'information
Q2 : recherche d'information textuelle
Q3 : domaine du modèle vectoriel
Commencer par analyser les requêtes comme les documents (anti-dictionnaire), et utiliser une
pondération des requêtes par le tf uniquement.

Exercice 7 - bouclage de pertinence

Reprenons les documents de l’exercice 3 : en considérant que les documents d1 et d2 sont

pertinents et que le document d3 est non pertinent pour la requête q1, utiliser la formule de
Rocchio reformuler la requête et pour l’évaluer, avec alpha=1, beta=0.4 et gamma=0.2

Exercice 8 – algorithme de Porter

Rappel : L'algorithme de porter sur la langue anglaise tente de définir des troncatures de mots
pour améliorer la réponse des systèmes de recherche d'information. L'hypothèse est que des
mots proches sémantiquement auront une troncature identique, cela amenant à améliorer la
qualité des réponses du SRI.
Les règles de réécriture que nous utilisons sont celles vues en cours :
1. s à /
2. ed à /
3. ing à /
4. er à
5. e à /
6. ment à /
7. double consonne et non (*l ou *s ou *z) à la consonne

Prenons 4 documents :
D1 = "computing programs written software development"

2
MIASH– Option Recherche d'Information 2019/2020

D2 = "programming language softwares"

D3 = "computer software program"
D4 = "information retrieval"

Question 1
En considérant :
- le vocabulaire T = {computer, computing, development, information, language,
program, programming, programs, retrieval, software, softwares, written};
- des pondérations uniquement basées sur le tf;
- la similarité basée sur le cosinus;
donner le résultat d'une requête "programs" de vecteur Q0 = (0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0).

Question 2
Donner pour ces 4 documents les termes tronqués qui les indexent. En déduire le vocabulaire
d'indexation de ce corpus.

Question 3
Reprendre la même requête "programs", lui appliquer la troncature, calculer le vecteur requête
et la réévaluer.

Exercice 9 – Analyse de SRI

Nous réalisons ici une analyse d'un système de recherche d'information.

Question 1
Supposons que pour une requête Q1 le système de recherche d'information testé renvoie les
réponses suivantes:

rang n° doc pertinent rappel précision

1 588 X
2 589 X
3 576
4 590 X
5 986
6 592 X
7 884
8 988
9 578
10 985
11 103
12 591
13 572 X
14 990

Les documents pertinents pour Q1 sont : 572, 588, 589, 590, 592.
Calculer les taux de précision et de rappel du système à chaque réponse et remplir le tableau
ci-dessus.
Donner le tableau de résultats normalisé pour cette requête, et en déduire la courbe de
rappel/précision.

3
MIASH– Option Recherche d'Information 2019/2020

Question 2
Réaliser le même travail pour la requête Q2, avec les réponses suivantes :

Rang n° doc pertinent Rappel précision

1 324 X
2 589 X
3 528 X
4 590 X
5 986 X
6 592 X
7 899 X
8 988 X
9 578
10 985
11 537 X
12 591 X
13 772 X
14 990

La liste des tous les documents pertinents pour la requête Q2 est : 324, 528, 537, 589, 590,
591, 592, 772, 899, 986, 988.

Question 3
En regardant les courbes, que pouvez-vous déduire de la qualité relative du système pour ces
deux requêtes?

Question 4
Donner le tableau global des résultats du système pour les deux requêtes et dessiner le schéma
résultant.

Exercice 10 – Comparaison de SRI

Nous voulons comparer deux systèmes de recherche d'information.

Le premier système S1 est celui de l'exercice 9. Le second système, S2, a pour tableau de
rappel/précision pour les deux requêtes Q1 et Q2:
Rappel Précision
0 0..92
0.1 0.88
0.2 0.86
0.3 0.84
0.4 0.80
0.5 0.75
0.6 0.72
0.7 0.70
0.8 0.65
0.9 0.63
1.0 0.61

Tracer les courbes de S1 et S2 sur la même figure.

Analyser les courbes pour en déduire lequel des deux systèmes semble le meilleur.

Vous aimerez peut-être aussi

Série TD2
100% (3)
Série TD2
3 pages
Correction td1
Pas encore d'évaluation
Correction td1
6 pages
Contrôle final en recherche d'information
100% (1)
Contrôle final en recherche d'information
3 pages
Recherche d'information et TF-IDF en LSI
Pas encore d'évaluation
Recherche d'information et TF-IDF en LSI
4 pages
Examen sur la Recherche d'Information
86% (14)
Examen sur la Recherche d'Information
3 pages
TD 1: Modèles de Recherche D'information: I & RI Glsi2 R. M
0% (1)
TD 1: Modèles de Recherche D'information: I & RI Glsi2 R. M
1 page
Série 1-RI-ISIL
100% (1)
Série 1-RI-ISIL
4 pages
Termes d'indexation et matrices de poids
100% (1)
Termes d'indexation et matrices de poids
5 pages
TD 4 Correction
100% (1)
TD 4 Correction
10 pages
Indexation Des Images: Descripteures Globaux: Exercice 1
100% (1)
Indexation Des Images: Descripteures Globaux: Exercice 1
2 pages
Évaluation des Systèmes de Recherche d'Information
100% (1)
Évaluation des Systèmes de Recherche d'Information
38 pages
Corrige Fouille de Données
Pas encore d'évaluation
Corrige Fouille de Données
6 pages
Recherche Et Indexation D'image: h1c I h1 K
100% (1)
Recherche Et Indexation D'image: h1c I h1 K
6 pages
Cours Technique D'indexation Et Recherche Multimedia
100% (3)
Cours Technique D'indexation Et Recherche Multimedia
148 pages
v2-Sujet+Corrigé-Rattrapage de WebSemantique-2017-2018
100% (2)
v2-Sujet+Corrigé-Rattrapage de WebSemantique-2017-2018
4 pages
Chaînage Avant / Chaînage Arrière
Pas encore d'évaluation
Chaînage Avant / Chaînage Arrière
15 pages
Evaluation de Recherche D
Pas encore d'évaluation
Evaluation de Recherche D
5 pages
Arbre de décision et grammaire régulière
100% (1)
Arbre de décision et grammaire régulière
4 pages
Stratégies de recherche en IA 2021
100% (1)
Stratégies de recherche en IA 2021
3 pages
Corrigé Examen Systèmes Répartis 2025
Pas encore d'évaluation
Corrigé Examen Systèmes Répartis 2025
5 pages
Examen IA: Algorithmes et Réseaux Bayésiens
100% (1)
Examen IA: Algorithmes et Réseaux Bayésiens
4 pages
Série TD N°2: Tests Structurels
0% (1)
Série TD N°2: Tests Structurels
1 page
Examens Correction Compilation
Pas encore d'évaluation
Examens Correction Compilation
58 pages
Analyse de données pour étudiants
100% (2)
Analyse de données pour étudiants
10 pages
Clustering et Analyse de Données en TD
100% (2)
Clustering et Analyse de Données en TD
1 page
Correction Examen Complexité Mai 2023
100% (1)
Correction Examen Complexité Mai 2023
4 pages
Corrigé Réseaux Sémantiques et Exercices
Pas encore d'évaluation
Corrigé Réseaux Sémantiques et Exercices
5 pages
Machine Learning Examen Corrigé 2023
Pas encore d'évaluation
Machine Learning Examen Corrigé 2023
5 pages
Recherche d'Information et Classement Documentaire
Pas encore d'évaluation
Recherche d'Information et Classement Documentaire
4 pages
Sujet IA 2022 Corr
Pas encore d'évaluation
Sujet IA 2022 Corr
3 pages
Sujets Concours Doctorat en Informatiqu 5 15 Compressed
Pas encore d'évaluation
Sujets Concours Doctorat en Informatiqu 5 15 Compressed
11 pages
Correction TD 7 Alpha Beta
33% (3)
Correction TD 7 Alpha Beta
5 pages
Corrigé - TD Ocl Pour m1 Sic
100% (3)
Corrigé - TD Ocl Pour m1 Sic
13 pages
Intelligence Artificielle - TD 2: Lgorithmes de Recherche en
100% (1)
Intelligence Artificielle - TD 2: Lgorithmes de Recherche en
2 pages
Analyse Syntaxique Descendante et LL(1)
100% (2)
Analyse Syntaxique Descendante et LL(1)
1 page
Chapitre - II Indexation en RI
Pas encore d'évaluation
Chapitre - II Indexation en RI
73 pages
Exercices - Arbre de Décision: Exercice N°1
100% (3)
Exercices - Arbre de Décision: Exercice N°1
2 pages
Examen d'Intelligence Artificielle 2019
100% (2)
Examen d'Intelligence Artificielle 2019
3 pages
Algorithmes de Recherche Heuristique: Intelligence Artificielle - TD 2
100% (1)
Algorithmes de Recherche Heuristique: Intelligence Artificielle - TD 2
3 pages
QCM - Cours 1 - Sans Correction
Pas encore d'évaluation
QCM - Cours 1 - Sans Correction
4 pages
AD BDR Exam 2008corrige Pour Etu
100% (1)
AD BDR Exam 2008corrige Pour Etu
10 pages
Examen Data Science 01
100% (3)
Examen Data Science 01
11 pages
TD 1-Correction
Pas encore d'évaluation
TD 1-Correction
4 pages
Examen Compilation - 2012 - 05 - Correction
75% (4)
Examen Compilation - 2012 - 05 - Correction
8 pages
Correction d'examens en informatique
100% (1)
Correction d'examens en informatique
4 pages
TD2 DiagClasses 2022 2023correction
Pas encore d'évaluation
TD2 DiagClasses 2022 2023correction
13 pages
TD Compléxité Diviser Pour Règner
50% (2)
TD Compléxité Diviser Pour Règner
3 pages
Exam Fouille Extraction Datamining Donnees 2017 2018corrige
100% (1)
Exam Fouille Extraction Datamining Donnees 2017 2018corrige
9 pages
Intelligence Artificielle Sujet 04 Corrigé
100% (5)
Intelligence Artificielle Sujet 04 Corrigé
3 pages
TIRM Exament SPrincipale 2021
Pas encore d'évaluation
TIRM Exament SPrincipale 2021
3 pages
NDQX NDIw MJ QT MDYt MJKG MJ M6 MJ I6 MTI
Pas encore d'évaluation
NDQX NDIw MJ QT MDYt MJKG MJ M6 MJ I6 MTI
3 pages
Rxamen RI 24024
Pas encore d'évaluation
Rxamen RI 24024
1 page
Techniques d'Indexation et Évaluation RI
Pas encore d'évaluation
Techniques d'Indexation et Évaluation RI
2 pages
Évaluation de la Recherche d'Information
Pas encore d'évaluation
Évaluation de la Recherche d'Information
2 pages
Évaluation de Systèmes de Recherche d'Information
Pas encore d'évaluation
Évaluation de Systèmes de Recherche d'Information
2 pages
Analyse de la pertinence des documents LSI
Pas encore d'évaluation
Analyse de la pertinence des documents LSI
3 pages
Évaluation des Systèmes de Recherche
Pas encore d'évaluation
Évaluation des Systèmes de Recherche
2 pages
Mesures de Similarité en Recherche d'Information
Pas encore d'évaluation
Mesures de Similarité en Recherche d'Information
8 pages
TD1 TIR 24 Opt
Pas encore d'évaluation
TD1 TIR 24 Opt
3 pages
Calendrier ARFA - Formations en Apprentissage - Rentrée 2022
Pas encore d'évaluation
Calendrier ARFA - Formations en Apprentissage - Rentrée 2022
1 page
Isoprothallie chez les Bryophytes
Pas encore d'évaluation
Isoprothallie chez les Bryophytes
8 pages
Test de La Personnalite Extraits
Pas encore d'évaluation
Test de La Personnalite Extraits
22 pages
Schéma de câblage AUMA MATIC 01.1/02.1
Pas encore d'évaluation
Schéma de câblage AUMA MATIC 01.1/02.1
2 pages
Cours - Math - Généralités Sur Les Fonctions - 2ème Sciences (2020-2021) MR Ayadi Mondher
100% (1)
Cours - Math - Généralités Sur Les Fonctions - 2ème Sciences (2020-2021) MR Ayadi Mondher
3 pages
Introduction à l'optimisation convexe
Pas encore d'évaluation
Introduction à l'optimisation convexe
21 pages
Relevemensuel 2024 12 31
Pas encore d'évaluation
Relevemensuel 2024 12 31
1 page
Mathematiques Grandeurs Et Mesures
Pas encore d'évaluation
Mathematiques Grandeurs Et Mesures
2 pages
06 Triangle Et Droites Paralleles Steinmaths
Pas encore d'évaluation
06 Triangle Et Droites Paralleles Steinmaths
8 pages
TDR Étude Hydrologique Et Hydraulique
Pas encore d'évaluation
TDR Étude Hydrologique Et Hydraulique
6 pages
Conférence Verte: Jeunesse et Emplois
Pas encore d'évaluation
Conférence Verte: Jeunesse et Emplois
1 page
Eveil Afrique Noire
Pas encore d'évaluation
Eveil Afrique Noire
126 pages
Rapport de Stage
Pas encore d'évaluation
Rapport de Stage
17 pages
Exercices d'algorithmique SMI S2
Pas encore d'évaluation
Exercices d'algorithmique SMI S2
6 pages
05-7-25 Neet
Pas encore d'évaluation
05-7-25 Neet
2 pages
23 Guide de Montage Réalisation
Pas encore d'évaluation
23 Guide de Montage Réalisation
6 pages
TP2 IHM Prise en Main Figma
100% (2)
TP2 IHM Prise en Main Figma
20 pages
Électrolyse et Orbites de Jupiter
Pas encore d'évaluation
Électrolyse et Orbites de Jupiter
2 pages
Descriptifpommiersrecents
Pas encore d'évaluation
Descriptifpommiersrecents
3 pages
La Politique Achat
Pas encore d'évaluation
La Politique Achat
2 pages
Théorie Du Complot Sur La Mort de Diana Spencer
Pas encore d'évaluation
Théorie Du Complot Sur La Mort de Diana Spencer
9 pages
Guide Complet de Couture pour Débutants
83% (6)
Guide Complet de Couture pour Débutants
18 pages
Épices Exotiques de Madagascar
Pas encore d'évaluation
Épices Exotiques de Madagascar
15 pages
POSTER Développement de L'oasis de Todgha
Pas encore d'évaluation
POSTER Développement de L'oasis de Todgha
1 page
61293cb5c0892corrige TP 12 Fonction Logarithme Neperien Niveau
Pas encore d'évaluation
61293cb5c0892corrige TP 12 Fonction Logarithme Neperien Niveau
5 pages
Ma Bible de La Médecine Chinoise (Marie Borrel Dr. Philippe Maslo)
90% (10)
Ma Bible de La Médecine Chinoise (Marie Borrel Dr. Philippe Maslo)
925 pages
Adagio For Oboe - B. Marcello - Arr. D. Semeraro
Pas encore d'évaluation
Adagio For Oboe - B. Marcello - Arr. D. Semeraro
42 pages
Esa 9162
Pas encore d'évaluation
Esa 9162
6 pages
Guide complet sur la métrologie industrielle
Pas encore d'évaluation
Guide complet sur la métrologie industrielle
38 pages