Matière: Recherche d’information Niveau : 2eme LSI
Responsable : Hanen Samaali A U : 2022 / 2023
TD 2 : Recherche d’information
Exercice 1 :
Considérons deux documents D1 et D2, représentés sur un vocabulaire T={t1, …, t10}.
La formule logique de D1, est : - WD1 est défini par :
La formule logique de D2 est : - WD2 est défini par :
1. Donner la liste de réponse ordonnée pour chaque requête en utilisant la seconde
similarité vue en cours (modèle booléen pondéré) :
Q1 : t7 t5 Q2 : t2 t10
Solution :
Pour Q1
Sim(D1,( t7 t5 ))= 1- (1 – 0.62 ) + (1 – 12 )
2
= 0.43
(1 – 0 ) + (1 – 12 )
= 0.29
Sim(D2,( t7 t5 ))= 1- 2
Un document est pertinent lorsqu'il peut nous aider à répondre à notre question de recherche.
c’est-à-dire qu'il doit répondre à un besoin d’utilisateur.
Le document d1 est plus pertinent que le document d2
La liste ordonnée des documents est : d1, d2
Pour Q2
0 + 0.92 = 0.63
= 0.63
Sim(D1,( t2 t10))= 2
Sim(D1,( t2 t10))= 0.72 + 0.92
2
= 0.80
Le document d2 est plus pertinent que le document d1
La liste ordonnée des documents est : d2, d1
Exercice 2 :
Soient les ensembles des termes obtenus de l'indexation des documents D1 et D2 suivants:
D1 = {efficacité, recherche, mesurée, précision, moyenne}
D2 = {modèles, recherche, efficaces, langage, vectoriel}
1. Donner la table des fréquences : terme, document;
2. Calculer TF*IDF de chaque terme
Solution :
Terme D1 D2 TF*IDF D1 TF*IDF D2
efficacité 1 0 1*log(2/1) = 0.30 0
recherche 1 1 1*log(2/2) = 0 1*log(2/2) = 0
mesurée 1 0 1*log(2/1) = 0.30 0
précision 1 0 1*log(2/1) = 0.30 0
moyenne 1 0 1*log(2/1) = 0.30 0
modèles 0 1 0 1*log(2/1) = 0.30
efficaces 0 1 0 1*log(2/1) = 0.30
langage 0 1 0 1*log(2/1) = 0.30
vectoriel 0 1 0 1*log(2/1) = 0.30
Exercice 3 :
Soient : un document qui contient le texte ”maison belle maison”
une collection de 100 documents, le terme ”maison” apparaît dans 20 documents pour un
nombre d’occurrences de 35 au total, le terme ”belle” apparaît dans 35 documents pour un
nombre d’occurrences de 40 au total.
1. Quelle est la pondération ”TF*IDF” des termes ”maison” et ”belle” pour le
document ? Commentez les valeurs obtenues.
Solution :
TF-IDF (ou Term Frequency – Inverse Document Frequency) (Sparck Jones, 1972) mesure le
pouvoir discriminant d'un mot ou d’un groupe de mots dans un document donné. Essentiellement,
cette technique mesure l'importance d'un certain terme dans un document par rapport aux
autres documents de la même collection.
Cette mesure est utilisée pour pondérer les termes-candidats : plus la valeur TFIDF d’un terme-
candidat est élevée, plus celui-ci est important dans le document analysé. En prenant compte de
tous les documents dans le corpus, cette méthode présente généralement de meilleurs résultats.
1. T1 = maison et T2 = belle
W1 = TF1*IDF1 = 2*log(100/20)= 1,39
W2 = TF2*IDF2 = 1*log(100/35)= 0,45
2. Le terme T1(maison) est plus important que le terme T2(belle) dans le document
analysé.