0% ont trouvé ce document utile (0 vote)

408 vues4 pages

Recherche d'information et TF-IDF en LSI

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

408 vues4 pages

Recherche d'information et TF-IDF en LSI

Transféré par

Yassine Tanabéne

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Matière: Recherche d’information Niveau : 2eme LSI

Responsable : Hanen Samaali A U : 2022 / 2023

TD 2 : Recherche d’information

Exercice 1 :
Considérons deux documents D1 et D2, représentés sur un vocabulaire T={t1, …, t10}.
La formule logique de D1, est : - WD1 est défini par :

La formule logique de D2 est : - WD2 est défini par :

1. Donner la liste de réponse ordonnée pour chaque requête en utilisant la seconde

similarité vue en cours (modèle booléen pondéré) :
Q1 : t7  t5 Q2 : t2  t10

Solution :
 Pour Q1

Sim(D1,( t7  t5 ))= 1-  (1 – 0.62 ) + (1 – 12 )

2
= 0.43

 (1 – 0 ) + (1 – 12 )
= 0.29
Sim(D2,( t7  t5 ))= 1- 2
Un document est pertinent lorsqu'il peut nous aider à répondre à notre question de recherche.

c’est-à-dire qu'il doit répondre à un besoin d’utilisateur.

Le document d1 est plus pertinent que le document d2

La liste ordonnée des documents est : d1, d2

 Pour Q2

 0 + 0.92 = 0.63
= 0.63
Sim(D1,( t2  t10))= 2

Sim(D1,( t2  t10))=  0.72 + 0.92

2
= 0.80

Le document d2 est plus pertinent que le document d1

La liste ordonnée des documents est : d2, d1

Exercice 2 :
Soient les ensembles des termes obtenus de l'indexation des documents D1 et D2 suivants:

D1 = {efficacité, recherche, mesurée, précision, moyenne}

D2 = {modèles, recherche, efficaces, langage, vectoriel}

1. Donner la table des fréquences : terme, document;

2. Calculer TF*IDF de chaque terme

Solution :

Terme D1 D2 TFIDF D1 TFIDF D2

efficacité 1 0 1*log(2/1) = 0.30 0
recherche 1 1 1*log(2/2) = 0 1*log(2/2) = 0
mesurée 1 0 1*log(2/1) = 0.30 0
précision 1 0 1*log(2/1) = 0.30 0
moyenne 1 0 1*log(2/1) = 0.30 0
modèles 0 1 0 1*log(2/1) = 0.30
efficaces 0 1 0 1*log(2/1) = 0.30
langage 0 1 0 1*log(2/1) = 0.30
vectoriel 0 1 0 1*log(2/1) = 0.30

Exercice 3 :

Soient : un document qui contient le texte ”maison belle maison”

une collection de 100 documents, le terme ”maison” apparaît dans 20 documents pour un
nombre d’occurrences de 35 au total, le terme ”belle” apparaît dans 35 documents pour un
nombre d’occurrences de 40 au total.

1. Quelle est la pondération ”TF*IDF” des termes ”maison” et ”belle” pour le

document ? Commentez les valeurs obtenues.
Solution :
TF-IDF (ou Term Frequency – Inverse Document Frequency) (Sparck Jones, 1972) mesure le
pouvoir discriminant d'un mot ou d’un groupe de mots dans un document donné. Essentiellement,
cette technique mesure l'importance d'un certain terme dans un document par rapport aux
autres documents de la même collection.

Cette mesure est utilisée pour pondérer les termes-candidats : plus la valeur TFIDF d’un terme-
candidat est élevée, plus celui-ci est important dans le document analysé. En prenant compte de
tous les documents dans le corpus, cette méthode présente généralement de meilleurs résultats.

1. T1 = maison et T2 = belle

W1 = TF1IDF1 = 2log(100/20)= 1,39

W2 = TF2IDF2 = 1log(100/35)= 0,45

2. Le terme T1(maison) est plus important que le terme T2(belle) dans le document
analysé.

Vous aimerez peut-être aussi

Contrôle final en recherche d'information
100% (1)
Contrôle final en recherche d'information
3 pages
Série TD2
100% (3)
Série TD2
3 pages
Correction td1
Pas encore d'évaluation
Correction td1
6 pages
Termes d'indexation et matrices de poids
100% (1)
Termes d'indexation et matrices de poids
5 pages
TD 1: Modèles de Recherche D'information: I & RI Glsi2 R. M
0% (1)
TD 1: Modèles de Recherche D'information: I & RI Glsi2 R. M
1 page
Recherche d'Information et Classement Documentaire
Pas encore d'évaluation
Recherche d'Information et Classement Documentaire
4 pages
TD1 2
100% (5)
TD1 2
4 pages
Série 1-RI-ISIL
100% (1)
Série 1-RI-ISIL
4 pages
Exercices de recherche d'information LSI
Pas encore d'évaluation
Exercices de recherche d'information LSI
2 pages
Examen sur la Recherche d'Information
86% (14)
Examen sur la Recherche d'Information
3 pages
Indexation et Normalisation des Termes
Pas encore d'évaluation
Indexation et Normalisation des Termes
3 pages
TD 4 Correction
100% (1)
TD 4 Correction
10 pages
Corrigé Examen Master Data Mining
Pas encore d'évaluation
Corrigé Examen Master Data Mining
99 pages
Examen de Fouille de Données Avancée
0% (1)
Examen de Fouille de Données Avancée
1 page
Evaluation de Recherche D
Pas encore d'évaluation
Evaluation de Recherche D
5 pages
Évaluation des Systèmes de Recherche d'Information
100% (1)
Évaluation des Systèmes de Recherche d'Information
38 pages
Indexation Des Images: Descripteures Globaux: Exercice 1
100% (1)
Indexation Des Images: Descripteures Globaux: Exercice 1
2 pages
Contrôle Master Informatique : Web Sémantique
Pas encore d'évaluation
Contrôle Master Informatique : Web Sémantique
2 pages
Chapitre - II Indexation en RI
Pas encore d'évaluation
Chapitre - II Indexation en RI
73 pages
TD 1-Correction
Pas encore d'évaluation
TD 1-Correction
4 pages
Analyse de données pour étudiants
100% (2)
Analyse de données pour étudiants
10 pages
Recherche Et Indexation D'image: h1c I h1 K
100% (1)
Recherche Et Indexation D'image: h1c I h1 K
6 pages
v2-Sujet+Corrigé-Rattrapage de WebSemantique-2017-2018
100% (2)
v2-Sujet+Corrigé-Rattrapage de WebSemantique-2017-2018
4 pages
Examen Indexation et Recherche d'Info
Pas encore d'évaluation
Examen Indexation et Recherche d'Info
3 pages
Cours avancé en fouille de données
Pas encore d'évaluation
Cours avancé en fouille de données
96 pages
Chapitre 2 Les Modèles de Recherche D'information
Pas encore d'évaluation
Chapitre 2 Les Modèles de Recherche D'information
14 pages
Préfixes et exercices RDF/RDFS/SPARQL
Pas encore d'évaluation
Préfixes et exercices RDF/RDFS/SPARQL
11 pages
Examen de Programmation Logique 2018/2019
100% (1)
Examen de Programmation Logique 2018/2019
2 pages
Représentation des connaissances et XML
Pas encore d'évaluation
Représentation des connaissances et XML
5 pages
LSI2 Techniques Indexation Recherche Multimédia 1
100% (2)
LSI2 Techniques Indexation Recherche Multimédia 1
12 pages
Correction Fiche TD 3
100% (1)
Correction Fiche TD 3
4 pages
Multimédia GDM-M1-GSI-Exam-correction-2018 PDF
Pas encore d'évaluation
Multimédia GDM-M1-GSI-Exam-correction-2018 PDF
4 pages
Examen Web Sémantique - Corrigé 2016
Pas encore d'évaluation
Examen Web Sémantique - Corrigé 2016
4 pages
Corrige Fouille de Données
Pas encore d'évaluation
Corrige Fouille de Données
6 pages
Examen Complexité Mai 2023
Pas encore d'évaluation
Examen Complexité Mai 2023
2 pages
Sujets Concours Doctorat en Informatiqu 5 15 Compressed
Pas encore d'évaluation
Sujets Concours Doctorat en Informatiqu 5 15 Compressed
11 pages
Corrigé Examen IA Licence Informatique
Pas encore d'évaluation
Corrigé Examen IA Licence Informatique
3 pages
Examen IA: Algorithmes et Réseaux Bayésiens
100% (1)
Examen IA: Algorithmes et Réseaux Bayésiens
4 pages
Arbre de décision et grammaire régulière
100% (1)
Arbre de décision et grammaire régulière
4 pages
Exam Systeme Multi Agent
Pas encore d'évaluation
Exam Systeme Multi Agent
4 pages
TD2 DiagClasses 2022 2023correction
Pas encore d'évaluation
TD2 DiagClasses 2022 2023correction
13 pages
Corrigé Exam WEBS M2 SITW NT'IC
100% (1)
Corrigé Exam WEBS M2 SITW NT'IC
2 pages
Cours Technique D'indexation Et Recherche Multimedia
100% (3)
Cours Technique D'indexation Et Recherche Multimedia
148 pages
Examen Web Sémantique 3ème Année
Pas encore d'évaluation
Examen Web Sémantique 3ème Année
4 pages
Série TD N°2: Tests Structurels
0% (1)
Série TD N°2: Tests Structurels
1 page
Algorithmes de Recherche Heuristique: Intelligence Artificielle - TD 2
100% (1)
Algorithmes de Recherche Heuristique: Intelligence Artificielle - TD 2
3 pages
Machine Learning Examen Corrigé 2023
Pas encore d'évaluation
Machine Learning Examen Corrigé 2023
5 pages
Exercices XML et XSLT Corrigés
75% (4)
Exercices XML et XSLT Corrigés
8 pages
Contrôle final en Recherche d'Information
Pas encore d'évaluation
Contrôle final en Recherche d'Information
3 pages
Examen d'Intelligence Artificielle
Pas encore d'évaluation
Examen d'Intelligence Artificielle
2 pages
Sujet IA 2022 Corr
Pas encore d'évaluation
Sujet IA 2022 Corr
3 pages
Entrepôt de données et opérations OLAP
Pas encore d'évaluation
Entrepôt de données et opérations OLAP
2 pages
Exercices SVM pour Master STIC
Pas encore d'évaluation
Exercices SVM pour Master STIC
2 pages
3.3 SPARQL Corrigé
100% (1)
3.3 SPARQL Corrigé
18 pages
Examen: Etudiant (E)
100% (1)
Examen: Etudiant (E)
5 pages
2 Indexation Et Recherche D'images
Pas encore d'évaluation
2 Indexation Et Recherche D'images
6 pages
Recherche d'Information : Exercices LSI 2ème
Pas encore d'évaluation
Recherche d'Information : Exercices LSI 2ème
2 pages
Fiche TD No2 2022
Pas encore d'évaluation
Fiche TD No2 2022
1 page
TD4 Ri
Pas encore d'évaluation
TD4 Ri
2 pages
Pondération TF-IDF et Modèle Booléen
Pas encore d'évaluation
Pondération TF-IDF et Modèle Booléen
5 pages
Techniques d'indexation multimédia
Pas encore d'évaluation
Techniques d'indexation multimédia
33 pages
Techniques d'Indexation en Recherche d'Information
Pas encore d'évaluation
Techniques d'Indexation en Recherche d'Information
45 pages
Gestion des livres en JSP et Servlet
Pas encore d'évaluation
Gestion des livres en JSP et Servlet
6 pages
Tutoriel Laravel : CRUD Personnages
Pas encore d'évaluation
Tutoriel Laravel : CRUD Personnages
16 pages
Création d'un module de livres JSP/Servlet
Pas encore d'évaluation
Création d'un module de livres JSP/Servlet
5 pages
TP1 Algorithmique PréESI B Juillet2025
Pas encore d'évaluation
TP1 Algorithmique PréESI B Juillet2025
5 pages
Huffman
Pas encore d'évaluation
Huffman
23 pages
Recherche Opérationnelle et Programmation Linéaire
Pas encore d'évaluation
Recherche Opérationnelle et Programmation Linéaire
34 pages
Initiation à la Recherche Opérationnelle
Pas encore d'évaluation
Initiation à la Recherche Opérationnelle
244 pages
Exposants de Lyapunov Francais
Pas encore d'évaluation
Exposants de Lyapunov Francais
7 pages
Report-0.67088400 1741974635
Pas encore d'évaluation
Report-0.67088400 1741974635
2 pages
Projet MEF UIC 25
Pas encore d'évaluation
Projet MEF UIC 25
2 pages
Examen Contrôle 2023
Pas encore d'évaluation
Examen Contrôle 2023
3 pages
Exercices sur les algorithmes récurrents
Pas encore d'évaluation
Exercices sur les algorithmes récurrents
2 pages
Calcul des temps d'attente en ordonnancement
Pas encore d'évaluation
Calcul des temps d'attente en ordonnancement
7 pages
Algorithmes de tri en C et Pseudocode
Pas encore d'évaluation
Algorithmes de tri en C et Pseudocode
5 pages
Calcul des Dérivées Partielles
Pas encore d'évaluation
Calcul des Dérivées Partielles
6 pages
Signaux Deterministes Temps Continu
Pas encore d'évaluation
Signaux Deterministes Temps Continu
14 pages
Simulation de La Fonction D'autocorrelation Partiel
Pas encore d'évaluation
Simulation de La Fonction D'autocorrelation Partiel
3 pages
23 Sujets Des Concours D'accès Au Doctorat en Informatique USTHB
Pas encore d'évaluation
23 Sujets Des Concours D'accès Au Doctorat en Informatique USTHB
88 pages
Quelles Sont Les Étapes de La Numérisation
Pas encore d'évaluation
Quelles Sont Les Étapes de La Numérisation
1 page
Calcul de La Complexité D'un Algorithme
Pas encore d'évaluation
Calcul de La Complexité D'un Algorithme
35 pages
Exercice Algo
Pas encore d'évaluation
Exercice Algo
9 pages
Algorithmes de Régression en ML
Pas encore d'évaluation
Algorithmes de Régression en ML
5 pages
Examen Tic
Pas encore d'évaluation
Examen Tic
5 pages
Algorithme de recherche séquentielle en C
Pas encore d'évaluation
Algorithme de recherche séquentielle en C
18 pages
Vibrations des structures en 1D
Pas encore d'évaluation
Vibrations des structures en 1D
18 pages
DM Chapitre 02 Partie 02
Pas encore d'évaluation
DM Chapitre 02 Partie 02
70 pages
Normes et continuité des matrices
Pas encore d'évaluation
Normes et continuité des matrices
4 pages
Méthode Gauss-Newton-Raphson en économétrie
Pas encore d'évaluation
Méthode Gauss-Newton-Raphson en économétrie
7 pages
Extrema locaux et globaux: Définition et Conditions
Pas encore d'évaluation
Extrema locaux et globaux: Définition et Conditions
31 pages
Markov
Pas encore d'évaluation
Markov
107 pages
TD - Mécanismes de La Sécurité Informatique
Pas encore d'évaluation
TD - Mécanismes de La Sécurité Informatique
7 pages
Statistiques 4ème Maths SC Exp SC Tech
Pas encore d'évaluation
Statistiques 4ème Maths SC Exp SC Tech
7 pages
Exercices de mathématiques avancées
Pas encore d'évaluation
Exercices de mathématiques avancées
6 pages

Recherche d'information et TF-IDF en LSI

Transféré par

Recherche d'information et TF-IDF en LSI

Transféré par

Matière: Recherche d’information Niveau : 2eme LSI

Responsable : Hanen Samaali A U : 2022 / 2023

La formule logique de D2 est : - WD2 est défini par :

1. Donner la liste de réponse ordonnée pour chaque requête en utilisant la seconde

Sim(D1,( t7  t5 ))= 1-  (1 – 0.62 ) + (1 – 12 )

c’est-à-dire qu'il doit répondre à un besoin d’utilisateur.

Le document d1 est plus pertinent que le document d2

La liste ordonnée des documents est : d1, d2

Sim(D1,( t2  t10))=  0.72 + 0.92

Le document d2 est plus pertinent que le document d1

La liste ordonnée des documents est : d2, d1

D1 = {efficacité, recherche, mesurée, précision, moyenne}

D2 = {modèles, recherche, efficaces, langage, vectoriel}

1. Donner la table des fréquences : terme, document;

Terme D1 D2 TF*IDF D1 TF*IDF D2

Soient : un document qui contient le texte ”maison belle maison”

1. Quelle est la pondération ”TF*IDF” des termes ”maison” et ”belle” pour le

W1 = TF1*IDF1 = 2*log(100/20)= 1,39

W2 = TF2*IDF2 = 1*log(100/35)= 0,45

Vous aimerez peut-être aussi

Terme D1 D2 TFIDF D1 TFIDF D2

W1 = TF1IDF1 = 2log(100/20)= 1,39

W2 = TF2IDF2 = 1log(100/35)= 0,45