0% ont trouvé ce document utile (0 vote)

20 vues27 pages

2.modeles de RI

Le document présente différents modèles de recherche, notamment les modèles booléens et vectoriels, en détaillant leur fonctionnement, leurs avantages et inconvénients. Les modèles booléens reposent sur des expressions logiques simples, tandis que les modèles vectoriels utilisent des poids pour évaluer la pertinence des documents par rapport à une requête. Le document aborde également les étapes de prétraitement, les méthodes de pondération et les mesures de similarité pour améliorer les résultats de recherche.

Transféré par

khiatfaten2

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

20 vues27 pages

2.modeles de RI

Transféré par

khiatfaten2

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

Modèles de recherche

Booléen et vectoriel

1
Modèles de recherche
• Un modèle de recherche précise les
détails de:
– représentation de document
– représentation de la requête
– fonction de recherche
• Détermine la notion de pertinence.
– La notion de pertinence peut être binaire
ou continu (c.a.d recherche classé).

2
Classes de modèles de recherche
• Le modèles booléens (théorétique)
• Les modèles vectoriel (statistique /
algébriques)
– Latent Semantic Indexing LSA
• Les modèles probabilistes

3
Autres Dimensions gérées par les modèles

• Vue logique des documents

– Index de Termes (mots-clés)
– Texte intégral
– Texte intégral + structure (par exemple
hypertexte)
• Tâche utilisateur
– Recherche
– Navigation

4
Étapes communes Prétraitement
• Supprimer les caractères et le balisage indésirables
(Par exemple des balises HTML, la ponctuation,
chiffres, etc.).
• Séparer les tokens (mots clés) sur la base des espaces.
• Radicaliser les tokens pour avoir des « Stem »
– Ex: computational  comput
• Supprimer les mots vides communs (par exemple, la,
elle, etc.).
• Détecter des phrases courantes (éventuellement à
l'aide d'un dictionnaire spécifique de domaine).
• Construire l'index inversé (mot-clé  liste des
documents le contenant).
5
Modèle booléen
• Un document est représenté comme un
ensemble des mots-clés.
• Les requêtes sont des expressions booléennes de
mots-clés, reliés par AND, OR et NOT, y compris
l'utilisation de crochets pour indiquer la portée.
– [[Rio AND Brésil] OR [Hilo AND Hawaii]] AND hôtel
AND NOT Hilton]
• Sortie:
• Le document est pertinent ou non.
• Aucun résultat partiel ou classement.
6
Modèle de recherche Booléen

• C’est un modèle de recherche populaire

parce que:
– Facile à comprendre pour des requêtes
simples.
– formalisme simple.
• Les modèles booléens peuvent être étendus pour
inclure le classement.
• Il existe des implémentations efficaces pour les
requêtes normales.
7
Modèles booléennes  Problèmes
• Très rigide: ET signifie tous; OU signifie quelconque.
• Difficile à exprimer le besoin complexe des utilisateurs.
• Difficile de contrôler le nombre de documents récupérés.
– Tout documents correspondants (match) seront retournés.
• Difficile à classer.
– Tout documents correspondants (match) satisfont logiquement la
requête.
• Difficile à réaliser un retour de pertinence (relevance
feedback).
– Si un document est identifié par l'utilisateur comme pertinent ou
non pertinent, comment modifier la requête?

8
Les Modèles Statistiques
• Un document est généralement représenté par un sac
à mots (mots non ordonnées avec des fréquences).
• Sac = ensemble qui permet plusieurs occurrences
d'un même élément.
• Pour la requête, l'utilisateur spécifie un ensemble de
termes souhaités avec des poids en option:
– Termes Pondérés :
Q = <0,5 base de données; texte 0,8; informations 0,2>
– Termes non pondérés :
Q = <Base de données; texte; information>
– Pas de conditions booléennes spécifiées dans la requête.

9
Recherche Statistique
• La recherché est sur la base de la similarité entre la
requête et les documents.
• Les documents de sortie sont classés en fonction de la
similarité avec la requête.
• La similarité est basée sur la fréquence des mots-clés
dans la requête et le document.
• Le retour de pertinence (relevance feedback) peut
être pris en charge:
– Mots-clés des documents pertinents « ajoutés » à la requête.
– Mots-clés des documents non pertinents « soustraites » de la requête.

10
Problèmes du modèleVectoriel
• Comment déterminer les mots importants dans un
document?
– sens des mots?
– Mot n-grams (et expressions, idiomes, ...)  termes
• Comment déterminer le degré d'importance d'un
terme dans un document et dans la collection?
• Comment déterminer le degré de similarité entre
un document et la requête?
• Dans le cas du Web, quelle est la collection et
quels sont les effets des liens, des informations de
formatage, etc.?

11
Le modèle Vectoriel
• Supposons t termes distincts issues après
prétraitement; appeler mots clés d'indexation ou
le vocabulaire.
• Ces termes « orthogonales » forment un espace
vectoriel.
dimensionnalité = t = | Vocabulaire |
• Un poids d'une valeur réel wij est associer à
chaque terme i dans un document ou requête j..
• Les deux documents et requêtes sont exprimées en
vecteurs: t-dimensionnelle
dj = (w1j, w2j, ..., wtj) 12
Representation Graphique
Exemple:
D1 = 2T1 + 3T2 + 5T3 T3
D2 = 3T1 + 7T2 + T3
5
Q = 0T1 + 0T2 + 2T3

D1 = 2T1+ 3T2 + 5T3

Q = 0T1 + 0T2 + 2T3

2 3
T1
D2 = 3T1 + 7T2 + T3
• D1 ou D2 plus similaire to Q?
• Comment mesurer la similarité:
7
T2 par Distance? Angle?
Projection?

13
Collection de documents
• Une collection de n documents peuvent être représentés dans le
modèle d'espace vectoriel par une matrice terme-document.
• Une entrée de la matrice correspond à la « Poids » d'un terme dans
le document; zéro signifie que le terme n'a pas de signification dans
le document ou il n'existe tout simplement pas dans le document.

T1 T2 …. Tt
D1 w11 w21 … wt1
D2 w12 w22 … wt2
: : : :
: : : :
Dn w1n w2n … wtn
14
Pondération: Fréquence de Terme
• La règle est que les termes les plus fréquents dans
un document sont plus importants.
Fij = Fréquence de terme i dans le document j

• Il est préférable de normaliser la fréquence des

termes (tf) en divisant par la fréquence du terme
le plus courant dans le document:
tfij = Fij / maxi{Fij}

15
Pondération: Fréquence inverse de document idf

• Les termes qui apparaissent dans différent

documents sont moins indicatif du thème général.
df i = document frequency of term i
= Nombre de documents contenant le terme i
idfi = inverse document frequency of term i,
= log2 (N / df i)
(N: Nombre total de documents)
• C’est une indication de la force de discrimination
de ce terme.
• Le Log est utilisé pour amortir l'effet par rapport
16
à tf qui est normaliser.
Pondération TF-IDF
• Une combinaison typique des indicateurs
d’importance des termes est la pondération TF-IDF:
wij = tfij * idfi = tfij * Log2 (N / dfi)
• Un terme se produisant fréquemment dans le
document, mais rarement dans le reste de la
collection est associer à un poids élevé.
• Il existe de nombreuses autres pondération pour le
modèle vectoriel.
• Expérimentalement, tf-idf donne toujours de bon
résultats.

17
Calcul TF-IDF - Exemple
• Compte tenu d'un document contenant des termes avec des
fréquences données:
• A (3), B (2), C (1)
• Supposons que la collection contient 10.000 documents et
les df de ces termes dans ces documents sont les suivants:
A (50), B (1300), C (250)
• Alors:
A: tf = 3/3; idf = log2(10000/50) = 7,6; tf-idf = 7,6
B: tf = 2/3; idf = log2 (10000/1300) = 2,9; tf-idf = 2,0
C: tf = 1/3; idf = log2 (10000/250) = 5,3; tf-idf = 1,8

18
Vecteur de requête
• Le vecteur de requête est généralement
considéré comme un document et aussi
pondéré tf-idf.
• Optionnellement, l'utilisateur peut fournir
des poids pour les termes de la requête qu’il
donne.

19
calcule de similarité
• Une mesure de similarité est une fonction qui
calcule le degré de similitude entre deux vecteurs.

• En utilisant une mesure de similarité entre la

requête et chaque document:
– Il est possible de classer les documents récupérés dans
l'ordre de pertinence.
– Il est possible d'appliquer un certain seuil afin que l'on
peut contrôler la taille de l'ensemble récupéré.

20
Mesure de similarité: Produit interne

• Similarité entre les vecteurs pour le document di et requête q

peut être calculé en tant que produit interne (produit scalaire):
t

sim(dj,q) = dj•q = w w
i 1
ij iq

où wij est le poids du terme i dans le document j et wiq est le poids du

terme i dans la requête
• Pour les vecteurs binaires, le produit interne est le nombre de
termes de requête correspondant dans le document (taille
d'intersection).
• Pour les vecteurs pondérés terme, il est la somme des produits
des poids des termes correspondants.

21
Propriétés du produit interne

• Le produit interne est sans limite.

• Favorise les longs documents avec un grand

nombre de termes uniques.

• Mesure le nombre Termes qui apparaissent dans

le document et la reqête mais pas le nombre des
mots qui n’apparaissent pas.

22
produit interne - Exemples
h
rc de s ure r t io
n
e t u n a
ech ase née itec nate te stio rm
Binary: r
e
b on rch di ex ge fo
d a o r t la in
D = 1, 1, 1, 0, 1, 1, 0
Taille du vecteur = taille du vocabulaire = 7
Q = 1, 0 , 1, 0, 0, 1, 1 0 exprime qu’un terme ne figurent pas dans
le document ou une requête

sim(D, Q) = 3

Weighted:
D1 = 2T1 + 3T2 + 5T3 D2 = 3T1 + 7T2 + 1T3
Q = 0T1 + 0T2 + 2T3

sim(D1 , Q) = 20 + 30 + 5*2 = 10

sim(D2 , Q) = 3*0 + 7*0 + 1*2 = 2

23
Mesure similarité: Cosinus
• similarité cosinus mesure le cosinus de t3
l'angle entre deux vecteurs.
• produit scalaire normalisé par les 
longueurs vectorielles.
  t
ré1
dj q   ( wij wiq ) Q
 

CosSim (dj, q) =
i 1
t t
 t1
dj q  wij  wiq
2 2

i 1 i 1

t2 ré2
D1 = 2T1 + 3T2 + 5T3 CosSim(D1 , Q) = 10 / (4+9+25)(0+0+4) = 0.81
D2 = 3T1 + 7T2 + 1T3 CosSim(D2 , Q) = 2 / (9+49+1)(0+0+4) = 0.13
Q = 0T1 + 0T2 + 2T3
d1 est 6 fois mieux que d2 en utilisant la similarité cosinus mais seulement 5 fois en
utilisant le produit interne.
24
Implémentation naïf
1. Convertir tous les documents dj de collection D à en
vecteurs pondérés tf-idf, de taille V(vocabulaire mot-clé)
2. Convertir la requête en un vecteur tf-idf de taille V.
3. Pour chaque dj dans D faire
calculer sj = CosSim (dj, q)
4. Trier les documents par poids décroissants.
5. Retournez les K document les mieux classésà
l'utilisateur.
complexité temps: O (| V |·| D |) mauvaise pour un grand V
& D!
| V | = 10 000; | D | = 100 000; | V |·| D | = 1000000000
25
Propriétés du modèle vctoriel
• Simple, approche mathématique.
• Pondération locale (tf) Et globals (idf)
d'occurrence des mots.
• Permet une correspondance partielle et les
résultats classés.
• Tend à travailler très bien dans la pratique en
dépit des faiblesses évidentes.
• Permet la mise en œuvre efficace sur de grandes
collections de documents.

26
Problèmes avec modèle vectoriel
• Sémantique (pas de considération de sens des mots).
• syntaxique (par de considération de la structure de
phrase, l'ordre des mots, l'information de proximité).
• Suppos l'indépendance des terme (par exemple ignores de
synonymie).
• Manque le contrôle d'un modèle booléen (par exemple,
exigeant un terme à apparaître dans un document).
– Étant donné une requête de deux termes "A B", le modèle
vectoriel peut préférer un document contenant "A"
fréquemment, mais pas "B", sur un document qui contient à la
fois A et B, mais les deux moins fréquemment.
27

Vous aimerez peut-être aussi

Modèle Vectoriel en Traitement de Langue
Pas encore d'évaluation
Modèle Vectoriel en Traitement de Langue
32 pages
Chapitre 2 - VF
100% (1)
Chapitre 2 - VF
48 pages
Chapitre 2 - VF
Pas encore d'évaluation
Chapitre 2 - VF
114 pages
Modeles RI 1
Pas encore d'évaluation
Modeles RI 1
58 pages
Chap4 Mod Bool Vect
Pas encore d'évaluation
Chap4 Mod Bool Vect
43 pages
Modèles Booléen et Vectoriel en RI
Pas encore d'évaluation
Modèles Booléen et Vectoriel en RI
34 pages
Modèles de recherche multimédia
Pas encore d'évaluation
Modèles de recherche multimédia
37 pages
Espaces Vectoriels et Recherche Info
Pas encore d'évaluation
Espaces Vectoriels et Recherche Info
42 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
35 pages
Modèles de recherche d'information
Pas encore d'évaluation
Modèles de recherche d'information
61 pages
Modèles de Recherche d'Information
Pas encore d'évaluation
Modèles de Recherche d'Information
31 pages
TD 4 Correction
100% (1)
TD 4 Correction
10 pages
Modèles de recherche d'information expliqués
Pas encore d'évaluation
Modèles de recherche d'information expliqués
23 pages
Modèles de Recherche d'Information
Pas encore d'évaluation
Modèles de Recherche d'Information
23 pages
Modèles de Recherche d'Information
Pas encore d'évaluation
Modèles de Recherche d'Information
30 pages
Techniques d'Indexation en Recherche d'Information
Pas encore d'évaluation
Techniques d'Indexation en Recherche d'Information
45 pages
Modèle d'indexation sémantique latente
Pas encore d'évaluation
Modèle d'indexation sémantique latente
16 pages
Recherche d'Information et Classement Documentaire
Pas encore d'évaluation
Recherche d'Information et Classement Documentaire
4 pages
Modèles de Recherche d'Information
Pas encore d'évaluation
Modèles de Recherche d'Information
32 pages
Examen sur la Recherche d'Information
86% (14)
Examen sur la Recherche d'Information
3 pages
Mesures de Similarité en Recherche d'Information
Pas encore d'évaluation
Mesures de Similarité en Recherche d'Information
8 pages
Algo Num
Pas encore d'évaluation
Algo Num
5 pages
TIRM Exament SPrincipale 2021
Pas encore d'évaluation
TIRM Exament SPrincipale 2021
3 pages
Recherche d'Information et Indexation
Pas encore d'évaluation
Recherche d'Information et Indexation
32 pages
Contrôle final en recherche d'information
100% (1)
Contrôle final en recherche d'information
3 pages
Techniques d'Indexation et Évaluation RI
Pas encore d'évaluation
Techniques d'Indexation et Évaluation RI
2 pages
Chap2 Indexation OL
100% (1)
Chap2 Indexation OL
28 pages
Fiche TD No2 2022
Pas encore d'évaluation
Fiche TD No2 2022
1 page
Optimisation de l'indexation documentaire
Pas encore d'évaluation
Optimisation de l'indexation documentaire
23 pages
Systèmes de recherche d'informations et indexation
Pas encore d'évaluation
Systèmes de recherche d'informations et indexation
26 pages
TD1 TIR 24 Opt
Pas encore d'évaluation
TD1 TIR 24 Opt
3 pages
Chapitre 2 - Les Modèles de Recherche D'information-1
Pas encore d'évaluation
Chapitre 2 - Les Modèles de Recherche D'information-1
48 pages
Termes d'indexation et matrices de poids
100% (1)
Termes d'indexation et matrices de poids
5 pages
Chapitre 2 - Les Modèles de Recherche D'information
Pas encore d'évaluation
Chapitre 2 - Les Modèles de Recherche D'information
50 pages
Chap3-Recherche Par Le Contenu
Pas encore d'évaluation
Chap3-Recherche Par Le Contenu
117 pages
Modélisation du PageRank de Google
Pas encore d'évaluation
Modélisation du PageRank de Google
21 pages
Série TD2
100% (3)
Série TD2
3 pages
CHARTRON Principes Generaux Techniques GC 2010
Pas encore d'évaluation
CHARTRON Principes Generaux Techniques GC 2010
7 pages
TD4 Ri
Pas encore d'évaluation
TD4 Ri
2 pages
Introduction à la Recherche d'Info
Pas encore d'évaluation
Introduction à la Recherche d'Info
53 pages
Massih-Reza AMINI, Éric GAUSSIER - Recherche D'information (2013) PDF
Pas encore d'évaluation
Massih-Reza AMINI, Éric GAUSSIER - Recherche D'information (2013) PDF
255 pages
Techniques d'indexation multimédia
Pas encore d'évaluation
Techniques d'indexation multimédia
33 pages
TD1 2
100% (5)
TD1 2
4 pages
Cours Chap2 2pp
Pas encore d'évaluation
Cours Chap2 2pp
23 pages
Introduction au Text et Web Mining
Pas encore d'évaluation
Introduction au Text et Web Mining
8 pages
Série 1-RI-ISIL
100% (1)
Série 1-RI-ISIL
4 pages
Recherche d'information et TF-IDF en LSI
Pas encore d'évaluation
Recherche d'information et TF-IDF en LSI
4 pages
Cours sur la Recherche d'Information
Pas encore d'évaluation
Cours sur la Recherche d'Information
90 pages
Chapitre3 Indexation
Pas encore d'évaluation
Chapitre3 Indexation
69 pages
Introduction au Topic Mining en Data Science
Pas encore d'évaluation
Introduction au Topic Mining en Data Science
28 pages
Solution - Exercices RI
Pas encore d'évaluation
Solution - Exercices RI
7 pages
Chap1 3
Pas encore d'évaluation
Chap1 3
9 pages
Indexation et modèle vectoriel
Pas encore d'évaluation
Indexation et modèle vectoriel
1 page
Contrôle final en Recherche d'Information
Pas encore d'évaluation
Contrôle final en Recherche d'Information
3 pages
Introduction à la Recherche d'Information
Pas encore d'évaluation
Introduction à la Recherche d'Information
10 pages
Évaluation de la Recherche d'Information
Pas encore d'évaluation
Évaluation de la Recherche d'Information
2 pages
Système D'information Avancé": Correction Examen "
Pas encore d'évaluation
Système D'information Avancé": Correction Examen "
4 pages
01 XML Intro
Pas encore d'évaluation
01 XML Intro
43 pages
Surveillance du virus de la sharka 2017
Pas encore d'évaluation
Surveillance du virus de la sharka 2017
7 pages
Cour4 Web
Pas encore d'évaluation
Cour4 Web
12 pages
Introduction à la Recherche d'Information
Pas encore d'évaluation
Introduction à la Recherche d'Information
22 pages
Processus de vente en cave détaillé
Pas encore d'évaluation
Processus de vente en cave détaillé
4 pages
L'histoire de L'inspection de La Qualité Et de La Normalisation
Pas encore d'évaluation
L'histoire de L'inspection de La Qualité Et de La Normalisation
6 pages
Techniques de Transmission Numérique
Pas encore d'évaluation
Techniques de Transmission Numérique
15 pages
Consignes Table Ronde La Ou Je Me Terre
Pas encore d'évaluation
Consignes Table Ronde La Ou Je Me Terre
3 pages
TP 6 Node JS
Pas encore d'évaluation
TP 6 Node JS
3 pages
Monsieur-Ripley Étude Littéraire
Pas encore d'évaluation
Monsieur-Ripley Étude Littéraire
39 pages
Liberté et Raison en Philosophie
Pas encore d'évaluation
Liberté et Raison en Philosophie
1 page
COUR HEMODIALYSE - PPT Modi
Pas encore d'évaluation
COUR HEMODIALYSE - PPT Modi
36 pages
Chap1 Inversion Geophysical Data
Pas encore d'évaluation
Chap1 Inversion Geophysical Data
7 pages
Gestion Déchets Ménagers Salé: Convention
Pas encore d'évaluation
Gestion Déchets Ménagers Salé: Convention
60 pages
Filtrage Analogique : Filtres Actifs
Pas encore d'évaluation
Filtrage Analogique : Filtres Actifs
19 pages
Catalogue Accessoires PMF PDF
Pas encore d'évaluation
Catalogue Accessoires PMF PDF
20 pages
Tshilanda Dorcas-Corrigé TFC
Pas encore d'évaluation
Tshilanda Dorcas-Corrigé TFC
6 pages
Cours - Analyse Financière
Pas encore d'évaluation
Cours - Analyse Financière
41 pages
Cloison Alveolaire A Ame Cartonné
Pas encore d'évaluation
Cloison Alveolaire A Ame Cartonné
16 pages
CV Abdelkrim El Mouhib
Pas encore d'évaluation
CV Abdelkrim El Mouhib
1 page
Compte Rendu de Microbiologie: Préparer Par
Pas encore d'évaluation
Compte Rendu de Microbiologie: Préparer Par
14 pages
Rapport de Stage 2023
Pas encore d'évaluation
Rapport de Stage 2023
25 pages
Devoir de Mathématiques 1er Bac SM
Pas encore d'évaluation
Devoir de Mathématiques 1er Bac SM
1 page
Benchmarking en Ressources Humaines
Pas encore d'évaluation
Benchmarking en Ressources Humaines
62 pages
Resumé RLC
Pas encore d'évaluation
Resumé RLC
1 page
Le Fonds de Commerce
Pas encore d'évaluation
Le Fonds de Commerce
16 pages
Aventure À SIGIL
Pas encore d'évaluation
Aventure À SIGIL
21 pages
Chaînes de Markov : Concepts et Applications
100% (1)
Chaînes de Markov : Concepts et Applications
65 pages
Rapport sur Talend ETL
Pas encore d'évaluation
Rapport sur Talend ETL
31 pages
Transport rémunéré en Wallonie : Guide 2025
Pas encore d'évaluation
Transport rémunéré en Wallonie : Guide 2025
104 pages
Rééducation vestibulaire : équilibre et vertiges
Pas encore d'évaluation
Rééducation vestibulaire : équilibre et vertiges
3 pages
Periode-2 MHF
Pas encore d'évaluation
Periode-2 MHF
50 pages
Management DES ORGANISATIONS Publiques
100% (1)
Management DES ORGANISATIONS Publiques
42 pages
Analyse des Données PV et Simulations
Pas encore d'évaluation
Analyse des Données PV et Simulations
54 pages

2.modeles de RI

Transféré par

2.modeles de RI

Transféré par

Modèles de recherche

• Vue logique des documents

• C’est un modèle de recherche populaire

D1 = 2T1+ 3T2 + 5T3

Q = 0T1 + 0T2 + 2T3

• Il est préférable de normaliser la fréquence des

• Les termes qui apparaissent dans différent

• En utilisant une mesure de similarité entre la

• Similarité entre les vecteurs pour le document di et requête q

où wij est le poids du terme i dans le document j et wiq est le poids du

• Le produit interne est sans limite.

• Favorise les longs documents avec un grand

• Mesure le nombre Termes qui apparaissent dans

sim(D1 , Q) = 2*0 + 3*0 + 5*2 = 10

Vous aimerez peut-être aussi

sim(D1 , Q) = 20 + 30 + 5*2 = 10