0% ont trouvé ce document utile (0 vote)

150 vues34 pages

Modèles Booléen et Vectoriel en RI

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

150 vues34 pages

Modèles Booléen et Vectoriel en RI

Transféré par

kadaouikadabac35

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 4 : Modèles

booléen, vectoriel

1
Qu’est ce qu’un modèle de RI ?

• Un modèle est une abstraction d’un processus (ici

recherche d’info)
• Les modèles mathématiques sont souvent utilisés pour
– formaliser les propriétés d‘un processus,
– élaborer des conclusions, faire des prévisions, etc.
• Les conclusions dérivées d’un modèle dépendent de
la qualité du modèle
– Question : est ce que le modèle est une bonne
approximation du processus ?

2
Qu’est ce qu’un modèle de RI ?
• Les modèles de RI peuvent décrire
– Le processus de mesure de pertinence : comment les documents
sont sélectionnés et triés
– L’utilisateur : besoin en information, interaction
– L’information

• Les modèles de RI manipulent plusieurs variables : les besoins,

les documents, les termes, les jugements de pertinence , les
utilisateurs, …

• Les modèles de RI se distinguent par le principe d’appariement

(matching) : appariement exact /approché (Exact /Best matching)

3
Appariement exact /Appariement approché

• Appariement exact
– Requête spécifie de manière précise les critères recherchés
– L’ensemble des documents respectant exactement la requête
sont sélectionnés, mais pas ordonné

• Appariement approché
– Requête décrit les critères recherchés dans un document
– Les documents sont sélectionnés selon un degré de pertinence
(similarité/ probabilité ) vis-à-vis de la requête et sont
ordonnés

4
Modèles de RI

• Panoplie de modèles
– Modèle booléen (±1950)
– Modèle vectoriel (±1970)
– Modèle LSI (± 1994)
– Modèle probabiliste (±1976)
– Modèle inférentiel (±1992)
– Modèle connexionniste (±1989)
– Modèle de langage (±1998)

5
IR models
– Théorie des ensembles :
• Boolean model (±1950)
– Algèbre
• Vector space model (±1970)
• Spreading activation model (±1989)
• LSI (Latent semantic Indexing)(± 1994)
– Probabilité
• Probabilistic model (±1976)
• Inference network model (±1992)
• Language model (±1998)
• DFR (Divergence from Randomness model) (±2002)
– Learning to rank
6
Le Modèle booléen
Boolean Model

7
Le Modèle Booléen

• Le premier modèle de RI
• Basé sur la théorie des ensembles
• Un document est représenté un ensemble de termes
– Ex : d1(t1,t2,t5); d2(t1,t3,t5,t6); d3(t1,t2,t3,t4,t5)
• Une requête est un ensemble de mots avec des
opérateurs booléens : AND (∧), OR(∨), NOT (¬)
– Ex: q = t1 ∧ (t2 ∨ ¬t3)
• Appariement Exact basé sur la présence ou l’absence
des termes de la requête dans les documents
– Appariement (q,d) = RSV(q,d)=1 ou 0
8
Le Modèle Booléen

• q = t1 ∧ (t2 ∨ ¬t3)

• d1(t1,t2,t5); d2(t1,t3,t5,t6); d3(t1,t2,t3,t4,t5)

Rsv(q,d1)=
Rsv(q,d2)=
Rsv(q,d3)=

9
Inconvénient du Modèle Booléen

• La sélection d’un document est basée sur une décision

binaire

• Pas d’ordre pour les documents sélectionnés

• Formulation de la requête difficile pas toujours

évidente pour beaucoup d’utilisateurs

• Problème de collections volumineuses : le nombre de

documents retournés peut être considérable
10
Modèle Vectoriel
Vector Space Model (VSM)

11
Modèle Vectoriel (Vector Space Model) (VSM)

• Proposé par Salton dans le système SMART (Salton,

G. 1970)
• Idée de base :
– Représenter les documents et les requêtes sous forme de
vecteurs dans l’espace vectoriel engendré par tous les
termes de la collection de documents :
T<t1,t2, …, tM> (un terme = une dimension)

– Document : dj= (w1j, w2j, …, wMj)

– Requête : q= (w1q, w2q, …, wMq)
wij: poids du terme ti dans le document djà tf*idf
12
Modèle sac de mots

• La représentation vectorielle ne tient pas compte

de l’ordre des mots
– « Un garçon manque une pomme » est représenté
par le même vecteur que « une pomme mange un
garçon »
– à c’est ce que l’on appelle « Sac de mots » (Bag
of words)

13
Modèle Vectoriel
• Une collection de n documents et M termes distincts peut
être représentée sous forme de matrice

T1 T2 …. TM
D1 w11 w21 … wM1
D2 w12 w22 … wM2
: : : :
: : : :
Dn w1n w2n … wMn

• La requête est également représentée par un vecteur.

14
Mesure de la pertinence

• Pertinence est traduite comme une similarité de vecteurs

t1
d1
q
d2
θ Similarité ß Cos(θ)
t3

t2 d3

La pertinence est traduite en une similarité vectorielle :

un document est d1 est d’autant plus pertinent à une requête que le vecteur
associé est similaire à celui de la requête.
15
Sec. 6.3

Similarité requête, document à Cosine(q,d)

Dot product

! ! ! ! V
! ! q•d q d ∑ qd
i =1 i i
cos( q, d ) = ! ! = ! • ! =
qd q d V 2
q
V
d 2
∑ i =1 i ∑ i =1 i

qi est le poids du terme ti dans la requête

di est le poids du terme ti dans le document
Le Modèle Vectoriel
mesure de similarité

Inner product X ∩Y ∑x*y

i i

2* X ∩Y 2*∑ xi*yi
Coef. de Dice
X +Y ∑xi2+∑ y2j
Mesure du cosinus X ∩Y ∑x *y i i

X * Y ∑x *∑ y
2
i
2
j

Mesure du Jaccard X ∩Y ∑x *y i i

X + Y − X ∩Y ∑x +∑ y −∑x *y
2
i
2
j i i

17
Sec. 6.4
Retour sur la pondéra/on
à 0*idf a plusieurs variantes

Une variante est identifiée par un nom d’attribut pour chaque colonne (un tf, un idf, une
normalisation)

Une pondération de type lnc à logarithme pour tf, pas d’idf , normalisation cosine
Une pondération de type ltcà logaritme pour tf, idf et cosine

Dans le modèle vectoriel on aura ce type de notation :

ddd.qqq (ddd pour le document, qqq pour la requête)

score(q, d) = ∑ w(t.q).w(t, d)
t∈q
Sec. 6.4

Exemple lnc.ltc :

Document: car insurance auto insurance

Query: best car insurance

Terme Req (ltc) Document(lnc) Prod

freq tf nd idf w(t,q) Nor.li freq tf- w(t,d) n’lisa
sation tion
auto 0 0 5000 1 1

best 1 1 50000 0 0

car 1 1 10000 1 1

insurance 1 1 1000 2 1.3

N=10^6 documents

Score (q,d)= 0.8

• ddd.qqq=lnc.ltc.

(1+ log(t, q))idf (t) (1+ log(t, d))

score(q, d) = ∑
t∈q
∑ ((1+ log(t, q))*idf (t)) 2
. ∑ (1+ log(t, d)) 2

t∈q t∈d

20
Le Modèle Vectoriel

• Avantages:
– La pondération améliore les résultats de recherche
– La mesure de similarité permet d’ordonner les
documents selon leur pertinence vis à vis de la requête

• Inconvénients:
– La représentation vectorielle suppose l’indépendance
entre termes (?)

21
Extension du modèle Booléen

22
Introduction

• Prendre en compte l’importante des termes dans les

documents et/ou dans la requête

• Possibilité d’ordonner les documents séléctionnés

• Comment étendre le modèle booléen ?

– Interpréter les conjonctions et les disjonction

• Deux modèles :
– Modèle flou- fuzzy based model (basé sur la logique floue)
– Modèle booléen étendu- extended boolean model

23
Modèle booléen étendu
(extended Boolean Model)

24
Modèle booléen étendu

• Combinaison des modèles booléen et vectoriel

– Document : liste de termes pondérés
– Requête booléenne
– Utilisation des distances algébriques pour mesurer la
pertinence d’un document vis-à-vis à d’une requête

25
Modèle booléen étendu
appariement

• Considérons
– dj (w1j,w2j,… wtj)

– q : requête à deux termes

– qand = t1 et t2
– qor= t1 ou t3

26
Intuition
• qand = t1 ∧ t2; w1j = x and w2j = y
t2 (1,1)

dj+1
AND/ET

y = w2j
dj

(0,0) x = w1j t1

((1 − w
1j ) 2
+ (1 − w2j ) 2
)
On veut se rapprocher du point (1,1) RSV (d j , t1 ∧ t2 ) = 1 −
2
Intuition

• qor = t1 ∨ t2; wt1 = x and wt2 = y

(1,1)
t2

dj+1 OR/OU

dj
y = w2j

(0,0) x = w1j t1

On veut être le plus loin de (0,0) RSV (d j , t1 ∨ t2 ) =

(w
2
1j + w22 j )
2
Modèle booléen étendu
appariement

• Considérons
– dj (w1j,w2j,… wtj)
– q : requête à deux termes

RSV (d j , t1 ∨ t2 ) =
(w
2
1j + w22 j )
2

RSV (d j , t1 ∧ t2 ) = 1 −
((1 − w 1j)
2
+ (1 − w2 j ) 2 )
2

29
Modèle booléen (pnorm)étendu
appariement
• Généralisation
– Distance euclidienne à plusieurs dimensions
– Utilisation de la p-norm
• Considérons :
– un document dj (w1j,w2j,… wtj) et
q (t1, t2, ..tm) : une requête composée de m termes
1
p
w1pj +w2pj +...+wmj
p

RSV(dj,qor)=( m
)

p p p 1/ p
((1 − w1 j ) + (1 − w2 j ) + ... + (1 − wmj ) )
RSV (d j , qand ) = 1 −
m1/ p
RSV(dj,qnot)=1−RSV(dj,q)
30
Modèle booléen(pnorm) étendu
appariement
• Si p = 1 alors (on retrouve le modèle vectoriel)
– RSV(dj,qor) = RSV(dj,qand)

• Si p = ∞ alors (modèle booléen)

– RSV(dj,qor) = max (wxj)
– RSV(dj,qand) = min (wxj)

• p=2 correpond à la distance euclidienne, semble être le

meilleur choix

31
Modèle booléen (pnorm) étendu
appariement
• Généralisation :
– Si la requête et les documents sont pondérés
• q(q1, q2, .., qm)
• dj (w1j,w2j,… wtj)

1
p
qip*wijp
(∑ )
RSV(dj,qor)= ∑ qip

p p
∑ qi * (1 − wij )
RSV (dj, qand ) = 1 − ( )1 p
p
∑ qi

32
Modèle booléen étendu

• Modèle puissant

• Calcul complexe

• Problème de distributivité
– q1=(t1 OU t2) ET t3
– q2=(t1 ET t3) OU (t2 ET t3)
– RSV(q1,d) <> RSV(q2,d)

33
Exercice

• Exemple :
– T(document, web, information,
recherche,image,contenu) : ensemble des termes
d’indexation

– d1(document 0.3,web 0,5,image 0.2 )

– q1 (document OU web); q2(web ET document)

q3((web OU document) ET image)

Vous aimerez peut-être aussi

Chap4 Mod Bool Vect
Pas encore d'évaluation
Chap4 Mod Bool Vect
43 pages
Chapitre 2 - VF
100% (1)
Chapitre 2 - VF
48 pages
Chapitre 2 - VF
Pas encore d'évaluation
Chapitre 2 - VF
114 pages
Modèles de Recherche d'Information
Pas encore d'évaluation
Modèles de Recherche d'Information
23 pages
Modèles de Recherche d'Information
Pas encore d'évaluation
Modèles de Recherche d'Information
31 pages
Modeles RI 1
Pas encore d'évaluation
Modeles RI 1
58 pages
Modèles de recherche d'information expliqués
Pas encore d'évaluation
Modèles de recherche d'information expliqués
23 pages
Modèle Vectoriel en Traitement de Langue
Pas encore d'évaluation
Modèle Vectoriel en Traitement de Langue
32 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
35 pages
Modèles de Recherche d'Information
Pas encore d'évaluation
Modèles de Recherche d'Information
30 pages
Modèles de Recherche d'Information
Pas encore d'évaluation
Modèles de Recherche d'Information
32 pages
2.modeles de RI
Pas encore d'évaluation
2.modeles de RI
27 pages
Chapitre 2 - Les Modèles de Recherche D'information-1
Pas encore d'évaluation
Chapitre 2 - Les Modèles de Recherche D'information-1
48 pages
Chapitre 2 - Les Modèles de Recherche D'information
Pas encore d'évaluation
Chapitre 2 - Les Modèles de Recherche D'information
50 pages
Modèles de recherche d'information
Pas encore d'évaluation
Modèles de recherche d'information
61 pages
Techniques d'Indexation en Recherche d'Information
Pas encore d'évaluation
Techniques d'Indexation en Recherche d'Information
45 pages
Modèles de recherche multimédia
Pas encore d'évaluation
Modèles de recherche multimédia
37 pages
Cours sur la Recherche d'Information
Pas encore d'évaluation
Cours sur la Recherche d'Information
90 pages
Modèle d'indexation sémantique latente
Pas encore d'évaluation
Modèle d'indexation sémantique latente
16 pages
Espaces Vectoriels et Recherche Info
Pas encore d'évaluation
Espaces Vectoriels et Recherche Info
42 pages
Série TD2
100% (3)
Série TD2
3 pages
Introduction à la Recherche d'Info
Pas encore d'évaluation
Introduction à la Recherche d'Info
53 pages
Contrôle final en recherche d'information
100% (1)
Contrôle final en recherche d'information
3 pages
Chapitre 2 Les Modèles de Recherche D'information
Pas encore d'évaluation
Chapitre 2 Les Modèles de Recherche D'information
14 pages
Algo Num
Pas encore d'évaluation
Algo Num
5 pages
TD1 TIR 24 Opt
Pas encore d'évaluation
TD1 TIR 24 Opt
3 pages
Termes d'indexation et matrices de poids
100% (1)
Termes d'indexation et matrices de poids
5 pages
TD1 2
100% (5)
TD1 2
4 pages
Recherche d'Information et Indexation
Pas encore d'évaluation
Recherche d'Information et Indexation
32 pages
Introduction à la Recherche d'Information
Pas encore d'évaluation
Introduction à la Recherche d'Information
10 pages
Mesures de Similarité en Recherche d'Information
Pas encore d'évaluation
Mesures de Similarité en Recherche d'Information
8 pages
Chap3-Recherche Par Le Contenu
Pas encore d'évaluation
Chap3-Recherche Par Le Contenu
117 pages
Chapitre 1 - RI Et Moteurs de Recherche
Pas encore d'évaluation
Chapitre 1 - RI Et Moteurs de Recherche
38 pages
Techniques d'Indexation et Évaluation RI
Pas encore d'évaluation
Techniques d'Indexation et Évaluation RI
2 pages
Correction td1
Pas encore d'évaluation
Correction td1
6 pages
Fiche TD No2 2022
Pas encore d'évaluation
Fiche TD No2 2022
1 page
NDQX NDIw MJ QT MDYt MJKG MJ M6 MJ I6 MTI
Pas encore d'évaluation
NDQX NDIw MJ QT MDYt MJKG MJ M6 MJ I6 MTI
3 pages
Série 1-RI-ISIL
100% (1)
Série 1-RI-ISIL
4 pages
Systèmes de recherche d'informations et indexation
Pas encore d'évaluation
Systèmes de recherche d'informations et indexation
26 pages
Contrôle final en Recherche d'Information
Pas encore d'évaluation
Contrôle final en Recherche d'Information
3 pages
Modeles RI 2
Pas encore d'évaluation
Modeles RI 2
30 pages
TIRM Exament SPrincipale 2021
Pas encore d'évaluation
TIRM Exament SPrincipale 2021
3 pages
Examen sur la Recherche d'Information
86% (14)
Examen sur la Recherche d'Information
3 pages
Cours 5 Modèle LSI OukidL
Pas encore d'évaluation
Cours 5 Modèle LSI OukidL
24 pages
Modèles de recherche d'information
Pas encore d'évaluation
Modèles de recherche d'information
16 pages
Projet de Recherche d'Information SII
Pas encore d'évaluation
Projet de Recherche d'Information SII
22 pages
TD4 Ri
Pas encore d'évaluation
TD4 Ri
2 pages
Algorithme Word2Vec en Text Mining
Pas encore d'évaluation
Algorithme Word2Vec en Text Mining
22 pages
Indexation et modèle vectoriel
Pas encore d'évaluation
Indexation et modèle vectoriel
1 page
Solution Série2 RI OL
Pas encore d'évaluation
Solution Série2 RI OL
18 pages
Modèles de Thèmes en Analyse de Textes
Pas encore d'évaluation
Modèles de Thèmes en Analyse de Textes
39 pages
Évaluation de la Recherche d'Information
Pas encore d'évaluation
Évaluation de la Recherche d'Information
2 pages
Recherche D Information
Pas encore d'évaluation
Recherche D Information
49 pages
Modèles PLSI et LDA en Text Mining
Pas encore d'évaluation
Modèles PLSI et LDA en Text Mining
15 pages
Apprentissage et Réseaux de Neurones 2017
Pas encore d'évaluation
Apprentissage et Réseaux de Neurones 2017
8 pages
Spécification formelle des systèmes informatiques
Pas encore d'évaluation
Spécification formelle des systèmes informatiques
7 pages
Abonnement Piscine 2024-2025 - Digital
Pas encore d'évaluation
Abonnement Piscine 2024-2025 - Digital
6 pages
Cours de géographie pour la filière primaire
Pas encore d'évaluation
Cours de géographie pour la filière primaire
5 pages
Les Connecteurs Logiques PDF
Pas encore d'évaluation
Les Connecteurs Logiques PDF
1 page
L'écologie, C'est Quoi Et Quel Est Son Rôle Exact
Pas encore d'évaluation
L'écologie, C'est Quoi Et Quel Est Son Rôle Exact
1 page
Ap Biologie 2020 Examen Pratique 2 Réponses MCQ
Pas encore d'évaluation
Ap Biologie 2020 Examen Pratique 2 Réponses MCQ
32 pages
Sup Livres 031113
Pas encore d'évaluation
Sup Livres 031113
8 pages
20 Façons de Libérer Du Temps
Pas encore d'évaluation
20 Façons de Libérer Du Temps
2 pages
Le Superlatif
Pas encore d'évaluation
Le Superlatif
2 pages
Tribu Et Mesure
Pas encore d'évaluation
Tribu Et Mesure
5 pages
Origines de L'Amant de Duras
Pas encore d'évaluation
Origines de L'Amant de Duras
7 pages
Maitriser Prise de Parole
Pas encore d'évaluation
Maitriser Prise de Parole
2 pages
Analyse de "Hernani" de Victor Hugo
Pas encore d'évaluation
Analyse de "Hernani" de Victor Hugo
4 pages
Données de Position et Fréquence
Pas encore d'évaluation
Données de Position et Fréquence
4 pages
Modalisation dans un roman maghrébin
Pas encore d'évaluation
Modalisation dans un roman maghrébin
4 pages
Conflits nationaux et de classes en Afrique
Pas encore d'évaluation
Conflits nationaux et de classes en Afrique
3 pages
Test Profil Commercial Vendeur
Pas encore d'évaluation
Test Profil Commercial Vendeur
3 pages
Contexte historique de Manon Lescaut
Pas encore d'évaluation
Contexte historique de Manon Lescaut
16 pages
Progression Annuelle 4e 2021-2022 Prof
Pas encore d'évaluation
Progression Annuelle 4e 2021-2022 Prof
8 pages
Clés Pour La Croissance Spirituelle - John Macarthur
Pas encore d'évaluation
Clés Pour La Croissance Spirituelle - John Macarthur
62 pages
Theories GRH
100% (2)
Theories GRH
16 pages
Management de La Qualité
100% (5)
Management de La Qualité
145 pages
Tableau Des Connecteurs Logiques
60% (5)
Tableau Des Connecteurs Logiques
2 pages
Importance de la poésie orale en éducation
Pas encore d'évaluation
Importance de la poésie orale en éducation
3 pages
Seq2 Svteehb 5em
Pas encore d'évaluation
Seq2 Svteehb 5em
1 page
Cours: Relations Économiques Int.
Pas encore d'évaluation
Cours: Relations Économiques Int.
3 pages
Une Femme Commerçante N'est Pas Très Courant. en Effet Autre Fois
Pas encore d'évaluation
Une Femme Commerçante N'est Pas Très Courant. en Effet Autre Fois
1 page
Extraits Commentés D'écrits Patristiques Sur Le Baptême
Pas encore d'évaluation
Extraits Commentés D'écrits Patristiques Sur Le Baptême
74 pages
Le Message Et Le Mystere de La Croix
Pas encore d'évaluation
Le Message Et Le Mystere de La Croix
8 pages
Nadia Djelassi : Product Owner Expérimentée
Pas encore d'évaluation
Nadia Djelassi : Product Owner Expérimentée
4 pages
Les Antidiabteiques Oraux: Mécanisme D'action
Pas encore d'évaluation
Les Antidiabteiques Oraux: Mécanisme D'action
4 pages

Modèles Booléen et Vectoriel en RI

Transféré par

Modèles Booléen et Vectoriel en RI

Transféré par

Chapitre 4 : Modèles

• Un modèle est une abstraction d’un processus (ici

• Les modèles de RI manipulent plusieurs variables : les besoins,

• Les modèles de RI se distinguent par le principe d’appariement

• d1(t1,t2,t5); d2(t1,t3,t5,t6); d3(t1,t2,t3,t4,t5)

• La sélection d’un document est basée sur une décision

• Pas d’ordre pour les documents sélectionnés

• Formulation de la requête difficile pas toujours

• Problème de collections volumineuses : le nombre de

• Proposé par Salton dans le système SMART (Salton,

– Document : dj= (w1j, w2j, …, wMj)

• La représentation vectorielle ne tient pas compte

• La requête est également représentée par un vecteur.

• Pertinence est traduite comme une similarité de vecteurs

La pertinence est traduite en une similarité vectorielle :

Similarité requête, document à Cosine(q,d)

qi est le poids du terme ti dans la requête

Inner product X ∩Y ∑x*y

Dans le modèle vectoriel on aura ce type de notation :

Document: car insurance auto insurance

Terme Req (ltc) Document(lnc) Prod

insurance 1 1 1000 2 1.3

Score (q,d)= 0.8

(1+ log(t, q))*idf (t)* (1+ log(t, d))

• Prendre en compte l’importante des termes dans les

• Possibilité d’ordonner les documents séléctionnés

• Comment étendre le modèle booléen ?

• Combinaison des modèles booléen et vectoriel

– q : requête à deux termes

• qor = t1 ∨ t2; wt1 = x and wt2 = y

On veut être le plus loin de (0,0) RSV (d j , t1 ∨ t2 ) =

• Si p = ∞ alors (modèle booléen)

• p=2 correpond à la distance euclidienne, semble être le

– d1(document 0.3,web 0,5,image 0.2 )

– q1 (document OU web); q2(web ET document)

Vous aimerez peut-être aussi

(1+ log(t, q))idf (t) (1+ log(t, d))