Thèse de Doctorat en Informatique
Thèse de Doctorat en Informatique
Thème
« Recherche d’Information : un modèle de
langue combinant mots simples et mots
composés »
Je souhaiterais adresser des remerciements plus particuliers à toute ma famille : tout d’abord
je souhaite dédier cette thèse à la mémoire de ma mère, qui a tant fait pour moi et sans qui ce
travail de thèse n’aurais peut être pas vu le jour. Je dédie aussi ce travail de thèse à mon père
qui à toujours cru en moi et pour son soutien permanent tout au long de mes années d’études.
Je remercie tout mes frères et sœurs qui de par leur soutien au quotidien ont contribués à la
réalisation de ce travail.
Table des Matières
I Etat de l’art 7
1 Recherche d’information classique 8
1.1 Introduction ................................................................................................................... 8
1.2 Concepts de base de la recherche d’information ............................................................ 9
1.2.1 Le processus d’indexation .................................................................................... 11
1.2.1.1 L’analyse lexicale ..................................................................................... 12
1.2.1.2 L’élimination des mots vides ..................................................................... 12
1.2.1.3 La normalisation ....................................................................................... 12
1.2.1.4 Le choix des descripteurs .......................................................................... 13
1.2.1.5 La création de l’index................................................................................ 13
1.2.2 Appariement document-requête ............................................................................ 14
1.2.3 Les modèles de recherche d’information............................................................... 14
1.2.3.1 Le modèle booléen ................................................................................... 14
1.2.3.2 Le modèle vectoriel ................................................................................... 15
1.2.3.3 Les modèles probabilistes.......................................................................... 17
1.2.3.3.1 Le modèle probabiliste de base ...................................................... 17
1.2.3.3.2 Le modèle de langue ..................................................................... 19
1.2.4 La reformulation de la requête .............................................................................. 20
1.2.4.1 Reformulation par réinjection de la pertinence .......................................... 21
1.2.4.2 La réinjection par pseudo feedback (réinjection aveugle)........................... 22
1.3 Au-delà des mots simples .......................................................................................... 22
1.3.1 L’indexation par des mots composés .................................................................... 23
1.3.2 L’indexation sémantique ...................................................................................... 26
1.3.3 L’indexation conceptuelle..................................................................................... 29
1.4 Evaluation des SRI.................................................................................................... 30
1.4.1 Les collections de test ........................................................................................... 30
1.4.2 Mesures d'évaluation de SRI................................................................................. 32
1.5 Conclusion ................................................................................................................ 35
2 Recherche d’information sur le web 36
2.1 Introduction ................................................................................................................. 36
2.2 Différences entre la RI classique et la RI sur le web..................................................... 37
2.2.1 Le volume du web ................................................................................................ 37
2.2.2 L’hétérogénéité de l’information .......................................................................... 37
2.2.3 La disparité de l’information ................................................................................ 38
2.2.4 La nature dynamique du web ................................................................................ 38
2.2.6 Les utilisateurs du web et leurs requêtes ............................................................... 38
2.2.7 La structure du web .............................................................................................. 39
2.3 Les sources d’informations sur un document web ........................................................ 39
2.3.1 Exploitation de la structure du document (page web) ............................................ 40
2.3.2 Exploitation de la structure des hyperliens ............................................................ 41
2.3.2.1 L’hypothèse de recommandation ............................................................... 42
2.3.2.2 L’hypothèse de proximité sémantique ....................................................... 44
2.3.2.3 L’hypothèse de la description du texte d’ancre .......................................... 45
2.4 La combinaison des sources d’information .................................................................. 46
2.4.1 Combinaison de résultats ...................................................................................... 47
2.4.2 Combinaison de facteurs....................................................................................... 47
2.5 Conclusion .................................................................................................................. 49
La plupart des SRI existants représentent les documents comme un ensemble de mots clés, ce que
l’on appelle communément une représentation par sac de mots. Ces mots clés sont généralement
pondérés en utilisant des schémas de pondération tels que [183], BM25 [162] ou le modèle
de langue uni-gramme [151] qui prennent en compte les statistiques suivantes : la fréquence du terme
dans le document (tf), sa fréquence dans la collection (idf) et la taille du document. Tous ces modèles
supposent que les mots clés sont indépendants. Cette hypothèse d’indépendance entre termes facilite
grandement les calculs. De ce fait, l’ordre des termes dans une phrase est donc ignoré. Ceci peut de
toute évidence conduire à l’ambigüité entre termes, qui pourraient engendrer des résultats bruités
(contenant beaucoup de documents non pertinents). A titre d’exemple, prenons la requête «
recherche d’information », avec le processus de sac de mots, un document comportant dans une
partie le mot « recherche » et dans une autre partie le rôle de « l’information dans le développement
d’une entreprise », serait présenté à l’utilisateur comme pertinent. Or, on voit bien que ce document
n’est pas pertinent car il ne traite pas de la « recherche d’information ».
Introduction générale 2
Il est par conséquent nécessaire de développer des modèles de recherche d’information allant au-
delà de la représentation avec une liste de mots clés. Parmi les pistes les plus investies on trouve
celles prenant en compte la proximité entre termes et l’utilisation d’unités de représentation plus
complexes (les expressions, les mots composés). Par exemple, les documents contenant le mot
composé « recherche d’information» devraient être avantagés lors du classement des documents dans
la requête précédente.
Il est évident que l’utilisation de telles techniques conduit à une représentation plus précise et plus
réaliste du contenu des documents. C’est dans ce cadre que se situe l’une de nos contributions.
Dans le contexte du web, d’autres sources d’information autre que le contenu textuel du document
peuvent être exploitées, en particulier la structure des liens, pour améliorer les performances de la
recherche d’information. La plupart des méthodes proposées dans la littérature intègrent cette
dimension en se basant sur le postulat suivant: «une page web référencée par beaucoup d’autre pages
est a priori pertinente ». Cependant, ces méthodes ne prennent pas en compte le fait que le web est
structuré sous forme de sites web. Notre seconde contribution consiste à prendre en compte cette
réalité.
Contributions
Les travaux présentés dans ce mémoire se situent dans le contexte de la recherche d’information.
Nous nous intéressons plus particulièrement à :
(1) la définition d’un modèle de langue permettant de mieux prendre en compte les problèmes
d’ambigüité et de disparité de termes posés par la représentation de type: sac de mots clés ;
(2) la prise en compte de la structure du web et de la structure des hyperliens afin d’estimer la
pertinence a priori d’un document web.
(1) Un modèle de langue mixte combinant les mots simples et mots composés
La plupart des modèles de langue développés sont des modèles uni-grammes (sac de mots clés), qui
sont caractérisés par la non prise en compte des relations entre les termes. Ce qui conduit aux
problèmes d’ambigüité et de disparité de termes. Pour pallier ces problèmes nous proposons un
modèle de langue combinant les mots simples et mots composés.
composés et le schéma de pondération utilisé. À cet effet nous proposons une approche caractérisée
par les points suivants :
- Une méthode de sélection de mots composés basée sur un filtrage des bi-grammes.
- Un nouveau schéma de pondération des mots composés basée sur la notion de dominance
entre termes.
- La définition d’un modèle de langue permettant une meilleure prise en compte des mots
composés et des mots simples.
- Les termes d’expansion choisis peuvent être des mots simples ou des mots composés, ce
qui n’est pas le cas avec les méthodes antérieures de réinjection de pertinence.
Organisation du mémoire
Nous structurons ce présent mémoire en deux parties ; la première traite de l’état de l’art et elle est
constituée de trois chapitres, et la seconde partie, comporte trois chapitres, et concerne les
contributions apportées.
Le chapitre 2 est consacré à la recherche d’information sur le web. Nous traitons trois points, à savoir,
les éléments distinctifs entre la RI classique et la RI sur le web, les sources d’information spécifiques
aux documents web et les différentes méthodes ou modèles développés pour combiner ces
différentes sources d’information dans le but d’améliorer la pertinence de la recherche d’information.
Introduction générale 6
Le chapitre 3 est dédié au modèle de langue. Ce modèle est caractérisé par son solide fondement
mathématique (probabilités statistiques) et sa capacité à combiner différentes sources d’information
sur un document. Ces deux caractéristiques conviennent bien à la recherche d’information sur le web.
Nous présentons précisément les points suivants dans ce chapitre. Nous définissons tout d’abord
l’idée de base des modèles de langue et leur utilisation en RI. Nous décrivons ensuite les différents
modèles de langue proposés pour intégrer les relations entre termes afin de solutionner les problèmes
d’ambigüité et de disparité entre termes. Enfin, nous présentons les différents travaux intégrant les
informations a priori de pertinence d’un document dans le cadre du modèle de langue.
Dans le chapitre 5, nous présentons notre seconde contribution, qui consiste en une extension du
modèle précédent pour prendre en compte l’expansion de la requête. Cette expansion est réalisée par
réinjection de pertinence. Pour déterminer les termes d'expansion on additionne les poids des
relations d'un terme candidat avec chacun des termes de la requête (simple, composé). Un terme
candidat est choisi s’il est fortement en relation avec la plupart des termes de la requête. Le modèle
ainsi décrit est expérimenté et évalué sur deux collections TREC. Les résultats de ces
expérimentations sont présentés et discutés dans ce chapitre.
Dans le chapitre 6 nous présentons notre troisième contribution consistant à intégrer les
caractéristiques de site web dans l’estimation de la probabilité a priori de pertinence d’une page web.
Après une description du modèle, nous présentons les résultats des expérimentations réalisées sur
une collection TREC (.GOV). Une comparaison de ce modèle avec les modèles de l’état de l’art est
également présentée.
Nous concluons notre mémoire par une conclusion générale, où nous présentons les perspectives de
nos propositions.
Partie I
Etat de l’art
Chapitre 1
1.1 Introduction
La Recherche d’Information (RI) n’est pas un domaine récent, il date des années 40. Une des
premières définitions de la RI a été donnée par Salton : « la recherche d’information est un
domaine qui a pour objectif, la représentation, l’analyse, l’organisation, le stockage et l’accès
à l’information » [168].
Plusieurs tâches se regroupent sous le vocable de la RI, la plus ancienne est la recherche
documentaire, on y trouve également d’autres tâches plus au moins récentes comme : le
filtrage d’information, l’extraction d’information, la recherche d’information multilingue, les
questions réponses, la recherche d’information sur le web, etc.
Ce chapitre a pour but de présenter le domaine de la RI. Dans la première partie, nous
présentons les concepts de base de la RI. En particulier, nous décrivons les notions de
document, de requête et de pertinence ; les processus d’indexation, de recherche et de
reformulation de requêtes ; ainsi que, les modèles de RI. Dans la seconde partie, nous
passerons en revue les techniques de recherche d’information sémantique. Dans la dernière
partie de ce chapitre est discutée l’évaluation des systèmes de recherche d’information.
Chapitre 1. Recherche d’information classique 9
Besoin en
information
Documents Requête
Indexation
Indexation (Analyse)
Pertinence
La pertinence est une notion fondamentale et cruciale dans le domaine de la RI. Cependant, la
définition de cette notion complexe n’est pas simple, car elle fait intervenir plusieurs notions
[21] [142]. Basiquement, elle peut être dé nie comme la correspondance entre un document et
une requête ou encore comme une mesure d’informativité du document à la requête.
Essentiellement, deux types de pertinence sont définis : la pertinence système et la pertinence
utilisateur.
Chapitre 1. Recherche d’information classique 11
La pertinence Système [42] est souvent présentée par un score attribué par le SRI afin
dévaluer l’adéquation du contenu des documents vis-à-vis de celui de la requête. Ce
type de pertinence est objectif et déterministe.
Pertinence utilisateur [89] [142] [172] quant à elle, se traduit par les jugements de
pertinence de l’utilisateur sur les documents fournis par le SRI en réponse à une
requête. La pertinence utilisateur est subjective, car pour un même document retourné
en réponse à une même requête, il peut être jugé différemment par deux utilisateurs
distincts (qui ont des centres d’intérêt différents). De plus, cette pertinence est
évolutive, un document jugé non pertinent à l’instant t pour une requête peut être jugé
pertinent à l’instant t+1, car la connaissance de l’utilisateur sur le sujet a évolué.
Automatique : dans ce cas, l’indexation est entièrement automatisée. Elle est réalisée
par un programme informatique et elle passe par un ensemble d’étapes pour créer
d’une façon automatique l’index. Ces étapes sont : l’analyse lexicale, l’élimination des
mots vides, la normalisation (lemmatisation ou radicalisation), la sélection des
descripteurs, le calcul de statistiques sur les descripteurs et les documents (fréquence
d’apparition d’un descripteur dans un document et dans la collection, la taille de
chaque document, etc.) et enfin la création de l’index et éventuellement sa
compression. Nous détaillons ces différentes étapes ci-dessous.
1.2.1.3 La normalisation
La normalisation consiste à représenter les différentes variantes d’un terme par un format
unique appelé lemme ou racine. Ce qui a pour effet de réduire la taille de l’index. Plusieurs
stratégies de normalisation sont utilisées : la table de correspondance, l’élimination des affixes
(l’algorithme de Porter [152]), la troncature, l’utilisation des N-grammes [1].
Chapitre 1. Recherche d’information classique 13
L’inconvénient majeur de cette opération est qu’elle supprime dans certains cas la sémantique
des termes originaux, c’est le cas par exemple des termes derivate/derive, activate/active,
normalisés par l’algorithme de Porter.
( )= 1 à (1.1)
0
La pondération locale permet de mesurer l’importance du terme dans le document. Elle prend
en compte les informations locales du terme qui ne dépendent que du document. Elle
correspond en général à une fonction de la fréquence d’occurrence du terme dans le document
(noté tf pour term frequency), exprimée ainsi :
=1+ (1.2)
(1.3)
Mesures Formules
Le produit scalaire | |
( , )= .
| |
La mesure de cosinus . .
( , )= =
. | | | |
| |
La mesure de Dice 2× .
( , )= | | | |
+
| |
La mesure de Jaccard .
( , )= | | | | | |
+ .
( )
( )= (1.4)
( )
L’idée de base de cette fonction est de sélectionner les documents ayant à la fois une forte
probabilité d’être pertinents et une faible probabilité d’être non pertinents à la requête.
Où ( ) et ( ) : la probabilité qu'un document soit pertinent ( ) vis-
à-vis de la requête (respectivement non pertinent ( )).
Chapitre 1. Recherche d’information classique 18
( ) ( )
( )= (1.5)
( )
( ) ( )
( )= (1.6)
( )
Où :
( ) est la probabilité de choisir le document , on considère qu’elle est constante ;
( ) indique la probabilité que fait partie des documents pertinents pour la requête
;
( ) indique la probabilité que fait partie des documents non pertinents pour la
requête ;
( ) et ( ) indiquent respectivement la probabilité de pertinence et de non-
pertinence d’un document quelconque (avec ( ) ( ) = 1 ) qui sont fixes.
Après remplacement dans la fonction de tri, on aura la formule suivante :
( )
( )= (1.7)
( )
Si on suppose que les termes d’indexation sont indépendants, alors on peut estimer les deux
probabilités ainsi :
( )= × (1.8)
( )= × (1.9)
( )
( )= (1.10)
( )
Afin de classer les documents avec cette formule, il faut estimer les valeurs des deux
probabilités et . En l’absence de collection (documents) d’apprentissage ; on peut
attribuer la valeur fixe à comme par exemple 0.5 [52]; comme elles peuvent être estimées à
l’aide de l’avis de l’utilisateur sur les résultats d’une première recherche (réinjection de
pertinence).
( )= ( ) (1.11)
( )
( )= (1.12)
|
Différentes sources de données sont utilisées pour reformuler la requête initiale. Elles peuvent
être [132]: (1) des ressources externes, telles que les ontologies, les thésaurus et la relation de
cooccurrence entre termes dans la collection. Les méthodes basées sur ces sources sont dites
méthodes globales. (2) Les documents résultants de la première recherche; les méthodes
basées sur ces sources sont dites méthodes locales. Ces méthodes sont également connues
sous le nom de réinjection de pertinence. La réinjection de pertinence a montré son efficacité
avec différents modèles de la RI [116] [128] [162] [163] [169] et a affiché de meilleurs
résultats que les méthodes globales.
D’autres sources de données ont été utilisées, on peut citer les textes d’ancre [57], les logs des
moteurs de recherche [198], les liens dans les documents Wikipedia [7] et les FAQs [156].
D’autres études utilisent des informations complémentaires fournies par l’utilisateur pour
l’extension de la requête telles que, les balises [41], les images [43] et les catégories [199].
Chapitre 1. Recherche d’information classique 21
La reformulation de la requête peut être réalisée par l’utilisateur, dans ce cas elle est dite
manuelle, ou par le système (dite automatique) comme elle peut être réalisée conjointement
par l’utilisateur et le système, dans ce cas elle est dite semi-automatique.
.| | | |
(1.13)
Où :
est le vecteur de la nouvelle requête (reformulée) ;
est le vecteur de la requête originale ;
est l’ensemble des vecteurs des documents jugés pertinents par l’utilisateur ;
est l’ensemble des vecteurs des documents jugés non pertinents par l’utilisateur ;
, , sont les paramètres de la reformulation.
On peut remarquer que cette formule permet d’obtenir une nouvelle requête dont le vecteur se
rapproche des vecteurs des documents jugés pertinents et s’éloigne des vecteurs des
documents jugés non pertinents.
Dans le modèle probabiliste, la réinjection de pertinence est mise en place directement dans le
modèle de mesure de pertinence. Elle consiste à revoir les poids des termes de la requête
[161], comme suit :
(1.14)
Où :
représente le nombre de documents pertinents ;
’ est le nombre de documents pertinents contenant le terme ;
Chapitre 1. Recherche d’information classique 22
.| |
(1.15)
On voit dans cette formule que l’expansion de la requête est uniquement positive, car on ne
peut faire aucune hypothèse sur les documents non pertinents, mais rien ne nous empêche de
prendre les derniers documents de la liste comme non pertinents.
Plusieurs travaux [25] [88] ont tenté d’évaluer l’impact de la pseudo-réinjection, en variant le
nombre de nombre de termes à rajouter à la requête. Ils montrent que la performance du
système est obtenue lorsque la requête est construite entre 20 et 40 termes.
Les méthodes d’expansion automatique de la requête proposées dans le contexte du modèle de
langue seront étudiées en détails dans le chapitre 3.
La disparité des mots (en anglais word mismatch), se réfère à des mots lexicalement
différents mais portant un même sens. Ce problème implique que des documents
pertinents ne sont pas retrouvés en réponse à une requête, car ils utilisent des mots
différents que ceux de la requête pour exprimer le même concept. Par exemple, des
documents contenant le terme «tablette tactile » peuvent ne pas être retrouvés en
réponse à une requête « I-pad».
En plus de l’expansion de la requête, étudiée dans la section 1.2.4, diverses approches ont été
proposées pour remédier à ces problèmes. Ces approches permettent d’incorporer ou d’utiliser
des informations conceptuelles ou sémantiques dans les méthodologies de recherche. Nous
présentons ci-dessous les trois types d’approches les plus utilisées, l’indexation sémantique,
l’indexation conceptuelle et l’indexation par des mots composés.
Fagan et al [67] ont rapporté des problèmes dans l’utilisation des mots composés non
directionnels.
2. La distance : la distance entre les termes formant le mot composé (l’adjacence ou la
non-adjacence des termes) ; l’intensité de liens entre termes opérationnalisée à travers
la distance reflète la proximité sémantique entre termes. La capture de cette proximité
est importante pour la recherche d’information.
Les études effectuées en RI sur l'extraction des mots composés supposent que la
cooccurrence des mots dans les éléments fortement structurés (c.-à-d., une phrase) est
plus significative que dans les éléments moins structurés (c.-à-d., des paragraphes ou
des sections). Ainsi, la recherche sur l'extraction des mots composés a été dominée par
l'analyse de phrase. L'analyse empirique justifie de limiter l'extraction des mots
composés aux combinaisons des termes apparaissant dans la même phrase. Martin et
al [134] ont constaté que 98% de combinaisons syntaxiques associent les termes qui
sont dans la même phrase et sont séparés par cinq mots au plus. Fagan [66] a constaté
que la restriction de l'extraction des mots composés à une fenêtre de distance de cinq
termes est presque aussi efficace que des mots composés extraits dans une phrase sans
une telle restriction, soutenant ainsi les résultats de Martin et al [134]. D'autres travaux
[34] [130] ont adopté cette hypothèse et ils ont utilisé une fenêtre de cinq mots pour
l’extraction des mots composés.
3. La taille des mots composés : en principe la taille d’un mot composé peut être de
n’importe quelle longueur (supérieure ou égale à 2). Dans la pratique les mots
composés longs conduisent à des index très spécifiques qui sont généralement moins
utiles pour la RI.
4. La pondération des mots composés : les différents schémas de pondération proposés
pour l’attribution d’un poids à un mot simple dans un document, prennent
généralement en considération trois facteurs : le facteur de pondération local ( ), qui
mesure l’importance du terme dans le document ; un facteur de pondération globale,
mesurant la représentativité globale du terme dans la collection ( ) et un facteur de
normalisation qui prend en compte la longueur du document.
Cependant, pour les mots composés, il n’y pas de schéma de pondération bien accepté.
En général, trois approches sont proposées pour la pondération des mots composés :
Chapitre 1. Recherche d’information classique 25
L’étude de Krovetz et al [108] a été la première et la plus élaborée à s’être penchée sur la
pertinence de la relation de correspondance du sens des termes dans la requête et les
documents. Ils ont découvert que lorsqu’une requête est bien formulée et décrit bien le besoin
en information, alors l’ambiguïté est moindre. Considérant les deux requêtes suivantes : « big
bank » et « bank economic financial monetary fiscal » ; la deuxième requête est moins
ambiguë que la première. Ceci est dû à ce qu’ils ont appelé l’effet de collocation. Un
ensemble de termes isolement ambigus contribuent ensemble à désambiguïseur implicitement
le sens de terme (bank dans l’exemple).
Ils ont aussi étudié la distribution des sens d’un terme dans les documents. Ils ont trouvé que
certains sens du terme occurrent plus fréquemment que les autres sens.
Voorhees [195] a proposé une méthode de désambiguïsation basée sur Wordnet, qui est une
structure conceptuelle organisée autour de la notion de synset. Un synset regroupe des termes
(simples ou composés) ayant un même sens dans un contexte donné. Les synsets sont liés par
différentes relations telles que l'Hyperonymie (is-a) et son inverse, l'Hyponymie (instance-de)
[15].
Pour déterminer le sens d’un mot ambigu, les synsets (sens) de ce mot sont classés en utilisant
la valeur de cooccurrence calculée entre le contexte de ce mot et un voisinage (Voorhees l'a
appelé hood) contenant les mots du synset dans la hiérarchie de WordNet. Le synset le mieux
classé est alors choisi comme le sens approprié du mot ambigu analysé.
Voorhees a expérimenté cette approche sur une collection de test désambiguïsée (les requêtes
de la collection de test sont aussi désambiguïsées manuellement) par rapport aux
performances du même processus sur la même collection dans son état d'origine (ambigu).
Les tests ont été effectués sur les collections CACM [168], CISI, Cranfield 1400, MEDLINE,
et Time [183]. Les résultats obtenus sur chacune de ces collections montrent une nette
dégradation des performances du SRI. Ceci est expliqué probablement par le taux faible de
désambiguïsation.
fortement affectées par l’introduction de l’ambiguïté, alors que les requêtes longues le sont
beaucoup moins (ce qui confirme l’effet de la collocation noté par Krovetz).
Par contre le travail inverse : désambiguïsation de la collection ambiguë de Reuters, affecte
les performances du système, et cela selon le taux de performance de la désambiguïsation
effectué (qui est contrôlable). Avec un taux de performance de désambiguïsation égal à 75%,
il a constaté que les performances du système se dégradent. Il a conclu que la
désambiguïsation est utile lorsque le taux de performance de la désambiguïsation est supérieur
à 90%.
Comme Sanderson, Gonzalo et al [76] ont mesuré l’effet de la désambiguïsation erronée sur
les performances de la RI. Ils ont utilisé trois schémas d’indexation : les termes, le sens des
termes (pas de prise en compte de la synonymie) et les synsets de WordNet. Des
expérimentations ont été effectuées sur la collection SEMCOR, une partie du corpus Brown.
Cette collection (SEMCOR) est désambiguïsée avec les synsets de WordNet.
Leur expérimentation est effectuée en deux étapes, la première consiste à évaluer l’effet de la
désambiguïsation (l’effet de l’indexation avec le sens de terme et le synset). La seconde étape
consiste à évaluer l’effet de la désambiguïsation incorrecte. Comme l’a fait Sanderson.
Les résultats obtenus dans la première partie montrent qu’un gain de 11% de performance est
obtenu avec l’utilisation des sens des termes, et un gain de 14 % avec l’utilisation des synsets
de WordNet.
Quant aux résultats obtenus dans la seconde étape; ils montrent qu’avec un taux d’erreur de
désambiguïsation inférieur à 90% les performances se dégradent, ce qui rejoint le constat fait
par Sanderson. En revanche, avec une indexation par synset, les performances du système
restent meilleures que celles de la configuration basique et cela avec un taux d’erreur de
désambiguïsation de 30%. Pour un taux d’erreur de désambiguïsation variant entre 30% et
60% les résultats ne montrent pas de différence significative avec l’indexation par mots-clés
(configuration basique). Ce qui est en désaccord avec le constat de Sanderson.
En résumé, l’application des techniques de désambigüisation sémantique en RI présente des
limitations en terme de calcul et d’efficacité. Des résultats mixtes ont été reportés dans de
récentes séries d’expérimentations, réalisées à CLEF 2008 et à CLEF 2009, dans la tâche
Robust–WSD [3].
Chapitre 1. Recherche d’information classique 29
Woods [205] a présenté une méthode d’indexation conceptuelle, qui consiste à extraire les
descripteurs conceptuels (concepts) automatiquement à partir des documents sans faire
référence à aucune ressource, puis à organiser ces concepts de manière dynamique sous forme
d’une taxonomie de concepts.
L’index conceptuel obtenu peut servir alors à la recherche ou à la navigation dans la
collection des documents. L’organisation des concepts dans la taxonomie se base sur la
relation de subsumption (is-a), dans laquelle chaque concept identifié est relié à ses concepts
parents. Pendant la phase de la recherche, l’algorithme de recherche permet de déterminer
l’emplacement de la requête dans la taxonomie.
La méthode ainsi décrite, a été évaluée sur la collection de pages du manuel d’UNIX et sur
d’autres collections de Sun Microsystems. Les résultats obtenus ont montré que cette méthode
d’indexation améliore le taux de succès de 13% par rapport à la meilleure stratégie
d’indexation classique (TWIDF : Term Weighted Inverse Document Frequency). Le taux de
succès est une mesure qui est définie comme le pourcentage de requêtes pour lesquelles une
réponse est obtenue dans les dix premiers documents retournés.
Baziz et al [17] ont défini une méthode d’indexation conceptuelle basée sur l’utilisation de
l’ontologie linguistique WordNet. Chaque document est représenté sous forme d’un réseau
sémantique particulier (appelé noyau sémantique), dans lequel les nœuds représentent les
concepts et les arcs (bidirectionnels) représentent la distance sémantique entre concepts liés.
Chapitre 1. Recherche d’information classique 30
Après expérimentations, les résultats obtenus ont montré que cette méthode d’indexation
conceptuelle n’améliore pas les résultats obtenus avec une indexation classique (mots-clés).
Par contre, les résultats obtenus avec une combinaison des deux types d’indexation (classique
et conceptuelle) ont montré une nette amélioration de la précision.
1
http://www.search-engines-book.com/collections/
2
ftp://ftp.cs.cornell.edu/pub/smart/cisi
3
www.clef-campaign.org
4
http://trec.nist.gov/
Chapitre 1. Recherche d’information classique 31
collections de test, des tâches spécifiques et des protocoles d'évaluation pour chaque tâche
afin de mesurer les différentes stratégies de recherche[23].
Les tâches proposées se sont diversifiées d’une campagne à une autre (à raison d’une par an) ;
parmi les tâches proposées dans TREC 2012 on peut citer : recherche d’information sur le
web, recherche d’information médical, recherche d’information dans les micros blogs,
recherche d’information contextuelle, etc.
La taille des collections augmente au fil des années, passant de 2 Go dans TREC 1 à 25 To
dans TREC 2011. Chaque collection est composée d'un certain nombre de documents, allant
de quelques milliers à plusieurs millions. Les documents sont codés à l'aide de SGML dans un
format spécifique TREC. La figure 1.2 illustre un exemple d’un document TREC.
<DOC>
<DOCNO> WSJ920324-0113 </DOCNO>
<DOCID> 920324-0113. </DOCID>
<HL> Venture of Kimbaco </HL>
<DATE> 03/24/92 </DATE>
<SO> WALL STREET JOURNAL (J), PAGE C9 </SO>
<CO> H.TSI </CO>
<MS> FINANCIAL (FIN) </MS>
<IN> ALL BANKS, BANKING NEWS AND ISSUES (BNK)
SECURITIES (SCR) </IN>
<NS> JOINT VENTURES (JVN) </NS>
<RE> FAR EAST (FE)
HONG KONG (HK)
PACIFIC RIM (PRM)
SOUTH KOREA (SK)
</RE>
<LP>
NEW YORK -- South Korean merchant banking firm Kimbaco said it joined
with Hong Kong brokerage house Peregrine Securities to form a new
investment firm Kimbaco Peregrine Capital Ltd.
The firm will seek out cross-border transactions and direct investment
opportunities in Asia, with special emphasis on U.S.-Korean ventures.
</LP>
<TEXT>
</TEXT>
</DOC>
.GOV : est une collection web de taille 20 giga-octets et comporte 1,25 millions de
documents.
Chaque collection TREC a généralement 50 à 100 requêtes correspondantes. Une requête
TREC est structurée comme suit: un identifiant de requête unique TREC, un titre, une
description plus détaillée du besoin en information et une rubrique qui explique dans quelles
circonstances un document doit être jugé pertinent ou non pertinent pour une requête. Un
exemple d’une requête TREC est montré dans la figure 1.3. Dans la plupart de nos
expérimentations, nous n’utilisons que le champ titre des requêtes, car ceux-ci sont similaires
aux besoins en information des utilisateurs sur le web [99].
<top>
<num> Number: 562
<title> world population growth
<desc> Description:
What is the outlook for world population growth?
<narr> Narrative:
Relevant documents include projections of and
discussion of world population growth. Growth of
individual nations' populations is relevant, but
data on states within the U.S. is not relevant.
</top>
= (1.16)
= (1.17)
Des mesures complémentaires au rappel et précision ont été définies, il s’agit de bruit
et de silence.
Chapitre 1. Recherche d’information classique 33
0,5
0
0 0,2 0,4 Rappel 0,6 0,8 1
= ( ) (1.18)
Avec
é
( )= (1.19)
0
Chapitre 1. Recherche d’information classique 35
Où dénote le rang du document qui a été retrouvé et qui est pertinent pour la
requête, est le nombre de documents pertinents retrouvé au rang et est le
nombre total de documents pertinents pour la requête .
Dans la seconde étape, on calcule la précision moyenne pour un ensemble de requêtes,
en effectuant la moyenne des précisions moyennes de chaque requête, elle est
exprimée ainsi :
= (1.20)
1.5 Conclusion
Dans ce chapitre nous avons passé en revue les principaux concepts de la RI. Nous avons,
particulièrement, introduit des notions de base, telles que le besoin en information, la requête,
le document et la pertinence. Nous avons aussi décrit les processus de base de la RI, à savoir
l’indexation, l’appariement requête-document et la reformulation de la requête. Ensuite, nous
avons étudié les différents modèles de la RI et nous avons abordé les différentes directions
investies pour introduire la sémantique en RI. Enfin, l’évaluation des systèmes de recherche
d’information est traitée.
La plupart des modèles de recherche d’information que nous avons évoqués sont développés
afin d’exploiter uniquement le contenu textuel des documents. Cependant, avec l’avènement
du web, le document présente de nouvelles dimensions (sources d’information) autre que le
contenu textuel. En effet, les documents web sont généralement des documents structurés via
les balises HTML et interconnectés entre eux par des liens hypertextes.
Ces nouvelles sources d’information sur le document doivent être intégrées dans les modèles
de RI, afin d’améliorer les performances de la recherche d’information. Dans le chapitre
suivant, nous abordons la recherche d’information sur le web.
Chapitre 2
2.1 Introduction
Les problématiques posées en recherche d’information sur le web sont identiques à celles
posées par la recherche d’information classique (indexation, appariement, etc.).
Dès, l’apparition du web, différentes catégories d’outils se sont développées pour répondre à
ces problématiques et pour faire face aux nouveaux chalenges posés par le web. La spécificité
du web réside dans le type de documents manipulés (pages HTML), qui sont des documents
structurés, la nature hypertexte du web et le nombre d’utilisateur et le type de requête qu’ils
utilisent pour exprimer leur besoin en information. Généralement, ces outils de RI sur le web
examinent la combinaison de diverses sources d’information telles que : le contenu textuel du
document et la structure du web, pour classer les documents web en réponse à une requête
utilisateur.
Ce chapitre présente un aperçu sur la RI sur le web. Dans la première section, nous présentons
les différences entre la RI classique et la RI sur le web. Dans la seconde section, nous
examinons les différentes sources d’information spécifiques au document web : la structure
interne des documents web et la structure des liens. Nous décrivons dans la troisième section
les différentes approches utilisées pour combiner les sources d’information sur un document
web, dans le but d’améliorer la pertinence de la recherche d’information.
Chapitre 2. Recherche d’information sur le web 37
5
http://news.netcraft.com
6
http://www.worldwidewebsize.com
Chapitre 2. Recherche d’information sur le web 38
L’hétérogénéité peut être aussi sémantique, tous les thèmes sont traités sur le web, et ces
thèmes sont abordés par diverses sources, qui peuvent être des sources scientifiques, de
vulgarisations ou de commercialisations. Cette hétérogénéité créée de nouveaux défis
significatifs pour la recherche d’information qui sont : l’interopérabilité entre sources
d’information et l’amplification des phénomènes de polysomie et d’homographie, qui ont
pour effet d’augmenter le bruit lors d’une recherche.
utilisateurs consultent seulement les premières pages retournées ; et s’engagent rarement dans
le processus de la reformulation de la requête.
Ces caractéristiques du web rendent difficile pour les outils de recherche d’information
actuels la tâche de sélection d’information désirée parmi le grand nombre de ressources qui
répondent aux besoins des utilisateurs. Les limites des outils actuels de recherche
d’information sur le web ont incité les chercheurs à développer de nouvelles approches pour
aider à améliorer l’exactitude de la tâche de sélection de ressource.
Cutler et al [54] ont mené une étude sur l’apport de la structure des pages HTML pour
améliorer la pertinence de la RI. La méthode d’indexation proposée consiste à associer à
chaque terme un vecteur de fréquence noté , qui contient la fréquence d’apparition du
terme dans une des classes de balises. Six classes de balises ont été utilisées : Anchor, <H1>-
<H2>, <H3>-<H6>, STRONG, TITLE et le texte plein (toutes les autres balises).
Lors de la recherche un autre vecteur à six éléments noté (Class Importance Vector) est
utilisé, chaque élément de ce vecteur représente un facteur d’importance associé pour chaque
classe de balises. L’importance (poids) d’un terme dans un document est alors calculée
comme suit :
=( ) (2.1)
Ainsi, la traditionnelle formule de pondération est étendue comme suit : , qui tient
compte de la fréquence du terme dans une classe et de l’importance accordée à cette classe.
Les expérimentations menées ont montré que, l’usage de la structure des pages HTML
améliore sensiblement la pertinence de la RI.
Olgivie et al [44] [146] [147], ont montré que la surpondération des termes apparaissant dans
le texte des balises TITLE, ALT et FONT dans le cadre de la recherche de page d’entrée et de
page nommée, n’apporte qu’un petit gain d’efficacité.
D’autre travaux ont utilisé les métadonnées (des données pour décrire les données sur
lesquelles elles portent) en RI. Agosti et al [5] ont utilisé 15166 pages de la bibliothèque du
Chapitre 2. Recherche d’information sur le web 41
Congrès7, et ont observé que la recherche utilisant seulement le contenu a donné des résultats
légèrement meilleurs que la recherche utilisant le contenu et les métadonnées. Cette étude est
peu concluante car seulement une petite fraction des pages collectées contient des
métadonnées.
Zhang et al [211] ont construit un ensemble de pages web (artificiellement, en ajoutant des
métadonnées), et les ont soumis à un ensemble de moteurs, dans le but de mesurer l’impact
des métadonnées sur la visibilité de ces pages dans les moteurs de recherche. Ils ont constaté
qu’aucune des pages web construites qui contenant les termes des requêtes dans le champ de
métadonnées ne figure dans les résultats de recherche. Ceci est dû vraisemblablement à
l’utilisation des techniques anti-spam par ces moteurs de recherche.
En plus de la structure interne d’une page web, son adresse URL peut être une source
d’information lors du calcul de la pertinence de la page, soit en considérant l’URL comme un
texte, dans ce cas on peut appliquer les méthodes de recherche plein texte pour l’appariement
entre les termes de la requête et le texte de l’URL, ou en considérant d’autres caractéristiques
de l’URL comme : sa forme ou la présence de certains caractères, dans le but d’estimer la
pertinence a priori d’un document (indépendamment de la requête).
Kraaij et al [106] ont utilisé la forme (type) de l’URL pour estimer la probabilité qu’une page
soit une page d’entrée. Quant à Kamps et al [103], ils proposent trois autres mesures, afin
d’estimer la probabilité a priori de pertinence d’une page, en fonction du nombre de slash (‘/’)
dans l’URL, du nombre de caractères de l’URL et enfin de la somme de nombre de caractères
‘. ‘ dans la partie domaine de l’URL et du nombre de ‘/’ dans la partie chemin de l’URL.
Les expérimentations menées ont montré que ces trois mesures sont de bons indicateurs afin
d’estimer la probabilité a priori de pertinence d’une page.
7
http://www.loc.org
Chapitre 2. Recherche d’information sur le web 42
articles ou des journaux. D’autres mesures ont été également identifiées, la co-citation et le
couplage bibliographique.
Avec l’émergence du web, l’analyse de la structure des liens est au cœur de nombreux travaux
en RI. Les deux principales utilisations des liens en recherche d’information concernent la
collecte des pages web (Crawl) [39] et le classement des documents (Ranking). Les liens sont
également utilisés pour d’autres fins comme : la classification et la catégorisation des pages
web [37], la recherche des ressources dupliquées sur le web [20], la recherche de pages
similaires [60], etc.
Nous nous intéressons particulièrement dans la suite de cette section à l’usage des liens dans
la fonction de calcul de pertinence (classement des pages web).
Les méthodes de calcul de pertinence exploitant la structure des liens peuvent être réparties en
trois classes distinctes, chacune d’entre elles est basée sur l’une de ces hypothèses suivantes
[47].
Le nombre de liens
Deux types de liens sont considérés pour une page web : les liens entrants et les liens
sortants. Plusieurs études se sont penchées sur l’utilité du nombre de ces liens pour la
recherche d’information.
Dans [214], il est noté que le nombre de liens entrants peut fournir une indication sur
l’importance, la popularité et la qualité de la page.
Kamps et al [103] ont utilisé le nombre de liens entrants et sortants pour prédire
l’importance de la page (probabilité a priori de pertinence) dans le cadre de la
recherche de pages d’entrées et de pages nommées « Named-page ». Ils ont constaté
que le nombre de liens entrants est un bon indicateur pour prédire la pertinence de la
page.
Chapitre 2. Recherche d’information sur le web 43
PageRank
L’algorithme de PageRank (PR) développé par Brin et Page en 1998 [28] est à
l’origine du moteur de recherche Google. Cet algorithme assigne une valeur de
popularité (un score, un PR) à toutes les pages du web indépendamment de toute
requête.
La mesure PageRank est une distribution de probabilité sur les pages. Elle mesure en
effet la probabilité PR, pour un utilisateur navigant au hasard, d’atteindre une page
donnée. Elle repose sur un concept très simple : un lien émis par une page A vers une
page B est assimilé à un vote de A pour B. Plus une page reçoit de votes, plus cette
page est considérée comme importante. Le PageRank se calcule de la façon suivante :
( )
( )=( )× × (2.2)
( )
Où :
( ) est le PageRank de la page ;
est le nombre total de pages web indexées;
est un paramètre fixé à 0.85;
( ) est le nombre de liens sortant de la page , et est le nombre de pages qui
pointent la page .
Le score PageRank est utilisé afin de réordonner la liste des pages retournées.
L’algorithme de PageRank n’améliore pas significativement les résultats des
stratégies qui ignorent les hyperliens, selon les évaluations faites lors des campagnes
de TREC [92] [93].
Plusieurs extensions de PageRank ont été proposées, tels que le PageRank
personnalisé [91], qui consiste à incorporer les centres d’intérêts des utilisateurs dans
le calcul de PageRank.
HITS
Kleinberg a proposé un algorithme dit HITS (Hyperlink Induced Text Search) [105]
pour identifier les documents autorités au moment de la recherche. L’algorithme est
basé sur l’analyse de la matrice d’adjacence des pages retournées pour une requête
donnée. Les pages web concernant le sujet de la requête peuvent être soit des Hubs
ou des Autorités. Les pages Autorités contiennent de l’information sur le sujet. Par
contre, les pages Hubs pointent les pages Autorités. Ces deux types de pages ont une
relation de renforcement mutuelle entre elles, ainsi : un bon Hub est une page qui
Chapitre 2. Recherche d’information sur le web 44
pointe beaucoup de bonnes Autorités, et une bonne Autorité est une page qui est
pointée par beaucoup de bons Hubs. La figure 2.2 ci-dessous illustre la relation entre
ces deux types de pages.
Hubs Autorités
Figure 2.2 Les pages Hubs et Autorités
L’algorithme HITS calcule deux scores pour une page : le score d’Autorité et le
score de Hub. L’évaluation de ces deux scores se fait au moment de l’interrogation,
selon les deux formules ci-dessous, traduisant la relation de renforcement mutuelle
entre les deux types de pages :
= (2.3)
= (2.4)
( ) ( ) (2.5)
source d’information supplémentaire pour le contenu de la page ; des points de vue différents
sur un même contenu sont donnés par les auteurs des pages qui pointent une page donnée.
Ce qui est reproché à l’usage des textes d’ancre ; est que certaines pratiques de la part des
auteurs des pages peuvent avoir un impact négatif sur le résultat de la recherche. Par exemple,
pour la requête « more evil than Satan himself », le moteur Google qui utilise le texte d’ancre
proposait, en octobre 1999, le site web de Microsoft comme réponse la plus pertinente. Cette
réponse est la conséquence de l’existence des termes de la requête dans les textes d’ancre
(afin de dénoncer les pratiques commerciales de Microsoft) qui pointent le site web
Microsoft.
Les textes d’ancre peuvent aussi contenir des termes peu informatifs, exemple (cliquez ici,
Bas, Haut, etc.). Pour contourner ce problème et prendre en compte le contexte du texte
d’ancre plusieurs travaux ont proposé d’inclure le texte encadrant le texte d’ancre. Ainsi,
Chakrabarti et al [38] ont examiné la distribution du terme "Yahoo" autour d'ancre de
http://www.yahoo.com dans 5000 pages. Ils ont trouvé que la plupart des occurrences de ce
terme font partie d’un cadre de 50 termes, et ont montré que l’usage du texte de proximité
améliore le rappel en dépit de la précision.
Glover et al [75] quant à eux ont montré que l’usage d’un cadre de 25 termes autour du texte
d’ancre améliore les performances de classification des pages web.
D’autres sources d’information sur un document web ont étés utilisées, comme le facteur
temps [62] [121] et le rapport information/bruit [214].
Tsikrika et al [192] ont utilisé le modèle de réseau bayésien pour la combinaison des
différentes représentations d’un document web. Le modèle proposé est composé de quatre
couches : couche documents, couche représentations des documents, couche requêtes et
couche besoins des utilisateurs. Les deux premières couches sont construites au moment de
l’indexation et les deux dernières au moment de l’interrogation. Deux sources d’information
sont explorées, le contenu du document, à partir de laquelle une représentation du document
est construite (représentation du contenu) et la structure d’hyperliens, pour laquelle deux types
de représentation sont construites, le texte (étendu) d’ancre des liens entrants et le texte
(étendu) des liens sortants de la page. Sur la base du typage sémantique des liens (trois types
de liens : composition, séquence et référence), huit représentations au total sont obtenues. En
plus des textes d’ancre, l’utilisation de l’algorithme HITS a été aussi investie.
Chapitre 2. Recherche d’information sur le web 48
Les expérimentations menées en utilisant la collection TREC WT2g ont montré que :
- Le contenu de la page et le texte d’ancre des liens entrants donne de meilleurs
résultats que ceux obtenus avec le texte des liens sortants.
- Les résultats de la combinaison des différentes sources d’information ont montré
que le contenu de la page est la source d’information la plus importante lors de la
combinaison. De plus, une représentation qui donne des résultats individuels
faibles peut améliorer les performances du système en la combinant avec d’autres
représentations.
- L’application de l’algorithme HITS n’améliore pas les résultats obtenus avec le
contenu de la page.
Dans le cadre du modèle de langue, plusieurs travaux ont été proposés pour combiner
différentes sources d’information sur un document web [62] [106] [121] [147] [214]. Ce point
est discuté en détails dans le chapitre suivant (section 3.5).
D’autres modèles basés sur des algorithmes d’apprentissage automatique (en anglais learning
to rank) ont été proposés [124] [206].
L’idée de base de ces algorithmes est de faire apprendre une fonction d’ordonnancement en
assignant un poids pour chaque source d’information sur un document, puis utiliser la
fonction obtenue pour estimer le score de pertinence de chaque document, et en fin ordonner
les documents selon leur score de pertinence obtenu.
On distingue trois grandes approches d’algorithmes d’ordonnancement : par point (pointwise),
par paire (pairwise) et par liste (listwise). Ces approches diffèrent sur leur façon de considérer
le problème d’apprentissage [123].
L’approche par point (pointwise) considère les documents séparément en entrée du système
d’apprentissage. A chaque document est associé un score (ou un degré) de pertinence pour
une requête donnée. Le problème d’apprentissage est alors assimilé à un problème de
régression [46] ou de classification [144] respectivement.
L’approche par paire (pairwise) considère en entrée du système d’apprentissage des paires de
documents (di, dj) auxquels sont associées des jugements de préférence à valeur dans {-
1,1}. Si = 1 alors le document di est préféré au document dj, il doit être mieux classé dans
la liste de résultat. La préférence est notée . Au contraire, si 1 alors le
document dj est préféré au document di et on note . Le problème d'apprentissage est ici
Chapitre 2. Recherche d’information sur le web 49
2.5 Conclusion
Nous avons abordé dans ce chapitre la RI sur le web. Particulièrement, les points suivants ont
été étudiés. En premier lieu, nous avons énuméré les éléments distinctifs entre la RI classique
et la RI sur le web. Ensuite, nous avons identifié et étudié les différentes sources
d’information d’un document web. Enfin, nous avons présenté les différentes approches
(méthodes) proposées pour combiner ces différentes sources d’information.
Parmi ces méthodes, nous nous intéressons à celles basées sur l’utilisation (exploitation) d’un
cadre unique pour la combinaison des sources d’information sur un document web. Plus
explicitement, nous utilisons dans notre travail, le modèle de langage comme cadre de
combinaison de ces sources d’information.
Dans le chapitre suivant nous détaillons ce modèle, ainsi que les travaux réalisés dans ce
cadre pour intégrer les différentes dimensions d’un document.
Chapitre 3
3.1 Introduction
Depuis leur première utilisation en recherche d’information (RI) [151], les modèles
statistiques de langue ont acquis une grande popularité, en raison de leurs simplicité, efficacité
et performance. Ces modèles ont été aussi appliqués avec succès dans différentes tâches de la
RI, telles que la RI sur le web [106] la RI distribuée [179], la recherche d’expert [213].
Un des atouts de cette nouvelle classe de modèles de RI, concerne leur fondement théorique,
basé sur la théorie des probabilités. De plus, ces modèles offrent la possibilité de combiner
différentes informations (évidences) sur un document web pouvant être liées à la requête tel
que le contenu du document ou non liées à la requête telles que la structure du document, la
structure des liens, la date de création d’un document, etc.
Nos contributions exploitent largement ces modèles, notre objectif dans ce chapitre est de
donner une vue globale de ces modèles et leur exploitation en RI. Plus précisément, nous
décrivons en section 3.2, l’idée de base des modèles de langue en linguistique informatique
ainsi que les différentes techniques de lissage. En section 3.3, nous présentons l’exploitation
de ces modèle en RI. Nous passons ensuite en revue les différentes approches et travaux de la
littérature directement en relation avec nos travaux, relatifs tout d’abord sur la prise en compte
de la sémantique (relations entre termes) dans les modèles de langue, en section 3.4. Puis en
section 3.5, ceux relatifs à la prise en compte des évidences indépendantes du contenu textuel
de document dans le cadre des modèles de langue.
Chapitre 3. Modèles de langue pour la recherche d’information 51
La modélisation statistique de langue est une distribution de probabilités sur toutes les
séquences possibles « » ou autres unités linguistiques dans une langue. Elle peut être vue
comme un « processus génératif » qui consiste à estimer la probabilité ) de générer une
séquence de mots « » à partir du modèle de la langue .
Supposons que est une séquence de mots, la probabilité de génération de
la séquence « » est formulée ainsi :
)= ( ) (3.1)
Dans le cas où = 1, on parle du modèle uni-gramme. On considère dans ce modèle que les
mots de la séquence sont générés indépendamment les uns des autres, la formule précédente
devient alors :
)= ( ) (3.2)
Quand = 2, le modèle de langue est dit bi-gramme. Il est estimé en utilisant des
informations sur la cooccurrence de paires de mots, c’est-à-dire chaque mot dépend seulement
de son prédécesseur. La probabilité ) est alors formulée ainsi :
)= ( ) (3.3)
Tous ces modèles nécessitent le calcul de la probabilité d’un n-gramme ( ), ce calcul se base
sur l’estimation de vraisemblance maximale (MLE), qui revient à calculer la fréquence
relative d’un n-gramme dans le corpus d’entrainement, soit ( ). Cette probabilité est
estimée comme suit :
| | | |
( )= =| (3.4)
| | |
Cependant, quelle que soit la taille du corpus d’entrainement utilisé pour l’estimation de ces
probabilités, il est fréquent que beaucoup de n-grammes n’apparaissent pas dans le corpus.
Ceci entraîne l’attribution d’une probabilité nulle pour toute séquence contenant ces n-
grammes.
Pour remédier à ce problème (clairsemence de données) et rendre les modèles plus généraux,
des techniques de lissage sont utilisées. Le principe de ces techniques consiste à prélever une
quantité de probabilités associées aux n-grammes observés dans le corpus d’entraînement et
de la redistribuer sur les n-grammes non observés [26]. De cette façon, les n-grammes absents
du corpus vont recevoir une probabilité non nulle.
| | | |
( )= =| (3.5)
| | |
= ( + 1) × (3.6)
( )= (3.7)
Dans cette méthode la fréquence d’ordre pour un n-gramme vu sera redistribuée sur
les n-grammes non vus dans le corpus. La méthode de Good-Turing est recommandée
pour les n-grammes de faibles fréquences, car elle n’effectue pas de grandes
modifications comme c’est le cas pour les n-grammes de grandes fréquences.
c. Lissage de Backoff : le principe de cette méthode consiste à utiliser un modèle de
langue spécifique d’ordre inférieur, lorsqu’un n-gramme n’est pas observé dans le
corpus. C’est le cas de lissage de Katz qui combine le modèle uni-gramme et le
modèle bi-gramme, comme suit :
( ) | |>0
( )= (3.8)
( ) ( )
: ( )
( )= (3.9)
: ( )
Le lissage de Katz est proposé pour palier au problème posé par les n-grammes de
hautes fréquences.
d. Lissage par interpolation (Jelinek-Mercer) : ce type de lissage consiste à combiner
le modèle de langue considéré avec un ou plusieurs modèles de références estimés sur
d’autres corpus d’apprentissages. Typiquement, dans le cas de collection de
documents, on pourrait par exemple estimer le modèle de document en le combinant
Chapitre 3. Modèles de langue pour la recherche d’information 54
( ) = (1 ( ) ( ) (3.10)
| | µ | | ( ) ( )
( )= ( )+ ( )= =
| | µ | | µ | |
( ) µ )
| | µ
(3.11)
( )
Avec ( )=
| |
Plusieurs études en RI ont montré que le choix de la méthode de lissage a un grand impact sur
les performances du SRI. Zhai et lafferty [209] ont expérimenté plusieurs techniques de
lissage en utilisant le modèle de langue uni-gramme et ils ont rapporté que la méthode de
lissage de Dirichlet donne de meilleurs résultats que les autres méthodes de lissage. Dans nos
travaux nous utilisons cette méthode de lissage.
La plupart des modèles de langue développés pour la RI se base (utilise) sur ce principe de
génération de la requête par un modèle de document, néanmoins, il existe d’autres variantes,
qui sont discutées dans la section suivante.
On cherche alors à estimer la probabilité que la requête provienne du modèle ayant généré ce
document, soit :
( ) ( ) (3.12)
Ce modèle utilise une distribution de Bernoulli, c’est-à-dire que non seulement les mots
présents dans la requête, mais aussi ceux absents de la requête sont pris en compte. Le score
du document vis-à-vis de la requête est alors exprimé ainsi :
( )= ( )× ( ) (3.13)
Ce score est composé de deux parties : la probabilité d’observer les termes de la requête dans
le document et la probabilité de ne pas observer les termes absents de la requête dans le
document.
La probabilité ( ) est calculée par une méthode non paramétrique qui utilise la
probabilité moyenne d’apparition du terme dans les documents qui le contient ( ( )) et
un facteur de risque pour un terme observé dans le document ( ( )). Par contre, la
probabilité d’un terme dans la collection est utilisée pour les termes qui n’apparaissent pas
dans le document. Le calcul de cette probabilité est exprimé ainsi :
( ) ( ) ( ) ( ) ( )>0
( )= ( ) (3.14)
| |
Ponte et croft ont obtenu une amélioration de +8.74% de performance (précision moyenne)
par rapport au modèle utilisant le schéma de pondération d’Okapi sur des collections
TREC.
Dans le modèle proposé par Hiemstra [94], la requête est considérée comme une séquence de
termes, =( ,…, ). Dans ce modèle on ne considère que les mots présents dans la
requête, une distribution multinomial est utilisée. Le score d’un document vis-à-vis d’une
requête (la probabilité de générer une requête sachant le modèle de document ) est donné
par la formule suivante :
( ) ( ( ) (3.15)
( ) ( )+( ) ( ) (3.16)
Où est le poids d’interpolation qui varie entre 0 et 1. Ce paramètre peut être considéré
constant ou il peut être estimé d’une manière sophistiquée en utilisant un processus
d’optimisation automatique tel que l’algorithme de maximisation d’espérance (EM).
Le calcul des deux probabilités ( ) et ( ) est réalisé selon une estimation de
vraisemblance maximale, exprimée ainsi :
( ) ( )
( )= et ( )= (3.17)
|
Miller et al [139] ont proposé un modèle similaire à celui de Hiemstra. La différence entre les
deux modèles réside dans leur implémentation. Miller utilise un modèle de Markov caché à
deux états, illustré par la figure 3.1 suivante.
( | )
Document
Début de Fin de
1- ( | ) requête
requête
Collection
( )= [ ( )+( ) ( )] (3.18)
( )
( )= (3.19)
Chapitre 3. Modèles de langue pour la recherche d’information 58
( )= ( ) ( ) ( ) (3.20)
= ( ) ( ) ( )× ( )
( )
( ) ( ) ( ) |
= ( ) × ×
| | | ( )
|
( ) ( )
( ) ( ) 1
| |
= ×
( ) | ( )
| |
( ) ( )
×
| |
( )
( ) ( )
| |
= +1 ×
( ) |
|
En appliquant le logarithme on obtient :
( ) |
( )= log + 1 + | | log (3.21)
| ( )
Chapitre 3. Modèles de langue pour la recherche d’information 59
( )
A partir de cette formulation, on peut remarquer que le facteur |
agit comme la fréquence
|
du terme ( ) et le facteur ( )
agit comme la fréquence inverse en document ( ).
( ) ( ) ( )
( )= = ( ) ( ) (3.22)
( )
( )
( )= ( || ) ( ) (3.23)
( )
Cette approche peut être vue comme la combinaison de certains aspects des deux approches
précédentes. Les expérimentations menées par les auteurs sur des collections TREC ont
montré l’utilité de cette méthode. De plus, selon la fonction de risque (perte) choisie, les
différents modèles de la RI peuvent s’avérer comme des cas spécifiques de cette approche.
3.4 Prise en compte des relations entre termes dans les modèles de langue
La plupart des modèles présentés jusqu’ici, utilisent le modèle uni-gramme (mots simples),
justifiée par l’hypothèse d’indépendance entre termes. Il est évident que cette hypothèse est
une simplification qui facilite grandement le calcul, néanmoins, elle ne reflète pas la réalité,
car les termes dans les documents et la requête sont liés.
Il est assez naturel d’étendre ces modèles (uni-gramme) pour aller au-delà de cette hypothèse
d’indépendance des termes ; c’est à dire intégrer les relations potentielles entre termes dans
les modèles de langue.
Deux types de relations entre termes peuvent être considérés.
1. Relation de proximité, de surface ou de dépendance entre termes : dans l’objectif de
remédier au problème d’ambiguïté des termes.
2. Relation sémantique entre termes : dans le but de pallier au problème de disparité
entre termes.
Chapitre 3. Modèles de langue pour la recherche d’information 61
Nous détaillons ci-dessous les travaux ayant été réalisés pour la prise en compte de ces deux
types de relations.
Song et Croft [182] ont proposé un modèle de langue qui combine le modèle bi-gramme et le
modèle uni-gramme en utilisant l’interpolation linéaire. L’estimation du modèle bi-gramme
est donnée par :
( )
( )= (3.24)
( )
Srikanth et Srihari [185] ont développé un modèle similaire au modèle de Song et Croft [182]
où la contrainte d’ordre est ignorée, ce modèle est dit bi-terme. Dans lequel, par exemple, les
deux bi-grammes « Acrobat Reader » et «Reader Acrobat » sont représentés par un même bi-
terme.
L’estimation des probabilités des bi-termes est réalisée selon l’une des trois approximations
suivantes:
( ) ( ) ( ) (3.25)
( ) ( )
( ) (3.26)
( )
( ) ( )
( ) (3.27)
( ), ( )
Les expérimentations menées avec ces approximations ont montré des gains de performance
minimes par rapport au modèle bi-gramme classique ; le meilleur gain de précision est obtenu
avec la troisième approximation, il est de l’ordre de +1.93%.
Jiang et al [101] ont proposé un modèle de langue pour incorporer des expressions (deux
mots) en utilisant la méthode de lissage Backoff. Le modèle proposé est exprimé ainsi :
( )
( ) (3.28)
( ) ( )
( )
= ( ) ( )
(3.29)
Les résultats obtenus avec ce modèle n’ont pas dépassé ceux de la méthode par interpolation
entre bi-gramme et uni-gramme de Song et Croft [182].
Chapitre 3. Modèles de langue pour la recherche d’information 63
Alvarez et al [6] ont proposé l’incorporation des mots composés sans contraintes d’adjacence
ou d’ordre, dans le modèle de langue. La sélection des mots composés (expression) est basée
sur les relations lexicales ou statistiques entre termes.
L’estimation de la probabilité des mots composés dans un document est exprimée ainsi :
( ) ( ) ( ) ( ) (3.30)
Dans leur étude Gao et al [74], considèrent une expression (dans la requête ou dans le
document) comme un ensemble de termes mais aussi comme un ensemble de liens existants
entre ces termes (liens de proximité), qui peuvent être non adjacents. Avec cette interprétation
un document pertinent pour une requête doit contenir en plus des termes de la requête les liens
existants entre ces termes. Les relations entre termes sont considérées comme des variables
cachées qui permettent d’exprimer les dépendances. La génération de la requête est alors un
processus en deux étapes. Premièrement, la structure de dépendance est produite selon une
probabilité ( ). Puis, la requête est générée selon la probabilité ( ), les termes de
la requête étant choisis en fonction des termes liés dans . La probabilité de produire la
requête ( ) sachant toutes les structures de dépendances possibles est alors exprimée
ainsi :
( )= ( ) ( ) + ( )+ (3.31)
Les auteurs supposent que l’ensemble des structures possibles est dominé par une unique
structure.
Le modèle ainsi décrit est évalué sur des collections TREC. Les résultats obtenus sont
meilleurs que ceux du modèle probabiliste et du modèle uni-gramme. Cependant, la prise en
compte des dépendances entre les termes de cette manière est difficile à estimer.
Metzler et Croft [137] ont élaboré un cadre formel pour la modélisation des dépendances
entre termes en utilisant les champs de Markov, nommé (MRF). Une structure de graphe non
orienté est utilisée pour modéliser les distributions jointes. Dans ce cadre, ils ont proposé de
modéliser deux types de dépendance: dépendance séquentielle (SD : Sequential Dependency),
capturant les relations entre les paires de termes adjacents de la requête, et la dépendance
complète (FD : Full Dependency), capturant les relations entre toutes les paires de termes de
la requête. Ces deux modèles de dépendance ont été interpolés linéairement avec un modèle
uni-gramme, selon la formule suivante:
( ) ( )
+ (3.32)
Les approches ayant exploité cette proximité se distinguent de la manière dont cette dernière
est modélisée et intégrée dans le modèle de langue. Elle est estimée par des mesures de
proximité dans [143] [189], puis intégrée d’une manière externe (combinaison simple) dans
[189] et d’une manière interne dans [212]. Dans [129] la proximité est introduite
différemment dans le modèle de langue, les auteurs définissent un modèle de langue à chaque
position dans le document, en créant un document virtuel basé sur la propagation de termes.
Dans ce qui suit nous détaillons un peu plus ces modèles.
Tao et Zhai [189] ont utilisé cinq différentes fonctions de mesure de proximité, elles sont
scindées en deux types :
Les mesures de proximité basées sur le passage du document : deux mesures sont
définies. La mesure dite « span », définie comme étant la taille du plus petit passage
de document qui contient toutes les occurrences des termes de la requête, incluant
les occurrences répétées. La seconde mesure dite « MinCover », définie comme
étant la taille du plus petit passage de document qui contient chaque terme de la
requête au moins une fois.
Les mesures de proximité basées sur l’agrégation de distances : cette proximité est
calculée en deux étapes. Premièrement, les distances entre les occurrences
individuelles des termes de la requête sont calculées. Ensuite, une agrégation de ces
distances est effectuée en utilisant l’une des trois mesures d’agrégation suivantes :
Chapitre 3. Modèles de langue pour la recherche d’information 66
« MinDist » définie comme étant la plus petite distance entre toutes les paires des
termes de la requête présents dans le document, « AveDist » définie comme étant la
distance moyenne entre toutes les paires des termes de la requête présents dans le
document et « MaxDist » définie comme étant la plus grande distance entre toutes
les paires des termes de la requête présents dans le document.
Le score de proximité obtenu par ces mesures est ensuite intégré dans le modèle de langue,
utilisant la mesure KLD, de la manière suivante :
( ) ( ) + log ( ) (3.33)
A la différence de l’approche proposée par Tao et Zhai [189], Na et al [143] ont proposé un
modèle de langue bi-gramme qui exploite la contrainte d’adjacence, c'est-à-dire le calcul de la
distance n’est pas réalisé pour tous les couples de termes de la requête, mais seulement pour
les termes qui apparaissent d’une manière adjacente dans la requête. Les résultats rapportés
montrent que l’utilisation de la notion de proximité sur des modèles bi-grammes permet
d’améliorer les performances comparativement au modèle bi-gramme antérieur [182] et au
modèle proposé par Tao et Zhai [189].
Zhao et Yun [212] ont proposé un modèle nommé « Proximity Language Model », similaire
au modèle de Tao et Zhai [189]. Cependant, l’intégration du score de proximité est réalisée de
manière interne. Plus spécifiquement, la proximité dans ce modèle est considérée comme un
hyper paramètre du modèle de Dirichlet. Cet hyper paramètre permet de pondérer les
différents paramètres du modèle de langue uni-gramme. Les auteurs ont rapporté qu’il offre
des améliorations par rapport au modèle uni-gramme et au modèle de Tao et Zhai [189].
Chapitre 3. Modèles de langue pour la recherche d’information 67
Lv and Zhai [129] ont proposé un modèle de langue nommé « Positional Language Model :
PLM ». Dans ce dernier, un modèle de langue pour chaque position du document est créé, il
est exprimé ainsi :
; )
( | )= (3.34)
; )
Les approches utilisant la notion de proximité pour intégrer les relations entre termes ont
montré que cette source d’information est utile pour la RI. Cependant, le principal problème
de ces approches est l’absence d’une mesure bien reconnue pour le calcul de la proximité
entre termes [212].
Liu et Croft [125] ont proposé un modèle de langue incorporant la notion d’agglomération
(cluster) de documents, qui s’appuie sur l’hypothèse préconisant que les documents similaires
répondent aux mêmes besoins d’informations. Chaque cluster est considéré comme un grand
document qui traite un thème (sujet) donné ; cette source (cluster) est utilisée pour étendre le
modèle du document de telle sorte que les termes présents dans les documents de même
cluster que le document concerné auront une plus grande probabilité. Ce modèle est formulé
ainsi :
( ) ( ) ( ) ( ) (3.35)
Cette idée a été reprise et étendue par Tao et al dans [188], en construisant un cluster pour
chaque document, ce cluster contient le voisinage du document, sachant que les documents
n’ont pas la même importance dans ce voisinage.
Chapitre 3. Modèles de langue pour la recherche d’information 69
Ces deux approches ont donné des améliorations significatives sur des collections de test
TREC par rapport au modèle uni-gramme. Néanmoins, ces approches souffrent d’un
inconvénient majeur, qui considère que chaque document traite un seul thème. Pour palier ce
problème, Wei et Croft [201] ont proposé un modèle de langue basé sur les modèles LDA
(Latent Dirichlet Allocation), qui permet de modéliser un document comme une mixture de
thèmes (sujet). La formule générale de ce modèle est exprimée ainsi :
( ) ( ) ( ) ( ) (3.36)
Une autre approche de lissage sémantique a été proposée par Berger et Lafferty [18]. Cette
approche est basée sur un processus de traduction statistique. La traduction est réalisée entre
les termes de la requête et les termes de document dans le but d’étendre le modèle du
document. La probabilité de génération de la requête par un modèle du document est
exprimée ainsi :
( )= ( )+( ( ) ( ) (3.37)
Cao et al [33] ont étendu cette méthode, où deux sources sont utilisées pour estimer la
probabilité de traduction ( ). La première est le thésaurus WordNet, dans le but de
réduire le bruit et la deuxième est la relation de cooccurrence entre les termes dans la
collection, dans le but de réduire le silence. La probabilité de génération de la requête par le
modèle du document est exprimée ainsi :
( ) ( ) ( ) ( ) ( ) ( ) (3.38)
Chapitre 3. Modèles de langue pour la recherche d’information 70
Afin de sélectionner les termes d’expansion, plusieurs méthodes et techniques ont été
utilisées [36]: la relation de cooccurrence [12][153], la relation de cooccurrence et le
mécanisme d’inférence « Information Flow » [12], les règles d’association [77], la mesure
d’information mutuelle « Mutual Information » [95], la classification de la requête et
l’algorithme EM [11], la classification des terme [32], l’estimation maximale [136], les
chaines de Markov [45], le modèle de pertinence [116] [119] [207], le modèle mixte [210] et
les fonctions basées sur l’analyse de la distribution des termes dans les documents pseudo-
pertinents, telles que : la distance Kullback-Leibler (KLD) [35] et Robertson Selection Value
(RSV) [159].
Nous présentons ci-dessous les méthodes, les plus en vue, d’expansion de la requête dans le
cadre du modèle de langue.
Lavrenko et Croft [116] ont proposé un modèle de langue de pertinence, décrit dans la section
3.3.2. Dans la même optique, Zhai et Lafferty [210] ont proposé un modèle nommé model-
based feedback, où le nouveau modèle de la requête est obtenu par l’interpolation du modèle
original de la requête avec un modèle de matière de la requête T (Topic model), obtenu en
Chapitre 3. Modèles de langue pour la recherche d’information 71
utilisant les documents les mieux classés (retour de pertinence). La construction du modèle T
consiste en l’extraction d’une partie des documents retournés pertinents qui est distincte de
l’ensemble des documents de la collection. Comme les documents les mieux classés sont
susceptibles de contenir à la fois des informations pertinentes et génériques (ou même non
pertinentes), ils peuvent être représentés par un modèle génératif mixte qui combine le modèle
T (à estimer) et le modèle de langue de la collection. Le logarithme de la probabilité des
documents les mieux classées est donnée comme suit :
( )= ( ) ( ) ( ) ( ) (3.39)
Où est l'ensemble des documents les mieux classés, ( ) est le nombre d'occurrences du
terme dans le document , et est le poids d'interpolation.
L’algorithme EM (Expectation-Maximization) est ensuite utilisé pour extraire le modèle T.
Wei et Croft [201] ont proposé une approche basée sur l’utilisation d’un modèle de matière
(Topic) (vu comme contexte idéal de l’utilisateur) construit manuellement en utilisant la
ressource ODP (Une ontologie ouverte construite par une communauté de volontaires).
La formule de l’expansion de la requête est exprimée ainsi :
( ) ( )+( ) ( ) (3.40)
Bai et al [12] ont proposé une approche pour l’expansion de la requête, basée sur deux
modèles. L’un est dit HAL (Hyperspace Analog to Language) qui permet de représenter les
termes sous forme de vecteurs pondérés dont les dimensions sont les termes de vocabulaire et
le poids représente l’importance de la relation de cooccurrence entre termes (qui est
inversement liée à leurs distances dans une fenêtre de longueur donnée) ; pour les termes
composés leurs vecteurs respectifs sont combinés en appliquant certaines heuristiques.
Sur la base de cette représentation, les auteurs ont utilisé un autre mécanisme d’inférence,
« Information Flow », qui permet de suggérer à partir d’un ensemble de termes un autre
Chapitre 3. Modèles de langue pour la recherche d’information 72
terme. L’expansion de la requête dans ce modèle se fait en tenant compte de toute la requête.
Le même principe a été adopté, dans des approches non centrées modèle de langue [16] [153].
Cependant, tous les modèles d’expansion de la requête présentés jusqu’ici ont tendance à
ignorer une évidence importante qui est la dépendance entre les termes de la requête (ou
document).
En effet, Il existe relativement peu de travaux où l'expansion de la requête a été réalisée en se
basant sur un modèle considérant les relations de dépendance ou de proximité entre les termes
[113] [127] [136] [138][80].
Metzler et Croft [136] ont développé un modèle nommé «Latent Concept Expansion : LCE »
basé sur le modèle MRF [137] (décrit dans la section 3.4.1.1). Le modèle LCE permet de
retrouver les concepts non exprimés par la requête d’un utilisateur (les concepts latents), en se
basant sur leurs cooccurrences dans les documents pertinents ou pseudo-pertinents, avec les
concepts explicitement exprimés dans la requête originale.
Spécifiquement, le modèle LCE ajoute au graphe MRF, contenant initialement les termes de
la requête et le nœud document, des nœuds correspondant aux concepts latents. En utilisant le
graphe ainsi construit, la distribution jointe au travers de la requête ( ), d’un concept latent
( ), et d’un document ( ) peut être définie. La probabilité conditionnelle d’un concept latent
sachant une requête peut être estimée ainsi :
( )
( )= (3.41)
( )
Lv and Zhai [127] ont utilisé leur modèle « Positional Language Model » proposé dans [129]
pour étendre le modèle de pertinence [116]. Plus explicitement ils ont intégré la notion de
Chapitre 3. Modèles de langue pour la recherche d’information 73
Ce qui est à noter à propos de l’expansion de la requête dans toutes les approches présentées
dans le contexte du modèle de langue (et en général dans la littérature de la RI) est que des
améliorations conséquentes des performances de la RI sont obtenues. Afin d’améliorer la
robustesse de ces techniques, plusieurs directions de recherche ont été investies, parmi elles
on peut citer : l’expansion de requête sélective en utilisant par exemple la mesure de clarté
[53] [207] et la combinaison d’évidences [11].
( ) ( ( ) (3.42)
Nous avons vu dans la section 3.4 les différentes approches proposées permettant d’intégrer la
dimension sémantique d’un document afin d’estimer le modèle du document, ( ).
D’autres travaux ont intégré la structure du document dans l’estimation de ce même modèle
[106] [146].
|
( )= (3.43)
|
( )
( )= (3.44)
( )
( ) ( )
(3.45)
Où est la date la plus récente dans toute la collection (exprimée en mois) et est la
date de création du document .
Les évaluations réalisées sur un ensemble particulier de requêtes montrent que
l’incorporation de la notion de temps en utilisant la distribution exponentielle est
bénéfique pour la RI.
( )
( )= (3.46)
( )
Le rapport information/bruit :
Il est définit comme le rapport entre la taille du document après prétraitement
(élimination des mots vides et des balises HTML) et la taille du document sans
prétraitement [214]. La probabilité de pertinence a priori est alors exprimée ainsi :
( )= (3.47)
( )
( ) ( ) = (3.48)
( )
3.6 Conclusion
Nous avons présenté dans ce chapitre un état de l’art sur les modèles de langue. Nous avons
particulièrement, mis l’accent sur les travaux incorporant d’une part les relations entre termes
dans ces modèles, d’autre part les évidences indépendantes du contenu de document.
Deux types de relation entre termes ont été exploités, les relations surfaciques (proximité) et
les relations sémantiques.
La prise en compte du premier type de relation a pour objectif d’établir une bonne
représentation (modèle) du document, en utilisant des unités plus complexes telles que les n-
grammes à coté des mots simples (uni-grammes) ou par l’utilisation de la proximité entre les
termes de la requête. Nous nous intéressons dans le cadre de notre travail à l’utilisation des
mots composés, qui sont des n-grammes spécifiques. Nous présentons dans le chapitre 4 les
Chapitre 3. Modèles de langue pour la recherche d’information 78
4.1 Introduction
La majorité des modèles de RI se basent sur l’hypothèse d’indépendance des mots, ce qui
mène au problème d'ambiguïté. Même si, comme nous l’avons étudié dans le chapitre
précédent, des travaux ont tenté d’aller au-delà de cette hypothèse, en prenant par exemple
des mots composés. À notre connaissance, force est de constater qu’aujourd’hui, il n’existe
aucun cadre théorique permettant de justifier et de démontrer de manière claire l’intérêt des
mots composés. Une des raisons, largement discutée dans le domaine est l’absence de modèle
de pondération ou de mesure de fréquence adéquate pour ce type de terme. Des mesures de
pondération ont été proposées dans des approches en dehors du modèle de langue; ces
mesures se basent généralement sur un simple comptage de mots, tel que réalisés pour les
mots simples. Cependant, ces méthodes sont sans réel apport. Pour prendre en compte la
spécificité d’un mot composé nous avons proposé une nouvelle approche de pondération qui
intègre la notion de dominance entre les mots composants le mot composé. Plus
spécifiquement la fréquence d’un mot composé est revisitée en prenant en compte à la fois le
nombre d’occurrence de ce mot composé dans le document ainsi que le nombre d’occurrence
de ses mots composants relativement à leur dominance dans ce mot composé.
Cette nouvelle approche de pondération de mot composé est modélisée dans le cadre d’un
modèle de langue mixte combinant les mots simples et les mots composés. En plus de cette
nouvelle méthode de pondération de mots composés, notre modèle se distingue des modèles
existants par les points suivants:
1. La majorité des modèles de langue décrits d ans le chapitre précédent [137] [139]
[182] [185]; prennent en compte toutes les dépendances entre mots adjacents (bi-
grammes). Cependant, nous considérons, pour notre part, que seules quelques
dépendances sont utiles en RI. Dans notre modèle, nous ne considérons que les bi-
grammes « pertinents » (mots composés) comme il a été réalisé dans [74]. Toutefois,
Chapitre 4. Modèle de langue mixte pour la RI 81
le choix des mots composés dans [74] nécessite le calcul d'une structure de lien au
moment d’appariement document-requête, ce qui augmente le temps de réponse. Dans
notre cas, la sélection des bi-grammes « pertinents » se fait à la phase d'indexation, ce
qui n’affecte pas le temps de réponse.
2. Notre approche diffère des autres approches dans la méthode utilisée pour l’estimation
des modèles de langue des mots simples et des mots composés. Alors que les
approches de l’état de l’art estiment les deux modèles d’une façon indépendante. Nous
proposons dans notre approche d’estimer le modèle de document des mots composés
(voir mots simples) comme une mixture des deux modèles : le modèle de document
des mots simples et le modèle de document des mots composés.
Le reste de ce chapitre est organisé comme suit: la section 4.2 présente notre modèle de
langue combinant les mots simples et les mots composés. Cette section est divisée en quatre
sous-sections. La sous-section 4.2.1 présente la méthode d’estimation du modèle de langue
mixte. Dans la sous-section 4.2.2 le concept de « dominance » entre mots est discuté et
formalisé. La sous-section 4.2.3 est dédiée à la présentation du schéma de pondération des
mots composés, basé sur la notion de dominance. Dans la section 4.2.4 l’estimation d’une
composante (probabilité d’un mot simple sachant le modèle du document des mots composés)
du modèle de langue mixte est détaillée. Dans la section 4.3 nous rapportons les résultats
expérimentaux de notre modèle. La dernière section fait la synthèse de ce chapitre.
Les principaux résultats de ce chapitre sont publiés dans [78] [81] [83] [87].
Chapitre 4. Modèle de langue mixte pour la RI 82
Une des contributions de ce modèle est la manière dont le modèle de langue des mots
composés est estimé. Plus précisément, dans la plupart des travaux existants sur les modèles
de langue, un modèle de document est estimé par le comptage, soit des mots simples ou des
mots composés. Nous pensons, que le simple comptage des n-grammes est susceptible de
biaiser l'importance réelle (poids) des mots composés (n-grammes) dans les documents. En
effet, deux intuitions ont guidé notre réflexion, nous pensons d'abord que les mots composants
d'un mot composé n’apportent pas la même contribution dans le poids final de mots
composés. Nous introduisons à cet effet la notion de dominance de mot composant dans un
mot composé. Nous considérons que les mots composants dominants contribuent plus que les
autres mots. Deuxièmement, nous supposant que l’auteur d’un document utilise les mots
composants isolément pour exprimer le mot composé comme abréviation après un nombre
d’occurrences de mot composé. Nous proposons alors une nouvelle formule de calcul de
fréquence des mots composés qui prend en compte aussi la fréquence de ses mots
composants.
Enfin, nous pensons que, la prise en compte de tous les n-grammes (n> 1), (un n-gramme est
composé de n mots non vides adjacents) peut introduire du bruit, en effet tous les n-grammes
ne sont pas de mots composés réels. Nous proposons de considérer que les n-grammes qui
sont fréquents dans la collection.
Nous supposons donc que le modèle de document peut être estimé à l'aide de deux modèles :
un modèle des mots simples ( ) et un modèle des mots composés ( ). Ainsi, étant donné
une requête , exprimée par des mots simples et des mots composés, le modèle
d’appariement document-requête que nous proposons combine les deux modèles de la
manière suivante:
( )= ( )× (4.1)
Chaque mot simple et mot composé dans la requête est estimé en combinant les deux modèles
du document. Formellement, on l’exprime comme suit:
( ) +( ) (4.2)
+( (4.3)
( ) µ )
= | | µ
(4.4)
µ )
= | | µ
(4.5)
Nous détaillons dans les sections suivantes comment la fréquence du mot composé et la
probabilité sont calculées. Nous introduisons tout d'abord dans la section suivante
la notion de dominance d’un terme.
Nous considérons intuitivement que la dominance d’un terme est déterminée par sa
spécificité, nous proposons de l’estimer de la manière suivante :
)= (4.6)
Nous attribuons à chaque mot simple sa probabilité de dominance dans son mot composé
comme suit :
( )
)= ( )
(4.7)
Chapitre 4. Modèle de langue mixte pour la RI 85
( ) ( )+ )× ) (4.8)
Dans l’objectif d’illustrer cette seconde intuition, nous avons pris un ensemble de mots
composés apparaissant dans les requêtes comme suit : (protection measures : 255, cigarette
consumption : 257, computer security : 258, seasonal affective : 262, genetic code : 281), et
nous avons examiné la validité de cette hypothèse dans tous les documents de la collection
TREC AP88 (décrite dans la section 4.3.2) où ces termes apparaissent avec leurs mots simples
seuls. La table 4.1 présente les résultats obtenus. Nous avons adopté la notation suivante : un
«+ » pour designer que l’hypothèse est vérifiée et un «-» pour signifier que l’hypothèse n’est
pas vérifiée.
Chapitre 4. Modèle de langue mixte pour la RI 86
À partir des exemples ci-dessus, nous pouvons noter que notre hypothèse est satisfaite dans la
majorité des cas. La vérification de cette hypothèse d’une manière automatique nécessite une
analyse syntaxique et sémantique des textes.
Pour illustrer la méthode de pondération des mots composés, nous prenons l’exemple
suivant :
= )× )) (4.9)
Dans cette formule, le passage d’un mot simple vers un document D est réalisé à travers tous
les mots composés contenant le mot simple.
Chapitre 4. Modèle de langue mixte pour la RI 88
Cependant, comme nous l'avons mentionné précédemment, nous supposons que, l'auteur
lorsqu’il utilise un mot simple dans un document, il ne peut renvoyer qu'à un mot composé
donné. Nous considérons que ce mot composé est le plus fréquent qui contient ce mot simple
dans le document. Ce mot composé noté est sélectionné par la formule suivante:
)× (4.10)
En introduisant le facteur dans la formule (4.9), elle peut être réécrite de la manière
suivante :
)× (4.11)
La distance : la distance entre les termes formant le mot composé (ou l’adjacence
ou la non- adjacence des termes) : l’intensité de liens entre termes –
opérationnalisée à travers la distance- reflète la proximité sémantique entre termes.
La capture de cette proximité est importante pour la recherche d’information. Les
études réalisées en RI sur l'extraction des mots composés suppose que la
cooccurrence des mots dans les éléments fortement structurés (c.-à-d., une phrase)
est plus significative que dans les éléments moins structurés (c.-à-d., des
paragraphes ou des sections). Ainsi, la recherche sur l'extraction des mots
composés a été dominée par l'analyse de phrases. Dans notre cas, nous avons
adopté l’adjacence entre termes, un mot composé est reconnu si et seulement s’il
est composé de mots simples adjacents.
La taille des mots composés : en principe les mots composés peuvent être de
n’importe quelle longueur (supérieure ou égale à 2). Dans notre cas, nous
restreindrons la taille des mots composés à deux, qui est une pratique commune et
scalable pour de grandes collections hétérogènes.
Text-NSP offre deux modules pour la sélection des mots composés: « count.pl » et
« statistic.pl ». Premièrement, nous avons utilisé le module « count.pl » pour compter
les bi-grammes. Nous ne gardons dans une liste intermédiaire que les bi-grammes
ayant une fréquence supérieure à un seuil noté « seuil_freq ». Cette liste est ensuite
utilisée par le deuxième module « statistic.pl », qui permet de calculer un score pour
chaque bi-gramme de la liste et cela en utilisant une mesure statistique. Dans notre cas,
nous avons utilisé la mesure de Pointwise Mutual Information (PMI). L’étude menée
par Petrovic et al [150] a montré que la mesure PMI permet l’identification de mots
composés pertinents pour la RI. Nous ne gardons dans la liste finale que les bi-
Chapitre 4. Modèle de langue mixte pour la RI 90
grammes ayant un score supérieur à un seuil noté « seuil_PMI ». Cette liste est ensuite
utilisée dans les étapes d’indexation et de recherche.
3- Indexation, recherche et évaluation : nous avons utilisé la plate-forme de RI Terrier
2.1 [131] pour l’indexation, la recherche et l’évaluation de notre approche. Les
documents sont indexés en utilisant les mots composés reconnus dans l’étape 2 et les
mots simples utilisés traditionnellement en RI.
La figure 4.1 ci-dessous montre un exemple de requête utilisée sur la collection WT10g. Cette
requête est composée de trois champs. Seul le champ « title » est utilisé pour construire la
requête. La requête construite par notre système est «Bengals cat » (reconnu comme un mot
composé).
<top>
<num> Number: 451
<title> What is a Bengals cat?
<desc> Description:
Provide information on the Bengal cat breed.
<narr> Narrative:
Item should include any information on the
Bengal cat breed, including description, origin,
characteristics, breeding program, names of
breeders and catteries carrying bengals.
References which discuss bengal clubs only are
not relevant. Discussions of bengal tigers are
not relevant.
</top>
Figure 4.1 Exemple de requête (451) de la collection WT10g.
Chapitre 4. Modèle de langue mixte pour la RI 91
La table suivante montre quelques statistiques sur les collections et requêtes utilisées
Collection #documents Topics
WSJ90-92 74,520 201-300
AP88 79,919 201-300
WT10g 1,692,096 451-550
Table 4.2 Aperçu sur les collections et requêtes utilisées
4.3.3 Evaluation
Dans cette partie nous présentons l’évaluation des performances de notre modèle (LM-TC).
Nous avons procédé par étape.
En premier lieu, nous avons évalué l’impact de chaque élément caractérisant notre modèle, à
savoir :
- Le filtrage des bi-grammes : cette version de notre modèle, notée LM-TC_0, est basé
sur le filtrage des bi-grammes et l’utilisation de la fréquence initiale pour estimer le
poids des bi-grammes sélectionnés (mots composés), et pour calculer la
probabilité la formule (4.9) est utilisée, en d’autres termes le facteur
n’est pas pris en compte.
- La nouvelle méthode de pondération des mots composés proposée : cette version de
notre modèle, notée LM-TC_1, est similaire au modèle précédent (LM-TC_0), sauf
que, la fréquence revisitée est utilisée pour estimer le poids des mots composés, c’est-
a-dire la formule (4.8) est exploitée.
- L’utilisation du facteur introduit dans la formule (4.11) : ce modèle, noté LM-TC,
correspond à la version LM-TC_1 incluant le facteur .
En second lieu, nous avons comparé notre modèle (LM-TC) avec deux modèles de l’état l’art,
à savoir, le modèle MRF [137] et le modèle PLM [129].
Pour l’évaluation des performances des différents modèles, nous avons utilisé la mesure de la
précision moyenne, MAP (Mean Average Precision), qui est une mesure largement utilisée
pour l’évaluation de l’efficacité des Systèmes de Recherche d’Information.
La précision moyenne donne une vue globale des performances d’un modèle de recherche
d’information au travers d’un ensemble de requêtes. Cependant, la moyenne sur un ensemble
de requêtes peut cacher beaucoup de détails. Il n’est pas alors évident de déterminer ce qui
Chapitre 4. Modèle de langue mixte pour la RI 92
Notre modèle a plusieurs paramètres de contrôle, ceux de filtrage des bi-grammes (seuil_fre et
seuil_PMI), les paramètres de combinaison des mots simples et mots composés ( : formule
(4.2) et : formule (4.3)) et le paramètre de la méthode de lissage de Dirichlet ( ).
Afin de trouver les valeurs de ces paramètres optimisant les performances de notre modèle,
nous avons utilisé différentes valeurs pour les deux seuils de filtrage (seuil_fre et seuil_PMI).
Pour chaque valeur de seuil_fre (allant de 0 à 30 avec un pas de 5) nous avons utilisé
différentes valeurs de seuil_PMI (allant de 0 à 3 avec un pas de 1). Pour chaque couple
(seuil_fre, seuil_PMI) obtenu nous varions la valeur des deux paramètres et allant de 0 à 1
avec un pas de 0.1.
Concernant le paramètre du modèle de langue, la valeur du paramètre de Dirichlet ( ) est
empiriquement fixée à 2500 sur toutes les collections.
La table 4.3 ci-dessous illustre les valeurs des différents paramètres optimisant les
performances (Précision Moyenne) de notre modèle sur chacune des collections.
Modèle LM-TC
Collections
noté ULM, le second est similaire au modèle LM-TC_0, à l’exception que dans ce modèle tous
les bi-grammes sont considérés, ce second modèle est noté BGM.
Il faut noter que dans le modèle uni-gramme (ULM) nous avons utilisé le modèle de Dirichlet
décrit par la formule (4.4).
Nous rapportons dans la table suivante les résultats obtenus (Précision Moyenne).
A partir de cette table, nous pouvons tirer les remarques et les conclusions suivantes :
Le modèle basé sur les bi-grammes (BGM) améliore les résultats du modèle uni-
gramme ne tenant en compte que des mots simples et cela sur les trois collections
utilisées. Ces améliorations significatives vont de +3.04 % (sur la collection AP88) à
+5.61% (sur la collection WT10g). Cela montre, que l’usage des bi-grammes, comme
une seconde évidence, à coté des mots simples peut améliorer significativement les
performances de la recherche d’information.
Notre modèle basé sur le filtrage des bi-grammes (LM-TC_0) améliore les résultats du
modèle prenant en compte tous les bi-grammes (BGM). Les améliorations constatées
vont de +2.22% (sur la collection WSJ90-92) à +3.31% (sur la collection WT10g),
cette dernière amélioration est significative. Ces résultats montrent que l’utilisation
des mots composés à côté des mots simples peut être bénéfique pour la RI, et cela
lorsque les mots composés sont bien extraits en appliquant les deux filtres (seuil_fre et
seuil_PMI) et lorsque la combinaison des mots composés et des mots simples et
réalisée d’une manière appropriée.
Analyse requête-par-requête
Nous illustrons dans les figures ci-dessous la comparaison des résultats requête-par-requête du
modèle LM-TC_0 avec les modèles ULM et BGM sur les trois collections.
Chapitre 4. Modèle de langue mixte pour la RI 94
1,2
ULM
1 BGM
0,8
Précision moyenne
0,6
0,4
0,2
0
216
214
213
225
259
231
272
207
208
226
235
285
211
237
218
282
298
289
270
281
250
268
254
234
266
260
264
297
265
267
201
232
278
296
Numéro de la requête
Figure 4.2 Analyse requête-par-requête des différents modèles sur la collection AP88.
1,2
ULM
1 BGM
Précision moyenne
0,8
0,6
0,4
0,2
0
262
207
229
212
247
237
220
257
225
230
300
298
271
240
255
277
297
210
294
268
269
264
213
253
279
Numéro de la requête
Figure 4.3 Analyse requête-par-requête des différents modèles sur la collection WSJ90-
92.
Chapitre 4. Modèle de langue mixte pour la RI 95
1,2
ULM
1 BGM
LM-TC_0
0,8
Précision moyenne
0,6
0,4
0,2
0
486
544
451
528
454
497
527
511
453
532
505
541
515
514
475
484
518
540
503
520
546
525
533
489
498
501
537
458
468
534
543
480
463
Numéro de la requête
Figure 4.4 Analyse requête-par-requête des différents modèles sur la collection WT10g.
Pour bien analyser l’apport de filtrage des bi-grammes nous avons divisé les requêtes en deux
classes : la première notée QTC concerne les requêtes contenant au moins un mot composé, la
seconde classe notée Qts concerne les requêtes ne contenant aucun mot composé.
A partir de l’analyse des résultats obtenus nous avons noté les remarques suivantes :
l’amélioration moyenne apportée par notre modèle est très minime, elle est de l’ordre
de +0.88.
Les améliorations obtenues par notre modèle par rapport au modèle BGM sur la
collection AP88, en considérant les deux types de requêtes : QTC (89 requêtes) et Qts
(11 requêtes), restent dans les mêmes proportions que celles obtenues sur la collection
WSJ90-92. Ces améliorations sont de l’ordre de +2.77% (amélioration significative)
avec les requêtes de type QTC et de +0.26% avec les requêtes de type Qts.
Sur la collection WT10g, les résultats obtenus avec notre modèle sont
significativement importants en utilisant les requêtes de type QTC, +6.38%
(amélioration significative) par rapport à ceux du modèle BGM. En termes de nombre
de requêtes nous avons 40 requêtes où notre modèle donne de meilleurs résultats sur
61 requêtes de type QTC. Nous notons aussi que sur cette collection le nombre de
requêtes de type QTC est moins important que sur les deux autres collections, cela est
dû au fait que seul le champ titre des requêtes est utilisé (requêtes courtes).
L’amélioration obtenue avec le deuxième type de requête reste dans la même
proportion que celles obtenues sur les deux autres collections, elle est de l’ordre de
+1.88%.
La table 4.5 ci-dessous récapitule les résultats obtenus, où les colonnes (+,=,-) listent le
nombre de requêtes pour lesquelles notre modèle obtient de (meilleur, égal, moindre)
précision que les deux autres modèles (ULM, BGM).
Table 4.5 Résultats par type de requêtes des différents modèles (ULM, BGM, LM-TC_0)
1. Les améliorations obtenues, même si elles sont minimes, avec les requêtes de type Qts
sont dues à l’utilisation dans la formule (4.2) d’un modèle mixte combinant les mots
simples et composés pour l’estimation du modèle des mots simples.
Chapitre 4. Modèle de langue mixte pour la RI 97
2. Les améliorations constatées avec les requêtes de type QTC sont plus importantes que
celles obtenues avec les requêtes de type Qts. Ceci est dû principalement à l’utilisation
de filtrage des bi-grammes (mots composés).
Pour bien comprendre les raisons de ces améliorations sur ce type de requêtes (QTC), nous
avons examiné manuellement quelques requêtes. Nous illustrons ci-dessous un exemple de
requête. Sur la collection WSJ90-92, la requête numéro 258 (computer security identify
instances of illegal entry into sensitive computer networks by non authorized personnel), où
les termes « computer security » et «computer networks » sont sélectionnés comme des mots
composés. Sur cette requête notre modèle (LM-TC_0) obtient une précision moyenne de
l’ordre de 0.0649, et permet de retrouver cinq (5) documents pertinents. Les résultats
correspondants au modèle BGM pour cette requête sont : 0.0301 de précision et 5 documents
pertinents retrouvés. Sachant que le nombre total de documents pertinents pour cette requête
est cinq (5). La table 4.6 ci-dessous montre le rang des documents pertinents dans la liste
retournée de documents (1000 documents) pour les deux modèles.
Table 4.6 Le rang des documents pertinents avec les deux modèles (BGM, LM-TC_0)
Cependant, dans certaines requêtes, le filtrage des bi-grammes échoue. Par exemple, la
requête numéro 239 (Are there certain regions in the United States where specific cancers
seem to be concentrated? What conditions exist that might cause this problem?). Dans cette
requête « United States », « conditions exist » et « cause problem » sont choisis comme mots
composés. Sur cette requête, le modèle BGM permet d’avoir une précision moyenne de
l’ordre de 0,0359, tandis que notre modèle (LM-TC_0) atteint une précision moyenne de
l’ordre de 0,029. La raison de cette régression est due au fait que des bi-grammes pertinents
n’ont pas été choisis par notre méthode tels que le bi-gramme: « specific cancers».
La table 4.7 montre la comparaison entre les différents modèles en termes de précision
moyenne (MAP).
LM-TC_1% LM-TC_1%
ULM LM-TC_0 LM-TC_1
ULM LM-TC_0
WSJ90-92 0.1852 0.1978 0.2017 +8.90%++ +1.97%+
AP88 0.2338 0.2459 0.2508 +7.27%+ +1.99%+
WT10g 0.2085 0.2271 0.2328 +11.65%++ +2.51%+
Table 4.7 Comparaison des performances des modèles (ULM, LM-TC_0, LM-TC_1)
Nous pouvons noter à travers les résultats illustrés dans la table précédente que :
Analyse requête-par-requête
Afin de mieux comprendre l’apport cette nouvelle méthode de pondération des mots
composés, nous avons examiné les requêtes de type QTC.
Nous récapitulons les résultats de la comparaison entre les deux versions de notre modèle
(LM-TC_0 et LM-TC_1) dans les figures ci-dessous :
90%
LM-TC_1%LM-TC_0
80%
70%
Taux d'amélioration de la précision
60%
50%
40%
30%
20%
10%
0%
202
206
209
212
215
218
222
225
228
231
234
238
241
244
247
250
253
256
260
266
270
273
276
279
283
286
289
292
297
300
-10%
-20%
Numéro de la requête
80%
LM-TC_1%LM-TC_0
60%
Taux d'amélioration de la précision
40%
20%
0%
202
206
210
213
217
221
224
228
231
234
238
241
244
249
252
255
258
261
265
268
271
274
277
280
283
286
289
292
295
299
-20%
-40%
-60%
-80%
-100%
Numéro de la requête
180%
LM-TC_1%LM-TC_0
160%
140%
Taux d'amélioration de la précision
120%
100%
80%
60%
40%
20%
0%
451
454
456
459
462
467
471
473
477
480
482
488
495
499
501
505
510
512
515
518
520
522
527
529
533
535
537
540
542
546
549
-20%
-40%
Numéro de la requête
Nous avons également examiné manuellement quelques requêtes, afin de voir d’une manière
claire l’impact de la nouvelle méthode de pondération proposée. Par exemple, la requête
numéro 451 (What is a Bengals cat) sur la collection WT10g. Cette requête est réduite aux
termes « Bengals cat » après élimination de termes vides. Le terme « Bengals cat » est
reconnu comme mot composé dans cette requête. Avec cette requête, le modèle LM-TC_1
obtient une précision moyenne de 0,7722, les modèles LM-TC_0 et ULM quant à eux
obtiennent respectivement 0.7408 et 0.6006 de précision moyenne.
La table 4.8 ci-dessous présente le rang de quelques documents pertinents obtenus avec les
trois modèles (sur les 1000 documents retournés). De plus, on illustre la fréquence initiale
(freq-ini) et revisitée (freq-rev) du mot composé « Bengals cat » dans ces documents
pertinents.
Chapitre 4. Modèle de langue mixte pour la RI 102
Table 4.8 Le rang des documents pertinents avec les modèles (ULM, LM-TC_0, LM-
TC_1)
A partir de cette table on peut noter les points suivants :
La table 4.9 montre la comparaison de la précision moyenne entre les différents modèles de
recherche utilisés.
LM-TC% LM-TC
MRF-SD PLM LM-TC
MRF-SD % PLM
WSJ90-92 0.1976 0.1987 0.2018 +2.12% +1.56%
AP88 0.2461 0.2454 0.2519 +2.36% +2.65%
WT10g 0.2215 0.2192 0.2341 +5.69%+ +6.79%+
Table 4.9 Comparaison des performances des modèles (MRF-SD, PLM et LM-TC)
En se basant sur nos expérimentations réalisées sur trois collections de test TREC, nous avons
noté les points suivants :
Premièrement, les deux modèles MRF-SD et PLM donnent des résultats similaires sur
les trois collections;
Deuxièmement, notre modèle donne de meilleurs résultats que les deux autres modèles
(MRF-SD et PLM) et cela sur toutes les collections. Nous pouvons déduire que notre
modèle améliore et le modèle bi-gramme et le modèle bi-terme [185], car le modèle
MRF-SD peut générer les deux modèles (bi-gramme et bi-terme). Ceci montre que la
sélection de bi-grammes pertinents et leur pondération d’une manière non uniforme
peut être utile pour la RI.
Analyse requête-par-requête
Les figures suivantes montrent les résultats de l’analyse des performances requête-par-requête
entre notre modèle (LM-TC) et les deux modèles : MRF-SD et PLM.
Chapitre 4. Modèle de langue mixte pour la RI 104
1000%
LM-TC%PLM
800%
Taux d'amélioration de la précision
600%
400%
200%
0%
201
204
207
210
213
216
219
222
225
228
231
234
237
240
243
246
249
252
255
258
261
264
267
270
273
276
279
282
285
288
291
294
297
300
-200%
Numéro de larequête
8
LM-TC%PLM
7
LM-TC%MRF-SD
6
Taux d'amélioration de la précision
0
201
204
207
210
213
216
219
222
225
228
231
234
237
240
243
246
249
252
255
258
261
264
267
270
273
276
279
282
285
288
291
294
297
300
-1
-2
Numéro de la requête
16
LM-TC%PLM
14
LM-TC%MRF-SD
12
Taux d'amélioration de la précision
10
0
451
454
457
460
463
467
470
473
476
479
482
485
489
492
495
498
501
504
507
510
513
516
519
522
525
528
531
534
537
540
543
546
549
-2
Numéro de la requête
La comparaison des résultats de notre modèle par rapport à ceux des deux autres modèles
(MRF-SD et PLM) montre que :
Sur les collections WSJ90-92 et AP88 et en considérant les requêtes de type QTC notre
modèle LM-TC affiche des améliorations de l’ordre de +2.4%, +2.3% (sur WSJ90-92)
et +1.84%, +3.15% (sur AP88) respectivement par rapport aux modèles MRF-SD et
PLM. Par contre, en utilisant les requêtes de types Qts notre modèle donne des
résultats légèrement inférieurs que les deux autres modèles -0.76%, -0.87% (sur
AP88) et -0.2%, -0.47% (sur WSJ90-92) respectivement.
Sur la collection WT10g les améliorations apportées par notre modèle par rapport aux
autres modèles sont conséquentes +8.46% et +12.83% et cela en utilisant les requêtes
de type QTC. Par contre avec les requêtes de type Qts, notre modèle affiche des
résultats légèrement inférieurs que ceux des deux autres modèles, allant de -0.01% à -
3.51%. Ceci est principalement expliqué par le fait que notre modèle ne capture pas
les mots composés non adjacents, ce qui est fait par les deux autres modèles.
Chapitre 4. Modèle de langue mixte pour la RI 106
Afin d’évaluer la robustesse de notre modèle, nous avons appliqué les valeurs des paramètres
utilisées dans la collection AP88, sur les deux autres collections (WSJ90-92 et WT10g). La
table 4.10 ci-dessous illustre les résultats obtenus.
4.4 Conclusion
Dans ce chapitre nous avons décrit notre approche qui permet de combiner les mots composés
et les mots simples dans le cadre du modèle de langue. A partir des résultats
d’expérimentations obtenus sur trois collections de TREC, nous pouvons tirer les conclusions
suivantes :
5.1 Introduction
Nous avons présenté dans le chapitre précédent, un modèle de langue combinant les mots
simples et les mots composés, permettant une meilleure représentation du document. Ce
modèle permet de pallier au problème d’ambiguïté des termes, de fait qu’un mot composé est
moins ambigu que les mots qui le compose.
Nous proposons dans ce chapitre une extension de notre modèle initial, pour la prise en
compte de l’expansion de la requête par réinjection de pertinence. Ce nouveau modèle ainsi
construit, permet prendre en charge les problèmes d’ambiguïté et de disparité des termes.
Particulièrement, notre approche d’expansion de la requête est caractérisée par les points
suivants [80]:
1. Notre approche propose une méthode originale pour le choix des termes
d’expansion, qui consiste, d’une part, à ajouter non seulement les termes en
relation avec un mot composé de la requête, mais aussi les termes en relation avec
les mots simples qui le compose. D’autre part, à ajouter les termes en relation avec
les mots composés qui contiennent un mot simple de la requête, en plus des termes
liés à ce dernier.
Chapitre 5. Réinjection de pertinence basée sur un modèle de langue mixte 109
Le reste de ce chapitre est organisé comme suit : dans la section 5.2, nous présentons notre
méthode d'expansion de requêtes basée sur le modèle de langue mixte combinant les mots
simples et les mots composés et nous détaillons la façon dont les termes d'expansion sont
extraits et pondérés. Nous rapportons les résultats expérimentaux dans la section 5.3. Enfin,
dans la section 5.4, nous concluons notre travail.
Chapitre 5. Réinjection de pertinence basée sur un modèle de langue mixte 110
Dans cette section, nous présentons notre approche d'expansion de requêtes basée sur un
modèle de langue mixte combinant les mots simples et les mots composés. Premièrement,
nous introduisons brièvement la fonction d’appariement utilisée. Ensuite, nous décrivons en
détails l’estimation du modèle de la requête.
Nous nous sommes intéressés dans notre modèle initial (LM-TC), uniquement à l’estimation
du modèle de document. Nous avons alors utilisé l’approche de génération de la requête par le
modèle de document (Query Likelihood Models), comme fonction d’appariement. Cependant,
cette approche ne supporte pas la modélisation de la requête. C’est pour quoi, nous avons
utilisé dans notre nouveau modèle, nommé LM-TC-QE, l’approche de comparaison des
modèles de la requête et du document. Particulièrement, la mesure de divergence de
Kullback-Leibler (KL-divergence) est utilisée, et exprimée ainsi :
) = ( ) ( ) (5.1)
Pour considérer cela dans notre approche, nous proposons une méthode similaire à celle
développée dans [12], dans laquelle nous combinons le modèle de la requête initiale noté
( ) avec un autre modèle, considérant les relations entre termes noté ( ). Ainsi,
le nouveau modèle de la requête est exprimé comme suit:
Chapitre 5. Réinjection de pertinence basée sur un modèle de langue mixte 111
( )= ( | )+( ) ( | ) (5.2)
) = ( | )+( ) ( | ) ( ) (5.3)
) =
× ( | ) ( )+( )× ( | ) ( ) (5.4)
On note que le premier terme de la formule est une sommation à travers les termes de la
requête (non pas à travers tous les termes du vocabulaire), car ( ) = 0 pour tout terme
n’appartenant pas à la requête initiale.
Nous assumons que les termes reliés à la requête originale sont ceux qui apparaissent
seulement dans les documents de réinjection . Nous ne considérons qu’un sous-ensemble
de , noté ; où |= ; où est le nombre de termes à ajouter à la requête originale (i.e.
les termes qui sont fortement en relation avec l’ensemble de termes de la requête initiale). Par
conséquent, la dernière formule devient ainsi :
( )=
× ( | ) ( )+( )× ( | ) ( ) (5.5)
Pour estimer cette probabilité, nous supposons que la contribution d’un terme dans la
requête initiale est liée à deux facteurs: (1) la fréquence du terme dans la requête, (2) le type
Chapitre 5. Réinjection de pertinence basée sur un modèle de langue mixte 112
du terme, qui peut être simple , ou composé . Afin de calculer ce dernier facteur, nous
considérons qu'un mot composé ajoute plus de précision à la requête qu’un mot simple, nous
lions cet apport à la taille du terme. Nous exprimons alors les contributions d’un mot composé
et d’un mot simple dans la requête initiale par ces deux probabilités, comme suit:
)
( )=
| |
et
( )×| |
( )= (5.6)
| |
Maintenant, nous présentons l’estimation du modèle de la requête utilisant les relations entre
termes défini dans la formule (5.5).
Sachant que la requête est considérée comme un ensemble de mots composés et de mots
simples , on peut estimer la probabilité ( | ) comme suit :
( | )= ( ) ( )+ ( ) ( ) (5.7)
Le principe de cette formule est le même que celui du modèle de traduction [18]. Cependant,
dans [18], il est utilisé pour l’expansion du modèle de document, dans notre cas il utilisé dans
le contexte d'expansion de la requête. Plus précisément, le poids (probabilité) de la relation
d’un terme avec l’ensemble des termes de la requête initiale, ( | ), est obtenu par une
sommation du produit de poids de la relation entre chaque terme (simple , ( ) ou
composé, ( )) de la requête initiale et la contribution de ce terme (simple , ( ) ou
composé, ( )) dans la requête initiale. Dans ce qui suit, nous présentons l’estimation
des deux probabilités ( ) et ( )).
Le calcul de cette probabilité est basé sur l'hypothèse énoncée dans la section 4.2.3 (chapitre
4), considérant que l’auteur d’un document utilise les mots composants (simples) isolément
Chapitre 5. Réinjection de pertinence basée sur un modèle de langue mixte 113
pour exprimer le mot composé comme abréviation après un nombre d’occurrences du mot
composé, où elle a été utilisée pour revoir la pondération des mots composés. Ici, nous
utilisons cette hypothèse pour la sélection des termes en relation avec un mot composé.
Sur la base de cette hypothèse on peut statuer que si un terme est lié à un mot composé, il peut
être aussi lié à ses mots composants. Par exemple, le terme «entropie» lié au mot composé
«compression de données», il est également lié au mot composant «compression».
( )= ( )+( ) ( ) (5.8)
Afin d’estimer la seconde partie de la formule, nous proposons une méthode similaire à celle
développée dans le modèle de traduction [18]. Par conséquent, la formule précédente est
réécrite comme suit :
( )= ( )+( )× ( ) ( ) (5.9)
L’estimation de la probabilité de dominance d’un mot simple dans son mot composé, ( ),
est formalisée dans le chapitre précédent, et exprimée par la formule (4.7), donnée en section
4.2.2.
Par exemple, une requête contenant le terme «énergie», peut faire référence au mot composé
«énergie solaire». Ainsi, nous proposons d'étendre la requête originale non seulement avec les
termes liés au mot simple, mais aussi avec les termes liés aux mots composés qui contiennent
ce mot simple, et cela relativement à la dominance de ce mot simple dans le mot composé et
la fréquence de ce dernier dans la collection.
Afin de prendre en compte cette hypothèse, nous proposons de lisser la probabilité de relation
du terme avec le mot simple , notée ( ), avec la probabilité de relation du
terme dans l’ensemble des mots composés auxquels le terme appartient. La probabilité
( ) est alors exprimée comme suit :
( ) ( )+( ) ( ) (5.10)
Où C( ) est l’ensemble des mots composés auxquels le mot simple appartient et est un
paramètre de lissage qui contrôle la contribution du mot simple , relativement à ses mots
composés. De même que pour la formule (5.9), nous utilisons une méthode de traduction [18].
Nous obtenons alors la formulation suivante :
( ) ( )+( )× ( ) ( ) (5.11)
( ) ( )
( )= (5.12)
( )
( )
( )= (5.13)
( ) ( )
= ( )
(5.14)
Pour évaluer notre modèle (LM-TC-QE) décrit dans les sections précédentes, nous avons
utilisé deux collections de test TREC WSJ90-92 (Wall Street Journal, 1990-92) et AP88
(Associated Press, 1988). La Table 5.1 ci-dessous montre quelques statistiques sur les
collections et les requêtes utilisées. Seule la partie titre des requêtes est utilisée.
Pour la mise en œuvre de notre modèle nous avons suivi les mêmes étapes décrites dans le
chapitre précédent, section 4.3.1. De plus, nous avons implémenté la phase d’expansion de
requêtes par réinjection de pertinence.
5.3.2 Évaluation
KLD : est une méthode populaire de pondération des termes d’expansion. La méthode
d’expansion basée KLD a obtenu la meilleure valeur de Précision (MAP) sur un ensemble de
méthodes standards dans TREC 2009 [128].
Afin d'évaluer notre modèle et de le comparer aux autres modèles nous utilisons la mesure
MAP (Mean Average Precision). En outre, nous utilisons également la précision à 10 et 20
documents (P@10, P@20) et le rappel (le nombre de documents pertinents retrouvés) comme
mesures supplémentaires.
Notre modèle possède plusieurs paramètres de contrôle à affiner. Dans l’objectif de trouver
les valeurs optimales de ces paramètres et une comparaison équitable entre notre modèle et les
modèles Baseline, nous avons utilisé des requêtes d’apprentissage (101-150). Nous avons
estimé les différents paramètres des modèles d’une manière empirique de façon à optimiser la
valeur de MAP. La table 5.2 ci-dessous illustre les valeurs de ces paramètres pour les deux
modèles.
Table 5.2 Valeurs des paramètres des deux modèles (LM-TC-QE et KLD)
Chapitre 5. Réinjection de pertinence basée sur un modèle de langue mixte 117
Les tables 5.3 et 5.4 montrent la comparaison entre les différentes modèles de recherche. Afin
de vérifier la significativité des résultats obtenus, nous avons effectué le test de Student et
nous avons joint (+) et (++) pour l'indice de performance dans les différents tables des résultats
lorsque le test passe respectivement 95% et 99%.
D'après les tables ci-dessus, nous pouvons tirer les remarques et conclusions suivantes:
Enfin, le modèle LM-TC-QE donne de meilleurs résultats que ses trois autres
versions (LM-TC-QE =1, LM-TC-QE =1, LM-TC-QE =1) où le lissage est
ignoré dans les formules (5.9), (5.11) et (5.9) (5.11), respectivement. Ceci montre
qu’il est intéressant d'ajouter non seulement les termes qui sont liés au mot simple
de la requête, mais aussi les termes qui sont liés aux mots composés qui
contiennent ce mot simple. Et inversement ajouter non seulement les termes qui
sont liés à un mot composé de la requête, mais aussi les termes qui sont liés à ses
mots composants est aussi intéressant.
Analyse requête-par-requête
Afin de mieux comprendre l’apport cette nouvelle méthode d’expansion de requêtes, nous
avons effectué une analyse requête-par-requête. Nous récapitulons les résultats de cette
analyse sur les graphiques ci-dessous :
1 LM-TC-QE
0,9 KLD
ULM
0,8
0,7
Précision moyenne
0,6
0,5
0,4
0,3
0,2
0,1
0
78 51 52 97 54 61 58 90 70 62 86 69 81 88 64 93 80 72 76 60 87 66 67 73 79
Numéro de la requête
0,9
LM-TC-
QE
0,8
KLD
0,7
0,6
Précision moyenne
0,5
0,4
0,3
0,2
0,1
0
51 98 78 82 56 90 97 76 64 99 85 65 86 72 88 96 60 84 68 94 95 73 79 67 80
Numéro de la requête
Dans l’objectif d’avoir une vue plus fine et plus précise de l’impact de la nouvelle méthode
d’expansion proposée, Nous présentons ci-dessous un exemple de requête numéro
88: « Topic: Crude Oil Price Trends », où nous montrons les premiers termes d'expansion de
la requête sélectionnés par les deux modèles, sur la collection WSJ90-92.
Comme on peut le voir dans la table 5.5, notre modèle d'expansion permet de sélectionner de
nouveaux termes pertinents (en gras) que ceux sélectionnés par le modèle KLD. Par exemple,
le mot composé «opec production» est plus précis que les termes «opec» et «production»,
sélectionnés séparément par le modèle KLD. Par conséquent, en utilisant cette requête notre
modèle obtient une meilleure précision que le modèle KLD. Précisément, notre modèle
obtient une précision moyenne égale à 0.1143, et les modèles KLD et ULM obtiennent
respectivement : 0.0577 et 0.0501 de précision moyenne.
Chapitre 5. Réinjection de pertinence basée sur un modèle de langue mixte 121
5.4 Conclusion
Dans ce chapitre, nous avons décrit une nouvelle approche d’expansion de la requête basée
sur un modèle de langue mixte combinant les mots simples et les mots composés. Les
expérimentations effectuées sur deux collections TREC ont montré que, d’une part, le modèle
mixte combinant les mots composés et les mots simples améliore les résultats du modèle uni-
gramme. Ce qui rejoint les résultats obtenus dans le chapitre précédent. D’autre part, notre
modèle d’expansion basé sur le modèle mixte améliore significativement le modèle uni-
gramme et affiche de meilleurs résultats que l'un des modèles de l’état de l’art, nommément la
méthode d’expansion KLD.
Chapitre 6
Introduction de l’importance d’un site dans le
calcul de la pertinence a priori d’une page
6.1 Introduction
La plus part des études menées sur l’estimation de la probabilité a priori d’une page web )
(formule (6.1)), se sont concentrées sur les caractéristiques liées à ces pages uniquement [62]
[90] [106] [121] [214]. Cela, néglige le fait qu’une page web fait partie d’un site web qui lui à
son tour fait partie du web [79][85]. Nous explorons dans ce chapitre l’idée de l’intégration
des caractéristiques du site dans le calcul de la probabilité a priori de la page web, sous
l’hypothèse que dans la plupart des cas les auteurs des pages web référencent la page
principale (site) au lieu de référencer la page exacte (la page concernée). Les facteurs tels que,
le nombre de liens entrants et le PageRank ne suffise pas alors à refléter l’importance réelle
de la page dans l’espace web. Autrement dit, les pages provenant de sites importants doivent
avoir une plus grande priorité que celles provenant de sites moins importants.
Dans ce chapitre nous proposons un modèle qui permet d’intégrer une caractéristique du site
(nombre de liens entrants) dans l’estimation de la probabilité a priori d’une page web. Une
fois cette probabilité est calculée, nous la combinons avec le score obtenu par le contenu de la
page web. Cette combinaison des deux évidences est réalisée sous le cadre du modèle de
langue. Afin de valider notre idée, nous avons effectué des tests sur la collection TREC
« .GOV » ; où nous avons comparé les différentes versions de notre modèle avec deux
modèles : le modèle uni-gramme qui ne considère que le contenu de la page et le modèle
combinant le contenu d’une page web et la probabilité à priori de la page obtenu en utilisant le
nombre de liens entrants a cette page. Les résultats obtenus montrent que notre modèle est
prometteur.
Le reste de ce chapitre est structuré comme suit : dans la section 6.2, nous décrivons notre
méthode d’introduction de l’importance d’un site web dans le calcul de la probabilité a priori
d’une page web, où trois versions sont définies. Les détails de l’implémentation de notre
approche, ainsi que les résultats de nos expérimentations sont donnés dans la section 6.3.
Enfin, la section 6.4 fait la synthèse de ce chapitre.
Chapitre 6. Prise en compte de l’importance d’un site dans le calcul de la pertinence a
priori d’une page 123
6.2 Introduction de l’importance d’un site dans le calcul de la pertinence a priori d’une
page
L’estimation du score d’un document vis-à-vis d’une requête est réalisée dans le modèle
de langue comme suit :
( ) ( ( ) (6.1)
En partant de l’intuition qu’un site important (référencé par beaucoup d’autres sites) procure
une information plus pertinente qu’un site moins important. Nous introduisons le facteur
importance du site dans le calcul de la probabilité a priori de pertinence d’une page web ( ).
Avant de décrire notre modèle, nous définissons ci-dessous les termes clés utilisés.
Un site web (page d’entrée) : est une page dont l’URL contient uniquement, soit le nom du
domaine ou un de sous domaine. Par exemple :
www.nist.gov/ et expect.nist.gov/ : sont deux URL de site web.
Une page web : est une page dont l’URL contient un nom du domaine ou un nom du
domaine ou sous domaine suivi d’un ou plusieurs répertoires et se terminant (ou non) par
un nom de fichier. Par exemple, les deux sites web (URL) illustrés dans l’exemple
précédent contiennent respectivement les pages suivantes :
www.nist.gov/srd/jpcrd_28.htm et expect.nist.gov/scripts/faxstat
Importance d’une page (site) web : l’importance d’une page web est mesurée par le
nombre de liens pointant cette page. Tous les liens sont pris en compte, les liens inter-site
et liens intra-site.
Chapitre 6. Prise en compte de l’importance d’un site dans le calcul de la pertinence a
priori d’une page 124
( ) (( 1)/ ) + (1 2] (6.2)
Où :
Exemple illustratif :
Soit quatre (4) pages, P1, P2, P3 et P4 appartenant respectivement aux sites S1, S1, S2, S3. La
table ci-dessous montre le calcul de la probabilité a priori d’une page suivant la formule (6.2),
et l’impact de l’exploitation de cette probabilité dans le classement a priori des pages web.
Tel que Rang1 est le rang de la page en considérant uniquement son importance ( 2).
Rang2 est le rang de la page en utilisant la formule (6.2).
Nous pouvons remarquer que le rang des pages change ; par exemple la page P4 classée 4ème a
passé à la 1ère place, car elle appartient à un site important (200 liens entrants).
formule (6.2) est réécrite comme suit et appliquée uniquement pour estimer la probabilité a
priori de pertinence des pages se trouvant au niveau un (descendantes directes du site):
)= (( 1)/ ) + (1 2] (6.3)
Où est le nombre de pages descendantes directes du site. Les autres paramètres sont
identiques à ceux de la formule (6.2).
( ) ( )
)= [ ( )
1 + (1 ( )
2] (6.4)
Remarque : pour le calcul de la similarité entre une page et son site, nous utilisons la mesure
de cosinus, exprimée comme suit:
|
( )= = (6.5)
. | |
×
Où est le poids du terme dans le document (site web ), est le poids du terme
dans le document (page web ) et | est le nombre de termes dans la collection.
Données
Version 1 Résultat 1
Version 2 Résultat 2
Version 3 Résultat 3
Terrier
Indexation Recherche
Evaluation
La collection .GOV : est une collection web de taille de vingt giga octets et comporte
1,25 millions de documents. La structure de liens entre pages de cette collection est
exprimée à l’aide de deux fichiers décrit ci-dessous. Ces deux fichiers sont fournis
avec cette collection.
Le fichier url_id : ce fichier comporte sur chaque ligne l’URL de la page web et son
identificateur, comme illustré sur la figure suivante.
www-didc.lbl.gov/NetLogger/API/fortran77/write-gt.html G01-85-0285437
www-didc.lbl.gov/NetLogger/API/fortran77 G01-85-0285436
www-didc.lbl.gov/ G01-85-0285435
G00-00-0000000 G00-33-2790351
G00-00-0000000 G01-85-0285437
G00-00-0000000 G01-59-3325977
G00-00-0000000 G00-33-2790351
G00-00-0000000 G01-85-0285437
G00-00-0000000 G01-59-3325977
G00-00-0000000 G01-85-0285437
Le second programme prend en entrée la table retournée par le premier programme et calcule
la pertinence a priori de chaque page web. La formule utilisée pour le calcul de la pertinence a
priori est la formule (6.2) à laquelle, on applique le logarithme (log) ; et on fait varier le
facteur entre 0.1 et 0.9. Comme résultat nous obtenons neuf (9) fichiers « Prior ». Chaque
fichier contient l’identificateur de la page et la pertinence a priori de la page.
Le second programme calcule la pertinence à priori de chaque page, pour y faire on utilise les
tables (Table 6.1 et Table 6.2) et on applique la formule (6.3). Ce programme retourne neuf
fichiers Prior (selon la valeur de comprise entre 0.1 et 0.9). Chaque fichier contient sur
chaque ligne l’identificateur de la page, et la pertinence à priori de cette page.
Le second programme permet de construire neuf (9) fichiers Prior (selon la valeur de ).
Chaque fichier contient sur chaque ligne l’identificateur de la page et la pertinence a priori de
la page. Ce programme utilise les tables (Table 6.1 et Table 6.3) et applique la formule (6.4).
La figure suivante illustre un extrait d’un fichier Prior.
Chapitre 6. Prise en compte de l’importance d’un site dans le calcul de la pertinence a
priori d’une page 130
G26-71-1565555 1.2604167801415278
G26-71-1567753 1.270039635546034
G26-71-1575072 0.9162907318741551
G26-71-1579867 0.9162907318741551
G26-71-1581520 0.4054651081081644
G26-71-1613126 1.4683245920723798
G26-71-1633708 0.9264576626791408
G26-71-1736116 0.924066281693018
G26-71-1740612 1.0954465024869418
G26-71-1756655 2.351478949486156
G26-71-1805102 0.9300256161833313
G26-71-1833790 1.4433828577429766
G26-71-1838333 0.9623958236455686
L’évaluation de notre modèle décrit dans la section précédente est réalisée en utilisant la
collection de test TREC .GOV. La Table 6.4 ci-dessous montre quelques statistiques sur la
collection et les requêtes utilisées. Seule la partie titre des requêtes est utilisée.
6.3.2.2 Evaluation
Nous avons utilisé les modèles suivants dans nos expérimentations :
ULM_IN : modèle uni-gramme basé sur le lissage de Dirichlet, utilisant le nombre de liens
entrants (IN) pour estimer la probabilité a priori de document.
ULM_APP1 : modèle uni-gramme basé sur le lissage de Dirichlet, utilisant la formule (6.2)
(première version) pour estimer la probabilité a priori de document.
ULM_APP2 : modèle uni-gramme basé sur le lissage de Dirichlet, utilisant la formule (6.3)
(seconde version) pour estimer la probabilité a priori de document.
ULM_APP3 : modèle uni-gramme basé sur le lissage de Dirichlet, utilisant la formule (6.4)
(troisième version) pour estimer la probabilité a priori de document.
Chapitre 6. Prise en compte de l’importance d’un site dans le calcul de la pertinence a
priori d’une page 131
L’estimation de la pertinence finale (score) d’un document est réalisée, pour tous les modèles
intégrant la probabilité a priori comme suit : initialement, on effectue un classement des
documents en tenant compte uniquement de leurs contenus, ensuite on effectue un
reclassement des mille (1000) premiers documents retournés et cela en utilisant les deux
évidences : le contenu de document et sa probabilité a priori.
Afin d'évaluer notre modèle et de le comparer aux autres modèles nous utilisons la mesure
MAP (Mean Average Precision). Afin, de vérifier la significativité des résultats obtenus, nous
avons effectué le test de Student et nous avons joint « + » et « ++ » pour l'indice de
performance dans la table des résultats lorsque le test passe respectivement 95% et 99%.
La table ci-dessous montre les résultats obtenus avec les différents modèles cités
précédemment.
Analyse requête-par-requête
Afin d’avoir une vision plus fine et détaillée des améliorations obtenues par notre modèle, on
a effectué une analyse requête-par-requête. Le graphique ci-dessous présente cette analyse.
1,2
ULM
ULM_IN
ULM_APP1
ULM_APP2
ULM_APP3
1
0,8
Précision moyenne
0,6
0,4
0,2
0
34
88
28
81
83
91
55
92
44
65
39
78
18
52
80
29
2
145
206
114
133
139
177
163
148
120
156
166
189
111
215
132
192
Numéro de la requête
À partir des résultats obtenus nous avons noté les remarques suivantes :
Dans l’optique de comprendre les améliorations constatées, nous avons analysé manuellement
quelques requêtes. Ci-dessous, nous illustrons les détails du résultat de la requête numéro
WT04-50 (money laundering).
Table 6.6 Le rang des documents pertinents avec les différents modèles
A partir de cette table on peut voir que la troisième version de notre modèle (ULM_APP3)
permet d’améliorer le rang des documents pertinents comparativement aux modèles ULM et
ULM_IN. Par exemple, le document G09-93-3919157 a passé du rang 4 avec le modèle ULM
à la 2ème place avec le modèle ULM_IN et à la 1ère place avec notre modèle ULM_APP3. Cette
amélioration est expliquée principalement par le fait que le document G09-93-3919157
contient 4 liens entrants, son site contient 589 liens entrants et ce document est similaire avec
son site (0,0024 : valeur normalisée).
Chapitre 6. Prise en compte de l’importance d’un site dans le calcul de la pertinence a
priori d’une page 134
6.4 Conclusion
Nous avons proposé dans ce chapitre une approche permettant d’intégrer l’importance d’un
site web dans le calcul de la probabilité a priori de pertinence d’une page web, en assignant
plus de confidence aux pages provenant des sites importants (intéressants) que pour celles
provenant des sites moins importants.
Les expérimentations effectuées sur la collection .GOV ont montré que la prise en compte de
l’importance d’un site web dans l’évaluation de la probabilité a priori de pertinence d’une
page web améliore significativement le modèle uni-gramme, de plus les différentes versions
de notre modèle affichent des améliorations par rapport au modèle considérant uniquement
l’importance d’une page dans l’évaluation de sa probabilité a priori. Nous avons constaté
également que la troisième version de notre modèle affiche les meilleurs résultats en
permettant à une page dont le contenu informationnel est similaire à celui de son site, de
bénéficier plus de l’importance du site, que les autres pages.
CONCLUSION GENERALE
Les travaux présentés dans ce mémoire rentrent dans le cadre de la recherche d’information.
Les techniques traditionnelles de la RI représentent le contenu textuel d’un document (requête)
par un ensemble de mots-clés ; appelé aussi représentation en sac de mots. Cette
représentation est à l’origine des problèmes d’ambigüité et de disparité entre termes. Une
représentation des documents et des requêtes, allant au-delà des mots simples est nécessaire
pour pallier à ces deux problèmes.
Des évidences autres que le contenu textuel du document peuvent être exploitées, dans le
contexte du web, afin d’améliorer les performances de la recherche d’information. Parmi ces
évidences, on y trouve la structure des liens. Cependant, la structuration hiérarchique du web
(structuration sous forme de site web) est ignorée dans les approches antérieures, qui intègrent
cette évidence.
Nous nous sommes intéressé dans le cadre de ce mémoire à proposer des solutions permettant,
d’une part, à mieux représenter le contenu sémantique des documents et des requêtes et
d’autre part, à combiner le contenu textuel des documents avec une autre source d’évidence à
savoir la structure de liens. Cette évidence nous a permis d’estimer la pertinence a priori d’un
document web. Plus explicitement nous avons proposés dans ce mémoire trois approches :
3. Une approche permettant d’intégrer l’importance d’un site web dans le calcul de la
probabilité a priori de pertinence d’une page web, en assignant plus de confidence aux
pages provenant des sites importants (intéressants) que pour celles provenant des sites
moins importants. Une fois ce score apriori calculé, on le combine avec le score
obtenu par le contenu textuel du document.
Nous avons formalisé nos trois propositions dans le cadre de modèle de langue. Celui-ci, est
caractérisé par sa définition formelle des différentes heuristiques utilisées jusque-là par les
modèles classiques de recherche d’information tel que , ses résultats très satisfaisants
obtenus, et sa capacité à intégrer différentes évidences sur un document. Nous avons évalué
nos propositions sur des collections TREC. Les résultats obtenus sont promoteurs.
Plusieurs pistes peuvent être investies à moyen terme pour améliorer les résultats et
l’efficacité de nos contributions. Nous pouvons citer entre autres :
Enfin, nous évaluerons notre méthode sur d’autres collections TREC plus
volumineuses.
Au niveau de notre méthode d’exploitation des liens, nous prévoyons d’examiner les points
suivants :
23. Boughanem, M. Outils de validation en recherche d'information. La campagne d'évaluation TREC, 2003.
http://inforsid2003.loria.fr/resumeConfRI.pdf, 2003.
24. Boughanem, M. Les Systèmes de Recherche d’Information : d’un modèle classique à un modèle
connexionniste. Thèse de Doctorat de l’Université Paul Sabatier, 1992.
25. Boughanem, M., Chrisment, C., Soule-Dupuy, C. Query modi cation based on relevance back-propagation
in adhoc environment. Information Processing and Management, 35, pp. 121–139, 1999.
26. Boughanem, M., Kraaij, W., Nie, J.-Y. Modèles de langue pour la recherche d’information. Les systèmes de
recherche d’informations, pages 163–182. Hermes-Lavoisier, 2004.
27. Bourigault D. Lexter, a Natural Language Processing Tool for Terminology Extraction ". Proceedings of
Euralex’96, Göteborg University, Department of Swedish, pp. 771-779, 1996.
28. Brin, S., Page, L. The anatomy of a large-scale hypertextual web search engine. Proceedings of WWW7,
Brisbane, Australia, pp. 107-117, May 1998.
29. Brown, P., Della Pietra, S., Della Pietra, V., and Mercer, R. The mathematics of statistical machine
translation: Parameter estimation. Computational Linguistics, 19(2), pp. 263-311, 1993.
30. Burges, C., Shaked, T., Renshaw, E., Lazier, A., Deeds, M., Hamilton, N., Hullender, G. Learning to rank
using gradient descent. Proceedings of the 22nd international conference on Machine learning, ACM. New
York, NY, USA. pp. 89–96, 2005.
31. Cao Z., Qin T., Liu T.Y., Tsai M.F., Li H., « Learning to rank : From pairwise approach to listwise approach
». Proceedings of the 24th International Conference on Machine Learning, pp. 129-136, 2007.
32. Cao, G., Gao, J., Nie, J.-Y., Robertson, S.. Selecting good expansion terms for pseudorelevance feedback.
Proceedings of the 31st Annual International ACMSIGIR Conference on Research and Development in
Information Retrieval. ACM Press, pp. 243–250, 2008.
33. Cao, G., Nie, J.Y., Bai, J. Integrating word relationships into language models. Proceedings of ACMSIGIR
Conference on Research and Development in Information Retrieval, 298–305, 2005.
34. Carmel, D., Amitay, E., Herscovici, M., Maarek, Y., Petruschka, Y., and Soffer, A. Juru at TREC t 0:
Experiments with Index Pruning. Proceedings of the Text Retrieval Conference, E. M. Yoorhees md D. K.
Harman (eds.), NIST Special Publication 500-250, Gaithersburg, MD, November 13-16,2000.
35. Carpineto, C., De Mori, R., Romano, G., Bigi, B. An information theoretic approach to automatic query
expansion. ACM Trans. Info. Syst. 19, 1, pp. 1–27, 2001.
36. Carpineto, C., Romano, G., «A Survey of Automatic Query Expansion in Information Retrieval». ACM
Computing Surveys, Vol. 44, No. 1. 2012.
37. Chakrabarti, S., Dom, B. Indyk, P. Enhanced hypertext categorization using hyperlinks. In L. M. Haas and A.
Tiwary, editors. Proceedings ACM SIGMOD International Conference on Management of Data, pp. 307–
318, 1998.
38. Chakrabarti, S., Dom, B., Raghavan, P., Rajagopalan, S., Gibson, D., Kleinberg, J. Automatic resource list
compilation by analyzing hyperlink structure and associated text. Proceedings of the 7th International World
Wide Web Conference, pp. 65-74, 1998.
39. Cho, J., Garcia-Molina, H., Page, L. The anatomy of efficient crawling through url ordering. Computer
Networks and ISDN Systems, 30(1–7), pp. 161–172, 1998.
40. Church, K. and Hanks, P. Word association norms, mutual information and lexicography. Proceedings of the
28th Annual Meeting of the Association for Computational Linguistics, pp. 76-83. 1990.
41. Clements, M., de Vries, A. P., and Reinders, M. J. T. The influence of personalization on tag query length in
social media search. Information Processing and Management, 46(4), pp. 403–412, 2010.
42. Cleverdon, C. Progress in documentation. Evaluation of information retrieval systems. Journal of
Documentation, 26, pp. 55–67, 1970.
43. Clough, P., Müller, H., Deselaers, T., Grubinger, M., Lehmann, T., Jensen, J., and Hersh, W. The CLEF 2005
Cross-Language Image Retrieval Track, 2005.
44. Collins-Thompson, K. Ogilvie, P. Zhang, Y. Callan, J. Information Filtering, Novelty Detection, and Named-
Page Finding. TREC-11 Notebook Proceedings,2002.
45. Collins-Thompson, K., Callan, J. Query expansion using random walk models. In Proceedings of the 14th
Conference on Information and Knowledge Management. ACM Press, pp. 704–711, 2005.
46. Cossock, D., Zhang, T. Subset ranking using regression. Proceedings of the 19th Conference on
Learning Theory, pp. 605-619, 2006.
47. Craswell, N., Hawking, D., Robertson, S. Effective Site Finding using Link Anchor Information,
Proceedings of the 24th annual international ACM SIGIR conference on Research and development in
information retrieval, pp. 250-257, 2001.
48. Crestani, F., Lee, P.L. Searching the web by constrained spreading activation. Information Processing and
Management, vol. 36, pp.585–605, 2000.
49. Croft W.B. Editorial. ACM Trans. Inf. Syst. 9(3): 185, 1991.
Références bibliographiques 140
50. Croft, W. B., Turtle, H. R. and Lewis, D. D. The Use of Phrases and Structured Queries in Information
Retrieval. Proceedings of the 14th annual international ACM SIGIR conference on Research and
development in information retrieval, pages 32-45, 1991.
51. Croft, W.B. Combining approaches to information retrieval. In Croft, W. B. (Ed.), Advances in Information
Retrieval: Recent Research from the Centre for Intelligent Information Retrieval, Kluwer Academic
Publishers, pp.1-36, 2002.
52. Croft, W.B., Harper, D. J. Using Probabilistic Models of Document Retrieval without Relevance
Information. Journal of Documentation, 35(4) :pp .285-295, 1979.
53. Cronen-Townsend, S. Croft, W. B. Quantifying query ambiguity. Proceedings of the 2nd International
Conference on Human Language Technology Research. ACM Press, pp. 104–109, 2002.
54. Cutler, M. Shih, Y. Meng, W. Using the Structure of HTML Documents to Improve Retrieval. Proceedings
of the USENIX Symposium on Internet Technologies and Systems Monterey, pp. 22-22 1997.
55. Cutts, M. Spotlight keynote. In Proceedings of Search Engine Strategies, 2012.
56. Daille, B. Study and implementation of combined techniques for automatic extraction of terminology. The
balancing act combining symbolic and statistical approaches to language, MIT Press, Cambridge,
Massachusetts, pp. 49-66, 1996.
57. Dang, V. and Croft, B. W. Query reformulation using anchor text. Proceedings of the third ACM
international conference on Web search and data mining, pp. 41–50, 2010.
58. Das, A. & Jain, A. Indexing the World Wide Web: The journey so far. IGI Global, chap. 1, 1–28, 2012.
59. David A.E , Zhai, C. Noun-phrase analysis in unrestricted text for information retrieval. Proceedings of the
34th Annual Meeting of the Association for Computational Linguistics, pp. 17-24, 1996.
60. Dean, J., Henzinger, M. R. Finding related pages in the world wide web. Computer Networks, 31(11-16): pp.
1467–1479, 1999.
61. Dias, G., Guillore, S., Bassano, J.C, and Lopes, J.G.P. Extraction automatique d'unités complexes: Un enjeu
fondamental pour la recherche documentaire. Traitement Automatique des Langues, 41(2), pp. 447-472,
2000.
62. Diaz, F., Jones, R. Using temporal profiles of queries for precision prediction. Proceedings of the 27th
annual international conference on Research and development in information retrieval, pp. 18–24, 2004.
63. Dominich, S. Mathematical Foundations of Information Retrieval. Kluwer Academic Publishers, Dordrecht,
Boston, London, 2001.
64. Dumais, S. Latent Semantic Indexing (LSI). Proceeding of TREC-3, 1994.
65. Eiron, N., McCurley, K.S. Analysis of Anchor Text for Web Search. Proceedings of the 26th annual
international ACM SIGIR conference on Research and development in information retrieval, pp. 459-460,
2003.
66. Fagan, J. L. Experiments in Automatic Phrase Indexing For Document Retrieval:A Comparison of Syntactic
and Non-Syntactic Methods. Ph.D. thesis, Department of Computer Science, Cornell University, Ithaca, NY,
1987.
67. Fagan, J.L. The Effectiveness of Non syntactic Approach to Automatic Phrase Indexing for Document
Retrieval. Journal of the american Sociely for Information Science 40:2, pp.115-132, 1989.
68. Foltz, P. W. Using Latent Semantic Indexing for information filtering. CACM, pp. 40-47, 1990.
69. Fox, C. Lexical analysis and stoplists, Frakes W B, Baeza-Yates R (eds) Prentice Hall, New jersey, pp. 102–
130. 1992.
70. Fox, E.A., Nunn, G., Lee, W. Coefficients for combining concept classes in a collection. Proceedings of the
11th ACM SIGIR Conference on Research and Development in Information Retrieval, pages 291–308. 1988.
71. Fox, E.A., Shaw, J.A. Combination of multiple searches. In Harman, D.K. (Ed.), Proceedings of the 2nd Text
Retrieval Conference (TREC-2), NIST Special Publication 500-215, pp. 243-249, 1994.
72. Fuhr, N. Information Retrieval - From Information Access to Contextual Retrieval. In M. Eibl, C. Wolf, and
C. Womser-Hacker, editors, Designing Information Systems. Festschrift für Jürgen Krause, pp. 47-57. UVK
Verlagsgesellschaft, 2005.
73. Furnas, G.W., Landauer, T.K., Gomez, L.M., Dumais S.T. The Vocabulary Problem in Human-System
Communication, Communications of the ACM 30, PP. 964-971, 1987.
74. Gao, J. F., Nie, J. Y., Wu, G., Cao, G. Dependence Language Model for Information Retrieval. Proceedings
of the 27th ACM SIGIR Conference on Research and Development in IR, pp.170-177, 2004.
75. Glover, E.J., Tsiouliklis, K., Lawrence, S., Pennock, D.M., Flake, G.W. Using Web Structure for Classifying
and Describing Web Pages. Proceedings of the 11th international conference on World Wide Web, pp. 562-
569, 2002.
76. Gonzalo, J. Verdejo, F. Chugur, I. Cigarrán, J. Indexing with WordNet synsets can improve text retrieval.
Proceedings the COLING/ACL Workshop on Usage of WordNet for Natural Language Processing, 1998.
Références bibliographiques 141
77. Graupmann, J., Cai, J., Schenkel, R. Automatic query refinement using mined semantic relations. In
Proceedings of the International Workshop on Challenges in Web Information Retrieval and Integration
(WIRI). IEEE Computer Society, pp. 205–213, 2005.
78. Hammache, A., Boughanem, M., Ahmed-Ouamer, R. A new language model combining single and
compound terms. IEEE ACM Web Intelligence Conference. pp. 67 - 70, 2011
79. Hammache,A., Boughanem,M., Ahmed-Ouamer,R. Prise en compte de l’importance d’un site web dans
l’estimation de la probabilité a priori de pertinence d’une page web. 31ème édition d’INFORSID, 2013.
80. Hammache,A., Boughanem,M., Ahmed-Ouamer,R. Pseudo-réinjection de pertinence basée sur un modèle de
langue mixte combinant les termes simples et composes. Dixième édition de la Conférence en Recherche
d'Information et Applications. CORIA2013.
81. Hammache,A., Boughanem,M., Ahmed-Ouamer,R. Combining compound and single terms under language
model framework, Knowledge and Information Systems An International Journal. ISSN 0219-1377, DOI
10.1007/s10115-013-0618-x.
82. Hammache,A., Boughanem,M., Ahmed-Ouamer,R. Importance du Site dans le Calcul de la Probabilité A
Priori de Pertinence d’une Page Web. Colloque International sur l’Optimisation et les Systèmes
d’Information, Annaba, Algérie 25-27 mai, pp. 417-427, 2009.
83. Hammache,A., Boughanem,M., Ahmed-Ouamer,R. Introduction de la Sémantique d’un Document sous le
Modèle de Langage. Conférence en Recherche d’Information et Applications, Presqu’île de Giens, France,
pp. 433-444, 2009.
84. Hammache,A., Boughanem,M., Ahmed-Ouamer,R. Introduction de la Sémantique d’une Page Web sous le
Modèle de Langage. Journées Scientifiques sur l’Informatique et ses Applications, Guelma, Algérie 03-04
mars, pp. 160-166, 2009.
85. Hammache,A., Boughanem,M., Ahmed-Ouamer,R. Introduction of the website importance into the
evaluation of the prior probability of relevance of web page. International Conference on Machine and Web
Intelligence. Digital Object Identifier: 10.1109/ICMWI.2010.5647831 , pp. 77 – 81, 2010.
86. Hammache,A., Boughanem,M., Ahmed-Ouamer,R. Recherche d’Information sur le Web : Introduction de
l’Importance d’un Site dans le Calcul de la Probabilité A Priori de Pertinence d’une Page Web sous le
Modèle de Langage. Conférence Internationale des Technologies de l’’Information et de la Communication,
Sétif, Algérie, 2009.
87. Hammache,A., Boughanem,M., Ahmed-Ouamer,R. Un modèle de langage mixte combinant les termes
composés et les termes simples. Rencontres sur la Recherche en Informatique, Tizi-Ouzou 12,13 et 14 Juin
2011.
88. Harman, D. Relevance feedback and other query modi cation techniques. In Information Retrieval : Data
Structures and Algorithms, William B. Frakes and Ricardo Baeza-Yates, editors, Prentice Hall, Englewood,
Cli s, NJ, pp. 241–263, 1992.
89. Harter, S. Psychological relevance and information science. Journal of the American Society for Information
Science (JASIS), 43:602–615, 1992.
90. Hauff, C., Azzopardi, L. Age dependent document priors in link structure analysis. European Conference in
Information Retrieval, pp 552–554, 2005.
91. Haveliwala, T.H. Topic-Sensitive PageRank: A Context-Sensitive Ranking Algorithm for Web Search. IEEE
Transactions on Knowledge and Data Engineering, Volume 15(4), pp. 784–796, 2003.
92. Hawking, D., Craswal, N. Overview of the TREC-2001 web track". Proceeding of TREC-10, NIST
publication #500-250, Gaithersburg, pp. 61-67, 2002.
93. Hawking, D., Craswal, N. Overview of the TREC-2002 web track". Proceeding of TREC-11, NIST
publication #500-251, Gaithersburg, pp. 86-95, 2003.
94. Hiemstra, D. A linguistically motivated probabilistic model of information retrieval. In Nicolaou, C., and
Stephanides, C., editors, Research and Advanced Technology for Digital Libraries - Second European
Conference, ECDL’98, Proceedings, number 1513 in Lecture Notes in Computer Science. Springer Verlag,
pp. 569-584, 1998.
95. Hu, J., Deng, W., Guo, J. Improving retrieval performance by global analysis. Proceedings of the 18th
International Conference on Pattern Recognition. IEEE Computer Society, pp. 703–706, 2005.
96. Huang, X. and Robertson, S.E. "Comparisons of Probabilistic Compound Unit Weighting Methods.
Proceedings of the 2001 IEEE ICDM Workshop on Text Mining, San Jose, USA, pp. 1-15, 2001.
97. Jacquemin, C. Spotting and Discovering Terms through Natural Language Processing. MIT Press,
Cambridge, Mass, 2001.
98. Jacquemin, C., Daille, B., Royanté, J., and Polanco, X. In vitro evaluation of a program for machine-aided
indexing. Inf. Process. Manage. 38, 6, pp. 765-792. 2002.
99. Jansen, B. J., Spink, A. and Pedersen, J. A temporal comparison of AltaVista web searching. Journal of the
American Society for Information Science and Technology 56(6), PP. 559–570, 2005.
100. Jelinek, F. Statistical Methods for Speech Recognition. MIT Press, Cambridge, MA, 1998.
Références bibliographiques 142
101. Jiang, M., Jensen, E., Beitzel, S. Effective Use of Phrases in Language Modeling to Improve Information
Retrieval, 2004.
102. Jones, S., Paynter, G.W. Human evaluation of Kea, an automatic key phrasing system. JCDL: pp.148-156,
2001.
103. Kamps, J., Mishne, G., de Rijke, M. Language Models for Searching in Web Corpora, 2005.
104. Khoo, C., Myaeng, S., and Oddy, R. Using Cause-Effect Relations in Text to Improve Information Retrieval
Precision. Information Processing and Management 37, pp. 119-145, 2001.
105. Kleinberg, J.M. Authoritative Sources in a Hyperlinked Environment. Journal of the ACM 46, 5, pp. 604–
632, 1999.
106. Kraaij, W., Westerveld, D., Hiemstra, D. The Importance of Prior Probabilities for Entry Page Search.
Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 27–
34, 2002.
107. Kraft, D. H. and BueIl, D. A. Fuzzy sets and generalized Boolean retrieval systems. International Journal on
Man-Machine Studies, 19: pp. 49-56, 1983.
108. Krovetz, R. Croft, W.B..Lexical Ambiguity and Information Retrieval. ACM Transactions on Information
Systems, 10(1). 1992.
109. Krovetz, R. Homonymy and polysemy in information retrieval. Proceedings of the 35th Annual Meeting of
the Association for Computational Linguistics, pp. 72-79, 1997.
110. Kwok, K.L. A neural network for probabilistic information retrieval. International ACM SIGIR Conference
on Research and Developpement in Information Retrieval, pp 21-30, 1989.
111. Lafferty, J., Zhai, C. Document language models, query models, and risk minimization for information
retrieval. In W.B. Croft, D.J. Harper, D.H. Kraft, & J. Zobel (Eds.). Proceedings of the 24th annual
international ACM-SIGIR conference on research and development in information retrieval, pp.111-119,
2001.
112. Lancaster, F. Information Retrieval Systems: characteristics, testing, and evaluation, John Wiley, New York,
1979.
113. Lang, H., Wang, B., Metzler, D., Li, J-T. Improved Latent Concept Expansion Using Hierarchical Markov
Random Fields. Proceedings of the 19th ACM international conference on Information and knowledge
management, pp. 249-258, 2010.
114. Latifur, R. K. Ontology-based Information Selection. PhD Thesis, Faculty of the Graduate School,
University of Southern California. August 2000.
115. Lauer, M. Corpus statistics meet the noun compound: some empirical results. Proceedings of the 33rd
Annual Meeting of the Association for Computational Linguistics, pp. 47-54, 1995.
116. Lavrenko, V., & Croft, W. B. Relevance-based language models. In W.B. Croft, D.J. Harper, D.H. Kraft, &
J. Zobel (Eds.). Proceedings of the 24th Annual International ACM-SIGIR Conference on Research and
Development in Information Retrieval, New Orleans, Louisiana, pp.120-127, 2001.
117. Lechani, L., Boughanem, M. Accès personnalisé à l'information : Approches et techniques. Rapport interne,
IRIT, 2005.
118. Lee, J.H. Analyse of multiple evidence combination. Proceedings of the ACM SIGIR Conference on
Research and Development in Information Retrieval, pp. 267-176, 1997.
119. Lee, K. S., Croft, W. B., Allan, J. A cluster-based resampling method for pseudo-relevance feedback.
Proceedings of the 31th Annual International ACM SIGIR Conference on Research and Development in
Information Retrieval. ACM Press, pp. 235–242, 2008.
120. Lempel, R., Moran, S. The Stochastic Approach for Link-Structure Analysis (SALSA) and the TKC Effect.
Proceedings of the 9th international World Wide Web conference on Computer networks: the international
journal of computer and telecommunications networking, pp. 387-401, 2000.
121. Li, X., Croft, W.B. Time-based language models. Proceedings of the twelfth international conference on
Information and knowledge management, pp. 469–475, 2003.
122. Liu, S., Liu, F., Yu, C., and Meng, W. An effective approach to document retrieval via utilizing WordNet and
recognizing phrases. Proceedings of the 27th Annual international Conference on Research and
Development in information Retrieval. ACM Press, New York, NY, pp. 266-272, 2004.
123. Liu, T.Y., Learning to Rank for Information Retrieval, Springer, 2011.
124. Liu, T.-Y., Xu, J., Qin, T., Xiong, W., Li, H. Letor: Benchmark dataset for research on learning to rank for
information retrieval. LR4IR, in conjunction with SIGIR, 2007.
125. Liu, X. and Croft, W. B. Cluster-Based Retrieval Using Language Models. Proceedings of the 27th ACM
SIGIR Conference on Research & Development on Information Retrieval, 186-193, 2004.
126. Luhn, H. P. A Business Intelligence System. IBM Journal Research and Development (2:4), pp. 314-319,
1958.
Références bibliographiques 143
127. Lv, Y., Zhai. C. Positional Relevance Model for Pseudo-Relevance Feedback. Proceedings of the 33rd
international ACM SIGIR conference on Research and development in information retrieval, pp. 579-586,
2010.
128. Lv, Y., Zhai. C. A comparative study of methods for estimating query language models with pseudo
feedback. Proceedings of the 18th ACM conference on Information and knowledge management, pp. 1895-
1898, 2009.
129. Lv, Y., Zhai. C. Positional language models for information retrieval. Proceedings of the 32th annual
international ACM SIGIR conference on Research and development in information retrieval, pp. 299-306,
2009.
130. Maarek. Y., Berry, D., and Kaiser, G. An Information Retrieval Approach for Automatically Constructing
Software Libraries. IEEE Transactions on Software Engineering 17: 8. pp. 800-813, 1991.
131. Macdonald, C., and He, B. Researching and Building IR applications using Terrier; European Conference on
Information Retrieval, 2008.
132. Manning, D., Raghavan, P. And Schute, H. Introduction to Information Retrieval. Cambridge University
Press, 2008.
133. Manning, D., Schütze, H. Foundations of Statistical Natural Language Processing. MIT Press, 2000.
134. Martin, W. J. R., AI, B. P. F., and van Strenkenburg, P. J. G. On the Processing of Test Corpus: Froni
Textual Data to Lexicographical Information. In Lexicography. Principles and Practice, R. R. K. I-Tartmann
(cd.), Academic Press, London, 1983, pp.77-87.
135. Mcinnes, B.T. Extending the log-likelihood measure to improve collocation identification. Master thesis,
University of Minnesota, 2004.
136. Metzler, D., Croft, W. B. Latent concept expansion using markov random fields. Proceedings of the
international ACM SIGIR conference on Research and development in information retrieval, pp. 311–318,
2007.
137. Metzler, D., Croft, W.B. A Markov random field model for term dependencies, in: R.A. Baeza-Yates, N.
Ziviani, G. Marchionini, A. Moffat, J. Tait (Eds.). Proceedings of the 28th annual international ACM SIGIR
conference on Research and development in information retrieval, pp. 472–479, 2005.
138. Miao, J., Huang, J.X.,Ye., Z. Proximity-based Rocchio’s Model for Pseudo Relevance Feedback.
Proceedings of the 35th international ACM SIGIR conference on Research and development in information
retrieval, pp. 535-544, 2012.
139. Miller, D.R.H., Leek, T., Schwartz, R.M. A hidden markov model information retrieval system. Hearst et
al., pp. 214–221, 1999.
140. Mitra M., Bucklcy C., Singhal A., and Cardie C., An Analysis of Statistical and Syntactic Phrases.
Proceedings of the Fifth Conference on Computer Assisted Information Retrieval, Montreal, Canada, June
25-27pp. 200-2 14, 1997.
141. Mittendort E., Mateev, B., and Schauble, P. Using the Co-occurrence of Words for Retrieval Weighting.
Information Retrieval 3:3, pp. 243-251, 2000.
142. Mizzaro, S. Relevance, the whole (hi) story. Journal of the American Society for Information Science, 48, pp.
810–832, 1997.
143. Na, S-H., Kim, J., Kang, I-S., Lee, J-H. Exploiting Proximity Feature in Bigram Language Model for
Information Retrieval. Proceedings of the 31st annual international ACM SIGIR conference on Research and
development in information retrieval, pp. 821-822 2008.
144. Nallapati, R. Discriminative models for information retrieval ». Proceedings on the 27th annual
international SIGIR Conference on Research and Development in Information Retrieval, pp. 64-71,
2004.
145. Navigli, R. Word sense disambiguation: A survey. ACM Comput. Surv. 41, 2, PP. 1–69, 2009.
146. Ogilvie, P., Callan, J. Combining document representations for known-item search. Proceedings of ACM
SIGIR conference on Research and development in information retrieval, pp. 143–150, 2003.
147. Ogilvie, P., Callan, J. Combining structural information and the use of priors in mixed named-page and
homepage finding. TREC-12 Notebook Proceedings (Gaithersburg, MD, USA, November 2003), NIST.
148. Oliver, A., McBryan. Genvl and WWWW: Tools for taming the Web. Proceedings of the First International
Conference on the World Wide Web, Geneva, Switzerland, 1994.
149. Parapar, J., E.Losada, D., Barreiro, A. Compression-Based Document Length Prior for Language Model.
Proceedings of the 32nd international ACM SIGIR conference on Research and development in information
retrieval, pp. 652-653, 2009.
150. Petrovic S, Snajder J, Dalbelo-Basic B, Kolar M. Comparison of collocation extraction measures for
document indexing. Jornal of Computing and Information Technolgie 14: pp. 321–327, 2006.
151. Ponte, J.M., Croft, W. B. A language modeling approach to information retrieval. Proceedings of the 21st
annual international ACM SIGIR conference on Research and development in information retrieval, pp. 275-
281, 1998.
Références bibliographiques 144
152. Porter, M. An algorithm for suffix stripping. Program, Vol. 14(3), pp. 130-137, 1980.
153. Qiu, Y., Frei, H.P. Concept Based Query Expansion. Proceedings of the 16th ACM SIGIR Conference on
Research and Development in Information Retrieval, pp.160-169, 1993.
154. Radecki, T. Fuzzy set theoretical approach to document retrieval. Information Processing and Management,
15: pp. 247-259, 1979.
155. Ren, F., Fan, L., Nie, J-Y. SAAK Approach: How to Acquire Knowledge in an Actual Application
System. International Conference on Artificial Intelligence and Soft Computing, Honolulu, pp.136-140,
1999.
156. Riezler, S., Vasserman, A., Tsochantaridis, I., Mittal, V., Liu, Y. Statistical machine translation for query
expansion in answer retrieval. Proceedings of the 45th Annual Meeting of the Association for Computational
Linguistics. Association for Computational Linguistics, pp. 464–471, 2007.
157. Rijsbergen C. J.V. A theoretical basis for the use of co-occurrence data in information retrieval. Journal of
Documentation, 33: 106-119, 1977.
158. Robertson, S.E. , S. Walker. On relevance weights with little relevance information. Proceedings of the
20th annual international ACM SIGIR conference on Research and development in information
retrieval, pp. 16–24, 1997.
159. Robertson, S. E. On term selection for query expansion. Journal of. Documentation 46(4), pp. 359–364,
1990.
160. Robertson, S. E. The Probability Ranking Principle in IR. Journal of Documentation, 33(4), pp. 294-304,
1977.
161. Robertson, S.E., Sparck Jones, K. Relevance Weighting of Search Terms. Journal of the American Society
for Information Science 27, pp. 129-146, 1976.
162. Robertson, S.E., Walker. S., Jones, S., Hancock-Beaulieu, M. and Gatford, M. Okapi at trec-3. TREC, pp.
109-126, 1994.
163. Rocchio, J.J. Relevance Feedback in Information Retrieval, in The Smart System Experiments in Automatic
Document Processing in Automatic Document Processing. Editor Prentice-Gall. pp. 313-323, 1971.
164. Sabah, G., et Grau, B. Compréhension automatique de textes, chap. 13, pp. 293-307, Ingéniérie des langues,
sous la direction de J.M.Pierrel, Hermes, 2000.
165. Salton, G. A comparison between manual and automatic indexing methods. Journal of American
Documentation, 20(1), pp. 61–71, 1971.
166. Salton, G. The smart Retrieval System: Experiments in Automatic Document Processing. Prentice-Hall,
1971.
167. Salton, G., E.A. Fox, H. Wu. Extended Boolean information retrieval system. CACM 26(11), pp. 1022-1036,
1983.
168. Salton, G., McGill, M. Introduction to Modern Information Retrieval. McGraw-Hill Int. Book Co, 1984.
169. Salton., G, Buckley., C. Improving retrieval performance by relevance feedback. Journal of the American
Society for Information Science 41, pp. 288-297, 1990.
170. Sanderson, M. Test collection based evaluation of information retrieval systems. Foundations and Trends in
Information Retrieval 4, pp. 247–375, 2010.
171. Sanderson, M. Word sense disambiguation and information retrieval. Proceedings of the 17th Annual
International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 142-151,
Springer- Verlag, 1994.
172. Saracevic, T. Relevance reconsidered. Conceptions of Library and Information Science, pp. 201–218, 1996.
173. Sauvagnat, K. Modèle flexible pour la recherche d'information dans des corpus de documents semi-
structurés. Thèse de doctorat, Université Paul Sabatier, Toulouse, France, 2005.
174. Savoy, J., Picard, J. Retrieval effectiveness on the web. Information Processing and Management, vol. 37,
pp. 543–569, 2001.
175. Schmid, H. Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International
Conference on New Methods in Language Processing. pp 25-36, 1998.
176. Scott C. Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. Furnas and Richard A.
Harshman"Indexing by Latent Semantic Analysis". In Journal of the American Society of Information
Science, Vol. 41:6, pp. 391-407 , 1990.
177. Sheridan, P., Smeaton, A.F. The Application of Morpho-Syntactic Language Processing to Effective Phrase
Matching. Inf. Process. Manage. 28(3): 349-370 1992.
178. Shi, L., Nie, J. Y., Integrating Phrase Inseparability in Phrase-Based Model. Proceedings of the 32th annual
international ACM SIGIR conference on Research and development in information retrieval, pp. 708–709,
2009.
179. Si, L., Jin, R., Callan, J. P. and Ogilvie, P. A language modeling framework for resource selection and results
merging. Proceedings of the 11th of Conference on Information and Knowledge Management, pp. 391–397,
2002.
Références bibliographiques 145
180. Singhal, A., Salton, G., Mitra, M., Buckley, C. Document length normalization. Information Processing and
Management, 32(5), pp. 619–633, 1996.
181. Smeaton & I. Quigley. Experiments on Using Semantic Distances between Words in Image Caption
Retrieval, Proceedings of an international ACM SIGIR conference on Research and development in
information retrieval, pp.174-180, 1996.
182. Song, F., Croft, W.B. A General Language Model for Information Retrieval. Proceedings of international
ACM SIGIR conference on Research and development in information retrieval, pp. 279–280, 1999.
183. Sparck Jones, K., Van Rijsbergen, C.J. Progress in documentation. Journal of Documentation, Vol. 32,
Num. 1, pp. 59-75, 1976.
184. Spink, A., Wolfram, D., Jansen, M. B. J., Saracevic, T. Searching the web: the public and their queries.
Journal of the American Society for Information Science and Technology 52(3), 226–234, 2001.
185. Srikanth, M. & Srihari, R. Biterm language models for document retrieval. Proceedings of the 25th annual
international ACM SIGIR conference on research and development in information retrieval, pp. 425–426,
Tampere, Finland, 2002.
186. Stein, A., Gulla, J. A., Müller, A., Thiel, U. Conversational interaction for semantic access to multimedia
information. In Maybury, M. T., ed., Intelligent Multimedia Information Retrieval. Menlo Park, CA.
AAAI/The MIT Press, pp. 399–421, 1997.
187. Strzalkowski, T. et al. Natural language information retrieval. TREC 3 report, Harman D. (ed.), Overview of
the Third Text REtrieval Confrerence (TREC3). NIST special publication, 1995.
188. Tao, T., Wang, X., Mei, Q., Zhai, C. Language Model Information Retrieval with Document Expansion.
Proceedings of the Human Language Technology Conference of the North American Chapter of the ACL,
pp. 407–414, 2006.
189. Tao, T., Zhai, C. An exploration of proximity measures in information retrieval. In Proceedings of the 30th
annual international ACM SIGIR conference on Research and development in information retrieval, pages
295–302, 2007.
190. Thanopoulos, A., Fakotakis, N. and Kokkinakis, G. Identification of Multiwords as Preprocessing for
Automatic Extraction of Lexical Similarities.In 6th International Conference Text, Speech and Dialogue,
pp. 98-105, 2003.
191. Tsai, M.-F., Liu, T.-Y., Qin, T., Chen, H.-H., Ma, W.-Y. Frank: a ranking method with delity loss. in
‘SIGIR ’07: Proceedings of the 30th annual international ACM SIGIR conference on Research and
development in information retrieval’. ACM. New York, NY, USA. pp. 383–390, 2007.
192. Tsikrika, T., Lalmas, M. Combining evidence for Web retrieval using the inference network model: an
experimental study. Information Processing and Management, vol. 40, 2004.
193. Turpin, A., Moffat, A. Efficient Approximate Adaptive Coding. Data Compression Conference, pp. 357-366,
1997.
194. Van Rijsbergen, C. J. Information retrieval. London: Butterworth, 1979.
195. Voorhees, E. M. Using WordNet to disambiguate word senses for text retrieval. International Conference
on Research and Development in Information Retrieval, pp. 171–180, 1993.
196. Voorhees, E.M. & Harman, D.K. TREC: Experiment and Evaluation in Information Retrieval. Digital
Libraries and Electronic Publishing, MIT Press, 2005.
197. Voorhees, E.M. TREC: Continuing information retrieval’s tradition of experimentation. Communications of
the ACM , 50, pp. 51–54, 2007.
198. Wang, X., Zhai, C. Mining term association patterns from search logs for effective query reformulation.
Proceeding of the 17th ACM conference on Information and knowledge management, pp. 479–488, 2008.
199. Weerkamp, W., Balog, K., and Meij, E. J. A generative language modeling approach for ranking entities.
Advances in Focused Retrieval, 2009.
200. Wei, X., Croft, W. B. Investigating Retrieval Performance with Manually-Built Topic Models. Conference -
Large-Scale Semantic Access to Content (Text, Image, Video and Sound), pp. 333-349, 2007.
201. Wei, X., Croft, W. B. LDA-Based Document Models for Ad-hoc Retrieval. Proceedings of the 29th Annual
International ACM SIGIR Conference on Research & Development on Information Retrieval, pp. 178-185,
2006.
202. Williams, H., Zobel, J. Compressing Integers for Fast File Access. Computer Journal 42, pp. 193-201, 1999.
203. Witten, I., Moffat, A., and Bell, T. Managing Gigabytes: Compressing and Indexing Documents and Images,
Van Nostrand Reinhold, New York, 1994.
204. Wong, S., Ziarko, W., Wong, P. Generalized vector space model in information retrieval. Proceedings of the
8th ACM SIGIR Conference on Research and Development in information retrieval, New-York, USA, pp.
18–25, 1985.
205. Woods, W.A. Conceptual Indexing: A better way to organize knowledge. Technical Report SMLI TR-97-61,
Sun Microsystems Laboratories, Mountain View, CA, 1997.
Références bibliographiques 146
206. Xu, J., Li, H. Adarank: a boosting algorithm for information retrieval. Proceedings of the 30th annual
international ACM SIGIR conference on Research and development in information retrieval, New York,NY,
USA. pp. 391–398, 2007.
207. Xu, Y., Jones, G. J. F., Wang, B.. Query dependent pseudo-relevance feedback based on wikipedia.
Proceedings of the 32nd Annual International ACM SIGIR Conference on Research and Development in
Information Retrieval. ACM Press, pp. 59–66, 2009.
208. Yue Y., Finley T., Radlinski F., Joachims T. A support vector method for optimizing average
precision. Proceedings of the 30th annual international SIGIR Conference on Research and Development in
Information Retrieval, pp. 271-278, 2007.
209. Zhai, C., Lafferty, J. A study of smoothing methods for language models applied to ad hoc information
retrieval. In W.B. Croft, D.J. Harper, D.H. Kraft, & J. Zobel (Eds.), Proceedings of the 24th Annual
International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 334-342,
2001.
210. Zhai, C., Lafferty, J. Model-based feedback in the language modeling approach to information retrieval.
Proceedings of the 10th International Conference on Information and Knowledge Management. ACM Press,
pp. 403–410, 2001.
211. Zhang, J., Dimitroff, A. The impact of metadata implementation on webpage visibility in search engine
results (Part II). Information Processing and Management, 41(3):pp. 691–715, 2005.
212. Zhao, J., Yun, Y. A proximity language model for information retrieval''. Proceedings of the 32th annual
international ACM SIGIR conference on Research and development in information retrieval, pp. 291–298,
2009.
213. Zhu J · Xiangji H· Song, D., Rüger, S. Integrating multiple document features in language models for expert
finding. Knowledge Information System 23, pp. 29–54, 2010.
214. Zhu, X. L., Gauch, S. Incorporating quality metrics in centralized / distributed information retrieval on the
World Wide Web. Proceedings of the 23th Annual International ACM SIGIR Conference
on Research and Development in Information Retrieval, Athens, Greece, pp. 288–295. 2000.