0% ont trouvé ce document utile (0 vote)

38 vues31 pages

Recherche d'Information Textuelle: Fondamentaux

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

38 vues31 pages

Recherche d'Information Textuelle: Fondamentaux

Transféré par

lafene2453

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

UE : Bases de la recherche d’information textuelle

L3 Statistique et Informatique Décisionnelle

Lynda Tamine-Lechani
lechani@[Link]
Principes de la Recherche d’Information Textuelle

Plan du cours
• Introduction au cours

• Chapitre 1 - Indexation de textes : notions de base et principes

• Chapitre 2 - Modèles de base de la recherche d’information

• Chapitre 3 - Evaluation d’un système de recherche d’information

2
Principes de la Recherche d’Information Textuelle

Chapitre 1

Indexation de Textes :
Notions de Base et Principes

3
Le processus d’indexation Schéma de pondération des mots
dans les documents

Rappel : le processus de base de la recherche d’information

Documents Besoin en information

I.1. Comment représenter le contenu des

documents ? E.1. Quel besoin en
Indexation I.2 Comment représenter physiquement Expression information est associé
ces contenus ? à la requête ?

A.1. Comment estimer la pertinence

Représentants de d’un document pour une requête? Requête
documents
Appariement

Présentation
Documents sélectionnés

Feedback

E.1. Comment évaluer les performances d’un système de recherche d’information ?

4
Le processus d’indexation Schéma de pondération des mots
dans les documents

Le processus de base de la recherche d’information…de plus près

Besoin en information
Collecte *

Corpus

Requête
Indexation

Fichier inversés
Appariement
Feedback

Présentation

* Crawling dans le cas du web 5

Le processus d’indexation Schéma de pondération des mots
dans les documents
Langage d’indexation

Processus qui permet de transformer le document ou requête en substituts

capables de représenter leur contenu (Salton & McGill, 1983)

Sélection de descripteurs qui permettent de représenter le contenu

des documents

Plusieurs paramètres :

• Nature du descripteur : Mot, terme multi-mots, concept, acception

• Choix du descripteur : libre, contrôlé, mixte
• Générateur de descripteurs : manuel, automatique

6
Le processus d’indexation Schéma de pondération des mots
dans les documents
Nature du descripteur

ü Mot : ou lemme combinaison de morphèmes, plus petite forme linguistique dotée

d’une autonomie et un sens
orange, oranger, orangeraie, …

ü Terme ou multi-mots : combinaison de mots ayant un sens

pomme de terre, prêt-à-porter, chou-fleur

ü Concept : entité abstraite qui représente un ensemble d’objets par partage de

propriétés
Locomotion (englobe voiture, vélo, car, …)

ü Acception : signification d’ un mot sur la base de son usage dans la langue

synset de Wordnet

7
Le processus d’indexation Schéma de pondération des mots
dans les documents
Choix du descripteur

• Choix du descripteur
ü Contrôlé : descripteurs issus des entrées d’une ressource
o Thésaurus : descripteurs + relations d’hyperonymie, synonymie,
holonymie, référence (voir aussi)
o Dictionnaire : mot et liens entre les mots
o Base lexicale : relie les mots et multi-mots (lemmes) d’un domaine
o Terminologie : mots et liens entre mots d’un domaine
o Ontologie : concepts et liaisons entre concepts

ü Libre : descripteurs extraits du contenu du document selon les

règles de composition des mots de la langue

8
Le processus d’indexation Schéma de pondération des mots
dans les documents
Choix du descripteur
UMLS, multi-terminologie médicale Entrée d’UMLS, terminologie médicale

The adrenal glands are responsible for many processes in the body. When
functioning correctly, they produce various hormones that trigger chemical activity
in every system. But what happens when disorders, such as Cushing's syndrome,
interfere with those hormonal mechanisms?

9
Le processus d’indexation Schéma de pondération des mots
dans les documents
Générateur du descripteur
• Générateur du descripteur
ü Manuel
o Procédé d’indexation réalisé par des indexeurs humains,
généralement en utilisant un langage contrôlé

ü Automatique
o Indexeur automatique qui extrait les mots, multi-mot qui indexent le
document

• Manuel ou automatique : que choisir ?

ü Indexation manuelle coûteuse en temps
ü L’expérimentation montre que l’indexation automatique atteint au moins
les résultats de l’ indexation manuelle
ü La combinaison de l’ indexation manuelle et de l’indexation automatique améliore
les performances en recherche d’information

10
Le processus d’indexation Schéma de pondération des mots
dans les documents
Processus d’indexation

Corpus de documents
à indexer

Formatage (Parsing)

Suppression des
Segmentation mots vides (stop words)

Normalisation
Linguistique

Génération des index

Fichiers d’indexation

11
Le processus d’indexation Schéma de pondération des mots
dans les documents
Formatage
• Objectif : identifier les parties significatives du texte, puis les corps de textes/
métadonnées associées
ü Basé sur un langage de description standard : SGML, HTML, XML
<!DOCTYPE html> <html lang="fr" dir="ltr" class="client-nojs"> <head> <meta charset="UTF-8" />
<title> Recherche d'information — Wikipédia</title> <meta name="generator" content="MediaWiki
1.25wmf18" /
</table> </div> La recherche d'<a href="/wiki/Information" title="Information">information</a> (RI<a href="#cite_note-1">[1]</a>) est le domaine qui
étudie la manière de retrouver des informations dans un corpus. Celui-ci est composé de <a href= »
/wiki/Document" title="Document">documents</a> d'une ou plusieurs <a href= »
/wiki/Bases_de_donn%C3%A9es" title="Bases de données" class="mw-redirect">bases de
données</a>, qui sont décrits par un contenu ou les <a href="/wiki/M%C3%A9tadonn%C3%A9e"
title="Métadonnée">métadonnées</a> associées.

ü Format lié à un langage de description conventionnel (ex entreprise)

ü Pas de de format
Etape de parsing ignorée

12
Le processus d’indexation Schéma de pondération des mots
dans les documents
Segmentation
• Objectif : identifier les unités linguistiques du texte

ü Unité linguistique, c’est quoi ? unité ayant un sens comme le mot, phrase,
le paragraphe

ü Comment identifier ces unités ?

o Dépend du langage : langage informatique pour :
v adresse e-mail : [Link]@[Link] à lechani@[Link]
v adress web : https//[Link] à https//[Link]
v adresse IP : [Link]

13
Le processus d’indexation Schéma de pondération des mots
dans les documents
Segmentation

ü Dépend de la langue
o en français, les mots n’ont pas de caractères de ponctuation
donc facile à identifier

L’intelligence artificielle est la science L, intelligence, artificielle, est, la, science

qui recherche les méthodes qui, recherche, les, méthodes
de création ou simulation de l'intelligence. de, création, ou, simulation, de, l, intelligence

FAttention, quelques cas :

M. Xavier à M Xavier S. M. I. C à S M I C

o en Allemand le découpage des mots n’est pas basé sur les espaces,
Lebensversicherungsgesellschaftsangestellter (employé d’une société d’assurance vie)
o en Vietnamien, la plupart des mots sont une composition d’unités
de significations atomiques avec des espaces
o en arabe et en hebreu, les mots sont écrits de droite à gauche mais
les chiffres de gauche à droite

En conclusion : le segmenteur doit être adapté à la langue du document

14
Le processus d’indexation Schéma de pondération des mots
dans les documents
Elimination des mots vides (phase optionnelle)
• Objectif : éliminer les mots non porteurs de sens
ü Eliminer les mots outils
o Dépend de langue
v en français
le, l’, la, les, me, te, se, ce, cet, ces, cette, que, qui, je, tu, il, ils, nous, vous, votre, …
v en anglais
an, a, has, to, and, are, as at, be, by, for, from, the, that, he, was, were, will, it its, on, …)

Fpeut être dangereux ex vitamine a

ü Permet de limiter l’index aux signifiants

ü L’anti-dictionnaire :
o peut être de taille longue (200-300 mots), de taille très petite (7-12 mots)
o peut être non utilisé (cas des moteurs de recherche sur le web)
o peut être construit en utilisant les statistiques sur les termes fréquents
o l’ élimination des 150 mots les plus fréquents (mots vides compris)
permet de réduire le posting de 20-30%

15
Le processus d’indexation Schéma de pondération des mots
dans les documents
Normalisation
Objectif : réduire les variations lexicales et linguistiques
ü Variation lexicale
o Supprimer les points dans les abréviations
o Uniformiser la casse
o Supprimer les accents
o Normalisation des dates, des longueurs, des abréviations…

ü Variation linguistique
o Racinisation : réduire les mots à une racine
v Basée sur une approximation sans analyse morphologique
Ø Utilisation de dictionnaires, règles dépendantes de la langue
1) Français : traitement des affixes (suffixe, préfixe, infixe)
prétraitement-> traitement; impossible-> possible
calmement-> calme, peureux->peur

2) Français : réduction à la base (racine) toute catégorie confondue

malade, maladie, maladies, maladive -> malad

16
Le processus d’indexation Schéma de pondération des mots
dans les documents
Normalisation

3) en anglais, algorithme de Porter [Link]/~martin/PorterStemmer, application de règles

Règles Exemple
SSES -> SS caresses -> caresse
IES -> I ponies -> poni
SS -> SS caress -> caress
S -> cats -> cat

ü Avantages, inconvénients
+ Réduction considérable de la taille de l’index
- Normalisation agressive
Policy -> police
- Normalisation non applicable
matrices -> matrix
- Mots générés avec peu voire pas de sens troncature ->
troncature-> troncat
+ Peut être améliorée en utilisant une analyse de corpus

17
Le processus d’indexation Schéma de pondération des mots
dans les documents
Normalisation

ü Variation linguistique
o Lemmatisation : réduire les mots au même lemme
v basée sur une analyse morphologique
v Deux étapes :
1) Analyse morphologique de phrases en contexte
identifier la classe grammaticale : nom, verbe, pronom, etc.

2) Réduction au lemme selon la catégorie

Les enseignants doivent assurer leurs cours -> enseignant devoir assurer leur cours

• Quelques résultats expérimentaux (Maginini, 2006)

La lemmatisation permet de réduire :
ü la taille du dictionnaire de 40%
ü la taille du posting de 7%

18
Le processus d’indexation Schéma de pondération des mots
dans les documents
Génération de l’index

Objectif : Génération des index de documents permettant une recherche efficiente

1. Extraction des index des documents

a) Extraction de chaque descripteur
b) Association descripteur-document

2. Tri des index

3. Regroupement des index

a) Précision du nombre de descripteurs par document
b) Constituer les entrées (index, document)

4. Constitution du dictionnaire et du posting

a) Pour chaque index, calculer le nombre total de documents -> Dictionnaire
b) Pour chaque index, constituer une liste de postings qui associe pour chaque
document le nombre d’occurrences de cet index

19
Le processus d’indexation Schéma de pondération des mots
dans les documents

Doc 1 I did enact Julius Caesar: I was killed Doc 2 So let it be with Caesar. The noble Brutus
I’the Capitol; Brutus killed me hath told You Caesar was ambitious

Term DocId Term DocId Term DocId Freq. Terme

I 1 ambitious 2 ambitious 2 1

did 1 be 2 be 2 1

enact 1 brutus 1 brtutus 1 1

julius 1 brutus 2 brutus 2 1

casear 1 capitol 1 capitol 1 1

I 1 caesar 1 caesar 1 1

was 1 caesar 2 caesar 2 2

2. Regroupement
1. Tri
killed 1 caesar 2 des index did 1 1

I’ 1 did 1 enact 1 1

the 1 enact 1 hath 1 1

capitol 1 hath 1 i 1 1

brutus 1 i 1 i’ 1 1

killed 1 i’ 1 it 2 1

me 1 it 2 julius 1 1

so 2 julius 1 killed 1 2

let 2 killed 1 let 2 1

it 2 killed 1 me 1 1

be 2 let 2 noble 2 1

with 2 me 1 so 2 1

caesar 2 noble 2 the 1 1

The 2 so 2

Noble 2 the 1
20
Le processus d’indexation Schéma de pondération des mots
dans les documents
Génération de l’index

Term DocId Freq. Terme Term Df Freq.

Totale
ambitious 2 1
ambitious 1 1 2:1
be 2 1
be 1 1 2:1
brtutus 1 1
brutus 2 2 1:1 2:1
brutus 2 1
capitol 1 1 1:1
capitol 1 1
caesar 2 3 1:1 2:2
caesar 1 1 3. Index
did 1 1 1:1
caesar 2 2
enact 1 1 1:1
did 1 1
hath 1 1 1:1
enact 1 1
i 1 2 1:2
hath 1 1
i’ 1 1 1:1
i 1 2
it 1 1 2:1
i’ 1 1
julius 1 1 1:1
it 2 1
killed 1 2 1:2
julius 1 1
let 1 1 2:1
killed 1 2
me 1 1 1:1
let 2 1
noble 1 1 2:1
me 1 1
so 1 1 2:1
noble 2 1
the 1 1 1:1
so 2 1
the 1 1
Dictionnaire Posting

21
Le processus d’indexation Schéma de pondération des mots
dans les documents
Génération de l’index : exemple
• Soit les exemples de documents suivants :

D1 : Big cats are nice and funny

D2 : Small dogs are better than big dogs
D3 : Small cats are afraid of small dogs

• Quel est le vocabulaire du corpus ?

• Construire l’index et le posting

22
Le processus d’indexation Schéma de pondération des mots
dans les documents

• Considération de la position des mots dans le texte

ü Pour chaque mot du vocabulaire, on garde trace de ses différentes
positions

D1 : Être ou ne pas être

D2 : Etre nous donne le droit d’être
D3 : Droit de vivre et droit de donner la vie

Df Freq.
Totale
droit 2 3 3 : 2 <1,5>

etre 2 4 1 : 2 <1,5> 2 : 2 <1,7>

vivre 1 2 3: 1 <3>

ü Utile quand la pertinence est estimée sur la base de la proximité des mots de
la requête dans le document
Le processus d’indexation Schéma de pondération des mots
dans les documents

Extensions de l’index de base : index basé sur les n-grams

• n-gram caractères, n-grams mots : c’est quoi ?
Séquence de n caractères (n-gram caractères) ou n mots (n-grams mots) consécutifs
extraits à partir d’un texte
• Objectif : détecter la similarité des textes en utilisant le nombre de n-grams
caractères/mots en commun

Exemple : Texte ‘tobeornotto*be’

2-gram/bigram caractère : *t, to, o*, *b, be, e*,*o, or, r*, *n, no, ot, t*, *o, *b,
be (en considérant les espaces)
3-gram/trigram caractère : **t, *to, to*, *be, be*, e*o, *or, or*, r*n, *no, not,
ot*, t*t, *to, to*, o*b, *be, be*, e** (en considérant les espaces)

2 gram mot : to be, be or, or not, not to, to be

3-gram mot : to be or, be or not, or not to, not to be

Extensions de l’index de base : index basé sur les n-grams

Mot : ‘dream’

2-gram/bigram caractère : d, dr, re, ea, am, m

3-gram/trigram caractère : dr, dre, rea, eam, am

Copyright [Link]-Lechani 25
Le processus d’indexation Schéma de pondération des mots
dans les documents
Génération de l’index
• Considération de n-grams
ü Créer un index classique mot -> documents
ü + pour chaque combinaison de n caractères de chaque mot du
vocabulaire, appelé n-gramme, associer les mots du vocabulaire
où il est présent : n-gramme-> mot

theatre : the, hea, eat, tre

etre : etr, tre

3-gram
Df Freq. etre
etr
Totale
tre etre theatre
etre 2 4 1:2 2:2
1:1 2:1 the theatre
theatre 1 2

ü Utile pour parer aux variations lexicales des mots de la requête

et du document :
- erreurs de typographie gerant, grant
- variantes d’écriture du même mot cle, clef
- variantes d’écriture dûes à la langue university, universite
26
Le processus d’indexation Schéma de pondération des mots
dans les documents
Génération de l’index : éléments d’implémentation

• Structure de données
ü Liste triée

ü B-arbre

ü Table de hachage

27
Le processus d’indexation Schéma de pondération des mots
dans les documents
Génération de l’index : éléments d’implémentation

• Construction du fichier inverse

28
Copyright Manning et al. 2008
Le processus d’indexation Schéma de pondération des mots
dans les documents
Génération de l’index : éléments d’implémentation

• Indexation dynamique dans le cas du web

o Problème de mise à jour dynamique du dictionnaire et du

posting après ajout, suppression de documents à l’issue de la
phase de collecte

o Solutions :
v Reconstruction intégrale de l’index après chaque phase
(périodique) de collecte
v Construction dynamique en gardant les traces de mises à
jour
ü Maintenir un index en mémoire des changements
(ajout/suppression)
ü Dès que l’index en mémoire est saturé, le fusionner
avec la version précédente de l’index sur disque

29
Le processus d’indexation Schéma de pondération des mots
dans les documents
Importance des mots dans les documents
• Soit les exemples de documents suivants :

D1 : Big cats are nice and funny

D2 : Small dogs are better than big dogs
D3 : Small cats are afraid of small dogs

• Quel sont les mots les plus importants pour traduire le contenu du document ?
• Quel mot est plus important que quel autre dans le document ?
• Quels mots permettent de distinguer le contenu d’un document d’un autre document
?

30
Le processus d’indexation Schéma de pondération des mots
dans les documents
Hypothèses du schéma de pondération TFXIDF
• Hypothèses de base
ü Plus un mot est fréquent dans le document, plus il est important : TF

Informatique : 4, ordinateur : 2, technique : 2, ….

ü Moins il y a de documents de la collection où apparaît le mot, plus ils est

important : IDF
Distinguer des mots très fréquents mais peu significatifs (mots vides)

• Formalisons :

Importance (Mot, Document)= TF (Mot, Document) X IDF (Mot, Collection)

• Comment calculer TF(Mot, Document) ?

• Comment calculer IDF (Mot, Collection) ?

Vous aimerez peut-être aussi

Indexation et Recherche d'Information
Pas encore d'évaluation
Indexation et Recherche d'Information
36 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
39 pages
Chap2 Indexation
Pas encore d'évaluation
Chap2 Indexation
66 pages
Cours 2 Indexation Et Interrogation 2022
Pas encore d'évaluation
Cours 2 Indexation Et Interrogation 2022
28 pages
Indexation de l'information : méthodes et enjeux
Pas encore d'évaluation
Indexation de l'information : méthodes et enjeux
14 pages
Indexation et Représentation de l'Information
Pas encore d'évaluation
Indexation et Représentation de l'Information
29 pages
Chapitre3 VF
100% (1)
Chapitre3 VF
52 pages
Optimisation de l'indexation documentaire
Pas encore d'évaluation
Optimisation de l'indexation documentaire
23 pages
Techniques d'indexation multimédia
Pas encore d'évaluation
Techniques d'indexation multimédia
33 pages
Chapitre - II Indexation en RI
Pas encore d'évaluation
Chapitre - II Indexation en RI
73 pages
Introduction à la Recherche d'Info
Pas encore d'évaluation
Introduction à la Recherche d'Info
53 pages
Systèmes de recherche d'informations et indexation
Pas encore d'évaluation
Systèmes de recherche d'informations et indexation
26 pages
Chapitre - 1 Techniques Dindexation Et Recherche Multimedia 2 1
Pas encore d'évaluation
Chapitre - 1 Techniques Dindexation Et Recherche Multimedia 2 1
40 pages
Chap2 Indexation OL
100% (1)
Chap2 Indexation OL
28 pages
Chapitre3 Indexation
Pas encore d'évaluation
Chapitre3 Indexation
69 pages
Chapitre - 1 - Techniques D'indexation Et Recherche Multimedia
Pas encore d'évaluation
Chapitre - 1 - Techniques D'indexation Et Recherche Multimedia
40 pages
Recherche d'Information et Indexation
Pas encore d'évaluation
Recherche d'Information et Indexation
32 pages
LOPEZ UROZ Strategies de Recherche
Pas encore d'évaluation
LOPEZ UROZ Strategies de Recherche
7 pages
Indexation automatique de documents métiers
Pas encore d'évaluation
Indexation automatique de documents métiers
6 pages
Indexation et Analyse avec Elasticsearch
Pas encore d'évaluation
Indexation et Analyse avec Elasticsearch
11 pages
Mi3an10 Recherche Information
Pas encore d'évaluation
Mi3an10 Recherche Information
88 pages
Optimiser l'Indexation Documentaire
Pas encore d'évaluation
Optimiser l'Indexation Documentaire
13 pages
Introduction au multimédia et SGBD
Pas encore d'évaluation
Introduction au multimédia et SGBD
53 pages
Guide sur l'Indexation Documentaire
Pas encore d'évaluation
Guide sur l'Indexation Documentaire
47 pages
Introduction à l'indexation documentaire
Pas encore d'évaluation
Introduction à l'indexation documentaire
39 pages
Introduction à la Recherche d'Information
Pas encore d'évaluation
Introduction à la Recherche d'Information
18 pages
Chapitre1 VF
100% (1)
Chapitre1 VF
44 pages
Guide pour créer un index sous Word
Pas encore d'évaluation
Guide pour créer un index sous Word
7 pages
Désambiguïsation en recherche d'information
Pas encore d'évaluation
Désambiguïsation en recherche d'information
22 pages
Cours Text Mining LIAA3
0% (1)
Cours Text Mining LIAA3
28 pages
Techniques de Recherche d'Information Multimédia
Pas encore d'évaluation
Techniques de Recherche d'Information Multimédia
26 pages
Classification Automatique de Texte
Pas encore d'évaluation
Classification Automatique de Texte
5 pages
Traitement documentaire et indexation
Pas encore d'évaluation
Traitement documentaire et indexation
18 pages
Introduction au Topic Mining en Data Science
Pas encore d'évaluation
Introduction au Topic Mining en Data Science
28 pages
Prétraitement et pondération des documents
Pas encore d'évaluation
Prétraitement et pondération des documents
55 pages
Techniques et outils de recherche d'information
Pas encore d'évaluation
Techniques et outils de recherche d'information
18 pages
Les Langages Documentaires Et Le Thesaurus en Particulier
Pas encore d'évaluation
Les Langages Documentaires Et Le Thesaurus en Particulier
52 pages
Série 1-RI-ISIL
100% (1)
Série 1-RI-ISIL
4 pages
Outils en ligne pour la recherche documentaire
Pas encore d'évaluation
Outils en ligne pour la recherche documentaire
59 pages
Indexation des Comptes Rendus Radiologiques
Pas encore d'évaluation
Indexation des Comptes Rendus Radiologiques
200 pages
Matrice Documents-Termes en Text Mining
Pas encore d'évaluation
Matrice Documents-Termes en Text Mining
39 pages
Chapt 1 Introduction Recherche Information OL
Pas encore d'évaluation
Chapt 1 Introduction Recherche Information OL
24 pages
Techniques de recherche d'information universitaire
Pas encore d'évaluation
Techniques de recherche d'information universitaire
31 pages
Chapter 2
Pas encore d'évaluation
Chapter 2
132 pages
Unitex GramLab 3.2beta Usermanual FR
Pas encore d'évaluation
Unitex GramLab 3.2beta Usermanual FR
398 pages
Projet Index
Pas encore d'évaluation
Projet Index
31 pages
Améliorer la Recherche avec LSI
Pas encore d'évaluation
Améliorer la Recherche avec LSI
2 pages
2010.jeptalnrecital Long.37
Pas encore d'évaluation
2010.jeptalnrecital Long.37
10 pages
Index
Pas encore d'évaluation
Index
3 pages
Cours Technique D'indexation Et Recherche Multimedia
100% (3)
Cours Technique D'indexation Et Recherche Multimedia
148 pages
Introduction à la Recherche d'Information
Pas encore d'évaluation
Introduction à la Recherche d'Information
26 pages
Jour3 1-Traitement Information
Pas encore d'évaluation
Jour3 1-Traitement Information
30 pages
Cours de Recherche Documentaire L1 DD - Module 2 Et 3
Pas encore d'évaluation
Cours de Recherche Documentaire L1 DD - Module 2 Et 3
11 pages
Guide de création d'index dans Word
Pas encore d'évaluation
Guide de création d'index dans Word
3 pages
Introduction à la recherche d'information
Pas encore d'évaluation
Introduction à la recherche d'information
7 pages
Hassert Naima 2023 Memoire
Pas encore d'évaluation
Hassert Naima 2023 Memoire
105 pages
Optimisation de la recherche monolingue
Pas encore d'évaluation
Optimisation de la recherche monolingue
20 pages
Obsèques Madame Limbo1
Pas encore d'évaluation
Obsèques Madame Limbo1
4 pages
Possession Vaut Titres
Pas encore d'évaluation
Possession Vaut Titres
4 pages
Liste Insultes
Pas encore d'évaluation
Liste Insultes
156 pages
256E36D1
Pas encore d'évaluation
256E36D1
7 pages
Kant Avec Sade
Pas encore d'évaluation
Kant Avec Sade
23 pages
La Digitalisation: Et Le Big Data
Pas encore d'évaluation
La Digitalisation: Et Le Big Data
1 page
Cahier de texte : Période 1, Sept-Oct 2023
Pas encore d'évaluation
Cahier de texte : Période 1, Sept-Oct 2023
3 pages
Examen Etude S de Marché
Pas encore d'évaluation
Examen Etude S de Marché
2 pages
Resumes COMHISMA PDF
0% (1)
Resumes COMHISMA PDF
60 pages
Extrait Sur L''importance de L'agriculture
Pas encore d'évaluation
Extrait Sur L''importance de L'agriculture
2 pages
Template de Personnage Prêtre
Pas encore d'évaluation
Template de Personnage Prêtre
9 pages
Délais de Paiement - Les 5 Points Clés de La Loi 69-21
Pas encore d'évaluation
Délais de Paiement - Les 5 Points Clés de La Loi 69-21
3 pages
Politiques Sociales: en 38 F Iches
Pas encore d'évaluation
Politiques Sociales: en 38 F Iches
19 pages
50 Affirmations Pour L'Argent, L'Abondance Et La Prospérité
Pas encore d'évaluation
50 Affirmations Pour L'Argent, L'Abondance Et La Prospérité
13 pages
Définition du Droit Public Économique
Pas encore d'évaluation
Définition du Droit Public Économique
11 pages
Développer la confiance en soi
100% (6)
Développer la confiance en soi
8 pages
MEMOIRE Sur Environnement de Travail Et Performance Organisationnelle
Pas encore d'évaluation
MEMOIRE Sur Environnement de Travail Et Performance Organisationnelle
129 pages
Développement durable et alimentation bio
100% (1)
Développement durable et alimentation bio
7 pages
Problématique Socio-Juridique Artibonite
Pas encore d'évaluation
Problématique Socio-Juridique Artibonite
102 pages
Cours - Macroéconomie-ENCG-AP-S2-Pr Abdeslam BOUDHAR-2024-2025-Chapitre 3
Pas encore d'évaluation
Cours - Macroéconomie-ENCG-AP-S2-Pr Abdeslam BOUDHAR-2024-2025-Chapitre 3
50 pages
24 Les Temperaments
Pas encore d'évaluation
24 Les Temperaments
4 pages
Oussama Sarir HRM
Pas encore d'évaluation
Oussama Sarir HRM
1 page
Contrat D'esclavage
Pas encore d'évaluation
Contrat D'esclavage
3 pages
Paris Photo 2021
Pas encore d'évaluation
Paris Photo 2021
119 pages
L'Œuvre de Noël
Pas encore d'évaluation
L'Œuvre de Noël
3 pages
Releve Fiscal
Pas encore d'évaluation
Releve Fiscal
1 page
Fam 00105 Filtros Aceite Kendall
Pas encore d'évaluation
Fam 00105 Filtros Aceite Kendall
3 pages
Fiche Pédagogique Le Dialogue Dans Le Récit
100% (1)
Fiche Pédagogique Le Dialogue Dans Le Récit
3 pages
Service Client Informatique Essentiel
Pas encore d'évaluation
Service Client Informatique Essentiel
22 pages
Arts chrétiens au Centre-Sud Cameroun
Pas encore d'évaluation
Arts chrétiens au Centre-Sud Cameroun
16 pages

Recherche d'Information Textuelle: Fondamentaux

Transféré par

Recherche d'Information Textuelle: Fondamentaux

Transféré par

UE : Bases de la recherche d’information textuelle

L3 Statistique et Informatique Décisionnelle

• Chapitre 1 - Indexation de textes : notions de base et principes

• Chapitre 2 - Modèles de base de la recherche d’information

• Chapitre 3 - Evaluation d’un système de recherche d’information

Rappel : le processus de base de la recherche d’information

Documents Besoin en information

I.1. Comment représenter le contenu des

A.1. Comment estimer la pertinence

E.1. Comment évaluer les performances d’un système de recherche d’information ?

Le processus de base de la recherche d’information…de plus près

* Crawling dans le cas du web 5

Processus qui permet de transformer le document ou requête en substituts

Sélection de descripteurs qui permettent de représenter le contenu

• Nature du descripteur : Mot, terme multi-mots, concept, acception

ü Mot : ou lemme combinaison de morphèmes, plus petite forme linguistique dotée

ü Terme ou multi-mots : combinaison de mots ayant un sens

ü Concept : entité abstraite qui représente un ensemble d’objets par partage de

ü Acception : signification d’ un mot sur la base de son usage dans la langue

ü Libre : descripteurs extraits du contenu du document selon les

• Manuel ou automatique : que choisir ?

Génération des index

ü Format lié à un langage de description conventionnel (ex entreprise)

ü Comment identifier ces unités ?

L’intelligence artificielle est la science L, intelligence, artificielle, est, la, science

FAttention, quelques cas :

En conclusion : le segmenteur doit être adapté à la langue du document

Fpeut être dangereux ex vitamine a

ü Permet de limiter l’index aux signifiants

2) Français : réduction à la base (racine) toute catégorie confondue

3) en anglais, algorithme de Porter [Link]/~martin/PorterStemmer, application de règles

2) Réduction au lemme selon la catégorie

• Quelques résultats expérimentaux (Maginini, 2006)

Objectif : Génération des index de documents permettant une recherche efficiente

1. Extraction des index des documents

2. Tri des index

3. Regroupement des index

4. Constitution du dictionnaire et du posting

Term DocId Term DocId Term DocId Freq. Terme

enact 1 brutus 1 brtutus 1 1

julius 1 brutus 2 brutus 2 1

casear 1 capitol 1 capitol 1 1

was 1 caesar 2 caesar 2 2

the 1 enact 1 hath 1 1

let 2 killed 1 let 2 1

caesar 2 noble 2 the 1 1

Term DocId Freq. Terme Term Df Freq.

D1 : Big cats are nice and funny

• Quel est le vocabulaire du corpus ?

• Considération de la position des mots dans le texte

D1 : Être ou ne pas être

etre 2 4 1 : 2 <1,5> 2 : 2 <1,7>

Extensions de l’index de base : index basé sur les n-grams

Exemple : Texte ‘to*be*or*not*to*be’

2 gram mot : to be, be or, or not, not to, to be

Extensions de l’index de base : index basé sur les n-grams

2-gram/bigram caractère : d, dr, re, ea, am, m

theatre : the, hea, eat, tre

ü Utile pour parer aux variations lexicales des mots de la requête

• Construction du fichier inverse

• Indexation dynamique dans le cas du web

o Problème de mise à jour dynamique du dictionnaire et du

D1 : Big cats are nice and funny

Informatique : 4, ordinateur : 2, technique : 2, ….

ü Moins il y a de documents de la collection où apparaît le mot, plus ils est

Importance (Mot, Document)= TF (Mot, Document) X IDF (Mot, Collection)

• Comment calculer TF(Mot, Document) ?

Vous aimerez peut-être aussi

Exemple : Texte ‘tobeornotto*be’