TECHNIQUES
D’INDEXATION ET
RECHERCHE
SI2
2024/2025
Plan du cours
2
Plan du cours
1. Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche
d’informations
5. Problématique du multimédia
3
1. Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche
d’informations
5. Problématique du multimédia
4
Problématique
de la
recherche
Introduction : présentation du domaine
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
La recherche d’information (RI) ?
pertinence et
de modèle de
recherche
d’informations
Problématique
du multimédia
Ensemble des méthodes et techniques
pour l’acquisition, l’organisation, le
stockage et la sélection d’information
pertinente pour un utilisateur
5
Problématique
de la
recherche
Introduction : présentation du domaine
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
pertinence et
de modèle de
recherche
d’informations
Contextes d'utilisation
Problématique
du multimédia
Bureautique
Internet (Web, Forum/Blog search, Actualités)
Applications techniques : maintenance de matériel
Bibliothèques numériques «digital library»
Domaine spécialisé (droit, littérature, chimie,…)
6
Problématique
de la
recherche
Introduction : présentation du domaine
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
pertinence et
de modèle de
recherche
d’informations
Contextes d'utilisation
Problématique
du multimédia
Informatique médicale : recherche de dossiers médicaux
similaires,
Études statistiques
Recherche scientifique
Recherche personnelle(Nos propres PC , Google ,Yahoo! )
etc.
7
Problématique
de la
recherche
Introduction : présentation du domaine
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
Exemples de moteurs de recherche
pertinence et
de modèle de
recherche
d’informations
Problématique
du multimédia
8
Problématique
de la
recherche
Introduction : présentation du domaine
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
pertinence et
de modèle de
recherche
d’informations
Problématique
du multimédia
L’information numérique est disponible par tout!!!
9
Problématique
de la
recherche
Introduction : présentation du domaine
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
pertinence et
de modèle de
recherche
d’informations
Objectif:
Problématique
du multimédia
la sélection de l’information
=> arriver à trouver au bon moment l’information utile
10
Problématique
de la
recherche
Introduction : présentation du domaine
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
pertinence et
de modèle de
recherche
d’informations
Objectif:
Problématique
Rechercher une information a un coût
du multimédia
«On» passe (en moyenne) 35% de son temps à
rechercher des informations
Les managers y consacrent 17% de leur temps
Nécessité de développer des systèmes automatisés
efficaces permettant
Collecter, Organiser, Rechercher, Sélectionner (fonctions
de système RI)des informations
11
Problématique
de la
recherche
Introduction : présentation du domaine
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
pertinence et
Données, Information, Connaissance
de modèle de
recherche
d’informations
Problématique
du multimédia
1. Donnée : représentation abstraite et élémentaire de la valeur d’une
propriété, d’un objet, d’un phénomène ou d’un événement. Elle peut être
de type textuel, image, son, ..
Exemple :15
2. Information : collection significative des données décrivant l’état d’un
objet, d’un phénomène ou d’un événement.
Exemple :15°C –relevé à 18H à paris
3. Connaissance : représentation abstraite d’un élément d’une réflexion ou
d’un raisonnement à propos de l’état d’un objet, d’un phénomène ou d’un
événement. C’est une information validée et retenue comme règle.
Exemple :étant donné qu’on est à paris à 18H ,15°C c’est plutôt froid 12
Problématique
de la
recherche
Introduction : présentation du domaine
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
pertinence et
de modèle de
recherche
d’informations
Les acteurs de la Recherche d'Information
Collection :
Problématique
du multimédia
un ensemble de
documents
Utilisateur :
Système de RI : l'outil qui doit
un besoin
retrouver les documents
d'information
pertinents pour le besoin
et/ou une
de l'utilisateur
tâche
13
à accomplir
Problématique
de la
recherche
Introduction : présentation du domaine
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
Diversité des besoins d'information
pertinence et
de modèle de
recherche
d’informations
Problématique
du multimédia
Recherche d’un élément connu
L’utilisateur sait exactement quels éléments il
recherche.
Il sait reconnaître les éléments désirés s’il les voit.
Exemple : recherche d'une citation bibliographique
précise.
14
Problématique
de la
recherche
Introduction : présentation du domaine
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
Diversité des besoins d'information
pertinence et
de modèle de
recherche
d’informations
Problématique
du multimédia
Recherche d’une information générale
L’utilisateur recherche une information sur un sujet en général.
Il existe de nombreuses façons de décrire le sujet.
Il est possible que l’information pertinente ne soit pas reconnue
Cette information peut ne satisfaire l’utilisateur
que de façon partielle.
Exemple : Les réformes de la recherche en France
15
Problématique
de la
recherche
Introduction : présentation du domaine
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
Diversité des besoins d'information
pertinence et
de modèle de
recherche
d’informations
Problématique
du multimédia
Recherche d’une information précise
L’utilisateur recherche une information spécifique mais ignore sous quelle forme
elle se présente.
Réponse partielle impossible
Exemple : À quelle date les coupes du mondes sont déroulés
Exploration
Le but n’est pas de répondre à une question en particulier, mais de parcourir
l’ensemble des données pour découvrir quels types d’informations concernant un
sujet ou un domaine sont présents.
Exemple : navigation sur internet pour consulter des catalogues en ligne. 16
Problématique
de la
recherche
Problèmes
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
pertinence et
de modèle de
recherche
d’informations
Problématique
Diversité des sources d'information
du multimédia
Nature des fichiers de ressources
o Bases de données
o Fichiers textes
o images,
o sons,
o vidéo,
o graphiques,
o etc.
17
Problématique
de la
recherche
Problèmes
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
pertinence et
de modèle de
recherche
d’informations Difficultés d'accès, couverture, temps de traitement
Problématique
du multimédia
Les bases documentaires sont très grandes, réparties sur de
nombreux supports dans des endroits différents.
Difficultés de définition de la pertinence
Comment un document remplit-il le besoin informationnel
d'une personne donnée ?
Quelle est sa pertinence ? Comment la mesure-t-on ?
Difficulté d'exploitation
Les documents pertinents ne sont pas
nécessairement dans la langue de la requête.
L'information recherchée n'est pas nécessairement
clairement identifiable dans un document.
18
Problématique
de la
recherche
Concepts de base de la recherche d'information
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
pertinence et
de modèle de
recherche
d’informations CONCEPTS DE BASE DE LA RI:
Problématique
du multimédia
Requête :Ensemble de mots-clés
–>Une représentation possible du besoin en information
19
Problématique
de la
recherche
Concepts de base de la recherche d'information
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
pertinence et
de modèle de
recherche
d’informations
Problématique
du multimédia
Indexation
Collections dynamiques (modèle de document)
vs. statiques
Modèle de
recherche Évaluation
Requête
20
1. Introduction : présentation du domaine
1. Problématique de la recherche d’information
2. Fonctions des systèmes de RI
3. Indexation, Interrogation
4. Notions de pertinence et de modèle de recherche
d’informations
5. Problématique du multimédia
21
Problématique
de la
recherche
Fonctions des systèmes de recherche d'information
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
pertinence et
de modèle de
recherche
Lorsque l’utilisateur présente un besoin en information, le SRI met en œuvre
d’informations
Problématique
du multimédia
un certain nombre de processus pour réaliser la mise en correspondance entre
le contenu des documents web d’une part, et celui de la requête utilisateur d’une autre part.
Le SRI est défini par ses modèles de représentation des documents et des
requêtes utilisateur, et sa fonction de recherche pour la mise en
correspondance entre les deux univers de représentations.
C’est un processus composé de deux fonctions principales :
Modèle de représentation
Modèle de recherche ou correspondance requête-document 22
Problématique
de la
recherche
Fonctionnement des systèmes de recherche d'information
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
Architecture d’un SRI selon (Salton et McGill 1986)
pertinence et
de modèle de
recherche
d’informations
Problématique
du multimédia
23
Problématique
de la
recherche
Fonctions des systèmes de recherche d'information
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
pertinence et
de modèle de Modèle de représentation:
recherche
d’informations
Problématique
du multimédia Le prétraitement des documents:
o extraire à partir des documents une représentation qui couvre au mieux leur contenu
o Elle consiste à l'extraction d'un ensemble de descripteurs les plus représentatifs du contenu,
ces descripteurs sont appelés aussi par les entrées de l’index ou les termes d’indexation,
utilisés pour l’indexation de ces documents
L’interprétation des requêtes des utilisateurs
o cette opération a pour rôle de représenter le besoin en information des utilisateurs.
o il s’agit d’extraire les descripteurs les plus représentatifs du contenu de la requête en se
basant sur une analyse qui peut couvrir une ou plusieurs dimensions (syntaxique, lexicale,
sémantique, etc.). 24
Problématique
de la
recherche
Fonctions des systèmes de recherche d'information
d’information
Fonctions des
systèmes de
RI
Indexation,
Interrogation
Notions de
pertinence et
de modèle de
recherche
d’informations Modèle de recherche ou correspondance requête-document
Problématique
du multimédia
Selon les représentations de la requête et des documents, le SRI
effectue un appariement entre ces deux univers de
représentation, en vue d'évaluer la pertinence des documents
vis-à-vis de la requête.
Le système décidera si un document est pertinent, et le
sélectionnera pour le présenter à l’utilisateur.
25