100% ont trouvé ce document utile (1 vote)

277 vues28 pages

Chap2 Indexation OL

Le document décrit le processus d'indexation automatique de documents, y compris les approches basées sur la fréquence des termes, la valeur de discrimination et Tf-Idf.

Transféré par

Sou Miaa

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

100% ont trouvé ce document utile (1 vote)

277 vues28 pages

Chap2 Indexation OL

Le document décrit le processus d'indexation automatique de documents, y compris les approches basées sur la fréquence des termes, la valeur de discrimination et Tf-Idf.

Transféré par

Sou Miaa

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Saad Dahlab BLIDA 1

Faculté des sciences

Département d’informatique

Chapitre 2: Indexation

Module: Recherche d’Information

L3 ISIL
Par: Dr. Oukid L

1
2019- 2020
Rappel
Requêt
e

-- --- -- --- -- --- -- ---

------
SRI ------ -- --
-- --- ------
-- --- ------
------ ------
-- --- -----
-----
------ -- --------
------ -----------
------ -----
------------ ------------
---------- -----------
-----
------ ----- ------
------ ------------
------

Utilisateur SRI Collection de documents

2
Rappel (Suite)

Architecture générale d’un système de Recherche d’Information

3
Indexation

 Processus de représentation des documents et

de la requête

 Extraction des descripteurs (mots-clefs, termes)

 Représentation des descripteurs par une liste de

termes significatifs pour l'unité textuelle
correspondante

4
Indexation (suite)

 Peut être:

 Manuelle  Expert en indexation

 Automatique  Programme informatique
 Semi-automatique  Combinaison des deux

5
Indexation automatique

6
Objectif de l’indexation

 Trouver une structure permettant de représenter

un document et une requête de façon à:

 Garder que les informations pertinentes pour la

recherche

 Réduire la taille du document

 Faciliter le processus de recherche

7  Réduire le temps de recherche

Etape 1: Extraction des mots
Extraire les termes « tockenization »
 Terme : suite de caractères séparés par (blanc
ou signe de ponctuation, caractères spéciaux,...),
Nombres

 Ce sont les index utilisés lors de la recherche

 Dépend de la langue
 Exemple: langue française
 L'ensemble → un terme ou deux termes ?
 L ? L’ ? Le ?
9
Indexation automatique

Approches de
base

Tf-Idf (Term
Fréquence Valeur de Frequency,
d’occurrences discrimination Inverse Document
Frequency)

10
Approche basée sur la fréquence
d’occurrences

 Objectif : retrouver les mots qui représentent le

mieux le contenu d’un document

 Principe : Un mot est important si sa fréquence

d’apparition dépasse un seuil défini

 Etapes :
1. Calculer la fréquence d’apparition de chaque terme dans
le document
2. Définir un seuil minimal
3. Garder uniquement les termes dont la fréquence est
supérieure au seuil

11
Exercice 1
 Soit la collection de documents suivantes:

D1: « langage Java basé langage C++ Java

langage puissant»
D2: « langage programmation C++ langage utilisé
traduire algorithme programme langage Java C++
Python »
D3: « langage programmation Python très utilisé
traitement texte programmation Python»

 Créer l’index de cette collection en utilisant la

12
méthode de fréquence avec un seuil égale à 2.
Approche basée sur la valeur de
discrimination

 Objectif : retrouver les termes qui distinguent un

document par rapport aux autres documents de
la collection

 Principe :
 Un terme est important s’il apparait seulement
dans un petit nombre de documents
 Approche généralement utilisée: Tf-Idf

13
Approche basée sur Tf-Idf

 TF « Term Frequency »: Fréquence d’un terme

dans un document
 Plus un terme est fréquent dans un document plus il
est important dans la description de ce document

 IDF « Inverse Document Frequency »:

Fréquence inverse d’un terme
 Mesure l'importance d'un terme dans le corpus de
documents

14
Calcul de Tf-Idf
nt ,d
 TF Tf t ,d 
Nd
 Où nt ,d
est la fréquence d'apparition du terme t
dans le document
Nd d et est le nombre total des
termes dans d
 IDF D
Idf t  log
{d j : ti  d j }

: ci Ddest
{d jOù j} le nombre total de documents dans la
collection et
………….représente le nombre
Tf  Idf de documents où le
 Tf t ,d  Idf t
15 terme t apparait.
Exercice 2
 Soit la collection de documents suivantes:

D1: « langage Java basé langage C++ Java

langage puissant»
D2: « langage programmation C++ langage utilisé
traduire algorithme programme »
D3: « langage de programmation Python est très
utilisé pour le traitement de texte programmation
Python»

 Créer l’index de cette collection en utilisant la

16
méthode Tf-Idf
Amélioration du processus
d’indexation

17
Amélioration 1: Elimination des mots vides
 Les mots vides sont généralement les plus
fréquents dans un document

 Exemple:
 Anglais : the, or, a, you, I, us, ...etc.
 Français : le , la de , des, je, tu, ...etc.

 Elimination des mots vides en utilisant une liste «

StopList »

18
Exemple
 Soit le document suivant:
D1: « le langage java est basé sur le langage C++
»

 Mots vides dans D1:

D1: « le langage java est basé sur le langage C++
»

 Résultat après élimination des mots vides:

D1: « langage java basé langage C++ »
19
Amélioration 2 : Normalisation

 Normalisation:
 Processus morphologique permettant de regrouper
les variantes d’un mot

 Techniques:
 Lemmatisation
 Racinisation
 Troncature

20
Normalisation (suite)
1- Lemmatisation

 Transformer les flexions en leur lemme

 Exemple: pris, prend, prisse prendre

 Outils logiciels:
 Exemple: TreeTagger

21
Normalisation (suite)

2- «Racinisation » (radicalisation) / (stemming)

 Transformer les flexions en leur radical ou
stemme

 Exemple :
 Français: économie, économiquement,
économiste,
économ
 Anglais : retrieve, retrieving, retrieval, retrieved,
retrieves
retriev
22
Normalisation (suite)
2- «Racinisation » (radicalisation) / (stemming)

 Utilisation de règles de transformations

 règle de type : condition action
 Exemple : si mot se termine par s alors supprimer
la terminaison

 Technique utilisée principalement pour l’anglais

 L’algorithme le plus connu est : Porter

23
Algorithme de Porter
 Porter: basé sur un ensemble de conditions actions
 old suffix  new suffix
 Les règles sont divisées en étapes et sont
examinées en séquence
 e.g. Step 1a:
 sses  ss
 ies  i (ponies  poni)
 s  NULL (cats  cat)
 e.g. Step 1b:
 if m>0 eed  ee (agreed  agree)
 if *v*ed  NULL (plastered  plaster but bled
 bled)

 [Link]
24
Exemple de normalisation avec
l’algorithme de Porter
 Texte original:
marketing strategies carried out by U.S. companies
for their agricultural chemicals, report predictions
for market share of such chemicals, or report
market statistics for agrochemicals, pesticide,
herbicide, fungicide, insecticide, fertilizer,
predicted sales, market share, stimulate demand,
price cut, volume of sales

 Texte après Porter + suppression des mots vides:

Market 4, strateg 1, carr 1, compan 1, US 1,
agricultur 1, chemic 2, report 2, predict 2, share
1, statist 1, agrochem 1, pesticid 1, herbicid 1,
fungicid 1, insecticid 1, fertil 1, sale 2, stimul 1,
demand 1, price 1, cut 1, volum 1
25
Normalisation (suite)
3- Troncature

 Tronquer les mots à X caractères

 Tronquer plutôt les suffixes

 Exemple troncature à 7 caractères

 économiquement : écomoni

Quelle est la valeur optimale de X ? : 7

caractères pour le Français

26
Exemple de normalisation par
troncature
 Document
 un système de recherche d ’informations (document) (SRI,
base de données documentaires) permet d ’analyser,
d ’indexer et de retrouver les documents pertinents
répondant à un besoin d ’un utilisateur.
 Extraction des mots et élimination des mots vides
 système recherche informations document SRI base
données documentaires analyser indexer retrouver
document pertinents répondant besoin utilisateur
 Normalisation par troncature à 7 caractères
 système recherc informa documen sri base donnee
documen analyse indexer retrouv documen pertine
reponda besoin utilisa
 Pondération par la méthode de fréquences
 systeme 1,recherc 1, informa 1, documen 3, sri 1, base 1,
donnee 1, analyse1, indexer 1, retrouv 1, pertine 1, reponda 2,
27 besoin 3, utilisa 1
Avantages \ inconvénients de la
normalisation
 Contrairement à la lemmatisation, la stemmatisation
produit des fois des “stems” qui n’ont pas de sens
donc difficiles à interpréter
 Exemples:
o Porter: iteration/iter et general/gener
o Troncature: Internet/Interne
 La stemmatisation est moins sensible aux fautes
d’orthographes que la lemmatisation
 La lemmatisation échoue à la moindre faute
d’horthogaphe
 Stemmatisation: oublis de quelques
normalisations intéressantes
 Exemple :

28  European/Europe, matrices/matrix, machine/machinery ne

sont pas normalisés
Références
-G. Salton and M. J. McGill. Introduction to modern
information retrieval. McGraw-Hill, New York, 1983

-C. Manning, P. Raghavan, and H. Schütze. An Introduction

to Informa-
-tion Retrieval. Cambridge university press, Cambridge,
England, 2009.

-[Link]. Cours Recherche d’Information

[Link]

Vous aimerez peut-être aussi

Chapitre3 VF
100% (1)
Chapitre3 VF
52 pages
Chapitre3 Indexation
Pas encore d'évaluation
Chapitre3 Indexation
69 pages
Indexation et Recherche d'Information
Pas encore d'évaluation
Indexation et Recherche d'Information
36 pages
Chapitre - 1 - Techniques D'indexation Et Recherche Multimedia
Pas encore d'évaluation
Chapitre - 1 - Techniques D'indexation Et Recherche Multimedia
40 pages
Chapitre - II Indexation en RI
Pas encore d'évaluation
Chapitre - II Indexation en RI
73 pages
Termes d'indexation et matrices de poids
100% (1)
Termes d'indexation et matrices de poids
5 pages
Chapitre 2 - Les Modèles de Recherche D'information
Pas encore d'évaluation
Chapitre 2 - Les Modèles de Recherche D'information
50 pages
Évaluation et comparaison de SRI
Pas encore d'évaluation
Évaluation et comparaison de SRI
2 pages
2 Indexation Et Recherche D'images
Pas encore d'évaluation
2 Indexation Et Recherche D'images
6 pages
Sujet2 & Corrigé
Pas encore d'évaluation
Sujet2 & Corrigé
5 pages
Corrigé Examen Optimisation Combinatoire
Pas encore d'évaluation
Corrigé Examen Optimisation Combinatoire
6 pages
Concours Doctorat Informatique 2017-2018
Pas encore d'évaluation
Concours Doctorat Informatique 2017-2018
4 pages
Examen Indexation et Recherche d'Info
Pas encore d'évaluation
Examen Indexation et Recherche d'Info
3 pages
Complexité Algorithmique : Concepts Clés
Pas encore d'évaluation
Complexité Algorithmique : Concepts Clés
61 pages
Projets de TP en Algorithmes et Java
0% (1)
Projets de TP en Algorithmes et Java
15 pages
Exercices d'Algorithmique pour Débutants
Pas encore d'évaluation
Exercices d'Algorithmique pour Débutants
8 pages
Exam 2016
Pas encore d'évaluation
Exam 2016
4 pages
Modèles de Recherche d'Information
Pas encore d'évaluation
Modèles de Recherche d'Information
31 pages
Examen Systèmes d'Exploitation 2010
Pas encore d'évaluation
Examen Systèmes d'Exploitation 2010
4 pages
Exercices de recherche d'information LSI
Pas encore d'évaluation
Exercices de recherche d'information LSI
2 pages
Introduction à Python et Scikit-learn
Pas encore d'évaluation
Introduction à Python et Scikit-learn
6 pages
Cours avancé en fouille de données
Pas encore d'évaluation
Cours avancé en fouille de données
96 pages
Examen de Recherche Opérationnelle 2017
Pas encore d'évaluation
Examen de Recherche Opérationnelle 2017
2 pages
Automates à Pile : Théorie et Applications
Pas encore d'évaluation
Automates à Pile : Théorie et Applications
115 pages
Arbres binaires : structures et parcours
Pas encore d'évaluation
Arbres binaires : structures et parcours
7 pages
Introduction à la Complexité Algorithmique
Pas encore d'évaluation
Introduction à la Complexité Algorithmique
16 pages
Analyse des ventes et des employés en entreprise
Pas encore d'évaluation
Analyse des ventes et des employés en entreprise
4 pages
Examen de Base de Données
Pas encore d'évaluation
Examen de Base de Données
8 pages
TD IA Embarquée: Apprentissage Auto
Pas encore d'évaluation
TD IA Embarquée: Apprentissage Auto
6 pages
TD4 - Arbres
Pas encore d'évaluation
TD4 - Arbres
3 pages
Chapitre - 7 - Traduction Dirigée Par La Syntaxe-1
Pas encore d'évaluation
Chapitre - 7 - Traduction Dirigée Par La Syntaxe-1
1 page
Structure de Tas et Tri par Tas
Pas encore d'évaluation
Structure de Tas et Tri par Tas
29 pages
Diagrammes de Classes UML pour Divers Systèmes
Pas encore d'évaluation
Diagrammes de Classes UML pour Divers Systèmes
2 pages
Comprendre la Notation Big O
Pas encore d'évaluation
Comprendre la Notation Big O
2 pages
Google Colab pour l'Informatique
Pas encore d'évaluation
Google Colab pour l'Informatique
6 pages
05 Algo03 Ghazi Chapitre04 Les Arbres
Pas encore d'évaluation
05 Algo03 Ghazi Chapitre04 Les Arbres
7 pages
Analyseur LR
Pas encore d'évaluation
Analyseur LR
21 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
5 pages
Algorithmes et Complexité en C
Pas encore d'évaluation
Algorithmes et Complexité en C
1 page
1 Srit1 Devoir N°1 Initiation Algorithmique 2018 - 2019 Examen Correction
Pas encore d'évaluation
1 Srit1 Devoir N°1 Initiation Algorithmique 2018 - 2019 Examen Correction
4 pages
Introduction aux Listes Linéaires en Informatique
Pas encore d'évaluation
Introduction aux Listes Linéaires en Informatique
19 pages
Les Schémas XML XML Schema
Pas encore d'évaluation
Les Schémas XML XML Schema
51 pages
TD 1-Correction
Pas encore d'évaluation
TD 1-Correction
4 pages
Examen IA 22-23 - Cycle
Pas encore d'évaluation
Examen IA 22-23 - Cycle
4 pages
TD5 Se
Pas encore d'évaluation
TD5 Se
6 pages
TP POO : Piles et Tri en Java
Pas encore d'évaluation
TP POO : Piles et Tri en Java
9 pages
Algorithmes Gloutons en Informatique
0% (1)
Algorithmes Gloutons en Informatique
6 pages
Web Semantique - Cours-2
Pas encore d'évaluation
Web Semantique - Cours-2
168 pages
Devoir Surveillé en Développement Objet
Pas encore d'évaluation
Devoir Surveillé en Développement Objet
6 pages
Optimisation des Graphes et Projets
Pas encore d'évaluation
Optimisation des Graphes et Projets
3 pages
Problèmes d'Ordonnancement et Solutions
Pas encore d'évaluation
Problèmes d'Ordonnancement et Solutions
21 pages
Fonctions Python pour listes et dictionnaires
Pas encore d'évaluation
Fonctions Python pour listes et dictionnaires
2 pages
TD2 Se
Pas encore d'évaluation
TD2 Se
2 pages
Codification et Contrôle des Données
Pas encore d'évaluation
Codification et Contrôle des Données
20 pages
Évaluation des Systèmes de RI
Pas encore d'évaluation
Évaluation des Systèmes de RI
10 pages
Exercices d'Intelligence Artificielle et Logique
Pas encore d'évaluation
Exercices d'Intelligence Artificielle et Logique
6 pages
Récursivité et Diviser pour Régner
Pas encore d'évaluation
Récursivité et Diviser pour Régner
14 pages
THL Rattrapage 2017-18
Pas encore d'évaluation
THL Rattrapage 2017-18
1 page
Série 1-RI-ISIL
100% (1)
Série 1-RI-ISIL
4 pages
Indexation de l'information : méthodes et enjeux
Pas encore d'évaluation
Indexation de l'information : méthodes et enjeux
14 pages
Calculabilité et Décidabilité en TAL
Pas encore d'évaluation
Calculabilité et Décidabilité en TAL
44 pages
Méthode ROCCHIO pour la reformulation de requêtes
Pas encore d'évaluation
Méthode ROCCHIO pour la reformulation de requêtes
11 pages
Enrichissement de requêtes en SRI
Pas encore d'évaluation
Enrichissement de requêtes en SRI
19 pages
Cours 5 Modèle LSI OukidL
Pas encore d'évaluation
Cours 5 Modèle LSI OukidL
24 pages
Évaluation des Systèmes de Recherche
Pas encore d'évaluation
Évaluation des Systèmes de Recherche
2 pages
Introduction à la Sémantique FrameNet
Pas encore d'évaluation
Introduction à la Sémantique FrameNet
44 pages
Évaluation des systèmes de recherche d'information
Pas encore d'évaluation
Évaluation des systèmes de recherche d'information
28 pages
Chapt 1 Introduction Recherche Information OL
Pas encore d'évaluation
Chapt 1 Introduction Recherche Information OL
24 pages
Solution Série2 RI OL
Pas encore d'évaluation
Solution Série2 RI OL
18 pages
Analyse des rapports texte/image en pub
Pas encore d'évaluation
Analyse des rapports texte/image en pub
5 pages
Hansel Et Gretel
Pas encore d'évaluation
Hansel Et Gretel
2 pages
Nombres CMPLX Ensemble C
Pas encore d'évaluation
Nombres CMPLX Ensemble C
10 pages
Atelier Des TP - Terminaux Mobiles
Pas encore d'évaluation
Atelier Des TP - Terminaux Mobiles
5 pages
Swing 1.2 - V. Etudiants
Pas encore d'évaluation
Swing 1.2 - V. Etudiants
102 pages
Methodologie de Redaction Du Rapport
Pas encore d'évaluation
Methodologie de Redaction Du Rapport
32 pages
TACNA Marcha Militar
Pas encore d'évaluation
TACNA Marcha Militar
25 pages
DTU 14.1 Travaux de Cuvelage Partie 2
100% (1)
DTU 14.1 Travaux de Cuvelage Partie 2
6 pages
ASDI20192020 V 6
Pas encore d'évaluation
ASDI20192020 V 6
130 pages
CE1 P1 Programmation Compréhension en Classe MAI 2020
Pas encore d'évaluation
CE1 P1 Programmation Compréhension en Classe MAI 2020
40 pages
La Métaphore
Pas encore d'évaluation
La Métaphore
3 pages
Se Repérer Dans Le Temps
Pas encore d'évaluation
Se Repérer Dans Le Temps
2 pages
Python 1année Tp1
100% (1)
Python 1année Tp1
4 pages
Concours Centrale-Supélec 2007 : Mathématiques II MP
Pas encore d'évaluation
Concours Centrale-Supélec 2007 : Mathématiques II MP
14 pages
146-215 Les Essais en Classe de CM2
Pas encore d'évaluation
146-215 Les Essais en Classe de CM2
70 pages
Temps et théorie de Gustave Guillaume
100% (1)
Temps et théorie de Gustave Guillaume
16 pages
Compréhension de Lecture - Les Rois Mages
Pas encore d'évaluation
Compréhension de Lecture - Les Rois Mages
2 pages
Pipeline Météo avec Snowflake et Power BI
Pas encore d'évaluation
Pipeline Météo avec Snowflake et Power BI
16 pages
Mathématiques 1: Autour Des Matrices de Toeplitz
Pas encore d'évaluation
Mathématiques 1: Autour Des Matrices de Toeplitz
4 pages
Exercice Pronom PDF
100% (1)
Exercice Pronom PDF
2 pages
Outils et stratégies pour tests logiciels
Pas encore d'évaluation
Outils et stratégies pour tests logiciels
2 pages
Les Mouvements Littéraires
Pas encore d'évaluation
Les Mouvements Littéraires
9 pages
Phrases en Anglais Et en Espagnol
Pas encore d'évaluation
Phrases en Anglais Et en Espagnol
4 pages
Messe Dimanche 03 Janvier 2021
Pas encore d'évaluation
Messe Dimanche 03 Janvier 2021
2 pages
Corrigé Examen Algèbre L2 Juin 2023
Pas encore d'évaluation
Corrigé Examen Algèbre L2 Juin 2023
2 pages
Bases de Données BTS
67% (6)
Bases de Données BTS
64 pages
Sans Titre
Pas encore d'évaluation
Sans Titre
4 pages
Estimation de P(Y/X) en régression logistique
Pas encore d'évaluation
Estimation de P(Y/X) en régression logistique
87 pages
Accès à Plusieurs Bases de Données avec Spring
Pas encore d'évaluation
Accès à Plusieurs Bases de Données avec Spring
29 pages
Attributs et Épithètes : Guide et Exercices
Pas encore d'évaluation
Attributs et Épithètes : Guide et Exercices
1 page