Introduction à la Recherche d'Information

Transféré par

skoryk.anna.ye

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

25 vues7 pages

Introduction à la Recherche d'Information

Transféré par

skoryk.anna.ye

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Un déluge d’information

§ Big data :
⇢ V de Volume
⇢ V de Vélocité
Brève introduction à la ⇢ V de Variété (texte, image, vidéo, son, tags…)
etc.
recherche d’information § Le WWW est une source phénoménale de données, en particulier
textuelle, mais il existe beaucoup d’autres sources : mémoire
Julien Velcin
d’entreprise, données du patrimoine (ex. BnF, INA)
https://velcin.github.io

Julien Velcin - Programmation de spécialité : Python

Les moteurs
de recherche

Image credit: Go-Globe.com

Julien Velcin - Programmation de spécialité : Python Julien Velcin - Programmation de spécialité : Python
Julien Velcin - Programmation de spécialité : Python Julien Velcin - Programmation de spécialité : Python

Hidden for obvious reasons

Brevets

Julien Velcin - Programmation de spécialité : Python Julien Velcin - Programmation de spécialité : Python
Science des données Chaîne de traitement des données
§ Il faut automatiser la manipulation de ces grands volumes : § Extraction, stockage des données :
⇢ Systèmes d’information (information systems) ⇢ Comment gérer l’hétérogénéité des formats ?
Science des données
⇢ Recherche d’information (information retrieval) (data science) ⇢ Quelle structure de stockage ?
⇢ Fouille de données (data mining) § Représentation, indexation :
§ Cela nécessite le recours à : ⇢ Quelle est la meilleure représentation ?
⇢ analyse des données (data analysis) ⇢ Comment indexer les données de manière efficace ?
⇢ traitement automatique de la langue (NLP) § Analyse des données :
⇢ apprentissage automatique (machine learning) ⇢ Comment comparer des données textuelles ?
⇢ Quels algorithmes choisir ?

Julien Velcin - Programmation de spécialité : Python Julien Velcin - Programmation de spécialité : Python

Difficultés spécifiques au texte

§ Volume important, vocabulaire très vaste (erreurs, abréviations, argot,
néologismes, noms propres…)
§ Ecart entre la surface des mots et leur sens
§ Relations implicites entre les mots : synonymie, polysémie, liens de
subordination, co-références, etc.
§ Ambiguité sémantique : « Il voit le garçon avec ses lunettes » (qui
possède les lunettes ?)
Analyser les données textuelles
§ Suivant la tâche, la représentation est différente
§ Similarité entre deux textes (à partir de quels éléments, malédiction de la
dimension)

Julien Velcin - Programmation de spécialité : Python Julien Velcin - Programmation de spécialité : Python
Expressions régulières Application :
le concordancier
§ Librarie re :

§ findall permet de trouver toutes les occurrences

§ sub remplace une sous-chaîne par une autre

Julien Velcin - Programmation de spécialité : Python Julien Velcin - Programmation de spécialité : Python

Aller plus loin avec la construction d’un index Requête « carte » sur l’index des sites Web
es
x de cart
§ L’approche des expressions régulières a plusieurs limitations : es de jeu
uan t des règl e
site expliq e s p rix u anniversair
⇢ le motif cherché doit être contigu ca r t ca d e a
⇢ l’algorithme de correspondance (matching) est coûteux page web A 1 1 2 0 5 0 1 0 1 2 1 0 1
une ligne est
page web B 3 0 0 0 0 0 2 1 0 0 0 0 0
§ L’objectif est d’encoder directement les mots présents dans un un « document »

s it gé o
page web C 4 0 3 1 0 0 1 0 3 1 0 0 1
document en suivant l’hypothèse du « sac de mots » (bag of words)

ev
page web D 0 0 0 3 0 2 0 4 0 0 2 0 0

en grap
d a h iq
etc. 0 0 1 0 1 0 0 0 0 0 0 1 0

nt
de ues
1 0 0 1 0 0 0 1 0 1 2 0 0

sc
a rt
0 0 0 0 0 1 0 0 0 0 0 2 0

es
est-ce que le mot 2
rien à voir
apparaît dans le site n’ayant
document 3 ? une colonne correspond
Julien Velcin - Programmation de spécialité : Python Julien Velcin - Programmation de spécialité : Python
à un mot du dictionnaire
Principales étapes Segmentation du texte en mots
§ Construction du dictionnaire de mots (vocabulaire) § Cette étape de tokenization est assez simple dans les langages
§ Pour chaque document, construire une représentation basée sur ce occidentaux, comme le français ou l’anglais
dictionnaire : § Elle consiste généralement en :
⇢ binaire : 0 si le mot est absent, 1 s’il est présent ⇢ définir ce qui constitue la frontière entre deux « mots »
⇢ nombre d’occurrences (term frequency) ⇢ écrire l’expression régulière correspondante
(il y a d’autres schémas de pondération) ⇢ découper la chaîne en une liste de sous-chaînes (les mots)
§ A partir de ce tableau (matrice), on peut : (en Python avec la fonction split())
⇢ calculer l’importance de chaque mot (nuage de mots clefs) § Construire le vocabulaire consiste à faire l’union de tous les mots
⇢ trouver les documents les pertinents pour une requête trouvés et dédoublonner (avec un ensemble en Python par exemple)
⇢ comparer les documents entre eux (classification, clustering)

Julien Velcin - Programmation de spécialité : Python Julien Velcin - Programmation de spécialité : Python

Quelques prétraitements usuels Visualiser le corpus : le nuage de mots

§ Mettre en minuscule les mots du document (cf. fonction lower())
§ Protéger certaines expressions (ex. « H5N1 » ou « Covid-19 »)
§ Supprimer les chiffres, les ponctuations
§ Supprimer les mots trop peu fréquents
§ Supprimer les mots outils

loi de Zipf

Julien Velcin - Programmation de spécialité : Python Julien Velcin - Programmation de spécialité : Python
Réaliser son propre moteur de recherche
§ Requête de l’utilisateur
§ Récupérer les listes des documents
§ Agréger les listes :
⇢ union des ensembles
⇢ pondérer les documents puis les trier

Julien Velcin - Programmation de spécialité : Python

Vous aimerez peut-être aussi

Fake News Detection
Pas encore d'évaluation
Fake News Detection
51 pages
Indexation et Analyse avec Elasticsearch
Pas encore d'évaluation
Indexation et Analyse avec Elasticsearch
11 pages
Cours Text Mining LIAA3
0% (1)
Cours Text Mining LIAA3
28 pages
Purple White Modern Artificial Intelligence Presentation 1
Pas encore d'évaluation
Purple White Modern Artificial Intelligence Presentation 1
32 pages
Modèle Vectoriel en Traitement de Langue
Pas encore d'évaluation
Modèle Vectoriel en Traitement de Langue
32 pages
MINF232
Pas encore d'évaluation
MINF232
69 pages
Info Et IA SHS
Pas encore d'évaluation
Info Et IA SHS
11 pages
ChII Matrice Documents Termes
Pas encore d'évaluation
ChII Matrice Documents Termes
55 pages
Travail - Note
Pas encore d'évaluation
Travail - Note
4 pages
B08KRRPG1Q
Pas encore d'évaluation
B08KRRPG1Q
216 pages
Map-Reduce en Big Data et Erlang
Pas encore d'évaluation
Map-Reduce en Big Data et Erlang
3 pages
Chap2 Indexation
Pas encore d'évaluation
Chap2 Indexation
66 pages
Unitex GramLab 3.2beta Usermanual FR
Pas encore d'évaluation
Unitex GramLab 3.2beta Usermanual FR
398 pages
Structures de Donnees A 1 Dimension (3) : Les Dictionnaires: Me Prévenir de Toute Erreur Éventuelle
Pas encore d'évaluation
Structures de Donnees A 1 Dimension (3) : Les Dictionnaires: Me Prévenir de Toute Erreur Éventuelle
12 pages
NLP 2
Pas encore d'évaluation
NLP 2
17 pages
Fouille de Données Textuelles: Guide Complet
Pas encore d'évaluation
Fouille de Données Textuelles: Guide Complet
20 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
29 pages
TP3 2021
Pas encore d'évaluation
TP3 2021
5 pages
Le Machine Learning Avec Python: de La Théorie À La Pratique
0% (1)
Le Machine Learning Avec Python: de La Théorie À La Pratique
25 pages
Matrice Documents-Termes en Text Mining
Pas encore d'évaluation
Matrice Documents-Termes en Text Mining
39 pages
Resumé Al
Pas encore d'évaluation
Resumé Al
8 pages
Introduction à la Recherche d'Info
Pas encore d'évaluation
Introduction à la Recherche d'Info
53 pages
2.modeles de RI
Pas encore d'évaluation
2.modeles de RI
27 pages
IA : Tendances et Applications Clés
Pas encore d'évaluation
IA : Tendances et Applications Clés
74 pages
Système de Suggestion de Tags NLP
Pas encore d'évaluation
Système de Suggestion de Tags NLP
14 pages
Info Et IA STI
Pas encore d'évaluation
Info Et IA STI
10 pages
Projet SRI : Conception et Analyse
Pas encore d'évaluation
Projet SRI : Conception et Analyse
22 pages
Intro NLP
Pas encore d'évaluation
Intro NLP
68 pages
Google Colab pour l'Informatique
Pas encore d'évaluation
Google Colab pour l'Informatique
6 pages
Guide complet sur Python et SQL
Pas encore d'évaluation
Guide complet sur Python et SQL
3 pages
Guide Python pour débutants MIASHS
Pas encore d'évaluation
Guide Python pour débutants MIASHS
95 pages
Luận văn Indexation aléatoire et similarité inter phrases appliquées au résumé automatique
Pas encore d'évaluation
Luận văn Indexation aléatoire et similarité inter phrases appliquées au résumé automatique
16 pages
Introduction au Python pour Débutants
Pas encore d'évaluation
Introduction au Python pour Débutants
91 pages
ChI Text Mining Intro New
Pas encore d'évaluation
ChI Text Mining Intro New
37 pages
Chap2 Indexation OL
100% (1)
Chap2 Indexation OL
28 pages
Informatique 2
Pas encore d'évaluation
Informatique 2
7 pages
Rapport Java
Pas encore d'évaluation
Rapport Java
18 pages
IA et Systèmes Multi-Agents
Pas encore d'évaluation
IA et Systèmes Multi-Agents
114 pages
Introduction à Python pour le Web
100% (1)
Introduction à Python pour le Web
72 pages
Guide D'entretien
Pas encore d'évaluation
Guide D'entretien
19 pages
Introduction aux Dictionnaires Python
Pas encore d'évaluation
Introduction aux Dictionnaires Python
16 pages
SGD Multimedia
Pas encore d'évaluation
SGD Multimedia
6 pages
1ereNSI Python Cours Niv6 Corrige
Pas encore d'évaluation
1ereNSI Python Cours Niv6 Corrige
12 pages
Hassert Naima 2023 Memoire
Pas encore d'évaluation
Hassert Naima 2023 Memoire
105 pages
TP1 Ci Gmsi S5 2024 2025
Pas encore d'évaluation
TP1 Ci Gmsi S5 2024 2025
4 pages
Concours Commun Mines-Ponts (CCMP) 2016 MP-Option Informatique Informatique Option e
Pas encore d'évaluation
Concours Commun Mines-Ponts (CCMP) 2016 MP-Option Informatique Informatique Option e
10 pages
Comparaison de Python et R en Data Science
Pas encore d'évaluation
Comparaison de Python et R en Data Science
22 pages
Mathématiques et Sémantique Textuelle
Pas encore d'évaluation
Mathématiques et Sémantique Textuelle
3 pages
Projet Métier PlagiaScope
Pas encore d'évaluation
Projet Métier PlagiaScope
38 pages
Poly Mp2i
Pas encore d'évaluation
Poly Mp2i
736 pages
Indexation et Recherche d'Information
Pas encore d'évaluation
Indexation et Recherche d'Information
36 pages
Python: Data Science
Pas encore d'évaluation
Python: Data Science
18 pages
Algorithmes Et Programmation Python Première NSI Élèves 2023
Pas encore d'évaluation
Algorithmes Et Programmation Python Première NSI Élèves 2023
8 pages
Info Mp2i
Pas encore d'évaluation
Info Mp2i
281 pages
Indexdssmdùs
Pas encore d'évaluation
Indexdssmdùs
31 pages
Text Mining TP1: Faculté Des Sciences Ain Chock Casablanca
Pas encore d'évaluation
Text Mining TP1: Faculté Des Sciences Ain Chock Casablanca
5 pages
Structuration Automatique en XML D'un Dictionnaire Électronique de L'indonésien À Partir de Documents Word
Pas encore d'évaluation
Structuration Automatique en XML D'un Dictionnaire Électronique de L'indonésien À Partir de Documents Word
10 pages
0-Cours Complet NSI
100% (1)
0-Cours Complet NSI
311 pages