0% ont trouvé ce document utile (0 vote)

92 vues32 pages

Modèle Vectoriel en Traitement de Langue

Ce document présente le modèle vectoriel utilisé en recherche d'information. Il décrit les étapes de représentation des documents sous forme de vecteurs, l'utilisation du modèle sac de mots, la pondération TF-IDF et la mesure de similarité cosine entre vecteurs.

Transféré par

Cyrine Ouesleti

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

92 vues32 pages

Modèle Vectoriel en Traitement de Langue

Transféré par

Cyrine Ouesleti

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Cours – Master Data Science

Natural Language Processing

3. Modèle Vectoriel (Vector Space Model)

Afef Bahri
Maître Assistante ESC, NLP and Big Data expert

1
Plan
• Modèle en Recherche d’Information : Définition

• Modèles RI

• Modèle Booléen

• Modèle Vectoriel

• Bag Of Words

• TF-IDF

• Similarité cosine
2
Qu’est ce qu’un modèle de RI ?
• Un modèle est une abstraction d’un processus

• Les modèles mathématiques sont utilisés pour

formaliser les propriétés d‘un processus (prévision,
conclusion)

• Les modèles de RI se distinguent par le principe

d’appariement (matching)

• Modèles RI : processus de mesure de pertinence,

termes, utilisateurs, requêtes, interactions

3
Modèles RI
• Modèle booléen (±1950)

• Modèle vectoriel (±1970)

• Modèle LSI1 (± 1994)

• Modèle probabiliste (±1976)

• Modèle inférentiel (±1992)

• Modèle connexionniste (±1989)

• Modèle de langage (±1998)

1Latent semantic indexing 4
irit.fr/~Mohand.Boughanem/slides/RI/chap4-mod-bool-vect.pdf
Le modèle Booléen
• Le premier modèle de Recherche d’Informations

• Basé sur la théorie des ensembles

• Un document est représenté un ensemble de termes

• Ex : d1(t1,t2,t5); d2(t1,t3,t5,t6); d3(t1,t2,t3,t4,t5)

5
Le modèle Booléen
• Une requête est un ensemble de mots avec des
opérateurs booléens :
AND (∧), OR(∨), NOT (¬)

• Exemple :
 Requête, q = t1 ∧ (t2 ∨ ¬t3)
 Documents : d1(t1,t2,t5); d2(t1,t3,t5,t6); d3(t1,t2,t3,t4,t5)

• Appariement Exact basé sur la présence ou l’absence

des termes de la requête dans les documents
Appariement (q,d) = 1 ou 0

6
Inconvénient du Modèle Booléen
• Décision binaire : sélection d’un document

• Pas d’ordre pour les documents sélectionnés

• Difficulté de formulation de requêtes

• Collection volumineuse : nombre de documents retournés

peut être considérable

7
Modèle Vectoriel
• Proposé par Salton dans le système SMART (Salton, G. 1970)

• Le représente les documents et les requêtes comme des

vecteurs d'entités représentant des termes

• Les caractéristiques se voient attribuer une valeur numérique

qui est généralement une fonction de la fréquence des
termes

• L'algorithme de classement calcule la similarité entre les

vecteurs de document et de requête pour donner un score
de récupération à chaque document

8
Documents comme Vecteurs
• Chaque document d est vu comme un vecteur de valeurs,
une composante pour chaque terme

• On a donc un espace vectoriel

 Les termes sont des axes

 T (un terme = une dimension)
 Les documents et les requêtes sont représentés dans
cet espace

9
Vector Space Model
• Soit un ensemble fini de n documents :
D = {d1, d2, ...,dj,...,dn}
et un ensemble fini de m termes :
T = {t1, t2, ...,ti,...,tm}

• Chaque document sera représenté par un vecteur

colonne de poids comme suit :

(w1j, w2j, w3j, . . wij , … wmj)t

wij est le poids du terme ti dans un document dj

10
Vector Space Model
• La collection de documents dans son ensemble sera
représentée par une matrice m x n terme-document
comme suit :

 w11 w12 .... w1j ... w1n 

 
 w21 w22 .... w2j ... w2n 
 wi1 wi2 .... wij ... win 
 
 wm1 wm2 .... wmj ... wmn 

• La requête est également représentée par un vecteur

11
Exemple : Vector Space Model
• On considère que les poids sont attribués en fonction de
la fréquence du terme dans le document

• La matrice terme-document est définie comme suit :

 2 1 0
 
 2 0 1
1 1 1 
 

12
Modèle Bag of Words
• Nous considérons le texte comme une séquence de
mots

• Un sac de mots : compte combien de fois chaque mot

apparaît dans une phrase (ou un document)

https://towardsdatascience.com/a-simple-explanation-of-the-bag-of-words-model-b88fc4f4971 13
Normalisation des pondérations des termes

• Normaliser les vecteurs des documents : réduire

l'importance de la longueur des vecteurs de document

• La normalisation change tous les vecteurs à une

longueur standard

• Nous pouvons convertir les vecteurs de document en

unité de longueur en divisant chaque dimension par la
longueur totale du vecteur

14
Normalisation des pondérations des termes

• Normalisation de la matrice terme-document :

 2 1 0
 
 2 0 1
1 1 1 
 
• On obtient :
 0.67 0.71 0 
 
 0.67 0 0.71 
 0.33 0.71 0.71 


• Les éléments de chaque colonne sont divisés par la

longueur du vecteur colonne  2
i
w
ij

15
Normalisation des pondérations des termes

An Algorithm for Clustering of Web Search Results 16

Pondération des termes
• Postulats

• Plus un document contient un mot donné, plus ce

document concerne un concept représenté par ce mot

• Moins un terme apparaît dans un document particulier

d'une collection, plus ce terme est discriminant

17
Pondération des termes
• Le premier facteur signifie simplement que les termes
qui apparaissent plus fréquemment représentent plus
fortement sa signification que ceux qui apparaissent
moins fréquemment

• Le deuxième facteur tient compte de la distribution des

termes dans la collection de documents

18
Pondération des termes
• Une mesure favorisant les termes apparaissant dans
moins de documents est requise

 La fraction n/ni, donne exactement cette mesure

 n est le nombre total de documents dans la collection

 ni est le numéro du document dans lequel le terme i apparaît

19
Pondération des termes
• Comme le nombre de documents dans une collection est
généralement important

• Le logarithme de cette mesure est généralement pris

• Ce qui se traduit par la forme suivante de pondération du

terme de fréquence de document inverse (idf) :

20
Schéma de pondération Tf-idf
• tf : statistique spécifique au document qui mesure
l'importance du terme dans le document

• idf : est une statistique globale incluant la distribution

des termes dans la collection de documents

21
Tf-idf

22
TF-IDF

23
TF-IDF : exemple
• Document 1: The beautiful cherry blossoms in Japan.
• Document 2: Japan is beautiful in spring.

https://medium.com/@ashiddk95/tf-idf-term-frequency-inverse-document-frequency-algorithm-5b16ea86eeff 24
Etapes : texte -> vecteur
• Étape 1. Tokénisation : Cela extrait les termes individuels
(mots) du document, convertit tous les mots en
minuscules et supprime les signes de ponctuation. La
sortie de la première étape est une représentation du
document sous la d’un ensemble de termes

• Étape 2. Élimination des stop words : supprime les mots

qui apparaissent plus fréquemment dans la collection de
documents

25
Etapes : texte -> vecteur

• Étape 3. Stemming : réduire les termes restants à leur

racine linguistique, pour obtenir des termes d'index

• Étape 4. Pondération des termes : attribue des poids

aux termes en fonction de leur importance dans le
document, dans la collection ou une combinaison des
deux.

26
Exemple

Stemmed terms Document 1 Document 2 Document 3

inform 0 0 1

intellig 0 0 1

model 1 1 0
probabilist 0 1 0
retriev 0 1 1

space 1 0 0
technique 0 0 1

vector 1 0 0

27
Similarité de vecteurs : idée
• Documents « rapprochés » dans l'espace vectoriel parle
des mêmes choses
t3
d2

d3
d1
θ
φ
t1

d5
t2
d4

28
Distance Euclidienne
• La distance entre d1 et d2 est la longueur du vecteur |d1
– d2|.
 Distance euclidienne

• Les documents courts seraient plus similaires les uns

aux autres en raison de leur longueur et non de leur
sujet

• Cependant, nous pouvons implicitement normaliser en

regardant les angles

29
Cosine Similarity
• Distance entre les vecteurs d1 et d2 capturée par le
cosinus de l'angle x entre eux
• NB : il s'agit de similitude, pas de distance

t3
d2

d1
θ

30
Similarity Measures

(dj , qk )
w ij  wik
sim(dj , qk )   i 1

dj qk m m

w
i 1
ik
2
 w
i 1
ij
2

31
Bibliographie

• https://www3.nd.edu/~dchiang/teaching/nlp/2017/notes/chapte
r10v1.pdf
• https://www.irit.fr/~Mohand.Boughanem/slides/RI/chap4-
mod-bool-vect.pdf

• https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&
doi=f3743501e41b6ec1e02505cbcfd2cd5f873d0683

Vous aimerez peut-être aussi

2.modeles de RI
Pas encore d'évaluation
2.modeles de RI
27 pages
Modèles Booléen et Vectoriel en RI
Pas encore d'évaluation
Modèles Booléen et Vectoriel en RI
34 pages
Chap4 Mod Bool Vect
Pas encore d'évaluation
Chap4 Mod Bool Vect
43 pages
Espaces Vectoriels et Recherche Info
Pas encore d'évaluation
Espaces Vectoriels et Recherche Info
42 pages
Chapitre 2 - VF
100% (1)
Chapitre 2 - VF
48 pages
Modeles RI 1
Pas encore d'évaluation
Modeles RI 1
58 pages
Chapitre 2 - VF
Pas encore d'évaluation
Chapitre 2 - VF
114 pages
Modèles de recherche d'information
Pas encore d'évaluation
Modèles de recherche d'information
61 pages
Algo Num
Pas encore d'évaluation
Algo Num
5 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
35 pages
Modèles de recherche multimédia
Pas encore d'évaluation
Modèles de recherche multimédia
37 pages
Modèles de Recherche d'Information
Pas encore d'évaluation
Modèles de Recherche d'Information
32 pages
Modèles de Recherche d'Information
Pas encore d'évaluation
Modèles de Recherche d'Information
23 pages
Modèles de recherche d'information expliqués
Pas encore d'évaluation
Modèles de recherche d'information expliqués
23 pages
Modèles de Recherche d'Information
Pas encore d'évaluation
Modèles de Recherche d'Information
30 pages
Modèles de Recherche d'Information
Pas encore d'évaluation
Modèles de Recherche d'Information
31 pages
Modèle d'indexation sémantique latente
Pas encore d'évaluation
Modèle d'indexation sémantique latente
16 pages
Termes d'indexation et matrices de poids
100% (1)
Termes d'indexation et matrices de poids
5 pages
Introduction à la Recherche d'Info
Pas encore d'évaluation
Introduction à la Recherche d'Info
53 pages
Introduction au Topic Mining en Data Science
Pas encore d'évaluation
Introduction au Topic Mining en Data Science
28 pages
Modèles de Thèmes en Analyse de Textes
Pas encore d'évaluation
Modèles de Thèmes en Analyse de Textes
39 pages
Chap2 Indexation OL
100% (1)
Chap2 Indexation OL
28 pages
Rapport Java
Pas encore d'évaluation
Rapport Java
18 pages
Série TD2
100% (3)
Série TD2
3 pages
Recherche d'Information et Indexation
Pas encore d'évaluation
Recherche d'Information et Indexation
32 pages
Algorithme Word2Vec en Text Mining
Pas encore d'évaluation
Algorithme Word2Vec en Text Mining
22 pages
Techniques d'Indexation en Recherche d'Information
Pas encore d'évaluation
Techniques d'Indexation en Recherche d'Information
45 pages
Techniques de Vectorisation de Textes
Pas encore d'évaluation
Techniques de Vectorisation de Textes
46 pages
Introduction au Text et Web Mining
Pas encore d'évaluation
Introduction au Text et Web Mining
8 pages
Cours 5 Modèle LSI OukidL
Pas encore d'évaluation
Cours 5 Modèle LSI OukidL
24 pages
Fiche TD No2 2022
Pas encore d'évaluation
Fiche TD No2 2022
1 page
TD 4 Correction
100% (1)
TD 4 Correction
10 pages
Matrice terme-document : analyse et clustering
Pas encore d'évaluation
Matrice terme-document : analyse et clustering
31 pages
Indexation Sémantique Latente (LSI)
Pas encore d'évaluation
Indexation Sémantique Latente (LSI)
25 pages
Chap3-Recherche Par Le Contenu
Pas encore d'évaluation
Chap3-Recherche Par Le Contenu
117 pages
Mesures de Similarité en Recherche d'Information
Pas encore d'évaluation
Mesures de Similarité en Recherche d'Information
8 pages
TD1 TIR 24 Opt
Pas encore d'évaluation
TD1 TIR 24 Opt
3 pages
Examen sur la Recherche d'Information
86% (14)
Examen sur la Recherche d'Information
3 pages
Contrôle final en Recherche d'Information
Pas encore d'évaluation
Contrôle final en Recherche d'Information
3 pages
Solution - Exercices RI
Pas encore d'évaluation
Solution - Exercices RI
7 pages
Introduction à la recherche d'information
Pas encore d'évaluation
Introduction à la recherche d'information
7 pages
Matrice Documents-Termes en Text Mining
Pas encore d'évaluation
Matrice Documents-Termes en Text Mining
39 pages
Fake News Detection
Pas encore d'évaluation
Fake News Detection
51 pages
Série 1-RI-ISIL
100% (1)
Série 1-RI-ISIL
4 pages
Améliorer la Recherche avec LSI
Pas encore d'évaluation
Améliorer la Recherche avec LSI
2 pages
Introduction au Text Mining et NLP
Pas encore d'évaluation
Introduction au Text Mining et NLP
37 pages
Guide complet sur la tokenisation NLP
Pas encore d'évaluation
Guide complet sur la tokenisation NLP
7 pages
Systèmes de recherche d'informations et indexation
Pas encore d'évaluation
Systèmes de recherche d'informations et indexation
26 pages
Optimisation de l'indexation documentaire
Pas encore d'évaluation
Optimisation de l'indexation documentaire
23 pages
Word Embedding
100% (1)
Word Embedding
63 pages
Techniques d'Indexation et Évaluation RI
Pas encore d'évaluation
Techniques d'Indexation et Évaluation RI
2 pages
Contrôle final en recherche d'information
100% (1)
Contrôle final en recherche d'information
3 pages
TD1 2
100% (5)
TD1 2
4 pages
Structures de données et algorithmes en C
Pas encore d'évaluation
Structures de données et algorithmes en C
83 pages
Classification Automatique de Texte
Pas encore d'évaluation
Classification Automatique de Texte
5 pages
Massih-Reza AMINI, Éric GAUSSIER - Recherche D'information (2013) PDF
Pas encore d'évaluation
Massih-Reza AMINI, Éric GAUSSIER - Recherche D'information (2013) PDF
255 pages
Projet de Recherche d'Information SII
Pas encore d'évaluation
Projet de Recherche d'Information SII
22 pages
Modélisation des Composants Swing en UML
Pas encore d'évaluation
Modélisation des Composants Swing en UML
2 pages
Introduction aux transmissions de données
Pas encore d'évaluation
Introduction aux transmissions de données
79 pages
03a PDF
100% (2)
03a PDF
14 pages
Cycles et Rendement des Turbines à Gaz
100% (1)
Cycles et Rendement des Turbines à Gaz
42 pages
Pegasus f2 Serie
Pas encore d'évaluation
Pegasus f2 Serie
24 pages
Mini Projet - 2024 - 2025
Pas encore d'évaluation
Mini Projet - 2024 - 2025
4 pages
Mesures angulaires en topographie
Pas encore d'évaluation
Mesures angulaires en topographie
5 pages
Vecteurs et Fichiers en Programmation
Pas encore d'évaluation
Vecteurs et Fichiers en Programmation
3 pages
DS1-2ème Lettres-2019
100% (1)
DS1-2ème Lettres-2019
2 pages
Atl 610
Pas encore d'évaluation
Atl 610
32 pages
Commandes Linux pour gérer les processus
Pas encore d'évaluation
Commandes Linux pour gérer les processus
47 pages
Guide de diagnostic pour techniciens ESD
Pas encore d'évaluation
Guide de diagnostic pour techniciens ESD
16 pages
KNX Filaire: Un Défi pour le DIY
Pas encore d'évaluation
KNX Filaire: Un Défi pour le DIY
9 pages
Rim Gharbi : Master Big Data au Maroc
Pas encore d'évaluation
Rim Gharbi : Master Big Data au Maroc
1 page
APlus2 Livre
Pas encore d'évaluation
APlus2 Livre
56 pages
Econometrie Approfondie
Pas encore d'évaluation
Econometrie Approfondie
48 pages
Machine de découpage de carton automatisée
Pas encore d'évaluation
Machine de découpage de carton automatisée
5 pages
FR Notice
Pas encore d'évaluation
FR Notice
1 page
Rapport de Visite - Gaz
Pas encore d'évaluation
Rapport de Visite - Gaz
3 pages
Oncf-Voyages-Khadija Hani-8
Pas encore d'évaluation
Oncf-Voyages-Khadija Hani-8
1 page
Travaux Diriges
Pas encore d'évaluation
Travaux Diriges
2 pages
Couples de Serrage (En Da N.M)
Pas encore d'évaluation
Couples de Serrage (En Da N.M)
3 pages
Mariyam AOUBEHAND !
Pas encore d'évaluation
Mariyam AOUBEHAND !
1 page
CO B1 - Unité 5 Mateo Proano
Pas encore d'évaluation
CO B1 - Unité 5 Mateo Proano
1 page
Copie de CV Professionnel Gris Simple PDF
Pas encore d'évaluation
Copie de CV Professionnel Gris Simple PDF
1 page
Devoir de Controle N°4: Distributeur de Carburant GPL
100% (1)
Devoir de Controle N°4: Distributeur de Carburant GPL
5 pages
Disjoncteur TTI
Pas encore d'évaluation
Disjoncteur TTI
88 pages
PDF - Guide Monétisation Express
Pas encore d'évaluation
PDF - Guide Monétisation Express
12 pages
Dahane Mohammed SMZ0730 PDF
Pas encore d'évaluation
Dahane Mohammed SMZ0730 PDF
164 pages
Méthode de couche en graves 0/31,5
Pas encore d'évaluation
Méthode de couche en graves 0/31,5
8 pages