0% ont trouvé ce document utile (0 vote)
59 vues3 pages

Approches mathématiques en NLP

Transféré par

zahraefbouh
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
59 vues3 pages

Approches mathématiques en NLP

Transféré par

zahraefbouh
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Rapport de projet de fin

du module

Présentation Exemples
Le projet explore les approches mathématiques appliquées au
traitement sémantique du texte, visant à améliorer la Le traitement sémantique du texte est utilisé dans divers cas
compréhension du sens des mots et des phrases dans différents d'application, tels que la traduction automatique, où des modèles
contextes. L'objectif est de développer des modèles mathématiques mathématiques gèrent l'ambiguïté et le contexte des phrases. Dans
permettant de traiter des tâches comme la classification et l'analyse de sentiments, il permet d'évaluer les opinions des
l'extraction d'information, en prenant en compte des défis tels que utilisateurs sur les produits ou services en ligne. Les systèmes de
l'ambiguïté sémantique, les relations entre les mots, la recommandation, comme ceux de Netflix et Amazon, exploitent
contextualisation, et la modélisation des structures complexes. Ce l'analyse sémantique pour personnaliser les suggestions en fonction
projet cherche à formaliser ces défis pour offrir des solutions des préférences des utilisateurs. Enfin, dans les moteurs de
efficaces dans le traitement du langage naturel. recherche, il aide à interpréter les requêtes et à fournir des résultats
pertinents en fonction du contexte. Ces applications illustrent
NLP (Natural Language Processing, ou Traitement du Langage l'impact du traitement sémantique dans des domaines pratiques.
Naturel en français) désigne un sous-domaine de l'intelligence
artificielle (IA) qui se concentre sur l'interaction entre les Formulation
ordinateurs et le langage humain. Son objectif principal est de
permettre aux machines de comprendre, d'interpréter, de générer  Analyse Sémantique Latente (LSA)
et de manipuler le langage humain de manière à ce qu'il soit utile
dans divers contextes. L'Analyse Sémantique Latente (LSA) est une méthode de réduction
Le NLP combine des techniques issues de l'informatique, de la de dimension utilisée en traitement de texte pour identifier des
linguistique et de l'intelligence artificielle pour analyser, relations cachées entre termes et documents. Elle permet de
comprendre et générer du texte ou de la parole en langage naturel. surmonter la sparsité des matrices (présence de nombreux zéros) et
Il englobe de nombreuses tâches telles que la traduction d'extraire des concepts latents ou thèmes communs, tout en
automatique, la reconnaissance de la parole, la classification de réduisant la complexité du corpus en dimension.
textes, l'extraction d'informations, le résumé automatique et la
génération de texte. Étape 1 : Calcul de la Matrice TF-IDF
Applications courantes du NLP :
La transformation TF-IDF (Term Frequency-Inverse Document
Frequency) est appliquée pour convertir les textes en une matrice
 Analyse de sentiment : Déterminer l'opinion exprimée dans
numérique où chaque terme est pondéré en fonction de sa fréquence
un texte (positif, négatif, neutre).
dans un document et de son importance relative dans le corpus. Cela
 Traduction automatique : Traduire du texte d'une langue à
permet de capturer la pertinence des termes en éliminant les mots
une autre (ex. Google Translate).
courants peu significatifs.
 Reconnaissance vocale : Convertir la parole en texte (ex.
assistants vocaux comme Siri ou Alexa).
 Réponses automatiques : Fournir des réponses
automatiques à partir de questions posées en langage naturel
(ex. chatbots).
 Résumé automatique : Extraire les informations clés d'un
texte ou résumer de longs documents.
Figure :formules TF-IDF

Où :

N est le nombre total de documents dans le corpus,

DF(t) est le nombre de documents contenant le terme t.


Implémentation
Étape 2 : Application de la SVD sur la matrice TF-IDF  TF-IDF&LSA

Une fois la matrice TF-IDF obtenue, on applique la SVD pour réduire


sa dimensionnalité et découvrir des concepts latents (ou thèmes)
dans les documents. La décomposition SVD de la matrice TF-IDF AAA
est donnée par :

Où :

Figure :formules SVD

Etape 3 :Réduction de dimension et extraction des concepts latents :

Pour réduire la dimensionnalité, on garde les premières valeurs


singulières dans Σ et les vecteurs associés dans U et VT. Cela permet
de concentrer l'information la plus significative, en ignorant les
détails moins importants ou le bruit. L’approximation de la matrice A Figure :Implémentation
à rang réduit est alors :

Ces dimensions représentent les concepts latents ou thèmes sous-


jacents. En d'autres termes, LSA cherche à découvrir des concepts qui
regroupent les termes et les documents, même si ces termes ne
coexistent pas souvent dans les mêmes documents.

Figure :Résultat implémentation


Explication du Code Sources : Ce jeu de données est accessible sur la plateforme Kaggle,
qui propose des ressources pour des projets d'apprentissage
Chargement des données :Les données sont chargées depuis un automatique, notamment des ensembles de données et des
fichier CSV (df_file.csv) contenant une colonne de textes. Le code compétitions. Les documents sont extraits de diverses sources
identifie les colonnes disponibles et prépare les textes en remplissant disponibles publiquement, représentant une large variété de
les valeurs manquantes par des chaînes vides. domaines.

Création de la matrice TF-IDF :La transformation TF-IDF (Term Visualisation : Pour explorer et mieux comprendre la répartition des
Frequency-Inverse Document Frequency) est appliquée pour différentes catégories, des outils de visualisation peuvent être
convertir les textes en une matrice numérique. Chaque cellule de utilisés, comme des graphiques de distribution des étiquettes, des
cette matrice représente le poids d’un terme dans un document, nuages de mots pour chaque catégorie, ou encore des
pondérant sa fréquence et son importance dans le corpus. représentations vectorielles des textes à l’aide de techniques comme
TF-IDF ou LSA.
Affichage de la matrice TF-IDF :La matrice est affichée pour les 5
premiers documents, permettant de visualiser les poids des termes. Références
Les 10 premiers termes de la matrice TF-IDF sont également listés.
 Références théoriques :
Application de LSA (Latent Semantic Analysis) :
 TF-IDF (Term Frequency-Inverse Document Frequency) :
 SVD (Singular Value Decomposition) est appliqué pour réduire la Gérard Salton et Christopher Buckley. "Term-weighting
dimensionnalité de la matrice TF-IDF.La décomposition extrait 2 approaches in automatic text retrieval." Information
composantes principales, qui capturent les concepts latents Processing & Management (1988).Une méthode pondérant
reliant les termes et les documents. l'importance des termes en fonction de leur fréquence dans
 Interprétation des composantes :Les termes les plus significatifs un texte et leur rareté dans le corpus.
pour chaque composante sont listés pour expliquer leur relation  Latent Semantic Analysis (LSA) :
sémantique avec les documents. Deerwester, S. et al. "Indexing by Latent Semantic Analysis."
Journal of the American Society for Information Science
DataSet (1990).
Technique de réduction dimensionnelle qui capture les
Description : Cet ensemble de données est dédié à la classification de concepts latents dans les textes.
documents textuels. Il contient un total de 2225 documents textuels,
répartis sur cinq catégories principales : politique, sport, technologie,  Documentation des bibliothèques utilisées :
divertissement et affaires. Chaque document est accompagné d’une
étiquette correspondant à l’une de ces catégories.  scikit-learn:https://scikit-learn.org/stable/
documentation.html
La bibliothèque scikit-learn a été utilisée pour le calcul de
TF-IDF, la décomposition SVD (LSA) et la vectorisation des
textes.
 pandas:https://pandas.pydata.org/docs/
Pandas a été utilisé pour manipuler les données textuelles
et pour construire des DataFrames à partir des matrices
générées.
 nltk:https://www.nltk.org/
nltk a été utilisé pour le prétraitement des textes,
Figure : extrait Dataset
notamment la tokenisation des phrases pour Word2Vec.
 gensim:https://radimrehurek.com/gensim/
Taille : L'ensemble de données comporte 2225 lignes et 2 colonnes.
Gensim a servi à entraîner les vecteurs Word2Vec pour la
La première colonne contient les textes des documents, tandis que la
représentation dense des mots.
deuxième contient les étiquettes numériques associées à chaque
 matplotlib et networkx :
catégorie. Les étiquettes sont codées de la manière suivante : 0 pour
 matplotlib:https://matplotlib.org/stable/
la politique, 1 pour le sport, 2 pour la technologie, 3 pour le
Utilisée pour visualiser les graphes.
divertissement et 4 pour les affaires.
 networkx:https://networkx.org/documentation/stable/
Utilisée pour construire et analyser les graphes de co-
occurrence.

Vous aimerez peut-être aussi