Approches mathématiques en NLP

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

59 vues3 pages

Approches mathématiques en NLP

Transféré par

zahraefbouh

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Rapport de projet de fin

du module

Présentation Exemples
Le projet explore les approches mathématiques appliquées au
traitement sémantique du texte, visant à améliorer la Le traitement sémantique du texte est utilisé dans divers cas
compréhension du sens des mots et des phrases dans différents d'application, tels que la traduction automatique, où des modèles
contextes. L'objectif est de développer des modèles mathématiques mathématiques gèrent l'ambiguïté et le contexte des phrases. Dans
permettant de traiter des tâches comme la classification et l'analyse de sentiments, il permet d'évaluer les opinions des
l'extraction d'information, en prenant en compte des défis tels que utilisateurs sur les produits ou services en ligne. Les systèmes de
l'ambiguïté sémantique, les relations entre les mots, la recommandation, comme ceux de Netflix et Amazon, exploitent
contextualisation, et la modélisation des structures complexes. Ce l'analyse sémantique pour personnaliser les suggestions en fonction
projet cherche à formaliser ces défis pour offrir des solutions des préférences des utilisateurs. Enfin, dans les moteurs de
efficaces dans le traitement du langage naturel. recherche, il aide à interpréter les requêtes et à fournir des résultats
pertinents en fonction du contexte. Ces applications illustrent
NLP (Natural Language Processing, ou Traitement du Langage l'impact du traitement sémantique dans des domaines pratiques.
Naturel en français) désigne un sous-domaine de l'intelligence
artificielle (IA) qui se concentre sur l'interaction entre les Formulation
ordinateurs et le langage humain. Son objectif principal est de
permettre aux machines de comprendre, d'interpréter, de générer  Analyse Sémantique Latente (LSA)
et de manipuler le langage humain de manière à ce qu'il soit utile
dans divers contextes. L'Analyse Sémantique Latente (LSA) est une méthode de réduction
Le NLP combine des techniques issues de l'informatique, de la de dimension utilisée en traitement de texte pour identifier des
linguistique et de l'intelligence artificielle pour analyser, relations cachées entre termes et documents. Elle permet de
comprendre et générer du texte ou de la parole en langage naturel. surmonter la sparsité des matrices (présence de nombreux zéros) et
Il englobe de nombreuses tâches telles que la traduction d'extraire des concepts latents ou thèmes communs, tout en
automatique, la reconnaissance de la parole, la classification de réduisant la complexité du corpus en dimension.
textes, l'extraction d'informations, le résumé automatique et la
génération de texte. Étape 1 : Calcul de la Matrice TF-IDF
Applications courantes du NLP :
La transformation TF-IDF (Term Frequency-Inverse Document
Frequency) est appliquée pour convertir les textes en une matrice
 Analyse de sentiment : Déterminer l'opinion exprimée dans
numérique où chaque terme est pondéré en fonction de sa fréquence
un texte (positif, négatif, neutre).
dans un document et de son importance relative dans le corpus. Cela
 Traduction automatique : Traduire du texte d'une langue à
permet de capturer la pertinence des termes en éliminant les mots
une autre (ex. Google Translate).
courants peu significatifs.
 Reconnaissance vocale : Convertir la parole en texte (ex.
assistants vocaux comme Siri ou Alexa).
 Réponses automatiques : Fournir des réponses
automatiques à partir de questions posées en langage naturel
(ex. chatbots).
 Résumé automatique : Extraire les informations clés d'un
texte ou résumer de longs documents.
Figure :formules TF-IDF

Où :

N est le nombre total de documents dans le corpus,

DF(t) est le nombre de documents contenant le terme t.

Implémentation
Étape 2 : Application de la SVD sur la matrice TF-IDF  TF-IDF&LSA

Une fois la matrice TF-IDF obtenue, on applique la SVD pour réduire

sa dimensionnalité et découvrir des concepts latents (ou thèmes)
dans les documents. La décomposition SVD de la matrice TF-IDF AAA
est donnée par :

Où :

Figure :formules SVD

Etape 3 :Réduction de dimension et extraction des concepts latents :

Pour réduire la dimensionnalité, on garde les premières valeurs

singulières dans Σ et les vecteurs associés dans U et VT. Cela permet
de concentrer l'information la plus significative, en ignorant les
détails moins importants ou le bruit. L’approximation de la matrice A Figure :Implémentation
à rang réduit est alors :

Ces dimensions représentent les concepts latents ou thèmes sous-

jacents. En d'autres termes, LSA cherche à découvrir des concepts qui
regroupent les termes et les documents, même si ces termes ne
coexistent pas souvent dans les mêmes documents.

Figure :Résultat implémentation

Explication du Code Sources : Ce jeu de données est accessible sur la plateforme Kaggle,
qui propose des ressources pour des projets d'apprentissage
Chargement des données :Les données sont chargées depuis un automatique, notamment des ensembles de données et des
fichier CSV (df_file.csv) contenant une colonne de textes. Le code compétitions. Les documents sont extraits de diverses sources
identifie les colonnes disponibles et prépare les textes en remplissant disponibles publiquement, représentant une large variété de
les valeurs manquantes par des chaînes vides. domaines.

Création de la matrice TF-IDF :La transformation TF-IDF (Term Visualisation : Pour explorer et mieux comprendre la répartition des
Frequency-Inverse Document Frequency) est appliquée pour différentes catégories, des outils de visualisation peuvent être
convertir les textes en une matrice numérique. Chaque cellule de utilisés, comme des graphiques de distribution des étiquettes, des
cette matrice représente le poids d’un terme dans un document, nuages de mots pour chaque catégorie, ou encore des
pondérant sa fréquence et son importance dans le corpus. représentations vectorielles des textes à l’aide de techniques comme
TF-IDF ou LSA.
Affichage de la matrice TF-IDF :La matrice est affichée pour les 5
premiers documents, permettant de visualiser les poids des termes. Références
Les 10 premiers termes de la matrice TF-IDF sont également listés.
 Références théoriques :
Application de LSA (Latent Semantic Analysis) :
 TF-IDF (Term Frequency-Inverse Document Frequency) :
 SVD (Singular Value Decomposition) est appliqué pour réduire la Gérard Salton et Christopher Buckley. "Term-weighting
dimensionnalité de la matrice TF-IDF.La décomposition extrait 2 approaches in automatic text retrieval." Information
composantes principales, qui capturent les concepts latents Processing & Management (1988).Une méthode pondérant
reliant les termes et les documents. l'importance des termes en fonction de leur fréquence dans
 Interprétation des composantes :Les termes les plus significatifs un texte et leur rareté dans le corpus.
pour chaque composante sont listés pour expliquer leur relation  Latent Semantic Analysis (LSA) :
sémantique avec les documents. Deerwester, S. et al. "Indexing by Latent Semantic Analysis."
Journal of the American Society for Information Science
DataSet (1990).
Technique de réduction dimensionnelle qui capture les
Description : Cet ensemble de données est dédié à la classification de concepts latents dans les textes.
documents textuels. Il contient un total de 2225 documents textuels,
répartis sur cinq catégories principales : politique, sport, technologie,  Documentation des bibliothèques utilisées :
divertissement et affaires. Chaque document est accompagné d’une
étiquette correspondant à l’une de ces catégories.  scikit-learn:https://scikit-learn.org/stable/
documentation.html
La bibliothèque scikit-learn a été utilisée pour le calcul de
TF-IDF, la décomposition SVD (LSA) et la vectorisation des
textes.
 pandas:https://pandas.pydata.org/docs/
Pandas a été utilisé pour manipuler les données textuelles
et pour construire des DataFrames à partir des matrices
générées.
 nltk:https://www.nltk.org/
nltk a été utilisé pour le prétraitement des textes,
Figure : extrait Dataset
notamment la tokenisation des phrases pour Word2Vec.
 gensim:https://radimrehurek.com/gensim/
Taille : L'ensemble de données comporte 2225 lignes et 2 colonnes.
Gensim a servi à entraîner les vecteurs Word2Vec pour la
La première colonne contient les textes des documents, tandis que la
représentation dense des mots.
deuxième contient les étiquettes numériques associées à chaque
 matplotlib et networkx :
catégorie. Les étiquettes sont codées de la manière suivante : 0 pour
 matplotlib:https://matplotlib.org/stable/
la politique, 1 pour le sport, 2 pour la technologie, 3 pour le
Utilisée pour visualiser les graphes.
divertissement et 4 pour les affaires.
 networkx:https://networkx.org/documentation/stable/
Utilisée pour construire et analyser les graphes de co-
occurrence.

Vous aimerez peut-être aussi

Math Iman
Pas encore d'évaluation
Math Iman
3 pages
Approches mathématiques en traitement sémantique
Pas encore d'évaluation
Approches mathématiques en traitement sémantique
3 pages
Fake News Detection
Pas encore d'évaluation
Fake News Detection
51 pages
Introduction au NLP et IA Générative
Pas encore d'évaluation
Introduction au NLP et IA Générative
35 pages
Guide complet sur la tokenisation NLP
Pas encore d'évaluation
Guide complet sur la tokenisation NLP
7 pages
Rapport Java
Pas encore d'évaluation
Rapport Java
18 pages
Cours 5 Modèle LSI OukidL
Pas encore d'évaluation
Cours 5 Modèle LSI OukidL
24 pages
Introduction au Text Mining et NLP
Pas encore d'évaluation
Introduction au Text Mining et NLP
37 pages
Modélisation de sujets avec LDA et NMF
Pas encore d'évaluation
Modélisation de sujets avec LDA et NMF
6 pages
Techniques de Vectorisation de Textes
Pas encore d'évaluation
Techniques de Vectorisation de Textes
46 pages
HDR Torres
Pas encore d'évaluation
HDR Torres
165 pages
Examen de Text Mining - Master TIC 2019
Pas encore d'évaluation
Examen de Text Mining - Master TIC 2019
2 pages
Résumé Automatique: Approches et Défis
Pas encore d'évaluation
Résumé Automatique: Approches et Défis
15 pages
Introduction au Topic Mining en Data Science
Pas encore d'évaluation
Introduction au Topic Mining en Data Science
28 pages
Modèles de Thèmes en Analyse de Textes
Pas encore d'évaluation
Modèles de Thèmes en Analyse de Textes
39 pages
Analyse LSA de données massives Wikipedia
Pas encore d'évaluation
Analyse LSA de données massives Wikipedia
5 pages
Les Bibliotheques Python Les Bibliotheques Python Les Bibliotheques Python Les Bibliotheques Python
Pas encore d'évaluation
Les Bibliotheques Python Les Bibliotheques Python Les Bibliotheques Python Les Bibliotheques Python
32 pages
Cours Text Mining LIAA3
0% (1)
Cours Text Mining LIAA3
28 pages
02 Mohammed Mounsif Bellaouar Issam Edidine Ghada
Pas encore d'évaluation
02 Mohammed Mounsif Bellaouar Issam Edidine Ghada
69 pages
Analyse des Sentiments sur Twitter avec HMM
Pas encore d'évaluation
Analyse des Sentiments sur Twitter avec HMM
36 pages
Traitement Automatique des Langues Naturelles
Pas encore d'évaluation
Traitement Automatique des Langues Naturelles
19 pages
Purple White Modern Artificial Intelligence Presentation 1
Pas encore d'évaluation
Purple White Modern Artificial Intelligence Presentation 1
32 pages
Enrichissement des Modèles de Classification
Pas encore d'évaluation
Enrichissement des Modèles de Classification
156 pages
Introduction au Text Mining
Pas encore d'évaluation
Introduction au Text Mining
5 pages
Modèle Vectoriel en Traitement de Langue
Pas encore d'évaluation
Modèle Vectoriel en Traitement de Langue
32 pages
Introduction Au Traitement Du Langage Naturel NLP
Pas encore d'évaluation
Introduction Au Traitement Du Langage Naturel NLP
21 pages
Memoire David Krame Kadurha (Ulpgl 2021-2022)
Pas encore d'évaluation
Memoire David Krame Kadurha (Ulpgl 2021-2022)
142 pages
Data Mining 4
Pas encore d'évaluation
Data Mining 4
10 pages
2015.jeptalnrecital Court.5
Pas encore d'évaluation
2015.jeptalnrecital Court.5
6 pages
Word Embedding
100% (1)
Word Embedding
63 pages
Digital Huamnities Synthesis
Pas encore d'évaluation
Digital Huamnities Synthesis
3 pages
Veille et Intelligence Compétitive 2023
Pas encore d'évaluation
Veille et Intelligence Compétitive 2023
27 pages
Prétraitement des Tweets pour Analyse Sentimentale
Pas encore d'évaluation
Prétraitement des Tweets pour Analyse Sentimentale
12 pages
TM.A - Introduction Text Mining
Pas encore d'évaluation
TM.A - Introduction Text Mining
32 pages
A BERT Framework To Sentiment Analysis of Tweets - Traduction
Pas encore d'évaluation
A BERT Framework To Sentiment Analysis of Tweets - Traduction
14 pages
Intelligence Artificielle et Agents
Pas encore d'évaluation
Intelligence Artificielle et Agents
114 pages
LeiZhang-These - Analyse Opinion
Pas encore d'évaluation
LeiZhang-These - Analyse Opinion
199 pages
Introduction à l'IA et au Machine Learning
Pas encore d'évaluation
Introduction à l'IA et au Machine Learning
20 pages
LNLP
Pas encore d'évaluation
LNLP
28 pages
Fouille de Données Textuelles: Guide Complet
Pas encore d'évaluation
Fouille de Données Textuelles: Guide Complet
20 pages
2022 MP Informatique
Pas encore d'évaluation
2022 MP Informatique
19 pages
Extraction de concepts par apprentissage statistique
Pas encore d'évaluation
Extraction de concepts par apprentissage statistique
265 pages
Partie2CoursTALN UM6SS MasterBD-IA 2022
Pas encore d'évaluation
Partie2CoursTALN UM6SS MasterBD-IA 2022
33 pages
Réduction Dimensionnelle en Text Mining
Pas encore d'évaluation
Réduction Dimensionnelle en Text Mining
28 pages
Résumés automatiques par abstraction
Pas encore d'évaluation
Résumés automatiques par abstraction
79 pages
Ingénierie des Prompts en IA
Pas encore d'évaluation
Ingénierie des Prompts en IA
58 pages
Classification Automatique de Texte
Pas encore d'évaluation
Classification Automatique de Texte
5 pages
TM1 (Intro)
Pas encore d'évaluation
TM1 (Intro)
28 pages
Caractéristiques et étapes du text mining
Pas encore d'évaluation
Caractéristiques et étapes du text mining
4 pages
Thème
Pas encore d'évaluation
Thème
34 pages
Améliorer la Recherche avec LSI
Pas encore d'évaluation
Améliorer la Recherche avec LSI
2 pages
Transformers
Pas encore d'évaluation
Transformers
36 pages
Système de Suggestion de Tags NLP
Pas encore d'évaluation
Système de Suggestion de Tags NLP
14 pages
Modèle relationnel pour collections documentaires
Pas encore d'évaluation
Modèle relationnel pour collections documentaires
12 pages
Analyse des Médias Sociaux et Sentiment
Pas encore d'évaluation
Analyse des Médias Sociaux et Sentiment
24 pages
Veille stratégique sur appels d'offres
Pas encore d'évaluation
Veille stratégique sur appels d'offres
150 pages
TM.B - Matrice Documents Termes
Pas encore d'évaluation
TM.B - Matrice Documents Termes
39 pages
bookNLPtextminingV4 0-Uneintroduction
Pas encore d'évaluation
bookNLPtextminingV4 0-Uneintroduction
34 pages
IA dans l'Information : Tendances et R&D
Pas encore d'évaluation
IA dans l'Information : Tendances et R&D
11 pages
Descriptif Du Projet
Pas encore d'évaluation
Descriptif Du Projet
1 page
TD3-Python Analyse
Pas encore d'évaluation
TD3-Python Analyse
1 page
Chapitre 3
Pas encore d'évaluation
Chapitre 3
4 pages
Algorithmes Python pour manipuler des listes
Pas encore d'évaluation
Algorithmes Python pour manipuler des listes
2 pages
Introduction à Python pour l'analyse de données
Pas encore d'évaluation
Introduction à Python pour l'analyse de données
120 pages
Algorithmes de navigation pour USVs
Pas encore d'évaluation
Algorithmes de navigation pour USVs
2 pages
Introduction aux Algorithmes Génétiques
Pas encore d'évaluation
Introduction aux Algorithmes Génétiques
24 pages
Mapping de L'écosystème de L'intelligence Artificielle: Maghreb
Pas encore d'évaluation
Mapping de L'écosystème de L'intelligence Artificielle: Maghreb
74 pages
Projets d'Intelligence Artificielle en ML
Pas encore d'évaluation
Projets d'Intelligence Artificielle en ML
8 pages
Memoire Mirindra
Pas encore d'évaluation
Memoire Mirindra
31 pages
Hamza Latex
Pas encore d'évaluation
Hamza Latex
79 pages
Pfe Book: Envoyez Votre CV À
Pas encore d'évaluation
Pfe Book: Envoyez Votre CV À
31 pages
1-Méthodologie Et Usages Des Industries Du Langage - Enjeux Et Perspectives1.1
Pas encore d'évaluation
1-Méthodologie Et Usages Des Industries Du Langage - Enjeux Et Perspectives1.1
16 pages
De La Linguistique Appliquée À La Didactique Des Langues
Pas encore d'évaluation
De La Linguistique Appliquée À La Didactique Des Langues
7 pages
Analyse des données multimédia et applications
Pas encore d'évaluation
Analyse des données multimédia et applications
17 pages
Maîtriser La Science Des Données Marketing 20250219 2152
Pas encore d'évaluation
Maîtriser La Science Des Données Marketing 20250219 2152
33 pages
Apprendre L'intelligence Artificielle Pas À Pas
Pas encore d'évaluation
Apprendre L'intelligence Artificielle Pas À Pas
21 pages
Impact de L'intelligence Artificielle (La Traduction Automatique) Dans L'apprentissage Des Langues Cas Du Tamazight
Pas encore d'évaluation
Impact de L'intelligence Artificielle (La Traduction Automatique) Dans L'apprentissage Des Langues Cas Du Tamazight
9 pages
Paliers de la sémantique en linguistique
Pas encore d'évaluation
Paliers de la sémantique en linguistique
32 pages
La Révolution de l'IA Dans Le Marketing Digital
Pas encore d'évaluation
La Révolution de l'IA Dans Le Marketing Digital
16 pages
Quest Ce Que Chat GPT
Pas encore d'évaluation
Quest Ce Que Chat GPT
4 pages
TAL et linguistique : évolutions historiques
Pas encore d'évaluation
TAL et linguistique : évolutions historiques
10 pages
Catalogue Des Sujets Des Stages D'été 2023
Pas encore d'évaluation
Catalogue Des Sujets Des Stages D'été 2023
69 pages
Cours NLPPPP
Pas encore d'évaluation
Cours NLPPPP
25 pages
Chapitre 3 Coaching Et Culture Entrepreneurial
Pas encore d'évaluation
Chapitre 3 Coaching Et Culture Entrepreneurial
14 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
28 pages
Master Spécialisé - Lexicographie, Terminographie (Lille 3)
Pas encore d'évaluation
Master Spécialisé - Lexicographie, Terminographie (Lille 3)
32 pages
Devoir de contrôle en informatique Bac
Pas encore d'évaluation
Devoir de contrôle en informatique Bac
4 pages
Template Rapport
Pas encore d'évaluation
Template Rapport
45 pages
Implémentation Et Étude Comparative Des
Pas encore d'évaluation
Implémentation Et Étude Comparative Des
59 pages
Introduction au Machine Learning et IA
Pas encore d'évaluation
Introduction au Machine Learning et IA
46 pages
Linguistique NLP
Pas encore d'évaluation
Linguistique NLP
6 pages
Master Informatique : IA et Apprentissage
Pas encore d'évaluation
Master Informatique : IA et Apprentissage
5 pages
Rapport1 Modifie
Pas encore d'évaluation
Rapport1 Modifie
6 pages
L'IA au Service de la Finance Moderne
Pas encore d'évaluation
L'IA au Service de la Finance Moderne
45 pages
Introduction au Traitement Automatique du Langage Naturel (TALN)
Pas encore d'évaluation
Introduction au Traitement Automatique du Langage Naturel (TALN)
3 pages
IA et Marketing : Fondements et Applications
100% (1)
IA et Marketing : Fondements et Applications
59 pages