NLP Pres

Le document présente divers outils et modèles en traitement du langage naturel (NLP) tels que Whisper pour la transcription audio, GloVe pour les embeddings de mots, et spaCy pour le traitement rapide en Python. Il aborde également des concepts comme les ontologies, les bases de données vectorielles, et des outils comme Dialogflow pour la création de chatbots. Enfin, il mentionne des modèles spécifiques comme ELMo et AraBERT, adaptés à des contextes linguistiques particuliers.

Transféré par

a.boumoula0851

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

40 vues6 pages

NLP Pres

Transféré par

a.boumoula0851

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

NLP 2025

1
WHISPER – Speech to Text
1. Qu’est-ce que Whisper ?
Modèle d’OpenAI qui transforme l’audio en texte.
2. Tâches secondaires de Whisper ?
Traduction, détection de langue, reconnaissance vocale.
3. Architecture de Whisper ?
Transformer encodeur-décodeur.
4. Zero-shot learning ?
Réussir une tâche sans entraînement direct.
5. Type d’entraînement ?
Faiblement supervisé (bruité, auto-généré).
6. WER ("The dog chased the cat" / "The dog the cat") ?
1 mot supprimé → 1 erreur / 5 mots = 20%.
7. Différence WER / CER ?
WER = erreurs sur les mots ; CER = erreurs sur les lettres.
8. RTF = 0.5 ?
Le modèle est 2 fois plus rapide que l’audio.

Comparaison : WER vs CER

WER mesure les erreurs sur les mots entiers, CER sur chaque caractère. CER est plus
précis.

GloVe – Word Embeddings

9. Qu’est-ce que GloVe ?
Modèle qui transforme les mots en vecteurs.
10. Hypothèse distributionnelle ?
Mots proches dans le contexte = sens similaire.
11. Matrice de co-occurrence ?
Tableau qui compte les mots qui apparaissent ensemble.
12. Avantages / Inconvénients ?
Global, interprétable. Matrice lourde, creuse.
13. GloVe vs Word2Vec ?
GloVe = global (tout le texte), Word2Vec = local (fenêtre de contexte).
14. À quoi sert un embedding ?
À représenter les mots en chiffres pour l’IA.
15. P(mange | chat) si 3 co-occurrences sur 5 ?
3 / 5 = 60%.

Comparaison : ELMo vs Word2Vec

ELMo tient compte du contexte autour du mot. Word2Vec donne un seul vecteur fixe
pour chaque mot.

2
spaCy – NLP moderne
16. Qu’est-ce que spaCy ?
Librairie NLP rapide et simple en Python.
17. Pipeline NLP dans spaCy ?
Tokenisation → POS → Parsing → NER.
18. Différence Doc / Span / Token ?
Doc = texte entier, Span = extrait, Token = mot.
19. NER sur “Google is hiring in Casablanca, Morocco in June 2025.”
Google : ORG, Casablanca & Morocco : GPE, June 2025 : DATE.
20. 2 cas d’usage ?
Analyse de CV, Chatbot.
21. 2 défis en tokenisation ?
Contractions ("don’t"), ponctuation spéciale.

Web Scraping – Scrapy

22. Web scraping ?
Extraire automatiquement des données de pages web.
23. Architecture Scrapy ?
Spider → Scheduler → Downloader → Pipeline.
24. 2 solutions anti-bots ?
Rotation de proxy, changement de user-agent.
25. Scrapy vs BeautifulSoup ?
Scrapy = plus rapide, structuré ; BS = simple, manuel.
26. 2 règles éthiques ?
Respecter robots.txt, ne pas récupérer de données personnelles.
Comparaison : Scrapy vs BeautifulSoup
Scrapy gère les requêtes automatiquement et est plus rapide ; BS est plus simple pour de
petits scripts.

Ontologies & Web Sémantique

27. Qu’est-ce qu’une ontologie ?
Représentation formelle de concepts et relations.
28. Concept / Relation / Instance ?
Concept = type ; Relation = lien ; Instance = exemple réel.
29. Axiome ?
Règle logique entre concepts.
30. 2 avantages ?
Organisation + raisonnement automatique.
31. Ontologie vs Thésaurus ?
Ontologie = structure + inférences ; Thésaurus = simple hiérarchie.

3
32. Pourquoi utiliser Protégé ?
Pour créer et visualiser facilement une ontologie.

ChromaDB & Vector DB

33. Base vectorielle ?
Base qui stocke des vecteurs pour représenter des données.
34. Rôle de ChromaDB ?
Sert de mémoire pour aider le LLM à retrouver des infos.
35. HNSW ?
Algo rapide pour trouver les éléments proches (approximation).
36. Embedding dans Chroma ?
Représente un texte sous forme vectorielle.
37. 2 avantages ?
Rapide, efficace, facile à intégrer avec des LLM.

Agentic RAG & LangGraph

38. Qu’est-ce qu’un agent ?
Système autonome qui réfléchit et agit.
39. Avantage Agentic RAG ?
Peut poser des questions, planifier, réfléchir.
40. LangGraph ?
Outil pour créer des flux multi-agents.
41. 2 avantages de LangGraph ?
Gère la logique complexe et le contexte.
42. 2 cas d’usage ?
QA médical, assistant intelligent.
43. Limite actuelle ?
Ne fonctionne que sur macOS.
Comparaison : LangGraph vs LangChain
LangGraph permet des flux complexes avec plusieurs agents. LangChain est plus linéaire.

BRIGHTER – Emotion multilingue

44. Objectif BRIGHTER ?
Reconnaître les émotions dans 28 langues.
45. SHCMP ?
Score pour vérifier la cohérence des annotations.
46. Généralisation inter-langue ?
Entraîné sur plusieurs langues, testé sur une autre.
47. Classification vs Intensité ?
Type d’émotion vs degré de l’émotion.

4
48. Langues difficiles ?
Moins de données, différences culturelles.

Transformers
49. Qu’est-ce qu’un Transformer ?
Modèle basé sur l’attention (self-attention).
50. À quoi sert l’attention ?
Met l’accent sur les mots importants du contexte.
51. Avantage ?
Rapide, parallélisable, très efficace.

Dialogflow
52. Qu’est-ce que Dialogflow ?
Outil Google pour créer des chatbots.
53. Fonction ?
Comprendre les questions, fournir des réponses.
54. 2 composants ?
Intents et entities.

Mistral Instruct
55. Qu’est-ce que Mistral ?
Petit modèle open-source en français.
56. Mistral vs GPT ?
Mistral = léger, local ; GPT = plus puissant mais payant.
57. Pourquoi “instruct” ?
Optimisé pour suivre les instructions.

ELMo
58. Qu’est-ce que ELMo ?
Embeddings dynamiques selon le contexte.
59. Avantage ?
Même mot a un sens différent selon la phrase.
60. Cas d’usage ?
Q/R, classification, sentiment analysis.

AraBERT
61. Qu’est-ce qu’AraBERT ?
Version de BERT adaptée à l’arabe.

5
62. Pourquoi l’utiliser ?
Il comprend mieux la grammaire arabe.
63. AraBERT vs BERT classique ?
AraBERT est pré-entraîné sur du texte arabe, donc plus performant pour cette
langue.

Vous aimerez peut-être aussi

Baget 2003 B
Pas encore d'évaluation
Baget 2003 B
17 pages
Purple White Modern Artificial Intelligence Presentation 1
Pas encore d'évaluation
Purple White Modern Artificial Intelligence Presentation 1
32 pages
Ingénierie des Prompts en IA
Pas encore d'évaluation
Ingénierie des Prompts en IA
58 pages
Digital Huamnities Synthesis
Pas encore d'évaluation
Digital Huamnities Synthesis
3 pages
NLP 6
Pas encore d'évaluation
NLP 6
5 pages
Fake News Detection
Pas encore d'évaluation
Fake News Detection
51 pages
LLM Training
Pas encore d'évaluation
LLM Training
90 pages
Au Coeur Des LLM, Sans Les Maths-1
Pas encore d'évaluation
Au Coeur Des LLM, Sans Les Maths-1
19 pages
Document Sans Titre
Pas encore d'évaluation
Document Sans Titre
9 pages
Résumé L'IA by Taha - )
Pas encore d'évaluation
Résumé L'IA by Taha - )
2 pages
Résumé L'IA by Taha - )
Pas encore d'évaluation
Résumé L'IA by Taha - )
2 pages
Projet de La Lunette Intellegent Avec Reconnaissance Faciale
Pas encore d'évaluation
Projet de La Lunette Intellegent Avec Reconnaissance Faciale
4 pages
L'IA Générative Repères, Enjeux Et Contextualisation
Pas encore d'évaluation
L'IA Générative Repères, Enjeux Et Contextualisation
10 pages
B08KRRPG1Q
Pas encore d'évaluation
B08KRRPG1Q
216 pages
Qu Est
Pas encore d'évaluation
Qu Est
2 pages
Partie2CoursTALN UM6SS MasterBD-IA 2022
Pas encore d'évaluation
Partie2CoursTALN UM6SS MasterBD-IA 2022
33 pages
Les Bibliotheques Python Les Bibliotheques Python Les Bibliotheques Python Les Bibliotheques Python
Pas encore d'évaluation
Les Bibliotheques Python Les Bibliotheques Python Les Bibliotheques Python Les Bibliotheques Python
32 pages
Thème
Pas encore d'évaluation
Thème
34 pages
Lexique Essentiel de l'IA
Pas encore d'évaluation
Lexique Essentiel de l'IA
4 pages
Réponse Pour Le Quiz D'introduction À l'IA Générative
Pas encore d'évaluation
Réponse Pour Le Quiz D'introduction À l'IA Générative
5 pages
Système de Suggestion de Tags NLP
Pas encore d'évaluation
Système de Suggestion de Tags NLP
14 pages
IA : Tendances et Applications Clés
Pas encore d'évaluation
IA : Tendances et Applications Clés
74 pages
QCM sur le NLP - Niveau 1
100% (1)
QCM sur le NLP - Niveau 1
3 pages
Culture Digitale Séance4
Pas encore d'évaluation
Culture Digitale Séance4
71 pages
Formation IA Travaux - PPT V2
Pas encore d'évaluation
Formation IA Travaux - PPT V2
21 pages
Baget 2004 C
Pas encore d'évaluation
Baget 2004 C
24 pages
Cours Jour 03
Pas encore d'évaluation
Cours Jour 03
10 pages
Guide Formation IA & Prompt Engineering
Pas encore d'évaluation
Guide Formation IA & Prompt Engineering
32 pages
Séquance 4 (Copy FR)
Pas encore d'évaluation
Séquance 4 (Copy FR)
5 pages
AI
Pas encore d'évaluation
AI
3 pages
Examen Fouille de Textes Master 1
Pas encore d'évaluation
Examen Fouille de Textes Master 1
2 pages
nlp06 MLP LM Classification
Pas encore d'évaluation
nlp06 MLP LM Classification
21 pages
Transformers
Pas encore d'évaluation
Transformers
36 pages
2024 01 11 Ia Gen Merit Vincent Guigue
Pas encore d'évaluation
2024 01 11 Ia Gen Merit Vincent Guigue
121 pages
Support de Cours - ChatGPT
Pas encore d'évaluation
Support de Cours - ChatGPT
5 pages
IA Generatives
Pas encore d'évaluation
IA Generatives
29 pages
UGRD-AI6100 - EXAMEN DE MI-PARCHEMIN - Tentative PARFAITE
Pas encore d'évaluation
UGRD-AI6100 - EXAMEN DE MI-PARCHEMIN - Tentative PARFAITE
11 pages
Projet IML 7 - Rapport
Pas encore d'évaluation
Projet IML 7 - Rapport
15 pages
Pres Globale Conf Apram Ia 22sept23
Pas encore d'évaluation
Pres Globale Conf Apram Ia 22sept23
79 pages
Tableau Comparatif de Quelques IA
Pas encore d'évaluation
Tableau Comparatif de Quelques IA
4 pages
Frameworks ML : Outils et Comparaison
Pas encore d'évaluation
Frameworks ML : Outils et Comparaison
51 pages
Web Sémantique et NLP en Python
Pas encore d'évaluation
Web Sémantique et NLP en Python
16 pages
Introduction À L'intelligence Artificielle - Session 3
Pas encore d'évaluation
Introduction À L'intelligence Artificielle - Session 3
42 pages
ChatGPT - Wikipédia
Pas encore d'évaluation
ChatGPT - Wikipédia
39 pages
Seance 1
Pas encore d'évaluation
Seance 1
48 pages
Introduction À L'intelligence Artificielle Et Ses Applications
Pas encore d'évaluation
Introduction À L'intelligence Artificielle Et Ses Applications
10 pages
L'Art Du Prompt Engineering - Vincent ASANI
Pas encore d'évaluation
L'Art Du Prompt Engineering - Vincent ASANI
20 pages
30 Ia
Pas encore d'évaluation
30 Ia
7 pages
"Le Futur du Web : Sémantique et IA"
Pas encore d'évaluation
"Le Futur du Web : Sémantique et IA"
30 pages
AI Exam
100% (1)
AI Exam
8 pages
Intro NLP 01 07 18
Pas encore d'évaluation
Intro NLP 01 07 18
35 pages
Les Travaux Pratiques Et Quiz Pour Cultu
Pas encore d'évaluation
Les Travaux Pratiques Et Quiz Pour Cultu
26 pages
Digital Skills - TD Séquence 4
Pas encore d'évaluation
Digital Skills - TD Séquence 4
5 pages
HDR Torres
Pas encore d'évaluation
HDR Torres
165 pages
Examen Master 2022/2023 en TALN
100% (3)
Examen Master 2022/2023 en TALN
3 pages
TP NLP GenAI PDF
Pas encore d'évaluation
TP NLP GenAI PDF
6 pages
Tensoflow Projets en Python
Pas encore d'évaluation
Tensoflow Projets en Python
11 pages
Ia Antiseche
Pas encore d'évaluation
Ia Antiseche
2 pages
Formats de Fichiers: Ouverts vs Fermés
Pas encore d'évaluation
Formats de Fichiers: Ouverts vs Fermés
42 pages
0162 Formation Dba Oracle 10g
Pas encore d'évaluation
0162 Formation Dba Oracle 10g
98 pages
Web Sémantique : Concepts et Applications
Pas encore d'évaluation
Web Sémantique : Concepts et Applications
4 pages
Modèle OSI : Fondements et Couches
Pas encore d'évaluation
Modèle OSI : Fondements et Couches
33 pages
Initiation Au Genie Logiciel
Pas encore d'évaluation
Initiation Au Genie Logiciel
23 pages
QCM Securité Informatique - Partie 2 - WayToLearnX
Pas encore d'évaluation
QCM Securité Informatique - Partie 2 - WayToLearnX
14 pages
SMI S5 - Cours Bases de Données (Pr. Ilham SLIMANI)
Pas encore d'évaluation
SMI S5 - Cours Bases de Données (Pr. Ilham SLIMANI)
130 pages
Chap1 INITIATION BASE Cours - Securite
Pas encore d'évaluation
Chap1 INITIATION BASE Cours - Securite
33 pages
Tuto Chouchou Cheveux
Pas encore d'évaluation
Tuto Chouchou Cheveux
7 pages
Série D'exercices N°2 - Suites Reélles - 4ème SI (2009-2010) MR Issaoui Hacen
Pas encore d'évaluation
Série D'exercices N°2 - Suites Reélles - 4ème SI (2009-2010) MR Issaoui Hacen
2 pages
Cours XML Chap1 Et 2
Pas encore d'évaluation
Cours XML Chap1 Et 2
85 pages
Pfe Sesame 1
Pas encore d'évaluation
Pfe Sesame 1
30 pages
Séquence N°3
Pas encore d'évaluation
Séquence N°3
2 pages
Introduction aux Bases de Données
Pas encore d'évaluation
Introduction aux Bases de Données
115 pages
Chuong 3 - Khai Pha Du Lieu
Pas encore d'évaluation
Chuong 3 - Khai Pha Du Lieu
21 pages
Profil Développeur Full-Stack
Pas encore d'évaluation
Profil Développeur Full-Stack
1 page
Les Métiers Du Futur Dans L'informatique
Pas encore d'évaluation
Les Métiers Du Futur Dans L'informatique
12 pages
Ingénierie Ontologique et IA
Pas encore d'évaluation
Ingénierie Ontologique et IA
189 pages
Examen NS1
Pas encore d'évaluation
Examen NS1
1 page
Maîtriser UNITEX pour l'EI en TALN
100% (1)
Maîtriser UNITEX pour l'EI en TALN
19 pages
Cloud Security 1.0 - Scope
Pas encore d'évaluation
Cloud Security 1.0 - Scope
6 pages
Introduction à l'informatique et programmation
Pas encore d'évaluation
Introduction à l'informatique et programmation
20 pages
Les Bases de Données Nosql: Pr. Soussi Nassima
Pas encore d'évaluation
Les Bases de Données Nosql: Pr. Soussi Nassima
112 pages
Impact de Chat GPT sur le Travail
Pas encore d'évaluation
Impact de Chat GPT sur le Travail
1 page
Rapport PFE
Pas encore d'évaluation
Rapport PFE
41 pages
Recrutement Expert SAP HANA Nanterre
Pas encore d'évaluation
Recrutement Expert SAP HANA Nanterre
1 page
FullStack Web Development Training Programme
Pas encore d'évaluation
FullStack Web Development Training Programme
16 pages
2 ND
Pas encore d'évaluation
2 ND
2 pages
Case Study
Pas encore d'évaluation
Case Study
21 pages
Informatique Et Societe
Pas encore d'évaluation
Informatique Et Societe
3 pages