0% ont trouvé ce document utile (0 vote)
40 vues6 pages

NLP Pres

Le document présente divers outils et modèles en traitement du langage naturel (NLP) tels que Whisper pour la transcription audio, GloVe pour les embeddings de mots, et spaCy pour le traitement rapide en Python. Il aborde également des concepts comme les ontologies, les bases de données vectorielles, et des outils comme Dialogflow pour la création de chatbots. Enfin, il mentionne des modèles spécifiques comme ELMo et AraBERT, adaptés à des contextes linguistiques particuliers.

Transféré par

a.boumoula0851
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
40 vues6 pages

NLP Pres

Le document présente divers outils et modèles en traitement du langage naturel (NLP) tels que Whisper pour la transcription audio, GloVe pour les embeddings de mots, et spaCy pour le traitement rapide en Python. Il aborde également des concepts comme les ontologies, les bases de données vectorielles, et des outils comme Dialogflow pour la création de chatbots. Enfin, il mentionne des modèles spécifiques comme ELMo et AraBERT, adaptés à des contextes linguistiques particuliers.

Transféré par

a.boumoula0851
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

NLP 2025

1
WHISPER – Speech to Text
1. Qu’est-ce que Whisper ?
Modèle d’OpenAI qui transforme l’audio en texte.
2. Tâches secondaires de Whisper ?
Traduction, détection de langue, reconnaissance vocale.
3. Architecture de Whisper ?
Transformer encodeur-décodeur.
4. Zero-shot learning ?
Réussir une tâche sans entraînement direct.
5. Type d’entraînement ?
Faiblement supervisé (bruité, auto-généré).
6. WER ("The dog chased the cat" / "The dog the cat") ?
1 mot supprimé → 1 erreur / 5 mots = 20%.
7. Différence WER / CER ?
WER = erreurs sur les mots ; CER = erreurs sur les lettres.
8. RTF = 0.5 ?
Le modèle est 2 fois plus rapide que l’audio.

Comparaison : WER vs CER


WER mesure les erreurs sur les mots entiers, CER sur chaque caractère. CER est plus
précis.

GloVe – Word Embeddings


9. Qu’est-ce que GloVe ?
Modèle qui transforme les mots en vecteurs.
10. Hypothèse distributionnelle ?
Mots proches dans le contexte = sens similaire.
11. Matrice de co-occurrence ?
Tableau qui compte les mots qui apparaissent ensemble.
12. Avantages / Inconvénients ?
Global, interprétable. Matrice lourde, creuse.
13. GloVe vs Word2Vec ?
GloVe = global (tout le texte), Word2Vec = local (fenêtre de contexte).
14. À quoi sert un embedding ?
À représenter les mots en chiffres pour l’IA.
15. P(mange | chat) si 3 co-occurrences sur 5 ?
3 / 5 = 60%.

Comparaison : ELMo vs Word2Vec


ELMo tient compte du contexte autour du mot. Word2Vec donne un seul vecteur fixe
pour chaque mot.

2
spaCy – NLP moderne
16. Qu’est-ce que spaCy ?
Librairie NLP rapide et simple en Python.
17. Pipeline NLP dans spaCy ?
Tokenisation → POS → Parsing → NER.
18. Différence Doc / Span / Token ?
Doc = texte entier, Span = extrait, Token = mot.
19. NER sur “Google is hiring in Casablanca, Morocco in June 2025.”
Google : ORG, Casablanca & Morocco : GPE, June 2025 : DATE.
20. 2 cas d’usage ?
Analyse de CV, Chatbot.
21. 2 défis en tokenisation ?
Contractions ("don’t"), ponctuation spéciale.

Web Scraping – Scrapy


22. Web scraping ?
Extraire automatiquement des données de pages web.
23. Architecture Scrapy ?
Spider → Scheduler → Downloader → Pipeline.
24. 2 solutions anti-bots ?
Rotation de proxy, changement de user-agent.
25. Scrapy vs BeautifulSoup ?
Scrapy = plus rapide, structuré ; BS = simple, manuel.
26. 2 règles éthiques ?
Respecter robots.txt, ne pas récupérer de données personnelles.
Comparaison : Scrapy vs BeautifulSoup
Scrapy gère les requêtes automatiquement et est plus rapide ; BS est plus simple pour de
petits scripts.

Ontologies & Web Sémantique


27. Qu’est-ce qu’une ontologie ?
Représentation formelle de concepts et relations.
28. Concept / Relation / Instance ?
Concept = type ; Relation = lien ; Instance = exemple réel.
29. Axiome ?
Règle logique entre concepts.
30. 2 avantages ?
Organisation + raisonnement automatique.
31. Ontologie vs Thésaurus ?
Ontologie = structure + inférences ; Thésaurus = simple hiérarchie.

3
32. Pourquoi utiliser Protégé ?
Pour créer et visualiser facilement une ontologie.

ChromaDB & Vector DB


33. Base vectorielle ?
Base qui stocke des vecteurs pour représenter des données.
34. Rôle de ChromaDB ?
Sert de mémoire pour aider le LLM à retrouver des infos.
35. HNSW ?
Algo rapide pour trouver les éléments proches (approximation).
36. Embedding dans Chroma ?
Représente un texte sous forme vectorielle.
37. 2 avantages ?
Rapide, efficace, facile à intégrer avec des LLM.

Agentic RAG & LangGraph


38. Qu’est-ce qu’un agent ?
Système autonome qui réfléchit et agit.
39. Avantage Agentic RAG ?
Peut poser des questions, planifier, réfléchir.
40. LangGraph ?
Outil pour créer des flux multi-agents.
41. 2 avantages de LangGraph ?
Gère la logique complexe et le contexte.
42. 2 cas d’usage ?
QA médical, assistant intelligent.
43. Limite actuelle ?
Ne fonctionne que sur macOS.
Comparaison : LangGraph vs LangChain
LangGraph permet des flux complexes avec plusieurs agents. LangChain est plus linéaire.

BRIGHTER – Emotion multilingue


44. Objectif BRIGHTER ?
Reconnaître les émotions dans 28 langues.
45. SHCMP ?
Score pour vérifier la cohérence des annotations.
46. Généralisation inter-langue ?
Entraîné sur plusieurs langues, testé sur une autre.
47. Classification vs Intensité ?
Type d’émotion vs degré de l’émotion.

4
48. Langues difficiles ?
Moins de données, différences culturelles.

Transformers
49. Qu’est-ce qu’un Transformer ?
Modèle basé sur l’attention (self-attention).
50. À quoi sert l’attention ?
Met l’accent sur les mots importants du contexte.
51. Avantage ?
Rapide, parallélisable, très efficace.

Dialogflow
52. Qu’est-ce que Dialogflow ?
Outil Google pour créer des chatbots.
53. Fonction ?
Comprendre les questions, fournir des réponses.
54. 2 composants ?
Intents et entities.

Mistral Instruct
55. Qu’est-ce que Mistral ?
Petit modèle open-source en français.
56. Mistral vs GPT ?
Mistral = léger, local ; GPT = plus puissant mais payant.
57. Pourquoi “instruct” ?
Optimisé pour suivre les instructions.

ELMo
58. Qu’est-ce que ELMo ?
Embeddings dynamiques selon le contexte.
59. Avantage ?
Même mot a un sens différent selon la phrase.
60. Cas d’usage ?
Q/R, classification, sentiment analysis.

AraBERT
61. Qu’est-ce qu’AraBERT ?
Version de BERT adaptée à l’arabe.

5
62. Pourquoi l’utiliser ?
Il comprend mieux la grammaire arabe.
63. AraBERT vs BERT classique ?
AraBERT est pré-entraîné sur du texte arabe, donc plus performant pour cette
langue.

Vous aimerez peut-être aussi