NLP 2025
1
WHISPER – Speech to Text
1. Qu’est-ce que Whisper ?
Modèle d’OpenAI qui transforme l’audio en texte.
2. Tâches secondaires de Whisper ?
Traduction, détection de langue, reconnaissance vocale.
3. Architecture de Whisper ?
Transformer encodeur-décodeur.
4. Zero-shot learning ?
Réussir une tâche sans entraînement direct.
5. Type d’entraînement ?
Faiblement supervisé (bruité, auto-généré).
6. WER ("The dog chased the cat" / "The dog the cat") ?
1 mot supprimé → 1 erreur / 5 mots = 20%.
7. Différence WER / CER ?
WER = erreurs sur les mots ; CER = erreurs sur les lettres.
8. RTF = 0.5 ?
Le modèle est 2 fois plus rapide que l’audio.
Comparaison : WER vs CER
WER mesure les erreurs sur les mots entiers, CER sur chaque caractère. CER est plus
précis.
GloVe – Word Embeddings
9. Qu’est-ce que GloVe ?
Modèle qui transforme les mots en vecteurs.
10. Hypothèse distributionnelle ?
Mots proches dans le contexte = sens similaire.
11. Matrice de co-occurrence ?
Tableau qui compte les mots qui apparaissent ensemble.
12. Avantages / Inconvénients ?
Global, interprétable. Matrice lourde, creuse.
13. GloVe vs Word2Vec ?
GloVe = global (tout le texte), Word2Vec = local (fenêtre de contexte).
14. À quoi sert un embedding ?
À représenter les mots en chiffres pour l’IA.
15. P(mange | chat) si 3 co-occurrences sur 5 ?
3 / 5 = 60%.
Comparaison : ELMo vs Word2Vec
ELMo tient compte du contexte autour du mot. Word2Vec donne un seul vecteur fixe
pour chaque mot.
2
spaCy – NLP moderne
16. Qu’est-ce que spaCy ?
Librairie NLP rapide et simple en Python.
17. Pipeline NLP dans spaCy ?
Tokenisation → POS → Parsing → NER.
18. Différence Doc / Span / Token ?
Doc = texte entier, Span = extrait, Token = mot.
19. NER sur “Google is hiring in Casablanca, Morocco in June 2025.”
Google : ORG, Casablanca & Morocco : GPE, June 2025 : DATE.
20. 2 cas d’usage ?
Analyse de CV, Chatbot.
21. 2 défis en tokenisation ?
Contractions ("don’t"), ponctuation spéciale.
Web Scraping – Scrapy
22. Web scraping ?
Extraire automatiquement des données de pages web.
23. Architecture Scrapy ?
Spider → Scheduler → Downloader → Pipeline.
24. 2 solutions anti-bots ?
Rotation de proxy, changement de user-agent.
25. Scrapy vs BeautifulSoup ?
Scrapy = plus rapide, structuré ; BS = simple, manuel.
26. 2 règles éthiques ?
Respecter robots.txt, ne pas récupérer de données personnelles.
Comparaison : Scrapy vs BeautifulSoup
Scrapy gère les requêtes automatiquement et est plus rapide ; BS est plus simple pour de
petits scripts.
Ontologies & Web Sémantique
27. Qu’est-ce qu’une ontologie ?
Représentation formelle de concepts et relations.
28. Concept / Relation / Instance ?
Concept = type ; Relation = lien ; Instance = exemple réel.
29. Axiome ?
Règle logique entre concepts.
30. 2 avantages ?
Organisation + raisonnement automatique.
31. Ontologie vs Thésaurus ?
Ontologie = structure + inférences ; Thésaurus = simple hiérarchie.
3
32. Pourquoi utiliser Protégé ?
Pour créer et visualiser facilement une ontologie.
ChromaDB & Vector DB
33. Base vectorielle ?
Base qui stocke des vecteurs pour représenter des données.
34. Rôle de ChromaDB ?
Sert de mémoire pour aider le LLM à retrouver des infos.
35. HNSW ?
Algo rapide pour trouver les éléments proches (approximation).
36. Embedding dans Chroma ?
Représente un texte sous forme vectorielle.
37. 2 avantages ?
Rapide, efficace, facile à intégrer avec des LLM.
Agentic RAG & LangGraph
38. Qu’est-ce qu’un agent ?
Système autonome qui réfléchit et agit.
39. Avantage Agentic RAG ?
Peut poser des questions, planifier, réfléchir.
40. LangGraph ?
Outil pour créer des flux multi-agents.
41. 2 avantages de LangGraph ?
Gère la logique complexe et le contexte.
42. 2 cas d’usage ?
QA médical, assistant intelligent.
43. Limite actuelle ?
Ne fonctionne que sur macOS.
Comparaison : LangGraph vs LangChain
LangGraph permet des flux complexes avec plusieurs agents. LangChain est plus linéaire.
BRIGHTER – Emotion multilingue
44. Objectif BRIGHTER ?
Reconnaître les émotions dans 28 langues.
45. SHCMP ?
Score pour vérifier la cohérence des annotations.
46. Généralisation inter-langue ?
Entraîné sur plusieurs langues, testé sur une autre.
47. Classification vs Intensité ?
Type d’émotion vs degré de l’émotion.
4
48. Langues difficiles ?
Moins de données, différences culturelles.
Transformers
49. Qu’est-ce qu’un Transformer ?
Modèle basé sur l’attention (self-attention).
50. À quoi sert l’attention ?
Met l’accent sur les mots importants du contexte.
51. Avantage ?
Rapide, parallélisable, très efficace.
Dialogflow
52. Qu’est-ce que Dialogflow ?
Outil Google pour créer des chatbots.
53. Fonction ?
Comprendre les questions, fournir des réponses.
54. 2 composants ?
Intents et entities.
Mistral Instruct
55. Qu’est-ce que Mistral ?
Petit modèle open-source en français.
56. Mistral vs GPT ?
Mistral = léger, local ; GPT = plus puissant mais payant.
57. Pourquoi “instruct” ?
Optimisé pour suivre les instructions.
ELMo
58. Qu’est-ce que ELMo ?
Embeddings dynamiques selon le contexte.
59. Avantage ?
Même mot a un sens différent selon la phrase.
60. Cas d’usage ?
Q/R, classification, sentiment analysis.
AraBERT
61. Qu’est-ce qu’AraBERT ?
Version de BERT adaptée à l’arabe.
5
62. Pourquoi l’utiliser ?
Il comprend mieux la grammaire arabe.
63. AraBERT vs BERT classique ?
AraBERT est pré-entraîné sur du texte arabe, donc plus performant pour cette
langue.