NLP

Le document décrit l'évolution des modèles de langage avant l'ère des transformateurs, en se concentrant sur les RNN, LSTM et GRU. Il aborde les problèmes des gradients disparus et explosifs, ainsi que les solutions apportées par les architectures avancées comme les LSTM et GRU. Enfin, il présente les modèles Seq2Seq qui génèrent des séquences de sortie à partir de séquences d'entrée, en utilisant des mécanismes de classification et de probabilité.

Transféré par

benamor.yosr

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

100% ont trouvé ce document utile (1 vote)

211 vues4 pages

NLP

Transféré par

benamor.yosr

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Large language models before transformers RNN, GRU, LSTM, SeqtoSeq

1- RNN
Problématique : Les réseaux feed-forward ne peuvent pas gérer des données séquentielles de
longueur variable.
⇒ Solution : Les RNN introduisent une mémoire interne pour capturer les dépendances
temporelles.
Applications : Traitement du langage naturel (NLP). Reconnaissance vocale. Prédiction de
séries temporelles.
Données séquentielles : Les RNN sont conçus pour traiter des séquences (mots, frames
vidéo, données temporelles).
Memory à court terme : Ils maintiennent une mémoire des états précédents.
Flexibilité : Peuvent gérer des entrées et sorties de longueurs variables.

2- Combinaison des signaux : Tokens passés | Token actuel ; Les unités récurrentes
parcourent séquentiellement les éléments d’une séquence. Elles mélangent l’information d’un
élément avec les éléments précédents.

3- Forme déployée : Une manière de visualiser les RNN sur plusieurs pas de temps. Chaque
pas de temps partage les mêmes paramètres (poids et biais).

4- Réseau de Jordan (1986) : pour modéliser des données séquentielles. Caractéristiques :

Intègre des dépendances temporelles via des mécanismes de rétroaction ; Utilise la sortie
précédente comme entrée pour l’état caché.
- État caché : ht = σ(Wxt + Uyt−1 + b)
- Sortie : yi = σy(Wyhi + by)
- Fonctions d’activation : σ : Tangente hyperbolique (tanh) ; σy : Identité (régression) ou
Softmax (classification).
5- Réseau d’Elman (1990) :
Objectif : Capturer des représentations intermédiaires plus abstraites.
Innovation : Utilise l’état caché ht−1 comme signal de rétroaction (au lieu de yt dans le réseau
de Jordan).
Équations :
- État caché : ht = σh(Wx xt + Uh ht−1 + bh)
- Sortie : yt = σy(Whht + by)

1
Avantages du réseau d’Elman
- Récurrence d’état caché : Permet d’apprendre des dépendances temporelles arbitraires.
- Flexibilité : La dimensionnalité de l’état caché peut être choisie librement.
- Applications : modélisation de séquences complexes (langage, séries temporelles).

6- Problème des gradients disparus et explosifs

Contexte : Les RNN simples ont du mal à apprendre des dépendances à long terme.
Problème : Lors de l’entraînement sur des séquences longues, les gradients peuvent :
- Disparaître : Devenir trop petits pour mettre à jour les poids.
- Exploser : Devenir trop grands, causant une instabilité.

7- Dépendance des états cachés

équation de l’état caché : ht = σh (Wh*xt + Uh*ht−1 + bh)

8- Gradients disparus
Condition : Si les valeurs propres de Uh ont des magnitudes < 1.
Effet : U T−1 h → 0 quand T → ∞
Conséquence : Les gradients deviennent trop petits, et le réseau ”oublie” les informations à
long terme.
Impact : Le réseau ne peut pas apprendre des dépendances à long terme. Exemple : Difficulté
à retenir des informations au début d’une séquence longue

9- Gradients explosifs
Condition : Si les valeurs propres de Uh ont des magnitudes > 1.
Effet : U T−1 h → ∞ quand T → ∞
Conséquence : Les gradients deviennent trop grands, causant des mises à jour instables (voire
des NaN).
Impact : Instabilité pendant l’entraînement et Risque de divergence des poids.

⇒ Solutions possibles Initialisation soignée des poids : Par exemple, initialisation de Xavier
ou He ; Utilisation de fonctions d’activation adaptées : Comme ReLU ou des variantes. ;
Architectures avancées : LSTM, GRU, Transformers ; Troncature des gradients : Pour éviter
l’explosion des gradients.

10- Introduction aux LSTM : Architecture des LSTM

Composants clés :
- État caché (ht) : Représente la mémoire à court terme.
- État de cellule (ct) : Représente la mémoire à long terme.
- Portes : Contrôlent le flux d’information.
Entrées : xt :
- Entrée actuelle au temps t.
- ht−1 : État caché précédent.
- ct−1 : État de la cellule précédente.

2
11- Les portes des LSTM

12- Problèmes de gradients dans l’état caché

- Décroissance des gradients : Les gradients peuvent devenir trop petits pour mettre à
jour les poids efficacement. Cela rend difficile l’apprentissage de dépendances à long
terme.
- Explosion partielle des gradients : Si les portes poussent fortement dans certaines
directions, les gradients peuvent partiellement exploser. Cependant, les signaux à long
terme sont plus susceptibles de se dégrader.
13- Introduction aux GRU
Objectif : Résoudre le problème des gradients disparus tout en simplifiant l’architecture.
Avantages : Moins de portes que les LSTM (2 au lieu de 3). Performances similaires aux LSTM
pour de nombreuses tâches
Entrées : xt : Entrée actuelle au temps t. / ht−1 : État caché précédent.
Portes : Porte de mise à jour (zt) /
Porte de réinitialisation (rt)

Équation : ht = (1 − zt) ⊙ ht−1 + zt ⊙ h˜ t

Avantages des GRU
- Simplicité : Moins de paramètres que les LSTM (2 portes au lieu de 3).
- Efficacité : Performances similaires aux LSTM pour de nombreuses tâches.
- Applications : Traduction automatique. Génération de texte. Prédiction de séries
temporelles.
Les GRU sont une alternative simplifiée et efficace aux LSTM. Elles utilisent deux portes pour
gérer les dépendances à court et à long terme. Perspectives : Les GRU continuent d’être
largement utilisées dans les tâches de traitement de séquences.

14- short memory vs long memory

Mémoire à long terme (ci) : Gradients stables sur de longues séquences. Adapté pour retenir
des informations sur de longues périodes. Mémoire à court terme (hi) : Gradients fluctuants.
Adapté pour des changements immédiats ou contextuels.

3
15- Modèles Sequence-to-Sequence (Seq2Seq) : Un modèle de séquence à séquence est un
modèle qui prend en entrée une séquence de texte et génère une autre séquence de longueur
potentiellement différente en sortie.

16- La tête de prédiction est un classifieur qui produit une probabilité pour chaque mot du
vocabulaire. Le vecteur de sortie du décodeur est transformé en logits via une couche linéaire.

17- La perte est calculée sur la séquence cible étant donnée la séquence source

18- La transformation Softmax est utilisée pour estimer les probabilités des mots.

Vous aimerez peut-être aussi

Introduction aux Réseaux de Neurones Récurrents
Pas encore d'évaluation
Introduction aux Réseaux de Neurones Récurrents
66 pages
Introduction aux Réseaux Récurrents (RNN)
Pas encore d'évaluation
Introduction aux Réseaux Récurrents (RNN)
58 pages
Examia 083 C
Pas encore d'évaluation
Examia 083 C
9 pages
Examen Deep Learning - Ing-5-SSIR
Pas encore d'évaluation
Examen Deep Learning - Ing-5-SSIR
3 pages
Cours DL - Part5 (Prof)
Pas encore d'évaluation
Cours DL - Part5 (Prof)
78 pages
Examen Apprentissage - Profond
Pas encore d'évaluation
Examen Apprentissage - Profond
3 pages
Chapitre2 - Atelier UML Vers Java Avec Correction
Pas encore d'évaluation
Chapitre2 - Atelier UML Vers Java Avec Correction
7 pages
Examen
Pas encore d'évaluation
Examen
4 pages
Métriques de La Cohésion & Du Couplage: Liste Des Membres Du Groupe
Pas encore d'évaluation
Métriques de La Cohésion & Du Couplage: Liste Des Membres Du Groupe
28 pages
CNN (Convolutional Neural Network) : Universit e de SKIKDA 20 AOUT 1955 D Epartement de L'informatique
Pas encore d'évaluation
CNN (Convolutional Neural Network) : Universit e de SKIKDA 20 AOUT 1955 D Epartement de L'informatique
15 pages
Le Relationnel Étendu
100% (1)
Le Relationnel Étendu
2 pages
Chapitre 5 - Les Arbres de D-Cision
Pas encore d'évaluation
Chapitre 5 - Les Arbres de D-Cision
33 pages
Exercices Avec Corrige-Base de Donnes-Mod Non Relationnel1
Pas encore d'évaluation
Exercices Avec Corrige-Base de Donnes-Mod Non Relationnel1
8 pages
Méthodes de Classification en Apprentissage Supervisé
Pas encore d'évaluation
Méthodes de Classification en Apprentissage Supervisé
63 pages
Validation et Visualisation RDF
Pas encore d'évaluation
Validation et Visualisation RDF
9 pages
Data Mining CAH
Pas encore d'évaluation
Data Mining CAH
18 pages
Optimisation et Modélisation SAT
Pas encore d'évaluation
Optimisation et Modélisation SAT
2 pages
Output 4
Pas encore d'évaluation
Output 4
3 pages
Correction TD 2
Pas encore d'évaluation
Correction TD 2
4 pages
Examen IA 22-23 - Cycle
Pas encore d'évaluation
Examen IA 22-23 - Cycle
4 pages
2 Indexation Et Recherche D'images
Pas encore d'évaluation
2 Indexation Et Recherche D'images
6 pages
TD IA Embarquée: Apprentissage Auto
Pas encore d'évaluation
TD IA Embarquée: Apprentissage Auto
6 pages
Structures Arborescentes en Info
Pas encore d'évaluation
Structures Arborescentes en Info
12 pages
Chap 4
Pas encore d'évaluation
Chap 4
46 pages
Examen IA et Réseaux Neuronaux
Pas encore d'évaluation
Examen IA et Réseaux Neuronaux
4 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
71 pages
Modèle Relationnel Étendu en BDD
Pas encore d'évaluation
Modèle Relationnel Étendu en BDD
94 pages
Métamodélisation et transformation UML
Pas encore d'évaluation
Métamodélisation et transformation UML
4 pages
Serie 1
Pas encore d'évaluation
Serie 1
5 pages
Epreuve DM Concours de Doctorat Univ Annaba 2019-2020 (Tchi Drive)
100% (1)
Epreuve DM Concours de Doctorat Univ Annaba 2019-2020 (Tchi Drive)
3 pages
Corrigétype
Pas encore d'évaluation
Corrigétype
4 pages
Analyse de Données et Règles d'Association
Pas encore d'évaluation
Analyse de Données et Règles d'Association
11 pages
Règles d'Association en Data Mining
Pas encore d'évaluation
Règles d'Association en Data Mining
76 pages
Clustering et Algorithmes DBSCAN
Pas encore d'évaluation
Clustering et Algorithmes DBSCAN
36 pages
IA 1 - TD 1 - Corrigé (1) - 1
100% (1)
IA 1 - TD 1 - Corrigé (1) - 1
4 pages
TP Mnist Ia M1
Pas encore d'évaluation
TP Mnist Ia M1
75 pages
Compte-Rendu TP
100% (1)
Compte-Rendu TP
2 pages
Examen ML: Classification et Préparation
Pas encore d'évaluation
Examen ML: Classification et Préparation
6 pages
TD Ocl
Pas encore d'évaluation
TD Ocl
2 pages
TD5 RL
Pas encore d'évaluation
TD5 RL
16 pages
TD4-Clustering1 (Corrigé)
100% (1)
TD4-Clustering1 (Corrigé)
3 pages
Méthodes Ensemblistes en Machine Learning
Pas encore d'évaluation
Méthodes Ensemblistes en Machine Learning
30 pages
Introduction aux B-arbres et exercices pratiques
Pas encore d'évaluation
Introduction aux B-arbres et exercices pratiques
3 pages
TP 2 Spark
Pas encore d'évaluation
TP 2 Spark
4 pages
Spark-Td 1
Pas encore d'évaluation
Spark-Td 1
3 pages
TD1 EA Sol
Pas encore d'évaluation
TD1 EA Sol
3 pages
Gestion Emprunts et Événements
Pas encore d'évaluation
Gestion Emprunts et Événements
1 page
Cours Complet
Pas encore d'évaluation
Cours Complet
290 pages
Introduction à la Recherche d'Info
Pas encore d'évaluation
Introduction à la Recherche d'Info
93 pages
Serie Algo Arbre
Pas encore d'évaluation
Serie Algo Arbre
13 pages
TP 2 Clustering
Pas encore d'évaluation
TP 2 Clustering
2 pages
Cours II Algorithmes de Résolution Des Problèmes
Pas encore d'évaluation
Cours II Algorithmes de Résolution Des Problèmes
28 pages
Entrepôts de Données 2CS-Cours04
0% (1)
Entrepôts de Données 2CS-Cours04
24 pages
Chap 4
Pas encore d'évaluation
Chap 4
19 pages
Algorithmes de Recherche pour Résolution de Problèmes
Pas encore d'évaluation
Algorithmes de Recherche pour Résolution de Problèmes
15 pages
Introduction aux Réseaux de Neurones Récurrents
Pas encore d'évaluation
Introduction aux Réseaux de Neurones Récurrents
68 pages
Chap4 - Reseaux Neurones Recurrents
Pas encore d'évaluation
Chap4 - Reseaux Neurones Recurrents
15 pages
Cours RNN V1
Pas encore d'évaluation
Cours RNN V1
23 pages
Traitement de texte avec réseaux de neurones
Pas encore d'évaluation
Traitement de texte avec réseaux de neurones
6 pages
Etat D'avancement AMAR-MERIOULI
Pas encore d'évaluation
Etat D'avancement AMAR-MERIOULI
4 pages
3 Exercices 6e
Pas encore d'évaluation
3 Exercices 6e
2 pages
Tabel Calorii PARTEA II
Pas encore d'évaluation
Tabel Calorii PARTEA II
32 pages
维修工厂主要设备表
Pas encore d'évaluation
维修工厂主要设备表
2 pages
El 3 MA BOHEME
Pas encore d'évaluation
El 3 MA BOHEME
3 pages
2022 DNB Pro SVT Septembre Polynésie Génétique Mucoviscidose
50% (4)
2022 DNB Pro SVT Septembre Polynésie Génétique Mucoviscidose
2 pages
Ausgabe
Pas encore d'évaluation
Ausgabe
56 pages
Tutoriel Dialux EVO : Guide Complet
Pas encore d'évaluation
Tutoriel Dialux EVO : Guide Complet
5 pages
manual-WiiU-Mario Tennis Ultra Smash FR
Pas encore d'évaluation
manual-WiiU-Mario Tennis Ultra Smash FR
28 pages
SJB Carnet n1
Pas encore d'évaluation
SJB Carnet n1
42 pages
Fiche de Personnage RPG
Pas encore d'évaluation
Fiche de Personnage RPG
2 pages
Intelligence Artificielle: Pour Les Développeurs
100% (3)
Intelligence Artificielle: Pour Les Développeurs
512 pages
Évaluation Théorique au Canada: Concepts et Pratiques
Pas encore d'évaluation
Évaluation Théorique au Canada: Concepts et Pratiques
57 pages
Vocabulaire et révisions scolaires essentielles
100% (7)
Vocabulaire et révisions scolaires essentielles
3 pages
Théorie Du Marché - Devoir Sur Ex 1 À 3 Demande
Pas encore d'évaluation
Théorie Du Marché - Devoir Sur Ex 1 À 3 Demande
2 pages
Humidification Chamber MR370 Overview
Pas encore d'évaluation
Humidification Chamber MR370 Overview
5 pages
Éclairage
Pas encore d'évaluation
Éclairage
5 pages
Traductions de Mirza Ghalib
Pas encore d'évaluation
Traductions de Mirza Ghalib
39 pages
Les Immobilisations
Pas encore d'évaluation
Les Immobilisations
6 pages
Vol d'or et complots dans "The Endgame"
Pas encore d'évaluation
Vol d'or et complots dans "The Endgame"
121 pages
Guide Tableur: Fonctionnalités et Utilisation
Pas encore d'évaluation
Guide Tableur: Fonctionnalités et Utilisation
32 pages
Rapport de TP : Dosage de Vitamine C
Pas encore d'évaluation
Rapport de TP : Dosage de Vitamine C
6 pages
Projet Pour La 5ème Suivre Un Auteur
Pas encore d'évaluation
Projet Pour La 5ème Suivre Un Auteur
2 pages
TD3 - L'état de Rapprochement-Converti
100% (1)
TD3 - L'état de Rapprochement-Converti
2 pages
Acte de Vente Esther
Pas encore d'évaluation
Acte de Vente Esther
2 pages
DR-DC1 2024
Pas encore d'évaluation
DR-DC1 2024
5 pages
Gestion Du Temps. Chap1
Pas encore d'évaluation
Gestion Du Temps. Chap1
16 pages
QCM 5eme Appareil Respiratoire
Pas encore d'évaluation
QCM 5eme Appareil Respiratoire
4 pages
Gestion des Courriels au doCip
Pas encore d'évaluation
Gestion des Courriels au doCip
103 pages
Droit Bancaire2
Pas encore d'évaluation
Droit Bancaire2
96 pages
Memoir Setif
Pas encore d'évaluation
Memoir Setif
91 pages