100% ont trouvé ce document utile (1 vote)
211 vues4 pages

NLP

Le document décrit l'évolution des modèles de langage avant l'ère des transformateurs, en se concentrant sur les RNN, LSTM et GRU. Il aborde les problèmes des gradients disparus et explosifs, ainsi que les solutions apportées par les architectures avancées comme les LSTM et GRU. Enfin, il présente les modèles Seq2Seq qui génèrent des séquences de sortie à partir de séquences d'entrée, en utilisant des mécanismes de classification et de probabilité.

Transféré par

benamor.yosr
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
211 vues4 pages

NLP

Le document décrit l'évolution des modèles de langage avant l'ère des transformateurs, en se concentrant sur les RNN, LSTM et GRU. Il aborde les problèmes des gradients disparus et explosifs, ainsi que les solutions apportées par les architectures avancées comme les LSTM et GRU. Enfin, il présente les modèles Seq2Seq qui génèrent des séquences de sortie à partir de séquences d'entrée, en utilisant des mécanismes de classification et de probabilité.

Transféré par

benamor.yosr
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Large language models before transformers RNN, GRU, LSTM, SeqtoSeq

1- RNN
Problématique : Les réseaux feed-forward ne peuvent pas gérer des données séquentielles de
longueur variable.
⇒ Solution : Les RNN introduisent une mémoire interne pour capturer les dépendances
temporelles.
Applications : Traitement du langage naturel (NLP). Reconnaissance vocale. Prédiction de
séries temporelles.
Données séquentielles : Les RNN sont conçus pour traiter des séquences (mots, frames
vidéo, données temporelles).
Memory à court terme : Ils maintiennent une mémoire des états précédents.
Flexibilité : Peuvent gérer des entrées et sorties de longueurs variables.

2- Combinaison des signaux : Tokens passés | Token actuel ; Les unités récurrentes
parcourent séquentiellement les éléments d’une séquence. Elles mélangent l’information d’un
élément avec les éléments précédents.

3- Forme déployée : Une manière de visualiser les RNN sur plusieurs pas de temps. Chaque
pas de temps partage les mêmes paramètres (poids et biais).

4- Réseau de Jordan (1986) : pour modéliser des données séquentielles. Caractéristiques :


Intègre des dépendances temporelles via des mécanismes de rétroaction ; Utilise la sortie
précédente comme entrée pour l’état caché.
-​ État caché : ht = σ(Wxt + Uyt−1 + b)
-​ Sortie : yi = σy(Wyhi + by)
-​ Fonctions d’activation : σ : Tangente hyperbolique (tanh) ; σy : Identité (régression) ou
Softmax (classification).
5- Réseau d’Elman (1990) :
Objectif : Capturer des représentations intermédiaires plus abstraites.
Innovation : Utilise l’état caché ht−1 comme signal de rétroaction (au lieu de yt dans le réseau
de Jordan).
Équations :
-​ État caché : ht = σh(Wx xt + Uh ht−1 + bh)
-​ Sortie : yt = σy(Whht + by)

1
Avantages du réseau d’Elman
-​ Récurrence d’état caché : Permet d’apprendre des dépendances temporelles arbitraires.
-​ Flexibilité : La dimensionnalité de l’état caché peut être choisie librement.
-​ Applications : modélisation de séquences complexes (langage, séries temporelles).

6- Problème des gradients disparus et explosifs

Contexte : Les RNN simples ont du mal à apprendre des dépendances à long terme.
Problème : Lors de l’entraînement sur des séquences longues, les gradients peuvent :
-​ Disparaître : Devenir trop petits pour mettre à jour les poids.
-​ Exploser : Devenir trop grands, causant une instabilité.

7- Dépendance des états cachés


équation de l’état caché : ht = σh (Wh*xt + Uh*ht−1 + bh)

8- Gradients disparus
Condition : Si les valeurs propres de Uh ont des magnitudes < 1.
Effet : U T−1 h → 0 quand T → ∞
Conséquence : Les gradients deviennent trop petits, et le réseau ”oublie” les informations à
long terme.
Impact : Le réseau ne peut pas apprendre des dépendances à long terme. Exemple : Difficulté
à retenir des informations au début d’une séquence longue

9- Gradients explosifs
Condition : Si les valeurs propres de Uh ont des magnitudes > 1.
Effet : U T−1 h → ∞ quand T → ∞
Conséquence : Les gradients deviennent trop grands, causant des mises à jour instables (voire
des NaN).
Impact : Instabilité pendant l’entraînement et Risque de divergence des poids.

⇒ Solutions possibles Initialisation soignée des poids : Par exemple, initialisation de Xavier
ou He ; Utilisation de fonctions d’activation adaptées : Comme ReLU ou des variantes. ;
Architectures avancées : LSTM, GRU, Transformers ; Troncature des gradients : Pour éviter
l’explosion des gradients.

10- Introduction aux LSTM : Architecture des LSTM


Composants clés :
-​ État caché (ht) : Représente la mémoire à court terme.
-​ État de cellule (ct) : Représente la mémoire à long terme.
-​ Portes : Contrôlent le flux d’information.
Entrées : xt :
-​ Entrée actuelle au temps t.
-​ ht−1 : État caché précédent.
-​ ct−1 : État de la cellule précédente.

2
11- Les portes des LSTM

12- Problèmes de gradients dans l’état caché


-​ Décroissance des gradients : Les gradients peuvent devenir trop petits pour mettre à
jour les poids efficacement. Cela rend difficile l’apprentissage de dépendances à long
terme.
-​ Explosion partielle des gradients : Si les portes poussent fortement dans certaines
directions, les gradients peuvent partiellement exploser. Cependant, les signaux à long
terme sont plus susceptibles de se dégrader.
13- Introduction aux GRU
Objectif : Résoudre le problème des gradients disparus tout en simplifiant l’architecture.
Avantages : Moins de portes que les LSTM (2 au lieu de 3). Performances similaires aux LSTM
pour de nombreuses tâches
Entrées : xt : Entrée actuelle au temps t. / ht−1 : État caché précédent.
Portes : Porte de mise à jour (zt) /
Porte de réinitialisation (rt)

Équation : ht = (1 − zt) ⊙ ht−1 + zt ⊙ h˜ t


Avantages des GRU
-​ Simplicité : Moins de paramètres que les LSTM (2 portes au lieu de 3).
-​ Efficacité : Performances similaires aux LSTM pour de nombreuses tâches.
-​ Applications : Traduction automatique. Génération de texte. Prédiction de séries
temporelles.
Les GRU sont une alternative simplifiée et efficace aux LSTM. Elles utilisent deux portes pour
gérer les dépendances à court et à long terme. Perspectives : Les GRU continuent d’être
largement utilisées dans les tâches de traitement de séquences.

14- short memory vs long memory


Mémoire à long terme (ci) : Gradients stables sur de longues séquences. Adapté pour retenir
des informations sur de longues périodes. Mémoire à court terme (hi) : Gradients fluctuants.
Adapté pour des changements immédiats ou contextuels.

3
15- Modèles Sequence-to-Sequence (Seq2Seq) : Un modèle de séquence à séquence est un
modèle qui prend en entrée une séquence de texte et génère une autre séquence de longueur
potentiellement différente en sortie.

16- La tête de prédiction est un classifieur qui produit une probabilité pour chaque mot du
vocabulaire. Le vecteur de sortie du décodeur est transformé en logits via une couche linéaire.

17- La perte est calculée sur la séquence cible étant donnée la séquence source

18- La transformation Softmax est utilisée pour estimer les probabilités des mots.

Vous aimerez peut-être aussi