Large language models before transformers RNN, GRU, LSTM, SeqtoSeq
1- RNN
Problématique : Les réseaux feed-forward ne peuvent pas gérer des données séquentielles de
longueur variable.
⇒ Solution : Les RNN introduisent une mémoire interne pour capturer les dépendances
temporelles.
Applications : Traitement du langage naturel (NLP). Reconnaissance vocale. Prédiction de
séries temporelles.
Données séquentielles : Les RNN sont conçus pour traiter des séquences (mots, frames
vidéo, données temporelles).
Memory à court terme : Ils maintiennent une mémoire des états précédents.
Flexibilité : Peuvent gérer des entrées et sorties de longueurs variables.
2- Combinaison des signaux : Tokens passés | Token actuel ; Les unités récurrentes
parcourent séquentiellement les éléments d’une séquence. Elles mélangent l’information d’un
élément avec les éléments précédents.
3- Forme déployée : Une manière de visualiser les RNN sur plusieurs pas de temps. Chaque
pas de temps partage les mêmes paramètres (poids et biais).
4- Réseau de Jordan (1986) : pour modéliser des données séquentielles. Caractéristiques :
Intègre des dépendances temporelles via des mécanismes de rétroaction ; Utilise la sortie
précédente comme entrée pour l’état caché.
- État caché : ht = σ(Wxt + Uyt−1 + b)
- Sortie : yi = σy(Wyhi + by)
- Fonctions d’activation : σ : Tangente hyperbolique (tanh) ; σy : Identité (régression) ou
Softmax (classification).
5- Réseau d’Elman (1990) :
Objectif : Capturer des représentations intermédiaires plus abstraites.
Innovation : Utilise l’état caché ht−1 comme signal de rétroaction (au lieu de yt dans le réseau
de Jordan).
Équations :
- État caché : ht = σh(Wx xt + Uh ht−1 + bh)
- Sortie : yt = σy(Whht + by)
1
Avantages du réseau d’Elman
- Récurrence d’état caché : Permet d’apprendre des dépendances temporelles arbitraires.
- Flexibilité : La dimensionnalité de l’état caché peut être choisie librement.
- Applications : modélisation de séquences complexes (langage, séries temporelles).
6- Problème des gradients disparus et explosifs
Contexte : Les RNN simples ont du mal à apprendre des dépendances à long terme.
Problème : Lors de l’entraînement sur des séquences longues, les gradients peuvent :
- Disparaître : Devenir trop petits pour mettre à jour les poids.
- Exploser : Devenir trop grands, causant une instabilité.
7- Dépendance des états cachés
équation de l’état caché : ht = σh (Wh*xt + Uh*ht−1 + bh)
8- Gradients disparus
Condition : Si les valeurs propres de Uh ont des magnitudes < 1.
Effet : U T−1 h → 0 quand T → ∞
Conséquence : Les gradients deviennent trop petits, et le réseau ”oublie” les informations à
long terme.
Impact : Le réseau ne peut pas apprendre des dépendances à long terme. Exemple : Difficulté
à retenir des informations au début d’une séquence longue
9- Gradients explosifs
Condition : Si les valeurs propres de Uh ont des magnitudes > 1.
Effet : U T−1 h → ∞ quand T → ∞
Conséquence : Les gradients deviennent trop grands, causant des mises à jour instables (voire
des NaN).
Impact : Instabilité pendant l’entraînement et Risque de divergence des poids.
⇒ Solutions possibles Initialisation soignée des poids : Par exemple, initialisation de Xavier
ou He ; Utilisation de fonctions d’activation adaptées : Comme ReLU ou des variantes. ;
Architectures avancées : LSTM, GRU, Transformers ; Troncature des gradients : Pour éviter
l’explosion des gradients.
10- Introduction aux LSTM : Architecture des LSTM
Composants clés :
- État caché (ht) : Représente la mémoire à court terme.
- État de cellule (ct) : Représente la mémoire à long terme.
- Portes : Contrôlent le flux d’information.
Entrées : xt :
- Entrée actuelle au temps t.
- ht−1 : État caché précédent.
- ct−1 : État de la cellule précédente.
2
11- Les portes des LSTM
12- Problèmes de gradients dans l’état caché
- Décroissance des gradients : Les gradients peuvent devenir trop petits pour mettre à
jour les poids efficacement. Cela rend difficile l’apprentissage de dépendances à long
terme.
- Explosion partielle des gradients : Si les portes poussent fortement dans certaines
directions, les gradients peuvent partiellement exploser. Cependant, les signaux à long
terme sont plus susceptibles de se dégrader.
13- Introduction aux GRU
Objectif : Résoudre le problème des gradients disparus tout en simplifiant l’architecture.
Avantages : Moins de portes que les LSTM (2 au lieu de 3). Performances similaires aux LSTM
pour de nombreuses tâches
Entrées : xt : Entrée actuelle au temps t. / ht−1 : État caché précédent.
Portes : Porte de mise à jour (zt) /
Porte de réinitialisation (rt)
Équation : ht = (1 − zt) ⊙ ht−1 + zt ⊙ h˜ t
Avantages des GRU
- Simplicité : Moins de paramètres que les LSTM (2 portes au lieu de 3).
- Efficacité : Performances similaires aux LSTM pour de nombreuses tâches.
- Applications : Traduction automatique. Génération de texte. Prédiction de séries
temporelles.
Les GRU sont une alternative simplifiée et efficace aux LSTM. Elles utilisent deux portes pour
gérer les dépendances à court et à long terme. Perspectives : Les GRU continuent d’être
largement utilisées dans les tâches de traitement de séquences.
14- short memory vs long memory
Mémoire à long terme (ci) : Gradients stables sur de longues séquences. Adapté pour retenir
des informations sur de longues périodes. Mémoire à court terme (hi) : Gradients fluctuants.
Adapté pour des changements immédiats ou contextuels.
3
15- Modèles Sequence-to-Sequence (Seq2Seq) : Un modèle de séquence à séquence est un
modèle qui prend en entrée une séquence de texte et génère une autre séquence de longueur
potentiellement différente en sortie.
16- La tête de prédiction est un classifieur qui produit une probabilité pour chaque mot du
vocabulaire. Le vecteur de sortie du décodeur est transformé en logits via une couche linéaire.
17- La perte est calculée sur la séquence cible étant donnée la séquence source
18- La transformation Softmax est utilisée pour estimer les probabilités des mots.