0% ont trouvé ce document utile (0 vote)
447 vues5 pages

LSTM

Transféré par

kasmi zoubeir
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
447 vues5 pages

LSTM

Transféré par

kasmi zoubeir
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

LSTM

I. Deux problèmes des RNN standards


1. Problème de disparition de gradient
Les réseaux neuronaux récurrents vous permettent de modéliser des problèmes de données
séquentielles et dépendantes du temps, tels que la prédiction boursière, la traduction
automatique et la génération de texte. Cependant, vous constaterez que les RNN sont difficiles
à entraîner en raison du problème du gradient.
Les RNN souffrent du problème de la disparition des gradients. Les gradients portent des
informations utilisées dans le RNN, et lorsque le gradient devient trop petit, les mises à jour
des paramètres deviennent insignifiantes. Cela rend difficile l'apprentissage de longues
séquences de données.

2. Problème de gradient explosif


Lors de l’entrainement d'un réseau neuronal, si le gradient tend à croître exponentiellement au
lieu de décroître, on parle de gradient explosif. Ce problème survient lorsque des gradients
d'erreur importants s'accumulent, entraînant des mises à jour très importantes des poids du
modèle de réseau neuronal au cours du processus d’entrainement.
Un long temps d'apprentissage, des performances médiocres et une mauvaise précision sont
les principaux problèmes des problèmes de gradient.
3. Solutions aux problèmes de gradient
Voyons maintenant la méthode la plus populaire et la plus efficace pour traiter les problèmes
de gradient, à savoir le réseau de mémoire à long terme (LSTM).
Tout d'abord, comprenons les dépendances à long terme.
Considérez cette phrase : "Je séjourne en Espagne depuis 10 ans... je parle couramment
______."
Le mot que vous prédisez dépend des quelques mots précédents dans le contexte. Ici, vous
avez besoin du contexte de l'Espagne pour prédire le dernier mot du texte, et la réponse la plus
appropriée à cette phrase est "espagnol". L'écart entre les informations pertinentes et le point
où elles sont nécessaires peut être devenu très important. Les LSTM vous aident à résoudre ce
problème.

4. Réseaux de mémoire à long terme « Long short-term memory » (LSTM)


Les LSTM sont un type particulier des RNN - capables d'apprendre des dépendances à long
terme en mémorisant des informations pendant de longues périodes.
Tous les RNN se présentent sous la forme d'une chaîne de modules répétitifs d'un réseau
neuronal. Dans les RNN standard, ce module répétitif aura une structure très simple, telle
qu'une seule couche tanh.

Les LSTM ont également une structure en chaîne, mais le module répétiteur a une structure
un peu différente. Au lieu d'avoir une seule couche de réseau neuronal, quatre couches en
interaction communiquent de manière extraordinaire.
5. Fonctionnement des LSTM dans un RNN

Les LSTMs fonctionnent selon un processus en 3 étapes


Étape 1 : Déterminer la quantité de données antérieures qu'il doit mémoriser
La première étape du LSTM consiste à décider quelles informations doivent être omises de la
cellule au cours de ce pas de temps particulier. La fonction sigmoïde détermine cela. Elle
examine l'état précédent (ℎ ) ainsi que l'entrée actuelle et calcule la fonction suivante
Considérez les deux phrases suivantes :
Soit la sortie de h(t-1) : "Alice est bonne en physique. Jean, par contre, est bon en Chimie".
Soit l'entrée de courant en x(t) : "John joue bien au football. Il m'a dit hier au téléphone qu'il
avait été capitaine de l'équipe de football de son université."
La porte d'oubli réalise qu'il pourrait y avoir un changement de contexte après avoir rencontré
le premier point. Elle compare avec la phrase d'entrée actuelle à x(t). La phrase suivante parle
de John, donc l'information sur Alice est supprimée. La position du sujet est libérée et
attribuée à Jean.
Étape 2 : Décider de la valeur ajoutée de cette unité par rapport à l'état actuel.
Dans la deuxième couche, il y a deux parties. L'une est la fonction sigmoïde, et l'autre est la
fonction tanh. Dans la fonction sigmoïde, on décide des valeurs à laisser passer (0 ou 1). La
fonction tanh donne un poids aux valeurs qui sont passées, en décidant de leur niveau
d'importance (-1 à 1).

Avec l'entrée actuelle à x(t), la porte d'entrée analyse l'information importante - John joue au
football, et le fait qu'il ait été le capitaine de l'équipe de son université est important.
"Il me l'a dit hier au téléphone" est moins important ; il est donc oublié. Ce processus d'ajout
de nouvelles informations peut être effectué par la porte d'entrée
Étape 3 : Décider quelle partie de l'état actuel de la cellule est transmise à la sortie.
La troisième étape consiste à décider ce que sera la sortie. Tout d'abord, nous exécutons une
couche sigmoïde, qui décide des parties de l'état de la cellule qui seront transmises à la sortie.
Ensuite, on fait passer l'état de la cellule par tanh pour que les valeurs soient comprises entre -
1 et 1 et on les multiplie par la sortie de la porte sigmoïde.

Prenons cet exemple pour prédire le mot suivant dans la phrase : "John a joué formidablement
bien contre l'adversaire et a gagné pour son équipe. Pour sa contribution, le courageux ____ a
été désigné joueur du match."
Il pourrait y avoir plusieurs choix pour l'espace vide. L'entrée actuelle « courageux » est un
adjectif, et les adjectifs décrivent un nom. Donc, "John" pourrait être la meilleure sortie après
courageux.

Vous aimerez peut-être aussi