Introduction aux Réseaux Neuronaux Récurrents

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Thèmes abordés

récurrence,
apprentissage,
échantillonnage,
taux d'apprentissage,
modèle génératif,
PNL,
langage naturel,
prédiction de mots,
génération de texte,
état caché récurrent

0% ont trouvé ce document utile (0 vote)

74 vues7 pages

Introduction aux Réseaux Neuronaux Récurrents

Transféré par

Maroua Lechleche

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Thèmes abordés

récurrence,
apprentissage,
échantillonnage,
taux d'apprentissage,
modèle génératif,
PNL,
langage naturel,
prédiction de mots,
génération de texte,
état caché récurrent

Qu’est-ce qu’un RNN?

Un réseau neuronal récurrent est un réseau neuronal spécialisé dans le traitement d’une séquence de
données x(t)= x(1), . . , x(τ) avec l’indice de pas temporel t allant de 1 à τ. Pour les tâches qui impliquent
des entrées séquentielles, telles que la parole et le langage, il est souvent préférable d’utiliser des RNNs.
Dans un problème de PNL, si vous voulez prédire le mot suivant dans une phrase, il est important de
connaître les mots qui la précèdent. Les RNNs sont appelés récurrents parce qu’ils effectuent la même
tâche pour chaque élément d’une séquence, avec le résultat dépendant des calculs précédents. Une
autre façon de penser les RNN est qu’ils ont une « mémoire » qui saisit l’information sur ce qui a été
calculé jusqu’à présent.

http://www.deeplearningbook.org/contents/rnn.html

Le côté gauche du diagramme ci-dessus montre une notation d’un RNN et sur le côté droit un RNN étant
déroulé (ou déplié) dans un réseau complet. Par dérouler, nous voulons dire que nous écrivons le réseau
pour la séquence complète. Par exemple, si la séquence qui nous intéresse est une phrase de 3 mots, le
réseau se déroulerait en un réseau neuronal à 3 couches, une couche pour chaque mot.

Input: x(t) est pris comme entrée dans le réseau à l’étape de temps t. Par exemple, x1,pourrait être un
vecteur à chaud correspondant à un mot d’une phrase.

Hidden state:: h(t) représente un état caché au moment t et agit comme « mémoire » du réseau. h(t)
est calculé en fonction de l’entrée actuelle et de l’état caché de l’étape précédente : h(t) = f(U x(t) + W
h(t 1)). La fonction f est considérée comme une transformation non linéaire telle que tanh, ReLU.
Weights : Le RNN a des entrées pour les connexions cachées paramétrées par une matrice de poids U,
des connexions récurrentes cachées à cachées paramétrabes par une matrice de poids W et des
connexions cachées à la sortie paramétrées par une matrice de poids V et toutes ces pesées (U,V,W)
sont partagées dans le temps.

Output : o(t) illustre la sortie du réseau. Dans la figure je viens de mettre une flèche après o(t) qui est
aussi souvent soumise à la non-linéarité, surtout quand le réseau contient d’autres couches en aval.

Forward Pass
La figure ne précise pas le choix de la fonction d’activation pour les unités cachées. Avant de procéder,
nous faisons quelques hypothèses : 1) nous supposons la fonction d’activation de tangente hyperbolique
pour la couche cachée. 2) Nous supposons que la sortie est discrète, comme si le RNN était utilisé pour
prédire des mots ou des caractères. Une façon naturelle de représenter les variables discrètes est de
considérer le résultat o comme donnant les probabilités log non normalisées de chaque valeur possible
de la variable discrète. Nous pouvons ensuite appliquer l’opération softmax comme étape de post-
traitement pour obtenir un coefficient vectoriel de probabilités normalisées sur la sortie.

Le passage RNN peut donc être représenté par l’ensemble d’équations ci-dessous.

Il est un exemple de réseau récurrent qui met en correspondance une séquence d’entrée avec une
séquence de sortie de même longueur. La perte totale pour une séquence donnée de valeurs x jumelées
à une séquence de valeurs y serait alors juste la somme des pertes sur toutes les étapes temporelles.
Nous supposons que les sorties o(t) sont utilisées comme argument à la fonction softmax pour obtenir le
coefficient de probabilité vectoriel sur la sortie. Nous supposons également que la perte L est la log-
vraisemblance négative de la vraie cible y(t) compte tenu de l’entrée jusqu’à présent.
Backward Pass
Le calcul du gradient consiste à effectuer une propagation vers l’avant en se déplaçant de gauche à
droite dans le graphique ci-dessus, suivie d’une propagation vers l’arrière en se déplaçant de droite à
gauche dans le graphique. L’exécution est O(τ) et ne peut être réduite par parallélisation car le graphe
de propagation vers l’avant est intrinsèquement séquentiel ; chaque étape temporelle ne peut être
calculée qu’après la précédente. Les états calculés dans le passe avant doivent être stockés jusqu’à ce
qu’ils soient réutilisés pendant le passe arrière, de sorte que le coût de la mémoire est également O(τ).
L’algorithme de contre-propagation appliqué au graphe non roulé avec le coût O(τ) est appelé contre-
propagation dans le temps (BPTT). Comme les paramètres sont partagés par toutes les étapes
temporelles du réseau, le gradient de chaque sortie dépend non seulement des calculs de l’étape
temporelle actuelle, mais aussi des étapes temporelles précédentes.

Computing Gradients

Compte tenu de notre fonction de perte L, nous devons calculer les gradients pour nos trois matrices de
poids U, V, W et les termes de biais b, c et les mettre à jour avec un taux d’apprentissage α. Semblable
au retour normal-propagation, le gradient nous donne une idée de la façon dont la perte est en train de
changer par rapport à chaque paramètre de poids. Nous mettons à jour les poids W pour minimiser la
perte avec l’équation suivante :

Il en va de même pour les autres poids U, V, b, c.

Calculons maintenant les gradients par BPTT pour les équations RNN ci-dessus. Les nœuds de notre
graphe informatique comprennent les paramètres U, V, W, b et c ainsi que la séquence des nœuds
indexés par t pour x (t), h(t), o(t) et L(t). Pour chaque nœud n, nous devons calculer le gradient nL de
manière récursive, en fonction du gradient calculé aux nœuds qui le suivent dans le graphe.

Gradient with respect to output o(t) (Gradient par rapport à la

sortie o(t))
est calculé en supposant que le o(t) sont utilisés comme argument de la fonction softmax pour obtenir le
coefficient vectoriel des probabilités sur la sortie. Nous supposons également que la perte est la
probabilité log négative de la vraie cible y(t).

https://eli.thegreenplace.net/2016/the-softmax-function-and-its-derivative/

Voyons maintenant comment le gradient s’écoule à travers l’état caché h(t). On peut clairement voir
dans le diagramme ci-dessous qu’à l’instant t, l’état caché h(t) a un gradient qui coule de la sortie
actuelle et du prochain état caché.

La flèche rouge indique le gradient de l’écoulement

Nous travaillons en arrière, à partir de la fin de la séquence. Au dernier pas de temps τ, h(τ) n’a que o(τ)
comme descendant, donc son gradient est simple :
Nous pouvons ensuite itérer en arrière dans le temps pour inverser les gradients à travers le temps, de
t=τ 1 jusqu’à t = 1, notant que h(t) (pour t < τ ) a comme descendants o(t) et h(t+1). Son gradient est
donc donné par :

Une fois les gradients sur les nœuds internes du graphe de calcul obtenus, on peut obtenir les gradients
sur les nœuds de paramètre. Les calculs de gradient utilisant la règle en chaîne pour tous les paramètres
sont :
Nous ne sommes pas intéressés à dériver ces équations ici, mais plutôt à les mettre en œuvre. Il y a de
très bons articles ici et ici qui fournissent des dérivations détaillées de ces équations.

RNN Backprop Through Time Equations – Back Propaganda

Implementation

Nous allons implémenter un réseau de neurones récurrent complet à partir de zéro en utilisant Python.
Nous allons essayer de construire un modèle de génération de texte en utilisant un RNN. Nous
entraînons notre modèle à prédire la probabilité d’un caractère en fonction des caractères précédents.
C’est un modèle génératif. Étant donné une séquence existante de caractères, nous échantillonnons un
caractère suivant à partir des probabilités prédites et répétons le processus jusqu’à ce que nous ayons
une phrase complète. Cette mise en œuvre est de Andrej Karparthy grand post construction d’un niveau
de personnage RNN. Ici nous allons discuter les détails de la mise en œuvre étape par étape.

Étapes générales à suivre :

Initialiser les matrices de poids U, V, W à partir de la distribution aléatoire et du biais b, c avec des zéros

Propagation directe pour calculer les prévisions

Calculer la perte

Propagation inverse pour calculer les gradients

Mise à jour des poids en fonction des gradients

Répéter les étapes 2 à 5

Vous aimerez peut-être aussi

Introduction aux RNN en apprentissage automatique
Pas encore d'évaluation
Introduction aux RNN en apprentissage automatique
20 pages
Comprendre les RNN pour la génération de texte
Pas encore d'évaluation
Comprendre les RNN pour la génération de texte
7 pages
Cours Deep 5
Pas encore d'évaluation
Cours Deep 5
22 pages
8 - Deep Learning - FR
Pas encore d'évaluation
8 - Deep Learning - FR
42 pages
07 RNN 2020
Pas encore d'évaluation
07 RNN 2020
40 pages
Réseau Neuronal Recurrent "Recurrent Neural Network" (RNN)
Pas encore d'évaluation
Réseau Neuronal Recurrent "Recurrent Neural Network" (RNN)
9 pages
2réseaux de Neurones Récurrents PB
Pas encore d'évaluation
2réseaux de Neurones Récurrents PB
5 pages
3 Apprentissage Profond PB
Pas encore d'évaluation
3 Apprentissage Profond PB
2 pages
Introduction aux Réseaux de Neurones Récurrents
Pas encore d'évaluation
Introduction aux Réseaux de Neurones Récurrents
66 pages
Introduction aux Réseaux de Neurones Récurrents
Pas encore d'évaluation
Introduction aux Réseaux de Neurones Récurrents
68 pages
Le Perceptron Multicouche Back Propagation
Pas encore d'évaluation
Le Perceptron Multicouche Back Propagation
17 pages
Learning Objectives: General Information
Pas encore d'évaluation
Learning Objectives: General Information
17 pages
Les RNN (Recurent Neural Networks)
Pas encore d'évaluation
Les RNN (Recurent Neural Networks)
16 pages
Initiation aux réseaux de neurones avec Matlab
Pas encore d'évaluation
Initiation aux réseaux de neurones avec Matlab
8 pages
1b - RNN Et LSTM
100% (1)
1b - RNN Et LSTM
56 pages
Cours et Exercices sur Réseaux Neurones
Pas encore d'évaluation
Cours et Exercices sur Réseaux Neurones
55 pages
Deep Learning et généralisation des modèles
Pas encore d'évaluation
Deep Learning et généralisation des modèles
13 pages
Classification d'Iris avec Réseau de Neurones
Pas encore d'évaluation
Classification d'Iris avec Réseau de Neurones
4 pages
Prédiction Bitcoin avec CNN & RNN
Pas encore d'évaluation
Prédiction Bitcoin avec CNN & RNN
6 pages
RNN et LSTM : Fonctionnement et Applications
Pas encore d'évaluation
RNN et LSTM : Fonctionnement et Applications
47 pages
Reseaux de Neurones 1
Pas encore d'évaluation
Reseaux de Neurones 1
8 pages
Réseaux de Neurones Artificiels
Pas encore d'évaluation
Réseaux de Neurones Artificiels
11 pages
RDF TP 0102 3 C
Pas encore d'évaluation
RDF TP 0102 3 C
11 pages
Introduction à la rétropropagation
Pas encore d'évaluation
Introduction à la rétropropagation
30 pages
Introduction aux Réseaux de Neurones ANNs
Pas encore d'évaluation
Introduction aux Réseaux de Neurones ANNs
67 pages
Traitement de texte avec réseaux de neurones
Pas encore d'évaluation
Traitement de texte avec réseaux de neurones
6 pages
DEEP LEARNING - Chapitre 2 (Tchi Drive)
Pas encore d'évaluation
DEEP LEARNING - Chapitre 2 (Tchi Drive)
19 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
26 pages
CR Ai
Pas encore d'évaluation
CR Ai
6 pages
NLP
100% (1)
NLP
4 pages
Perceptron Multicouche et XOR
Pas encore d'évaluation
Perceptron Multicouche et XOR
35 pages
Introduction aux Réseaux de Neurones Artificiels
Pas encore d'évaluation
Introduction aux Réseaux de Neurones Artificiels
5 pages
Cours RNN V1
Pas encore d'évaluation
Cours RNN V1
23 pages
7-Les Reseaux de Neurones
Pas encore d'évaluation
7-Les Reseaux de Neurones
17 pages
Deep Lera Ning
Pas encore d'évaluation
Deep Lera Ning
112 pages
Perceptron : Classification de Données
Pas encore d'évaluation
Perceptron : Classification de Données
27 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
16 pages
Introduction Au Deep Learning (Notes de Cours)
Pas encore d'évaluation
Introduction Au Deep Learning (Notes de Cours)
51 pages
Réseaux Neuronaux: Concepts et Évolution
Pas encore d'évaluation
Réseaux Neuronaux: Concepts et Évolution
49 pages
Réseaux de Neurones
Pas encore d'évaluation
Réseaux de Neurones
27 pages
2459499327182185
Pas encore d'évaluation
2459499327182185
97 pages
Fcihe Machie Learning II
Pas encore d'évaluation
Fcihe Machie Learning II
20 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
72 pages
TP Régression Non Linéaire Avec Un Réseau de Neurones: Définition Du Problème
Pas encore d'évaluation
TP Régression Non Linéaire Avec Un Réseau de Neurones: Définition Du Problème
3 pages
Introduction aux Réseaux de Neurones Récurrents
Pas encore d'évaluation
Introduction aux Réseaux de Neurones Récurrents
21 pages
Découvrez Le Neurone Formel
Pas encore d'évaluation
Découvrez Le Neurone Formel
76 pages
Initiation aux Réseaux de Neurones
Pas encore d'évaluation
Initiation aux Réseaux de Neurones
9 pages
TD3 - CNN
Pas encore d'évaluation
TD3 - CNN
3 pages
Réseau de Neurones pour Classification d'Images
Pas encore d'évaluation
Réseau de Neurones pour Classification d'Images
8 pages
Réseau de neurones et rétro-propagation
Pas encore d'évaluation
Réseau de neurones et rétro-propagation
2 pages
TP15
Pas encore d'évaluation
TP15
6 pages
RNA - CH - III - Perceptron Multicouches
Pas encore d'évaluation
RNA - CH - III - Perceptron Multicouches
48 pages
Réseaux de Neurons
Pas encore d'évaluation
Réseaux de Neurons
10 pages
Compte Rendu TP IA
Pas encore d'évaluation
Compte Rendu TP IA
5 pages
Modélisation de machine asynchrone par neurones
80% (10)
Modélisation de machine asynchrone par neurones
29 pages
nlp05 Intro RN
Pas encore d'évaluation
nlp05 Intro RN
19 pages
Correction Examen
Pas encore d'évaluation
Correction Examen
7 pages
Histoire des Calculatrices Mécaniques
Pas encore d'évaluation
Histoire des Calculatrices Mécaniques
296 pages
Rapport v2 1
Pas encore d'évaluation
Rapport v2 1
21 pages
MH M09 Guide TP
Pas encore d'évaluation
MH M09 Guide TP
9 pages
Techniques de Recherche Internet ENS
Pas encore d'évaluation
Techniques de Recherche Internet ENS
6 pages
Investir : Tendances et Perspectives Financières
Pas encore d'évaluation
Investir : Tendances et Perspectives Financières
40 pages
Cours 21info3401 v2
Pas encore d'évaluation
Cours 21info3401 v2
51 pages
Application de Gestion de Rendez
Pas encore d'évaluation
Application de Gestion de Rendez
4 pages
Création d'un studio webcam : étapes clés
Pas encore d'évaluation
Création d'un studio webcam : étapes clés
6 pages
Pim11 L1 New
Pas encore d'évaluation
Pim11 L1 New
207 pages
Ressources et composants d'un PC
Pas encore d'évaluation
Ressources et composants d'un PC
10 pages
Gestion de Classe Excel
Pas encore d'évaluation
Gestion de Classe Excel
9 pages
Installation d'OpenSIPS et IPBX Asterisk
Pas encore d'évaluation
Installation d'OpenSIPS et IPBX Asterisk
54 pages
Cours 5 Informatique Svt-1
Pas encore d'évaluation
Cours 5 Informatique Svt-1
34 pages
TP Genie Logiciel
100% (1)
TP Genie Logiciel
6 pages
Convergence des suites et exercices mathématiques
Pas encore d'évaluation
Convergence des suites et exercices mathématiques
5 pages
Expert en Développement Commercial et Réassurance
Pas encore d'évaluation
Expert en Développement Commercial et Réassurance
2 pages
Manuel d'utilisation de l'e-PV
Pas encore d'évaluation
Manuel d'utilisation de l'e-PV
106 pages
Referentiel s8 Strategie de Maintenance
100% (1)
Referentiel s8 Strategie de Maintenance
11 pages
Formation AWS : Notions de base Cloud
Pas encore d'évaluation
Formation AWS : Notions de base Cloud
51 pages
Mémoire DIC PAPA LATYR MBODJ ÉCOLE SUPÉRIEURE POLYTECHNIQUE
Pas encore d'évaluation
Mémoire DIC PAPA LATYR MBODJ ÉCOLE SUPÉRIEURE POLYTECHNIQUE
126 pages
Certificat NF A2P pour Détecteur Sismique
Pas encore d'évaluation
Certificat NF A2P pour Détecteur Sismique
2 pages
1re Projet Sous Unity - Auto2 - TP
Pas encore d'évaluation
1re Projet Sous Unity - Auto2 - TP
34 pages
Instructions de branchement MIPS R3000
Pas encore d'évaluation
Instructions de branchement MIPS R3000
1 page
Gestion des artisans et formations PME
Pas encore d'évaluation
Gestion des artisans et formations PME
3 pages
Nagios: Guide de Supervision IT
Pas encore d'évaluation
Nagios: Guide de Supervision IT
14 pages
Exercices C/C++ pour étudiants ENSA 2021-2022
Pas encore d'évaluation
Exercices C/C++ pour étudiants ENSA 2021-2022
2 pages
Chapitre 1 Limites Et Continuit e
Pas encore d'évaluation
Chapitre 1 Limites Et Continuit e
10 pages
Tableau de Selection RMQ+RMQ16+FAK
Pas encore d'évaluation
Tableau de Selection RMQ+RMQ16+FAK
20 pages
OT01 Access Control System Introduction - Fundamental
Pas encore d'évaluation
OT01 Access Control System Introduction - Fundamental
18 pages