0% ont trouvé ce document utile (0 vote)

120 vues20 pages

Introduction aux RNN en apprentissage automatique

Ce document introduit les réseaux de neurones récurrents (RNN) pour la modélisation de séquences de données. Il décrit comment les RNN peuvent être entraînés avec la rétropropagation dans le temps pour approximer n'importe quelle transformation séquence-à-séquence mesurable. Le document explique également les défis posés par la profondeur des RNN déroulés pour l'entraînement, tels que les gradients explosifs ou disparus.

Transféré par

koloouattara929

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

120 vues20 pages

Introduction aux RNN en apprentissage automatique

Transféré par

koloouattara929

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 1: INTRODUCTION A L'APPRENTISSAGE

AUTOMATIQUE: RNN

Ghislain PANDRY

Chercheur, Traitement du signal

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Traitement de séquences

Dénition

Une séquence est une observation {xt } pour t ∈ {1; T }, avec

xt ∈ Rd . En général, l'observation au pas de temps xt dépend de
′
xt ′ pour t ≤ t (causalité).
Exemples : texte, séries temporelles, ADN, logs, etc.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Modélisation décisionnelle sur des séquences

On cherche une fonction f permettant de prédire yt à partir de xt .

Option 1 : perceptron multi-couche

Comme pour les SVM ou les forêts aléatoires, on peut traiter une
séquence par un MLP sur une fenêtre de taille xe L.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Limites des modèles entièrement connectés

Si le contexte temporel à prendre en compte est grand, L ↗⇒

nombre de paramètres ↗,
Les prédictions sont indépendantes à chaque pas de temps xt
(pas de mémoirede yt−1 ),
Impossible de traiter des séquences de longueur variable, sauf à
les redécouper en fenêtre de taille xe.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Réseaux convolutifs sur des séquences

Option 2 : CNN

Modèle convolutif à noyaux unidimensionels (convolution 1D) sur

une fenêtre de taille xe L.

Moins de paramètres que les modèles entièrement connectés, extrait

l'information locale
Ne peut pas traiter des séquences de longueur variable à cause de la
dernière couche entièrement connectée

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Prédiction structurée : modèles graphiques

Prédiction structurée : modélisation explicite des liens entre f (xt ) et

f (xt ′ )t ′ ≤t
Chaînes de Markov (modèle génératif P(x, y )), Conditional Random
Fields (CRF)

Gère des séquences de longueur variable L

Limités aux prédicteurs linéaires
Procédure d'inférence complexe (solution extracte non-tractable)
Hypothèse de Markov : f (xT |xt , t ≤ T ) = f (xT |xT −1 )
le présent ne dépend que d'un nombre limité de valeurs passées
Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE
Cellule récurrente

Entrée : séquence {xt }t∈{1;T } , xt ∈ Rd

État interne du RNN : {ht }t∈{1;T } , ht ∈ Rl
La cellule récurrente est dénie par : ht = ϕt (xt , ht−1 )
Boucle récursive : ht dépend de l'observation présente xt et de
l'état interne précédent ht−1
ht modélise la mémoire du réseau (historique jusqu'au pas de
temps t )
Dans les RNN, la fonction ϕt = ϕ est identique (partagée)
pour tous les pas de temps t.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Cellule récurrente

Entrée : séquence {xt }t∈{1;T } , xt ∈ Rd

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Réseau récurrent

Dénition d'un réseau récurrent

On choisit pour ϕ une projection linéaire entre xt et ht−1 ,

c'est-à-dire des couches entièrement
connectées :ht = f (Uxt + Wht−1 + bh )
Si l'on choisit la dimension de l'état cachée h égale à l, alors :

U est une matrice (l × d), W est une matrice (l × l)

b est un vecteur de biais de longueur l
f est une fonction d'activation non-linéaire, généralement tanh

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Prédiction par un réseau récurrent

Pour la prédiction de la sortie, on ajoute une couche entièrement

connectée entre l'état interne et la sortie. À chaque pas de temps t,
′ ′
la sortie du RNN est yt = f (Vht + by ) où f peut être l'identité
(régression) ou une activation softmax (classication).

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Capacités de modélisation des RNN

Rappel : les réseaux entièrement connectés sont des

approximateurs universels de fonction

Quels résultats a-t-on concernant les transformations entre

xt t∈{1;T } et yt t∈{1;T } ?
Les RNN sont approximateurs universels de programme
Siegelmann et Sontag 1995
Les RNN peuvent approximer n'importe quelle fonction
calculable (∼ machine de Turing)
Les RNN peuvent approcher n'importe transformation
séquence à séquence mesurable Hammer 2000

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Capacités de modélisation des RNN

Pt
Objectif : calculer yt = x
t ′ =1 t

Exemple 1 : calcul d'une somme par réseau récurrent

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Capacités de modélisation des RNN

yt = tt ′ =1 x1,t > tt ′ =1 x2,t

P P
Objectif : calculer
État interne : calculer dim1 − dim2 puis sommer

Exemple 2 : comparaison de la somme selon deux dimensions par

réseau récurrent

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Entraînement des réseaux récurrents
Comme pour les réseaux de neurones classiques, on compare la
sortie prédite yt t∈{1;T } à une vérité de terrain (supervision) yt∗ .
Exemple pour la classication :
t : Lt (yP ∗
Erreur au pas de temps t , yt ) (entropie croisée)
∗ T ∗
Erreur totale :L({yt }, {yt }) = t=1 Lt ({yt }, {yt })

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Back-propagation through time (BPTT)
Pour optimiser le modèle, on applique la rétropropagation dans le
temps sur la vue déroulée(unfolded) du réseau récurrent pour
l'écrire comme un long réseau entièrement connecté à poids
partagés.

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

BPTT : principe
BPTT : les poids sont mis à jour par descente de gradient, il
∂Lt ∂Lt ∂Lt
faut donc calculer
∂W , ∂U , ∂V (+biases) ;
Dans le RNN déroulé, on applique la rétropropagation comme
pour les réseaux classiques (chain rule) :Unfolded RNN : same
spirit as back-prop with fully connected networks (chain rule)
Diérence : les paramètres W , U , V sont partagés pour tous
les pas de temps, leur mise à jour est la moyenne des gradients
pour chaque t .

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

BPTT : calcul des gradients

L'état interne s'obtient par application d'une activation

non-linéaire f, par exemple :ht = tanh(Uxt + Wht−1 + bh )
Sortie au pas de temps t : yt = softmax(Vht + by )
Les paramètres W , U, V sont partagés dans le temps ⇒ les
gradients dépendent de tout l'historique passé
∂Lt Pt ∂Lt ∂yt ∂ht ∂hk
Exemple pour W :
∂W = k=1 ∂yt ∂ht ∂hk ∂W
∂ht ∂h
Par chain rule :
∂hk = ⊓tj=k+1 ∂hj−j 1
∂hj ′
On obtient la matrice jacobienne :
∂hj−1 = W ⊺ diag [f (hj−1 )]

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

BPTT : calcul des gradients

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

BPTT : optimisation

Dicultés

Comme la BPTT opère sur le réseau déroulé, on optimise un réseau

très profond : forts risques de gradients évanescents ! Ces risques
sont empirés par l'utilisation des fonctions d'activation non-linéaire
classiques, comme tanh ou sigmoïde.
∂ht ∂h
∂hk = ⊓tj=k+1 ∂hj−j 1 ≤ (βw βh )t−k
βh dépend de l'activation (tanh → βh = 1, σ → βh = 0.25
βw dépend de la plus grande valeur propre de W
On distingue deux cas :

Si βh × βw > 1, alors les gradients ↗ à chaque t ⇒ exploding

gradients ;

Si βh × βw < 1, alors les gradients ↗ à chaque t ⇒ vanishing

gradients ;

Cette analyse est vraie pour tous les réseaux profonds mais est
exacerbée par la profondeurdes RNN !

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

BPTT tronquée
Si T est grand, alors le réseau déroulé est très profond et la
rétropropagation est coûteuse. On peut éviter de rétropropager sur
tout le graphe en tronquant l'algorithme :

Ghislain PANDRY Chapitre 1: INTRODUCTION A L'APPRE

Vous aimerez peut-être aussi

Cours Deep 5
Pas encore d'évaluation
Cours Deep 5
22 pages
Introduction aux Réseaux Neuronaux Récurrents
Pas encore d'évaluation
Introduction aux Réseaux Neuronaux Récurrents
7 pages
Le Perceptron Multicouche Back Propagation
Pas encore d'évaluation
Le Perceptron Multicouche Back Propagation
17 pages
07 RNN 2020
Pas encore d'évaluation
07 RNN 2020
40 pages
8 - Deep Learning - FR
Pas encore d'évaluation
8 - Deep Learning - FR
42 pages
Les RNN (Recurent Neural Networks)
Pas encore d'évaluation
Les RNN (Recurent Neural Networks)
16 pages
Réseau Neuronal Recurrent "Recurrent Neural Network" (RNN)
Pas encore d'évaluation
Réseau Neuronal Recurrent "Recurrent Neural Network" (RNN)
9 pages
Deep Learning et généralisation des modèles
Pas encore d'évaluation
Deep Learning et généralisation des modèles
13 pages
Comprendre les RNN pour la génération de texte
Pas encore d'évaluation
Comprendre les RNN pour la génération de texte
7 pages
Introduction aux Réseaux de Neurones Récurrents
Pas encore d'évaluation
Introduction aux Réseaux de Neurones Récurrents
66 pages
Initiation aux réseaux de neurones avec Matlab
Pas encore d'évaluation
Initiation aux réseaux de neurones avec Matlab
8 pages
1b - RNN Et LSTM
100% (1)
1b - RNN Et LSTM
56 pages
Introduction aux Réseaux de Neurones Récurrents
Pas encore d'évaluation
Introduction aux Réseaux de Neurones Récurrents
68 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
72 pages
CLTS quantitatif et réseaux neuronaux
Pas encore d'évaluation
CLTS quantitatif et réseaux neuronaux
44 pages
Chap4 - Reseaux Neurones Recurrents
Pas encore d'évaluation
Chap4 - Reseaux Neurones Recurrents
15 pages
Cours RNN V1
Pas encore d'évaluation
Cours RNN V1
23 pages
2réseaux de Neurones Récurrents PB
Pas encore d'évaluation
2réseaux de Neurones Récurrents PB
5 pages
ML RN 6 French
Pas encore d'évaluation
ML RN 6 French
22 pages
Réseaux de Neurones
Pas encore d'évaluation
Réseaux de Neurones
27 pages
TP Régression Non Linéaire Avec Un Réseau de Neurones: Définition Du Problème
Pas encore d'évaluation
TP Régression Non Linéaire Avec Un Réseau de Neurones: Définition Du Problème
3 pages
Ia Framework Machines Deep Learning dl4j Tfjs
Pas encore d'évaluation
Ia Framework Machines Deep Learning dl4j Tfjs
258 pages
TCL Quantitatif dans Réseaux Neuronaux
Pas encore d'évaluation
TCL Quantitatif dans Réseaux Neuronaux
39 pages
Mémoire
Pas encore d'évaluation
Mémoire
35 pages
Réseaux Neurones: Concepts et Applications
100% (2)
Réseaux Neurones: Concepts et Applications
39 pages
Introduction aux Réseaux de Neurones ANNs
Pas encore d'évaluation
Introduction aux Réseaux de Neurones ANNs
67 pages
Reseauxdeneurones
Pas encore d'évaluation
Reseauxdeneurones
20 pages
Recurrent Neural Networks
Pas encore d'évaluation
Recurrent Neural Networks
84 pages
Deep Learning Cours 1
100% (1)
Deep Learning Cours 1
12 pages
7-NN TimeSeries UE ML
Pas encore d'évaluation
7-NN TimeSeries UE ML
2 pages
Frameworks IA pour Web et Mobile
Pas encore d'évaluation
Frameworks IA pour Web et Mobile
208 pages
Introduction aux Réseaux de Neurones
Pas encore d'évaluation
Introduction aux Réseaux de Neurones
14 pages
Introduction aux réseaux de neurones
0% (1)
Introduction aux réseaux de neurones
3 pages
RNN et LSTM : Fonctionnement et Applications
Pas encore d'évaluation
RNN et LSTM : Fonctionnement et Applications
47 pages
Réseaux de Neurons
Pas encore d'évaluation
Réseaux de Neurons
10 pages
Introduction aux Réseaux de Neurones Récurrents
Pas encore d'évaluation
Introduction aux Réseaux de Neurones Récurrents
21 pages
Réseau de Neurones pour Classification d'Images
Pas encore d'évaluation
Réseau de Neurones pour Classification d'Images
8 pages
Réseaux Neuronaux: Concepts et Évolution
Pas encore d'évaluation
Réseaux Neuronaux: Concepts et Évolution
49 pages
Les Reseaux de Neurones Sur SPSS Les Étapes Oficielles de Réalisation
Pas encore d'évaluation
Les Reseaux de Neurones Sur SPSS Les Étapes Oficielles de Réalisation
30 pages
Mémoire
Pas encore d'évaluation
Mémoire
32 pages
3 Apprentissage Profond PB
Pas encore d'évaluation
3 Apprentissage Profond PB
2 pages
Etat D'avancement AMAR-MERIOULI
Pas encore d'évaluation
Etat D'avancement AMAR-MERIOULI
4 pages
Initiation aux Réseaux de Neurones
Pas encore d'évaluation
Initiation aux Réseaux de Neurones
9 pages
Traitement de texte avec réseaux de neurones
Pas encore d'évaluation
Traitement de texte avec réseaux de neurones
6 pages
7-Les Reseaux de Neurones
Pas encore d'évaluation
7-Les Reseaux de Neurones
17 pages
NLP
100% (1)
NLP
4 pages
Cours Perceptron
100% (1)
Cours Perceptron
58 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
21 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
31 pages
Compte Rendu Td3 Partie A-Djouadi Hafidh
Pas encore d'évaluation
Compte Rendu Td3 Partie A-Djouadi Hafidh
17 pages
Réseaux de Neurones Artificiels By: Abdelouahid ELYAHYAOUI
Pas encore d'évaluation
Réseaux de Neurones Artificiels By: Abdelouahid ELYAHYAOUI
35 pages
Cours RN
Pas encore d'évaluation
Cours RN
46 pages
CLTS quantitatif dans les réseaux neuronaux
Pas encore d'évaluation
CLTS quantitatif dans les réseaux neuronaux
29 pages
Chapitre 5 - Réseau de Neurones
Pas encore d'évaluation
Chapitre 5 - Réseau de Neurones
17 pages
RNA HSe FR 2324
Pas encore d'évaluation
RNA HSe FR 2324
50 pages
Réseaux neuronaux : concepts et applications
50% (2)
Réseaux neuronaux : concepts et applications
40 pages
TP Réseau de Neurones sous Matlab
Pas encore d'évaluation
TP Réseau de Neurones sous Matlab
2 pages
Exercices Corrigés - Espaces Probabilisés - Probabilités Conditionnelles Et Indépendance
100% (1)
Exercices Corrigés - Espaces Probabilisés - Probabilités Conditionnelles Et Indépendance
14 pages
ARGUMENTER Projet 2 1 AS
Pas encore d'évaluation
ARGUMENTER Projet 2 1 AS
27 pages
Carottage et Forage Diamanté Précis
Pas encore d'évaluation
Carottage et Forage Diamanté Précis
2 pages
Cours 1 Relations de Sens - Notes de Cours
Pas encore d'évaluation
Cours 1 Relations de Sens - Notes de Cours
2 pages
Cartographie COFRAC selon NFX 15-140
Pas encore d'évaluation
Cartographie COFRAC selon NFX 15-140
1 page
Gargouilles Ep Laterales
Pas encore d'évaluation
Gargouilles Ep Laterales
2 pages
Introduction à la Mécanique
Pas encore d'évaluation
Introduction à la Mécanique
164 pages
Corrections des Nombres Relatifs et Intervalles
Pas encore d'évaluation
Corrections des Nombres Relatifs et Intervalles
2 pages
Retour Dans Les Egouts
100% (1)
Retour Dans Les Egouts
37 pages
Tcs Arith Ex Cor1
Pas encore d'évaluation
Tcs Arith Ex Cor1
4 pages
Exercices de Mécanique Rationnelle 2
Pas encore d'évaluation
Exercices de Mécanique Rationnelle 2
173 pages
6 Fiche Biotite
Pas encore d'évaluation
6 Fiche Biotite
1 page
Document Finale Dassi Isaie Corriger
Pas encore d'évaluation
Document Finale Dassi Isaie Corriger
104 pages
Les Différentes Organisations de LESS
Pas encore d'évaluation
Les Différentes Organisations de LESS
7 pages
Leçon N5
Pas encore d'évaluation
Leçon N5
9 pages
Exos TD15
Pas encore d'évaluation
Exos TD15
4 pages
Voyage du Dr Shaw en Algérie et Tunisie
Pas encore d'évaluation
Voyage du Dr Shaw en Algérie et Tunisie
408 pages
Aquasnap 30RB / 30RQ 30RBY / 30RQY: Pro-Dialog +
100% (1)
Aquasnap 30RB / 30RQ 30RBY / 30RQY: Pro-Dialog +
23 pages
Régression Et Loi Des Sinus Et Cosinus - Exercices Corrigés
Pas encore d'évaluation
Régression Et Loi Des Sinus Et Cosinus - Exercices Corrigés
6 pages
Chap 1 - Information Chiffrée - Cours
Pas encore d'évaluation
Chap 1 - Information Chiffrée - Cours
4 pages
Par Les Unites Pedagogiques
Pas encore d'évaluation
Par Les Unites Pedagogiques
2 pages
Roswell, La Verite - Gildas Bourdais
100% (5)
Roswell, La Verite - Gildas Bourdais
190 pages
Difficultés de prononciation en français
Pas encore d'évaluation
Difficultés de prononciation en français
379 pages
Hydrographie Ivoirienne: Atout Économique
Pas encore d'évaluation
Hydrographie Ivoirienne: Atout Économique
1 page
Rapport Sur La Centrale Thermique
Pas encore d'évaluation
Rapport Sur La Centrale Thermique
21 pages
Finoana sy Kolontsaina Malagasy
Pas encore d'évaluation
Finoana sy Kolontsaina Malagasy
4 pages
Plan de la Maison Smith par Richard Meier
Pas encore d'évaluation
Plan de la Maison Smith par Richard Meier
9 pages
Séparation du sel dans l'eau de mer
100% (1)
Séparation du sel dans l'eau de mer
2 pages
SOLAR FLOWER Presntation A
Pas encore d'évaluation
SOLAR FLOWER Presntation A
32 pages
Exercices de Probabilités et Espaces Probabilisés
Pas encore d'évaluation
Exercices de Probabilités et Espaces Probabilisés
3 pages