les RNN (Recurent Neural
Networks)
(AI)
les données
séquentielles
• Les données séquentielles sont un
type de données où l'ordre des
éléments est important, et où
chaque élément dépend des
éléments précédents. Ces données
sont souvent représentées sous
forme de séquences ou de séries, où
chaque point de données est lié à un
ou plusieurs points précédents.
les données
séquentielles
● Exemples de données séquentielles
Texte
Les mots dans une phrase ou un document forment une séquence.
Parole
Les signaux audios sont des séquences d'ondes sonores.
Vidéos
Une vidéo est une séquence d'images (frames) dans un ordre spécifique.
Données génomiques
Les séquences d'ADN ou d'ARN sont des données biologiques séquentielles.
Modèles pour traiter les données
séquentielles
a. Réseaux de neurones récurrents (RNN)
Les RNN sont conçus pour capturer les dépendances temporelles dans les séquences.
Ils maintiennent un état caché qui retient l'information des étapes précédentes.
b. LSTM (Long Short-Term Memory)
Une variante des RNN qui résout le problème de disparition du gradient.
Utilise des portes pour contrôler le flux d'information et retenir les dépendances à long terme.
c. GRU (Gated Recurrent Units)
Une version simplifiée des LSTM, tout en conservant une performance comparable.
d. Transformers
Une architecture moderne qui utilise des mécanismes d'attention pour capturer les dépendances
dans les séquences.
Très efficace pour les tâches de traitement du langage naturel (NLP).
01 Qu'est-ce qu'un RNN ?
• Définition :
• Un RNN (Recurrent Neural Network) est un type de réseau de neurones conçu
pour traiter des données séquentielles.
• Contrairement aux réseaux feedforward (comme les CNN), les RNN ont
une mémoire interne qui leur permet de prendre en compte les informations
passées.
(AI)
Applications des
RNN:
• Traitement du langage naturel :
Traduction automatique, génération
de texte.
• Séries temporelles : Prédiction de
la météo, prévision des ventes.
• Reconnaissance vocale : Assistant
vocal (ex : Siri, Alexa).
Pourquoi les
RNN ? des Données Séquentielles :
• Problème
Les données séquentielles ont une dépendance temporelle (ex : les mots
dans une phrase, les valeurs dans une série temporelle).
Les réseaux traditionnels (comme les CNN) ne peuvent pas capturer ces
dépendances.
• Solution :
Les RNN ont une mémoire interne qui leur permet de prendre en compte
les informations passées.
Ils sont capables de traiter des séquences de longueur variable.
Architecture de Base d'un
RNN
• Structure :
• Un RNN prend en entrée une séquence (par exemple, une phrase ou une
série temporelle).
• À chaque pas de temps, il reçoit une entrée xtet produit une sortie ht.
• La sortie htdépend de l'entrée actuelle xtet de la sortie
précédente ht−1.
Formule :
Exemple : prédiction d’une série
de chiffre
nous avons la séquence suivante : X=[1,2,3,4,5,6]
● Préparation des données :
Entrée Sortie
[1, 2] 3
[2, 3] 4
[3, 4] 5
[4, 5] 6
• X (entrée) : Séquence de 2 nombres
• Y (sortie) : Le nombre qui suit
Initialisation du RNN
Un RNN a des neurones récurrents, ce qui signifie qu’il garde une mémoire
des états passés. Chaque neurone a :
● Un vecteur d’entrée xt (la donnée actuelle)
● Un état caché ht (mémoire du passé)
● Une sortie yt (prédiction)
Poids du RNN
Un RNN simple possède 3 matrices de poids :
• Wx : Poids qui relient l’entrée au neurone caché
• Wh: Poids de la mémoire (comment l'état précédent influence l'état
actuel)
• Wy: Poids qui transforment l'état caché en sortie
Propagation des données
• comment le RNN fonctionne sur un exemple
• en prenant X=[1,2]
• Calcul de l’état caché pour x1=1
• Supposons h0=0 au début et que Wx=0.5,Wh=0.3
• Calcul de l’état caché pour x2=2
Propagation des données
• Calcul de la sortie
Posons : Wy=1.2,
Y2 =1.2×0.85 = 1.02
• Calcul de l’erreur
Propagation des données
• Rétropropagation dans le temps (BPTT)
Type de propagation Formule du Gradient Différence
Chaque couche
Rétropropagation dépend uniquement de
classique (MLP) la précédente
La somme des
BPTT (RNN) dérivées prend en
compte les états
passés à cause des
connexions
récurrentes
Problème des RNN Simples
• Problème de la Disparition du Gradient :
• Les RNN simples ont du mal à capturer des dépendances à long terme
en raison de la disparition du gradient.
• Cela limite leur capacité à apprendre des séquences longues.
LSTM (Long Short-Term
Memory)
• Définition :
• Les LSTM sont une variante des RNN conçues pour capturer des
dépendances à long terme.
• Structure :
• Ils utilisent des portes (input gate, forget gate, output gate) pour
contrôler le flux d'information.
• Input Gate : Détermine quelle nouvelle information stocker.
• Forget Gate : Détermine quelle information oublier.
• Output Gate : Détermine quelle information utiliser pour la sortie.
GRU (Gated Recurrent Units)
• Définition :
• Les GRU sont une version simplifiée des LSTM.
• Structure :
• Ils utilisent deux portes (reset gate et update gate) au lieu de trois.
• Reset Gate : Détermine comment combiner la nouvelle information
avec la mémoire précédente.
• Update Gate : Détermine quelle information conserver.