Formulation Mathématique des Réseaux LSTM pour la
Prédiction
L
KHAOULA BEN ALI
Avril 2025
A
Module 1 : Fondamentaux Data Sciences
Partie 1 - Objectifs et Contexte
EN
— Types de données :
— Données structurées (SQL)
— Données non-structurées (textes, images)
— Cloud Data (AWS S3, Azure Blob)
— Big Data (Hadoop, Spark)
— Métiers :
— Data Engineer
— Data Analyst
— Data Scientist
— Architecte Big Data
B
Partie 2 - IoT et Industrie 4.0
LA
— Réseaux de capteurs intelligents
— Analyse temps-réel (streaming data)
— Applications :
— Maintenance prédictive ètre Logistique autonome ètre Digital Twins
— Avancées récentes :
— Edge Computing
— 5G industriel
U
— Blockchain pour la supply chain
Module 2 : Formulation Mathématique
O
Approche Quantitative
— Modèles statistiques avancés
— Algorithmes d’optimisation
A
— Méthodes :
— Régression multivariée
— Processus stochastiques
— Algèbre tensorielle
H
Cas d’Application
— Prédiction de séries temporelles
K
— Computer Vision industrielle
— NLP pour les rapports qualité
1
Module 2 - Data Sciences
Résumé
Ce projet applique les concepts avancés du Module 2 à travers un pipeline structuré en 4 étapes
clés :
(1) Préparation des données (nettoyage, feature engineering)
(2) Modélisation avec XGBoost et LSTM
(3) Optimisation via Optuna
(4) Déploiement robuste avec MLflow.
L
. Notre démarche a suivi les étapes méthodologiques suivantes :
— Préparation des données : Nettoyage des valeurs manquantes, traitement des outliers et nor-
malisation des variables numériques. Transformation des variables catégorielles par one-hot en-
coding.
A
— Analyse exploratoire (EDA) : Visualisation des distributions (histogrammes, boxplots), ana-
lyse des corrélations (matrice de corrélation) et identification des variables clés. Étude des dés-
équilibres de classes le cas échéant.
— Feature engineering : Création de nouvelles variables pertinentes, sélection de features via
[méthode utilisée : ANOVA, importance des features, etc.].
— Construction du pipeline : Mise en place d’un workflow reproductible intégrant le prétraite-
EN
ment (StandardScaler, PCA) et les modèles testés.
— Visualisation des statistiques : Dashboard interactif présentant les métriques clés (accuracy,
ROC curve, matrice de confusion) et comparaison des performances des modèles.
Robustesse des Modèles Déployés
La robustesse de nos pipelines de Machine Learning repose sur trois piliers fondamentaux : la
qualité des données, l’optimisation des modèles et la monitoring continu.
Prétraitement Rigoureux : Les données ont été nettoyées (valeurs manquantes, outliers) et norma-
lisées pour garantir des entrées stables. Des techniques de data augmentation et de *cross-validation*
stratifiée ont permis de renforcer la généralisation.
B
Architecture Résiliente : Le choix d’algorithmes comme XGBoost (résistant au bruit) et les LSTM
(captant les dépendances temporelles) assurent des prédictions fiables même avec des variations mi-
neures. L’optimisation bayésienne (via Optuna) a affiné les hyperparamètres pour éviter le surajus-
tement.
Monitoring Actif : Un dashboard temps-réel (Plotly Dash) suit les métriques clés (accuracy, drift
des données) et déclenche des alertes en cas d’anomalie. Des tests A/B valident les nouvelles versions
LA
avant déploiement.
1 Introduction aux Réseaux LSTM
Les LSTM (Long Short-Term Memory) sont une architecture spéciale de réseaux de neurones récur-
rents (RNN) particulièrement adaptée pour :
U
— Le traitement de séquences temporelles
— L’analyse de données chronologiques
— La modélisation de dépendances à long terme
Mathématiquement, un LSTM peut être vu comme un système dynamique :
O
ht , ct = LSTM(xt , ht−1 , ct−1 )
où :
— ht est l’état caché à l’instant t
A
— ct est l’état de la cellule mémoire
— xt est l’entrée courante
2 Application aux Données Immobilières
H
Notre DataFrame contient des données temporelles (date_mutation) avec :
— Des caractéristiques spatiales (localisation)
— Des caractéristiques temporelles (date)
K
— La variable cible (prix_m2)
Cours Dr Khaoula Ben Ali Page 2
Module 2 - Data Sciences
3 Formulation Mathématique Complète
3.1 Équations du LSTM
Un LSTM standard implémente les équations suivantes :
ft = σ(Wf · [ht−1 , xt ] + bf ) (Porte d’oubli)
L
it = σ(Wi · [ht−1 , xt ] + bi ) (Porte d’entrée)
c̃t = tanh(Wc · [ht−1 , xt ] + bc )
A
ct = ft ⊙ ct−1 + it ⊙ c̃t
ot = σ(Wo · [ht−1 , xt ] + bo )
ht = ot ⊙ tanh(ct )
3.2 Prédiction Temporelle
EN
Pour notre problème de prédiction :
ŷt = f (yt−1 , yt−2 , . . . , yt−p )
où :
— p est la taille de la fenêtre temporelle
— f est la fonction apprise par le LSTM
4
4.1
Préparation des Données
Normalisation
B
Il est crucial de normaliser les données :
LA
y−µ
ynorm =
σ
4.2 Création des Séquences
Pour une fenêtre de taille 3 :
y1 y2 y3 y4
U
y2 y3 y4 y5
X= , y= .
.. .. ..
. . . ..
yn−3 yn−2 yn−1 yn
O
5 Architecture du Modèle
Une architecture typique comprend :
A
— Une couche LSTM avec k neurones
— Une couche Dense de sortie
— Fonction de perte : MSE (Mean Squared Error)
H
n
1X
L= (yi − ŷi )2
n i=1
6 Validation
K
Utilisation de la validation croisée temporelle :
— Division chronologique des données
— Pas de mélange aléatoire pour préserver l’ordre temporel
Cours Dr Khaoula Ben Ali Page 3
Module 2 - Data Sciences
Figure 1 – Architecture d’un réseau LSTM pour la prédiction immobilière
7 La fonction Sigmoïde
7.1 Définition
L
La sigmoïde (notée σ) est une fonction d’activation fondamentale en apprentissage profond, définie
par :
1
A
σ(x) =
1 + e−x
7.2 Propriétés
— Plage de sortie : [0, 1] (parfait pour des probabilités)
EN
— Non-linéarité : Permet au réseau d’apprendre des relations complexes
— Dérivée simple : σ ′ (x) = σ(x)(1 − σ(x)) (essentielle pour la rétropropagation)
7.3 Rôle dans les LSTM
Dans les réseaux LSTM, la sigmoïde est utilisée pour trois opérations clés :
Porte d’oubli : ft = σ(Wf · [ht−1 , xt ] + bf )
B
Porte d’entrée : it = σ(Wi · [ht−1 , xt ] + bi )
Porte de sortie : ot = σ(Wo · [ht−1 , xt ] + bo )
Où :
— W sont les matrices de poids
LA
— b sont les biais
— ht−1 est l’état caché précédent
— xt est l’entrée actuelle
7.4 Pourquoi la sigmoïde dans les LSTM ?
— Contrôle des flux : Décide quelle information garder/jeter (0 = "tout oublier", 1 = "tout
garder")
U
— Stabilité : Contrairement à ReLU, évite les explosions de gradient
— Interprétabilité : Les valeurs entre 0 et 1 s’interprètent comme des "scores de confiance"
7.5 Limites
O
— Saturation : Pour des extrêmes (x → ±∞), le gradient devient quasi-nul ("vanishing gradient")
— Non-centrée : Les sorties sont toujours positives, ce qui peut ralentir l’apprentissage
A
8 La fonction Sigmoïde
8.1 Définition
H
La sigmoïde (notée σ) est une fonction d’activation fondamentale en apprentissage profond, définie
par :
1
σ(x) =
K
1 + e−x
Cours Dr Khaoula Ben Ali Page 4
Module 2 - Data Sciences
8.2 Propriétés
— Plage de sortie : [0, 1] (parfait pour des probabilités)
— Non-linéarité : Permet au réseau d’apprendre des relations complexes
— Dérivée simple : σ ′ (x) = σ(x)(1 − σ(x)) (essentielle pour la rétropropagation)
8.3 Rôle dans les LSTM
L
Dans les réseaux LSTM, la sigmoïde est utilisée pour trois opérations clés :
Porte d’oubli : ft = σ(Wf · [ht−1 , xt ] + bf )
A
Porte d’entrée : it = σ(Wi · [ht−1 , xt ] + bi )
Porte de sortie : ot = σ(Wo · [ht−1 , xt ] + bo )
Où :
— W sont les matrices de poids
— b sont les biais
EN
— ht−1 est l’état caché précédent
— xt est l’entrée actuelle
8.4 Pourquoi la sigmoïde dans les LSTM ?
— Contrôle des flux : Décide quelle information garder/jeter (0 = "tout oublier", 1 = "tout
garder")
— Stabilité : Contrairement à ReLU, évite les explosions de gradient
B
— Interprétabilité : Les valeurs entre 0 et 1 s’interprètent comme des "scores de confiance"
8.5 Limites
— Saturation : Pour des extrêmes (x → ±∞), le gradient devient quasi-nul ("vanishing gradient")
— Non-centrée : Les sorties sont toujours positives, ce qui peut ralentir l’apprentissage
LA
9 La Sigmoïde en Couleurs
9.1 Représentation Graphique
σ(x)
U
0.99998 (2, 0.88)
0.79999 (0, 0.5) Courbe sigmoïde
0.59999
0.4 Point central
O
0.2 Zone "active"
(−2, 0.12) 0
-6 -4 -2 0 2 Zone "morte"
4 6
A
10 Architecture et Fonctionnement d’une Cellule LSTM
10.1 Structure Fondamentale
H
Une cellule LSTM (Long Short-Term Memory) est composée de trois portes principales et d’un état
mémoire, comme illustré dans la Figure 2. Les composants clés sont :
— Porte d’Oubli (Forget Gate) : Détermine quelle information garder ou jeter
— Porte d’Entrée (Input Gate) : Contrôle les nouvelles informations à stocker
K
— Porte de Sortie (Output Gate) : Régule l’information à envoyer en sortie
— État Mémoire (Cell State) : Vecteur transportant l’information à long terme
Cours Dr Khaoula Ben Ali Page 5
Module 2 - Data Sciences
Entrée xt
Porte d’oubli
σ
Porte d’entrée ×
L
Flux mémoire
ct−1 ⊕ + ct
×
σ
× ht
A
Porte de sortie
tanh
État
caché Nouvelle mémoire
ht−1
EN
⊕ : Conca- ⊙ : Produit
σ : Sigmoïde
ténation Hadamard
Figure 2 – Architecture détaillée d’une cellule LSTM avec les équations fondamentales
10.2
10.2.1
Formulation Mathématique
Porte d’Oubli
B
La porte d’oubli ft décide quelles informations doivent être conservées :
LA
ft = σ(Wf · [ht−1 , xt ] + bf )
où σ est la fonction sigmoïde, Wf la matrice de poids et bf le biais.
10.2.2 Porte d’Entrée
Cette porte comporte deux parties :
U
it = σ(Wi · [ht−1 , xt ] + bi ) (Gate)
C̃t = tanh(WC · [ht−1 , xt ] + bC ) (Candidat)
O
10.2.3 Mise à Jour de l’État Mémoire
L’état mémoire Ct est mis à jour par :
A
Ct = ft ⊙ Ct−1 + it ⊙ C̃t
10.2.4 Porte de Sortie
La sortie ht est calculée via :
H
ot = σ(Wo · [ht−1 , xt ] + bo )
ht = ot ⊙ tanh(Ct )
K
10.3 Flux de Données
Le traitement des données suit cet ordre :
1. Concaténation de ht−1 et xt
Cours Dr Khaoula Ben Ali Page 6
Module 2 - Data Sciences
2. Calcul parallèle des trois portes
3. Mise à jour de l’état mémoire
4. Génération de la nouvelle sortie
10.4 Exemple Numérique
Considérons les valeurs suivantes :
L
0.5 0.8
ht−1 = , xt =
A
−0.3 0.2
Wf = 0.1 0.4 −0.2 0.5 , bf = 0.3
Le calcul de ft donnerait :
ft = σ(0.1 × 0.5 + 0.4 × (−0.3) + (−0.2) × 0.8 + 0.5 × 0.2 + 0.3) ≈ 0.57
EN
Figure 3 – Flux complet des données dans une cellule LSTM
B
LA
U
O
A
H
K
Cours Dr Khaoula Ben Ali Page 7