Université Sultan Moulay Slimane
Faculté polydisciplinaire-Béni Mellal
A.U: 2024-2025
Compte Rendu du Mini-Projet : Optimisation des Modèles
de Descente de Gradient
Introduction
L'objectif de ce mini-projet est d'implémenter et de comparer différentes variantes de
la descente de gradient sur un problème de classification d'images de chiffres manuscrits, en
utilisant le jeu de données MNIST. Ce projet vise à explorer l'efficacité de plusieurs
algorithmes d'optimisation dans le contexte de l'apprentissage profond, en mettant l'accent sur
la convergence et la précision des modèles.
Méthodologie
Pour ce projet, nous avons utilisé un réseau de neurones à trois couches entièrement
connectées, chacune contenant 100 neurones avec une fonction d'activation ReLU, et une
couche de sortie avec une activation Softmax. Les méthodes d'optimisation implémentées
incluent
1. Descente de Gradient Stochastique (SGD) : Une méthode de base qui met à jour les
paramètres en utilisant le gradient de la fonction de coût.
Relation :
Où représente les paramètres du modèle, est le taux d'apprentissage, et est le
gradient de la fonction de coût.
2. SGD avec Momentum : Améliore la convergence en ajoutant un terme de momentum
pour lisser les mises à jour.
Relation :
Réalisé par : BAHAN KAOUTAR
Université Sultan Moulay Slimane
Faculté polydisciplinaire-Béni Mellal
A.U: 2024-2025
Où est la vitesse (momentum), et est le coefficient de momentum
3. Nesterov Accelerated Gradient (NAG) : Anticipe les mises à jour en utilisant le
gradient calculé à partir des paramètres prévus.
Relation :
Cette méthode utilise le gradient calculé à partir de la position anticipée des paramètres.
4. RMSProp : Adapte le taux d'apprentissage pour chaque paramètre en utilisant une
moyenne mobile des carrés des gradients.
Relation :
Où est la moyenne mobile des carrés des gradients, et est un petit terme pour éviter la division
par zéro.
Réalisé par : BAHAN KAOUTAR
Université Sultan Moulay Slimane
Faculté polydisciplinaire-Béni Mellal
A.U: 2024-2025
5. Adam : Combine les idées de RMSProp et de momentum pour ajuster les taux
d'apprentissage de manière adaptative.
Relation :
Où et sont les estimations des moments du premier et du second ordre, respectivement.
6. Méthode de Newton (simplifiée) : Utilise une approximation de la matrice Hessienne
pour ajuster les paramètres, bien que simplifiée pour des raisons de complexité.
Relation :
Où est la matrice Hessienne de la fonction de coût. En pratique, une approximation est
souvent utilisée en raison de la complexité de calcul de .
Résultats
Les résultats expérimentaux ont été évalués en termes de précision sur un ensemble de
test et de la convergence de la fonction de coût au fil des itérations. Le graphique ci-dessous
montre l'évolution de la perte pour chaque méthode d'optimisation :
Réalisé par : BAHAN KAOUTAR
Université Sultan Moulay Slimane
Faculté polydisciplinaire-Béni Mellal
A.U: 2024-2025
Comparaison des performances
Méthode Perte finale Précision sur test (%)
SGD 0.0210 93.46
Momentum 0.0214 93.37
Nesterov 0.0210 93.54
RMSProp 0.0004 96.87
Adam 0.0000 96.70
Newton Simplifiée 0.0210 93.46
Discussion
Les résultats montrent que RMSProp et Adam offrent une meilleure convergence et
précision par rapport aux autres techniques. RMSProp converge rapidement vers une faible
Réalisé par : BAHAN KAOUTAR
Université Sultan Moulay Slimane
Faculté polydisciplinaire-Béni Mellal
A.U: 2024-2025
perte, tandis qu'Adam atteint une perte de zéro et offre une précision légèrement inférieure à
celle de RMSProp.
L'algorithme SGD, bien que simple, nécessite davantage d'itérations pour atteindre un bon
niveau de performance et reste moins précis que les méthodes adaptatives comme RMSProp
et Adam. Les méthodes avec momentum (Momentum et Nesterov) améliorent la
convergence par rapport à SGD, mais n'atteignent pas les mêmes performances que
RMSProp et Adam.
Quant à la méthode Newton simplifiée, elle est une tentative d'améliorer la descente
de gradient en utilisant des informations de deuxième ordre. Cependant, en pratique, elle peut
être difficile à mettre en œuvre dans des réseaux de neurones profonds en raison du calcul
coûteux des matrices Hessiennes (la matrice des dérivées secondes). Dans ce projet,
l'implémentation simplifiée de Newton n'a pas montré des résultats significativement
meilleurs par rapport aux méthodes précédentes, principalement en raison de l'instabilité et de
la lenteur du calcul des mises à jour. Toutefois, la méthode de Newton peut être intéressante
dans des problèmes plus simples où le calcul des dérivées secondes est moins coûteux.
La méthode Adam, en particulier, combine les avantages de RMSProp et
Momentum, ce qui permet une convergence rapide et une précision élevée. Cela en fait un
choix privilégié pour des tâches complexes comme celles impliquant MNIST.
Conclusion
En résumé, ce projet a démontré l'importance du choix de l'algorithme d'optimisation
dans l'apprentissage profond. Adam s'est révélé être le plus efficace parmi les méthodes
testées, offrant un bon équilibre entre rapidité de convergence et précision. Les résultats
soulignent également la nécessité d'adapter les méthodes d'optimisation aux spécificités du
problème et de l'architecture du modèle. Pour des travaux futurs, l'exploration de variantes
d'Adam ou l'intégration de techniques de régularisation pourrait encore améliorer les
performances des modèles.
Réalisé par : BAHAN KAOUTAR