0% ont trouvé ce document utile (0 vote)
59 vues5 pages

Article

Ce mini-projet explore l'optimisation des modèles de descente de gradient pour la classification d'images de chiffres manuscrits en utilisant le jeu de données MNIST. Les résultats montrent que les méthodes RMSProp et Adam surpassent les autres techniques en termes de convergence et de précision, avec Adam atteignant une perte de zéro. Le projet souligne l'importance du choix de l'algorithme d'optimisation dans l'apprentissage profond et propose des pistes pour des travaux futurs.

Transféré par

kaoutarbahan
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
59 vues5 pages

Article

Ce mini-projet explore l'optimisation des modèles de descente de gradient pour la classification d'images de chiffres manuscrits en utilisant le jeu de données MNIST. Les résultats montrent que les méthodes RMSProp et Adam surpassent les autres techniques en termes de convergence et de précision, avec Adam atteignant une perte de zéro. Le projet souligne l'importance du choix de l'algorithme d'optimisation dans l'apprentissage profond et propose des pistes pour des travaux futurs.

Transféré par

kaoutarbahan
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Sultan Moulay Slimane

Faculté polydisciplinaire-Béni Mellal

A.U: 2024-2025

Compte Rendu du Mini-Projet : Optimisation des Modèles


de Descente de Gradient

Introduction

L'objectif de ce mini-projet est d'implémenter et de comparer différentes variantes de


la descente de gradient sur un problème de classification d'images de chiffres manuscrits, en
utilisant le jeu de données MNIST. Ce projet vise à explorer l'efficacité de plusieurs
algorithmes d'optimisation dans le contexte de l'apprentissage profond, en mettant l'accent sur
la convergence et la précision des modèles.

Méthodologie

Pour ce projet, nous avons utilisé un réseau de neurones à trois couches entièrement
connectées, chacune contenant 100 neurones avec une fonction d'activation ReLU, et une
couche de sortie avec une activation Softmax. Les méthodes d'optimisation implémentées
incluent

1. Descente de Gradient Stochastique (SGD) : Une méthode de base qui met à jour les
paramètres en utilisant le gradient de la fonction de coût.

 Relation :

Où représente les paramètres du modèle, est le taux d'apprentissage, et est le


gradient de la fonction de coût.

2. SGD avec Momentum : Améliore la convergence en ajoutant un terme de momentum


pour lisser les mises à jour.

 Relation :

Réalisé par : BAHAN KAOUTAR


Université Sultan Moulay Slimane

Faculté polydisciplinaire-Béni Mellal

A.U: 2024-2025

Où est la vitesse (momentum), et est le coefficient de momentum

3. Nesterov Accelerated Gradient (NAG) : Anticipe les mises à jour en utilisant le


gradient calculé à partir des paramètres prévus.

 Relation :

Cette méthode utilise le gradient calculé à partir de la position anticipée des paramètres.

4. RMSProp : Adapte le taux d'apprentissage pour chaque paramètre en utilisant une


moyenne mobile des carrés des gradients.

 Relation :

Où est la moyenne mobile des carrés des gradients, et est un petit terme pour éviter la division
par zéro.

Réalisé par : BAHAN KAOUTAR


Université Sultan Moulay Slimane

Faculté polydisciplinaire-Béni Mellal

A.U: 2024-2025

5. Adam : Combine les idées de RMSProp et de momentum pour ajuster les taux
d'apprentissage de manière adaptative.

 Relation :

Où et sont les estimations des moments du premier et du second ordre, respectivement.

6. Méthode de Newton (simplifiée) : Utilise une approximation de la matrice Hessienne


pour ajuster les paramètres, bien que simplifiée pour des raisons de complexité.

 Relation :

Où est la matrice Hessienne de la fonction de coût. En pratique, une approximation est


souvent utilisée en raison de la complexité de calcul de .

Résultats

Les résultats expérimentaux ont été évalués en termes de précision sur un ensemble de
test et de la convergence de la fonction de coût au fil des itérations. Le graphique ci-dessous
montre l'évolution de la perte pour chaque méthode d'optimisation :

Réalisé par : BAHAN KAOUTAR


Université Sultan Moulay Slimane

Faculté polydisciplinaire-Béni Mellal

A.U: 2024-2025

Comparaison des performances

Méthode Perte finale Précision sur test (%)


SGD 0.0210 93.46
Momentum 0.0214 93.37

Nesterov 0.0210 93.54

RMSProp 0.0004 96.87

Adam 0.0000 96.70


Newton Simplifiée 0.0210 93.46

Discussion

Les résultats montrent que RMSProp et Adam offrent une meilleure convergence et
précision par rapport aux autres techniques. RMSProp converge rapidement vers une faible

Réalisé par : BAHAN KAOUTAR


Université Sultan Moulay Slimane

Faculté polydisciplinaire-Béni Mellal

A.U: 2024-2025

perte, tandis qu'Adam atteint une perte de zéro et offre une précision légèrement inférieure à
celle de RMSProp.

L'algorithme SGD, bien que simple, nécessite davantage d'itérations pour atteindre un bon
niveau de performance et reste moins précis que les méthodes adaptatives comme RMSProp
et Adam. Les méthodes avec momentum (Momentum et Nesterov) améliorent la
convergence par rapport à SGD, mais n'atteignent pas les mêmes performances que
RMSProp et Adam.

Quant à la méthode Newton simplifiée, elle est une tentative d'améliorer la descente
de gradient en utilisant des informations de deuxième ordre. Cependant, en pratique, elle peut
être difficile à mettre en œuvre dans des réseaux de neurones profonds en raison du calcul
coûteux des matrices Hessiennes (la matrice des dérivées secondes). Dans ce projet,
l'implémentation simplifiée de Newton n'a pas montré des résultats significativement
meilleurs par rapport aux méthodes précédentes, principalement en raison de l'instabilité et de
la lenteur du calcul des mises à jour. Toutefois, la méthode de Newton peut être intéressante
dans des problèmes plus simples où le calcul des dérivées secondes est moins coûteux.

La méthode Adam, en particulier, combine les avantages de RMSProp et


Momentum, ce qui permet une convergence rapide et une précision élevée. Cela en fait un
choix privilégié pour des tâches complexes comme celles impliquant MNIST.

Conclusion

En résumé, ce projet a démontré l'importance du choix de l'algorithme d'optimisation


dans l'apprentissage profond. Adam s'est révélé être le plus efficace parmi les méthodes
testées, offrant un bon équilibre entre rapidité de convergence et précision. Les résultats
soulignent également la nécessité d'adapter les méthodes d'optimisation aux spécificités du
problème et de l'architecture du modèle. Pour des travaux futurs, l'exploration de variantes
d'Adam ou l'intégration de techniques de régularisation pourrait encore améliorer les
performances des modèles.

Réalisé par : BAHAN KAOUTAR

Vous aimerez peut-être aussi