0% ont trouvé ce document utile (0 vote)

19 vues44 pages

Techniques D Optimisation

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

19 vues44 pages

Techniques D Optimisation

Transféré par

ilias sa

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Multi Level Perceptron

(suite)

“Les techniques
d’optimisation”

(AI)
Table of contents

01 Techniques d'initialisation des poids

02 Fonctions d'activation non saturantes

03 Normalisation des couches

04 Techniques de régularisation

05 Les optimiseurs rapides

Du Multi-Layer Perceptron vers les réseaux
profonds
Les réseaux de neurones profonds sont des MLP
avec un grand nombre de couches cachées.

Étapes de l'Apprentissage des Réseaux de

Neurones
1. Propagation avant :
1. Initialisation des poids.
2. Calcul de la somme pondérée et
application de la fonction d'activation.
3. Enchaînement des calculs à travers les
couches.
Du Multi-Layer Perceptron vers les réseaux
profonds
2.Calcul de la fonction de perte :
Mesure de l'erreur entre la prédiction et la valeur Réelle.

3.Propagation arrière :
1. Calcul du gradient de la perte par
rapport aux poids.
2. Mise à jour des poids via la descente de
gradient.
Du Multi-Layer Perceptron vers les réseaux
profonds

Répétition du processus jusqu'à convergence.

Du Multi-Layer Perceptron vers les réseaux
profonds
Problématique

• Les réseaux de neurones profonds ont un grand nombre de couches, ce qui

les rend puissants mais aussi difficiles à entraîner.

• Deux problèmes majeurs peuvent survenir pendant l'entraînement :

• Vanishing Gradient (Gradient qui disparaît).
• Exploding Gradient (Gradient qui explose).
01
Qu'est-ce que le
vanishing gradient ?
(AI)
Vanishing problem
● Le vanishing gradient se produit lorsque les gradients des couches
profondes du réseau deviennent extrêmement petits, voire nuls, pendant
la rétropropagation. Cela empêche les poids des couches profondes d'être
mis à jour correctement, ce qui ralentit ou bloque l'apprentissage.

● Cause : Les gradients sont calculés en multipliant les dérivées partielles de

chaque couche. Si ces dérivées sont petites (par exemple, avec des
fonctions d'activation comme la sigmoïde ou la tangente hyperbolique),
leur produit diminue exponentiellement avec la profondeur du réseau.
Explication
Mathématique
Règle de la chaîne (Chain Rule) ::

Effet des multiplications répétées :

Cas d'une sigmoïde :

• Supposons une couche avec σ(z)=0.9. La dérivée est σ′(z)=0.9⋅(1−0.9)=0.09.

• Après 5 couches, le gradient est multiplié par ≈ 6×, ce qui est extrêmement petit.
Vanishing problem
• Conséquences :
• Les couches profondes n'apprennent presque rien.
• Le réseau se comporte comme un modèle peu profond, perdant ainsi
l'avantage de la profondeur.
• La convergence est très lente, voire impossible.
02
Qu'est-ce que le
exploding gradient ?
(AI)
Exploding problem
● exploding gradient est le phénomène inverse les gradients des
couches profondes deviennent extrêmement grands, ce qui
entraîne des mises à jour excessives des poids. Cela peut rendre le
modèle instable et empêcher la convergence.

● Cause : Si les dérivées partielles sont grandes (par exemple, avec

des poids initialisés de manière inappropriée), leur produit
augmente exponentiellement avec la profondeur du réseau.
Exploding problem
• Conséquences :
• Les poids deviennent trop grands, ce qui rend le modèle instable.
• Des valeurs numériques infinies (NaN) peuvent apparaître, causant des
erreurs lors de l'entraînement.
• Le modèle ne converge pas ou diverge.
03
Pourquoi ces
problèmes
surviennent-ils ? (AI)
Ces problèmes sont liés à la profondeur du réseau et à la nature des fonctions
d'activation :

• Fonctions d'activation saturantes : Les fonctions comme la sigmoïde ou la

tangente hyperbolique ont des dérivées proches de zéro pour des valeurs
extrêmes (saturation), ce qui contribue au vanishing gradient.

• Initialisation des poids : Une initialisation inappropriée des poids peut

amplifier ou réduire les gradients de manière exponentielle.

• Architecture du réseau : Plus le réseau est profond, plus le problème est

prononcé, car les gradients sont multipliés à chaque couche.
04
Les techniques
d’initialisation
(AI)
pourquoi l'initialisation des poids est si critique dans l'entraînement des
réseaux de neurones?

Si : Initialisation trop grande (Exploding Gradients)

Si : Initialisation trop petite (Vanishing Gradients)

05
comment trouver des
valeurs d'initialisation
appropriées ? (AI)
● pour éviter les problèmes de vanishing gradient et exploding gradient.
Nous nous appuierons sur les deux règles :

1. La moyenne des activations doit être zéro.

2. La variance des activations doit rester la même à travers toutes les

couches.

● Ces règles garantissent que le signal du gradient pendant la rétropropagation

ne soit ni trop amplifié ni trop atténué, ce qui permet une circulation stable du
gradient à travers le réseau.
● Moyenne des activations à zéro

• Si la moyenne des activations n'est pas centrée autour de zéro, les valeurs peuvent
diverger positivement ou négativement au fil des couches.

• Cela peut entraîner une saturation des fonctions d'activation (par exemple, sigmoïde ou
tanh), ce qui ralentit l'apprentissage.

● Variance constante des activations

• Si la variance des activations change de manière significative d'une couche à l'autre, les
gradients peuvent exploser ou disparaître.

• Une variance constante permet de maintenir une échelle similaire pour les gradients à
travers les couches, ce qui stabilise l'entraînement.
Initialisation Xavier (Glorot)
L'initialisation Xavier est conçue pour maintenir une variance constante
des activations à travers les couches, en particulier pour les fonctions
d'activation comme la sigmoïde et la tangente hyperbolique.
Formule

• fan_in = Number of input paths towards the neuron

• fan_out = Number of output paths towards the neuron
• U is uniform distribution
• σ=√2inputs+outputs
• wi is the i-th weight
Initialisation He - Kaming
● L'initialisation He est une variante de Xavier, spécialement conçue pour les
fonctions d'activation comme ReLU et ses variantes

● Formule de l'initialisation Kaiming

06
Fonctions non
saturantes
(AI)
1. Qu'est-ce que la saturation ?
● La saturation se produit lorsque la fonction d'activation atteint des régions
où sa dérivée est très proche de zéro. Cela se traduit par une perte
d'information et un ralentissement de l'apprentissage.

● Exemple avec la sigmoïde :

Dans ces régions, la dérivée est très proche de zéro.

Fonctions d'activation non
saturantes
● ReLU (Rectified Linear Unit)

Formule : f(x)=max⁡(0,x)
Propriétés :
• Pour x>0, la dérivée est 1.
• Pour x≤0, la dérivée est 0.

● ELU (Exponential Linear Unit)

Formule :
07
Batch normalisation

(AI)
les étapes pour batch normalisation
● Calculer la moyenne et la variance du lot :

● Normaliser les activations :

● Réajuster les activations :

● Mettre à jour la moyenne et la variance globales (pendant l'entraînement)

● Utiliser la moyenne et la variance globales pendant l'inférence :

les étapes pour batch normalisation -
Application
● Données d'entrée

Échantillon X1 X2 X3

1 1.0 2.0 3.0

2 4.0 5.0 6.0

3 7.0 8.0 9.0

● Initialisation des poids et biais
● Propagation avant

Étape 1 : Calcul des activations brutes

Étape 2 : Batch Normalization

Calcul de la moyenne :

Calcul de la variance
● Normalisation

• Réajustement (Scaling et Shifting)

Étape 3 : Application de la fonction d'activation (ReLU)
1. Avant Batch Normalization :
1. Les activations brutes (z) peuvent avoir des valeurs très différentes, ce qui
peut entraîner des problèmes de gradients.

2. Après Batch Normalization :

1. Les activations sont normalisées pour avoir une moyenne de 0 et une
variance de 1.
2. Cela stabilise la distribution des entrées pour la couche suivante.
08
Gradient Clipping

(AI)
Régularisation par Gradient
Clipping
La régularisation par Gradient Clipping est une technique utilisée pour éviter les
problèmes de gradients explosés (exploding gradients) dans les réseaux de
neurones. Lorsque les gradients deviennent trop grands, les mises à jour des poids
peuvent devenir instables, ce qui rend l'entraînement difficile. Le Gradient Clipping
limite la magnitude des gradients à une valeur maximale prédéfinie, ce qui
stabilise l'entraînement.
Étapes du Gradient Clipping
● Étape 1 : Calcul des gradients
● Pendant la rétropropagation, les gradients de la perte par rapport aux
paramètres du réseau sont calculés. Pour chaque paramètre

● Étape 2 : Calcul de la norme des gradients

● La norme des gradients est calculée pour l'ensemble des paramètres du
réseau.

Les gradients peuvent être représentés comme un vecteur g, où chaque

élément gicorrespond au gradient de la perte par rapport au paramètre
Régularisation par Gradient
Clipping des gradients
Redimensionnement

Si ∥g∥>seuil, les gradients sont redimensionnés comme suit :

Les poids sont ensuite mis à jour en utilisant les

gradients redimensionnés :
09
(Faster Optimizers)
Les Optimiseurs Rapides

(AI)
Les Optimiseurs Rapides
Les optimiseurs traditionnels comme la descente de gradient stochastique
(SGD) peuvent être lents et sensibles aux choix des hyperparamètres (comme le
taux d'apprentissage). Pour accélérer l'entraînement et améliorer la convergence,
plusieurs optimiseurs rapides ont été développés
Momentum
Le Momentum est une extension de la descente de gradient qui ajoute une
composante de "vitesse" pour accélérer la convergence et réduire les oscillations.

● Principe :
Au lieu de mettre à jour les poids uniquement en fonction du gradient courant, le
Momentum utilise une moyenne mobile des gradients passés.

beta est le coefficient de momentum

(typiquement 0.9)
AdaGrad (Adaptive Gradient)
AdaGrad adapte le taux d'apprentissage pour chaque paramètre en fonction de
l'historique des gradients.

● Principe :
Les paramètres qui ont des gradients importants voient leur taux d'apprentissage
réduit, tandis que ceux avec des gradients faibles voient leur taux
d'apprentissage augmenté.

• Gtest la somme cumulative des carrés des

gradients,
• ϵ est une petite constante pour éviter la
division par zéro.
RMSProp (Root Mean Square Propagation)
RMSProp est une amélioration d'AdaGrad qui utilise une moyenne mobile
exponentielle des carrés des gradients pour éviter que le taux d'apprentissage ne
devienne trop petit.

● Principe :
Au lieu de cumuler tous les gradients passés, RMSProp utilise une moyenne
mobile pour donner plus d'importance aux gradients récents.
Adam (Adaptive Moment Estimation)
Adam combine les avantages de Momentum et RMSProp pour offrir une méthode
d'optimisation rapide

● Principe :
Adam utilise une moyenne mobile des gradients (comme Momentum) et une
moyenne mobile des carrés des gradients (comme RMSProp).

Vous aimerez peut-être aussi

Les Techniques D'optimisation - 1
Pas encore d'évaluation
Les Techniques D'optimisation - 1
3 pages
Pense Bete Petites Astuces Apprentissage Profond 1
Pas encore d'évaluation
Pense Bete Petites Astuces Apprentissage Profond 1
3 pages
3 Apprentissage Profond PB
Pas encore d'évaluation
3 Apprentissage Profond PB
2 pages
Support - Réseau de Neurones - Diapo Theo
Pas encore d'évaluation
Support - Réseau de Neurones - Diapo Theo
26 pages
Les Réseaux Multi-Couches
Pas encore d'évaluation
Les Réseaux Multi-Couches
45 pages
S3 ISF - Comple Üments
Pas encore d'évaluation
S3 ISF - Comple Üments
25 pages
Livre Ia Lexique
Pas encore d'évaluation
Livre Ia Lexique
59 pages
RNN Recherche
Pas encore d'évaluation
RNN Recherche
5 pages
Perceptron Multicouche
Pas encore d'évaluation
Perceptron Multicouche
6 pages
Introduction au Deep Learning et Perceptrons
Pas encore d'évaluation
Introduction au Deep Learning et Perceptrons
46 pages
Learning Objectives: General Information
Pas encore d'évaluation
Learning Objectives: General Information
17 pages
Deep Learning
Pas encore d'évaluation
Deep Learning
10 pages
5 - Deep Learning - FR
Pas encore d'évaluation
5 - Deep Learning - FR
40 pages
Cours DL - Part5 (Prof)
Pas encore d'évaluation
Cours DL - Part5 (Prof)
78 pages
R Eseaux de Neurones Artificiels
Pas encore d'évaluation
R Eseaux de Neurones Artificiels
57 pages
RN
Pas encore d'évaluation
RN
40 pages
TD7 ML
Pas encore d'évaluation
TD7 ML
12 pages
Deep Learning Licence
Pas encore d'évaluation
Deep Learning Licence
95 pages
Neurones Biologiques Ou Artificiels
Pas encore d'évaluation
Neurones Biologiques Ou Artificiels
6 pages
Chapter 2 DeepLearning
Pas encore d'évaluation
Chapter 2 DeepLearning
67 pages
Deep Learning
Pas encore d'évaluation
Deep Learning
18 pages
Réseaux de Nouerons: Les Bases Implémentation From Scratch
Pas encore d'évaluation
Réseaux de Nouerons: Les Bases Implémentation From Scratch
29 pages
Ydeep Learning Course Part 2
Pas encore d'évaluation
Ydeep Learning Course Part 2
57 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
15 pages
Comprendre le perceptron multicouche
100% (1)
Comprendre le perceptron multicouche
6 pages
Cours Perceptron
100% (1)
Cours Perceptron
58 pages
Réseaux Neurones : Histoire et Applications
Pas encore d'évaluation
Réseaux Neurones : Histoire et Applications
56 pages
Fondements Du Machine Learning
Pas encore d'évaluation
Fondements Du Machine Learning
30 pages
RNA - CH - III - Perceptron Multicouches
Pas encore d'évaluation
RNA - CH - III - Perceptron Multicouches
48 pages
NeuralNets Seance4 Prjets Regularization
Pas encore d'évaluation
NeuralNets Seance4 Prjets Regularization
51 pages
Chapitre III Deep Learning
Pas encore d'évaluation
Chapitre III Deep Learning
141 pages
coursM2ISUP RN
Pas encore d'évaluation
coursM2ISUP RN
68 pages
Chapitre7 Part2
Pas encore d'évaluation
Chapitre7 Part2
46 pages
Chap02 GD
Pas encore d'évaluation
Chap02 GD
74 pages
DL Bi
Pas encore d'évaluation
DL Bi
22 pages
Algorithmes IA : Descente de Gradient et Rétropropagation
Pas encore d'évaluation
Algorithmes IA : Descente de Gradient et Rétropropagation
2 pages
Deep.1 Intro 2
Pas encore d'évaluation
Deep.1 Intro 2
36 pages
QCM-DL Kahoot
Pas encore d'évaluation
QCM-DL Kahoot
7 pages
Resume IAA
Pas encore d'évaluation
Resume IAA
7 pages
TP Premier MLP Xor
Pas encore d'évaluation
TP Premier MLP Xor
10 pages
ARTIFICIAL NEURAL NETWORK (Enregistré Automatiquement)
Pas encore d'évaluation
ARTIFICIAL NEURAL NETWORK (Enregistré Automatiquement)
14 pages
Introduction à la rétropropagation
Pas encore d'évaluation
Introduction à la rétropropagation
30 pages
Slides Part6
Pas encore d'évaluation
Slides Part6
13 pages
Mémoire
Pas encore d'évaluation
Mémoire
32 pages
Séance 6 - Les Réseaux Multi-Couches
Pas encore d'évaluation
Séance 6 - Les Réseaux Multi-Couches
26 pages
Apprentissage Automatique Et Profond
Pas encore d'évaluation
Apprentissage Automatique Et Profond
7 pages
Introduction Aux Réseaux de Neurones 23062023
Pas encore d'évaluation
Introduction Aux Réseaux de Neurones 23062023
13 pages
ML RN 6 French
Pas encore d'évaluation
ML RN 6 French
22 pages
Perceptron Multicouche et XOR
Pas encore d'évaluation
Perceptron Multicouche et XOR
35 pages
Data Mining Cours 7
Pas encore d'évaluation
Data Mining Cours 7
39 pages
Améliorations de la rétropropagation
Pas encore d'évaluation
Améliorations de la rétropropagation
6 pages
ENSIAS DeepLearning Ch1 Annexe - Key
Pas encore d'évaluation
ENSIAS DeepLearning Ch1 Annexe - Key
6 pages
Percept Ron
Pas encore d'évaluation
Percept Ron
33 pages
ML td6 2020
Pas encore d'évaluation
ML td6 2020
2 pages
Chap2 - Reseaux Neurones Profonds
Pas encore d'évaluation
Chap2 - Reseaux Neurones Profonds
34 pages
Chapitre 9
Pas encore d'évaluation
Chapitre 9
9 pages
Mémoire
Pas encore d'évaluation
Mémoire
35 pages
TCL Quantitatif dans Réseaux Neuronaux
Pas encore d'évaluation
TCL Quantitatif dans Réseaux Neuronaux
39 pages
Assainissement Pluvial à Natitingou
Pas encore d'évaluation
Assainissement Pluvial à Natitingou
118 pages
Incendie Centrale Adressable GMC+ Manuel D - Installation
Pas encore d'évaluation
Incendie Centrale Adressable GMC+ Manuel D - Installation
37 pages
Chap3 2020
Pas encore d'évaluation
Chap3 2020
60 pages
SUJET DROSO Intra New
Pas encore d'évaluation
SUJET DROSO Intra New
3 pages
Corrélations-SPTvsPressio-Gonon&Vandangeon&Lafeuillade-RFG 1992 N 58
Pas encore d'évaluation
Corrélations-SPTvsPressio-Gonon&Vandangeon&Lafeuillade-RFG 1992 N 58
76 pages
Activité 1 Modélisation D'une Action Mécanique
Pas encore d'évaluation
Activité 1 Modélisation D'une Action Mécanique
7 pages
Cours ALGB 10
Pas encore d'évaluation
Cours ALGB 10
8 pages
TD0 ThermoERSE 22-23
Pas encore d'évaluation
TD0 ThermoERSE 22-23
1 page
Union Boulonnée À Cisaillement-Torsion Et Flexion
Pas encore d'évaluation
Union Boulonnée À Cisaillement-Torsion Et Flexion
7 pages
PC 6
Pas encore d'évaluation
PC 6
2 pages
Préfixes et suffixes grecs et latins
Pas encore d'évaluation
Préfixes et suffixes grecs et latins
25 pages
Risques Chimiques
Pas encore d'évaluation
Risques Chimiques
75 pages
Profil de scripteur : erreurs et analyses
Pas encore d'évaluation
Profil de scripteur : erreurs et analyses
2 pages
Olympiades 2004 Corrige
Pas encore d'évaluation
Olympiades 2004 Corrige
5 pages
Lauréline Wiki
Pas encore d'évaluation
Lauréline Wiki
5 pages
MGP M04
Pas encore d'évaluation
MGP M04
12 pages
Exercices de fiabilité et durée de vie
Pas encore d'évaluation
Exercices de fiabilité et durée de vie
2 pages
Travaux Dirigés N°1: Découverte Des Règles D'association
Pas encore d'évaluation
Travaux Dirigés N°1: Découverte Des Règles D'association
2 pages
Approche Méthodologique - Ateliers Mashako - 3.0
100% (1)
Approche Méthodologique - Ateliers Mashako - 3.0
9 pages
Card
Pas encore d'évaluation
Card
2 pages
Exercices Pour Le Cours Technique Et Auxiliaire en Logistique
Pas encore d'évaluation
Exercices Pour Le Cours Technique Et Auxiliaire en Logistique
15 pages
CIV 5010156 Rapport de Cadrage Environnemental Et Social
Pas encore d'évaluation
CIV 5010156 Rapport de Cadrage Environnemental Et Social
59 pages
Exam Mart Jan09
Pas encore d'évaluation
Exam Mart Jan09
2 pages
Comprendre la Justice avec Rawls
Pas encore d'évaluation
Comprendre la Justice avec Rawls
8 pages
Module 2 Réponses Partielles
Pas encore d'évaluation
Module 2 Réponses Partielles
15 pages
Optimisation Non Linéaire
Pas encore d'évaluation
Optimisation Non Linéaire
156 pages
Optimisation du Stockage de Légumes
Pas encore d'évaluation
Optimisation du Stockage de Légumes
6 pages
CV de Namoi Aristide Jores Django 09 - 07 - 2024 11 - 45 - 58.pdf 22 - 09 - 2024 12 - 22 - 34
Pas encore d'évaluation
CV de Namoi Aristide Jores Django 09 - 07 - 2024 11 - 45 - 58.pdf 22 - 09 - 2024 12 - 22 - 34
1 page
Modèle de Weibull : Analyse et Estimation
Pas encore d'évaluation
Modèle de Weibull : Analyse et Estimation
139 pages
Gestion Des Conflits Organisationnels
Pas encore d'évaluation
Gestion Des Conflits Organisationnels
19 pages