0% ont trouvé ce document utile (0 vote)

322 vues159 pages

Optimisation 2018

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

322 vues159 pages

Optimisation 2018

Transféré par

aboubacar berthe

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Institut Galilée, Université Paris 13, Sorbonne Paris

Cité
Département de mathématiques
Analyse numérique: optimisation
Spécialité MACS de SupGalilée: Promotion
2017-2020.
Optimisation continue:
Mathématiques Financières-Actuariat
Modélisation mathématique
Centrale Marseille (Promotion 2019).
Master EDP de Aix-Marseille Université.

Olivier Lafitte1

1
SupGalilée, Institut Galilée, Université Paris XIII, LAGA [email protected]
2
Contents

1 Introduction et exemples 7
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Description du cours . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Euler-Legendre 21
2.1 Condition générale d’existence (suffisante) . . . . . . . . . . . . . 21
2.2 Condition d’Euler, condition de Legendre . . . . . . . . . . . . . 22
2.2.1 Dérivabilité au sens de Fréchet et au sens de Gâteaux . . 22
2.2.2 Deux espaces de Hilbert utiles dans la totalité de ce cours 24
2.2.3 Conditions necessaires d’optimalité. Conditions suffisantes
d’optimalité . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Inéquation d’Euler dans un problème avec contraintes . . . . . . 27
2.4 Multiplicateurs de Lagrange . . . . . . . . . . . . . . . . . . . . . 28
2.4.1 Contraintes égalités . . . . . . . . . . . . . . . . . . . . . 29
2.4.2 Les contraintes inégalité . . . . . . . . . . . . . . . . . . . 32
2.4.3 L’inégalité de Hardy. . . . . . . . . . . . . . . . . . . . . . 36
2.4.4 Problème mixte . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4.5 Le problème des entrepôts . . . . . . . . . . . . . . . . . . 40
2.4.6 Démonstration du lemme de Kantorovich . . . . . . . . . 42
2.4.7 Calcul de la constante optimale de Poincaré . . . . . . . . 43

3 Calcul des variations 45

3.1 Introduction et un peu d’histoire . . . . . . . . . . . . . . . . . . 45
3.2 Problèmes isopérimétriques . . . . . . . . . . . . . . . . . . . . . 46
3.2.1 Egalité d’Euler-Lagrange . . . . . . . . . . . . . . . . . . 46
3.2.2 Dérivée de Fréchet et de Gâteaux, inégalité d’Euler-Lagrange 47
3.2.3 Egalité d’Euler-Lagrange pour une contrainte intégrale . . 48
3.2.4 Les problèmes de Bolza . . . . . . . . . . . . . . . . . . . 50
3.3 Les équations d’Euler pour les problèmes de la mécanique . . . . 51
3.4 Formulation hamiltonienne . . . . . . . . . . . . . . . . . . . . . 52

4 Programme convexe 57
4.1 Fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.1 Compléments et extensions . . . . . . . . . . . . . . . . . 60
4.2 Minimisation de fonctionnelles convexes . . . . . . . . . . . . . . 62

3
4 CONTENTS

4.3 Fonctionnelles quadratiques. Formulations variationnelles. . . . . 64

4.4 Kuhn et Tucker . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4.1 Introduction à la notion de Lagrangien . . . . . . . . . . . 65
4.4.2 Point selle, lagrangien, et minimisation de fonctionnelle
convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.4.3 Principe du Min-Max . . . . . . . . . . . . . . . . . . . . 70

5 Introduction au contrôle optimal 73

5.1 Le problème général . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.2 Traitement abstrait du cas général . . . . . . . . . . . . . . . . . 74
5.3 Le cas particulier du contrôle distribué pour le problème de
Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.3.1 Système gouverné par un problème de Neumann . . . . . 76
5.4 Equation de Hamilton-Jacobi-Bellmann . . . . . . . . . . . . . . 77

6 Approximation de solutions 85
6.0.1 Algorithme de relaxation . . . . . . . . . . . . . . . . . . 85
6.1 Algorithmes de descente . . . . . . . . . . . . . . . . . . . . . . . 88
6.2 Cas classiques d’algorithmes de descente . . . . . . . . . . . . . . 90
6.2.1 Pas optimal . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.2.2 Pas de Curry . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.2.3 Pas de Goldstein . . . . . . . . . . . . . . . . . . . . . . . 91
6.2.4 Pas de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.3 Résultats de convergence . . . . . . . . . . . . . . . . . . . . . . . 93
6.4 Algorithmes de gradient . . . . . . . . . . . . . . . . . . . . . . . 95
6.4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.4.2 L’algorithme de gradient à pas optimal . . . . . . . . . . . 96
6.4.3 Algorithme de gradient à pas constant . . . . . . . . . . . 98
6.4.4 Taux de convergence de l’algorithme du gradient en di-
mension finie . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.4.5 Algorithme de gradient réduit . . . . . . . . . . . . . . . . 102
6.5 Algorithmes de gradient conjugué . . . . . . . . . . . . . . . . . . 105
6.5.1 Exemple en dimension 2 . . . . . . . . . . . . . . . . . . . 105
6.5.2 Algorithme de directions conjuguées . . . . . . . . . . . . 106
6.5.3 Algorithme du gradient conjugué . . . . . . . . . . . . . . 109
6.5.4 Un exemple en dimension 3 . . . . . . . . . . . . . . . . . 115
6.6 Descente pseudo-conjugué . . . . . . . . . . . . . . . . . . . . . . 117
6.7 Méthode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.8 Algorithmes d’optimisation avec contraintes . . . . . . . . . . . . 123
6.8.1 Le gradient avec projection . . . . . . . . . . . . . . . . . 123
6.8.2 Pénalisation des contraintes . . . . . . . . . . . . . . . . . 125
6.8.3 Algorithme d’Uzawa . . . . . . . . . . . . . . . . . . . . . 127

7 Introduction à la discrétisation 129

7.1 Les différences finies . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.2 Les éléments finis . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
CONTENTS 5

8 Resume 139
8.1 Résultats d’existence . . . . . . . . . . . . . . . . . . . . . . . . . 139
8.1.1 Théorème de Weierstrass . . . . . . . . . . . . . . . . . . 139
8.1.2 Cas convexe . . . . . . . . . . . . . . . . . . . . . . . . . . 140
8.2 Rappels de calcul différentiel . . . . . . . . . . . . . . . . . . . . 140
8.2.1 Dérivées premières . . . . . . . . . . . . . . . . . . . . . . 141
8.2.2 Dérivées secondes . . . . . . . . . . . . . . . . . . . . . . . 141
8.2.3 Formules de Taylor . . . . . . . . . . . . . . . . . . . . . . 141
8.3 Caractérisation des extrema . . . . . . . . . . . . . . . . . . . . . 143
8.3.1 Equation d’Euler, cas général . . . . . . . . . . . . . . . . 143
8.3.2 Inéquation d’Euler, cas convexe . . . . . . . . . . . . . . . 143
8.3.3 Multiplicateurs de Lagrange, cas général . . . . . . . . . . 145
8.3.4 contraintes égalités . . . . . . . . . . . . . . . . . . . . . . 145
8.3.5 contraintes inégalités . . . . . . . . . . . . . . . . . . . . . 146
8.4 Lagrangien et point selle . . . . . . . . . . . . . . . . . . . . . . . 149
8.4.1 Point selle . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
8.4.2 Théorie de Kuhn et Tucker . . . . . . . . . . . . . . . . . 150
8.5 Méthodes de descente. Problèmes sans contraintes . . . . . . . . 151
8.5.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
8.5.2 Méthode de relaxation . . . . . . . . . . . . . . . . . . . . 152
8.5.3 Méthode du gradient . . . . . . . . . . . . . . . . . . . . . 152
8.6 Estimations et convergence dans le cas quadratique . . . . . . . . 153
8.6.1 Méthode à pas optimal . . . . . . . . . . . . . . . . . . . 153
8.6.2 Méthode de gradient à pas constant . . . . . . . . . . . . 154
8.7 Méthode du gradient conjugué . . . . . . . . . . . . . . . . . . . 154
8.7.1 Principe de la méthode . . . . . . . . . . . . . . . . . . . 154
8.7.2 Ecriture comme algorithme de descente . . . . . . . . . . 155
8.7.3 Analyse de convergence . . . . . . . . . . . . . . . . . . . 155
8.8 Méthodes pour les problèmes avec contraintes . . . . . . . . . . . 156
8.8.1 Méthode de gradient projeté à pas variable . . . . . . . . 156
8.8.2 Algorithme d’Uzawa . . . . . . . . . . . . . . . . . . . . . 157
6 CONTENTS
Chapter 1

Introduction et exemples

1.1 Introduction
Le but de ce cours est d’introduire quelques unes des méthodes de la théorie de
l’optimisation. La méthode employée dans ce cours consiste essentiellement à
présenter une suite (non exhaustive) d’exemple simples issu en majeure partie
de la physique et de l’économie pour mettre en valeur une question que l’on se
pose dans le cadre de l’optimisation: trouver la meilleure quantité ou le meilleur
choix pour un problème lié à la physique ou à l’économie. Ce cours présentera
peu de résultats (les théorèmes principaux sont peu nombreux). Nous avons
essayé de traiter explicitement ici des exemples modèles simples, qui peuvent
nous permettre d’introduire des notions et de pouvoir les généraliser.
Les théories liées à l’optimisation sont très variées. On rencontre par exem-
ple (et cela est le plus courant) des problèmes de minimisation sons contraintes,
des résolutions d’équations aux dérivées partielles sous forme variationnelle,
des problèmes de contrôle, des problèmes de commande. Elles ont en commun
la minimisation d’un critère, c’est-à-dire d’une fonction chargée de mesurer
le coût d’un problème, en fonction de variables dites d’état (caractérisant la
position d’une particule par exemple) et de variables dites de commande (qui
modélisent les paramètres par lesquels on peut agir sur un système). Nous
évoquerons ainsi dans le cours la notion de commande optimale, dans les cas
où, à partir de variables d’état x et de commandes u, on souhaite soit minimiser
un critère, soit atteindre un état fixe.
Un des atouts de l’optimisation est la facilité d’obtention d’algorithmes
numériques qui convergent, et nous en aborderons certains: algorithmes d’optimisation
sans contrainte, comme un algorithme où on recherche un optimum sur N vari-
ables en résolvant, à chaque étape, N algorithmes d’optimisation sur chaque
variable, des algorithmes dit de gradient (à pas fixe ou à pas optimal, c’est à
dire une généralisation de la méthode de Newton de recherche de zéros), des
algorithmes de minimisation avec contraintes, l’algorithme d’Uzawa.
Pour l’instant, nous allons donner une liste non exhaustive d’exemples,
provenant des références [2], [3], [1]. Certains pourront être résolus dans cette
introduction sans utiliser de théorèmes nouveaux, d’autres non, et nous voulons,
dans la suite de ce cours, pouvoir résoudre les problèmes abordés ici.

7
8 CHAPTER 1. INTRODUCTION ET EXEMPLES

Les exemples abordés dans cette introduction peuvent être lus après le cours
correspondant, ils sont faits pour motiver les théorèmes du cours d’optimisation
et de calcul des variations.
On peut, très sommairement, diviser les résultats en conditions nécessaires
et en conditions nécessaires et suffisantes d’optimalité. Par exemple, x2 est
minimum en x = 0, où sa dérivée s’annule, mais la dérivée de 1 − x2 est dans
le même cas, alors que 1 − x2 est maximum en x = 0. La condition “la dérivée
s’annule” est une condition nécessaire de minimum, mais n’est pas une condition
suffisante.

1.2 Description du cours

• Cours 1: calcul fonctionnel, distance à un convexe, dérivée de 1/2(Ax,x) -(b,
x) et résultats généraux (euler, légendre),
• Cours 2: contraintes égalité et x de Lagrange pour une deuxième séance et
début de contraintes inégalité
• Cours 3: fin des contraintes inégalité et alpha convexité. Inégalité de Poincaré.
• Cours 4: le programme convexe, jusque au théorème de Kuhn et Tucker
•: Cours 5: algorithmes de gradient (sans la preuve de convergence sauf dans le
cas pas constant): pas constant, pas optimal, gradient conjugué et éventuellement
relaxation.
Ce polycopié présente deux parties:
le cours proprement dit (dont seulement certains chapitres seront traités, et pas
forcément comme ils le sont ici),
un résumé de cours.

1.3 Exemples
1. Résolution d’un système matriciel.
Soit A une matrice symétrique N × N définie positive et b un vecteur de
IRN . La solution du système linéaire Ax = b est donnée par le point de
minimum suivant

1
inf (Ax, x) − (b, x)
x∈IRN 2

Preuve On désigne par x0 la solution de Ax = b. On vérifie alors que

1 1 1 1 1
(A(x − x0 ), x − x0 ) = (Ax, x) − (b, x) − (Ax, x0 ) + (b, x0 ).
2 2 2 2 2
Comme (Ax, x0 ) = (x, t Ax0 ) = (x, Ax0 ) = (x, b) car A est symétrique

1 1 1
(Ax, x) − (b, x) = − (b, x0 ) + (A(x − x0 ), x − x0 ).
2 2 2
1.3. EXEMPLES 9

On
P diagonalise A qui est symétrique définie positive, on écrit x = x0 +
i yi ei , où les ei sont les vecteurs orthonormés qui diagonalisent A, alors

i=N
1 1 1X
(Ax, x) − (b, x) = − (b, x0 ) + λi yi2 .
2 2 2
i=1
L’expression ci-dessus est minimum lorsque tous les yi sont nuls, car tous
les λi sont strictement positifs, donc lorsque x = x0 . Le résultat est
démontré.

Remarque Lorsque la matrice A n’est pas symétrique, l’expression ci-

dessus existe. La matrice A peut alors être remplacée par Ã = 21 (A + t A)
et ce sont les propriétés de Ã qui sont importantes et non celles de A.
On résume dans:

Proposition Le minimum de la fonction 21 (Ax, x) − (b, x) est unique et

atteint en x0 = ( 21 (A + At ))−1 b si 12 (A + At ) est définie positive

2. Projection sur un convexe.

Soit K un ensemble convexe fermé dans un espace de Hilbert V . On
appelle projection de u0 sur K, et on note p(u0 ), le point de K le plus
proche de u0 , soit ||p(u0 ) − u0 || = inf v∈K ||v − u0 ||. On note que, de
la relation ∀v ∈ K, ||v − u0 ||2 ≥ ||p(u0 ) − u0 ||2 , et, plus précisément de
∀v ∈ K, ∀λ ∈]0, 1[, ||λv + (1 − λ)p(u0 ) − u0 ||2 ≥ ||p(u0 ) − u0 ||2 , on tire

λ2 ||v − p(u0 )||2 + 2λ(v − p(u0 ), p(u0 ) − u0 ) ≥ 0.

Divisant par λ et faisant tendre λ vers 0, on en déduit l’inégalité

(v − p(u0 ), p(u0 ) − u0 ) ≥ 0∀v ∈ K.

Dans le plan, cette égalité implique que (v − p(u0 ), u0 − p(u0 )) ≤ 0, c’est-

à-dire l’angle entre les vecteurs joignant la projection à u0 et à un élément
quelquonque de K est obtus.
Réciproquement, si cette inégalité est vérifiée, alors

||v−u0 ||2 = ||v−p(u0 )||2 +||p(u0 )−u0 ||2 +2(v−p(u0 ), p(u0 )−u0 ) ≥ ||v−p(u0 )||2 .

Il y a unicité de la projection. En effet, si on désigne par v0 une autre

projection, on a

(v − v0 , u0 − v0 ) ≤ 0, (v − p(u0 ), u0 − p(u0 )) ≤ 0.
Dans la première inégalité on considère v = p(u0 ) et dans la deuxième on
considère v = v0 . Alors
10 CHAPTER 1. INTRODUCTION ET EXEMPLES

(p(u0 ) − v0 , u0 − v0 ) ≤ 0, (−v0 + p(u0 ), −u0 + p(u0 )) ≤ 0.

Additionnant les deux égalités, on obtient

(p(u0 ) − v0 , p(u0 ) − v0 ) ≤ 0
ce qui implique v0 = p(u0 ). Il y a unicité de la projection sur un convexe.
Ceci est la redémonstration du théorème de Hahn-Banach.
On résume dans

Proposition Si K est un convexe fermé, le minimum de la distance de

x à K est atteint en un unique point p(x), qui s’appelle la projection de
x sur K et qui est caractérisé par l’inégalité

∀y ∈ K, (y − p(x), x − p(x)) ≤ 0.

3. Un exemple simple avec contraintes.

On veut trouver min( 21 v 2 − cv) sous la contrainte v ≤ b. Pour cela,
on voit que, si b ≤ c, minv≤b ( 21 v 2 − cv) = ( 12 v 2 − cv)|v=b et si b > c,
minv≤b ( 21 v 2 − cv) = ( 12 v 2 − cv)|v=c . Dans le premier cas, la contrainte est
saturée, dans le deuxième cas elle est insaturée.

4. Minimisation quadratique dans IR2 . Cet exemple est caractéristique des

méthodes qui seront développées dans le cours: il aborde les contraintes
de type égalité ainsi qu’inégalité en dimension finie, dans le cas où les
expressions sont très simples. Il aborde aussi des méthodes qui seront
développées sous le nom de gradient réduit.
On introduit la fonctionnelle J(y1 , y2 ) = 12 (y12 + y22 ) − b1 y1 − b2 y2 et on
cherche à résoudre les deux problèmes

inf J(y), a.y = a1 y1 + a2 y2 = 0

inf J(y), a1 y1 + a2 y2 ≤ 0

Dans le premier cas, on a plusieurs méthodes à notre disposition. La plus

évidente est de supposer a1 6= 0, ainsi y1 = − aa12 y2 , et on se ramène à

1 a2 b2 a1 − b1 a2
inf (1 + 21 )y12 − y2
2 a2 a1
qui est atteint au point y2 = a1 b2 aa12 −b
+a2
1 a2
et donc y1 = −a2 b2 aa12 −b
+a2
1 a2
.
1 2 1 2

On peut simplifier les expressions en vérifiant que, dans y2 , le coefficient

de b2 s’écrit avec a21 /(a21 + a22 ), ainsi
1.3. EXEMPLES 11

a1 b1 + a2 b2
(y1 , y2 ) = (b1 , b2 ) − (a1 , a2 ).
a21 + a22
Cette méthode n’est pas instructive, mais son résultat l’est: le minimum
est obtenu au point b + λa. Le réel λ est nul lorsque a.b = 0.
Distinguons les cas b.b = 0 et a.b 6= 0. Notons avant cela que le minimum
absolu de la fonctionnelle se situe au point b. Si b est dans la contrainte,
alors ce minimum absolu est atteint sur la contrainte, et donc le problème

inf J, a.y = 0
admet comme solution y = b, de même que le problème

inf J, a.y ≤ 0.

Si b n’est pas dans la contrainte égalité, on désigne par b0 la projection

de b sur la droite a.y = 0. On a bien sûr J(y) = − 21 b2 + 12 (y − b)2 ,
donc minimiser J revient donc à minimiser la distance de b à la droite
a.y = 0. Le point qui réalise ceci est bien sûr y = b0 . On vérifie alors
que y = b + (b0 − b), et, avec b0 − b = −λa, on a l’égalité y = b − λa. Le
minimum est solution de y − b + λa = 0, ce qui sera dans le cours l’égalité
de définition du point selle et du multiplicateur de Lagrange. On note
que, par b0 .y = 0, on a λ = a.b
a2
.
On étudie maintenant la contrainte inégalité a.y ≤ 0.
Si on considère b tel que a.b ≤ 0, on n’a besoin de rien d’autre, le min-
imum absolu est dans l’espace des contraintes, donc le minimum de la
fonctionnelle est atteint en y = b. On suppose donc que b est dans la zone
a.y > 0. Grâce à l’égalité b0 = b − λa et à l’égalité b0 .a = 0, on trouve
que λa2 > 0, et donc λ > 0 et le minimum est en b0 .
Lorsque on suppose que b n’est pas dans la zone a.y > 0, on trouve que
b0 = b − λa avec λa2 ≤ 0 et λ ≤ 0. Le minimum est alors obtenu en b et
on a b = b + 0a.
On voit sur cet exemple et sur la notion de projection que l’on forme
y − b + λa et a.y = 0. Lorsque la résolution de ce système conduit
à λ ≤ 0, on dit que la contrainte est insaturée et on a y = b comme
minimum. Le point de minimum absolu de la fonction J se trouve dans
l’espace des contraintes. Lorsque la résolution du système conduit à λ ≥ 0
, la contrainte est saturée et y = b − λa convient.
5. Soit f une application de IRM dans IRN . On appelle solution de l’équation
f (x) = 0 une solution du problème

inf |f (x)|2 .
x∈IRM

Par exemple, soit B une matrice N × M , et c un élément de IRN . On

appelle solution de Bx = c au sens des moindres carrés (remarquons
12 CHAPTER 1. INTRODUCTION ET EXEMPLES

qu’une solution de Bx = c n’existe pas forcément) un point de minimum

de |Bx − c|2 . Nous allons identifier de telles solutions.
En effet, on cherche un point minimum de (Bx − c, Bx − c) = (Bx, Bx) −
(c, Bx) − (Bx, c) + (c, c), c’est à dire de (t BBx, x) − 2(t Bc, x) + (c, c). La
matrice t BB est symétrique, et son noyau est le noyau de B (ceci car
tBBx = 0 implique |Bx|2 = 0, soit Bx = 0).
On vérifie que Imt BB ⊂ Imt B. De plus, pour y ∈ (Imt B)⊥ , on a

∀x ∈ IRN , (y, t Bx) = 0

ce qui implique (By, x) = 0∀x ∈ IRN . Ainsi By = 0, donc y ∈ ker B.
La réciproque est claire. Par le théorème du rang on a dim(ker t BB) +
dim(Imt BB) = M = dim(ker B) + dim(ImB) = M . On trouve donc que
l’image de t BB est confondue avec l’image de t B. L’équation donnant le
minimum étant t BBx = t Bc, on en conclut que x existe nécessairement,
puisqu’il existe d ∈ IRN tel que t BBd = t Bc. Le système d’équations
ainsi écrit s’appelle le système d’équations normales. On remarque que
c’est un espace affine passant par d dirigé par ker t BB = ker B. Une autre
méthode plus directe: on diagonalise t BB dans une base orthonormée, les
valeurs propres étant 0 ≤ λ1 ≤ ... ≤ λM associées aux vecteurs propres
(e1 , ...eM ). Alors on introduit p (éventuellement il n’existe pas) tel que
λp = 0 et λp+1 > 0. Alors (e1 , ...ep ) forme une t
P base de ker BB, donc de
ker B. On constate alors qu’en écrivant x = i yi ei , on trouve
X X
(t BBx, x) − 2(t Bc, x) = λi yi2 − 2 (t Bc, ei )yi .
i>p i

Vérifiant alors que pour i ≤ p, (t Bc, ei )

= (c, Bei ) = 0, on en déduit que
la fonction ne dépend que des yi , i > p. On applique le résultat précédent
et l’ensemble des solutions est un espace affine dirigé par ker B.
Ce résultat se retrouve en considérant la projection de c sur l’hyperespace
ImB. Alors on réalise le minimum de la distance au sous espace fermé
ImB. Soit p(c) cette projection. Le minimum de |Bx − c| est alors
l’ensemble des points tels que Bx = p(c). En effet, par caractérisation de
la projection, on a, pour tout z ∈ ImB, (Bx, z) = (p(c), z) = (c, z), ce
qui équivaut à ∀y, (Bx, By) = (p(c), By), soit utilisant c − p(c) orthogo-
nal à ImB, (t BBx, y) − (tBc, y) pour tout y. On vérifie immédiatement
que si x0 vérifie Bx0 = p(c), alors (B(x − x0 ), B(x − x0 )) = |Bx − c|2 +
(Bx0 , Bx0 ) − (c, c), ce qui indique le résultat de minimum.

6. Recherche de la plus petite valeur propre d’une matrice symétrique.

Proposition La plus petite valeur propre d’une matrice symétrique A

de IRN × IRN est le minimum du quotient de Rayleigh:

(Av, v)
λ1 = inf (Av, v) = inf .
v∈IRN ,||v||=1 IRN −{0} (v, v)
1.3. EXEMPLES 13

La matrice A P est symétrique donc diagonalisable. On écrit (Av, v) =

2 vi2 = 1, on trouve (Av, v) ≥ λ1 , avec égalité si vi = 0 si
P
i λi vi . Pour
λi 6= λ1 . Ceci permet de conclure sur l’existence d’un inf, qu’il est atteint,
et que le minimum est λ1 . Le lieu des points réalisant le minimum est
la sphère unité dans le sous-espace propre associé à λ1 . Quant à l’autre
terme de l’égalité, il provient du fait que v 1 est de norme 1 lorsque
(v,v) 2
v 6= 0.
7. Gain minimum pour un turfiste.
On suppose qu’un tiercé présente N chevaux au départ, chacun étant côté
avec un rapport ri . Montrer que la conditionP
nécessaire et suffisante pour
qu’un joueur récupère au moins sa mise est i r1i ≤ 1.
Posons les inconnues de ce problème. On suppose que le joueur joue xi
sur chaque cheval. Son gain est alors yi0 =Pxi0 ri0 si le cheval i0 l’emporte.
Pour simplifier notre analyse, on suppose xi = 1 (on mise 1) et on veut
qu’il existe une combinaison de sorte que chaque yi soit plus grand que 1.
Ainsi on a

X yi X yi X 1
= 1, yi ≥ 1∀i ⇒ 1 = ≥ .
ri ri ri
i i
P 1
Ainsi la condition 1 ≥ ri est nécessaire pour que le gain soit au moins
égal à la mise.
P 1
Réciproquement, on suppose 1 ≥ ri , et on veut yi pour tout i plus
grand que i. Le cas limite est obtenu pour tous les yi égaux, et cette
valeur commune est yi = P1 1 , ce qui impose de choisir xi = r1i P1 1 .
rp rp

Dans ce cas, le gain est P1 1 pour tout i; il est donc plus grand que 1.
rp

8. Un exemple de programme linéaire en recherche opérationnelle

On considère M entrepôts, chacun présentant si unités d’un stock. On
connait les N destinations, et on doit livrer rj unités à la destination j.
Les coûts de transport unitaire cij de l’entrepôt i à la destination j sont
connus, et on les appelle cij . Comment livrer au meilleur coût?
Pour formaliser le problème, on appelle vij la quantité livrée à j à partir
de l’entrepôt i. On a comme conditions:

j=N
X i=M
X
vij ≥ 0, vij ≤ si , vij ≥ rj
j=1 i=1
P
et le coût de livraison est i,j cij vij . On cherche l’inf de cette fonction.
Notons tout d’abord que, si l’on désigne par cj le min pour i = 1..M des
cij , on trouve

X j=N
X i=M
X X
cij vij ≥ cj ( vij ) ≥ cj rj .
i,j j=1 i=1 j
14 CHAPTER 1. INTRODUCTION ET EXEMPLES

Ainsi l’inf existe et est strictement positif. La résolution précise de cet

exemple ne peut être faite maintenant, nous renvoyons à la section 2.4.5.
Notons simplement que les points où le minimum doit être étudié sont ’au
bord’ des contraintes (’est-à-dire les inégalités deviennent des égalités).
Dans la suite des exemples de cette partie, on ne considère plus comme
inconnues des vecteurs, mais les inconnues deviennent des fonctions. La
fonction à minimiser s’appelle alors une fonctionnelle, et la théorie corre-
spondante s’appelle le calcul des variations. Ce sont parmi les plus anciens
problèmes étudiés par les mécaniciens.
9. Equilibre d’un fil pesant.
On se place dans le champ de pesanteur ~g = −g~j, et on se donne deux
points (x0 , y0 ) et (x1 , y1 ). On se place dans une situation suffisamment
simple pour qu’un fil placé entre ces deux points puisse être représenté
par y(x), avec y(x0 ) = y0 , y(x1 ) = y1 . La longueur de ce fil est supposée
fixe, égale à l, ce qui se traduit par l’égalité (basée sur la notion d’abscisse
curviligne, s = 0 au point (x0 , y0 ) et s = l au point (x1 , y1 ))
Z l Z x1 1
l= ds = (1 + (y 0 (x))2 ) 2 dx.
0 x0

Il est en équilibre lorsque son énergie potentielle est minimum. L’origine

de l’énergie potentielle est placée en y1 . Alors, si on désigne par ρ sa
masse linéique, l’énergie potentielle du fil est

Z l Z x1 1
ρg (y(x(s)) − y1 )ds = −ρgy1 l + ρg y(x)(1 + (y 0 (x))2 ) 2 dx.
0 x0

L’énergie totale, qui est constante, fait intervenir la vitesse, qui est donc
nulle. On a donc le problème
Z x1 1
inf y(x)(1 + (y 0 (x))2 ) 2 dx
y∈C 0 x0
sous les contraintes
Z x1
1
(1 + (y 0 (x))2 ) 2 dx = l, y(x0 ) = y0 , y(x1 ) = y1 .
x0

10. Le problème de Pappus, ou comment Didon a pu construire Carthage.

“Parmi toutes les courbes de longueur donnée joignant (0, 0) à (ξ, 0),
trouver celle qui conduit à l’aire maximum”
On se donne l’équation de cette courbe y = v(x). On a les contraintes
Z ξ
1
v ≥ 0, v(0) = v(ξ) = 0, (1 + (v 0 (x))2 ) 2 dx = l
0
Rξ
et on recherche à minimiser − 0 v(x)dx. Notons ici l’emploi du signe −
lorsqu’on a à trouver un maximum et non un minimum.
1.3. EXEMPLES 15

11. Principe de Fermat et de Huyghens

On veut trouver la trajectoire reliant en temps minimum les points (x0 , y0 )
et (x1 , y1 ), en sachant qu’en (x, y), la vitesse est c(x, y). RAlors on cherche
s ds
v (que l’on précisera) telle que v(x0 ) = y0 , v(x1 ) = y1 et 0 0 c(x(s),y(s)) soit
minimum, o# u s est l’abscisse curviligne, c’est à dire l’unique paramétrage
(à l’orientation près) tel que (x0 )2 +(y 0 )2 = 1 c’est-à-dire, pour un paramétrage
y = y(x), é

1
x1
(1 + (v 0 (x))2 ) 2
Z
inf dx.
x0 c(x, v(x))

Lorsque on veut par exemple évaluer le rayon entre deux milieux de vitesse
c1 et c2 , tels que c(x, y) = c1 1x>0 + c2 1x>0 , on a donc, appliquant ce qui
est écrit ci-dessus à trouver le lieu de

1 1
0
(1 + (v 0 (x))2 ) 2 x1
(1 + (v 0 (x))2 ) 2
Z Z
inf[ dx + dx].
x0 c1 0 c2

12. Problèmes d’équilibre en mécanique des milieux continus

Soit Ω un ouvert de IRn et Γ sa frontière. On se donne les trois énergies
Z
1
U1 (v) = λ |∇v|2 dx
2 Ω

Z
1
U2 (v) = k |v|2 dx
2 Ω

Z
U3 (v) = − f (x)v(x)dx
Ω
qui sont respectivement l’énergie potentielle de déformation, l’énergie po-
tentielle élastique, l’énergie d’une force extérieure constante dans le temps.
On étudie deux fonctionnelles J1 = U1 + U2 + U3 et J2 = U1 + U3 . On
écrira quatre types de problèmes:

inf J2 (v), inf J1 (v), inf J1 , inf J2

v∈H01 (Ω) v∈H 1 (Ω) v∈H 1 (Ω),v|Γ ≥0 v∈H01 (Ω),v≥ψ

qui sont respectivement les problèmes de Dirichlet, Neumann, élasticité

avec contraintes unilatérales, équilibre avec obstacle.
Pour introduire certaines des méthodes de ce cours, traitons le premier
problème. Nous allons le faire à l’aide de ce que nous avons utilisé pour le
théorème de Hahn-Banach. On suppose que u existe. Alors, pour toute
fonction φ dans C0∞ (Ω), on remarque que u + φ ∈ H01 (Ω), ainsi on a

J2 (u + φ) ≥ J2 (u).
16 CHAPTER 1. INTRODUCTION ET EXEMPLES

Cette inégalité se traduit par

Z
∀φ ∈ C0∞ (Ω), λ ∇u∇φ + J2 (φ) ≥ 0.
Ω

On choisit alors ψ et on considère φ = εψ, où R ε tend vers

R 0. Alors on
en déduit, au passage à la limite, l’inégalité λ Ω ∇u∇ψ − f ψ ≥ 0 pour
toute ψ ∈ C0∞ (Ω). On remplace ψ par −ψ. On en déduit
Z Z
∀ψ ∈ C0∞ (Ω), λ ∇u∇ψ − f ψ = 0.
Ω

Un résultat d’intégrations par parties indique que, au sens des distribu-

tions de H −1 (Ω) (dual, rappelons le, des distributions de H01 (Ω)), on a la
relation

−λ∆u = f

Réciproquement, lorsque u est dans H01 (Ω) solution dans H −1 (Ω) de ce

problème, alors par écriture du produit scalaire qui correspond à la dualité
des distributions, on trouve
Z
1
J2 (v) − J2 (u) = λ (∇v − ∇u)2 dx.
2
En effet

1 2 1 2
R R R R
J2 (v) − J2 (u) = 2 λ R (∇v) dx − f vdx −
R 2 λ (∇u)R dx + f udx
1 2 − λ (∇u)2 dx + f udx
R R
= 2 λ (∇v − ∇u) dx + λ ∇u∇v − f vdx

et les deux termesR sont nuls enR prenant respectivement w = v puis w = u

dans l’égalité λ ∇u∇wdx = f wdx.
• Remarque: définition de la dérivée normale pour la solution du problème
de Dirichlet. On utilise la relation, valable pour (u, v) dans H 2 (Ω)
Z Z Z
∆uvdx = − ∇u∇vdx + ∂n uvdσ
Ω Ω

qui permet de définir ∂n u ∈ L2 (∂Ω) pour u ∈ H01 (Ω) tel que ∆u ∈ L2 (Ω)
et v ∈ H 1 (Ω)0 comme le résultat d’un théorème de Riesz. Pour
R cela, on
∞ (Ω), v → L(v) =
introduit la fonctionnelle, définie sur C 0 Ω ∇u∇v +
2
R
Ω ∆u.vdx, uniquement défini pour ∆u dans L (Ω). Cette fonctionnelle
est continue pour la topologie de C0∞ (Ω), on a:

|L(v)| ≤ C||v||H 1 (Ω) .

et C dépend continment de u dans (u ∈ H 1 (Ω), ∆u ∈ L2 (Ω)).

1.3. EXEMPLES 17

Lorsque v ∈ C ∞ (Ω), il est clair que cette fonctionnelle est continue et

que, par dualité, comme u ∈ H 1 (Ω), ∆u ∈ H −1 (Ω) lorsque le bord est
régulier, on trouve
Z
| ∇u∇v+ < ∆u, v > | ≤ C||v||H 1 (Ω) .
Ω
Pour v = φ ∈ C0∞ (Ω), on trouve 0, donc c’est une distribution qui ne
considére que les valeurs au bord de v = φ. D’autre part, lorsque u ∈
H 2 (Ω), on trouve que cette fonctionnelle permet de définir la dérivée
normale de u, ∂n u par la formule de Green usuelle.
Finalement, pour u ∈ H 2 (Ω) et v ∈ C ∞ (Ω), il existe C1 telle que (on
améliore la relation précédente)
Z
| ∇u∇v+ < ∆u, v > | ≤ C1 ||v|Γ || 1 .
Ω H 2 (Γ)

13. Problème de Neumann avec contrainte.

Nous étudions ici le cas du problème inf J1 (u), u|Γ ≥ 0, où u ∈ H 1 (Ω),
∂Ω = Γ. On souhaite démontrer la

Proposition 1.1 Si u est une solution qui minimise J1 dans H 1 (Ω) avec
u|Γ ≥ 0, alors
−λ∆u + ku = f dans L2 (Ω), et ∂n u = 0 sur u|Γ > 0 et ∂n u ≥ 0 sur
u|Γ = 0.

•: Equation aux dérivées partielles

On prend d’abord φ ∈ C0∞ (Ω), ainsi, pour tout ε > 0, u + εφ est dans
le domaine K défini par K = {u ∈ H 1 (Ω), u|Γ ≥ 0} dès que u ∈ K. On
applique alors la même méthode que précédemment, de faire tendre ε vers
0 après avoir divisé l’inégalité déduite de J1 (u + εφ) ≥ J1 (u) par ε. Ainsi
on a
Z Z Z
∀φ ∈ C0∞ (Ω), λ ∇u∇φdx + k uφdx = f φdx.

On en déduit, dans D0 (Ω), l’égalité

−λ∆u + ku = f.

• Traitement de la condition aux limites

Désormais, on considère v ∈ H 1 (Ω), v|Γ ≥ 0. Ainsi, de J1 (v) ≥ J1 (u),
écrivant v = u + (v − u), on déduit
Z
J1 (v)−J1 (u) = U1 (v−u)+U2 (v−u)+ [λ∇u∇(v−u)+ku(v−u)−f (v−u)]dx ≥ 0
Ω
(1.3.1)
Dans un premier temps, prenons v = cu, c ≥ 0 (donc v ∈ K). On trouve
alors
18 CHAPTER 1. INTRODUCTION ET EXEMPLES

Z
(c − 1)2 [U1 (u) + U2 (u)] + (c − 1) (λ(∇u)2 + k(u)2 − f u)dx ≥ 0.
Ω

Comme c ∈]0, +∞[, alors c − 1 ∈] − 1, +∞[. On peut prendre une valeur

négative et une valeur positive de c−1, ce qui implique la relation (faisant
tendre c − 1 vers 0)
Z
(λ(∇u)2 + k(u)2 − f u)dx = 0.
Ω

Remplaçant alors cette égalité dans l’inégalité (1.3.1), on trouve, pour

tout v ∈ K:
Z
U1 (v − u) + U2 (v − u) + [λ∇u∇v + kuv − f v]dx ≥ 0
Ω

• Traitement de l’inéquation d’Euler

En remplacant f par sa valeur en fonction de u et en utilisant la définition
de la dérivée normale, on obtient
Z
∀v ∈ K, ∂n uv|Γ dσ ≥ 0
Γ

Si x ∈ Γα où Γα est la partie du bord où u est supérieur ou égal à α,

alors on peut prendre ψ tel que ψ = 0 sur Γ − Γα et |ψ| ≤ α2 sur Γα ,
ψ identiquement égale à 1 sur le bord dans un voisinage d’un point x0
de Γα . On peut alors vérifier que u + ψ et que u − ψ sont dans K, ce
R permet d’obtenir directement, avec v − u = ±ψ, la relation au bord
qui
Γ ∂n uψdσ = 0, ce qui donne ∂n u = 0 sur Γα . On a donc
Z
∀α > 0, ∂n u|Γα = 0, u∂n udσ = 0
Γ
ce qui permet de partitionner Γ en Γ1 = {x, u(x)
R = 0} et Γ2 = Γ0 = Γ−Γα ,
sur lequel ∂n u = 0, et on a, par la condition Γ ∂n uvdσ ≥ 0 pour tout v
tel que v|Γ ≥ 0, la condition ∂n u ≥ 0.
14. Cas de non existence d’un minimum.
On se place
R 1 dans l’espace H 1 (]0, 1[) muni de la norme usuelle, et on définit
J(v) = 0 [(|v 0 (x)|−1)2 +(v(x))2 ]dx. On note que J(v) ≥ 0 et qu’il n’existe
pas de u tel que J(u) = 0. En effet, si il en existe un, |u0 | = 1 p.p. et u = 0
1
impossible dans H 1 . D’autre part, si on construit un (x) = 2n − |x − 2k+1
2n |
k+1
sur l’intervalle [ nk , k+1 (un (x))2 =
R
n ] pour 0 ≤ k ≤ n − 1, on trouve k
n

n
R 1 R k+1
2 02n x2 = 6n1 3 et k n (|u0 (x)| − 1)2 dx = 0. Ainsi
n

1
J(un ) =
6n2
et inf J = 0, alors qu’il n’existe pas de u tel que J(u) = inf J.
1.3. EXEMPLES 19

15. Un exemple de contrôle optimal

On considère y 0 ∈ IRN , T > 0, f ∈ L1 (]0, T [, IRN ) et A matrice N × N ,
B matrice N × M données. On considère, pour chaque v ∈ L2 (]0, T [, K),
la solution y(v) du système

dy(v)
(t) = Ay(v)(t) + Bv + f (t)
dt

avec y(v)(0) = y 0 . On cherche à minimiser le critère, qui peut s’exprimer

par “avec un v aussi petit que possible sur ]0, T [, trouver y(v) aussi proche
que possible de g aussi bien pondéré sur ]0, T [ qu’en t = T ” Le critère que
j’écris est

RT RT
J(v) = (v(t), v(t))dt + 0 (Q(y(v)(t) − g(t)), y(v)(t) − g(t))dt
0
+(R(y(v)(T )) − g(T ), y(v)(T ) − g(T ))

On note pour l’instant que y(v) peut être calculée, par exemple à l’aide
de y(0) puis de l’exponentielle de A dans une base où par exemple A
est diagonalisable, mais cela ne sera pas de grande aide pour calculer et
minimiser le critère.

16. Commande en temps minimal

Dans ce cas, le critère s’écrit de la manière suivante: “atteindre une cible
donnée C dans le temps le plus petit possible”. On introduit alors le
temps d’arrivée à la cible:

J(v) = +∞ si y(v) ∈ / C∀t

J(v) = inf{t ≥ 0, y(v)(t) ∈ C} si il existe t0 tel que y(v)(t0 ) ∈ C.

Commander le système en temps minimal est trouver inf J pour v dans

l’espace de commande et trouver un v0 tel que J(v0 ) = inf J.

17. On se donne A = {a ∈ L∞ ([0, 1]), 0 < α ≤ a(x) ≤ β∀x}. On se donne

aussi fi , ūi des fonctions (à préciser sur [0, 1]). On cherche à trouver a et
ui de sorte que

d 1 dui
− ( ) = fi (x), ∀x, ui (0) = ui (1) = 0 (1.3.2)
dx a(x) dx
XZ 1
inf |ui (x) − ūi (x)|2 dx. (1.3.3)
a∈A 0
i

C’est un problème modèle pour certains problèmes de la physique. Ici,

on cherche une équation de la chaleur (caractérisée par sa distribution a)
telle que les résultats théoriques de l’observation (pour chaque donnée
20 CHAPTER 1. INTRODUCTION ET EXEMPLES

extérieure fi on construit mathématiquement une solution de (1.3.2))

soient les plus proches possible de ce l’on observe (ūi ).
Dans un premierR temps, on peut résoudre explicitement (??) en intro-
x
duisant A(x) = 0 a(s)ds, mais trouver le meilleur a n’est pas encore à
notre portée. On peut le faire quand a(x) est une constante.
Dans le cas général, on trouve

Z x Z x
dui d
= CA0 (x)+A0 (x) fi (t)dt = (CA(x)+A(x) fi (t)dt)−A(x)fi (x),
dx 0 dx 0

soit
Z x Z x
ui (x) = CA(x) + A(x) fi (t)dt − A(t)fi (t)dt
0 0
en ayant utilisé ui (0) = 0. On identifie C grâce à ui (1) = 0, ce qui donne

Z 1 Z 1 Z x
A(x)
ui (x) = ( A(t)fi (t)dt−A(1) fi (t)dt)+ (A(x)−A(t))fi (t)dt.
A(1) 0 0 0

Dans le cas a(x) = a, on trouve ui (x) = au1i (x), avec

Z 1 Z x
u1i (x) = x (t − 1)fi (t)dt + (x − t)fi (t)dt.
0 0

Il est immédiat que le critère s’écrit

Z 1 Z 1 Z 1
2
J(a) = a (u1i (t))2 dt − 2a u1i (x)ūi (x)dx + (ūi (x))2 dx
0 0 0
Pi=N R 1 1
i=1 0 ui (t)ūi (t)dt
et qu’il est minimum en a0 = P i=N R 1 1 2
. Son minimum, d’après
i=1 0 (ui (t)) dt
les inégalités de Cauchy-Schwarz, est positif ou nul et n’est nul que si tous
les u1i sont égaux à un coefficient foit ūi .
Chapter 2

Minimum dans IRN ou dans un

espace de Hilbert, conditions
d’Euler et de Legendre

2.1 Condition générale d’existence (suffisante)

Nous allons d’abord donner des conditions suffisantes d’existence d’un mini-
mum. Le théorème le plus classique, que l’on trouve au début de chaque cours
d’optimisation, est le résultat en dimension finie:

Théorème 2.1 Soit K ⊂ IRN , soit J une fonctionnelle continue sur Ω con-
tenant K, et K fermé.
Si K est compact, ou si J est ∞ à l’∞ (c’est-à-dire, pour toute suite vn
telle que |vn | → +∞, J(vn ) → +∞), alors J a au moins un minimum sur K.
On peut extraire de toute suite minimisante sur K une sous-suite con-
vergeant vers un point de minimum sur K.

Preuve • Cas du compact

Toute partie non vide de IR admet une borne inférieure l. Si K est compacte,
d’une suite un telle que J(un ) tend vers l, on peut extraire (car un ∈ K com-
pact), une sous-suite convergente un0 → a. Comme J est continue, J(un0 ) tend
vers J(a), et donc J(a) = l.
• Cas d’une fonctionnelle infinie à l’infini
Si K n’est pas compacte, on vérifie cependant que la suite est bornée (si elle
ne l’était pas, on trouverait une sous-suite extraite un0 telle que |un0 | → +∞,
auquel cas J(un0 ) → +∞ par l’hypothèse sur le comportement de J, et donc
J(un0 ) ne converge pas vers l). Soit B une boule fermée contenant tous les
termes de la suite. Alors un ∈ K ∩ B est une suite dans un compact, une suite
extraite converge donc vers une valeur minimisante.

Remarque sur les compacts

On note que dans l’exemple 16 de l’introduction, la fonctionnelle vérifie la

21
22 CHAPTER 2. EULER-LEGENDRE

condition à l’infini, mais il n’y a pourtant pas de minimum car dans un espace
de dimension infinie, un fermé borné n’est pas necessairement compact.
Il s’agit maintenant d’être capable, comme dans les exemples traités précédemment,
de calculer les solutions. Nous allons faire cela, en écrivant des conditions très
anciennes, nécessaires pour certaines, suffisantes pour d’autres.

2.2 Condition d’Euler, condition de Legendre

Du traitement des exemples 13 et 15, on déduit un certain nombre de notions.
Nous reviendrons sur certaines d’entre elles plus loin. Pour l’instant, intéressons
nous à deux notions:
• la notion de dérivée dont nous avons besoin
• la notion de direction admissible.
La notion de dérivée que nous cherchons à obtenir s’obtient en comparant
(ce qui a été fait dans les exemples 13 et 15), J(u + εv) et J(u) après avoir
divisé par ε et fait tendre ε vers 0. On voit ainsi que la bonne notion est de
considérer
1
lim [J(u + εv) − J(u)]
ε→0 ε
et d’écrire l’inégalité, valable pour tout v tel que u + εv est dans le domaine
étudié
1
lim [J(u + εv) − J(u)] ≥ 0.
ε→0ε

2.2.1 Dérivabilité au sens de Fréchet et au sens de Gâteaux

La dérivée d’une fonction d’une variable élément d’un espace vectoriel de di-
mension finie doit être généralisée aux fonctionnelles, application d’un espace
vectoriel de dimension infinie dans IR. Il faut se placer dans un espace normé,
et un espace pour lequel l’espace dual est isomorphe à l’espace (on verra plus
loin que cela permettra de définir une application gradient). On se place sur
un espace de Hilbert V , dans lequel on a isomorphisme entre V et V 0 , et donc
le théorème de Riesz.

Définition 2.1 Lorsque, pour tout w, la limite limε→0 1ε [J(u + εw) − J(u)]
existe, on la note J 0 (u; w) et on l’appelle dérivée directionnelle de J en u dans
la direction w, qui est une fonction définie de V × V dans IR, homogène de
degré 1 dans la variable w.
Lorsque, de plus, la fonction w → J 0 (u; w) est une fonction linéaire con-
tinue, alors il existe, par le théorème de Riesz, un élément de l’espace de Hilbert
V , que l’on appelle la dérivée de Gâteaux de J en u et que l’on note J 0 (u). On
notera souvent de la même façon la forme linéaire et son représentant dans le
produit scalaire, soit (J 0 (u), w) = J 0 (u; w).
On peut aussi définir la dérivée seconde J”(u) si elle existe, lorsque la limite
1
lim [J 0 (u + δw1 ; w2 ) − J 0 (u; w2 )]
δ→0 δ
2.2. CONDITION D’EULER, CONDITION DE LEGENDRE 23

existe pour tout (w1 , w2 ) et est une forme bilinéaire continue sur V × V . La
limite est alors (J”(u)w1 , w2 ) par représentation des formes bilinéaires contin-
ues.

On rappelle la définition de la dérivée au sens de Fréchet, qui n’est plus

cette fois une forme linéaire définie sur chaque direction:

Définition 2.2 J est dérivable au sens de Fréchet en u si il existe une forme

linŕaire continue sur V , notée Lu , telle que

J(u + v) = J(u) + Lu (v) + ε(v)||v||

avec ε(v) → 0 quand v → 0.

Lorsque J est dérivable au sens de Fréchet, elle est dérivable au sens de Gâteaux,
mais la réciproque est fausse, car l’écriture de la dérivabilité au sens de Fréchet
correspond à ε(v)
||v|| tend vers 0, alors que la dérivabilité au sens de Gateaux
correspond à ε(λw)
λ tend vers 0 lorsque λ tend vers 0 et on perd l’uniformité de
w.
On peut alors écrire des formules de Taylor sur v a l’ordre 2

Proposition 2.1 si J est deux fois différentiable au sens de Fréchet:

1
J(u + v) = J(u) + (J 0 (u), v) + (J”(u)v, v) + o(||v||2 ) (2.2.1)
2
Si J est différentiable au sens de Fréchet et si sa dérivée est différentiable
au sens de Gateaux, alors on a aussi une formule de Taylor:

1
J(u + tw) = J(u) + t(J 0 (u), w) + t2 (J”(u)w, w) + o(t2 ). (2.2.2)
2
Lorsque J” est continue, on peut écrire la formule de Taylor avec reste
intégral

Z 1
0 2
J(u + tw) = J(u) + t(J (u), w) + t (1 − x)(J”(u + xtw)w, w)dx. (2.2.3)
0

Preuve La démonstration de ces égalités de Taylor peut par exemple se faire

en considérant la fonction de la variable réelle (que l’on considèrera très souvent
dans ce document)

φ(t) = J(u + tw). (2.2.4)

On vérifie que φ(t + h) = J((u + tw) + hw), φ(t) = J(u + tw) donc

φ(t + h) − φ(t)
→ (J 0 (u + tw), w)
h
ainsi φ0 (t) = (J 0 (u + tw), w).
24 CHAPTER 2. EULER-LEGENDRE

0 0 0 0 (u),w)
On voit alors que φ (t)−φ
t
(0)
= (J (u+tw),w)−(J
t tend vers φ”(0) = (J”(u)w, w).
Ainsi on peut écrire la formule de Taylor

t2
φ(t) = φ(0) + tφ0 (0) + φ”(0) + o(t2 )
2
et on a obtenu la formule de Taylor pour une fonction différentiable, qui admet
une dérivée seconde au sens de Gateaux.
D’autre part, si J est deux fois différentiable au sens de Fréchet dans un
voisinage de u, on a

φ”(t) = (J”(u + tw)w, w)

ainsi la formule de Taylor avec reste intégral pour la fonction φ conduit à l’égalité
(2.2.3).
Avec les outils de differentiabilité ainsi définis, on peut donner les résultats
d’optimalité connus sous le nom de condition d’Euler et de Legendre.

2.2.2 Deux espaces de Hilbert utiles dans la totalité de ce cours

Dans ce cours, nous avons besoin de la définition de deux espaces de Sobolev
importants (qui seront vus dans un cadre plus général dans un cours du second
semestre) et qui sont très utiles. Leurs propriétés sont admises pour le moment.

Définition 2.3 On appelle espace de Sobolev H 1 ([a, b]), où a et b sont deux
réels, a < b, le complété pour la norme
Z b
1
||u||H 1 ([a,b]) = ( ((u0 (x))2 + (u(x))2 )dx) 2
a

de l’espace C 1 ([a, b]).

On note que cette norme est associée au produit scalaire

Z b
(u, v)H 1 ([a,b]) = (u0 (x)v 0 (x) + u(x)v(x))dx.
a

Si on est sur un intervalle de R, les fonctions de H 1 ([a, b]) sont continues,

grâce à l’inégalité
Z y
1
|u(y) − u(x)| ≤ (| (u0 (t))2 dt|) 2 .
x

La propriété de continuité n’est pas vraie en dimension supérieure:

Définition 2.4 Soit Ω un ouvert régulier de Rd .

On appelle espace de Sobolev H 1 (Ω) le complété pour la norme
Z
1
||u||H 1 (Ω) = ( ((∇u(x))2 + (u(x))2 )dx) 2
Ω

de l’espace C 1 (Ω).
2.2. CONDITION D’EULER, CONDITION DE LEGENDRE 25

que cet espace peut aussi s’écrire H 1 ([a, b]) = {u ∈ L2 ([a, b]), u0 ∈ L2 ([a, b])}.
Dans l’écriture ci-dessus, on peut remarquer qu’une fonction de L2 ([a, b]) n’est
pas forcément définie en tout point (elle n’est définie que presque partout), donc
pour la définition de la dérivée il est nécessaire de passer par une autre notion,
la dérivée faible:

Définition 2.5 Soit f ∈ L2 (Ω). On appelle dérivée faible de f l’application

linéaire continue sur H 1 (Ω) définie par
Z
φ → (∂xi f )(φ) = − f (x)∂xi φ(x)dx.
Ω

C’est une application continue grâce à l’inégalité de Cauchy-Schwartz

Z
| f (x)g(x)dx| ≤ ||f ||L2 (Ω) ||g||L2 (Ω) .
Ω

On note traditionnellement l’application ci-dessus < ∂xi f, φ > et une explica-

tion de cette notation interviendra plus tard dans ce cours.
Lorsque f est une fonction C 1 (Ω), la dérivée faible concide avec la dérivée
classique.
Si d ≥ 2, les fonctions de H 1 (Ω) ne sont plus forcément continues.
Le deuxième espace est l’espace H01 (Ω).

Définition 2.6 Soit Ω un ouvert régulier de Rd .

On appelle espace de Sobolev H01 (Ω) le complété pour la norme
Z
1
||u||H 1 (Ω) = ( ((∇u(x))2 + (u(x))2 )dx) 2
Ω

de l’espace C01 (Ω) des fonctions de C 1 (Ω) qui sont nulles sur le bord de Ω ainsi
que leurs dérivées.
Par extension, on dira que la trace des éléments de H01 (Ω) sur le bord est nulle.
Un espace de Hilbert plus grand HΓ1 (Ω) peut aussi être défini par u nulle sur
une partie Γ du bord Ω.

2.2.3 Conditions necessaires d’optimalité. Conditions suffisantes

d’optimalité
On écrit des conditions nécessaires dans le

Théorème 2.2 Soit V un espace de Hilbert et J une fonctionnelle différentiable

(1 ou 2 fois) au sens des définitions précédentes
Pour que u ∈ V soit solution de

inf J(v)
(2.2.5)
v∈V
il FAUT que J 0 (u) = 0 (condition d’Euler).
(c’est-à-dire former cette équation, appelée équation d’Euler, donne tous les
minima, entre autres points (elle donne aussi tous les maxima locaux)).
26 CHAPTER 2. EULER-LEGENDRE

Si J est différentiable deux fois, on a, de plus nécessairement

∀w ∈ V, (J”(u)w, w) ≥ 0.
(condition de Legendre)

Démonstration:
Si u est un point d’optimum de J, alors, pour tout v ∈ V on a

J(u + v) ≥ J(u).

Si on utilise la dérivée de Fréchet de J, on en déduit que

∀v ∈ V, Lu (v) + o(v) ≥ 0.

On écrit v = tw, et on fait tendre t vers 0, t > 0. On en déduit , par

passage à la limite, Lu (w) ≥ 0. On choisit alors v = −tw, t > 0 et on en
déduit Lu (−w) ≥ 0. On a alors, ∀w, Lu (w) = 0. Ceci équivaut à J 0 (u) = 0. Un
raisonnement similaire est possible si la fonctionnelle est Gâteaux dérivable: en
effet
J(u + tw) − J(u) ≥ 0
pour w donné, quelconque.
Si t > 0, on peut diviser par t et passer à la limite: on déduit que (J 0 (u), w) ≥ 0.
Si on prend t < 0, on trouve (J 0 (u), w) ≤ 0. On en déduit donc aussi, dans le
cas où J est Gâteaux dérivable, J 0 (u) = 0. Pour la condition de Legendre, on
suppose que la fonctionnelle est dérivable au sens de Fréchet et que sa dérivée
de Fréchet est différentiable au sens de Gateaux.
On utilise alors la formule de Taylor (2.2.2), ce qui donne, si u est un
minimum, utilisant J 0 (u) = 0:

t2
J(u + tw) = J(u) + (J”(u)w, w) + o(t2 )
2
et l’inégalité J(u + tw) ≥ J(u) conduit à (J”(u)w, w) ≥ 0 pour tout w. Le
théorème est démontré.
Ce théorème est complété par une écriture de conditions suffisantes, valables
pour un minimum local

Théorème 2.3 Un ensemble de conditions suffisantes pour que u soit solution

du problème du théorème précédent est

J 0 (u) = 0
et pour tout ũ dans un voisinage V0 de u0 , on ait la condition (J”(ũ)w, w) ≥ 0.
(condition forte de Legendre)

Classiquement, au vu des applications numériques usuelles, on peut aussi écrire

une condition plus forte que la condition forte sous la forme
2.3. INÉQUATION D’EULER DANS UN PROBLÈME AVEC CONTRAINTES27

Il existe α > 0 tel que (J”(u)w, w) ≥ α(w, w)1 .

Démontrons le théorème. On suppose que J 0 (u) = 0 et (J”(ũ)w, w) ≥ 0
pour tout ũ dans un voisinage de u, et J deux fois Fréchet différentiable. On
utilise la formule de Taylor avec reste intégral
Z 1
2
J(u + tw) = J(u) + t (1 − x)(J”(u + txw)w, w)dx.
0
Soit ũ ∈ V0 . On choisit t = 1 et w = ũ − u de sorte que u + txw = xũ + (1 − x)u
est dans ce même voisinage, alors J(ũ) ≥ J(u) et u est un point de minimum
local, ce qu’il fallait démontrer.
• Contre-exemple de base.
Notons que l’on n’a pas ainsi de condition nécessaire et suffisante. En effet, si
on considère dans V = IR J(x) = x6 (1 + sin x1 ), et J(0) = 0, on vérifie que
J(x) ≥ 0 car sin u ≥ −1. Ainsi J(x) ≥ J(0) pour tout x et 0 est un point de
minimum absolu. On vérifie que J est continue en 0 (car lim x sin x1 = 0). Sa
dérivée est J 0 (x) = 6x5 (1+sin x1 )−x4 cos x1 , elle vérifie J 0 (x) → 0 lorsque x tend
vers 0, et de plus, J(x)−J(0)
x tend vers 0, donc J est dérivable et sa dérivée est
continue. Alors J”(x) = −x2 [sin x1 − 30x2 (1 + sin x1 ) − 10x cos x1 ]. On vérifie que
J”(0) = 0 et que J”( (n+11 )π ) = −( (n+11 )π )2 [(−1)n − 30( (n+11 )π )2 (1 + (−1)n )],
2 2 2
dont le signe est alternativement + et − pour n pair ou impair assez grand (par
exemple n ≥ 4). Ceci prouve que J ne vérifie pas la condition forte de Legendre
et pourtant J admet un minimum absolu en 0.

2.3 Inéquation d’Euler dans un problème avec con-

traintes
Les problèmes avec contrainte s’écrivent aussi comme des problème d’optimum
liés. Il s’agit en particulier de l’exemple 15. On voit, dans ce problème, que la
remarque utilisée généralement est que l’on doit pouvoir avoir u + εφ dans le
domaine K si u est donnée, afin d’écrire les conditions J(u + εψ) ≥ J(u). Il
faut alors que ψ soit positive sur le bord lorsque u|Γ est nulle en ce point du
bord, alors que, modulo le fait que ε soit choisi assez petit, ψ peut être prise
arbitraire sur le bord hors des points où u est nulle.
Lorsque K est l’ensemble des contraintes, et lorsque u ∈ K, on définit les
directions admissibles de u dans K par

Définition 2.7 L’espace des directions admissibles au sens de Fréchet pour

u ∈ K est l’ensemble des w de V tels qu’il existe une suite wn de V tendant
vers w et une suite en ≥ 0, en → 0, telle que u + en wn ∈ K. L’ensemble des
directions admissibles est noté K(u).

Définition 2.8 L’espace des directions admissibles au sens de Gâteaux est

l’ensemble des w tels que, pour ε assez petit, u + εw soit dans K. L’ensemble de
1
Notons que dans un Hilbert de dimension finie, cette inégalité est équivalente à l’inégalité
(J”(u)w, w) > 0 pour tout w non nul, puisque dans ce cas là la matrice J”(u) n’a pas de
vecteur propre nul, et α est sa plus petite valeur propre
28 CHAPTER 2. EULER-LEGENDRE

telles directions w est aussi appelé ensemble de directions admissibles intérieures

et noté K̇(u).

On note que les deux ensembles ainsi définis sont des cônes, et que K̇(u) ⊂
K(u).
On a alors les conditions nécessaires suivantes sur un minimum de la fonc-
tionnelle sous contraintes:

Théorème 2.4 (Inéquations d’Euler)

Si J est dérivable au sens usuel (de Fréchet), pour que u soit solution de
(2.2.5), il faut que

∀w ∈ K(u), (J 0 (u), w) ≥ 0.
Si J est dérivable au sens de Gâteaux, il faut que

∀w ∈ K̇(u), (J 0 (u), w) ≥ 0.

Soit u une solution de (2.2.5). Alors, comme u + en wn ∈ K, on a J(u +

en wn ) ≥ J(u). Ainsi on en déduit

1
[J(u + en wn ) − J(u)] ≥ 0 ∀n
en
puisque en ≥ 0. Ainsi, en passant à la limite dans l’égalité de définition de
la dérivée de Fréchet, on obtient e1n [J(u + en wn ) − J(u) − (J 0 (u), en wn )] → 0,
ainsi, écrivant (J 0 (u), wn ) − (J 0 (u), w) = (J 0 (u), wn − w) → 0, on a

(J 0 (u), w) ≥ 0.
Pour le deuxième, on vérifie que J(u + εw) − J(u) ≥ 0, ainsi, en divisant
par ε et en faisant tendre ε vers 0 pour w ∈ K̇(u), on trouve

∀w ∈ K̇(u), (J 0 (u), w) ≥ 0.

2.4 Multiplicateurs de Lagrange

Nous appliquons les résultats de la section précédente à des contraintes partic-
ulières, qui sont les plus simples que nous rencontrons. Les contraintes les plus
simples sont les contraintes égalités et les contraintes inégalités. Par exemple,
on peut écrire

K = {u ∈ V, F1 (u) = 0, F2 (u) = 0, ..Fm (u) = 0}

les fonctions F1 , ...Fm étant continues.
Par exemple, lorsque V = IR3 , on peut donner comme condition l’appartenance
à la sphère unité, qui s’écrit x2 +y 2 +z 2 −1 = 0. Ici F (x, y, z) = x2 +y 2 +z 2 −1.
2.4. MULTIPLICATEURS DE LAGRANGE 29

• L’exemple d’une variété simple: la sphère

Nous traitons le cas particulier de la contrainte égalité x2 + y 2 + z 2 = 1.
Commençons par l’ensemble ouvert K̇((x, y, z)). On considère (w1 , w2 , w3 )
tels que (x + w1 )2 + (y + w2 )2 + (z + w3 )2 = 1 et x2 + y 2 + z 2 = 1. Ainsi, en
utilisant ces deux égalités et en divisant par , on obtient

(∗)(xw1 + yw2 + zw3 ) = − ||w||2 .
2
En faisant tendre vers 0, on trouve que xw1 + yw2 + zw3 = 0 car (x, y, z) et
(w1 , w2 , w3 ) sont indépendants de . D’autre part, en remplacant cette égalité
dans (*), on trouve ||w||2 = 0. Comme on prend quelconque assez petit, la
norme de w est nulle donc w = 0. On trouve K̇((x, y, z)) = {(0, 0, 0)}.
D’autre part, considérons maintenant la définition de K((x, y, z)). Alors
w ∈ K((x, y, z)) lorsqu’il existe une suite en tendant vers 0 et une suite wn =
(w1n , w2n , w3n ) tendant vers w telles que (x, y, z) + en wn soit dans la sphère. On
cherche des conditions nécessaires pour que cela soit le cas. Comme précédemment,
on écrit les deux égalités et on obtient
en n 2
xw1n + yw2n + zw3n = − ||w || .
2
En considérant la limite lorsque n tend vers l’infini, le membre de gauche tend
vers xw1 + yw2 + zw3 et le membre de droite tend vers 0, donc une condition
nécessaire est xw1 + yw2 + zw3 = 0.
Montrons que cette condition est suffisante. On se donne un élément (w1 , w2 , w3 )
tel que u.w = 0, u = (x, y, z). On considère alors une suite quelconque wn
qui tend vers w (c’est toujours possible à définir, ce serait-ce qu’en prenant
w + n1 e, où e est un vecteur fixe quelconque). On sait alors que x.wn tend
vers 0. On construit alors w̃n = wn − 2|u.wn |(x, y, z) (ceci veut dire w̃1n =
wn1 − 2|xwn1 + ywn2 + zwn3 |x, w̃2n = wn2 − 2|xwn1 + ywn2 + zwn3 |y). Il en découle que
w̃n tend vers w car wn tend vers w et u.wn tend vers 0. De plus, w̃n .(x, y, z) =
w̃n
w̃n .u = wn .u − 2|wn .u| ≤ 0. On construit alors en = − ||2u w̃n ||2
≥ 0. La suite
(en , w̃n ) vérifie les conditions de la définition, donc (w1 , w2 , w3 ) ∈ K(u). Si
K = {(x, y, z), x2 + y 2 + z 2 ≤ 1}, alors K(u) = K̇(u) = IR3 pour u = (x, y, z)
tel que x2 + y 2 + z 2 < 1 (en effet, il suffit, pour toute direction non nulle w,
de considérer u + 21 (1 − ||u||) ||w||
w
, qui est dans la sphère unité, donc on vérifie
que pour 0 = 12 (1−||u||)
||w|| et < 0 , u + w est dans la sphère). Pour un point du
2
bord u = 1, on aboutit, en divisant par en ou par , à l’inégalité
en
u.w ≤ − ||w||2 , u.wn ≤ ||wn ||2
2 2
ce qui aboutit aux relations K̇(u) = {u.w < 0} et K(u) = {u.w ≤ 0}.

2.4.1 Contraintes égalités

• Inclusion K(u) ⊂ {w, (F 0 (u), w) = 0}
L’inclusion directe dans le cas général est facile à obtenir. En effet, si w est
une direction admissible pour u, il existe une suite wn tendant vers w et une
30 CHAPTER 2. EULER-LEGENDRE

suite en > 0 tendant vers 0 telles que F (u + en wn ) = 0. Alors on en déduit, en

supposant que F est différentiable

F (u) + (F 0 (u), en wn ) + o(en |wn |) = 0.

Faisant tendre en vers 0 après avoir utilisé F (u) = 0 et avoir divisé par en
conduit à (F 0 (u), w) = 0. • Inclusion réciproque:
Nous généralisons la méthode employée pour la sphère. Nous avons donc ob-
servé que l’argument principal est de corriger le fait que la droite dirigée par
w avec pour origine u dans le plan tangent ne rencontre pas la surface par un
déplacement complémentaire dans la direction normale au bord.
Supposons (F 0 (u), w) = 0. On introduit la fonction φ(λ, ε) = 1ε F (u + εw +
ελF 0 (u)), φ(λ, 0) = (F 0 (u), w + λF 0 (u)). On a

φ(λ + h, ε) − φ(λ, ε) 1
= (F (u+εw+ελF 0 (u)+εhF 0 (u))−F (u+εw+ελF 0 (u)))
h εh
donc

φ0λ (λ, ε) = (F 0 (u + εw + ελF 0 (u)), F 0 (u)).

On suppose que F 0 est Lipschitz et que F 0 (u) 6= 0. On souhaite trouver λ(ε)
tel que φ(λ(ε), ε) = 0. On écrit l’équation sous la forme

φ(λ, ε) − φ(0, ε) = −φ(0, ε)

De l’égalité (F 0 (u), w) = 0, on déduit φ(0, ε) = o(1). De la relation F 0 (u) 6= 0,
on tire que la dérivée de φ(λ, ε) − φ(0, ε) est ||F 0 (u)||2 > 0, et, de plus, φ(0, 0) =
0. On est dans le cas d’application du théorème des fonctions implicites et il
existe ε0 et une fonction continue λ(ε) telle que, pour ε < ε0 on ait

φ(λ(ε), ε) − φ(0, ε) = −φ(0, ε).

La fonction λ(ε) tend vers 0 lorsque ε tend vers 0. On peut aussi voir ce résultat
en écrivant l’équation sous la forme
Z 1
λ φ0λ (λx, ε)dx = −φ(0, ε)
0
ce qui donne, par approximation de la dérivée première

λ[||F 0 (u)||2 + O(ε)] = −φ(0, ε)

soit

φ(0, ε)
λ=− (1 + O(ε)),
||F 0 (u)||2
d’où une expression de λ(ε) (dont on a montré l’existence et l’unicité ci-dessus).
Ainsi on a trouvé wε = w + λ(ε)F 0 (u) tel que F (u + εwε ) = 0 et wε → w. La
direction w est une direction admissible. Lorsque F 0 (u) = 0, w est quelconque,
2.4. MULTIPLICATEURS DE LAGRANGE 31

mais cela n’assure pas l’existence d’un w non nul qui soit une direction ad-
missible. Par exemple, F (x) = x2 conduit, dans la définition, à écrire le cône
des directions admissibles à {0} dans IR, qui correspond à {0}, car dans ce cas
0 + en wn = 0 ce qui implique wn = 0, et non pas tout l’axe réel.

Lemme 2.1 Dans le cas F 0 (u) 6= 0, le cône K(u) associé à u tel que F (u) = 0
est l’ensemble des w ∈ V tels que (F 0 (u), w) = 0.

On en déduit la représentation suivante

Définition 2.9 Soit K = {u, F1 (u) = 0, F2 (u) = 0, ...Fm (u) = 0}. Lorsque les
vecteurs (F10 (u), F20 (u), ..Fm
0 (u)) sont linéairement indépendants, on dit que les

contraintes sont régulières en u.

Lemme 2.2 Si les contraintes sont régulières en u, alors

K(u) = {w ∈ V, (Fi0 (u), w) = 0, ∀i = 1..m}.

L’inclusion directe est facile. L’inclusion réciproque est une conséquence du

théorème des fonctions implicites matriciel. On choisit donc, pour un w tel
que (Fj0 (u), w) = 0 pour tout j, de regarder une perturbation de u + εw et de
déterminer (µ1 , .., µm ) tels que
k=m
X
∀j, ε−1 Fj (u + εw + εµk Fk0 (u)) = 0.
k=1
On regarde alors ce système comme une application de IRm dans lui même.
Le jacobien de cette application est, pour ε = 0, la matrice des produits scalaires
(Fj0 (u), Fk0 (u)). La famille est libre, donc cette matrice est inversible et cette
propriété est vraie pour ε < ε0 lorsque les µj appartiennent à un compact. On
applique alors le théorème des fonctions implicites de IRm+1 dans IRm et on
conclut sur l’existence de m fonctions µk (ε) tendant vers 0 lorsque ε tend vers
0 telles que ces égalités soient vérifiées pour ε petit. Il suffit alors de prendre
ε = n1 pour conclure sur l’existence d’une suite wn telle que u + n1 wn soit dans
K et wn tende vers w. Ainsi w est une direction admissible et on a montré
l’égalité des ensembles. Lorsque les vecteurs Fi0 (u) ne forment pas une famille
libre, on a le même problème que précédemment dans le cas F 0 (u) = 0.
On ne peut pas assurer l’existence de directions admissibles. Par exemple,
considérant {(x, y), x2 + y 2 = 1, x3 + y 3 = 1}, il est réduit à {(1, 0), (0, 1)} et
ces points sont isolés donc n’ont pas de directions admissibles. On peut aussi
considérer l’exemple d’une sphère S et d’un de ses plans tangents P . Au point
d’intersection, les deux vecteurs Fi0 (u) sont égaux à la direction normale à la
sphère, et l’intersection est réduite au point.
Lorsque le cône K(u) est facile à évaluer, le théorème 2.4 permet de calculer
ce que l’on appelle les multiplicateurs de Lagrange.

Théorème 2.5 Pour que u tel que (Fj0 (u))j forme une famille libre (on dit que
les contraintes Fj (v), 1 ≤ j ≤ m sont régulières en u), soit solution de
(2.2.5), il faut qu’il existe m réels λ1 , ...λm tels que
32 CHAPTER 2. EULER-LEGENDRE

J 0 (u) + λ1 F10 (u) + λ2 F20 (u) + ... + λm Fm

0
(u) = 0

Preuve La partie difficile de la preuve a été faite. En effet, si u est régulier,

on identifie aisément le cône K(u) des directions admissibles; c’est l’espace
vectoriel orthogonal à l’espace vectoriel F engendré par la famille (Fj0 (u))j=1..m .
Le théorème 2.4 se traduit alors par

∀w ∈ K(u), (J 0 (u), w) ≥ 0.
Comme K(u) est un espace vectoriel, −w ∈ K(u) lorsque w ∈ K(u), ce qui se
traduit par

∀w ∈ K(u), (J 0 (u), w) = 0.
Ainsi J 0 (u) est dans l’espace vectoriel orthogonal à F ⊥ , c’est-à-dire F , et
l’égalité du théorème est vraie.
On peut aussi le vérifier comme suit. Il existe des P
scalaires λj et un vecteur
r, orthogonal à tous les Fj (u), tels que J (u) = − m
0 0 0
j=1 λj Fj (u) + r. Alors
0
r ∈ K(u) et (J (u), r) = 0, ce qui s’écrit (r, r) = 0 soit r = 0.

2.4.2 Les contraintes inégalité

On suppose donc F (u) ≤ 0 une contrainte donnée de V dans IR. Soit u ∈ K,
vérifiant ainsi F (u) ≤ 0. Une direction w de K(u) est alors telle que F (u+εw) ≤
0 pour ε assez petit, soit F (u) + ε(F 0 (u), w) + o(εw) ≤ 0.
Deux cas sont alors à envisager:
• contrainte inactive: soit F (u) < 0, auquel cas, dès que ε est assez petit,
tout élément w est admissible. La contrainte F (u) ≤ 0 n’ajoute donc pas de
condition dans le théorème 2.4, la condition nécessaire est donc l’égalité d’Euler
J 0 (u) = 0 qui provient de (J 0 (u), w) ≥ 0 ∀w ∈ K(u). On dit pour cette raison
que la contrainte est inactive (on dira aussi de temps en temps insaturée).
• contrainte active: soit F (u) = 0, auquel cas, comme ε > 0, il faut et il
suffit, dans le cas F 0 (u) 6= 0, que (F 0 (u), w) ≤ 0.
On note tout de suite que si (F 0 (u), w) < 0, alors il est clair que, pour ε
assez petit, F (u + εw) = ε(F 0 (u), w) + o(ε) < 0. Le problème se pose lorsque
(F 0 (u), w) = 0 pour trouver un élément de l’espace des contraintes. On doit
donc introduire une notion de plus grande régularité des contraintes.
Par exemple la condition F 0 (u) 6= 0 est assurée lorsqu’il existe w tel que
(F 0 (u), w) < 0.
D’autre part, lorsqu’il y a plusieurs contraintes inégalités, on veut pouvoir
montrer que l’ensemble des directions admissibles n’est pas vide.
Pour cela, il faut trouver un w0 tels que, pour toutes les contraintes Fj
saturées, on a (Fj0 (u), w0 ) ≤ 0.
Cette condition n’est pas assez restrictive. En effet, la définition des direc-
tions admissibles w conduit à la relation (Fj0 (u), w) ≤ 0. En revanche, si on
2.4. MULTIPLICATEURS DE LAGRANGE 33

ne peut trouver un w0 que dans le cas où il existe un couple (j1 , j2 ) tels que
(Fj01 (u), w0 ) = (Fj02 (u), w0 ) = 0, on pourrait se trouver dans la situation où les
deux hypersurfaces Fj1 ≤ 0 et Fj2 ≤ 0 sont tangentes en u, de vecteur normal
w0 , et (par exemple) de concavité stricte opposée. Dans ce cas, l’intersection
des contraintes Fj1 ≤ 0 et Fj2 ≤ 0 est réduite à {u}, et on ne peut plus parler
de direction admissible.
Une condition pour que l’ensemble des directions admissibles soit non vide
est alors la condition:
Il existe w0 tel que, ∀j, (Fj0 (u), w0 ) < 0.
Cette condition est peu utilisable, car trop restrictive; en particulier une con-
trainte affine pourra donner une direction admissible avec uniquement l’égalité.
On utilise alors plutôt la condition suivante:
Il existe w0 tel que ∀j, (Fj0 (u), w0 ) < 0 (contraintes non affines) et (Fj0 (u), w0 ) =
0 si la contrainte est affine, car on sait que dans ce cas l’intersection entre le
demi hyperplan défini par la contrainte affine et les autres conditions est non
vide.
Enfin, on élimine grâce à cela la condition d’indépendance des (Fj0 (u)) que
l’on avait utilisé pour caractériser les directions admissibles.
Cette analyse induit une définition de contraintes qualifiées, qui est une hy-
pothèse technique mais qui est l’hypothèse la plus classique en théorie des mul-
tiplicateurs de Lagrange:

Définition 2.10 Soit K = {u, Fj (u) ≤ 0, j = 1..m}.

• On dit qu’une contrainte Fj est active si Fj (u) = 0, et elle est inactive si
Fj (u) < 0. On note I(u) l’ensemble des indices des contraintes actives.
• On dit que l’ensemble des contraintes (Fj ) est qualifié si il existe w0 ∈ V
tel que pour tout j ∈ I(u) (pour les contraintes actives), (Fi0 (u), w0 ) ≤ 0, et
(Fj0 (u), w0 ) = 0 uniquement pour Fj affine.

Commençons par ranger les contraintes actives affines pour j ∈ I 0 (u). On

prend w0 dans l’orthogonal de l’espace vectoriel F0 engendré par les Fj0 (u),
j ∈ I 0 (u), qui est indépendant de u. Il suffit alors de voir que, pour tout
w0 ∈ F0 et pour tout j ∈ I 0 (u), on a Fj (u + w0 ) = Fj (u) = 0. Il suffit alors de
regarder, pour les autres conditions, (j ∈ I(u) − I 0 (u)), (Fj0 (u), w0 ) et K(u) est
non vide lorsque w0 existe.
Une notion moins restrictive mais plus abstraite est la notion de con-
traintes qualifiables:

Définition 2.11 On dit que les contraintes inégalités {Fj (u) ≤ 0} sont quali-
fiables en u si

K(u) = {w, (Fj0 (u), w) ≤ 0 pour j ∈ I(u)}.

On a alors le lemme suivant

Lemme 2.3 On suppose que les contraintes Fj , 1 ≤ j ≤ m, sont qualifiées en

u ∈ K. Alors elles sont qualifiables en u.
34 CHAPTER 2. EULER-LEGENDRE

La preuve de ce lemme s’appuie sur l’existence de w0 pour la démonstration de la

réciproque; en effet l’implication directe est une conséquence de la dérivabilité et du
fait de faire tendre en vers 0.
On considère donc w dans {w ∈ V, (Fj0 (u), w) ≤ 0∀j ∈ I(u)}, et on forme, pour
tout ε et pour tout δ positif fixé u + ε(w + δw0 ). Pour ε assez petit, par continuité
de Fj pour j ∈ / I(u), Fj (u + ε(w + δw0 )) < 0. D’autre part, pour j ∈ I 0 (u), on a
Fj (u + ε(w + δw0 )) = Fj (u) + ε(Fj0 (u), w + δw0 )) = ε(Fj0 (u), w) ≤ 0. Enfin, pour
j ∈ I(u) − I 0 (u), il vient Fj (u + ε(w + δw0 )) = Fj (u) + ε(Fj0 (u), w + δw0 )) + o(ε).
Comme Fj (u) = 0, (Fi0 (u), w0 ) < 0 et (Fj0 (u), w) ≤ 0, on trouve

Fj (u + ε(w + δw0 )) ≤ δε(Fj0 (u), w0 ) + o(ε).

Le second membre est strictement négatif lorsque ε tend vers 0, car (Fj0 (u), w0 ) < 0 et
o(ε)/ε tend vers 0. Le lemme est démontré.

Théorème 2.6 Sous l’hypothèse que J est dérivable, que les Fj sont dérivables,
et que, en u, les contraintes sont qualifiables, pour que u soit une solution de
(2.2.5), il faut qu’il existe λ1 , ...λm ≥ 0 tels que λj = 0 pour j ∈ {1, .., m}−I(u)
et
i=m
X
0
J (u) + λi Fi0 (u) = 0.
i=1

Le théorème 2.6 est une conséquence simple du lemme suivant, dit de Farkas,
et de la représentation des directions admissibles du lemme 2.3. On applique
alors le théorème 2.4 pour en déduire l’existence des multiplicateurs de Lagrange
positifs.

Lemme 2.4 (Farkas)

Soit K l’intersection des demi hyperplans orthogonaux à aj , 1 ≤ j ≤ m,
K = {(aj , v) ≤ 0∀j}.

X
pour tout v ∈ K, (p, v) ≥ 0 on a ∃(λ1 , ...λm ) ∈ (IR+ )m , p = − λ i ai .
P
On définit B = {− λi ai , 1 ≤ i ≤ m, λi ≥ 0∀i}. Nous démontrerons que B
est un convexe fermé. Admettons le pour l’instant. On peut alors appliquer la
notion de projection sur un convexe fermé non vide. On suppose donc que p0
vérifie les hypothèses du lemme de Farkas et que p0 n’appartient pas à B. On
montre que la projection p̃ de p0 sur B est égale à p0 , d’où contradiction. On
trouve, de ||p0 − p̃||2 ≤ ||p0 − w||2 , w ∈ B, que ∀w ∈ B, (p̃ − p0 , w − p̃) ≤ 0.
Dans cette inégalité, on choisit alors w = −λai et on fait tendre λ vers +∞. Il
reste donc (ai , p0 − p̃) ≥ 0 pour tout i. Ceci implique que p̃ − p0 est dans K.
De l’inégalité 0 ≤ (p0 , p̃ − p0 ) = −|p0 − p̃|2 + (p0 − p̃, 0 − p̃) ≤ −|p0 − p̃|2 (car
0 ∈ B) on déduit que p0 = p̃. On a montré que p0 ∈ B, contradiction.
Il reste à démontrer que B est fermé convexe. Il est convexe de manière
évidente (on considère 0 ≤ µ ≤ 1, alors µλ1i + (1 − µ)λ2i ≥ 0, et donc il existe
une représentation de µv1 + (1 − µ)v2 qui soit une combinaison linéaire à coef-
ficients négatifs). En revanche le caractère fermé est plus difficile à obtenir. La
2.4. MULTIPLICATEURS DE LAGRANGE 35

preuve suit:

Si la famille (ai ) est libre, la matrice (ai .aj ) est symétrique définie positive.
On note ||a|| le max P des normes des ai et α la plus petite valeur propre de la
matrice. On obtient λi ai .aj = −v.aj , donc il vient maxi |λi | ≤ α−1 ||v||.||a||.
On considère alors une suite vn d’éléments de B qui converge. On note v sa
limite et on souhaite montrer que cette limite est dans B.
On peut identifier les λni associés à chaque vn , et les suites λni sont bornées.
Quitte à faire des extractions de suite en cascade, il existe une sous-suite con-
ψ(n) P
vergente λi , qui converge vers des valeurs positives λi , donc v = − λi ai .
La limite est donc dans B.

Deuxième
P cas, si la famille est linéairement dépendante, il existe µ1 , ..µm tels
que µi ai = 0 (avec au moins
P un des coefficients qui est positif), et donc un
élément de B s’écrit v = − (λi +tµi )ai . Il faut montrer que pour une valeur de
t ≤ 0, cette somme est une combinaison à coefficients positifs de m − 1 termes,
et on se sera ramené à une famille avec moins d’éléments pour tout t. Pour
t = 0, tous les coefficients sont positifs ou nuls, donc de deux choses l’une: ou
bien µi1 ≤ 0, auquel cas µi1 t ≥ 0 et le coefficient correspondant ne s’annulera
λ
pas si λi1 6= 0, ou bien µi1 > 0, ce qui implique que t = − µii1 est une valeur
1
où le coefficient s’annule. On prend alors t0 = mini,µi >0 µλii et la combinaison
précédente a un coefficient qui s’annule pour t = −t0 . Cette construction est
valable pour chaque élément de B.
On considère alors une suite xn d’éléments de B, suite de Cauchy dans
l’espace engendré par les ai , espace vectoriel de dimension finie. Elle s’écrit
− P λni ai . Par P
P
la construction ci-dessus, pour chaque n, il existe i(n) tel que
− λni ai = − i6=i(n) λ̃ni ai . On a donc enlevé chaque fois un élément de la
famille (ai ). On note Ii = {n, i(n) = i}. L’union des Ii est l’ensemble des
entiers naturels, donc il existe au moins un i0 tel que Ii est infini, soit Ii =
φ(n)
{φ(m), m = 0, 1.. + ∞}. La suite extraite xφ(n) = − i6=i0 λ̃i ai est une suite
P
qui correspond à la famille (ai )i6=i0 . Si cette famille est libre, on s’est ramené au
cas précédent, et la suite extraite xφ(n) converge vers un élément de B. Comme
la suite est de Cauchy, elle converge vers x et la limite de toute suite extraite
est x.
Si cette famille est liée, on reprend l’argument avec la suite xφ(n) . Comme
la famille n’est pas identiquement nulle (sinon B est réduit à {0} et on n’a rien
à démontrer), alors au bout d’un nombre fini d’itérations, on aboutit à une
famille libre (aj ) et la démonstration est finie puisque la limite est dans B pour
cette suite extraite.
On a donc montré que B est fermé, donc on peut utiliser le théorème de
projection sur un convexe fermé.
36 CHAPTER 2. EULER-LEGENDRE

2.4.3 L’inégalité de Hardy.

On peut obtenir en exercice l’inégalité
i=n i=n
1X 1 1X 1
( |xi |p ) p ≤ ( |xi |q ) q , q ≥ p
n n
i=1 i=1

|xi |q = 1 et on cherche à minimiser

P
En effet,
P onp suppose la contrainte
J(x) = |xi | . On écrit, avec le multiplicateur de Lagrange λ, yi = |xi |
pyip−1 + λqyiq−1 = 0, sous la contrainte
P q
yi = 1. On trouve alors yiq−p = − λq p

ou yi = 0. Soit k le nombre de valeurs de yi non nulles. Alors elles sont égales,

1 p p−q
donc yi = ( k1 ) q , ce qui donne J(y) = k( k1 ) q = k q . Lorsque q < p, la plus
petite valeur est atteinte pour k = 1, et le minimum est atteint lorsque l’un
seulement est non nul. Lorsque q ≥ p, la plus petite valeur est atteinte lorsque
p−q
tous les yi sont égaux, et la plus petite valeur de J est n q . On en déduit
P p q−p P
yi ≥ n q , yiq = 1 ainsi, en notant zi = P yip 1 , tel que
P p
zi = 1, on a le
( yi ) p
résultat.

2.4.4 Problème mixte

On appelle problème mixte un problème où les contraintes apparaissant sont
à la fois des contraintes égalité et des contraintes inégalite. Nous commencons
dans ce paragraphe l’étude par le cas de contraintes égalité que nous transfor-
mons en contraintes inégalité.
Si on considère l’ensemble des contraintes égalités (régulières) comme l’ensemble
de toutes les contraintes inégalités (Fj (u) = 0, 1 ≤ j ≤ m équivaut à Fj (u) ≤
0, −Fj (u) ≤ 0), toutes les contraintes sont actives, car si u est tel que Fj (u) < 0,
alors −Fj (u) > 0 donc (bien sûr) u n’est pas dans l’ensemble!!. On écrit la condi-
tion sur les multiplicateurs de Lagrange λj ≥ 0, µj ≥ 0, J 0 (u)+ j=m 0
P
j=1 λj Fj (u)+
Pj=m 0 0
P 0
j=1 µj (−Fj (u)) = 0, J (u) + j pj Fj (u) = 0 avec pj = λj − µj ∈ IR. Notons
pour l’instant que les contraintes ne sont pas qualifiées en un point.
En effet, si on prend une des contraintes égalité sous la forme F1 (u) ≤ 0 et
−F1 (u) ≤ 0, il n’existe pas de w tel que l’on ait simultanément (F10 (u), w) < 0
et (−F10 (u), w) < 0. La notion de contrainte qualifiée ne s’applique pas dans
ce cas. En revanche on sait que les contraintes sont qualifiables: en effet, si les
contraintes égalité sont régulières en u, alors

K(u) = {w, (Fj0 (u), w) = 0, 1 ≤ j ≤ m} = {w, (Fj0 (u), w) ≤ 0, (−Fj0 (u), w) ≤ 0, 1 ≤ j ≤ m}.

Nous considérons donc

K = {u, Fj (u) = 0, 1 ≤ j ≤ m, Fm+k (u) ≤ 0, 1 ≤ k ≤ p}.

Nous supposons K non vide. Nous montrons le

Théorème 2.7 Nous considérons les points u de K tels que la propriété suiv-
ante soit vérifiée (contraintes mixtes qualifiées):
Les contraintes égalités sont régulières en u, et les contraintes inégalité sont
2.4. MULTIPLICATEURS DE LAGRANGE 37

qualifiées en u, où le vecteur de qualification w0 est dans l’ensemble (V ect(F10 (u), ..., Fm
0 (u)))⊥ .

Pour que u soit minimum de J sur K, il faut qu’il existe λ1 , ..., λm , λm+1 , ..., λm+p ,
∀i ∈ {1, ..., p}, λm+i ≥ 0 tel que
m+p
X
J 0 (u) + λj Fj0 (u) = 0
j=1

λk Fk (u) = 0, pour tout k ≥ m + 1.

Nous proposons deux preuves. La première preuve s’appuie directement
sur la définition des contraintes mixtes qualifiées, nous allons construire une
suite de directions admissibles. On sait bien sûr que l’ensemble des directions
admissibles est inclus dans {w, (Fj0 (u), w) = 0∀j, 1 ≤ j ≤ m, (Fm+k0 (u), w) ≤
0, k ∈ I(u)}, où I(u) = {k, Fm+k (u) = 0}. On considère ainsi
m
X
w(δ, xj ) = w + δw0 + xj Fj0 (u).
j=1

On résout tout d’abord

φj (t, δ, x) = t−1 Fj (u + tw(δ, xj )) = 0, 1 ≤ j ≤ m.

C’est un système de m équations à m inconnues et deux paramètres. Quand

nous calculons le jacobien de ce système, il est non nul en (t, δ) = (0, 0) car les
contraintes égalité sont régulières en u. En effet, si on note φj (t, δ, x) la fonction
ci-dessus,
∂φj 0 0
∂xk (t, δ, x) = (Fj (u + tw(δ, x)), Fk (u))

et φj (0, δ, x) = (Fj0 (u), w + δw0 + xk Fk0 (u)) = 0 0

P P
k xk (Fj (u), Fk (u)). Ainsi
on vérifie que le point (t, δ) = (0, 0), x = 0 est une solution du système et le
jacobien en ce point est inversible. On en conclut qu’il existe m fonctions Xj
telles que
∀j, 1 ≤ j ≤ m, Fj (u + tw(δ, Xj (t, δ))) = 0.
Considérons maintenant les contraintes actives. On calcule ainsi le développement
limité
0 (u), w + δw0 + Xj (t, δ)Fj0 (u)) + o(t)
P
Fm+k (u + tw(δ, Xj (t, δ))) = t(Fm+k
0 0 (u), Fj0 (u)) + o(1)].
P
= t[δ(Fm+k (u), w0 ) + Xj (t, δ)(Fm+k

Dans le crochet, le premier terme est strictement négatif et le deuxième tend vers
0 si (t, δ) tend vers 0. Il s’agit de montrer précisément ce résultat. Il s’appuie sur
∂φ
φj (0, δ, 0) = 0 ainsi que sur ∂δj (t, δ, x) = (Fj0 (u + tw + t xk Fj0 (u) + tδw0 ), w0 ).
P
∂φj
On en déduit que ∂δ (0, δ, 0) = 0. Donc, considérant l’identité

φj (t, δ, X(t, δ)) = 0

et la dérivant par rapport à δ, il vient donc

∂φj
X ∂φ ∂X(t,δ)
j
∂δ (t, δ, X(t, δ)) + ∂xk (t, δ, X(t, δ)) ∂δ = 0.
k
38 CHAPTER 2. EULER-LEGENDRE

Appliquant en t = 0 pour lequel X(0, δ) = 0 et utilisant l’inversibilité de la

matrice (Fj0 (u), Fk0 (u)) on trouve que ∂X∂δ (0, δ) = 0.
Enfin, on regarde pour p indice actif
0
P
Fm+p (u + t(w + δw0 + P k Xk (t, δ)Fk (u)))
= t[(Fm+p (u), w + δw0 + k Xk (t, δ)Fk0 (u)) + ot (1)]
0
0 0 (u), k (Xk (t, δ) − Xk (0, δ))Fk0 (u) + o(t)
P
= t[(Fm+p (u), w) + (Fm+p
0 (u), w0 ) + k Xk (0,δ) 0 (u), Fk0 (u))]]
P
+δ[(Fm+p δ (Fm+p
On peut alors choisir δ indépendamment de t de sorte que le terme [(Fm+p 0 (u), w0 )+
P Xk (0,δ) 0
k δ (Fm+p (u), Fk0 (u))] soit strictement négatif pour δ ≤ δ0 . Alors la lim-
ite lorsque t tend vers 0 du crochet est négative ou nulle, donc pour t < ε0 on
trouve
0 0 (u), k (Xk (t, δ) − Xk (0, δ))Fk0 (u)) + o(t)
P
(Fm+p (u), w) + (Fm+p
0
< 21 |(Fm+p (u), w0 ) + k Xk (0,δ 0) 0 (u), Fk0 (u))|
P
δ0 (Fm+p
Les points u+t(w +δ0 w0 + k Xk (t, δ0 )Fk0 (u)) vérifient la contrainte Fm+p (v) ≤
P
0 pour t < ε0 . Ainsi on peut faire le même raisonnement pour toutes les con-
traintes actives, d’où le résultat attendu: construction d’une suite qui montre
que w est une direction admissible puisque ce raisonnement est valable pour
tout δ ≤ δ0 .
La deuxième méthode correspond à la résolution locale du problème. Nous al-
lons faire la résolution des contraintes égalité au voisinage d’un point régulier.
Pour cela, on fixe un point u0 qui vérifie les contraintes, autour duquel nous
allons étudier le problème. Considérons F = V ect{(F10 (u0 ), ..., Fm 0 (u )}. On
0
utilise la projection orthogonale sur F . Alors à toutP point u de V on associe m
réels sj (u) et un élément π(u) de F ⊥ tels que u = j sj (u)Fj0 (u0 ) + π(u). Le
système
Fj (u) = 0, 1 ≤ j ≤ m
se réécrit, pour r ∈ F ⊥
X
Fj ( sk (u0 )Fk0 (u0 ) + π(u0 ) + r) = 0, 1 ≤ j ≤ m.
k

Comme les contraintes sont régulières on peut donc résoudre localement le

système X
Fj ( sk (u0 )Fk0 (u0 ) + r + π(u0 )) = 0, 1 ≤ j ≤ m.
k
On trouve alors sk (r), pour tout r ∈ F ⊥ , tel que u = sk (r)Fk0 (u) + r + π(u0 )
P
vérifie les m contraintes égalité, sachant que sk (0) = Sk (u0 ) pour tout k. On
se ramène donc au problème de minimisation sous contraintes de
X
˜ = J(
J(r) sk (r)Fk0 (u) + r + π(u0 ))

sous les contraintes inégalité Gp (r) = Fm+p ( m 0

P
k=1 sk (r)Fk (u) + r + π(u0 )) dans
l’espace F ⊥ .
Comme sk (r + εw) = sk (r) + ε(s0k (r), w) + o(ε), il est alors clair que
X X
(G0p (r), w) = (Fm+p
0
( sk (r)Fk0 (u) + r), w + (s0k (r), w)Fk0 (u))).
k k
2.4. MULTIPLICATEURS DE LAGRANGE 39

En excluant de notre propos les contraintes affines, nous supposons donc que
les contraintes Fm+p sont qualifiées, la direction de qualification étant w0 dans
F ⊥ . Nous allons trouver une direction w dans F ⊥ pour laquelle Gp forment des
contraintes qualifiées. On sait d’autre part que les identités, pour 1 ≤ j ≤ m,

Fj (u(r)) = 0
0
P
où u(r) = π(u0 ) + r + k sk (r)Fk (u) impliquent les relations
X
∀w ∈ F ⊥ , ∀j, 1 ≤ j ≤ m, (Fj0 (u(r)), Fk0 (u))(s0k (r), w) + (Fj0 (u(r)), w) = 0.
k

Pour r = 0, on vérifie que (Fj0 (u(r)), w) = (Fj0 (u), w) = 0, donc nous avons
l’égalité
X
∀w ∈ F ⊥ , ∀j, 1 ≤ j ≤ m, (Fj0 (u), Fk0 (u))(s0k (0), w) = 0.
k

Comme les contraintes sont régulières, le système ci-dessus, où les inconnues
sont (s0k (0), w), est inversible, homogène, donc sa solution est la solution nulle.
On trouve donc

∀w ∈ F ⊥ , ∀k, 1 ≤ k ≤ m, (s0k (0), w) = 0.

Nous cherchons à montrer que l’on peut écrire un critère de qualification en u.

Le point u0 correspond à r = 0 et à sk (0) = Sk (u0 ) comme nous l’avons vu plus
haut. On voit ainsi que, pour tout w ∈ F ⊥

(G0p (0), w) = (Fm+p

0
(u0 ), w)

car (s0k (0), w) = 0. Ainsi, on trouve que (G0p (0), w0 ) < 0. Les contraintes Gp
sont alors qualifiables en 0.
On peut alors appliquer le théorème des multiplicateurs de Lagrange: il existe
(λ1 , ..., λq ) positifs ou nuls tels que
X
J˜0 (0) + λp G0p (0) = 0. (2.4.6)
p

On contrôle alors que

s (r+εw)F 0 (u ))−J(u )
P
J(π(u )+r+εw+
(J˜0 (0), w) = limε→0 0 k k
ε
k 0 0

= (J (u0 ), w) + k (J (u0 ), Fk (u0 ))(sk (0), w) = (J 0 (u0 ), w).

0 0 0 0
P

On contrôle aussi que si on note F̃j (r) = Fj (u(r)), comme cette fonction est
identiquement nulle, la dérivée est nulle donc elle n’intervient pas dans l’écriture
de la relation des multiplicateurs de Lagrange. En revanche, si on veut revenir
aux fonctions Fj et Fm+p et exprimer le résultat (2.4.6) avec ces fonctions
ainsi qu’avec J, il est nécessaire d’introduire des multiplicateurs de Lagrange
supplémentaires comme nous allons le voir dans l’exemple qui suit.
Le problème correspondant en dimension finie fait aussi l’objet de la section
40 CHAPTER 2. EULER-LEGENDRE

6.4.5 dans la partie sur les algorithmes. Nous allons réécrire le problème dans
le cas où l’espace de base est IR3 , la condition de type égalité conduit à z =
φ(x, y), ou encore, notant F la constante, F (x, y, φ(x, y)) = 0. La fonctionnelle
à minimiser est J(x, y, z), la contrainte inégalité est h(x, y, z) ≤ 0. On réécrit
donc le problème sous la forme

infh(x,y,φ(x,y))≤0 J(x, y, φ(x, y)).

On suppose que la contrainte est active. On écrit le théorème des multiplicateurs

de Lagrange: ∃λ ≥ 0,
∂ J˜ ∂ h̃
∂x + λ ∂x = 0
∂ J˜ ∂ h̃
∂y + λ ∂y = 0
∂ J˜ ∂ h̃
Comme ∂x = ∂x J + ∂z J∂x φ, ∂x = ∂x h + ∂z h∂x φ, on trouve

∂x J + λ∂x h + (∂z J + λ∂z h)∂x φ = 0. (2.4.7)

On introduit alors µ tel que

∂z J + λ∂z h + µ∂z F = 0

On remarque que ∂x F + ∂z F ∂x φ = 0, donc

(∂z J + λ∂z h)∂x φ + µ∂x φ∂z F = 0

ou encore
(∂z J + λ∂z h)∂x φ = µ∂x F
On remplace cette identité dans l’égalité (2.4.7) pour obtenir

∂x J + λ∂x h + µ∂x F = 0.

On a de même
∂y J + λ∂y h + µ∂y F = 0
d’où l’égalité des multiplicateurs de Lagrange pour un problème mixte.

2.4.5 Le problème des entrepôts

On résout ici le problème de deux entrepôts et de deux lieux de livraison décrit
dans l’introduction. Les contraintes s’écrivent (on met à côté le multiplicateur
de Lagrange)
−vij ≤ 0 µij ≥ 0
v11 + v21 = r1 λ1
v12 + v22 = r2 λ2
s1 − v11 − v12 ≤ 0 µ1 ≥ 0
s2 − v21 − v22 ≤ 0 µ2 ≥ 0
On vérifie d’abord que, comme r1 r2 > 0, v11 et v21 ne sont pas nuls en même
temps, pareil pour v12 et pour v22 . De même avec s1 s2 > 0, on ne peut pas
avoir v11 et v12 nuls en même temps et v21 et v22 nuls en même temps (afin de
déterminer quelles sont les contraintes actives). On étudie les cas suivants
2.4. MULTIPLICATEURS DE LAGRANGE 41

1. aucun des vij n’est nul

2. v11 = v22 = 0 (auquel cas on connait v21 = r1 , v12 = r2 )

3. v12 = v21 = 0 (auquel cas on connait v11 = r1 , v22 = r2 )

4. v11 = 0 (d’où v21 = r1 )

5. v21 = 0 (d’où v11 = r1 )

6. v12 = 0 (d’où v22 = r2 )

7. v22 = 0 (d’où v12 = r2 )

Dans le premier cas, tous les µij sont nuls. Le système des multiplicateurs de
Lagrange (en supposant µ1 et µ2 non nuls, soit les égalités v11 + v12 = s1 ainsi
que v21 + v22 = s2 , ce qui donne s1 + s2 = r1 + r2 ) est


 c11 + λ1 − µ1 =0
c12 + λ2 − µ1 =0

c + λ1 − µ2 =0
 21


c22 + λ2 − µ2 =0

Ce système implique alors la condition c11 + c22 = c12 + c21 . Si cette condition
n’est pas vérifiée, on sait que l’hypothèse du premier cas est impossible.
Si cette condition est vérifiée, on écrit c12 − c22 = c11 − c21 , et on regarde la
fonction coût

φ = c11 v11 + c12 v12 + c21 v21 + c22 v22 = c21 r1 + c22 r2 + (c11 − c21 )v11 + (c12 − c22 )v12
= c21 r1 + c22 r2 + (c11 − c21 )(v11 + v12 ) = c11 r1 + c12 r2 + (c22 − c12 )(v21 + v22 )

Dans le cas où les deux conditions sont réalisées il vient que la fonction coût est
constante et vaut c11 r1 + c12 r2 + (c22 − c12 )s2 . Si on a l’égalité v11 + v12 = s1
et v21 + v22 > s2 . Alors µ2 = 0 et on a le système


 c11 + λ1 − µ1 = 0
c12 + λ2 − µ1 = 0

c + λ1 = 0
 21


c22 + λ2 = 0

On en tire µ1 = c11 − c21 = c12 − c22 (soit la même condition) et la fonction

coût est constante aussi. Sa valeur est alors c12 s1 + c21 r1 + c22 (r2 − s1 ).
Dans les cas 2 et 3, on connait toutes les inconnues, donc on calcule la valeur
de la fonction coût. Dans les cas suivants, on se ramène à une seule inconnue
(dans le cas 4 et 5 on prend v12 et dans les cas 6 et 7 on prend v11 ). La fonction
coût s’écrit alors a + bx, où x est l’inconnue et b est le coefficient dépendant des
cij . On n’a pas besoin du système des multiplicateurs de Lagrange dans ce cas
et il faut déterminer l’intervalle de variation de x. Le problème se ramène
donc à la comparaison de la valeur de la fonction coût sur le bord du
domaine (méthode du simplexe).
42 CHAPTER 2. EULER-LEGENDRE

2.4.6 Démonstration du lemme de Kantorovich

Le lemme de Kantorovich, qui sera utilisé dans l’étude de l’algorithme de
gradient à pas optimal (chapitre 6.4.2) consiste en l’étude du maximum de
(y,y)2
1 − (Ay,y)(A −1 y,y) afin de trouver le moins bon des taux de convergence possi-

bles pour cet algorithme. On étudie alors le problème de maximisation sans

contrainte de
(A−1 y, y)(Ay, y)
.
(y, y)2
Il est équivalent au problème de maximisation avec contrainte sur la fonction-
nelle (A−1 y, y)(Ay, y) sur |y| de norme 1, puisque la fonctionnelle du lemme de
Kantorovich est homogène d’ordre 0.
On doit donc calculer sur les vecteurs de norme 1
X X
sup( λp yp2 )( λ−1 2
p yp ).

On suppose pour simplifier que toutes les valeurs propres sont distinctes,
λ1 < λ2 < ... < λm .
On voit que l’égalité du multiplicateur de Lagrange s’écrit
X X
yj [λ−1
j ( λ p yp
2
) + λj ( λ−1 2
p yp ) + µ] = 0∀j.

On remarque d’abord que l’égalité x−1 a + xb = −µ a au plus deux solutions

x quand a et b sont non nuls. DoncPil existe au plus P deux valeurs distinctes de
j telles que yj 6= 0 (en notant a = 2
λp yp et b = −1 2
λp yp ).
Dans le cas où y = (δii0 ), on voit que la fonctionnelle vaut 1. On comparera
cette valeur à celle obtenue dans le cas où il y a deux valeurs possibles pour i,
pour lequel on a à étudier

λq λp
(λp yp2 + λq yq2 )(λ−1 2 −1 2 4 4
p yp + λq yq ) = yp + yq + ( + )yp2 yq2 .
λp λq

C’est une fonctionnelle concave, donc en prenant x = yp2 , on se ramène à f (x) =

λ λ
x2 + (1 − x)2 + ( λpq + λpq )x(1 − x), concave, qui est maximum pour x = 0.5. La
λ λ
valeur du maximum est alors 12 + 14 ( λpq + λpq ) et comme la fonction 21 + 14 (t + 1t )
est strictement croissante pour t ≥ 1, sa plus grande valeur est obtenue, dans
λ
l’hypothèse λp > λq , pour t = max λqp = λλmax
min
.
On remarque alors que cette valeur est plus grande que la valeur en t = 1,
qui est exactement 1, lorsque γ 6= 0.
Les deux seuls cas possibles sont alors
• un seul des yi est non nul, auquel cas on trouve 1 pour la valeur de la
fonctionnelle
• deux valeurs de yi sont non nulles, et on trouve le résultat précédent.
On remarque alors que la valeur obtenue dans le paragraphe précédent est
maximum si p = 1 et q = n, soit yj = 0 pour j 6= 0 et j 6= n, et y1 = ± √12 ,
yn = ± √12 .
On vérifie que la valeur de la dérivée seconde de f (x) est
2.4. MULTIPLICATEURS DE LAGRANGE 43

λq λp λq λp
f ”(x) = 2(2 − + ) = 2( − 1)( − 1)
λp λq λp λq
et comme si λp /λq est plus grand que 1, λq /λp est plus petit que 1 donc le
produit est négatif.
Ce calcul est aussi celui qui prouve que la valeur 1 est plus petite que
1 1 λq λp
2 + 4 ( λp + λq ).

2.4.7 Calcul de la constante optimale de Poincaré

On sait (voir chapitre sur les formulations variationnelles ??) que si u ∈ H01 (Ω)
et si Ω est un ouvert borné, alors il existe une constante Cp , appelée constante
de Poincaré, telle que
Z Z
2
|∇u| dx ≥ Cp |u|2 dx.
Ω Ω

Pour se souvenir de l’ordre, il est conseillé de se souvenir de l’égalité

Z x
u(x) = u0 (t)dt, u(0) = 0
0

et d’appliquer l’inégalité de Cauchy-Schwartz, qui donne (u(x))2 ≤ x||u0 ||2L2 ([0,1] ,

R1
d’où 0 (u(x))2 dx ≤ 21 ||u0 ||2L2 ([0,1] .
Trouver la meilleure constante Cp , c’est trouver la plus grande constante Cp .
Proposition 2.2 La meilleure constante de Poincaré est la plus petite valeur
propre de l’opérateur −∆ avec condition de Dirichlet nulle au bord.
Démonstration:
Contrôlons que
|∇u(x)|2 dx
R
J(u) = RΩ
2
Ω |u(x)| dx

est plus grande que Cp , donc nous cherchons le minimum de J. Trouver le

minimum de J est alors équivalent à trouver la solution de

infR |∇u|2 dx
Ω

2 dx
= 1 et u dans H01 (Ω). En effet, si on considère
R
sous la contrainte Ω |u|
1
la fonction v = uk , avec k = ( Ω |u|2 dx) 2 , elle Rvérifie Ω v 2 dx = 1. On
R R

considèreR donc la nouvelle fonctionnelle J∗ (u) = R Ω (∇u)2 dx et la contrainte

FR(u) = Ω u2 dx. On remarque que (J∗0 (u), w) = 2 ω ∇u∇wdx et (F 0 (u), w) =
2 Ω uwdx. Si u∗ est une solution du problème de minimisation de J∗ sous
contrainte F − 1 = 0, il existe λ réel tel que

∀w ∈ H01 (Ω), (J∗0 (u), w) + λ(F 0 (u), w) = 0.

Cette égalité se traduit

Z
∀w ∈ Ω (∇u∇w + λuw)dx = 0
Ω
44 CHAPTER 2. EULER-LEGENDRE

donc −∆u + λu = 0 dans D0 (Ω), donc λ est une valeur propre du Laplacien
avec condition de Dirichlet sur Ω. On a alors, pour ce u,
Z Z Z
J∗ (u) = (∇u) dx = − ∆uudx = −λ u2 dx = −λ.
2
Ω Ω

La proposition est démontrée.

Dans le cas particulier de l’intervalle √
[0, L], on voit √ que u00 = λu, donc si λ > 0 la
solution est une combinaison A cosh λx + B sinh λx, donc A = 0 puis B = 0.
Nécessairement, λ < 0, on note λ = −ω 2 , donc u(x) = A cos ωx + B sin ωx.
Comme u(0) = 0, A = 0, et comme u(L) = 0, B sin ωL = 0, donc ωL = nπ,
2 2 2
donc λ = − nLπ2 . La plus petite est alors Lπ 2 , qui est la constante de Poincaré
pour un segment.
Rappelons cependant que, si on ne souhaite pas R x obtenir la valeur optimale mais
0
une valeur, il suffit d’écrire u(x) = u(0) + 0 u (t)dt, utilisant u(0) = 0 on
trouve, après application de l’inégalité de Cauchy-Schwartz:
Z x
(u(x))2 ≤ x (u0 (t))2 dt.
0
RL 2
On a donc 0 (u(x))2 dx ≤ L2 ||u(||2L2 , inégalité améliorée si u(0) = u(L) = 0 en
divisant l’intervalle en [0, L2 ] et [ L2 , L] en ||u0 ||2L2 ≥ L82 ||u||2L2 .
Chapter 3

Calcul des variations,

lagrangien, hamiltonien.

3.1 Introduction et un peu d’histoire

Dans cette section, qui est à l’origine des théories des extrema et de calcul
des variations, on considère des fonctions d’un intervalle de IR dans un espace
de Hilbert H. Comme dans l’exemple 8 de l’introduction, il peut s’agir de la
trajectoire d’une particule, le paramètre important variant dans un intervalle
de IR étant le temps. Il peut aussi s’agir de l’équation d’une courbe dans le
plan Oxy, sous la forme y = y(x). Les notations employées sont extrêmement
variées, et nous les mettrons en relation. Alors on minimise un critère J, qui
s’appelle une intégrale d’action, sous une contrainte, qui peut être les points
origine et destination de la courbe, ou une contrainte de type commande sous
la forme inf J(x, u) où x est solution de ẋ = f (x, u, t). Il peut s’agir aussi
d’une contrainte R x2intégrale, comme une contrainte sur la longueur de la courbe
1
0 2
y = y(x): l = x1 (1 + (y ) ) 2 dx. Les résultats de ce chapitre sont très anciens;
ils forment la base du calcul classique des variations. Les méthodes que nous
verrons montrent en quel sens le mot “variations” doit être entendu.
En 1696, Leibniz a résolu le problème de la brachistochrone. Il faut
trouver la courbe qui réalise le minimum du temps de parcours entre deux points
(x1 , y1 ) et (x2 , y2 ) dans un même plan vertical lorsque le point matériel glissant
est soumis à la force de pesanteur. Ce problème avait été posé par J. Bernoulli1 .
Ce problème peut être facilement résolu car les contraintes peuvent être incluses
à une intégrale première. Cependant, après sa publication, des problèmes plus
géneraux ont été énoncés sous le nom général de problèmes isopérimétriques,
et on peut les résumer en “quelles sont les courbes de longueur donnée qui
entourent la plus grande surface?”. Le premier de ces problèmes est légendaire,
comme nous l’avons rappelé dans l’exemple 11 (Problème de Didon). En effet,
Didon, descendante des Troyens et fuyant sa cité après la chute de Troie, a
demandé à Jarbas, roi des terres africaines, la terre que pouvait recouvrir une
peau d’un bœuf. Ce roi, ne pensant pas à une quelconque astuce, accepta et
Didon découpa la peau d’un bœuf en de fines lanières, qu’elle attacha entre elles
1
Problema novum, ad cujus solitionem mathematici invitantur

45
46 CHAPTER 3. CALCUL DES VARIATIONS

(et si on suppose que la largeur de la lanière était d’un millimètre, la longueur

obtenue était donc de 1000S). Elle forma la plus grande surface enclose par
cette lanière s’appuyant sur la côte méditerranéenne, et fonda Carthage, la
grande rivale de Rome2 .
J. Bernoulli demanda à un de ses élèves, le mathématicien L. Euler, de
résoudre ce problème, ce qu’il fit en 17443 , par une méthode de série, suivi en
1755 par Lagrange, qui inventa la méthode classique de calcul des variations.
Continuant ses travaux, Lagrange introduisit ses multiplicateurs en 1797.

3.2 Problèmes isopérimétriques

3.2.1 Egalité d’Euler-Lagrange
On considère ici y(x) ∈ C 1 ([x1 , x2 ]), y(x1 ) = y1 , y(x2 ) = y2 et on cherche à
minimiser:
Z x2
I(y) = f (x, y, y 0 )dx
x1

où f est une fonction de classe C 2 (IR × H × H).

On suppose connue une famille de fonctions y(x, ε) telle que y(x1 , ε) =
y1 , y(x2 , ε) = y2 et y(x, 0) = y0 (x), solution à trouver du problème de min-
imisation. On suppose y ∈ C 2 ([x1 , x2 ] × [0, ε0 ]). On introduit la première
variation de y:

∂y
η(x, ε) = (x, ε)
∂ε
(ce qui explique le nom de calcul des variations). On se ramène donc à une
fonction de ε:

J(ε) = I(y(., ε)).

Une condition nécessaire pour que y0 soit une solution du problème de min-
imisation est la suivante:

J 0 (0) = 0.

Par application du théorème de dérivation sous le signe intégral, et en remar-

∂ ∂y
∂
quant que comme y est de classe C 2 , alors ∂ε (y 0 (x, ε)) = ∂x ( ∂ε (x, ε)) = η 0 (x, ε),
on obtient

Z x2
(∂y f (x, y0 (x), y00 (x)).η(x, 0) + ∂y0 f (x, y0 (x), y00 (x)).η 0 (x, 0))dx = 0. (3.2.1)
x1

2
Delenda Cartago est! (Caton)
3
Methodus inveniendi lineas curvas maximi minimive proprietate gaudentes, sive solutio
problematis isoperimetrici latissimo sensu accepti
3.2. PROBLÈMES ISOPÉRIMÉTRIQUES 47

Notons dans cette égalité comme dans l’écriture de f que l’on a considéré le
terme y 0 comme une variable indépendante de y et non comme la dérivée de y
par rapport à x.
On utilise alors la relation y(x1 , ε) = y1 , de sorte que, en dérivant par
rapport à ε, η(x1 , ε) = 0. De même, η(x2 , ε) = 0. On peut alors utiliser ces
conditions de bord pour effectuer une intégration par parties:

Z x2 Z x2
d
∂y0 f (x, y0 (x), y00 (x)).η 0 (x, 0)dx =− (∂y0 f (x, y0 (x), y00 (x))).η(x, 0)dx.
x1 x1 dx

En écrivant l’égalité (3.2.1) et en vérifiant qu’elle est vraie quelle que soit
la fonction η(x, 0) nulle en x1 et en x2 (pour s’en convaincre, il suffit d’écrire
y(x, ε) = y0 (x) + εg(x), où g est nulle aux deux bouts), on trouve l’équation
d’Euler-Lagrange:

d ∂f ∂f
( 0 (x, y0 (x), y00 (x))) = (x, y0 (x), y00 (x)). (3.2.2)
dx ∂y ∂y
Bien sûr, cette équation s’obtient facilement en utilisant le théorème 2.4
démontré dans le chapitre 2. Nous allons l’établir de deux façons distinctes.
Avant cela, cependant, donnons un résultat important lorsque f ne dépend que
des variables de position y et y 0 :

Lemme 3.1 Lorsque f ne dépend pas de x, une solution des équations d’Euler
vérifie l’égalité suivante:

d
y00 ∂y0 f (y0 , y00 ) − f (y0 , y00 )) = 0.

dx
Cette égalité donne une intégrale première.

La démonstration intuitive la plus facile est de voir comment varie l’action

lorsque l’intégrale d’action est minimale, soit
d 0 = ∂y f (y0 , y00 )y00 + ∂y0 f (y0 , y00 )y000
dx (f (y0 , y0 ))
d
= dx (∂y0 f (y0 , y00 ))y00 + ∂y0 f (y0 , y00 )y000
= dx (y00 ∂y0 f (y0 , y00 )).
d

3.2.2 Dérivée de Fréchet et de Gâteaux, inégalité d’Euler-Lagrange

Dans un premier temps, en vue d’appliquer le théorème 2.4 , nous allons calculer
la dérivée de Fréchet (qui existe puisque f est de classe C 2 ) de J. En fait, nous
allons calculer deux objets:
• le produit scalaire (J 0 (y0 ), w) pour w ∈ K(y0 ),
• la distribution J 0 (y0 ).
Le cône des directions admissibles K(y0 ) ⊂ H 1 (]x1 , x2 [) est l’ensemble des
w tels qu’il existe wn et en > 0 tels que en → 0 et wn → w et (y0 + en wn )
est dans l’espace des contraintes, soit y0 (x1 ) + en wn (x1 ) = y1 = y0 (x1 ) et
y0 (x2 ) + en wn (x2 ) = y2 = y0 (x2 ). Comme en > 0, on trouve que wn (x1 ) =
wn (x2 ) = 0. Comme les fonctions H 1 (]x1 , x2 [) sont continues aux bords x1 et
48 CHAPTER 3. CALCUL DES VARIATIONS

x2 , et que l’application trace est continue, on en déduit que w(x1 ) = w(x2 ) = 0.

Réciproquement, si w(x1 ) = w(x2 ) = 0, on construit y0 + n1 w qui vérifie bien
les contraintes.

K(y0 ) = H01 ([x1 , x2 ]).

Alors le calcul de (J 0 (y0 ), w), qui est le calcul de la limite

J(y0 + εw) − J(y0 )

lim
ε→0 ε
conduit exactement à

Z x2
∂f d ∂f
1
∀w ∈ H ([x0 , x1 ]), ( (x, y0 , y00 ) − ( (x, y0 (x), y00 (x))))w(x)dx ≥ 0
x1 ∂y dx ∂y 0

Le cône des directions admissibles est un espace vectoriel, donc cette inégalité
devient une égalité, et cette égalité entraine l’équation d’Euler-Lagrange.
D’autre part, pour w ∈ H 1 ([x1 , x2 ]), une intégration par parties conduit à

Rx
(J 0 (y0 ), w) = x12 ( ∂f 0 d ∂f 0
∂y (x, y0 , y0 ) − dx ( ∂y 0 (x, y0 (x), y0 (x))))w(x)dx
∂f 0 ∂f 0
+ ∂y 0 (x2 , y0 (x2 ), y0 (x2 ))w(x2 ) − ∂y 0 (x1 , y0 (x1 ), y0 (x1 ))w(x1 ).

En utilisant la distribution de Dirac (δx1 , w) = w(x1 ), on trouve

J 0 (y0 ) = ∂f 0 d ∂f 0
∂y (x, y0 , y0 ) − dx [ ∂y 0 (x, y0 (x), y0 (x))]
∂f 0 ∂f 0
+ ∂y 0 (x2 , y0 (x2 ), y0 (x2 ))δx2 − ∂y 0 (x1 , y0 (x1 ), y0 (x1 ))δx1 .

L’emploi des multiplicateurs de Lagrange pour des contraintes égalités, qui

sont respectivement F1 (y) = y(x1 ) − y1 et F2 (y) = y(x2 ) − y2 , ce qui donne
F10 (y0 ) = δx1 et F20 (y0 ) = δx2 , conduit à

J 0 (y0 ) + λ1 F10 (y0 ) + λ2 F20 (y0 ) = 0

(notons ici le rétablissement des signes permettant d’avoir la même formulation
pour les contraintes égalité et inégalité). On trouve alors l’équation d’Euler-
Lagrange et les égalités, qui donnent les multiplicateurs de Lagrange:

∂f ∂f
λ1 = (x1 , y0 (x1 ), y00 (x1 )), λ2 = − 0 (x2 , y0 (x2 ), y00 (x2 )). (3.2.3)
∂y 0 ∂y
Cette égalité aura une très jolie interprétation ci-dessous.

3.2.3 Egalité d’Euler-Lagrange pour une contrainte intégrale

Dans cette section, nous cherchons la solution de
Z x2
inf f (x, y, y 0 )dx
x1
3.2. PROBLÈMES ISOPÉRIMÉTRIQUES 49

R x2
sous les contraintes x1 g(x, y, y 0 )dx = C, y(x1 ) = y1 , y(x2 ) = y2 . Le cas modèle
1
est le problème de Didon: f (x, y, y 0 ) = y et g(x, y, y 0 ) = (1 + (y 0 )2 ) 2 .
Une méthode usuelle classique consiste Rà employer une double variation,
x
c’est-à-dire à tenir compte de la contrainte x12 g(x, y, y 0 )dx = C en ajoutant à
une première variation y0 + εη1 une deuxième variation faite pour la contrebal-
ancer:

y0 + ε1 η1 + ε2 η2 .
On introduit dans η1 et η2 les contraintes
R x2 d’extrémité sous laRforme ηi (xj ) =
x
0, i, j = 1, 2.On écrit alors que I = x1 f (x, y, y 0 )dx et C = x12 g(x, y, y 0 )dx
sont deux fonctions de ε1 et de ε2 , et on forme
!
∂I ∂I
∆(ε1 , ε2 ) = ∂ε1 ∂ε2 .
∂C ∂C
∂ε1 ∂ε2

Ce déterminant doit être nul pour y0 , solution, en ε1 , ε2 . En effet, si ∆ 6= 0,

il est clair que le couple (I, C) ne stationne pas, alors que par hypotèse C est
constant donc stationne et I stationne (noter l’emploi du mot “stationne”). Par
intégration par parties, on trouve

R x2 R x2 !
d d
(∂ f − dx (∂y f ))η1 dx
0 (∂ f − dx (∂y f ))η2 dx
0
∆(ε1 , ε2 ) = Rxx12 y d
Rxx12 y d .
x1 (∂y g − dx (∂y g))η1 dx x1 (∂y g − dx (∂y g))η2 dx
0 0

Rx d
Rx
On note les deux réels λ1 = x12 (∂y f − dx (∂y0 f ))η2 dx et λ2 = x12 (∂y g −
d
dx (∂y g))η2 dx. Si les deux réels sont nuls pour tous les choix de η2 , cela veut
0

dire que f et g vérifient tous deux l’équation d’Euler. Nous verrons ce cas plus
tard. Sinon, on note, pour un η2 donné non nul, que, pour tout η1 :
Z x2
d d
[λ2 (∂y f − (∂y0 f )) − λ1 (∂y g − (∂y0 g))]η1 dx = 0
x1 dx dx
ce qui donne l’existence d’un h = f + λg tel que h vérifie l’équation d’Euler.
Lorsque f et g vérifient toutes deux l’équation d’Euler, alors cette équation est
vérifiée quel que soit λ.
A l’évidence, cette méthode est celle que l’on emploie pour les multiplica-
teurs de Lagrange. On écrit ainsi l’existence de λ, λ1 , λ2 tels que

J 0 (y0 ) + λC 0 (y0 ) + λ1 F10 (y0 ) + λ2 F20 (y0 ) = 0

(par application du théorème 2.5). Ainsi on trouve immédiatement, sans avoir
besoin de considérer des variations qui se compensent:
d d
∂y f − dx (∂y0 f ) + λ(∂y g − dx (∂y0 g))
+(λ1 − ∂y f (x1 , y1 , y0 (x1 )) − λ∂y g(x1 , y1 , y00 (x1 )))δx1
0

+(λ2 + ∂y f (x2 , y2 , y00 (x2 )) + λ∂y g(x2 , y2 , y00 (x2 )))δx2 = 0.

1
L’écriture de l’équation d’Euler pour −y + λ(1 + (y 0 )2 ) 2 donne
50 CHAPTER 3. CALCUL DES VARIATIONS

d y0
1= (λ )
dx (1 + (y 0 )2 ) 21
soit encore

y0 x
1 = .
(1 + (y 0 )2 ) 2 λ

On obtient y 0 = ± x
1 , dont la solution s’écrit
(λ2 −x2 ) 2
1
y(x) = y(x1 ) ± (λ2 − x2 ) 2 .
1 1
On suppose y1 < y2 , donc y(x) = y1 +(λ2 −x21 ) 2 −(λ2 −x2 ) 2 car y(x1 ) = y1 .
1 1
On identifie λ en écrivant y(x2 ) = y2 , soit (λ − x22 ) 2 − (λ − x21 ) 2 = y1 − y2 , ce qui
1 1
permet de trouver les valeurs de (λ2 −x22 ) 2 et (λ2 −x21 ) 2 . Lorsque y1 = y2 = 0, on
trouve un demi-cercle de rayon R et l’aire est πR2 , correspondant à R = 1000S 2π .

3.2.4 Les problèmes de Bolza

On peut aussi vouloir inclure les contraintes dans la fonctionnelle à minimiser.
La classe de problèmes correspondants s’écrit
Z x2
inf[ f (x, y, y 0 )dx + l(y(x1 ), y(x2 ))].
x1

Il est clair que l’on obtient l’équation d’Euler:

d ∂f ∂f
( 0 (x, y0 , y00 )) = (x, y0 , y00 )
dx ∂y ∂y
et les équations sur les contraintes

∂u1 l(y(x1 ), y(x2 )) = ∂y0 f (x1 , y(x1 ), y 0 (x1 ))

∂u2 l(y(x1 ), y(x2 )) = −∂y0 f (x2 , y(x2 ), y 0 (x2 )).

Prenons un exemple simple pour le problème de Bolza:

1
lε (u1 , u2 ) = [(u1 − y1 )2 + (u2 − y2 )2 ].
ε
Rx
Soit y0 la solution du problème de minimisation de J(y) = x12 f (x, y, y 0 )dx
avec les contraintes y(x1 ) = y1 , y(x2 ) = y2 . Si K = {y, y(x1 ) = y1 , y(x2 ) = y2 },
alors, pour tout y ∈ K, J(y) + lε (y(x1 ) − y1 , y(x2 ) − y2 ) = J(y). On utilise alors

inf J(y) + lε (y(x1 ) − y1 , y(x2 ) − y2 ) ≤ inf J(y) = J(y0 ).

y∈H 1 y∈K

On note la solution du problème de Bolza yε . Ainsi

J(yε ) + lε (yε (x1 ) − y1 , yε (x2 ) − y2 ) ≤ J(y0 )

3.3. LES ÉQUATIONS D’EULER POUR LES PROBLÈMES DE LA MÉCANIQUE51

Ainsi J(yε ) est majoré. De plus, si on suppose f positive, lε (yε (x1 )−y1 , yε (x2 )−
y2 ) est majorée par J(y0 ). On en déduit que la suite (yε (xj )) converge vers
yj , j = 1..2. En revanche, on ne sait rien sur la convergence de la suite yε
dans ce cadre là. Il faut se reporter au chapitre concernant le programme
convexe pour comprendre et obtenir des résultats convaincants; cela s’appellera
la pénalisation des contraintes.

3.3 Les équations d’Euler pour les problèmes de la

mécanique
On considère un problème de la mécanique du point, ainsi on introduit les
coordonnées (x, y, z) et on veut retrouver mẌ = f~ lorsque m est la masse
de la particule, X = (x, y, z) et f~ = −∇U est la force dérivant d’un potentiel.
Analysons d’abord le phénomène. Il est classique de reconnaitre, en multipliant
les équations par Ẋ et en inégrant sur 0, T , que
1 1
m(Ẋ(T ))2 + U (X(T )) = m(Ẋ(0))2 + U (X(0)).
2 2
Cette égalité s’écrit comme la conservation de l’énergie. Ce n’est pas celle ci
que l’on souhaite obtenir, mais on cherche à interpréter le problème comme la
solution d’une équation d’Euler. Il faut donc que mẌ = f~ s’écrive dt d ∂L
( ∂ Ẋ ) =
∂L
∂X , où L est l’action que nous avons notée f dans le paragraphe précédent.
Pour cela, il serait simple d’avoir ∂∂LẊ
= mẊ et ∂X∂L
= −∇U . Une solution à
variables séparées est alors
1
A(X, Ẋ) = m(Ẋ)2 − U (X).
2
On vérifie que l’équation d’Euler dans ce cas est bien l’équation dite loi de
Newton.
Nous pouvons présenter autrement ce résultat. L’intégrale première du mou-
vement est à la fois Ẋ partialL
∂ Ẋ
− L et 12 m(Ẋ)2 + U (X). En égalant les deux
2
quantités et en dérivant par rapport à Ẋ, on trouve que ∂∂ẊL2 = m, donc
A = 12 m(Ẋ)2 + K(X)Ẋ + R(X). En remplaçant cette relation dans l’intégrale
première du mouvement,
Rt on vérifie que R(X) = −U (X) et que K est quel-
conque. Comme t01 K(q(t))q 0 (t)dt = 0 à cause des conditions aux limites, on
voit que ce terme n’intervient pas dans l’action. On en déduit que
La solution des équations du mouvement d’une particule dans un
champ de forces conservatif, c’est-à-dire dérivant d’un potentiel, est
la fonction qui minimise l’intégrale d’action

Z t1 Z t1 Z t1
1
A(X) = [ m(Ẋ(t))2 − U (X(t))]dt = (T − U )dt = L(q(t), q 0 (t))dt.
t0 2 t0 t0

On a noté ici l’énergie cinétique T = 21 m(Ẋ(t))2 .

Nous finissons ce paragraphe en calculant les multiplicateurs de Lagrange as-
sociés aux deux contraintes aux bouts et en donnant l’interprétation de ces
52 CHAPTER 3. CALCUL DES VARIATIONS

multiplicateurs de Lagrange.
˙ −
Si ξ est un élément de l’espace H 1 (]t0 , t1 [), le calcul de 1ε [L(q0 + εξ, q̇0 + εξ)
0 0
L(q0 , q̇0 )] conduit à l’expression ((L (q0 , q̇0 ), ξ) =< L (q0 , q̇0 ), ξ(t) >)

d
L0 (q0 , q̇0 ) = ∂q L(q0 , q̇0 ) − [∂q̇ L(q0 , q̇0 )] + ∂q̇ L(q0 , q̇0 )(t1 )δt1 − ∂q̇ L(q0 , q̇0 )(t0 )δt0 .
dt
La théorie des multiplicateurs de Lagrange avec q(t0 ) = q0 , q(t1 ) = q1 donne
alors immédiatement le système
d


 ∂q L(q0 , q̇0 ) − dt [∂q̇ L(q0 , q̇0 )] = 0 (équation d’Euler)
q0 (t0 ) = q0 , q0 (t1 ) = q1 (contraintes actives)

λ = −∂q̇ L(q0 , q̇0 )(t1 )
 1


λ0 = ∂q̇ L(q0 , q̇0 )(t0 )
L’écriture des deux premières égalités permet d’avoir les conditions d’extrémité
et l’équation de Newton. Les deux dernières donnent les multiplicateurs de
Lagrange. On obtient

λ1 = −mq̇0 (t1 ), λ0 = mq̇0 (t0 ).

On interprète alors les multiplicateurs de Lagrange comme les quantités de
mouvement aux extrémités de la courbe. On verra que la quantité de mouve-
ment (ou l’impulsion) joue un rôle particulier ci-dessous.

3.4 Formulation hamiltonienne

Le but de cette section est d’obtenir un système d’équations différentielles or-
dinaires permettant de calculer la solution de l’équation d’Euler (3.2.2). Les
résultats sont résumés dans la Proposition ??. La quantité q̇0 ∂q̇ L(q0 , q̇0 ) −
L(q0 , q̇0 ) se conserve. Généralisons en nemplaçant la quantité ∂q̇ L(q0 , q̇0 ) par
p(t). On étudie ainsi la quantité q̇(t)p(t) − L(q(t), q̇(t)). Cette quantité a pour
dérivée

q̈(p − ∂q̇ L) + q̇(ṗ − ∂q L),

expression nulle lorsque p = ∂q̇ L et ṗ = ∂q L. Ceci implique que q est solution
de l’équation d’Euler. D’autre part, la maximisation de q̃p − L(q, q̃) dans le cas
L convexe en q̃ conduit à la première égalité p = ∂q̇ L(q, q̃).
Par définition, la quantité H donnée par

H(t, q, p) = max(q̃p − L(t, q, q̃)).

q̃

s’appelle la transformée de Legendre de L.

On vérifie que si la matrice hessienne de L en q̃ au point (q, q̃) est définie positive
(au voisinage de (q0 , q̇0 )), l’équation p = ∂q̃ L(t, q, q̃) admet une solution unique
par le théorème des fonctions implicites, que l’on note Q(t, q, p). On vérifie
alors
3.4. FORMULATION HAMILTONIENNE 53

H(t, q, p) = pQ(q, p) − L(t, q, Q(q, p)).

On en déduit

∂q H(t, q, p) = (p − ∂q̃ L(t, q, Q(q, p))).∂q Q(t, q, p) − ∂q L(t, q, Q(q, p)) = −∂q L(t, q, Q(q, p))
∂p H(t, q, p) = Q(t, q, p) + (p − ∂q̃ L(t, q, Q(q, p))).∂p Q(t, q, p) = Q(t, q, p).

∂L
Par unicité de la solution de l’équation p = ∂q̃ L, que pour p(t) = ∂ q̃ (t, q0 (t), q̇0 (t)),
alors Q(t, q0 (t), p(t)) = q̇0 (t), soit

∂L
Q(t, q0 (t), (t, q0 (t), q̇0 (t))) = q̇0 (t).
∂ q̃
On en tire que, pour toute fonction q0 (t), on a l’identité

∂L
∂p H(t, q0 (t), (t, q0 (t), q̇0 (t))) = q̇0 (t).
∂ q̃
Maintenant, si q0 est solution de l’équation d’Euler, on trouve

d ∂L ∂L
( (t, q0 (t), q̇0 (t))) = (t, q0 (t), q̇0 (t)),
dt ∂ q̃ ∂q
soit

d ∂L ∂L
( (t, q0 (t), q̇0 (t))) = −∂q H(t, q0 (t), (t, q0 (t), q̇0 (t))).
dt ∂ q̃ ∂ q̃
On en déduit le système, appelé système hamiltonien:
(
dp ∂H
dt = − ∂q (t, q0 (t), p(t))
dq0 ∂H
dt = ∂p (t, q0 (t), p(t))

On a ainsi transformé l’équation d’Euler, du second ordre, en un

système d’équation du premier ordre, appelé système hamiltonien.
Lorsque, de plus, L ne dépend pas de t, alors H ne dépend pas de t et on
sait que H(q0 (t), p(t)) = H(q0 (t0 ), p(t0 )).
L’hamiltonien est une intégrale première du système hamiltonien.
Réciproquement, soit H(t, q, p) l’hamiltonien associé à L(t, q, p) lorsque ∂q̃22 L >
0. La solution du système hamiltonien (q(t), p(t)) permet de construire q̇(t) par
la première équation du système hamiltonien, qui est q̇(t) = q̃(t), où q̃(t) est
la solution de p(t) = ∂q̃ L(t, q(t), q̃(t)) et la dexième équation permet de vérifier
que

d
(∂q̃ L(t, q(t), q̇(t)) = ∂p L(t, q(t), q̇(t)).
dt
On a démontré la proposition suivante, dans le cas où L est une fonction stricte-
ment convexe dans les variables (q, q̃):
54 CHAPTER 3. CALCUL DES VARIATIONS

Proposition 3.1 labelprop:hamiltonien On introduit le hamiltonien, fonc-

tionnelle sur IR × IRd × IRd , par

H(t, q, p) = max(pq̃ − L(t, q, q̃)).

q̃

Dire que le couple de fonctions de IR dans IRd (q0 (t), p0 (t)) est solution du
système hamiltonien

∂H
 q̇0 (t) = ∂p (t, q0 (t), p0 (t))

ṗ0 (t) = − ∂H
∂q (t, q0 (t), p0 (t))

 p (0) = p , q (0) = q
0 0 0 0

équivaut à dire que

la fonction q0 (t) est solution de l’équation d’Euler

d ∂L ∂L
( (t, q0 (t), q̇0 (t))) = (t, q0 (t), q̇0 (t))
dt ∂ q̃ ∂q
avec les conditions initiales q0 (0) = q0 , q̇0 (0) = q̃0 , où q̃0 est la solution de
p0 = ∂L
∂ q̃ (t, q0 , q̃0 ).

Remarque 1 Dans le cas de la mécanique du point L(t, q, q̃) = 12 m(q̃)2 −U (q)

2
ce qui donne p = mq̃ et ainsi H(t, q, p) = 12 pm +U (q). Apparait dans cette égalité
l’énergie qui est l’hamiltonien, et la quantité de mouvement p qui est égale à
mq̃.

Remarque 2 Ce système hamiltonien est très couramment utilisé en optique,

mais il faut modifier pour cela la formulation de l’exemple 12 de l’introduction.
En effet, l’équation d’Euler devient alors

d y 0 (x) 0 2 12 ∂y c
( 1 ) = −(1 + (y (x)) ) (3.4.4)
dx c(x, y(x))(1 + (y 0 (x))2 ) 2 c2
d’où on déduit

y”(x) 1 y 0 (x)
3 + 1 ∂x c = 1 .
c(x, y(x))(1 + (y 0 (x))2 ) 2 c2 (1 + (y 0 (x))2 ) 2 c2 (1 + (y 0 (x))2 ) 2

On en déduit donc

d 1 0 2 21 ∂x c
( 1 = −(1 + (y (x)) ) . (3.4.5)
dx c(x, y(x))(1 + (y 0 (x))2 ) 2 c2
~
Les deux relations (3.4.5) et (3.4.4) expriment que ct a sa dérivée qui suit le
gradient de 1c , les rayons suivent le gradient de l’indice.
1
0 2 2
D’autre part, le hamiltonien équivalent au lagrangien (1+(y ) )
c(x,y(x)) ne peut pas
être calculé, car le lagrangien n’est pas strictement convexe.
3.4. FORMULATION HAMILTONIENNE 55

Pour se ramener à un lagrangien strictement convexe, on considère que le

1
(1+(y 0 )2 ) 2
terme c(x,y(x)) est un double produit, donc on a

1 1
(1 + (y 0 )2 ) 2 1 w (1 + (y 0 )2 ) 2 2 w2 1 + (y 0 )2
= [−( − ) + 2 + ].
c(x, y(x)) 2 c(x, y) w c w2
q̇ 2 +q̇ 2 2
Nous allons faire le raisonnement sur Lw (q1 , q2 , q̇1 , q̇2 ) = 1w2 2 + c2 (qw1 ,q2 ) . En
effet, Lw (q1 , q2 , q̇1 , q̇2 ) ≥ Lw0 (q1 , q2 , q̇1 , q̇2 ) pour w0 qui réalise le minimum en
1
w, c’est à dire w02 = c(q̇12 + q̇22 ) 2 . Dans ce cas on sait que d’une part
1
t2 t2
(q̇12 + q̇22 ) 2
Z Z
inf Lw (q1 , q2 , q̇1 , q̇2 )dt = inf dt
t1 t1 c(q1 , q2 )
et d’autre part
Z t2 Z t2
inf Lw (q1 , q2 , q̇1 , q̇2 )dt = inf Lw0 (q1 , q2 , q̇1 , q̇2 )dt
t1 t1

Ceci est une forme abstraite pour dire, dans le cas qui nous intéresse que
1
t2 t2
(q̇12 + q̇22 ) 2 q̇12 + q̇22
Z Z
1
inf dt = inf ( + 1)dt
t1 c(q1 , q2 ) 2 t1 c2 (q1 , q2 )
Pour ce nouveau lagrangien

1 ẋ2 + ẏ 2
L(x, y, ẋ, ẏ) = ( + 1)
2 c2
le hamiltonien est H(x, y, p, q) = 12 ((p2 + q 2 )c2 − 1). Ses courbes intégrales sont

dx 2
ds = pc


 dy

= qc2 ds
dp

 ds = −c∂x c(p2 + q 2 )
dq
= −c∂y c(p2 + q 2 )


ds

Il est constant sur les courbes bicaractéristiques. Si les données initiales sont
telles que le hamiltonien soit nul, on trouve que p2 + q 2 = c12 . On choisit le
changement d’abscisse curviligne donné par du = c(x(s), y(s))ds, alors
 dx p
 du = 2 2 12

 (p +q )
 dy =
 q
du 1
(p2 +q 2 ) 2
 dp
 = ∂x 1c
 du


dq 1
du = ∂y c .
Le vecteur d’onde suit les courbes intégrales du gradient d’indice. Ceci corre-
spond à une théorie d’optique géométrique, comme cela avait été vu ci-dessus
.
56 CHAPTER 3. CALCUL DES VARIATIONS
Chapter 4

Programme convexe

4.1 Fonctions convexes

Nous voyons dans ce chapitre une application très importante des calculs précédents,
dans la droite ligne des exemples 1, 2, 5, 13, 14, 15. Il s’agit du cas où J est
convexe et où les contraintes sont convexes. Cette partie de l’analyse fonction-
nelle est importante, car dans ce cas les conditions nécessaires et les conditions
suffisantes d’optimalité deviennent des caractérisations des points d’extremum.
Nous avons déjà vu dans l’exemple que l’ensemble des points de minimum
global d’une fonctionnelle convexe forment un ensemble convexe. Nous allons
préciser les choses ici, par des définitions et par un résultat

Définition 4.1 Soit K un ensemble convexe non vide (c’est-à-dire vérifiant,

pour tout u, v dans K et tout réel β de [0, 1], βu + (1 − β)v ∈ K.) On dit que
la fonction J définie sur K est une fonction convexe si et seulement si on a

∀β ∈ [0, 1], ∀(u, v) ∈ K 2 , J(βu + (1 − β)v) ≤ βJ(u) + (1 − β)J(v).

La fonctionnelle J est strictement convexe si l’inégalité précédente est stricte

pour β ∈]0, 1[ et u 6= v.
La fonctionnelle J est dite α−convexe lorsque
u+v J(u) + J(v) α
J( )≤ − ||u − v||2
2 2 8
Lemme 4.1 Si J est α−convexe et continue, elle est strictement convexe. De
plus,
αθ(1 − θ)
J(θu + (1 − θ)v) ≤ θJ(u) + (1 − θ)J(v) − ||u − v||2 .
2

Preuve On effectue d’abord un raisonnement par récurrence pour démontrer,

pour tout n ≥ 1, pour tout p ≤ 2n , l’inégalité pour θ = 2pn . Pour cela, on écrit,
pour p ≥ 2n−1
p−2n−1 2n −p
pu + (2n − p)v u 2n−1
u + 2n−1
v
= +
2n 2 2

57
58 CHAPTER 4. PROGRAMME CONVEXE

et on fait l’hypothèse de récurrence sur l’indice n − 1, pour tout p. Ainsi on a

pu + (2n − p)v 1 p − 2n−1 2n − p α p − 2n−1 2n − p

J( ) ≤ (J(u)+J( u+ v))− || u+ v−u||2 .
2n 2 2n−1 2n−1 2 2n−1 2n−1
Appliquant l’hypothèse de récurrence, il vient
n n−1 n n−1 2n −p
J( pu+(22n −p)v ) ≤ 12 (J(u) + p−2 2n−1n
−p
J(u) + 22n−1 J(v)) − 14 α p−2
2n−1 2n−1
||v − u||2
n−1 2 −p
− α8 || p−2
2n−1 u + 2 n−1 v − u||2.

n
Le premier terme est alors égal à 2pn J(u) + 2 2−p n J(v). Le second terme est
n −p
ainsi α8 22n−1 p
||u − v||2 , et est donc égal à α p 2n −p ||u − v||2 . Le cas p < 2n−1
2n−1 2 2n 2n
se traite en échangeant les rôles de u et de v. L’inégalité est démontrée pour θ
de la forme 2pn , puisque pour n − 1, on a p = 0 ou p = 1.
Pour la démontrer Pi=npour θ quelconque, on utilise le fait que, pour tout n,
αi 1
il existe θn égal à i=1 2i tel que αi (θ) ∈ {0, 1} et tel que |θ − θn | ≤ 2n
(développement binaire).
On a, pour tout n

αθn (1 − θn )
J(θn u + (1 − θn )v) ≤ θn J(u) + (1 − θn )J(v) − ||u − v||2 .
2
La limite des deux membres existe, car J est continue, ainsi on a

αθ(1 − θ)
J(θu + (1 − θ)v) ≤ θJ(u) + (1 − θ)J(v) − ||v − u||2 .
2
Le lemme est démontré, et on vérifie la stricte convexité sans souci.
La relation entre les fonctionnelles convexes et les problèmes de minimisation
est la suivante:

Proposition 4.1 Soit J une fonctionnelle convexe sur un ensemble convexe

K. Tout point de minimum local est un point de minimum global, et les points
de minimum forment un ensemble convexe. Cet ensemble convexe est réduit à
un point lorsque J est strictement convexe

Soit u un point de minimum local. Pour v ∈ K, et pour θ petit, u + θ(v − u)

est dans un voisinage de u, et donc, pour 0 < θ < θ0 , J(u+θ(v −u)) ≥ J(u). De
l’inégalité J(u + θ(v − u)) ≤ (1 − θ)J(u) + θJ(v), on déduit que J(v) − J(u) ≥ 0,
et donc u est un minimum global. On a déjà montré que si deux points étaient
minimum global, alors tout le segment l’était, grâce à J(u) ≤ J(θu+(1−θ)v) ≤
θJ(u) + (1 − θ)J(v) = J(u). Enfin, si u et v sont deux minima globaux distincts
et si J est strictement convexe,

u+v 1
J( ) < (J(u) + J(v)) = J(u)
2 2
ce qui est impossible.
On écrit ensuite des propriétés des fonctions convexes dérivables. On a la
4.1. FONCTIONS CONVEXES 59

Proposition 4.2 Soit J une application différentiable. Il est équivalent de dire

(i) la fonctionnelle J est convexe
(ii) Pour tous (u, v) dans V , J(v) ≥ J(u) + (J 0 (u), v − u)
(iii) Pour tous (u, v) (J 0 (u) − J 0 (v), u − v) ≥ 0.
De même on caractérise l’α−convexité par
α
J(v) ≥ J(u) + (J 0 (u), v − u) + ||v − u||2
2
ou par

(J 0 (u) − J 0 (v), u − v) ≥ α||u − v||2 .

(iv) Si de plus, J est deux fois différentiable, on a le résultat suivant:
(i) équivalent à

∀w ∈ H, (J 00 (u)w, w) ≥ α||w||2 .

Preuve Lorsque J est α−convexe, on a

α
J(u + θ(v − u)) ≤ J(u) + θ(J(v) − J(u)) − θ(1 − θ)||u − v||2 .
2
Ainsi

J(u + θh) − J(u) α

≤ J(u + h) − J(u) − (1 − θ)||h||2 .
θ 2
Passant à la limite en θ → 0, on trouve la première inégalité.
Ensuite, lorsque la première inégalité est vérifiée, on l’écrit pour u et pour
v:
α
J(v) ≥ J(u) + (J 0 (u), v − u) + ||v − u||2
2
α
J(u) ≥ J(v) + (J 0 (v), u − v) + ||v − u||2
2
et on les additionne pour trouver la deuxième inégalité.
Enfin, considèrant u vérifiant la deuxième inégalité, on veut étudier φ(t) =
J(tu + (1 − t)v).
On voit que φ0 (t) = J 0 (tu + (1 − t)v), u − v). On en déduit φ0 (t) − φ0 (s) =
J (tu + (1 − t)v), u − v) − J 0 (su + (1 − s)v), u − v) = t−s
0 1
[J 0 (tu + (1 − t)v −
J 0 (su + (1 − s)v), tu + (1 − t)v − su − (1 − s)v)]. Lorsque t ≥ s, on trouve bien
φ0 (t) − φ0 (s) ≥ α||v − u||2 (t − s). Intégrant de s = 0 à s = 12 et de t = 21 à t = 1,
on trouve

Z 1
1 1 1 1 α
[φ(1) − 2φ( ) + φ(0)] ≥ α||u − v||2 [ t − ]dt = ||u − v||2 .
2 2 1 2 8 8
2

On a donc l’inégalité d’α−convexité. Les caractérisations d’α−convexité sont

obtenues.
60 CHAPTER 4. PROGRAMME CONVEXE

D’autre part, on note que dans le cas α = 0 on a φ0 (t) − φ0 (s) ≥ 0 si t ≥ s.

R1 Rθ
Ainsi on trouve θ dt 0 ds(φ0 (t) − φ0 (s))ds = θφ(1) + (1 − θ)φ(0) − φ(θ) et c’est
un réel positif. On a la convexité. Le raisonnement précédent est valable pour
(i) ⇒ (ii) ⇒ (iii) ⇒ (i). On note finalement que la convexité et l’α−convexité
sont aussi caractérisées, pour le cas simple de J deux fois différentiable, par
(J 00 (u)w, w) ≥ 0 et par (J 00 (u)w, w) ≥ α(w, w).

4.1.1 Compléments et extensions

On peut définir un espace convexe simple à partir de J fonctionnelle convexe:
il s’appelle l’épigraphe.

Définition 4.2 On appelle épigraphe de J fonctionnelle convexe sur un con-

vexe K l’espace Epi(J) des {(λ, v), v ∈ K, λ ≥ J(v)}. C’est un convexe.

On vérifie que si (λ, v) et (µ, w) sont dans Epi(J), alors pour 0 ≤ θ ≤ 1 on a

J(θv+(1−θ)w) ≤ θJ(v)+(1−θ)J(w) ≤ θλ+(1−θ)µ donc θ(λ, v)+(1−θ)(µ, w)
est dans Epi(J).
On remarque aussi que si J(v) ≤ a pour tout a valeur d’adhérence de la
suite J(vn ), alors on a (λ, v) qui est dans l’épigraphe, et l’épigraphe est fermé.
Lemme 4.2 Si, pour tout v, on a

J(v) ≤ inf{a, a valeur d’adhérence de toute suite J(vn ), vn → v},

alors l’épigraphe de J est fermé. Toute fonction dont l’épigraphe est fermé est
semi-continue inférieurement (on le note f s.c.i.).
Notons en particulier que la démonstration de la relation sur la convexité
(J(θu + (1 − θ)v) ≤ θJ(u) + (1 − θ)J(v)) est vraie dès que J est s.c.i.
On a aussi le résultat:
Proposition 4.3 Si J est convexe continue sur K convexe fermé non vide,
il existe une forme linéaire continue L et une constante δ telles que J(v) ≥
L(v) + δ. Si J est α−convexe, on a J(v) ≥ α8 ||v||2 − C

Preuve Si J est convexe continu, son épigraphe est convexe fermé non vide.
Démontrons qu’il est fermé. Soit (λn , vn ) une suite de points de l’épigraphe
qui converge vers (λ, v) dans l’espace de Hilbert IR × V muni de la norme
1
(λ2 + ||v||2 ) 2 . On vérifie que

λn ≥ J(vn ). (4.1.1)
Soit, si J(vφ(n) ) tend vers a, on en déduit que λ ≥ a. Bien sûr, comme J
est continue, a = J(v). Soit v0 ∈ K et λ0 < J(v0 ). On note p0 = (λ0 , v0 ). Il est
à l’extérieur de l’épigraphe et on désigne sa projection sur l’épigraphe Epi(J)
par p∗ = (λ∗ , w0 ).
On montre d’abord λ∗ = J(w0 ).
Comme la projection réalise le minimum de la distance, on a ∀(λ, v), λ ≥ J(v),
c’est-à-dire (λ − λ0 )2 + (v − v0 )2 ≥ (λ∗ − λ0 )2 + (w0 − v0 )2 .
4.1. FONCTIONS CONVEXES 61

On choisit v = w0 , auquel cas pour λ ≥ J(w0 ) on a (λ − λ0 )2 ≥ (λ∗ − λ0 )2 .

On sait que λ∗ ≥ J(w0 ).
• Si J(w0 ) ≥ λ0 , on trouve λ ≥ J(w0 ) ⇒ λ ≥ λ0 , donc λ ≥ λ∗ pour λ ≥ J(w0 )
et on en déduit J(w0 ) ≥ λ∗ et comme (λ∗ , w0 ) est dans l’épigraphe, λ∗ = J(w0 ).
• Si J(w0 ) < λ0 , le point (λ0 , w0 ) est dans l’épigraphe, donc on trouve (λ∗ −
λ0 )2 ≤ 0, donc λ∗ = λ0 .
Dans le cas où J est continue, il existe θ tel que J(θv0 + (1 − θ)w0 ) = λ0 ,
puisque J(v0 ) < λ0 < J(w0 ). Alors, pour ce θ, on trouve

(1 − θ)2 (v0 − w0 )2 ≥ (v0 − w0 )2

ce qui est impossible puisque pour θ = 1, la valeur est distincte de λ0 .
Dans le cas général, soit θ0 tel que θ0 J(v0 ) + (1 − θ0 )J(w0 ) = λ0 . Alors
J(θ0 v0 +(1−θ0 )w0 ) ≤ λ0 , et le point (λ0 , θ0 v0 +(1−θ0 )w0 ) est dans l’épigraphe.
On en déduit

(1 − θ0 )2 (v0 − w0 )2 ≥ (v0 − w0 )2
ce qui entraine v0 = w0 , impossible car J(v0 ) < λ0 < J(w0 ).
On a donc montré que λ∗ = J(w0 ).
On a alors l’inégalité fondamentale de la projection:

(p0 − p∗ , p0 − p) ≥ 0∀p ∈ Epi(J).

Cette inégalité s’écrit, pour p = (J(v), v)

(λ0 − J(w0 ))(λ0 − J(v)) + (v0 − w0 , v0 − v) ≥ 0

soit

(J(w0 ) − λ0 )J(v) ≥ (v0 − w0 , v − v0 ) + (J(w0 ) − λ0 )λ0 . (4.1.2)

La démonstration du premier alinéa est alors la conséquence de J(w0 ) − λ0 > 0,
ce que nous allons démontrer.
Si on avait J(w0 ) − λ0 ≤ 0, alors le point (λ0 , w0 ) serait dans Epi(J) donc
on aurait
||(J(w0 ), w0 ) − (λ0 , v0 )|| ≤ ||(λ0 , v0 ) − (λ0 , w0 )||
soit (J(w0 ) − λ0 )2 + ||w0 − v0 ||2 ≤ ||v0 − w0 ||2 , ce qui donne λ0 = J(w0 ).
Il faut alors éliminer l’égalité λ0 = J(w0 ). Pour cela, introduisons 0 ≤ θ ≤ 1
et raisonnons par l’absurde, soit J(w0 ) = λ0 < J(v0 ). Le point θv0 + (1 − θ)w0
est dans le convexe K , donc (θv0 + (1 − θ)w0 , J(θv0 + (1 − θ)w0 )) est dans
Epi(J). On a donc, pour λ ≥ J(θv0 + (1 − θ)w0 )

(λ − J(w0 ))2 + (1 − θ)2 ||v0 − w0 ||2 ≥ ||v0 − w0 ||2 .

Deux cas: ou il existe une suite θn tendant vers 0 telle que J(θn v0 + (1 −
θn )w0 ) < J(w0 ), et dans ce cas je prends λ = λ0 = J(w0 ) ce qui donne v0 = w0
impossible, ou alors il existe θ0 tel que pour 0 < θ < θ0 on ait J(θv0 + (1 −
θ)w0 ) ≥ J(w0 ). Dans ce cas, pour 0 < θ < θ0 on trouve, replaçant λ par J(θv0 +
62 CHAPTER 4. PROGRAMME CONVEXE

(1−θ)w0 ) et utilisant l’inégalité J(θv0 +(1−θ)w0 )−J(w0 ) ≤ θ(J(v0 )−J(w0 )),on

en déduit

θ(J(v0 ) − J(w0 ))2 ≥ (2 − θ)||v0 − w0 ||2 .

La limite θ → 0 conduit à v0 = w0 , impossible.
On a donc éliminé J(w0 ) = λ0 donc, par les deux raisonnements, J(w0 ) −
λ0 > 0.
On divise par cette quantité l’inégalité (4.1.2). On trouve

v0 −w0
J(v) ≥ ( (J(w 0 )−λ0 )
, v − v0 ) + (J(w0 ) − λ0 )λ0 .
La première inégalité de la proposition est démontrée. Notons que la difficulté
de cette preuve provient de la continuité et non la dérivabilité de J dans nos
hypothèses; en effet le cas où J est dérivable est évident dans la mesure où J
dérivable et convexe entraine l’inégalité J(u) ≥ J(u0 ) + (J 0 (u0 ), u − u0 ), donc
la forme linéaire est naturelle. L’α−convexité entraine tout de suite après la
relation J(u) ≥ J(u0 ) + α4 ||u − u0 ||2 + [ α4 ||u − u0 ||2 + (J 0 (u0 , u − u0 )], et le
deuxième terme est une forme quadratique dont le minimum est explicite.
D’autre part, on trouve, pour v0 fixé

J(v) + J(v0 ) v + v0 α v + v0 α
≥ J( ) + ||v − v0 ||2 ≥ L( ) + δ + ||v − v0 ||2
2 2 8 2 8

On utilise alors le fait que α8 ||v − v0 ||2 + L(v)

2 est quadratique pour voir que
cette fonction, dont on peut calculer explicitement le minimum (c.f. supra), est
minorée par
α α
||v||2 − [||L|| + ||v0 ||]||v||
8 4
α 2
qui peut être minoré par 4 ||v|| − C1 , d’où le résultat.

4.2 Minimisation de fonctionnelles convexes

Le résultat agréable dans le programme convexe est que, contrairement au cas
de l’exemple 16, la condition J infinie à l’infini suffit.

Théorème 4.1 Soit K un convexe fermé non vide dans un Hilbert V et soit J
une fonctionnelle convexe continue sur K.
• Si J est infinie à l’infini, alors J admet un minimum.
• Si J est α−convexe continue, le minimum u est unique, et on a

4
∀v ∈ K, ||v − u||2 ≤ [J(v) − J(u)].
α
Le premier résultat se base sur la convergence faible d’une suite minimisante
un . Nous l’admettons ici.
Le deuxième résultat provient de l’écriture, pour un suite minimisante, de
la relation, notant l l’inf de J
4.2. MINIMISATION DE FONCTIONNELLES CONVEXES 63

un + um J(un ) + J(um ) α
l ≤ J( )≤ − ||un − um ||2
2 2 8
qui implique
4
||un − um ||2 ≤ [(J(um ) − l) + (J(un ) − l)]
α
Nous sommes exactement dans le cas d’application du critère de Cauchy, ainsi
la suite um est de Cauchy, donc possède une limite u. On passe à la limite en
m dans l’inégalité ci-dessus, ce qui implique que
4 4
||un − u||2 ≤ [J(un ) − l] = [J(un ) − J(u)].
α α
Le résultat est démontré.
Dans le cas convexe, on a une condition nécessaire et suffisante d’optimalité,
obtenue à partir de la condition nécessaire provenant de l’équation d’Euler, que
je rappelle ci-dessous

Proposition 4.4 Soit K convexe. On suppose que J est différentiable en u.

Si u est un point de minimum local de J sur K, alors

∀v ∈ K, (J 0 (u), v − u) ≥ 0

Remarque On a alors, si J est α−convexe différentiable, l’inégalité J(v) ≥

J(u) + α2 ||v − u||2 , qui implique l’inégalité

||v − u||2 ≤ α2 (J(v) − J(u))

améliorant ainsi l’inégalité du théorème 4.1.

Cette proposition est une conséquence du fait que, pour u ∈ K, toutes les
directions admissibles sont v − u pour v ∈ K, car u + θ(v − u) est dans K pour
0 < θ < 1.
On a

Théorème 4.2 Si K est convexe et si J est une fonctionnelle convexe,

u minimum de J ⇔ ∀v ∈ K, (J 0 (u), v − u) ≥ 0.

On sait que, si ∀v ∈ K, (J 0 (u), v − u) ≥ 0, alors, de (ii) de la proposition 4.2

implique que

∀v ∈ K, J(v) ≥ J(u).
Ainsi u est un minimum global.1
On note que, lorsque le K est un cône convexe fermé (c’est-à-dire λv ∈ K
pour v ∈ K et λ > 0), on a
1
La redémonstration rapide de l’inéquation d’Euler provient de θ1 (J(u+θ(v−u))−J(u)) ≥ 0
lorsque u est le minimum.
64 CHAPTER 4. PROGRAMME CONVEXE

Proposition 4.5 Le minimum de J est caractérisé par

(J 0 (u), u) = 0 et (J 0 (u), w) ≥ 0∀w ∈ K

La démonstration de cette proposition suit les idées utilisées dans la résolution

de l’exemple 15, où on a choisi v = cu. On prend ainsi l’inégalité

(J 0 (u), v − u) ≥ 0∀v ∈ K
et on prend v = λu. Les deux cas λ > 1 et 0 < λ < 1 donnent (J 0 (u), u) = 0,
et le remplacer dans l’inégalité donne le résultat de la proposition.

4.3 Fonctionnelles quadratiques. Formulations vari-

ationnelles.
Le cas particulier de ces résultats le plus important correspond à la minimi-
sation de fonctionnelles quadratiques, c’est-à-dire, dans l’exemple le plus
classique, si (, ) désigne le produit scalaire sur V Hilbert
1
J(v) = a(v, v) − (b, v)
2
où a est une forme bilinéaire continue sur V et b est un élément de V .

Définition 4.3 On dit que la forme bilinéaire a continue sur V est coercive si
et seulement si il existe ν > 0 tel que

∀u ∈ V a(u, u) ≥ ν||u||2 .

On a alors le

Lemme 4.3 Si a est coercive, et qu’une de ses constantes de coercivité est ν,

alors a est ν−convexe.

ce qui entraine

Théorème 4.3 Le minimum de J sur K convexe est unique et noté u. C’est

l’unique solution du problème

u ∈ K et ∀v ∈ K, a(u, v − u) ≥ (b, v − u).

Preuve du Lemme En appliquant le théorème (4.1)

On vérifie ainsi que

1 1 ε2
(J 0 (u), w) = lim [J(u+εw)−J(u)] = lim [εa(u, w)+ a(w, w)−ε(b, w)] = a(u, w)−(b, w).
ε→0 ε ε→0 ε 2
Alors (J 0 (u) − J 0 (v), u − v) = a(u, u − v) − (b, u − v) − a(v, u − v) + (b, u − v) =
a(u − v, u − v), donc
4.4. KUHN ET TUCKER 65

(J 0 (u) − J 0 (v), u − v) ≥ ν(u − v, u − v).

D’après la proposition 4.2, on a le lemme. L’identification de la dérivée donne
l’inégalité caractérisant le minimum (obtenue au théorème 4.2):

a(u, v − u) − (b, v − u) ≥ 0∀v ∈ K

ce qui est le résultat du théorème.
Les problèmes d’équations aux dérivées partielles linéaires elliptiques rentrent
dans le cadre des formes quadratiques. En effet, on intitule ces problèmes des
problèmes de formulation variationnelles.
L’exemple le plus classique d’opérateur elliptique est l’opérateur −∆ et le
problème d’EDP classique à résoudre est, pour Ω ouvert borné

−∆u = f, u|∂Ω = 0, u ∈ H 1 (Ω).

Pour obtenir la formulation variationnelle, on effectue la démarche inverse de

celle qui a été employée pour trouver la meilleure constante de Poincaré:
de −∆u = f , on déduit, pour tout φ ∈ C0∞ (Ω), < −∆u − f, φ >= 0.
par application de la définition des dérivées au sens des distributions, on vérifie
que ceci est équivalent à

∀φ ∈ C0∞ (Ω), < ∇u, ∇φ > − < f, φ >= 0.

Comme on recherche une solution dans H 1 , ∇u ∈ L2 (Ω) donc cette égalité

implique, par continuité
Z
1
∀φ ∈ H0 (Ω), (∇u∇φ − f φ)dx = 0.
Ω

Dans cette égalité, φ appartient à H01 (Ω) car le complété pour la norme H 1 de
C0∞ (Ω) est H01 (Ω).
L’égalité ci-dessus s’écrit donc a(u, φ) = (b, φ), où a est une forme bilinéaire
continue et b est un élément du dual de H01 (Ω). C’est donc l’équation d’Euler
pour la fonctionnelle
1
2 a(u, u) − (b, u).

Comme Ω est borné, la norme ||u||H 1 est équivalente à la norme ||∇u||L2 par
l’inégalité de Poincaré, donc d’après le calcul de dérivée seconde qui précède, la
fonctionnelle est ν−convexe, donc il y a existence et unicité du minimum, qui
est la solution du problème variationnel.

4.4 Notion de point selle, et théorème de Kuhn et

Tucker
4.4.1 Introduction à la notion de Lagrangien
Nous nous reportons à l’exemple inf 21 (y12 +y22 )−b.y sous la contrainte a.y = 0 ou
sons la contrainte a.y ≤ 0. Nous avons vu que cela pouvait être simple (et que
66 CHAPTER 4. PROGRAMME CONVEXE

c’était certainement naturel) de considérer la projection du minimum absolu b

sur l’ensemble des contraintes. Nous avons vu que si b est dans l’ensemble des
contraintes, sa projection est lui même, et en revanche si b n’y est pas, le point
où la fonctionnelle atteint son minimum est bien le point b0 de projection de b
sur l’ensemble des contraintes. Nous avons écrit le point b0 = b − λa, c’est à
dire nous avons résolu y − b + λa = 0.
Montrons d’abord que tous les arguments précédents s’appliquent. On
vérifie que

x1 + y1 x2 + y2 1 1 1 1
J( , ) − J(x1 , y1 ) − J(x2 , y2 ) = − (x1 − y1 )2 − (x2 − y2 )2
2 2 2 2 8 8
ce qui fait que J est 1−convexe! D’autre part, une contrainte linéaire est
convexe, on est donc dans le cas du programme convexe. D’autre part, on
trouve J 0 (y1 , y2 ) = y − b. La condition nécessaire d’optimalité est alors

(y 0 − b, y − y 0 ) ≥ 0, ∀y, a.y = 0
• cas égalité:
Si y 0 est intérieur à a.y = 0 (c’est-à-dire a.y 0 6= 0) alors y 0 = b et si b vérifie
a.b = 0 cela convient.
Si y 0 est au bord de a.y = 0 (c’est-à-dire a.y 0 = 0) on a a.(y − y 0 ) = 0
donc y − y 0 est proportionnel à aT , ainsi (y 0 − b, µaT ) ≥ 0 pour tout µ, donc
(y 0 − b).aT = 0, soit y 0 − b = −λa, et on identifie λ grâce à y 0 .a = 0.
• cas inégalité:
si y 0 est intérieur à a.y ≤ 0, alors a.y 0 < 0 et donc toutes les directions sont
admissibles et donc y 0 = b. Si on n’est pas dans le cas b.a < 0, le point b n’est
pas le minimum sur l’espace des contraintes car il n’est pas intérieur à l’espace
des contraintes.
On suppose donc maintenant que a.b ≥ 0. On sait donc que y 0 est sur le
bord a.y 0 = 0. On voit alors que pour tout y ∈ {a.y ≤ 0}, alors a.(y − y 0 ) ≤ 0.
Les directions possibles pour y − y 0 sont donc aT et a, le coefficient devant a
étant négatif. On écrit y − y 0 = µaT − µ1 a, et on en déduit que

∀µ ∈ IR, ∀µ1 ∈ IR+ , (y 0 − b, µaT − µ1 a) ≥ 0

Ceci implique que y 0 − b est orthogonal à aT et que (y 0 − b, a) ≤ 0. On en
déduit y 0 − b = −λa avec λ ≥ 0 et de plus, comme y 0 est sur le bord, y 0 .a = 0
donc (b − λa).a = 0 donc λ = b.a a2
, qui est négatif ou nul grâce à l’hypothèse
a.b ≥ 0.
Nous avons ici reconstruit les multiplicateurs de Lagrange, de manière plus
directe puisque avec une seule contrainte dans IR2 on n’a pas besoin d’un résultat
aussi général que le lemme de Farkas.

Remarque Utilisons la forme du minimum obtenu pour écrire y = b − λa + z.

On trouve
1 1 1
J(y) = z 2 − b2 + λ2 a2 − λa.b.
2 2 2
4.4. KUHN ET TUCKER 67

La contrainte s’écrit a.b − λa2 + a.z ≤ 0.

Le minimum de la fonctionnelle en λ est donc obtenu pour λ0 = a.b a2
, la
contrainte restante dans ce cas est alors a.z ≤ 0 et il reste la minimisation de
1 2
2 z , minimum atteint pour z = 0.

Remarque Soit w une direction admissible pour la contrainte inégalité F (y) ≤

0 (ici c’est a.y ≤ 0 et donc on a (F 0 (y), w) ≤ 0 soit encore a.w ≤ 0). On suppose
qu’il existe un couple (y0 , λ0 ) dans {F ≤ 0} × IR+ , tel que J 0 (y0 ) + λ0 F 0 (y0 ) = 0
et F (y0 ) = 0. Alors on introduit

φ(t) = J(y0 + tw)

On a φ0 (t) = (J 0 (y0 + tw), w) et φ0 (0) = −λ0 (F 0 (y0 ), w) ≥ 0. Comme w est
une direction admissible, y0 + tw est dans l’espace des contraintes, donc on doit
retrouver que φ0 (t) ≥ 0. On a bien sûr φ0 (0) ≥ 0 donc φ(t) ≥ φ(0) ce qu’il faut
vérifier pour que y0 soit un minimum.
D’autre part, on vérifie que dtd
(F (y0 + tw)) = (F 0 (y0 + tw), w) donc il est
trivial que

d
(φ(t) + λ0 F (y0 + tw))|t=0 = 0.
dt
On vérifie ainsi très directement que y0 n’est pas seulement le minimum de
J mais aussi le minimum de J + λ0 F .
Ceci nous amène à introduire dans l’exemple canonique en dimension 2 cette nouvelle fonction-
nelle. On pose

L(y, λ) = J(y) + λa.y

Le minimum sur IR2 de cette fonctionnelle est obtenu en y = b − λa, ce qui correspond à la remarque
que nous avons déjà faite sur le fait que cette écriture est la bonne écriture pour trouver le minimum.
Maintenant, lorsque y est dans l’intérieur de l’espace des contraintes a.y < 0 et que λ est assez petit,
alors y + λa est aussi dans l’espace des contraintes, donc le minimum de L(y, λ) est atteint en un
point yλ de l’espace des contraintes, et on vérifie que ce minimum vaut − 12 (b − λa)2 . Cette fonction
a.b
de λ admet un maximum en λ = a2
. et cette valeur du point où elle est maximum est celle cherchée
pour obtenir le point critique de J sous les contraintes a.y ≤ 0 lorsque b n’est pas dans l’espace des
contraintes.
D’autre part, lorsque y n’est pas dans l’espace F (y) = 0, on voit que L(y, λ)
n’a certainement pas d’extremum en λ (contrairement à ce que l’on a fait dans
le paragraphe ci-dessus) et on a probablement identifié un problème équivalent.

4.4.2 Point selle, lagrangien, et minimisation de fonctionnelle

convexe
On considère une fonctionnelle J à minimiser sur V , et on introduit, dans le
cas de M contraintes inégalités ou de M contraintes égalités, une application
de V × IRM dans IR. Elle s’appellera Lagrangien, et on construit le Lagrangien
associé à J et aux contraintes inégalités Fj (v):
X
L(v, q) = J(v) + qj Fj (v).
j
68 CHAPTER 4. PROGRAMME CONVEXE

Dans le cas des contraintes inégalités, on désigne par P = (IR+ )M , et dans

le cas de contraintes égalités, on note P = (IRM ). Soit U ⊂ V

Définition 4.4 On dit que (u, p) ∈ V × P est un point selle de L sur U × P si

on a les inégalités

∀q ∈ P, L(u, q) ≤ L(u, p) ≤ L(v, p)∀v ∈ U.

Notons que cette définition est la bonne définition pour les multiplicateurs
de Lagrange, puisque les extrema sont caractérisés par la dérivée nulle.
On a

Proposition 4.6 Si les fonctions J, F1 , ...FM sont continues sur V et si (u, p)

est un point selle de L sur U × P . Alors, K étant défini par les contraintes Fj
(égalité si P = IRM , inégalités si P = (IR+ )M , et K ⊂ U , on a
• l’élément u est dans K
• c’est un minimum global de J sur K
• Dans le cas où K est inclus dans l’intérieur de U , et où les fonctionnelles
sont dérivables, on a
M
X
J 0 (u) + pj Fj0 (u) = 0.
j=1

Preuve On suppose que (u, p) est un point selle. On se place tout d’abord
dans le cas de contraintes d’égalité. Si on suppose que, pour tout q dans
IRM , alors L(q, u) ≤ L(p, u), comme L(q, u) est une fonction affine en q, cette
inégalité ne peut être vérifiée que lorsque F (u) = 0. On a donc, écrivant la
deuxième inégalité, J(u) ≤ J(v) pour tout v ∈ U , donc a fortiori pour tout
v ∈ K, et donc u est un minimum global de J sur K.
On se place ensuite dans le cas de contraintes inégalités. Si on a, ∀q ∈
(IR+ )M , l’inégalité, ceci veut dire que, en faisant tendre q vers +∞ composante
après composante, que F (u) ≤ 0. On trouve alors pF (u) ≥ 0 par l’inégalité
L(q, u) ≤ L(p, u), et comme Fj (u) ≤ 0, on trouve que pj Fj (u) = 0 pour tout
j. Ceci permet de conclure sur le fait que u est un minimum global de J car
pF (v) ≤ 0 ainsi J(v) + pF (v) ≤ J(v) et donc l’inégalité de droite de définition
du point selle entraine J(u) + 0 ≤ J(v). Le point u est aussi minimum de la
fonctionnelle J(v)+pF (v), donc nécessairement la dérivée de cette fonctionnelle
est nulle si K est intérieur à U .
Ce qui est extraordinaire est qu’il y a des conditions pour lesquelles cette
proposition donne une condition nécessaire et suffisante d’optimalité

Théorème 4.4 (Théorème de Kuhn et Tucker, 1951)

On suppose que J, F sont convexes, continues, dérivables, et on suppose qu’il
existe un élément de V tel que ṽ vérifie
“pour chaque i, ou bien Fi (ṽ) < 0, ou bien Fi (ṽ) = 0 et Fi affine.”
u est minimum global de J sur K si et seulement si il existe p ∈ (IR+ )M tel
que (u, p) soit un point selle du Lagrangien L sur V × (IR+ )M .
4.4. KUHN ET TUCKER 69

Autrement dit, un minimum d’une fonctionnelle convexe avec contraintes est

un minimum libre du Lagrangien lorsqu’on choisit les paramètres de Lagrange.

Preuve La première partie de la démonstration a été faite: si (u, p) est un

point selle du Lagrangien sur V × IRM + , alors u est un minimum global de la
fonctionnelle sur K défini par les contraintes.
Etudions la réciproque. On suppose donc que u est un point de minimum
global de J sur K. On suppose que les contraintes vérifient il existe ṽ tel que
Fi (ṽ) < 0 pour les contraintes actives non affines, Fi (ṽ) ≤ 0 pour les contraintes
actives affines.
On considère l’ensemble

A = {(µ0 , µ) ∈ IRM +1 , ∃v ∈ V, µ0 > J(v), µj > Fj (v)}.

A est un ouvert convexe. On rappelle l’hypothèse u est un minimum global
pour la fonctionnelle sur l’espace des contraintes, alors ∀v, Fj (v) ≤ 0 on a
J(v) ≥ J(u).
Ceci veut dire que (J(u), 0) ∈
/ A (en effet si ce point étant dans A, il exis-
terait v tel que J(u) > J(v) et 0 > Fj (v) pour tout j). La projection sur un
convexe ouvert est aussi possible. On projette le point (J(u), 0) sur A. Il existe
donc (p0 , p) ∈ IRM +1 tel que

∀(µ0 , µ) ∈ A, (µ0 − p0 )(J(u) − p0 ) + (µ − p).(−p) ≤ 0.

On sait que dans cette égalité, on peut faire tendre µ0 et µ vers +∞, donc on en
déduit que J(u)−p0 ≤ 0 et −pj ≤ 0 pour tout j. On note q = p, q0 = p0 −J(u).
Alors on trouve

(µ0 − J(u) − q0 )q0 + (µ − p)p ≥ 0

soit
(µ0 − J(u))q0 + µp ≥ |q|2 + q02 .
On commence par démontrer que les valeurs qj associées à des contraintes in-
actives sont nulles. En effet, si la contrainte j est inactive, Fj (u) < 0, et il
F (u)
suffit de prendre µk = pour k 6= j, µj = j2 puis µ0 = J(u) + pour vérifier
F (u)
que ce point est dans A, ce qui conduit à qj j2 + O() ≥ q02 + q 2 , ce qui est
possible uniquement lorsque qj = 0. On en déduit alors que q.F (u) = 0 (pour
les contraintes actives le terme est nul car Fj (u) est nul et pour les contraintes
inactives le terme est nul car qj = 0).
On suppose que q0 > 0. Si cela est le cas, alors on voit que

q q 2 + q02
∀(µ0 , µ) ∈ A, µ0 − J(u) + µ ≥
q0 q0
donc si on prend le point µ0 = J(v) + , µj = Fj (v) + qui est dans A on voit
que pour tout v ∈ V
q X qj
J(v) − J(u) + F (v). + ε(1 + )≥0
q0 q0
70 CHAPTER 4. PROGRAMME CONVEXE

et comme ceci est vrai pour tout , on a

q q
∀v ∈ V, J(v) + F (v). ≥ J(u) = J(u) + F (u). .
q0 q0
La condition q0 6= 0 implique que l’une des inégalités du point selle est vérifiée.
On doit donc traiter le cas q0 = 0. L’inégalité devient µq ≥ q 2 pour tout
F (ṽ)
(µ0 , µ) dans A. On prend ainsi µ0 = J(ṽ) + , µj = − j2 si la contrainte est
inactive ou active non affine, et µj = si la contrainte est active affine. Ainsi
ce point est dans A car on a µ0 > J(ṽ) et µj > Fj (ṽ). Il vient donc
X 1X
qj − qj Fj (ṽ) ≥ q 2 .
2
j∈Ia In

Ainsi il n’y a aucun problème si il existe une contrainte active non affine, car
F (ṽ)
dans ce cas on se ramène à qj j2 ≥ q 2 , donc qj = 0. Il reste donc les contraintes
actives affines. Elles sont données par Fj (v) = (aj , v) et il suffit de changer de
vecteur ṽ pour prendre successivement un vecteur orthogonal a tous les vecteurs
ap p 6= p0 et dont le produit scalaire avec ap0 est négatif. On en déduit que q = 0
ce qui donne donc une inégalité trivialement vérifiée. Ainsi on trouve p0 = J(u)
et p = 0 donc la projection de (J(u), 0) est lui même. C’est impossible car le
point en question ne peut pas être dans A.
L’égalité qq0 .F (u) = 0 entraine donc

q q
∀v ∈ V, J(v) + ( , F (v)) ≥ J(u) + ( , F (u)) ≥ J(u) + (r, F (u))∀r, rj ≥ 0.
q0 p = q0

Le point (u, qq0 ) est donc un point selle et on a montré l’implication

”minimum global ⇒ il existe un point selle”.

4.4.3 Principe du Min-Max

De la définition d’un point selle (u, p), on déduit deux problèmes d’optimisation
associés à K = {Fj (u) ≤ 0} et à la fonctionnelle J(v). En effet, on a, pour
P = (IR+ )m et p ∈ P :

∀v ∈ V, L(u, p) ≤ L(v, p)
ce qui implique que, utilisant L(v, p) ≤ supq∈P L(v, q):

∀v ∈ V, L(u, p) ≤ sup L(v, q).

q∈P

De même,

∀q ∈ P, L(u, q) ≤ L(u, p)
donc, utilisant cette fois L(u, q) ≥ inf v∈V L(v, q), on obtient

∀q ∈ P, inf L(v, q) ≤ L(u, p).

v∈V
4.4. KUHN ET TUCKER 71

Ceci donne l’idée d’introduire deux fonctionnelles définies par ces inégalités,
l’une sur V , l’autre sur P , par

˜ = sup L(v, q), G(q) = inf L(v, q).

J(v)
q∈P v∈V

Dans le cas étudié, on a L(v, q) = J(v) + qF (v), donc, si il existe j0 tel que
Fj0 (v) > 0, alors supq∈P L(v, q) = +∞, et, si on a ∀j ∈ {1, ..., m}, Fj (v) ≤ 0
alors supq∈P L(v, q) = maxq∈ L(v, q) = L(v, 0) = J(v).
Ainsi

˜ J(v), v ∈ K
J(v) =
+∞, v ∈ /K

La minimisation de J˜ est équivalente à celle de J sur K. Ce problème

s’apppelle le problème primal.
Le problème dual est le problème de maximisation de G sur P .
On remarque que ∀q ∈ P, L(u, q) ≤ L(u, p), donc supq∈P L(u, q) = L(u, p) =
˜
J(u). On sait que L(u, p) ≤ supq∈P L(v, q), donc

˜
∀v ∈ V, L(u, p) ≤ J(v)
ce qui s’écrit

˜
∀v ∈ V, J(u) ˜
≤ J(v)
On en déduit que u est le minimum de J˜ sur V . De même

∀v ∈ V, L(u, p) ≤ L(v, p)
donc

inf L(v, p) = L(u, p) = G(p).

v∈V

Comme inf v∈V L(v, q) ≤ L(u, p), on a, ∀q ∈ P, G(q) ≤ G(p), donc p est un
maximum de G. On a ainsi démontré:

min(max L(v, q)) = max(min L(v, q))

v∈V q∈P q∈P v∈V

et le point de min-max est atteint en v = u, q = p. Le point selle est solution

du problème de min-max, et la réciproque est vraie.

Exemple minimisation de la fonctionnelle J(v) = 12 (Av, v)−(b, v) sur l’ensemble

convexe K = {Bv − c ≤ 0}. Pour être dans le cadre d’application du théorème
de Kuhn et Tucker, on suppose la matrice A symétrique définie positive. La
fonctionnelle du problème primal est calculée facilement. Celle du problème
dual G est donnée par l’équation sur v

∂L
(v, q) = 0
∂v
72 CHAPTER 4. PROGRAMME CONVEXE

qui admet une solution unique car L est α−convexe, où α est la plus petite
valeur propre de la matrice 12 A.
On trouve Av − b + t Bq = 0, soit v = A−1 b − A−1t Bq, donc
1 1
G(q) = − (t Bq, A−1t Bq) + (BA−1 b − c, q) − (b, A−1 b)
2 2
qui est strictement concave donc admet un maximum. Le gain dans cette for-
mulation est que les contraintes s’écrivent vraiment simplement: en l’occurence
elles sont sous la forme q ≥ 0.
Chapter 5

Introduction au contrôle
optimal

5.1 Le problème général

On étudie dans ce cas le contrôle de problèmes variationnels elliptiques. On
se donne deux espaces de Hilbert V et H, dont les normes respectives sont
désignées par ||.|| et |.|. On suppose V ⊂ H, V dense dans H et injection
continue.
On introduit une forme bilinéaire continue sur V , coercive, c’est-à-dire a(v, v) ≥
α||v||2 , α > 0, et une forme linéaire continue sur V , L(v) = (f, v) où f ∈ V 0
espace dual de V . On peut par exemple pour fixer les idées prendre V = H01
et V 0 = H −1 . C’est en ce sens que les problèmes de contrôle utilisent la théorie
des distributions et essentiellement des espaces de Sobolev.
On rappelle alors que pour tout f dans V 0 il existe un unique y dans V tel que

∀ψ ∈ V, a(y, ψ) = (f, ψ).

On appelle A l’opérateur qui à y fait correspondre f , qui est donc bijectif de V

dans V 0 , linéaire, bicontinu.
Autrement dit Ay = f .

Définition 5.1 (système contrôlable)

On appelle système gouverné par l’opérateur A et contrôlé par un espace U
de contrôle un système dont l’état est donné par

Ay = f + Bu

où B est un opérateur de U dans V 0 . La solution unique de ce problème est

alors y(u), dépendant de u.
On introduit l’observation qui est l’action sur la solution de l’opérateur d’observation
C de V dans un Hilbert H0 petit, sous la forme

z(u) = Cy(u).

73
74 CHAPTER 5. INTRODUCTION AU CONTRÔLE OPTIMAL

On introduit enfin sur l’espace U des contrôles un opérateur coercif N tel que
(N u, u) ≥ ν0 ||u||2H0 . Le coût du contrôle est alors

J(u) = ||Cy(u) − zd ||2 + (N u, u).

Notons que le terme ||Cy(u) − zd ||2 est un vrai terme de contrôle et le terme N
est un terme de pénalisation.

Définition 5.2 Le problème de contrôle est de trouver l’inf de J(u) sur l’ensemble
des u admissibles.

5.2 Traitement abstrait du cas général

Nous avons le théorème

Théorème 5.1 On suppose que l’ensemble des u admissibles forme un ensem-

ble convexe fermé. Alors il existe un unique élément u admissible tel que inf J
soit atteint en u.

Preuve On applique le théorème Comme l’ensemble des contrôles admissibles

Uad est un convexe fermé, l’ensemble des directions admissibles en u est l’ensemble
des v−u, v ∈ Uad . L’inéquation d’Euler sur la solution u du problème, qui existe
et qui est unique (on considère une suite minimisante, comme J est coercive,
elle est de Cauchy donc converge) est

(J 0 (u), v − u) ≥ 0∀v ∈ Uad

On sait que y(u) = A−1 (f + Bu) (revenant au cas général), d’où on déduit
(y 0 (u), w) = A−1 Bw. On a donc

(y 0 (u), v − u) = A−1 B(v − u) = A−1 (f + Bv − f − Bu) = y(v) − y(u).

Cette égalité sera utilisée en permanence. On calcule alors J 0 (u), v − u). On

trouve
(J 0 (u), w) = limt→0 J(u+tw)−J(u)
t

Avec

J(u+tw)−J(u) = ||Cy(u+tw)−zd ||2 − ||Cy(u)−zd ||2 + 2t(N u, w) +t2 (N w, w)

et en développant la différence des deux carrés scalaires, on déduit

J(u + tw) − J(u) = (C(y(u) + (y(u + tw) − y(u))) − zd , C(y(u) + (y(u + tw) − y(u))
+(C(y(u + tw) − y(u)), C(y(u + tw) − y(u))) − (Cy(u) − zd , Cy(u) − zd )
+2t(N u, w) + t2 (N w, w).

Divisant par t et passant à la limite, il vient

(J 0 (u), w) = 2(Cy(u) − zd , C(y 0 (u), w)) + 2(N u, w).

5.3. LE CAS PARTICULIER DU CONTRÔLE DISTRIBUÉ POUR LE PROBLÈME DE DIRICHLET7

On utilise alors w = v −u et le résultat (y 0 (u), v −u) = y(v)−y(u)) pour obtenir

(J 0 (u), v − u) = 2(Cy(u) − zd , C(y(v) − y(u))) + 2(N u, v − u).

On a donc l’inéquation d’Euler. On introduit l’adjoint C ∗ de C, et on suppose

pour simplifier que le dual de H0 est lui même. Alors il vient

(C ∗ (Cy(u) − zd ), y(v) − y(u)) + (N u, v − u) ≥ 0∀v.

On introduit l’état adjoint p(v) donné par

C ∗ (Cy(w) − zd ) = A∗ p(w)

où A∗ est l’opérateur adjoint de A. Ceci permet de réécrire le premier terme de

l’inégalité:
(A∗ p(u), y(v) − y(u)) + (N u, v − u) ≥ 0∀v
(p(u), A(y(v) − y(u))) + (N u, v − u) ≥ 0∀v
et avec la relation A(y(v) − y(u)) = B(v − u) on obtient

(p(u), Bv − Bu) + (N u, v − u) ≥ 0∀v

et enfin en introduisant l’adjoint B ∗ on trouve

(B ∗ p(u) + N u, v − u) ≥ 0∀v.

Cette inégalité est plus facile à traiter. On résume alors les résultats dans le

Théorème 5.2 On calcule la solution contrôlée y(u) telle que Ay(u) = f +Bu.
On forme l’état adjoint p(u) qui est solution de l’équation A∗ p(u) = C ∗ (C(y) −
zd ).
L’inéquation d’Euler qui caractérise la solution du problème de contrôle est:

(B ∗ p(u) + N u, v − u) ≥ 0∀v ∈ Uad .

5.3 Le cas particulier du contrôle distribué pour le

problème de Dirichlet
On se place dans ce cas dans le cas suivant: V = H01 (Ω), Ω ouvert borné donc
nous avons l’inégalité de Poincaré (voir paragraphe 2.4.7). De plus H = L2 (Ω).
L’opérateur a est donné par
Z X Z
a(φ, ψ) = aij (x)∂i φ∂j ψdx + a0 (x)φψdx.
Ω i,j Ω

On suppose dans le cas général les aij et a0 dans L∞ , a0 (x) ≥ α > 0,

P
aij ξi ξj ≥
α||ξ||2 . L’opérateur A est l’opérateur elliptique du second ordre
X X
Aφ = − ∂i ( aij ∂j φ) + a0 φ
i j
76 CHAPTER 5. INTRODUCTION AU CONTRÔLE OPTIMAL

On prend pour B l’identité, et C l’injection canonique de V dans H et H0 = H.

La donnée sur C veut dire que l’on observe y(u) sur tout le domaine Ω dans
notre cas.
On regarde donc le problème de Dirichlet

Ay(u) = f + u, y(u) ∈ H01 (Ω).

L’opérateur adjoint A∗ est donné par (Aφ, ψ) = (φ, A∗ ψ). En faisant le calcul
dans les fonctions C0∞ (Ω), on trouve
P
(Aφ, ψ) = i,j (a (x)∂j φ, ∂i ψ) + (a0 (x)φ, ψ)
Pij
= − i,j (φ, aij (x)∂i ψ) + (a0 (x)φ, ψ)

On vérifie que si la matrice n’est pas symétrique, A∗ et A diffèrent.

Le problème de contrôle s’écrit alors

 Ay(u) = f + u, y(u) ∈ H01 (Ω)



A∗ p(u) = y(u) − zd , p(u) ∈ H01 (Ω)

 R
(p(u) + N u)(v − u)dx ≥ 0∀v ∈ Uad
Le contrôle est dit distribué car u est défini dans tout Ω.

Le cas sans contrainte C’est un cas vraiment opératoire. En effet, la con-

dition d’Euler se ramène à p(u) + N u = 0. On a donc le système à résoudre
(éliminant le contrôle u:
 Ay + N −1 p = f


A∗ p − y = −zd
y, p ∈ H01 (Ω)


et on récupère le contrôle en ayant résolu ce système d’EDP sous forme faible.

On retrouve u = −N −1 p ou u = Ay − f .

5.3.1 Système gouverné par un problème de Neumann

On prend cette fois V = H 1 (Ω), H = L2 (Ω), et la même forme bilinéaire a. On
utilise alors A donné par le résultat suivant:

a(y, ψ) = f (ψ)∀ψ ∈ V ⇔ Ay = f.
1
On suppose que l’on a à la fois une donnée au bord g ∈ H − 2 (Γ) et une donnée
dans l’ouvert f1 ∈ L2 (Ω), de sorte que la forme linéaire soit, γ étant l’opérateur
de trace:
Z Z Z
f (ψ) = f1 ψdx + γψgdσ = f1 ψdx+ < g, γψ > .
Ω Γ Ω

L’état y(u) est alors la solution unique du problème dit de Neumann:

Ay(u) = f1 + u, dansΩ
∂y∂nA = g
5.4. EQUATION DE HAMILTON-JACOBI-BELLMANN 77

où la dérivée normale associée à l’opérateur A s’obtient grâce à:

X
< Aφ, ψ >= (aij ∂j φ∂i ψ) + (a0 φ, ψ) + (∂nA φ, γψ)Γ
i,j

et donc par intégration par parties

X
∂nA φ = ni aij ∂j φ|Γ .

l’égalité ci-dessus sur < Aφ, ψ > permet de construire de manière abstraite la
1
dérivée normale par passage à la limite pour φ, ψ dans H 1 donc γψ ∈ H 2 (Γ).
L’état adjoint est identifié comme la solution du problème de Neumann adjoint,
où il n’y a pas de terme source sur le bord:

A∗ p(u) = y(u) − zd , ∂nA∗ p(u) = 0.

En conclusion, pour l’ensemble des problèmes de contrôle, il suffit d’identifier

l’équation de l’état adjoint, dans le cas où la régularité Sobolev le permet.

5.4 Equation de Hamilton-Jacobi-Bellmann

On cherche à minimiser un critère dépendant de variables d’état x(t), t ∈ [0, 1],
et d’une commande u(t), sachant que x est solution d’une équation de com-
mande:

ẋ(t) = f (x(t), u(t), t)

avec une valeur initiale x(0) = xR0 .
1
Le critère étudié est J(u) = 0 g(x(t), u(t), t)dt + C(x(1)).
On forme le lagrangien du problème, sous les contraintes

(i)x(0) − x0 = 0
(ii)ẋ(t) − f (x(t), u(t), t) = 0
La contrainte (i) admet λ comme multiplicateur, la contrainte (ii) admet p(t)
comme multiplicateur (en effet, l’une est continue, l’autre est ponctuelle). Le
lagrangien est

Z 1 Z 1
L(x, u, λ, p) = g(x(t), u(t), t)dt+C(x(1))+ p(t)(ẋ(t)−f (x(t), u(t), t))dt+λ(x(0)−x0 ).
0 0

Par intégrations par parties, on trouve

R1 0 0
L(x, u, λ, p) = 0 Rg(x(t), u(t), t)dt + p(1)x(1) + C(x(1)) + λ(x(0) − x ) − p(0)x .
1
− 0 (ṗ(t)x(t) + p(t)f (x(t), u(t), t))dt

Les équations de point selle sont Lx = 0, Lu = 0, Lp = 0. On obtient les

équations formelles
78 CHAPTER 5. INTRODUCTION AU CONTRÔLE OPTIMAL

Z 1 Z 1
gx (x(t), u(t), t)w(t)dt− (ṗ(t)+p(t)fx (x(t), u(t), t))w(t)dt+C 0 (x(1))w(1) = 0,
0 0
Z 1 Z 1
gu (x(t), u(t), t)w̃(t)dt − p(t)fu (x(t), u(t), t)w̃(t)dt = 0,
0 0
Z 1
(π̇(t)x(t) + π(t)f (x(t), u(t), t))dt = 0.
0
De la deuxième, on déduit gu (x(t), u(t), t) = p(t)fu (x(t), u(t), t). De la
première, on déduit ṗ(t)+fx (x(t), u(t), t)p(t) = gx (x(t), u(t), t). De la troisième,
en effectuant une intégration par parties, on déduit l’équation (ii).
On note que le multiplicateur de Lagrange p est solution d’une équation que
l’on appelle équation adjointe de ẋ = f (x, u, t).
On remplace l’équation obtenue pour p dans le lagrangien. Alors

R1 R1
L(x, u, p, t) = 0[g(x(t), u(t), t) − xgx (t)]dt + p(1)x(1) + C(x(1)) − 0 p(t)(−x(t)fx
+f (x(t), u(t), t))dt + λ(x(0) − x0 ) − p(0)x0 .

Les expressions ci-dessus ressemblent de manière frappante aux expressions

du hamiltonien (intégrale première de l’équation d’Euler). En effet, g − xgx
ressemble a L − xLx .
On introduit alors l’hamiltonien de Pontryaguine:

H(x, u, p, t) = pf (x, u, t) − g(x, u, t).

On vérifie ∂x H = pfx − gx et ∂u H = pfu − gu . L’égalité gu = pfu obtenue à
partir de la deuxième équation ci-dessus implique que ∂u H = 0.
L’équation adjointe s’écrit ṗ = −∂x H(x(t), u(t), p(t), t). D’autre part, l’équation
sur x se réécrit ẋ = ∂p H(x(t), u(t), p(t), t).
Ainsi les conditions nécessaires d’optimalité impliquent que (x(t), u(t), p(t))
est solution du système:

 ẋ(t) = ∂p H(x(t), u(t), p(t), t)
ṗ(t) = −∂x H(x(t), u(t), p(t), t)
0 = ∂u H(x(t), u(t), p(t), t)


Si on introduit le Lagrangien instantané L(x, ẋ, u, p, t) = g(x, u, t) + p(ẋ −

f (x, u, t)), alors l’équation de l’état adjoint est

d
(Lẋ ) = Lx
dt
qui est l’équation d’Euler associée à ce lagrangien. D’autre part, de ce problème,
on déduit l’équation de Hamilton-Jacobi-Bellman.
Pour écrire cette équation on considère le même problème:
Z 1
infẋ(t)=f (x(t),u(t),t),x(0)=x0 J(u) = g(x(t), u(t), t)dt + C(x(1))
0
5.4. EQUATION DE HAMILTON-JACOBI-BELLMANN 79

et on introduit, comme pour l’étude des problèmes primaux et duaux, la solution

de infB(x, u), B à déterminer. Plus exactement, on considère τ ∈ [0, 1], y dans
l’espace d’arrivée, et x la solution de ẋ(t) = f (x(t), u(t), t), x(τ ) = y. On
introduit
R1
V (y, τ ) = min τ g(x(t), u(t), t)dt + C(x(1))
ẋ(t) = f (x(t), u(t), t), x(τ ) = y
Il semble bien sûr que le problème est aussi compliqué que de trouver le
minimum pour le problème précédent. Mais on va montrer que V est solution
d’une équation aux dérivées partielles.
Pour cela, on cherche V (y, τ + ).

Z 1
V (y, τ +) = min[ g(x(t), u(t), t)dt+c(x(1)), ẋ(t) = f (x(t), u(t), t), x(τ +) = y].
u τ +

D’autre part

Z 1 Z τ + Z 1
g(x(t), u(t), t)dt = g(x(t), u(t), t)dt + g(x(t), u(t), t).
τ τ τ +
R1
Soit u la solution du problème de minimisation pour τ g(x(t), u(t), t)dt. On
trouve

V (y, τ ) = min [g(y, v, τ ) + o() + V (x(τ + ), τ + )]

v=u(τ )

V (y, τ ) = min[g(y, v, τ ) + V (y + f (y, v, τ ) + o(), τ + )].

Heuristiquement, l’équation s’en déduit aisément en soustrayant à V (y +

f (y, v, τ ) + o(), τ + ) le terme V (y, τ + ) et en divisant par . On a

−∂τ V (y, τ ) = min[g(y, v, τ ) + ∂y V (y, τ )f (y, v, τ )].

Donc, même si V n’est pas connue, on peut accéder à l’équation différentielle

sur V .
Ceci s’exprime dans le

Théorème 5.3 Si l’équation de Hamilton-Jacobi-Bellman

∂V ∂V
+ min[g(y, v, t) + f (y, v, t)] = 0
∂t v ∂y
admet une solution de classe C 1 telle que V (x, 1) = C(x), alors le problème
R1
J(u) = 0 g(x(t), u(t), t)dt + C(x(1))
inf
ẋ(t) = f (x(t), u(t), t), x(0) = x0

admet une commande optimale v(x, t), qui minimise en v à chaque instant
80 CHAPTER 5. INTRODUCTION AU CONTRÔLE OPTIMAL

∂V
g(x, v, t) + (x, t)f (x, v, t).
∂x
L’équation de HJB s’écrit Vt = max H(x, −Vxt , u, t).

∂V ∂V
On considère pour cela G(x, u, t) = g(x, u, t) + ∂x (x, t)f (x, u, t) + ∂t (x, t).
Elle vérifie

∀t ∈ [0, 1], min G(x, u, t) = 0.

On note u∗
le point où ce minimum
R1 est atteint.
On remarque alors que 0 G(x(u), u, t)dt ≥ 0 pour tout u et que

Z 1
∂V ∂V
[ (x(u), t)f (x(u), u, t) + (x(u), t)]dt = V (x(1), 1) − V (x(0), 0)
0 ∂x ∂t

d’où on déduit

0 = J(u∗ ) − V (x0 , 0) ≤ J(u) − V (x0 , 0).

et donc bien sûr u∗ réalise le minimum de J.

Exemple Dans le cadre de cette équation de Hamilton-Jacobi Bellman, étudions

un exemple. C’est un problème de contrôle-commande (objet de la page de
garde ...)
On considère un oscillateur, qui peut être excité, et on souhaite le faire
passer d’un état donné à un autre état.
Cet oscillateur est régi par l’équation différentielle

ẍ + ω 2 (1 − εu(t))x = 0,
où x(0) et ẋ(0) sont connus, et on veut l’amener à l’état (x(t1 ), ẋ(t1 )), où
(x(t1 ))2 + (ẋ(t1 ))2 > (x(0))2 + (ẋ(0))2 . On peut le faire en introduisant la
commande u(t) qui vérifie 0 ≤ u(t) ≤ 1. Ainsi, on peut faire varier la fréquence
d’oscillation du ressort entre ω 2 et ω 2 (1 − ε).
On est dans la situation de ce chapitre lorsque on écrit cette équation
différentielle sous la forme du système différentiel

ẋ = y, ẏ = −(1 − εu(t))x.

Ainsi f1 (x, y, u, t) = y, f2 (x, y, u, t) = −(1 − εu(t))x et Ẋ = f . D’autre

part, on introduit le multiplicateur de Lagrange (p, q) associé à (x, y). Il n’y a
pas d’équation de contrôle sur u.
Le Lagrangien est alors
Rt
L(x, u, λ, µ, k, p, q) = 0 1 (ẋ(t) − f1 (x, y, u, t))p(t) + (ẏ(t) − f2 (x, y, u, t))q(t))dt
+λ(x(0) − x0 ) + µ(y(0) − y0 ) + k((x(t1 ))2 + (y(t1 ))2 − 1).
5.4. EQUATION DE HAMILTON-JACOBI-BELLMANN 81

Après intégration par parties en temps, on trouve les équations adjointes

pour p et q de sorte que ce Lagrangien ait un extremum (point selle). Il s’agit
de
Rt
L(x, u, λ, µ, k, p, q) = − 0 1 [xṗ + yp + y q̇ − (1 − εu)xq]dt + x(t1 )p(t1 ) + y(t1 )q(t1 )
−x(0)p(0) − y(0)q(0) + λ(x(0) − x0 ) + µ(y(0) − y0 )
+k((x(t1 ))2 + (y(t1 ))2 − 1)

et on en déduit les relations ṗ = (1−εu(t))q et q̇ = −p. En utilisant l’extremalité

en t1 , on trouve aussi que p(t1 ) = −kx(t1 ), q(t1 ) = −ky(t1 ). De plus, en
regardant en t = 0, on trouve p(0) = λ, q(0) = µ, ce qui fait que les conditions
initiales ne sont pas connues. Il faudra alors partir de la condition finale.
Le Hamiltonien de Pontriaguine est alors H = pf1 + qf2 = py − q(1 − εu)x =
py − qx + εuxq. Le principe du maximum de Pontriaguine, énoncé ici sans
démonstration (car on se trouve dans le cas discontinu) est de choisir (x, u, p)
qui réalise l’extremum de H, et plus précisément on prend le maximum en u
sur les contraintes. Lorsque xq < 0, ce maximum est atteint en u = 0, lorsque
xq > 0, il est atteint en u = 1. Le contrôle optimal prendra donc les valeurs 0
ou 1 selon le signe de qx.
Si k = 0, les conditions finales pour q et p sont 0, et l’équation différentielle
de second ordre sur q a ses conditions de Cauchy nulles en t = t1 , donc p et
q sont nulles, ce qui est impossible car on ne peut pas commander le système.
Donc k 6= 0, et donc, en divisant q et p par cette constante, on se ramène
à k = 1. Dans ce cas, pour t = t1 , q(t1 )x(t1 ) = − 21 dt d
[(x(t))2 ](t1 ). Si cette
quantité est négative, elle le reste dans un intervalle ]t1 − ε, t1 [, donc le contrôle
u est égal à 0 dans cet intervalle, et donc l’énergie en t1 est égale à l’énergie
en t1 − ε, ce qui est contradictoire avec le fait que le contrôle est optimal.
Ainsi le contrôle est égal à 1 dans ce voisinage, donc −xẋ(t1 ) < 0. On peut
positionner le point d’arriver dans le quatrième quadrant (x > 0, y < 0).On écrit
x(t1 ) = cos α, y(t1 ) = sin α, α ∈] − π2 , 0[. Ainsi on trouve q(t1 ) = cos(α + π2 ),
p(t1 ) = sin(α + π2 ). Le point (p(t), q(t)) est, dans un voisinage de t1 , sur
p2 2α
l’ellipse q 2 + 1−ε = a2 = sin2 α + cos 1−ε , et le point (x(t), y(t)) est sur l’ellipse
y2 2 2 2
x2 + 1−ε = b2 = cos2 α + sin α 2
1−ε . On contrôle que a =
1−ε sin α
1−ε et b2 = 1−ε1−ε
cos α
.
Dans ce qui suit, on va construire une trajectoire ’en remontant le sens du
temps’ à partir du point d’arrivée. PLus précisément, on adopte la démarche
suivante:

1. on détermine T > t1 tel que x(t) ne s’annule pas sur [t1 , T [ et s’annule en
t = T . Le contrôle reste u = 1.

2. on cherche le premier point t2 < t1 tel que q s’annule (u = 1 sur ]t2 , T [)

3. on construit t3 < t2 tel que x s’annule en t3 (u = 0 sur ]t3 , t2 [)

4. on construit t4 < t3 tel que q s’annule en t4 (u = 1 sur ]t4 , t3 [)

5. on construit T̃ < t4 tel que x s’annule en T̃ (u = 0 sur ]T̃ , t4 [).

• Sur ]t2 , T [:
82 CHAPTER 5. INTRODUCTION AU CONTRÔLE OPTIMAL

On commence par donner la forme des fonctions x et q. On trouve x(t) =

1 1 1
b cos((1 − ε) 2 (t − t1 ) + β), ẋ(t) = y = −b(1 − ε) 2 sin((1 − ε) 2 (t − t1 ) + β), d’où
on déduit β ∈]0, π2 [ et tan β = − tan α1 .
(1−ε) 2
On suppose que le système reste dans l’état excité avec u = 1. On sait
1
que q(t) = a cos((1 − ε) 2 (t − t1 ) + γ) avec γ ∈] − π2 , 0[, a cos γ = − sin α,
1
a(1 − ε) 2 sin γ = cos α. On en déduit γ ∈] − π2 , 0[ et tan γ = 1
1 . On
(1−ε) 2 tan α
contrôle alors que ab cos(γ − β) = ε sin1−ε
α cos α
< 0, donc, ajoutant le fait que
π
γ − β ∈] − π, 0[, il vient γ − β ∈] − π, − 2 [. On remarque que ab sin(γ − β) =
− 1 1.
(1−ε) 2
1
Soit T tel que (1 − ε) 2 (T − t1 ) + β = π2 . On en déduit que, pour t ∈]t1 , T ],
1
γ + (1 − ε) 2 (t − t1 ) décrit ]γ, γ + π2 − β] ⊂] − π2 , 0], avec
π 1 π
q(T ) = a cos( + γ − β), q̇(T ) = −a(1 − ε) 2 sin( + γ − β).
2 2
Lorsque l’on introduit ρ(α) et ω(α) tels que q(T ) = ρ(α) cos ω(α) et q̇(T ) =
1
ρ(α) sin ω(α), on obtient tan ω(α) = −(1 − ε) 2 tan( π2 + γ − β), ce qui donne
tan ω(α) = −ε cos α sin α. De plus, (ρ(α))2 = a2 sin2 (γ − β) + a2 (1 − ε) cos2 (γ −
2 sin2 α cos2 α
β) = 1+ε1−ε cos2 α
.
1 1
De plus ẋ(T ) = −b(1 − ε) 2 = −(1 − ε cos2 α) 2 .
On commence à remonter le temps à partir de t = T . On écrit
1
x(t) = b cos((1 − ε) 2 (t − T ) + π2 )
1
q(t) = a cos((1 − ε) 2 (t − T ) + π2 + γ − β).
Comme π2 + γ − β ∈] − π2 , 0[, on voit qu’en remontant le sens du temps, le
premier point òu le produit qx change de signe est atteint pour q au temps t2
tel que
1 π π
(1 − ε) 2 (t2 − T ) + +γ−β =− .
2 2
1
Le contrôle est u = 1 pour t ∈]t2 , T [, et q̇(t2 ) = a(1 − ε) 2 . On vérifie aussi que

π b 1 π b
x(t2 ) = b cos(β−γ−π+ ) = ρ(α) cos ω(α), ẋ(t2 ) = −b(1−ε) 2 sin(β−γ− ) = ρ(α) sin ω(α).
2 a 2 a
• Sur ]t3 , t2 [:
Le contrôle est u = 0, et les trajectoires sont des cercles. On identifie
directement

x(t) = ρ(α) ab cos(t − t2 − ω(α))

1
q(t) = a(1 − ε) 2 cos(t − t2 − π2 ).
On voit que la première quantité qui s’annule est x(t), au point t3 = t2 +
ω(α) − π2 . On a alors

b 1 1
ẋ(t3 ) = ρ(α) , q(t3 ) = −a(1 − ε) 2 cos ω(α), q̇(t3 ) = a(1 − ε) 2 sin ω(α).
a
5.4. EQUATION DE HAMILTON-JACOBI-BELLMANN 83

• Sur ]t4 , t3 [:
Le contrôle est a nouveau u = 1. Les courbes décrites par les points sont

(ẋ(t))2 b2 (q̇(t))2
(x(t))2 + = ρ2 (α) 2 , (q(t))2 + = a2 (1 − ε cos2 ω(α))
1−ε a (1 − ε) 1−ε

ce qui donne
1
x(t) = ρ(α) ab 1
1 cos((1 − ε) 2 (t − t3 ) − π2 )
(1−ε) 2
1 1
q(t) = a(1 − ε cos2 ω(α)) 2 cos((1 − ε) 2 (t − t3 ) + β(α))
avec les relations

1
sin ω(α) (1 − ε) 2 cos ω(α)
sin β(α) = − 1 , cos β(α) = − 1 .
(1 − ε cos2 ω(α)) 2 (1 − ε cos2 ω(α)) 2

On trouve donc β(α) ∈] − π, − π2 [ et tan β(α) = − ε sin α cos

1
α
.
(1−ε) 2
Le point où q(t) s’annule (qui est le premier point inférieur à t3 où xq change
de signe) est donné par
1 3π
(1 − ε) 2 (t4 − t3 ) + β(α) = − .
2
On a
x(t4 ) = −µ(α) cos ω(α), ẋ(t4 ) = −µ(α) sin ω(α),
avec
b cos2 β(α) (1 + ε2 cos2 α sin2 α)
(µ(α))2 = (ρ(α) )2 ( +sin2 β(α)) = .
a 1−ε (1 − ε + ε2 cos2 α sin2 α)(1 − ε sin2 α)

• Pour t ∈]T̃ , t4 [:
le contrôle est alors u = 0, les points se déplacent sur des cercles, donc
x(t) = µ(α) cos(t − t4 − π + ω(α)). Le point où x(t) s’annule est alors T̃ =
t4 − π2 − ω(α), ce qui donne tout de suite ẋ(T̃ ) = −µ(α).
Dans ce cas, on a fait un tour complet de l’espce des phases pour x(t), y(t)
de t = T̃ à t = T . Le gain d’orbite (rapport entre la valeur du point pour les
deux temps) est alors
1
ẋ(T ) b(1 − ε) 2 1 − ε + ε2 cos2 α sin2 α
= =
ẋ(T̃ ) µ(α) 1 + ε2 cos2 α sin2 α

en ayant utilisé 1 − ε + ε2 cos2 α sin2 α = (1 − ε cos2 α)(1 − ε sin2 α).

On vérifie alors que ẋ(t 2) ẋ(t4 )
x(t2 ) = tan ω(α), x(t4 ) = tan ω(α) et limt→T,t<T
ẋ(t)
x(t) =
ẋ(t) ẋ(t)
+∞, limt→t3 ,t>t3 x(t) = −∞, limt→t3 ,t<t3 x(t) = +∞, limt→T̃ ,t>T̃ ẋ(t)
x(t) = −∞.
ẋ(t)
On a ainsi vu que le contrôle est donné par u(t) = H( x(t) − tan ω(α)), où
H désigne la fonction de Heaviside.
84 CHAPTER 5. INTRODUCTION AU CONTRÔLE OPTIMAL
Chapter 6

Approximation de solutions de
problèmes d’optimisation

Nous donnons dans cette section des algorithmes d’approximation de solutions

de problèmes de minimisation, afin de pouvoir mettre en œuvre des méthodes
numériques. Nous nous restreignons aux fonctionnelles convexes, car, si il est
difficile de trouver la solution de minimisation de problèmes non convexes, il est
encore moins évident de trouver des algorithmes qui convergent vers de telles
solutions. Nous étudierons ici les algorithmes de relaxation, où on fait les
calculs successifs sur chaque variable, les algorithmes de gradient, l’algorithme
d’Uzawa, et, chose que je considère comme très importante, la méthode de
pénalisation des contraintes, qui est celle que nous avons abordé dans l’étude
du problème de Bolza.

6.0.1 Algorithme de relaxation

On suppose que l’on étudie un minimum sans contraintes pour J(v) = J(v1 , ..., vN ),
chaque vj étant élément d’un espace de Hilbert Vj . On suppose J α−convexe
différentiable. Le minimum existe et est unique. On note ce minimum
(u1 , ..., uN ).
L’algorithme de relaxation utilise le fait que la restriction de J à Vj , toutes
les autres composantes étant fixées, est aussi α−convexe. On dit que c’est de
la relaxation, car on ‘ne traite pas’ toutes les composantes en même temps, on
en relaxe une sur laquelle on minimise.
Soit u0 = (u01 , .., u0N ) donné. On écrit une suite un = (un1 , .., unN ). Pour
simplifier la compréhension, on suppose N = 3, mais le résultat s’étend, avec
une petite surchage de notations, pour N quelconque.
On suppose le n−ième terme construit un = (un1 , un2 , un3 ). On résout

inf J(v1 , un2 , un3 ) = J(un+1

1 , un2 , un3 )
v1 ∈V1

puis
inf J(un+1
1 , v2 , un3 ) = J(un+1
1 , un+1
2 , un3 )
v2 ∈V2

85
86 CHAPTER 6. APPROXIMATION DE SOLUTIONS

enfin
inf J(un+1
1 , un+1
2 , v3 ) = J(un+1
1 , un+1
2 , un+1
3 ).
v3 ∈V3

Exemple d’utilisation de la méthode de relaxation On considère la

fonctionnelle J(x1 , x2 ) = 21 (x21 + x22 + x1 x2 ) − αx1 − βx2 .
Son minimum est atteint en un point (x01 , x02 ) donné par
1 1
x1 + x2 = α, x2 + x1 = β
2 2
soit
4 2 4 2
x01 = α − β, x02 = β − α.
3 3 3 3
L’algorithme de relaxation consiste à partir du point (x, y) quelconque, puis
à déterminer le point où J(x1 , y) est minimum (c’est donc x11 = α − 21 y), évaluer
le point x2 où J(x11 , x2 ) est minimum, soit x12 = β − 12 x11 , et donc étudier la
suite récurrente
1 1
xn+1
1 = α − xn2 , xn+1
2 = β − xn+1 .
2 2 1
On obtient ainsi une relation de récurrence qui est
4 2 1 4 2
xn+1
1 − ( α − β) = (xn1 − ( α − β))
3 3 4 3 3
qui conduit à
4 2 1 4 2
xn1 − ( α − β) = n [x11 − ( α − β)]
3 3 4 3 3
dont on a la convergence vers la valeur x1 . 0

Un résultat général est le suivant:

Théorème 6.1 On suppose que J est α−convexe différentiable et que, de plus

J 0 est Lipschitzien sur tout borné:

||J 0 (v) − J 0 (w)|| ≤ C||v − w||.

Alors la suite un construite par le procédé décrit converge vers la solution de

inf J(v1 , ..., vN ).

(v1 ,...,vn )∈V1 ×...×VN

Preuve On introduit, pour chaque i, la solution du i−ème problème in-

termédiaire. Ainsi

un+1,1 = (un+1
1 , un2 , un3 ), un+1,2 = (un+1
1 , un+1
2 , un3 ), un+1,3 = (un+1
1 , un+1
2 , un+1
3 ).

On note Ji0 la dérivée de J par rapport à l’élément de Vj , tous les autres

éléments étant fixes:
87

J(v1 , .., vi + εwi , ..., vN ) − J(v)

(Ji0 (v1 , ..., vN ), wi ) = lim .
ε→0 ε
Comme un+1
i est solution d’un problème de minimisation avec une fonction-
nelle α−convexe, il est unique et Ji0 (un,i ) = 0.
Revenons à N = 3 pour alléger les notations. En utilisant l’α−convexité de
J, on écrit
α n,1
J(un ) − J(un,1 ) ≥ (J10 (un,1 ), un − un,1 ) + ||u − un ||2 ,
2
α n,2
J(un,1 ) − J(un,2 ) ≥ (J20 (un,2 ), un,1 − un,2 ) +||u − un,1 ||2 ,
2
α
J(un,2 ) − J(un,3 ) ≥ (J30 (un,3 ), un,2 − un,3 ) + ||un,3 − un,2 ||2 ,
2
et en sommant les trois égalités et en utilisant les égalités d’Euler partielles
α
J(un ) − J(un+1 ) ≥ ||un+1 − un ||2 .
2
n
• Comme la suite J(u ) est ainsi décroissante, minorée par J(u), elle con-
verge, donc la différence J(un+1 ) − J(un ) tend vers 0, donc un+1 − un tend vers
0. Notons que cela ne permet pas de conclure sur la convergence de
un .
• La suite un est bornée. En effet, si elle ne l’était pas, il existerait une
sous-suite telle que ||un0 || tendrait vers l’infini. Ainsi, comme J est α−convexe,
J(un0 ) tendrait vers l’infini, ce qui est impossible car la suite J(un ) est décroissante.
On peut alors appliquer l’inégalité Lipschitz.
• On utilise l’α−convexité:

(J 0 (un ) − J 0 (u), un − u) = (J 0 (un ), un − u) ≥ α|un − u|2

puis la définition des dérivées partielles:
X
(J 0 (un ), un − u) = (Ji0 (un ), uni − ui )
i
puis les N équations d’Euler partielles1
(J 0 (un ), un − u) = P
P 0 n 0 n,i n
i (Ji (u ) − Ji (u ), ui − ui )
≤ C i≤N −1 ||u − u ||||uni − ui ||
n n,i
1
≤ C(N − 1) 2 ||un+1 − un ||.||un − u||.
1
noter la différence de notations entre un
i et u
n,i
, on l’explicite pour N = 3 et on utilise
J30 (un,3 ) = 0:

(J 0 (un ), un − u)
= (J10 (un n n 0 n
1 , u2 , u3 ) − J1 (u1 , u2
n−1
, u3n−1 ), un
1 − u1 )
0 0 n−1
+(J2 (u1 , u2 , u3 ) − J2 (u1 , u2 , u3 ), un
n n n n n
2 − u2 )
ce qui permet d’utiliser le caractère Lipschitz, pour avoir
1
(J 0 (un ), un − u) ≤ C[(||u n−1 n 2
√ 2 n+1− u2 ||n + ||u
n−1
3 − un 2 n n n−1
3 || ) 2 ||u1 − u1 || + ||u3 − u3 ||.||un
2 − u2 ||]
n
≤ C 2||u − u ||.||u − u||
√ 2 1
grâce à ||un n
1 − u1 || + ||u2 − u2 || ≤ 2(||un 2 n
1 − u1 || + ||u2 − u2 || ) 2 ce qui achève la preuve de
l’inégalité.
88 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Il vient alors, par l’inégalité d’α−convexité:

1
α||un − u||2 ≤ C(N − 1) 2 ||un+1 − un ||.||un − u||.
Cela donne
1
C(N − 1) 2 n+1
||un − u|| ≤ ||u − un ||.
α
On a démontré la convergence de un vers u et la majoration entre les deux
suites.

6.1 Algorithmes de descente

On commence par la définition d’une direction de descente. Pour cela, on se
place en un point u du domaine d’étude, pour une fonctionnelle J et on cherche
des points v tels que J(v) < J(u) et v aussi dans le domaine. On en déduit
qu’il suffit que v − u soit une direction admissible pour = 1.
Ceci nous amène à la

Définition 6.1 Soit J une fonctionnelle continue sur V , espace de Hilbert et

soit K l’espace des contraintes. On dit que d est une direction de descente au
point u de K si
i) d est une direction admissible de K̇(u)
ii) Il existe ρ0 > 0 tel que

∀ ∈]0, ρ0 [, J(u + d) < J(u).

On peut aussi écrire une définition plus générale, qui tienne compte des
contraintes égalités:

Définition 6.2 On suppose que d ∈ K(u) et que, de plus, il existe 0 > 0 et

d() tels que d() → d et ∀ < 0 , u + d() ∈ K (généralisation continue de la
direction admissible au sens de Fréchet).
On dit que d est une direction de descente limite au point u de K si il existe
1 ≤ 0 tel que
pour 0 < < 1 , on a J(u + d()) < J(u).

Il est alors clair que

Lemme 6.1 Si d est une direction de descente, c’est une direction de descente
limite.

Ceci est une conséquence du fait que si d est une direction de descente,
d ∈ K̇(u) donc d ∈ K(u) et la suite que l’on peut définir est d() = d.
On a alors le résultat suivant

Lemme 6.2 Si J est différentiable en u et si (J 0 (u), d) < 0, d direction admis-

sible continue, alors d est une direction de descente limite.
6.1. ALGORITHMES DE DESCENTE 89

Preuve Comme d est une direction admissible continue, il existe d() et 0

tels que, pour < 0 , u + d() soit dans K. Comme J est différentiable en u,
on peut écrire l’égalité de Taylor définissant la dérivabilité au sens de Fréchet:

J(u + d()) = J(u) + [(J 0 (u), d) + (J 0 (u), d() − d) + o(1)].

On sait que (J 0 (u), d) < 0 et la forme linéaire représentée par J 0 (u) est
continue donc (J 0 (u), d() − d) + o(1) tend vers 0. Il existe 1 < 0 tel que, pour
< 1 , |(J 0 (u), d() − d) + o(1)| ≤ − 21 (J 0 (u), d). Ainsi, pour de tels on trouve
[(J 0 (u), d) + (J 0 (u), d() − d) + o(1)] < 0, donc J(u + d()) < J(u), ce qu’il
fallait démontrer.
Remarque: la réciproque est fausse. Il suffit de prendre la fonction J(x, y) =
−(x4 + y 4 ). Au point (0, 0), toute direction est une direction de descente
continue et pourtant la dérivée est la forme différentielle nulle. Si on prend
J(x, y) = x+y−(x4 +y 4 ), la forme linéaire dérivée est (J 0 (0, 0), h1 , h2 ) = h1 +h2 ,
et toute direction telle que h1 + h2 ≤ 0 est une direction de descente.
La définition où on étudie le point u + d n’est pas adaptée aux contraintes
égalités, pour lesquelles la bonne notion (pour une direction admissible) est la
notion de direction admissible continue. En fait, avoir à la fois le paramètre et
la direction d() qui varient n’est pas pratique dans l’écriture d’un algorithme.
On écrit donc un résultat, qui permet de s’affranchir du cas des contraintes
égalité:

Proposition 6.1 Soit J une fonctionnelle différentiable sur un espace de Hilbert

V et F une fonctionnelle différentiable. Le problème:

infJ(v)
v ∈ K, F (v) = 0
est équivalent, pour tous les points u où F (u) = 0, F 0 (u) 6= 0, à un problème
de minimisation sur (F 0 (u))⊥ de la forme

{v + tF 0 (u) ∈ K, t = g(v), v ∈ (F 0 (u))⊥ }

˜ = J(u + v + g(v)F 0 (u)).
pour la fonctionnelle J(v)

Ceci est un résultat de réduction des variables. On en verra l’utilisation

plus loin, lorsqu’on étudiera l’algorithme de gradient réduit.

Preuve Comme F 0 (u) est non nul, il définit une droite vectorielle dans l’espace
de Hilbert, qui est un fermé convexe. Ainsi tout point w de l’espace de Hilbert se
projette en un point φ(w)F 0 (u), et on a w − φ(w)F 0 (u) dans l’espace orthogonal
à F 0 (u).
L’égalité F (v + u + tF 0 (u)) = 0 a pour solution t = 0, v = 0 car u vérifie
F (u) = 0. Pour chaque v dans (F 0 (u))⊥ , on trouve, par le théorème des fonc-
tions implicites (dû à ∂t (F (v+u+tF 0 (u))) = ||F 0 (u)||2 > 0) une unique solution
de l’égalité ci-dessus, soit t = g(v). Alors, au voisinage de u, on étudie pour tout
v dans l’intersection Iu d’une boule de petit rayon et de (F 0 (u))⊥ , la fonction-
nelle sous les contraintes. On voit alors que pour tout v dans Iu , le problème
90 CHAPTER 6. APPROXIMATION DE SOLUTIONS

de minimisation s’écrit u + v + tF 0 (u) ∈ K et u + v + tF 0 (u) ∈ {F (w) = 0},

soit u + v + tF 0 (u) ∈ K et t = g(v), soit u + v + g(v)F 0 (u) ∈ K. Ainsi on s’est
˜ = J(u + v + g(v)F 0 (u)) et au problème
ramené à la fonctionnelle J(v)

˜

 infJ(v)
v ∈ Iu
v + g(v)F 0 (u) ∈ K


La contrainte égalité a ainsi été résolue. On note cependant que résoudre

un problème numérique en utilisant le théorème des fonctions implicites est
quasiment impossible, sauf si les contraintes sont affines.

6.2 Cas classiques d’algorithmes de descente

Un algorithme de descente est donné par la définition suivante:

Définition 6.3 Un algorithme de descente est une suite de points de V × V ×

IR+ , qui s’écrit

(un , dn , ln )
telle que
i) dn est une direction de descente en xn pour J, associée à ρn tel que
J(un + dn ) < J(un ) pour 0 < < ρn
ii) ln est un pas vérifiant 0 < ln < ρn
iii) un+1 = un + ln dn .

Les algorithmes les plus courants sont des algorithmes de recherche linéaires.
En effet, ces algorithmes conduisent, une fois la direction de descente choisie, à
la recherche d’une valeur réelle qui est la valeur du pas. On suppose ainsi que, à
chaque étape, la direction de descente dn soit choisie. Nous allons décrire dans
ce qui suit un certain nombre d’algorithmes.
Dans tous les cas, on notera, par souci de simplicité

φ() = J(u + d). (6.2.1)

6.2.1 Pas optimal

Définition 6.4 Pour chaque couple (u, d), on note, si elle existe, la solution
du problème

Min≥0 J(u + d) = Min≥0 φ().

Il s’appelle le pas optimal.

L’algorithme dit du pas optimal conduit à associer, à chaque (un , dn ), le

point n construit par la définition 6.4. C’est l’algorithme le plus satisfaisant, en
théorie, mais il conduit à déterminer la solution d’un problème de minimisation
chaque fois.
6.2. CAS CLASSIQUES D’ALGORITHMES DE DESCENTE 91

6.2.2 Pas de Curry

Le pas de Curry est donné par:
Définition 6.5 Le pas de Curry est le premier extremum local de φ, soit encore

lc = inf{ > 0, φ0 () = 0}.

Alors φ(lc ) < φ(0), et pour 0 ≤ ≤ lc , φ() ≥ φ(lc ).
Comme φ0 ne s’annule pas sur ]0, lc [, φ0 garde le même signe sur cet Rintervalle,

soit φ0 ≥ 0 ou φ0 ≤ 0. Dans le cas φ0 ≥ 0, on vérifie que φ() − φ(0) ≥ 0 φ0 (t)dt,
ainsi φ() ≥ φ(0), contradiction avec le fait que d soit une direction de descente.
Ainsi φ0 () ≤ 0 sur [0, lc ]. Pour ∈ [0, lc ], on vérifie
Z lc
φ(lc ) − φ() = φ0 (t)dt

donc, pour 0 ≤ ≤ lc , on trouve φ(lc ) ≤ φ().
Dans le cas où lc est un point d’inflexion, on ne peut bien sûr pas conclure
sur le fait que lc soit un minimum local. En revanche, on sait que pour cette
valeur, φ(lc ) est le minimum de φ sur [0, lc ].

6.2.3 Pas de Goldstein

Définition 6.6 On dit que lg est un pas de Goldstein si il existe m1 , m2 tels
que 0 < m1 < m2 < 1 tels que

φ(lg ) ≥ φ(0) + m1 lg φ0 (0)

φ(lg ) ≤ φ(0) + m2 lg φ0 (0)

C’est un pas pseudo optimal, qui vérifie

φ(lg ) − φ(0)
0 < m1 ≤ ≤ m2 < 1.
lg φ0 (0)
La situation importante est la situation où il existe au moins 1 , 0 < 1 < ρ0
tel que

φ(0) + 1 φ0 (0) < φ(1 ) < φ(0).

Dans ce cas, on a la
Proposition 6.2 i) Si φ() ≤ φ(0) + φ0 (0) pour tout ∈ [0, ρ0 ], il n’existe pas
de pas de Goldstein.
ii) Dans le cas contraire, il existe m1 , m2 ∈]0, 1[, m1 < m2 tel que l’ensemble
des points l vérifiant les inégalités de la définition 6.6 soit non vide.
iii) Toujours dans le cas contraire, il existe 2 > 0 et M > 0 (dans le cas
où la fonctionnelle admet un minimum) tel que, pour tout lg , 2 ≤ lg ≤ M .
Selon le point iii), il y a une borne supérieure pour lg , et lg n’est pas trop
petit. Ces deux remarques sont importantes, et en particulier si on avait
φ() ≤ φ(0) + φ0 (0) on n’aurait pas de majorant a priori de .
92 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Preuve On note m = φ(11φ)−φ(0) 0 (0) . On sait que m ∈]0, 1[ et si on choisit m1 <

m < m2 , l’ensemble des pas de Goldstein associés à [m1 , m2 ] est non vide. En
effet, définissons h() = φ()−φ(0)
φ0 (0) et, par continuité, h(0) = 1. La fonction h est
une fonction continue.
Par le théorème des valeurs intermédiaires, comme h(0) = 1 et h(1 ) = m,
l’image réciproque dans [0, 1 ] de [m, m2 ] ⊂ [m, 1] est non vide. Tout point de
[m, m2 ] a au moins un antécédent par h, qui est un pas de Goldstein.
D’autre part, l’image réciproque de ]m2 , 1] contient un voisinage [0, 2 ] de
= 0 puisque h(0) = 1. Ainsi on a ∀ ∈ h−1 (]m2 , 1]), n’est pas un pas de
Goldstein, donc si lg est un pas de Goldstein, lg ≥ 2 .
Enfin, on ne peut pas avoir → ∞. En effet, cela impliquerait que pour
tout , ou au moins pour une suite n tendant vers +∞, la relation

φ(n ) − φ(0)
≥ m1
n φ0 (0)
soit φ(n ) ≤ φ(0)+m1 φ0 (0)n . Il existe donc une suite n telle que J(u+n d) →
−∞, et le minimum n’existe pas.

6.2.4 Pas de Wolfe

Définition 6.7 lw est un pas de Wolfe si il existe m1 , m2 , 0 < m1 < m2 < 1
tels que

φ(lw ) ≤ φ(0) + m1 lw φ0 (0)

φ0 (lw ) ≥ m2 φ0 (0)

Ce pas de Wolfe a les mêmes propriétés que celui de Goldstein; en effet on

Proposition 6.3 i) Si φ0 () ≤ φ0 (0) pour tout ∈ [0, ρ0 [, il n’existe pas de pas
de Wolfe. (On note que cela implique qu’il n’existe pas de pas de Goldstein).
ii) Dans le cas contraire, il existe (m1 , m2 ) tels que l’ensemble des points l
vérifiant les inégalités de la définition 6.7 est non vide.
iii) Il existe 02 > 0 et M > 0 tels que lw ≥ 02 , lw ≤ M .

φ0 (1 )
Preuve Si 1 donné tel que φ0 (1 ) > φ0 (0), alors m = φ0 (0) < 1 et donc on
φ0 (0) 0 ()
choisit m2 ∈]m, 1[. Comme = 1 et que la fonction
φ0 (0) → φφ0 (0)
est continue,
par le théorème des valeurs intermédiaires, tout point de ]m, 1] a au moins un
antécédent, et l’image réciproque de ]m2 , 1] contient un voisinage de 0. On
prend un point l de (φ0 )−1 [m2 φ0 (0), mφ0 (0)], ainsi l ≥ 02 .
La fonction → φ()−φ(0)
φ0 (0) est continue sur le compact [02 , ρ0 ] et ne s’annule
pas sur cet intervalle, donc

φ() − φ(0)
inf∈[02 ,ρ0 ] = α > 0.
φ0 (0)
6.3. RÉSULTATS DE CONVERGENCE 93

Si on choisit 0 < m1 < α, on trouve que pour tout ∈ [02 , ρ0 ], φ()−φ(0)

φ0 (0) ≥ α,
donc est un pas de Wolfe.
Enfin, si on était dans le cas ρ0 = +∞ et si il existait une suite de pas de
Wolfe qui tendait vers +∞, il existe donc n telle que φ(n ) ≤ φ(0) + m1 n φ0 (0),
donc J(u + n d) → −∞ et le minimum n’existe pas.

6.3 Résultats de convergence

On a le

Théorème 6.2 On suppose J continuement différentiable et on suppose que

l’on a un algorithme de descente (un , dn , ln ) vérifiant ||dn || = 1. On suppose
qu’il existe α > 0 tel que

(H) (J 0 (un ), dn ) ≤ −α|dn ||J 0 (un )| = −α|J 0 (un )|.

i) Si, à chaque étape n, ln est un pas de Curry ou de Wolfe, et si la suite
un converge, elle converge vers une solution de J 0 (u) = 0.
ii) si ln est un pas de Goldstein ou de Wolfe, alors J(un ) → −∞ ou
lim inf||J 0 (un )|| = 0.

On démontre ce théorème.
Preuve de i)
On suppose que la suite un converge (dans le cas du pas de Curry). Ainsi,
comme un+1 − un tend vers 0, ln tend vers 0 puisque dn est de norme 1. D’autre
part, comme J est continuement différentiable, la dérivée de φ est

φ0 () = (J 0 (un + dn ), dn ).

Dans le cas où ln est le pas de Curry, on a (J 0 (un + ln dn ), dn ) = 0. D’autre
part

(J 0 (un + ln dn ) − J 0 (un ), dn ) = −(J 0 (un ), dn ) ≥ α||J 0 (un )||.

On a l’inégalité

|(J 0 (un + ln dn ) − J 0 (un ), dn )| ≤ ||J 0 (un + ln dn ) − J 0 (un )||

On trouve alors
1 0
||J 0 (un )|| ≤
||J (un + ln dn ) − J 0 (un )||.
α
Comme J 0 est continue, on vérifie que J 0 (un+1 ) − J 0 (u) − (J 0 (un ) − J 0 (u)) tend
vers 0 dans l’espace des formes linéaires, donc on en déduit que J 0 (un ) tend
vers 0.
D’autre part, la suite J(un ) est strictement décroissante (par construction)
donc comme un converge vers u, la suite J(un ) converge vers J(u) et la suite
J 0 (un ) converge vers J 0 (u). On en déduit J 0 (u) = 0. Le point i) est démontré
pour le pas de Curry.
94 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Démontrons le point i) pour la règle de Wolfe. On suppose que un con-

verge. Par continuité J(un ) converge vers J(u) et J 0 (un ) converge vers J 0 (u).
On a (J 0 (un ), dn ) ∈ [−α||J 0 (un )||, 0] donc toute suite extraite convergente de
(J 0 (un ), dn ) converge vers une limite l dans l’intervalle [−α||J 0 (u)||, 0].
On utilise la deuxième inégalité du pas de Wolfe. On a alors (J 0 (un+1 ), dn ) ≥
m2 (J 0 (un ), dn ). On note que si on prend une suite extraite convergente de
(J 0 (un ), dn ), notée (J 0 (uφ(n) ), dφ(n) ), la suite (J 0 (uφ(n)+1 ), dφ(n) ) converge aussi
vers l car la différence est majorée par un terme tendant vers 0 par continuité
de J 0 et convergence de la suite un . Ainsi, l qui est négatif vérifie l’inégalité
l ≥ m2 l, soit (1 − m2 )l ≥ 0 donc l = 0.
On a démontré le point i) pour la règle de Wolfe.
Démontrons le point ii). Pour cela, suposons que liminf||J 0 (un )|| = α0 > 0.
Alors il existe N assez grand tel que, pour tout n ≥ N on ait ||J 0 (un )|| > α20 . Si
cela n’était pas le cas, il existerait un nombre infini de termes de cette suite de
nombres positifs qui sont compris entre 0 et α20 , donc il existerait une sous-suite
extraite de cette suite qui convergerait vers une valeur comprise entre 0 et α20 ,
contradictoire avec l’hypothèse que α0 est la plus petite des limites des suites
extraites.
On en déduit alors
αα0
||un+1 − un || ≤ J(un ) − J(un+1 ).
2
Si J(un ), qui est une suite décroissante, ne tend pas vers −∞, alors elle
tend vers une limite l et la série de terme généralP (J(un ) − J(un+1 )) est une
série convergente, donc la somme de la série u1 + n (−un + un+1 ) existe, et on
la note u, qui est la limite de la suite un . Deux cas se présentent: l’application
de la règle de Wolfe et de celle de Goldstein.
i) Règle de Wolfe. D’après le i), comme un a une limite, notée u, on sait
que la suite J 0 (un ) est convergente et que sa limite est J 0 (u) = 0, ce qui est
contradictoire avec l’hypothèse que la limite inf de ||J 0 (un )|| est nulle.
On a donc démontré que liminf||J 0 (un )|| = α0 > 0 ⇒ J(un ) → −∞. On
en déduit que si J(un ) converge vers une limite finie, alors liminf||J 0 (un )|| = 0.
Notons qu’on ne peut pas conclure directement que la suite un converge.
ii) Règle de Goldstein
On suppose donc que la suite J(un ) converge vers une limite l. On suppose
aussi que liminf||J 0 (un )|| = α0 > 0. Ceci implique que la suite un est conver-
gente, et sa limite est notée u. Par continuité de J et de J 0 , J(un ) tend vers
J(u) et J 0 (un ) tend vers J 0 (u). Contrairement à la règle de Wolfe, on n’a pas
d’autre information sur la dérivée. En effet, l’information sur la limite inf nous
apprend que ||J 0 (un )|| ≥ α20 pour n ≥ n0 , mais on n’a pas le même résultat
pour (J 0 (un ), dn ).
On sait, par la règle de Goldstein, que

J(un ) − J(un+1 )
∈ [m1 , m2 ].
(J 0 (un ), un − un+1 )
Dans le cas où on suppose que J 0 est uniformément continue sur
un borné contenant u, alors pour n assez grand comme la suite un converge
6.4. ALGORITHMES DE GRADIENT 95

vers u, les points un sont dans ce borné. Ainsi on aura

Z 1
−J(un ) + J(un+1 ) = (J 0 (un + θ(un+1 − un )), un+1 − un )dθ
0
donc on en déduit que
|J(un ) − J(un+1 ) − (J 0 (un ), un+1 − un )| ≤ ||un+1 − un ||, n ≥ n .
Ainsi, divisant les deux membres par (J 0 (un ), un+1 −un ) et utilisant l’inégalité
(J 0 (un ), dn ) ≤ −α||J 0 (un )||, dans le cas où J 0 (un ) ne tend pas vers 0, pour
n ≥ n ,

J(un ) − J(un+1 ) ||un+1 − un || 2

| 0
−1| ≤ 0
= 0
≤ 0
≤ .
(J (un ), un+1 − un ) |(J (un ), un+1 − un )| |(J (un ), dn )| α||J (un )|| αα0
On en déduit que le quotient (JJ(u n )−J(un+1 )
0 (u ),u
n n+1 −un )
tend vers 1. Comme ce quotient
appartient à [m1 , m2 ] et que m2 < 1 il y a contradiction. Le résultat est
démontré sous l’hypothèse d’uniforme continuité ou de continuité dans un borné
en dimension finie.
Remarque 1 : le i) peut s’étendre à toute sous-suite convergente dans le
cas où la suite ln tend vers 0. On note que ceci n’implique pas que la suite
un converge : exemple si dn = e1 pour tout n et si ln = n1 alors il n’y a pas
convergence de un .
Remarque 2 :Pour la règle de Goldstein, il suffit, en dimension finie que J
vérifie l’une des deux conditions suivantes :
(*) J 0 est uniformément Lipschitz sur tout borné
(**) la fonctionnnelle J est deux fois Fréchet dérivable à dérivée continue
(qui implique la condition (*) et qui se retrouve le plus fréquemment)

6.4 Algorithmes de gradient

6.4.1 Définition
On commence par le résultat suivant, qui nous donnera l’algorithme de gradient
Proposition 6.4 Soit φ(l, d) = J(un + ld). On suppose J 0 (un ) 6= 0.

inf φ0 (0, d) = −||J 0 (un )||

||d||=1
0
et ce minimum est atteint pour d = − ||JJ 0 (u
(un )
n )||
.

On note que φ0 (0, d) = −(J 0 (un ), d). On a, par l’inégalité triangulaire

|φ0 (0, d)| ≥ −||d||||J 0 (un )||

et l’égalité est atteinte dans le cas d’égalité pour Cauchy-Schwartz, soit pour d
colinéaire à J 0 (un ), ce qui correspond au vecteur indiqué.
La direction du gradient est, parmi les directions de norme 1, la meilleure
pour le taux de décroissance de la fonctionnelle. C’est par ce type d’algorithme
que l’on recherche la solution de f = 0 par la méthode de Newton.
96 CHAPTER 6. APPROXIMATION DE SOLUTIONS

6.4.2 L’algorithme de gradient à pas optimal

On démontre le

Théorème 6.3 Soit J une fonctionnelle α−convexe sur un espace de Hilbert

H, telle que J 0 est uniformément continue sur tout borné. La suite, définie par
la relation

un+1 = un − µn J 0 (un ),
où µn est la solution unique de (J 0 (un − µJ 0 (un )), J 0 (un )) = 0 qui s’appelle
l’algorithme de gradient à pas optimal, converge vers l’unique valeur qui rend
minimum la fonctionnelle J.

L’agorithme de gradient à pas optimal est défini par la suite

un+1 = un − µJ 0 (un )
et on cherche un+1 = inf µ∈IR J(un − µJ 0 (un )). Il est clair que la dérivée de
φ(µ) = J(un − µJ 0 (un )) est donnée par

φ0 (µ) = −(J 0 (un − µJ 0 (un )), J 0 (un )).

Comme J est α−convexe, lorsque J 0 (un ) 6= 0 (ce qui correspond au cas où on
n’a pas atteint le point de minimum) on a φ α(||J 0 (un )||2 )−convexe. En effet

(J 0 (un − µ1 J 0 (un )) − J 0 (un − µ2 J 0 (un )), un − µ1 J 0 (un ) − un + µ2 J 0 (un ))

≥ α||un − µ1 J 0 (un ) − un + µ2 J 0 (un ))||2
= α(µ2 − µ1 )2 ||J 0 (un )||2 .

En remplaçant la différence, on trouve

(φ0 (µ1 ) − φ0 (µ2 ), µ1 − µ2 ) ≥ α(µ2 − µ1 )2 ||J 0 (un )||2

d’où l’α−convexité de φ. Le problème de minimisation admet donc une solution
unique µn . De plus, µn est solution de φ0 (µn ) = (J 0 (un −µn J 0 (un )), J 0 (un )) = 0,
on en déduit que (J 0 (un+1 ), J 0 (un )) = 0 et deux directions de descente succes-
sives sont orthogonales.
La démonstration du théorème 6.3 s’appuie sur l’inégalité de convexité
α n+1
J(un ) − J(un+1 ) ≥ (J 0 (un+1 ), un − un+1 ) + ||u − un ||2
2
et sur l’égalité un+1 − un = −µn J 0 (un ), ce qui annule le premier terme de
l’inégalité ci-dessus car (J 0 (un+1 ), J 0 (un )) = 0.
On a donc démontré que J(un ) − J(un+1 ) ≥ α2 ||un − un+1 ||2 . La suite J(un )
est décroissante, bornée par le minimum de J, donc elle converge, donc on en
déduit que ||un − un+1 || tend vers 0.
D’autre part, on vérifie que

||J 0 (un )||2 = (J 0 (un ), J 0 (un ) − J 0 (un+1 ))

6.4. ALGORITHMES DE GRADIENT 97

car deux directions successives sont orthogonales. Ainsi

||J 0 (un )|| ≤ ||J 0 (un ) − J 0 (un+1 )||.

D’autre part, la suite un est bornée. En effet, si elle ne l’était pas, il existerait
une sous suite uφ(n) qui tendrait, en norme, vers +∞, et comme la fonctionnelle
J est α−convexe, elle est infinie à l’infini et la suite J(uφ(n) ) tendrait vers
+∞, contradiction. Dans ce cas, en utilisant l’uniforme continuité sur une
boule fermée qui contient tous les termes de la suite un , on en déduit que
||J 0 (un ) − J 0 (un+1 )|| ≤ C||un − un+1 ||. On a alors

2 1 p
||J 0 (un )|| ≤ C||un − un+1 || ≤ ( ) 2 C J(un ) − J(un+1 ).
α
On en déduit la convergence de la suite J 0 (un ) vers 0. On note u le point
où J est minimale. Par la coercivité

(J 0 (un ) − J 0 (u), un − u) ≥ α||un − u||2 .

Par l’inégalité de Cauchy-Schwarz, on trouve

α||un − u||2 ≤ ||J 0 (un )||.||un − u||

ce qui implique

1 0 n
||un − u|| ≤ ||J (u )||
α
donc

1 2 1 p
||un − u|| ≤ ( ) 2 C J(un ) − J(un+1 )
α α
et donc la suite un converge vers u.

Proposition 6.5 Pour que les hypothèses du théorème 6.3 soient vérifiées, il
suffit que J vérifie
i) soit J fonctionnelle α−convexe dérivable, J 0 continue en dimension finie
ii) soit J fonctionnelle α−convexe dérivable, J 0 Lipschitzienne sur tout
borné en dimension infinie
iii) soit J est une fonctionnelle deux fois Fréchet dérivable, telle que la
dérivée seconde soit autoadjointe et vérifie

m||w||2 ≤ (J 00 (u)w, w) ≤ M ||w||2

avec m > 0.
On remarque que ces conditions sont telles que iii) → ii) → i).

Ce résultat provient de l’uniforme continuité sur un compact d’une fonc-

tionnelle continue en dimension finie.
98 CHAPTER 6. APPROXIMATION DE SOLUTIONS

6.4.3 Algorithme de gradient à pas constant

Théorème 6.4 On a convergence de l’algorithme de gradient à pas fixe, seule-
ment si J 0 est Lipschitzien sur V tout entier, lorsque 0 < µ < C 2α
2.

La preuve est plus simple. On écrit un+1 − un = −µJ 0 (un ). Ainsi, soit u
la solution On trouve un+1 − u = un − u − µ(J 0 (un ) − J 0 (u)). On utilise un
argument de type “théorème du point fixe”. Ainsi

||un+1 − u||2 = ||un − u||2 − 2µ(J 0 (un ) − J 0 (u), un − u) + µ2 ||J 0 (un ) − J 0 (u)||2
≤ (1 − 2µα + µ2 C 2 )||un − u||2
où C est la constante de Lipschitz de J 0 sur tout l’espace de Hilbert. La
démonstration est terminée car la suite ||un − u|| est alors majorée par une
suite géométrique convergeant vers 0. Dans cette inégalité, on peut choisir la
meilleure valeur de µ, c’est-à-dire celle qui minimise le taux de convergence. Le
minimum de la fonction 1 − 2µα + µ2 C 2 est alors atteint en µ = Cα2 et le taux
q
α2
de convergence est alors 1 − C 2 . En particulier, si la fonctionnelle est une
fonctionnelle quadratique en dimension finie, la valeur optimale de α est la plus
petite des valeurs propres de A = J 00 alors que la valeur optimale de C est la
plus grande des valeurs propres de A. On voit donc la difficulté essentielle à
choisir correctement la meilleure valeur de µ puisque la recherche des valeurs
propres est un problème difficile. On peut espérer une valeur de α inférieure à
λmin et une valeur de C plus grande que λmax , ce qui réduit d’autant le pas.

6.4.4 Taux de convergence de l’algorithme du gradient en di-

mension finie
Le but de cette section est de démontrer le résultat suivant:
Théorème 6.5 On suppose J de classe C 2 , α−convexe et on suppose que le
Hilbert V est de dimension finie d. Soit u la valeur du point où J atteint son
minimum. On note λmax et λmin les plus grande et plus petite valeur propre de
la matrice hessienne (définie positive) J”(u). On désigne par
λmax
γ= .
λmin
Cette valeur s’appelle le conditionnement de J”(u). On note β = γ−1 γ+1 , et si β
est proche de 1, l’algorithme peut converger très lentement. On dit dans ce cas
que la matrice J”(u) est mal conditionnée.
i) Lorsque J est quadratique, l’algorithme de gradient vérifie l’inégalité:

||un+1 − u||J”(u) ≤ β n ||u1 − u||J”(u) .

ii) Lorsque J est quelconque, l’algorithme de gradient vérifie l’inégalité
γ−1
∀β > , ∃n0 ,
γ+1

∀n ≥ n0 , ||un+n0 − u|| ≤ Dβ n ||un0 − u||.

6.4. ALGORITHMES DE GRADIENT 99

Ce théorème est très important de manière théorique, mais la valeur du

conditionnement est difficilement accessible donc il est difficile à utiliser en
pratique. Cependant, en comparant les deux algorithmes, celui-ci a un taux de
convergence en γ−1
γ+1 alors que l’algorithme du gradient à pas constant a pour
1
taux de convergence (1 − γ12 ) 2 . Sa démonstration se fait en deux temps:
i) on le démontre pour J(x) = 12 (Ax, x)
ii) on le démontre dans le cas général.
On se place d’abord dans le cas J(x) = 12 (Ax, x).
Pour toute fonctionnelle quadratique, on peut se ramener à ce cas car si A
est définie positive symétrique, on note x0 la solution de Ax = b et la forme
quadratique (qui par définition a pour dérivée seconde A) vérifie Q(x)− 21 (Ax, x)
est affine continue, donc par le théorème de représentation de Riesz, Q(x) −
1 1
2 (Ax, x) − Q(0) étant linéaire continue, il existe b telle que Q(x) − 2 (Ax, x) −
Q(0) = (b, x). On vérifie alors que Q(x) − Q(0) = 21 (A(x − x0 ), x − x0 ) −
1
2 (Ax0 , x0 ). Une fois la représentation précédente obtenue, on introduit φ(l) =
J(u − lJ 0 (u)). On a

1 1 l2
φ(l) = J(u−lAu) = (Au−lA2 u, u−lAu) = (Au, u)−l(A2 u, u)+ (A2 u, Au).
2 2 2
(Au,Au)
On en déduit que la valeur du pas optimal est l = (A2 u,Au)
et que la valeur
minimale de φ est

1 (Au, Au)2 (Au, Au)2

[(Au, u) − 2 ] = J(u)(1 − 2 ).
2 (A u, Au) (A u, Au)(Au, u)
Le résultat dans ce cas s’appuie alors sur le lemme de Kantorovitch:

Lemme 6.3 On a l’inégalité, pour A matrice symétrique définie positive:

(y, y)2 4λmin λmax

∀y ∈ IRm \0, ≥ .
(Ay, y)(A−1 y, y) (λmin + λmax )2

Ce résultat est démontré dans la section 2.4.6. La suite donnée par l’algorithme
(Aun ,Aun )
de gradient à pas optimal est un+1 = un −ln Aun , où ln = (A 2 un ,Aun ) et on trouve

(Aun , Aun )2
J(un+1 ) = J(un )(1 − ).
(A2 un , Aun )(Aun , un )
Dans cette égalité, on prend yn = Aun et on utilise le lemme de Kan-
torovitch. Alors on trouve

4λmin λmax λmax − λmin 2

J(un+1 ) ≤ J(un )(1 − )=( ) .
(λmax + λmin )2 λmax + λmin
p
Comme ||un ||A = 2J(un ), on trouve l’inégalité

||un+1 − 0||A ≤ β||un − 0||A

d’où la convergence géométrique de la suite un vers 0.

100 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Nous passons à l’étude dans le cas général. Pour ce faire, on utilise la formule
de Taylor avec reste intégral pour J et pour J 0 . Pour simplifier les notations,
on effectue une translation sur l’inconnue u pour se ramener au minimum u = 0
et on change J(u) en J(u) − l où l est le minimum de J.
Les formules de Taylor s’écrivent

Z 1 Z 1
1
J(u) = (1−θ)(J 00 (0+θu)u, u)dθ = (J 00 (0)u, u)+([ (1−θ)(J 00 (θu)−J 00 (0))]u, u).
0 2 0

Z 1
J 0 (u) = J 00 (0)u + ( J 00 (θu)dθ − J 00 (0))u
0

que l’on écrira pour simplifier J(u) = 12 (J 00 (0)u, u) + (Q(u)u, u) et J 0 (u) =

J 00 (0)u + R(u)u, où Q et R, par la continuité de la dérivée seconde au sens de
Fréchet, sont égales à o(1) (c’est à dire tendent vers 0 lorsque u tend vers 0).
On sait déjà que l’algorithme du gradient converge, donc il existe n0 tel
que ||un || ≤ δ0 pour n ≥ n0 . On cherche donc, pour u donné l’unique solution
de (J 0 (u − µJ 0 (u)), J 0 (u)) = 0. On note, comme précédemment, φ(µ) = J(u −
µJ 0 (u)), φ0 (µ) = −(J 0 (u−µJ 0 (u)), J 0 (u)), φ00 (µ) = (J 00 (u−µJ 0 (u))J 0 (u), J 0 (u)).
On vérifie que

−φ0 (µ) = (J 00 (0)(u − µJ 0 (u)) + R(u − µJ 0 (u))(u − µJ 0 (u)), J 00 (0)u + R(u)u)

= (J 00 (0)u, J 00 (0)u) − µ(J 00 (0)J 0 (u), J 00 (0)u)
+R(u − µJ 0 (u))(u − µJ 0 (u)), J 00 (0)u + R(u)u) .
= (J 00 (0)u, J 00 (0)u) − µ(J 00 (0)2 u, J 00 (0)u) − µ(J 00 (0)R(u)u, J 00 (0)u)
+R(u − µJ 0 (u))(u − µJ 0 (u)), J 00 (0)u + R(u)u)

Ainsi si on étudie, pour u tendant vers 0, la solution de φ0 (µ) = 0, on trouve

(J 00 (0)u,J 00 (0)u)
que µ est proche de µ0 (u) = (J 00 (0)2 u,J 00 (0)u) , qui est homogène de degré 0 en

u, non singulier car la matrice J”(0) est symétrique définie positive. On écrit
alors µ = µ0 + β. On trouve

−φ0 (µ) = −β(J 00 (0)2 u, J 00 (0)u) − (µ0 + β)(J 00 (0)R(u)u, J 00 (0)u)

+R(u − (µ0 + β)J 0 (u))(u − (µ0 + β)J 0 (u)), J 00 (0)u + R(u)u).

La relation φ0 (µ) = 0 s’écrit alors aussi sous la forme

(J 00 (0)R(u)u, J 00 (0)u) R(u − (µ0 + β)J 0 (u))(u − (µ0 + β)J 0 (u)), J 00 (0)u + R(u)u)
β+(µ0 +β) − = 0.
(J 00 (0)2 u, J 00 (0)u) (J 00 (0)2 u, J 00 (0)u)

On vérifie alors que, par le théorème des fonctions implicites, il existe une
fonction β(u) telle que β(u) = o(1) c’est-à-dire tend vers 0 avec ||u||. Cette
valeur de β(u) détermine l’unique pas optimal.
On calcule alors

J(u − (µ0 + β(u))J 0 (u)).

6.4. ALGORITHMES DE GRADIENT 101

On s’intéresse au point de base. Il reste

φ(u) = u − (µ0 + β(u))J 0 (u) = u − µ0 J”(0)u − β(u)J”(0)u − µ0 R(u)u

et ce terme peut s’écrire

φ(u) = u − µ0 J”(0)u + S(u)u

où S(u) = β(u)J”(0)+µ0 R(u), et tend vers 0 dans l’espace des matrices comme
||u||.
On a alors J(φ(u)) = 12 (J”(0)(u−µ0 J”(0)u+S(u)u), u−µ0 J”(0)u+S(u)u)+
(Q(φ(u))φ(u), φ(u)). On remarque alors que, comme φ(u) = u − µ0 J”(0)u +
S(u)u, pour ||u|| assez petit on trouve que ||φ(u)|| ≤ C||u||. Ainsi on trouve
1
J(φ(u)) = (J”(0)(u − µ0 J”(0)u), u − µ0 J”(0)u) + (u)||u||2 ,
2
où le terme (u) tend vers 0 avec ||u||.
On reconnait le calcul dans le cas de la forme quadratique 21 (Au, u), ce qui
donne tout de suite

1 (J”(0)u, J”(0)u)2
J(φ(u)) = (J”(0)u, u)(1 − ) + (u)||u||2 .
2 (J”(0)u, u)((J”(0))2 u, J”(0)u)

Enfin, on reconnait que J(u) = 21 (J”(0)u, u)(1 + η(u)) avec η(u) tend vers
0 comme ||u|| puisque J”(0) est symétrique définie positive donc (J”(0)u, u) ≥
λmin ||u||2 . Ainsi il vient
J(u) (J”(0)u,J”(0)u)2
J(φ(u)) = 1+η(u) (1 −
(J”(0)u,u)((J”(0))2 u,J”(0)u)
) + (u)||u||2
(J”(0)u,J”(0)u) 2
= J(u)(1 − (J”(0)u,u)((J”(0)) 2
2 u,J”(0)u) ) + (u)||u||
η(u) (J”(0)u,J”(0)u)2
− 1+η(u) (1 − (J”(0)u,u)((J”(0)) 2 u,J”(0)u) )J(u).

Utilisant alors la plus petite valeur propre de J”(0), on constate qu’il existe une
fonction g(u), tendant vers 0 si ||u|| → 0, telle que

(J”(0)u, J”(0)u)2
J(φ(u)) = J(u)(1 − + g(u)).
(J”(0)u, u)((J”(0))2 u, J”(0)u)
max −λmin
On se donne β > λλmax 2 4λmax λmin
+λmin . On remarque que β + (λmax +λmin )2 > 1. Alors,
comme la suite un converge vers le minimum de la fonctionnelle 0, il existe n0
tel que pour n ≥ n0 on ait

4λmax λmin
1 + g(u) ≤ β 2 + .
(λmax + λmin )2
On en déduit, par application du lemme de Kantorovitch

(J”(0)u,J”(0)u)2 4λmax λmin (J”(0)u,J”(0)u)2

1 + g(u) − (J”(0)u,u)((J”(0))2 u,J”(0)u)
≤ β2 + (λmax +λmin )2
− (J”(0)u,u)((J”(0))2 u,J”(0)u)
≤ β2.
102 CHAPTER 6. APPROXIMATION DE SOLUTIONS

On a donc, pour n ≥ n0

J(un+1 ) ≤ β 2 J(un )
ce qui donne

J(un+n0 ) ≤ β 2n J(un0 ).
Il suffit de rappeler la relation que l’on a obtenue précédemment
1 2 1 p
||un − u|| ≤ ( ) 2 C J(un ) − J(un+1 ).
α α
On utilise α = λmin et C = λmax , et J(un ) − J(un+1 ) ≤ β 2 J(un ) pour obtenir

λmax p
||un+n0 − u|| ≤ 3 β n+1 2J(un0 ).
2
λmin
On a donc démontré une convergence géométrique de la suite un vers u,
ayant un taux de convergence β arbitraire, strictement supérieur à γ−1
γ+1 . Ce
taux de convergence est moins bon au fur et à mesure que le conditionnement
de la matrice γ tend vers +∞. c’est par exemple ce qui se passe dans un espace
de Hilbert lorsqu’on l’approxime par des espaces de dimension finie de plus
en plus grand et que la matrice admet des valeurs propres formant une suite
tendant vers +∞. Le point ii) du théorème est démontré.

6.4.5 Algorithme de gradient réduit

On cherche dans cette section à minimiser une fonctionnelle J(x) sous la con-
trainte x ∈ K = {Ax = b}, A matrice d × m de rang d < m.
On suppose pour simplifier l’expression que les inconnues sont ordonnées de
sorte que

A = (A0 , A1 )
où A0 est une matrice d × d inversible et A1 est une matrice d × (m − d).

Proposition 6.6 L’algorithme de gradient réduit est une suite (un , dn , µn )

donnée par

u0 = (A−1 0 0 0 0 −1 t 0 0
0 (b − A1 y ), y ), d0 = Jy (u ) − (A0 A1 ) Jx (u )

et, tant que dn non nul, on construit la suite par

y 1 = y 0 − µ0 d0 , u1 = (A−1 1 1 0 1 −1 t 0 1
0 (b − A1 y ), y ), d1 = Jy (u ) − (A0 A1 ) Jx (u ),

y n+1 = y n −µn dn , un+1 = (A−1

0 (b−A1 y
n+1
), y n+1 ), dn+1 = Jy0 (un+1 )−(A−1 t 0
0 A1 ) Jx (u
n+1
).

Cet algorithme de gradient réduit est un algorithme de descente pour le

problème avec contrainte. Si le pas est choisi convenablement, il converge. Dans
6.4. ALGORITHMES DE GRADIENT 103

le cas où la fonctionnelle est α−convexe et Lipschitzienne sur tout borné, il

converge (pas optimal ou pas fixe).

On vérifie tout d’abord que IRm = {(x, y), x ∈ IRd , y ∈ IRm−d }, et que
A(x, y) = A0 x + A1 y. On en déduit que (x, y) ∈ K ⇔ A0 x = b − A1 y, soit
x = A−1
0 (b − A1 y).
On utilise la procédure décrite dans la proposition 6.1. On en déduit que

J(u) = J(A−1
0 (b − A1 y), y) = Jr (y).

Pour calculer la dérivée, on emploie la différentielle de Gâteaux. On trouve

alors, pour w ∈ IRm−d , et notant p(y) = (A−1 0 (b − A1 y), y)

Jr (y + w) − Jr (y) = J(A−1 0 (b − A1 (y + w)), y + w) − J(p(y))

= J(p(y) − A−1 0 A1 w, y + w) − J(p(y))
= (J 0 (p(y)), (−A−1
0 A1 w, w)) + o()

Si on écrit la dérivée J 0 en (Jx0 , Jy0 ), on trouve que

(Jr0 (y), w) = (Jx0 (p(y)), −A−1 0

0 A1 w) + (Jy (p(y)), y), w)

Utilisant la transposée, il vient

(Jr0 (y), w) = (Jy0 (p(y)) − (A−1 t 0

0 A1 ) Jx (p(y)), w).

On en déduit la relation

Jr0 = Jy0 − (A−1 t 0

0 A1 ) Jx .

L’algorithme de gradient usuel construit une suite (y n , dn ) caracérisée par

un = (A−1 n n 0 n −1 t 0 n
0 (b − A1 y ), y ), dn = Jy (u ) − (A0 A1 ) Jx (u ).

On se place dans le cas où dn 6= 0 (car sinon on aurait atteint le point de

minimum). Dans ce cas, on introduit

Dxn = −A−1
0 A1 dn .

On a, par définition, A0 Dxn + A1 dn = 0. Soit J 0 (un ) = (dnx , dny ). Le vecteur

Dn = (Dxn , dn ) vérifie

(Dn , J 0 (un )) = (−A−1 n n n −1 t n

0 A1 dn , dx )+(dn , dy ) = (dn , dy −(A0 A1 ) dx ) = (dn , dn ) > 0

donc la direction −Dn est à la fois une direction admissible (continue) et une
direction de descente pour la fonctionnelle J. C’est donc une direction de
descente pour le problème avec contrainte.
D’autre part, si on a Jr0 (y n ) = 0, alors on a dny = (A−1 t n
0 A1 ) dx , ce qui s’écrit

dy = At1 ((A−1
n t n
0 ) dx )
n t −1 t n
dx = A0 ((A0 ) dx )
104 CHAPTER 6. APPROXIMATION DE SOLUTIONS

dont on déduit le multiplicateur de Lagrange, égal à −(A−1 t n

0 ) dx , car on a

J 0 (un ) + λAt = 0.

L’algorithme ainsi construit est un algorithe de gradient pour Jr . Ainsi,

pour la suite yn , dn , il suffit de choisir le pas convenablement pour se placer
dans la catégorie des algorithmes de gradient convergents.
En particulier, si la fonctionnelle est α−convexe Lipschitz alors Jr est aussi
α−convexe Lipschitz puisque les contraintes forment un espace convexe. La
proposition est démontrée.

Généralisation à des contraintes non affines On cherche à généraliser

cet algorithme de gradient réduit à une situation où la contrainte n’est plus
affine. Pour fixer les idées, on suppose de même que le problème s’écrit

infF (x,y)=0 J(x, y)

où ∇x F (x0 , y0 ) inversible pour un point (x0 , y0 ) tel que F (x0 , y0 ) = 0. Notons
que cela signifie que F est une application de K dans IRd , et que si on suppose
K ⊂ IRm (ou plus généralement il existe un système de coordonnées sur K
qui est inclus dans un espace vectoriel de dimension m > d, éventuellement de
dimension non finie), alors x ∈ IRd et y ∈ IRm−d . Comme F est un système
de d équations avec d inconnues x et m − d paramètres y, on se trouve dans
le cadre d’application du théorème des fonctions implicites au voisinage de y0 ,
c’est à dire on peut résoudre localement F (x, y) = 0 sous la forme y = G(x).
L’application G est alors une application de IRd dans IRm−d .
Le problème de minimisation s’écrit alors localement

infJ(G(y), y).

On note J∗ (y) = J(G(y), y). Calculons le gradient de J∗ (qui est donc le

gradient réduit). On note h l’accroissement en y et on écrit la dérivée de
Gâteaux:
J∗ (y+h)−J∗ (y) J(G(y+h),y+h)−J(G(y),y)
=
J(G(y)+(∇y G(y),h)+o(),y+h)−J(G(y),y)
=
On constate que le taux d’accroissement précédent est un taux d’accroissement
pour J au point (G(y), y) dans la direction ((∇y G(y), h), h) (qui est un vecteur
ayant m composantes puisque G est une application de IRm−d dans IRd et donc
son gradient est une matrice d × (m − d) (le nombre de lignes de la matrice
est le nombre de coordonnées de G et le nombre de colonnes est le nombre de
dérivées), ainsi dans cette notation (∇y G, h) = ∇y G.h est un vecteur de taille
d comme application de la matrice d × (m − d) au vecteur dual h dans IRm−d ).
Ainsi, prenant la limite lorsque → 0, on trouve

(J∗0 (y), h) = (J 0 (G(y), y), (∇y G.h, h))

= (∇x J(G(y), y), ∇y J(G(y), y)), (∇y G.h, h)
= ∇x J(G(y), y).[∇y G.h] + ∇y J(G(y), y).h.
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 105

Il faut alors calculer la dérivée de G. Pour cela, on utilise l’identité car-

actérisant G:
F (G(y), y) = 0.
Ainsi, utilisant la même méthode que pour le calcul de la dérivée de J∗ : on
trouve que F∗ (y) = F (G(y), y) a pour dérivée 0 (car c’est la fonction nulle) et
que
((F∗ )0 (y), h) = (∇x F (G(y), y), [∇y G.h]) + (∇y F (G(y), y), h)
où on note que comme F présente d équations, ce gradient est un ensemble de
d vecteurs gradient.
L’égalité F∗ (y) = 0 implique donc

∇y F (G(y), y) + ∇x F (G(y), y).∇y G(y) = 0.

On en déduit alors

∇y G = −(∇x F (G(y), y))−1 .∇y F (G(y), y)

Vérifions la cohérence de cette formule. On a dit que G était une application de

IRm−d dans IRd , donc son gradient est une matrice d×m−d. L’application F est
une application de IRm dans IRd , donc son gradient en y est une matrice d×m−d,
son gradient en x est une matrice d × d, donc (∇x F )−1 ∇y F ) est une matrice
d × m − d. QED. Finalement, on tire alors que J∗0 = Jy0 − Jx0 (∇x F )−1 ∇y F ).

6.5 Algorithmes de gradient conjugué

Dans cette section, nous construisons un des algorithmes les plus utilisés: le
gradient conjugué.

6.5.1 Exemple en dimension 2

Nous commençons par un exemple en dimension 2, qui prouve que même si
localement la direction de gradient est la meilleure direction, ce n’est pas la
meilleure globalement.
En effet, on considère f (x, y) = a2 x2 + b2 y 2 . Les isovaleurs de f sont des
ellipses et le minimum est trivialement 0.
Lorsqu’on utilise l’algorithme du gradient à pas optimal, on sait que la suite
vérifie, pour tout n:

(f 0 (xn+1 , y n+1 ), f 0 (xn , y n )) = 0.

Comme on est en dimension 2, cela veut dire qu’il existe λn tel que

f 0 (xn+1 , y n+1 ) = λn (f 0 (xn , y n ))⊥

On en déduit, utilisant

f 0 (xn+2 , y n+2 ) = λn+1 (f 0 (xn+1 , y n+1 ))⊥

f 0 (xn+2 , y n+2 ) = −λn λn+1 f 0 (xn , y n )

106 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Dans le cas où a 6= b, la suite est donc infinie et converge par itérations succes-
sives vers le minimum. Si a = b, bien sûr une direction de gradient pointe vers
le centre du cercle et on converge en une itération.
Mais il est clair que (x0 , y 0 ) − (x0 , y 0 ) = (0, 0), donc la direction optimale
n’est pas celle du gradient mais celle du vecteur pointant vers le centre!
Nous cherchons à exploiter cette idée. En effet, en dimension 2, il n’y a que
deux directions possibles, donc même si au premier pas on n’a pas trouvé la
bonne direction, on le trouvera au deuxième pas. Pour cela, on considère la
direction du gradient comme direction de départ. On trouve que

a4 x20 + b4 y02
(x1 , y1 ) = (x0 , y0 ) − λ0 (2a2 x0 , 2b2 y0 ), λ0 = .
2(a6 x20 + b6 y02 )
La bonne direction est (x1 , y1 ), car elle conduit tout de suite au minimum.
On vérifie que

((2a2 x0 , 2b2 y0 ), A(x1 , y1 ))

= ((2a2 x0 , 2b2 y0 ), (2a2 x1 , 2b2 y1 ))
= ((2a2 x0 , 2b2 y0 ), (2a2 x0 , 2b2 y0 )) − λ0 ((2a2 x0 , 2b2 y0 ), (4a4 x0 , 4b4 y0 ))
= 4a4 x20 + 4b4 y02 − (8a6 x20 + 8b6 y02 )λ0
= 0.

La direction d1 = (x1 , y1 ) vérifie alors (d0 , Ad1 ) = 0 et grâce à elle, l’algorithme

s’arrête immédiatement.

6.5.2 Algorithme de directions conjuguées

Dans le cas de la minimisation d’une fonctionnelle quadratique en dimension
finie ou infinie, par exemple J(x) = 21 (Ax, x) − (b, x), où on sait que Ax = b
admet une solution x0 , on vérifie que

1 1 1
J(x) = (Ax, x) − (Ax0 , x) = (A(x − x0 ), x − x0 ) − (b, x0 ).
2 2 2
Ainsi minimiser J revient à minimiser la norme ||x − x0 ||A .
On se place en dimension finie N . La matrice A est symétrique définie
positive, donc elle est diagonalisable dans une base orthogonale notée (p1 , .., pN ).
On a alors, comme (Api , pj ) = 0 pour i 6= j
X
||x − x0 ||2A = (xi − x0,i )2 (Api , pi ).
i

On part du point x1 . On cherche le minimum de la fonction sur IR égale à

λ → J(x1 + λp1 ). On trouve que la relation donnant le minimum en λ est

(A(x1 + λp1 ) − b, p1 ) = 0
soit
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 107

(b − Ax1 , p1 )
λ = λ1 = .
(Ap1 , p1 )
On regarde alors le deuxième point x2 = x1 + λp2 . On trouve que la valeur
de λ est λ2 = (b−Ax 2 ,p2 )
(Ap2 ,p2 ) .
D’autre part, on considère φ(λ, µ) = J(x1 + λp1 + µp2 ). C’est une fonction
de deux variables, qui est minimale pour

∂λ φ = ∂µ φ = 0.
On obtient les relations

(J 0 (x1 + λp1 + µp2 ), p1 ) = 0

(J 0 (x1 + λp1 + µp2 ), p2 ) = 0

soit
(Ax1 − b + λAp1 + µAp2 , p1 ) = 0
(Ax1 − b + λAp1 + µAp2 , p2 ) = 0

(Ax1 − b, p1 ) + λ(Ap1 , p1 ) = 0
(Ax1 − b, p2 + µ(Ap2 , p2 ) = 0
ce qui conduit à λ = λ1 et µ = λ2 .
On voit donc que le point x3 = x1 + λ1 p1 + λ2 p2 est le point qui réalise le
minimum de J sur l’espace affine x1 + Vect(p1 , p2 ).
On définit alors la suite de récurrence par

xn+1 = xn + λn pn
avec
(b − Axn , pn )
λn =
(Apn , pn )
Alors xn+1 est le point où J est minimum sur En = x1 + Vect(p1 , p2 , ..., pn ).
Cet algorithme est un algorithme de directions conjuguées. On écrit alors
la

Proposition 6.7 Soit (pn ) une suite dans V Hilbert de directions conjuguées
au sens où (pi , Apj ) = (Api , pj ) = 0 pour i 6= j tel que l’espace vectoriel fermé
engendré par la suite des pj est l’espace de Hilbert tout entier (c’est à dire
que tout élément de l’espace de Hilbert est limite d’une suite de combinaisons
linéaires finies des pj ).
La suite définie par
(
xn+1 = xn + λn pn
λn = (p(pn ,b−Ax n)
n ,Apn )

vérifie les relations

(b − Apn , pk ) = 0 pourk ≤ n − 1

et xn converge vers x0 la solution unique de Ax = b.

108 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Pour démontrer cette proposition, on écrit effectivement la norme. On voit

alors que
X X X
x1 = xi1 pi , x0 = Xi pi , b = Xi Api

(p1 , (xi1 − Xi )Api )

P
(p1 , b − Ax1 )
λ1 = =− = −(x11 − X1 )
(p1 , Ap1 ) (p1 , Ap1 )
donc x2 = X1 p1 + i≥2 xi1 pi .
P
i
P
On voit alors que b − Ax2 = i≥2 (Xi − x1 )Api , donc (b − Ax2 , p2 ) =
(X2 − x1 )(Ap2 , p2 ) donc λ2 = X2 − x1 et x3 = X1 p1 + X2 p2 + i≥3 xi1 pi .
2 2
P
On continue le raisonnement pour obtenir
X X
xn = Xi pi + xi1 pi .
1≤i≤n−1 i≥n

On voit alors que

X
||xn − x0 ||2A = (Xi − xi1 )2 (Api , pi )
i≥n

et la suite ||xn −x0 ||2A est une suite décroissante positive. Elle a donc une limite.
Cette limite est 0 car la famille (pj ) est une famille complète. On en déduit que
la suite xn tend vers la solution du problème. La proposition est démontrée.
On remarque aussi que xn identifie déjà les n − 1 premiers termes de x0 .
Ce raisonnement n’est réellement applicable que lorsqu’on connait A donc
la forme quadratique. Dans le cas général, on va combiner cette méthode
avec une méthode de gradient afin de construire une suite par un procédé
d’orthogonalisation de Gram-Schmidt.

Application aux polynômes de Hermite On définit les polynômes de

Hermite par la relation

dn − x2 x2
Hn (x) = (−1)n (e 2 )e 2 .
dxn
On vérifie par récurrence que Hn est un polynôme de degré n dont le
monôme de plus haut degré est xn . En effet,

d x2 x2
Hn+1 (x) = − (Hn (x)e− 2 )e 2 = xHn (x) − Hn0 (x).
dx
Comme, par hypothèse, Hn est de degré n dont le monôme de plus haut
degré est xn (dans le raisonnement par récurrence), on sait que Hn0 est de degré
n − 1 donc xHn − Hn0 est de degré n + 1 et son terme de plus haut degré est
xn+1 . D’autre part, H1 (x) = 1 donc l’hypothèse de récurrence est vraie pour
n = 1.
On contrôle que

dp
Z 2
Z
x2
− x2
Hn (x)Hp (x)e dx = Hn (x)(−1)p p (e− 2 )dx.
IR IR dx
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 109

Sans restreindre la généralit,́ on peut supposer soit p = n soit p > n. Dans le

cas p > n, en faisant p intégrations par parties, on trouve que
dp
Z 2
Z 2
− x2 − x2
Hn (x)Hp (x)e dx = p
(Hn (x))e dx = 0
IR IR dx

car Hn est un polynôme de degré n < p.

D’autre part, pour p = n on trouve que
Z
− x2
2
Z
x2 √
Hn (x)Hn (x)e dx = n! e− 2 dx = n! 2π
IR IR

La famille de polynômes Hn est donc une famille orthogonale pour le produit

scalaire
Z
x2
f (x)g(x)e− 2 dx

x2
et c’est donc une famille conjuguée pour l’application Af = f e− 2 .

6.5.3 Algorithme du gradient conjugué

Théorème 6.6 On considère une fonctionnelle quadratique J(x). On construit
la suite de directions dj par

d0 = −J 0 (x0 )

xn+1 = xn + ρn dn , ρn = arginfJ(xn + ρdn )

dn+1 = −J 0 (xn+1 ) + βn+1 dn .

|J 0 (xn+1 )|2 |J 0 (xn )|2

βn+1 = , ρn = − .
|J 0 (xn )|2 (Adn , J 0 (xn ))
La famille (dj ) définit une famille de directions conjuguées associées à A
telle que J 0 (x) − J 0 (y) = A(x − y).
La famille des directions J 0 (xp ) est une famille orthogonale pour le produit
scalaire usuel.
L’espace vectoriel engendré par la famille (J 0 (xp )), 0 ≤ p ≤ j est égal à
l’espace vectoriel engendré par la famille (dp ), 0 ≤ p ≤ j.
En dimension finie N la famille de directions conjuguées est complète et
l’algorithme donné dans la partie précédente converge en au plus N itérations.

Pour faire la démonstration correctement, il s’agit de construire les éléments

de la suite successivement. On suppose que l’on minimise la fonctionelle quadra-
tique 21 (Ax, x) − (b, x). On utilisera la relation

J 0 (x) − J 0 (y) = A(x − y). (6.5.2)

Etape 1. On commence avec un point x0 et on introduit

110 CHAPTER 6. APPROXIMATION DE SOLUTIONS

x1 = x0 + ρ0 d0
d0 = −J 0 (x0 )
La condition d’optimalité s’écrit

(J 0 (x1 ), d0 ) = 0.
On en déduit
(J 0 (x1 ) − J 0 (x0 ), d0 ) + (J 0 (x0 ), d0 ) = 0.

(A(x1 − x0 ), d0 ) = |J 0 (x0 )|2

soit ρ0 (Ad0 , d0 ) = |J 0 (x0 )|2 , ou encore

|J 0 (x0 )|2 |J 0 (x0 )|2

ρ0 = =− .
(Ad0 , d0 ) (Ad0 , J 0 (x0 ))
On note alors que (J 0 (x1 ), J 0 (x0 )) = 0.
Etape 2. On construit une direction conjuguée. Alors d1 vérifie (Ad1 , d0 ) =
0. On impose de plus que cette direction conjuguée soit une direction de de-
scente reliée au gradient, par

d1 = −J 0 (x1 ) + β1 d0 .
Ceci implique que l’on veuille trouver une direction conjuguée dans l’espace
vectoriel engendré par les gradients successifs (J 0 (x0 ), J 0 (x1 )). On a simplement
imposé que cette direction conjuguée soit telle que d1 + J 0 (x1 ) = 0. On verra
plus loin que cela ne restreint pas la généralité de faire ainsi.
Comme c’est une direction conjuguée, on trouve

(d1 , Ad0 ) = 0
soit
(J 0 (x1 ), Ad0 ) = β1 (Ad0 , d0 ).
On multiplie les deux membres de l’égalité par ρ0 , et on remarque que ρ0 d0 =
x1 − x0 , ce qui donne

(J 0 (x1 ), A(x1 − x0 )) = β1 (A(x1 − x0 ), −J 0 (x0 ))

ou encore en utilisant la relation (6.5.2)

(J 0 (x1 ), J 0 (x1 ) − J 0 (x0 )) = β1 (J 0 (x1 ) − J 0 (x0 ), −J 0 (x0 )).

On utilise l’orthogonalité de J 0 (x0 ) et de J 0 (x1 ) pour obtenir

|J 0 (x1 )|2
β1 = .
|J 0 (x0 )|2
La condition d’optimalité pour ρ1 s’écrit (J 0 (x2 ), d1 ) = 0. Comme de plus
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 111

(J 0 (x2 ), d0 ) = (J 0 (x2 ) − J 0 (x1 ), d0 ) + (J 0 (x1 ), d0 ) = ρ1 (Ad1 , d0 ) + 0 = 0

on en déduit que J 0 (x2 ) est orthogonal à d0 et à d1 , donc est orthogonal à J 0 (x0 )

et à J 0 (x1 ).
La condition d’optimalité donne alors la valeur de ρ1 par

(J 0 (x2 ) − J 0 (x1 ), d1 ) + (J 0 (x1 ), d1 ) = 0

ρ1 (Ad1 , d1 ) = |J 0 (x1 )|2

puisque d1 = −J 0 (x1 ) + β1 d0 , et que (J 0 (x1 ), d0 ) = −(J 0 (x1 ), J 0 (x0 )) = 0.
D’autre part, d1 = −J 0 (x1 )+β1 d0 et (Ad1 , d0 ) = 0 donc (Ad1 , d1 ) = −(Ad1 , J 0 (x1 )).
Il vient

|J 0 (x1 )|2 |J 0 (x1 )|2

ρ1 = − = .
(Ad1 , J 0 (x1 )) (Ad1 , d1 )
Pour bien comprendre la procédure, nous étudions l’étape 2.
On construit donc une direction conjuguée d2 . Elle est conjuguée donc

(Ad2 , d1 ) = (Ad2 , d0 ) = 0.
On suppose que cette direction conjuguée appartient à l’espace vectoriel
engendré par la famille (J 0 (x0 ), J 0 (x1 ), J 0 (x2 )). Comme l’espace vectoriel en-
gendré par (J 0 (x0 ), J 0 (x1 )) est l’espace vectoriel engendré par (d0 , d1 ), on écrit
d2 = −J 0 (x2 ) + β20 d0 + β21 d1 .
Pour justifier cette forme, prenons une direction quelconque de V ect(J 0 (x0 ), J 0 (x1 ), J 0 (x2 )).
Comme l’espace vectoriel engendré par J 0 (x0 ), J 0 (x1 ) est le même que l’espace
vectoriel engendré par d0 , d1 , une direction quelconque est donc sous la forme

d˜2 = αJ 0 (x2 ) + βd0 + γd1 .

Cette direction est une direction de descente, donc nécessairement (d˜2 , J 0 (x2 )) ≤
0. Comme J 0 (x2 ) est orthogonal à d0 et à d1 , on en déduit que α ≤ 0. On veut
éviter le cas où α = 0 car on est dans l’espace vectoriel engendré par d0 et d1
qui sont deux directions de descente que l’on a utilisé, ainsi α < 0.
D’autre part, si on considère un point dans cette direction de descente, il
s’écrit
−β −γ
x2 + rd˜2 = x2 + (−αr)(−J 0 (x2 ) + d0 + d1 ).
α α
On a donc, par le fait que le pas ρ1 est optimal

(J 0 (x2 ), d1 ) = 0
D’autre part, on a J 0 (x2 ) − J 0 (x1 ) = A(x2 − x1 ) = A(ρ1 d1 ), donc (J 0 (x2 ) −
J 0 (x1 ), d0 ) = 0 car (Ad1 , d0 ) = 0. Ainsi, comme par la condition d’optimalité
(J 0 (x1 ), d0 ) = 0 on en déduit que (J 0 (x2 ), d0 ) = 0. Comme J 0 (x2 ) est orthogonal
à l’espace vectoriel engendré par d0 et d1 , il est orthogonal à J 0 (x0 ) et à J 0 (x1 ).
112 CHAPTER 6. APPROXIMATION DE SOLUTIONS

On a retrouvé le pas ρ = −αr ≥ 0 et l’écriture de la direction de descente

d2 . On a de plus, uniquement grâce aux conditions d’optimalité, que les trois
vecteurs J 0 (x0 ), J 0 (x1 ) et J 0 (x2 ) sont orthogonaux.
Pour identifier les coefficients, on n’a besoin que des conditions de conjugai-
son. On trouve alors

(−J 0 (x2 ) + β20 d0 + β21 d1 , Ad0 ) = 0

(−J 0 (x2 ) + β20 d0 + β21 d1 , Ad1 ) = 0
En utilisant le fait que les directions d0 et d1 sont conjuguées, on trouve

β20 (d0 , Ad0 ) = (J 0 (x2 ), Ad0 ), β21 (d1 , Ad1 ) = (J 0 (x2 ), Ad1 ).
On multiplie respectivement chacune de ces égalités par ρ0 et par ρ1 et on utilise
ρ1 d1 = x2 − x1 , ρ0 d0 = x1 − x0 . Alors il vient

β20 (d0 , Aρ0 d0 ) = (J 0 (x2 ), A(x1 − x0 )), β21 (d1 , Aρ1 d1 ) = (J 0 (x2 ), A(x2 − x1 ))

On utilise la remarque (6.5.2) pour obtenir

β20 (d0 , Aρ0 d0 ) = (J 0 (x2 ), J 0 (x1 )−J 0 (x0 )), β21 ρ1 (d1 , Ad1 ) = (J 0 (x2 ), J 0 (x2 )−J 0 (x1 )).

On utilise alors ρ1 d1 = x2 − x1 , ce qui fait que ρ1 (d1 , Ad1 ) = (d1 , A(x2 −

x1 )) = (d1 , J 0 (x2 ) − J 0 (x1 )) = (−J 0 (x1 ) + β1 d0 , J 0 (x2 ) − J 0 (x1 )) = (−J 0 (x1 ) −
β1 J 0 (x0 ), J 0 (x2 ) − J 0 (x1 )). On utilise alors l’orthogonalité des vecteurs dérivées.
Ainsi il reste β20 = 0 et

β21 ρ1 (d1 , Ad1 ) = (J 0 (x2 ), J 0 (x2 ))

Comme d1 = −J 0 (x1 ) + β1 d0 = −J 0 (x1 ) − β1 J 0 (x0 ), il vient

−β21 |J 0 (x1 )|2 = |J 0 (x2 )|2 .

D’autre part la condition d’optimalité est (J 0 (x3 ), d2 ) = 0, x3 = x2 + ρ2 d2 .

On sait d’autre part que

(J 0 (x3 ), d1 ) = (J 0 (x3 ) − J 0 (x2 ), d1 ) + (J 0 (x2 ), d1 )

= (J 0 (x3 ) − J 0 (x2 ), d1 ) optimalité pour x2
= (A(x3 − x2 ), d1 ) = ρ2 (Ad2 , d1 ) = 0 conjuguées

(J 0 (x3 ), d0 ) = (J 0 (x2 ), d0 ) + ρ2 (Ad2 , d0 ) = (J 0 (x2 ), d0 ) = −(J 0 (x2 ), J 0 (x0 )) = 0.

On sait donc que J 0 (x3 ) est orthogonal à l’espace vectoriel engendré par
d0 , d1 , d2 donc est orthogonal à J 0 (x0 ), J 0 (x1 ), J 0 (x2 ).
Finalement le coefficient ρ2 est donné par

ρ2 (Ad2 , d2 ) + (J 0 (x2 ), d2 ) = 0
soit, utilisant d2 = −J 0 (x2 ) + β21 d1 et l’orthogonalité de d1 et de J 0 (x2 )
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 113

ρ2 (Ad2 , d2 ) = |J 0 (x2 )|2

et on en déduit, utilisant le fait que les directions sont conjuguées

|J 0 (x2 )|2 |J 0 (x2 )|2

ρ2 = − = .
(J 0 (x2 ), Ad2 ) d2 , Ad2 )

Raisonnement par récurrence On suppose donc que l’on a construit une

suite (xp , ρp , dp ), p ≤ n, et xn+1 ayant les propriétés suivantes:
• la suite (dp ) est une suite de directions conjuguées
• dp+1 = −J 0 (xp+1 ) + βp+1 dp pour p ≤ n − 1 avec

|J 0 (xp+1 )|2
βp+1 = .
|J 0 (xp )|2

• les vecteurs (J 0 (xp )) forment une famille orthogonale pour le produit

scalaire usuel pour 0 ≤ p ≤ n
• xp+1 = xp + ρp dp pour p ≤ n, les ρp étant donnés par la relation

|J 0 (xp )|2
ρp = − .
(J 0 (xp ), Adp )
• On commence par vérifier que J 0 (xn+1 ) est orthogonal à tous les autres.
Pour cela, on démontre que J 0 (xn+1 ) est orthogonal à tous les dp , 0 ≤ p ≤ n.
La première relation est la condition d’optimalité, qui s’écrit

(J 0 (xn+1 ), dn ) = 0

(et qui vient du fait que l’on minimise J(xn + tdn )). On utilise ensuite, pour
j ≤ n − 1, la relation

(J 0 (xj+1 ), dj ) = 0
et on trouve

(J 0 (xn+1 ) − J 0 (xj+1 ), dj ) = (J 0 (xn+1 ), dj ) = (A(xn+1 − xj ), dj )

soit
(J 0 (xn+1 ), dj ) = (A(ρn dn + .. + ρj+1 dj+1 ), dj )
et il suffit d’utiliser le fait que dj soit conjugué, par l’hypothèse de récurrence,
avec tous les dk , j +1 ≤ k ≤ n. On a donc démontré que J 0 (xn+1 ) est orthogonal
à tous les dj , j ≤ n. Comme l’espace vectoriel engendré par les dj , 0 ≤ j ≤ n
est le même que l’espace vectoriel engendré par les J 0 (xj ), 0 ≤ j ≤ n, on a le
résultat d’orthogonalité.
On construit donc xn+2 , dn+1 et ρn+1 comme suit. On veut que l’espace
vectoriel engendré par (J 0 (x0 ), .., J 0 (xp+1 )) soit aussi l’espace vectoriel engendré
par les directions (d0 , .., dp+1 ). On impose de plus que dp+1 = −J 0 (xp+1 )+lp , où
lp est dans l’espace vectoriel engendré par (d0 , .., dp ) qui est égal, par l’hypothèse
de récurrence, à l’espace vectoriel engendré par (J 0 (x0 ), .., J 0 (xp )).
114 CHAPTER 6. APPROXIMATION DE SOLUTIONS

On sait déjà que

n
j
X
dn+1 = −J 0 (xn+1 ) + βn+1 dj
j=0

Les directions sont conjuguées, donc (dn+1 , Adp ) = 0∀p. On en déduit donc que
n
j
X
βn+1 (dj , Adp ) = (J 0 (xn+1 ), Adp ).
j=0
Utilisant le fait que la famille de directions dj est conjuguée, il vient
p
βn+1 (dp , Adp ) = (J 0 (xn+1 ), Adp ).
On multiplie les deux membres de l’égalité par ρp et on utilise ρp Adp = J 0 (xp+1 )−
J 0 (xp ). Ensuite, comme la famille (J 0 (xk )), 0 ≤ k ≤ n + 1 est une famille or-
thogonale (ce qu’on a juste démontré), on en déduit que J 0 (xn+1 ) est orthogonal
à tous les J 0 (xp+1 ) pour p + 1 ≤ n et à tous les J 0 (xp ) pour p ≤ n. On en déduit
p
que βn+1 = 0 pour p 6= n. Il reste alors seulement un terme

n
βn+1 (dn , J 0 (xn+1 − J 0 (xn )) = (J 0 (xn+1 ), J 0 (xn+1 ) − J 0 (xn )) = |J 0 (xn+1 )|2
Comme d’autre part dn = −J 0 (xn ) + βn−1 dn−1 , utilisant le fait que dn−1 est
dans l’espace vectoriel engendré par J 0 (x0 ), .., J 0 (xn−1 ) donc est orthogonal à
J 0 (xn ) et à J 0 (xn+1 ), il reste

n
βn+1 (−J 0 (xn ), J 0 (xn+1 ) − J 0 (xn )) = |J 0 (xn+1 )|2
soit
n |J 0 (xn+1 )|2
βn = βn+1 = .
|J 0 (xn )|2
On a donc construit une direction dn+1 = −J 0 (xn+1 ) + βn dn telle que les
directions (dp ), 0 ≤ p ≤ n + 1 soient conjuguées.
Enfin, écrivons la condition d’optimalité. On a donc,

(A(xn+2 − xn+1 ), dn+1 ) + (J 0 (xn+1 ), dn+1 ) = 0

soit utilisant dn+1 = −J 0 (xn+1 ) + βn dn , ρn+1 (Adn+1 , dn+1 ) = |J 0 (xn+1 )|2 .
On en tire la relation
|J 0 (xn+1 )|2
ρn+1 = − .
(Adn+1 , J 0 (xn+1 ))
Toutes les hypothèses du raisonnement par récurrence ont été vérifiées, ainsi
l’algorithme continue jusquà obtenir J 0 (xN ) = 0. En dimension finie d, on aura
nécessairement cette condition puisque la famille (J 0 (x0 ), .., J 0 (xd−1 )) est une
famille orthogonale. Si c’est une famille libre, c’est une base et J 0 (xd ) orthogonal
à tous les éléments implique que J 0 (xd ) = 0. Si c’est une famille liée, comme le
vecteur J 0 (xd−1 ) est orthogonal à tous les autres, si il est combinaison linéaire
de tous les autres, cette combinaison linéaire est nulle si tous sont non nuls,
donc il en existe au moins un qui est nul.
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 115

Corollaire 6.1 Le coefficient de dp dans la suite de directions conjuguées de

l’algorithme de gradient conjugué est la valeur qui maximise le facteur de réduction
de l’erreur, erreur définie par E(x) = (r(x), A−1 (r(x))) où r(x) = −J 0 (x).

On remarque que dans le cas de la forme quadratique J(x) = 21 (Ax, x), on

trouve J 0 (x) = Ax donc E(x) = 2J(x). On a alors immédiatement

xn+1 = xn + ρn dn , dn = −J 0 (xn ) + βn−1 dn−1 .

Le terme ρn est calculé par 0 = (Axn + ρn Adn , dn ), soit ρn = − (Ax n ,dn )

(Adn ,dn ) .
Dans ce cas, on applique le résultat donné précédemment et on trouve

(Axn , dn )2
E(xn+1 ) = E(xn )[1 − ],
(Adn , dn )(xn , Axn )
On voit alors que (Axn , dn ) = (Axn , −Axn +βn−1 dn−1 ) = −(Axn , Axn ) car Axn
est orthogonal à dn−1 . Maximiser le facteur de réduction de l’erreur revient alors
2
à maximiser (Adn(Ax n ,dn )
,dn )(xn ,Axn ) , donc à minimiser (Adn , dn ). Comme

(Adn , dn ) = (−A2 xn + βn−1 Adn−1 , −Axn + βn−1 dn−1 )

= (A2 xn , Axn ) − 2βn−1 (Adn−1 , Axn ) + βn−1
2 (Ad
n−1 , dn−1 )

(Adn−1 ,Axn )
le minimum de cette fonction quadratique est obtenu pour βn−1 = (Ad n−1 ,dn−1 )
,
ce qui correspond à la formule obtenue précédemment en utilisant αn−1 dn−1 =
(A(xn −xn−1 ),Axn )
xn − xn−1 . En effet, αn1 dn−1 = xn − xn−1 donc βn−1 = (A(x n −xn−1 ),dn−1 )
. En
utilisant dn−1 = −Axn−1 + βn−2 dn−2 si n ≥ 2, d0 = −Ax0 , dn−2 est orthogonal
à Axn et à Axn−2 si n ≥ 2, donc (dn−1 , Axn − Axn−1 ) = (−Axn−1 , Axn −
||Axn ||2
Axn−1 ) = ||J 0 (xn−1 )||2 = ||r(xn−1 )||2 , et il reste βn−1 = ||Ax n−1 ||
2 . Le Corollaire

est démontré.

6.5.4 Un exemple en dimension 3

En dimension 3, on sait que pour une fonctionnelle quadratique l’algorithme
du gradient conjugué converge en trois itérations au plus, c’est à dire on con-
struit au mieux d0 , d1 , d2 . Nous donnons dans le cas de cet exemple les cas où
l’algorithme converge en une itération et en deux itérations.
La fonctionnelle étudiée ici est une fonctionnelle dont les lignes de niveau
sont des ellipsoides. On prend

1
J(x, y, z) = (a2 x2 + b2 y 2 + c2 z 2 ).
2
Le point de départ est le point (x0 , y0 , z0 ). Le gradient en ce point est (a2 x0 , b2 y0 , c2 z0 ).
Les points de la droite de descente sont

(x0 (1 − a2 t), y0 (1 − b2 t), z0 (1 − c2 t)).

L’algorithme converge en une itération lorsque le point d’arrivée est le point
(0, 0, 0). On trouve donc
116 CHAPTER 6. APPROXIMATION DE SOLUTIONS

 x0 (1 − a2 t) = 0


y0 (1 − b2 t) = 0
z0 (1 − c2 t) = 0


et donc, si x0 6= 0, alors t = a12 donc y0 = z0 = 0, et si c’est y0 qui est non nul

on trouve x0 = z0 = 0 et si z0 6= 0 alors x0 = y0 = 0.
On en déduit que l’algorithme converge en une itération lorsque le
point est sur un des axes principaux de l’ellipsoide
Dans le cas contraire, on calcule la valeur de la fonctionnelle.
On trouve, notant

φ(t) = J(x0 (1 − a2 t), y0 (1 − b2 t), z0 (1 − c2 t))

1
φ(t) = (x20 (1 − a2 t)2 a2 + y02 (1 − b2 t)2 b2 + z02 (1 − c2 t)2 c2 )
2
qui atteint son minimum en t0 que l’on ne calculera pas.
Le gradient en ce point est alors

J 0 (x(1) ) = (a2 x0 (1 − a2 t0 ), b2 y0 (1 − b2 t0 ), c2 z0 (1 − c2 t0 ))
On trouve alors que la direction d1 , qui vaut d1 = −J 0 (x(1) ) + β0 d0 , est de
la forme

d1 = (αx0 , βy0 , γz0 ) = (a2 x0 (−1+a2 t0 +β0 ), b2 y0 (−1+b2 t0 +β0 ), c2 z0 (−1+c2 t0 +β0 ))

et donc x(2) = x(1) + ρd1 , soit

 2
a x0 [(1 − a2 t0 ) + ρ(−1 + a2 t0 + β0 )]

t (2)
x =  b2 y0 [(1 − b2 t0 ) + ρ(−1 + b2 t0 + β0 )]  .
c2 z0 [(1 − c2 t0 ) + ρ(−1 + c2 t0 + β0 )])
On suppose que l’algorithme a convergé en deux itérations. Alors les coor-
données dans l’expression ci-dessus sont nulles. On élimine le cas où une seule-
ment des valeurs de (x0 , y0 , z0 ) est non nulle car c’est le cas précédent. Si
x0 y0 z0 6= 0, on en déduit que les coefficients sont nuls, c’est à dire on obtient un
système sur t0 , β0 , ρ. On vérifie que ce système n’a pas de solutions. En effet,
on trouve les relations (1 − a2 t0 )(1 − ρ) + ρβ0 = (1 − b2 t0 )(1 − ρ) + β0 ρ = 0,
d’où (a2 − b2 )t0 (1 − ρ) = 0. Le cas t0 est impossible (il suffit de vérifier que
t0 (a6 x20 + b6 y02 + c6 z02 ) = a4 x20 + b4 y02 + c4 z02 ). Il reste donc ρ = 1, ce qui donne
β0 = 0. Comme β0 est le quotient des normes de J 0 (x(1) ) et de J 0 (x(0) ), on
trouve que c’est impossible. Ainsi, seulement deux valeurs sur les trois sont
non nulles.
Dans ce cas, on considère par exemple z0 = 0. Alors le point de départ est
dans le plan z = 0, ainsi que le vecteur gradient. Le point d’arrivée x(1) est
alors dans ce plan, et on s’est ramené au minimum de la fonctionnelle J(x, y, 0)
qui est atteint en deux itérations, la première direction d0 = −J 0 (x(0) ) et la
deuxième direction d1 = −J 0 (x(1) ) + β0 d0 comme dans le cas de l’ellipse.
6.6. DESCENTE PSEUDO-CONJUGUÉ 117

On vérifie alors que l’algorithme du gradient conjugué converge en

deux itérations seulement si le point de départ appartient à un des
espaces de dimension 2 invariants par la matrice J”(0).

Remarque On  considére la forme quadratique associée à la matrice A =

a2 1 0

 1 b2 0  . On voit que les valeurs propres de cette matrice sont c2 et λ
0 0 c2
solution de λ2 − (a2 + b2 )λ + a2 b2 − 1 = 0, soit

a2 + b2 2 a2 − b2 2
(λ − ) =1+( )
2 2
Pour pouvoir écrire la matrice comme précédemment, il faut diagonaliser la
matrice donc rechercher
q les vecteurs propres (e± , f± , 0) pour les deux valeurs
2 2 2 2
propres λ± = a +b2 ± 1 + ( a −b 2
2 ) .
L’algorithme du gradient conjugué converge en deux itérations dans les trois
cas suivants:
point de départ de la forme A(e+ , f+ , 0) + B(e− , f− , 0) = (x, y, 0),
point de départ de la forme A(e+ , f+ , 0) + C(0, 0, 1),
point de départ de la forme B(e− , f− , 0) + C(0, 0, 1).

6.6 Algorithme de descente pseudo-conjugué pour

une forme non quadratique
On peut construire, en s’inspirant de l’algorithme ci-dessus, des algorithmes de
descente déduits de l’algorithme du gradient conjugué. En fait, l’idée consiste
à conserver la relation dn+1 = −J 0 (xn ) + βn dn et d0 = −J 0 (x0 ) en construisant
la suite βn et la suite de pas ρn .
On l’écrit dans la

Définition 6.8 Les algorithmes de descente suivants sont la généralisation de

l’algorithme du gradient conjugué pour une fonctionnelle quelconque:
• algorithme de Fletcher-Reeves:


 d0 = −J 0 (x0 )
 xn+1 = xn + ρn dn


 dn+1 = −J 0 (xn ) + βn dn
 βn = |J 0 (xn+1 |2


|J 0 (xn )|2

• algorithme de Polak-Ribiere

d = −J 0 (x0 )
 0


 xn+1 = xn + ρn dn
 dn+1 = −J 0 (xn ) + βn dn
 βn = (J 0 (xn+1 ,J 00(xn+12)−J 0 (xn ))


|J (xn )|

On a le résultat suivant (admis)

118 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Proposition 6.8 L’algorithme de Fletcher-Reeves avec le choix du pas optimal

pour ρn est un algorithme de descente.
L’algorithme de Polak-Ribiere avec ρn pas de Wolfe pas trop grand est un
algorithme de descente.
Si J est strictement convexe et de classe C 2 alors l’algorithme de Polak-
Ribière avec pas optimal converge.

6.7 Méthode de Newton

On se place sur un espace de Hilbert V , et on considère une fonctionnelle J
qui admet un gradient G(u) et une matrice hessienne H(u). On suppose que J
admet son minimum absolu en u. Il est alors nécessaire que G(u) soit nul.
Rappelons tout d’abord la formule de Taylor au voisinage de v: il existe
θ ∈]0, 1[ tel que

(G(u), φ) = (G(v), φ) + (H(v + θ(u − v))(u − v), u − v).

La méthode de Newton-Rophson usuelle construit la solution comme limite
de la suite uk , définie par récurrence: on calcule uk+1 à partir de uk en résolvant
G(uk ) + H(uk )(uk+1 − uk ) = 0. Cette méthode est efficace si la valeur initiale
de la suite est proche de la solution cherchée.
Dans cette partie, on se restreint à des fonctionnelles assez régulières:
(H1) la fonctionnelle J est infinie à l’infini
(H2) la fonctionnelle J a un gradient et un hessien réguliers (au moins
continus uniformément sur tout compact)
(H3) H est uniformément V coercive sur tout borné K:

(H(v), φ, φ) ≥ αK ||φ||2 , ∀φ ∈ V, ∀v ∈ K

(H4) H vérifie une condition de Lipschitz sur les bornés:

||H(u) − H(v)|| ≤ βK ||u − v||, ∀(u, v) ∈ K 2

De plus, ce qui fait la différence avec la méthode de Newton habituelle, c’est
l’introduction d’une forme bilinéaire supplémentaire bk pour chaque élément de
la suite uk qui sera définie ultérieurement. Plus précisément, on définit b(u) qui
vérifie soit les hypothèses (H5) ou (H6) ci dessous (sur un borné, par exemple)
(H5a) coercivité faible

b(u)(φ, φ) ≥ λ0 (G(u), φ)2 ∀φ ∈ V

(H5b) continuité: |b(u)(φ, ψ)| ≤ µ0 ||G(u)||φ||||ψ||∀φ, ψ ∈ V

(H6a) (1 + )-coercivité forte

b(u)(φ, φ) ≥ λ1 ||G(u)||1+ ||φ||2 ∀φ ∈ V

(H6b) (1 + )-continuité |b(u)(φ, ψ)| ≤ µ1 ||G(u)||1+ ||φ||||ψ||∀φ, ψ ∈ V .
On a le
6.7. MÉTHODE DE NEWTON 119

Théorème 6.7 Sous les hypothèses (H1), (H2), (H3), (H4), et (H5) ou (H6)
on a:
• Le problème de minimisation admet une solution unique u.
On considère u0 donné. Soit uk un élément de la suite. L’élément uk+1 est
construit comme uk + ∆k , où ∆k est la solution du problème variationnel

∀φ ∈ V, (H(uk )∆k , φ) + bk (∆k , φ) = −(G(uk ), φ). (6.7.3)

• La suite uk est bien définie, et elle converge vers u
• Il existe deux constantes γ1 et γ2 telles que

γ1 ||uk+1 − uk || ≤ ||u − uk || ≤ γ2 ||uk+1 − uk ||

• Il existe une constante γ3 telle que

||uk+1 − u|| ≤ γ3 ||uk − u||2 .

On commence par donner des exemples de formes de la fonctionnelle b(u).

On notera bk la fonctionnelle b(uk ) pour simplifier les notations.
Pour bk (φ, ψ) = λk (G(uk ), φ)(G(uk ), ψ), les hypothèses (H5a) et (H5b) sont
vérifiées. En revanche, on n’a pas l’hypothèse (H6a).
Pour bk (φ, ψ) = λk ||G(uk )||1+ (φ, ψ), les hypothèses (H5a), (H5b), (H6a),
(H6b) sont toutes vérifiées.

Preuve Etapes de la démonstration.

On commence par démontrer que la suite J(uk ) est décroissante si µ0 (resp.
µ1 ) est choisi de manière adéquate dans l’hypothèse (H5a) (resp. (H6a)). On
en déduit que les termes de la suite restent dans un fermé borné fixe.
Dans un deuxième temps, en choisissant dans la formulation variationnelle
et dans l’égalité de développement de Taylor des valeurs astucieuses de φ, on
montre des estimations sur la différence de deux termes et sur la différence
d’un terme de la suite avec la limite. Pour cela, on utilise de manière cruciale
l’inégalité de coercivité sur le fermé borné.
On définit
U = {v ∈ V, J(v) ≤ J(u0 )}.
• Si J admet un minimum, il est dans U . Comme J est infinie en l’∞,
U est borné. Il est fermé. En effet, si vj ∈ U, vj → v, alors J(u0 ) ≥ J(vj ) =
J(v)+(G(v), vj −v)+ 21 (H(v +θ(vj −v))(vj −v), vj −v). Comme H est coercive,
on a J(u0 ) ≥ J(vj ) ≥ J(v) + (G(v), vj − v). Comme v ne dépend pas de j, on
passe à la limite et J(u0 ) ≥ J(v). Il vient v ∈ U .
• Le problème variationnel linéaire (6.7.3) admet une seule solution ∆k .
Prenant φ = ∆k dans l’égalité variationnelle (6.7.3), on en déduit que

(H(uk )∆k , ∆k ) + bk (∆k , ∆k ) = −(G(uk ), ∆k ). (6.7.4)

Utilisant la coercivité de H et la positivité de bk , on en déduit

(H(uk )∆k , ∆k ) + bk (∆k , ∆k ) ≥ αU ||∆k ||2 .

120 CHAPTER 6. APPROXIMATION DE SOLUTIONS

On utilise l’inégalité

| − (G(uk ), ∆k )| ≤ ||∆k ||||G(uk )||.

On divise, si ∆k 6= 0, par la norme et on obtient

α||∆k || ≤ ||G(uk )||. (6.7.5)

Désignant par ||G|| le maximum de G sur le fermé U , on en déduit

||∆k || ≤ α−1 ||G||.

Soit
U1 = {v ∈ V, ||v − w|| ≤ α−1 ||G||, w ∈ U }
Il vient uk+1 = uk + ∆k ∈ U1 .
• Il s’agit maintenant de contrôler le terme J(uk+1 ) par rapport au terme
J(uk ); On effectue un développement de Taylor pour J au voisinage de uk .
Ainsi
1
J(uk+1 ) − J(uk ) = (G(uk ), ∆k ) + (H(uk + θ∆k )∆k , ∆k )
2
d’où, en utilisant l’égalité (6.7.4) pour remplacer le terme (G(uk ), ∆k ):

1 1
J(uk+1 )−J(uk ) = − (H(uk )∆k , ∆k )−bk (∆k , ∆k )+ ([H(uk +θ∆k )−H(uk )]∆k , ∆k ).
2 2
On note β1 la constante de Lipschitz pour H sur U1 . Si on suppose uk ∈ U0 ,
on trouve uk + θ∆k ∈ U1 . Ceci permet de minorer le terme − 21 ([H(uk + θ∆k ) −
H(uk )]∆k , ∆k ). En utilisant la coercivité de H, on trouve l’inégalité

α β1 α β1
J(uk )−J(uk+1 ) ≥ ||∆k ||2 (1− ||∆k ||)+bk (∆k , ∆k ) ≥ ||∆k ||2 (1− ||∆k ||).
2 α 2 α
Deux cas se présentent. Dans cette inégalité, on doit contrôler le signe du
second membre.

• Si ||∆k || est petit, c’est-à-dire ||∆k || ≤ (1 − C) βα1 , alors J(uk ) − J(uk+1 ) ≥

αC 2
2 ||∆k || en utilisant uniquement la positivité de bk .
Dans le cas contraire, on utilise la forme de b.

• On suppose vérifiées les hypothèses (H5).

Dans ce cas, le terme bk (∆k , ∆k ) vérifie

bk ((∆k , ∆k ) ≥ λ0 ((G(uk ), ∆k ))2 .

On contrôle alors que par emploi de la relation (6.7.4), on trouve

−(G(uk ), ∆k ) ≥ α||∆k ||2

donc on tire
6.7. MÉTHODE DE NEWTON 121

((G(uk ), ∆k ))2 ≥ α2 ||∆k ||4

Alors
α 1
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 1 + λ0 α2 ||∆k ||4 − β1 ||∆k ||3 .
2 2
β1
La somme des deux derniers termes est du signe de λ0 α2 ||∆k || − 2 donc
est positive dès que ||∆k || ≥ 2λβ01α2
β1
Si on choisit λ0 de sorte que 2λ0 α2
≤ (1 − C) βα1 , soit

β12
λ0 >
2α3

il existe C telle que 2λβ01α2 ≤ (1 − C) βα1 . Dans ce cas, on voit que si

||∆k || ≥ (1 − C) βα1 , on obtient

β1
||∆k || ≥
2λ0 α2
et donc

α
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 .
2
En résumé, sous cette hypothèse sur λ0 , on trouve, pour tout ∆k

αC
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 . (6.7.6)
2
• Dans le cas où J vérifie les hypothèses (H6) pour = 1, et si la constante
β2
lambda1 (que l’on suppose assez grande) vérifie λ1 > 8α13 , on vérifie que
8µ α3 −β 2
λ1 α2 ||∆k ||2 + α2 − β21 ||∆k || ≥ 16µ
0
0α
2
1
= δ0 > α2 , et donc J(uk )−J(uk+1 ) ≥
δ0 ||∆k ||2 (la condition sur λ1 est plus faible).
• Le raisonnement est le même si l’hypothèse (H6) est vérifiée. En effet,
on obtient

α β1
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 (1 − ||∆k ||) + µ0 ||G(uk )||1+ ||∆k ||2 ,
2 α
et, utilisant (6.7.5), on obtient

α α β1
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 [ − ||∆k ||) + µ0 α1+ ||∆k ||1+ ],
2 2 2
Lorsque µ0 grand, le minimum de cette fonction est strictement positif
α
pour tout > 0 (il s’écrit m2 − ψ()µ−
0 ), donc l’inégalité obtenue est
toujours valable.
122 CHAPTER 6. APPROXIMATION DE SOLUTIONS

On a démontré que la suite J(uk+1 ) < J(uk ) lorsque uk ∈ U . De u0 ∈ U , on

déduit alors J(u1 ) < J(u0 ) donc u1 ∈ U . Ainsi, par récurrence, J(uk+1 < J(uk )
donc uk+1 ∈ U . La suite J(uk ), décroissante et minorée, converge. Ainsi la suite
J(uk )−J(uk+1 ) tend vers 0, donc ∆k tend vers 0 grâce à l’inégalité (6.7.6)6.7.6).
Il faut montrer désormais que la suite uk converge. On écrit la formule de
Taylor (G(uk ), φ) = (G(u), φ) + (H(u + θ0 (uk − u))(uk − u), φ), ce qui donne

(H(uk )∆k , φ) + bk (∆k , φ) = −(H(u + θ0 (uk − u))(uk − u), φ), (6.7.7)

par l’application de l’égalité variationnelle définissant ∆k . Comme U est con-

vexe (la fonctionnelle est convexe car son Hessien est coercif), u + θ0 (uk − u)
est dans U . Ainsi, prenant φ = uk − u et appliquant les inégalités de Cauchy-
Schwartz à (H(uk )∆k , uk − u) + bk (∆k , uk − u) = −(H(u + θ0 (uk − u))(uk −
u), uk − u), on trouve, notant γ la constante majorant les normes de H(uk ) et
de bk (ce qui est possible puisque uk ∈ U donc G(uk ) est borné par ||G||):

γ||∆k ||||uk − u|| ≥ α||uk − u||2 .

La convergence de ∆k vers 0 et l’inégalité ||uk − u|| ≤ α−1 γ||∆k || entrainent
la convergence de uk vers u. De plus, on vérifie facilement que si on considère
φ = ∆k dans l’égalité (6.7.7), alors on trouve ||uk − u|| ≥ αγ ||∆k ||.
On montre enfin la convergence quadratique. L’égalité (6.7.7) donne alors,
écrivant δk = uk − u et ∆k = δk+1 − δk , l’égalité

(H(uk )δk+1 , φ)+bk (δk+1 , φ) = (H(uk )δk , φ)+bk (δk , φ)−(H(u+θ0 (uk −u))δk , φ)

puis utilisant pour le terme de gauche la coercivité de H, pour le terme de droite

le caractère Lipschitz de H, et la positivité de bk pour le terme de gauche, il
reste, pour φ = δk+1 ,

α||δk+1 ||2 ≤ µ1 ||G(uk )||1+ ||δk+1 ||||δk || + β1 ||δk ||2 ||δk+1 ||

d’où on déduit

α||δk+1 || ≤ µ1 ||G(uk )||1+ ||δk || + β1 ||δk ||2

Comme G est Lipschitz (puisque H est continue) et que G(u) = 0, on en déduit
||G(uk )|| = ||G(uk ) − G(u)|| ≤ Γ||δk ||. Comme cette quantité est bornée par D
constante, on en déduit l’inégalité

α||δk+1 || ≤ (µ1 Γ1+ D + β1 )||δk ||2 ,

qui est la convergence quadratique.
Cette démonstration, bien que longue et fastidieuse, est importante et intéressante,
car elle permet de manipuler les formulations variationnelles, de voir l’importance
de la coercivité, de voir les choix de fonctions test. Notons que les deux hy-
pothèses possibles (H5) ou (H6) conduisent au résultat, et sont utilisées de
manière cruciale dans la preuve de la décroissance de J(uk ), preuve suffisante
pour la convergence. C’est pour cela que cette méthode conduit toujours à
6.8. ALGORITHMES D’OPTIMISATION AVEC CONTRAINTES 123

une solution. D’autre part, dire que µ0 est assez grand est possible car on est
libre du choix de b pour le problème d’optimisation. On peut rapprocher cette
méthode des méthodes de pénalisation.

6.8 Algorithmes d’optimisation avec contraintes

Les trois algorithmes que je compte présenter correspondent aux algorithmes
de minimisation sous contraintes.

6.8.1 Le gradient avec projection

On suppose dans ce premier cas que l’espace des contraintes K est convexe. On
rappelle dans ce cas qu’il existe une projection sur K, définie par

||x − pK (x)|| = inf ||x − y||

y∈K

et caractérisé par l’inégalité

(y − pK (x), x − pK (x)) ≤ 0∀y ∈ K.

Un des problèmes essentiels d’un algorithe de gradient, lorsqu’on n’est pas
dans le cas du gradient réduit, est qu’il ne donne pas à l’itération n + 1 un
élément de l’espace des contraintes car on ne sait pas si la direction −J 0 (xn ) est
une direction admissible pour l’espace des contraintes si xn est dans K. D’autre
part, la projection est une application contractante, donc ||pK (x) − pK (y)|| ≤
||x − y||, ce qui implique que ||pK (x − αJ 0 (x)) − pK (y)|| ≤ ||x − αJ 0 (x) − y|| donc
en projetant le résultat d’un algorithme de gradient, on se rapproche plus de y
solution du problème de minimisation. L’algorithme de gradient avec projection
est un algorithme de la forme

xn+1 = pK (xn − ρn J 0 (xn )).

Proposition 6.9 Si J est convexe et que K est convexe, un point solution

du problème de minimisation de J sur K est un point stationnaire de l’égalité
x0 = pK (x0 − αJ 0 (x0 )).

Preuve On suppose que x0 est une solution du problème de minimisation.

Comme J est convexe, la condition d’Euler est équivalente à

∀y ∈ K, (J 0 (x0 ), y − x0 ) ≥ 0.

On en déduit, pour tout α > 0, que

(y − x0 , −αJ 0 (x0 )) ≤ 0
donc
∀y ∈ K, (y − x0 , x0 − αJ 0 (x0 ) − x0 ) ≤ 0
124 CHAPTER 6. APPROXIMATION DE SOLUTIONS

ce qui est la caractérisation de la projection de x0 −αJ 0 (x0 ) en x0 . On en déduit

que

∀α > 0, x0 = pK (x0 − αJ 0 (x0 )).

Réciproquement, soit α0 > 0 tel que x0 = pK (x0 − α0 J 0 (x0 )). On a alors

∀y ∈ K, (y − x0 , x0 − α0 J 0 (x0 ) − x0 ) ≤ 0
soit
∀y ∈ K, (y − x0 , J 0 (x0 )) ≥ 0
ce qui, par la caractérisation dans le cas convexe, implique que x0 est solution
du problème de minimisation.
On a même un résultat lorsque le pas de l’algorithme de gradient avec
projection est bien choisi:

Théorème 6.8 On suppose K convexe fermé non vide, J bornée inférieurement

sur K, de classe C 1 , Lipschitz uniformément sur K dont une constante de Lip-
schitz est L:

||J 0 (x) − J 0 (y)|| ≤ L||x − y||.

Si il existe > 0 tel que, pour tout n, ρn ∈ [, L2 (1 − )], la suite xn donnée par
l’algorithme de gradient avec projection vérifie

||xn+1 − xn || → 0
Tous les points d’adhérence de cette suite sont des points stationnaires.

Preuve On vérifie que, par caractérisation de la projection

∀y ∈ K, (y − pK (xn − ρn J 0 (xn )), xn − ρn J 0 (xn ) − pK (xn − ρn J 0 (xn ))) ≤ 0,

donc

∀y ∈ K, (y − xn+1 , xn − ρn J 0 (xn ) − xn+1 ) ≤ 0.

On conmmence l’algorithme avec un point x0 , pas forcément dans K. En re-
vanche, pour n ≥ 1, tous les termes de la suite sont dans K donc on peut
prendre y = xn . On en déduit l’inégalité:

(xn − xn+1 , xn − xn+1 ) − ρn (xn − xn+1 , J 0 (xn )) ≤ 0

soit

1
(J 0 (xn ), xn+1 − xn ) ≤ − ||xn − xn+1 ||2 .
ρn
On utilise
6.8. ALGORITHMES D’OPTIMISATION AVEC CONTRAINTES 125

Z 1
0
J 0 (xn +t(xn+1 −xn ))−J 0 (xn ), xn+1 −xn dt.

J(xn+1 )−J(xn )−(J (xn ), xn+1 −xn ) =
0

Comme on a L−Lipschitz, on trouve

R1
|J(xn+1 ) − J(xn ) − (J 0 (xn ), xn+1 − xn )| ≤ 0 ||J 0 (xn + t(xn+1 − xn )) − J 0 (xn )||||xn+1 − xn ||dt
R1
≤ L( 0 tdt||xn+1 − xn ||)||xn+1 − xn ||
≤ L2 ||xn+1 − xn ||2

On utilise alors la convexité de J pour obtenir

J(xn+1 ) ≥ J(xn ) + (J 0 (xn ), xn+1 − xn ).

On en déduit l’inégalité

L
J(xn+1 ) − J(xn ) − (J 0 (xn ), xn+1 − xn ) ≤ ||xn+1 − xn ||2
2
et de l’inégalité de caractérisation de la projection on déduit

1
(J 0 (xn ), xn+1 − xn ) ≤ − ||xn+1 − xn ||2
ρn
donc

L 1
J(xn+1 ) − J(xn ) ≤ ( − )||xn+1 − xn ||2 .
2 ρn
On utilise alors ρ1n ∈ [ L2 1−
1
, 1 ] soit L2 − 1
ρn ∈ [ L2 − 1 , − L2 1−

], donc finalement
la suite J(xn ) est décroissante et on a

L
||xn+1 − xn ||2 ≤ J(xn ) − J(xn+1 ).
2 1−
La suite J(xn ) est minorée et décroissante, donc elle converge. La décroissance
de la suite vient uniquement de l’hypothèse sur le pas... On en déduit que
J(xn+1 ) − J(xn ) tend vers 0, donc il en est de même de xn+1 − xn .
Enfin, si y est une valeur d’adhérence de la suite, xφ(n) tend vers y, dont
on déduit que xφ(n)+1 tend aussi vers y. De l’égalité xφ(n)+1 = pK (xφ(n) −
ρφ(n) J 0 ((xφ(n) )), on ne peut rien déduire car on ne sait pas si la suite ρφ(n)
converge. Il s’agit alors de remarquer que cette suite est bornée, donc on peut
extraire une sous-suite convergente, que l’on note ρφ(ψ(n)) . Elle converge vers
α > 0, et de la continuité de J 0 , de la continuité de la projection sur un convexe
fermé, on déduit l’égalité y = pK (y − αJ 0 (y)).

6.8.2 Pénalisation des contraintes

Le premier concerne la pénalisation des contraintes;on cherche à minimiser J(u)
sous les contraintes Fj (u) ≤ 0. On introduit
126 CHAPTER 6. APPROXIMATION DE SOLUTIONS

j=M
1 X
Jε (v) = J(v) + [max(Fj (v), 0)]2
ε
j=1

On a

Théorème 6.9 On suppose V = IRN .

On suppose que J est continue, α−convexe, que les Fj sont convexes et que
l’ensemble des contraintes K est non vide. Si uε est l’unique solution de inf Jε
et u l’unique solution de inf v∈K J, alors

lim uε = u.
ε→0
De plus, sous l’hypothèse J, F1 , .., FM continuement différentiables, les con-
traintes sont qualifiées en u, et la famille des contraintes actives est régulière
en u, les multiplicateurs de Lagrange λj du problème non pénalisé vérifient
2
λi = lim max(Fi (uε ), 0).
ε→0 ε

1 Pj=M
Preuve L’existence et l’unicité de u et de uε sont claires car u → ε j=1 [max(Fj (v), 0)]2 =
G(u)
ε est une fonctionnelle convexe.
On sait d’autre part que

J (u ) ≤ infK J ,
et comme, pour y ∈ K, J (y) = J(y), on vérifie que J (u ) ≤ J(u). Comme
d’autre part

J (u ) ≥ J(u )
on a l’inégalité J(u ) ≤ J(u). Comme J est α−convexe, la suite uε est bornée.
On peut extraire une sous-suite convergeant vers une limite ũ. De l’inégalité
J(uε ) ≤ J(uε ) + G(u ε
ε)
≤ J(u), on déduit l’inégalité G(uε ) ≤ ε(J(u) − J(uε )),
ce qui implique que G(ũ) = 0 (car G est continue donc G(uε ) tend vers G(ũ)
pour la suite extraite et que ε → 0). Cela exprime que ũ ∈ K. Ainsi comme
J(uε ) ≤ J(u), en considérant toujours la même suite extraite et la continuité
de J, on trouve J(ũ) ≤ J(u). On a démontré que ũ = u et donc la suite uε
admet une seule valeur d’adhérence.
Pour les multiplicateurs de Lagrange, on trouve, par définition de la dérivée
en un point x de (max(x, 0))2 qui vaut 2 max(x, 0), l’égalité
j=M
1 X
J 0 (uε ) + 2 max(Fj (uε ), 0)Fj0 (uε ) = 0.
ε
j=1

Comme J 0 , Fj0 sont continues, on trouve J 0 (uε ) → J 0 (u) et Fj0 (uε ) → Fj0 (u). On
suppose que pour un élément j, on ait Fj (uε ) → Fj0 (u) < 0. Alors il existe ε0
tel que, pour ε < ε0 , Fj (uε ) < 0 et donc on trouve max(Fj (uε , 0) = 0. L’égalité
devient, pour ε assez petit
6.8. ALGORITHMES D’OPTIMISATION AVEC CONTRAINTES 127

1 X
J 0 (uε ) + 2 max(Fj (uε ), 0)Fj0 (uε ) = 0.
ε
j∈I(u)

D’autre part, pour j ∈ I(u), on P vérifie qu’il existe une suite λ1 , ..λM , avec
/ I(u), telle que J 0 (u) + λj Fj0 (u) = 0. Ainsi on trouve
λj = 0 si j ∈

1 X
J 0 (uε ) − J 0 (u) + ( 2 max(Fj (uε ), 0) − λj )Fj0 (uε ) = 0.
ε
j∈I(u)

La famille (Fj0 (u) est libre, donc, par continuité, pour ε assez petit, la famille
(Fj0 (uε )
est libre. De plus, en formant le produit scalaire avec tous les Fj0 (uε ),
le déterminant du système obtenu est, toujours pour ε petit, minoré par une
constante. Ceci permet d’assurer le fait que 2ε max(Fj0 (uε , 0) est borné et donc
que

2
max(Fj0 (uε ), 0)(Fj0 (uε ) − Fj0 (u))
ε
tend vers 0 pour tout j. On en conclut sur la convergence, sur la base fixe des
Fj0 (u), de J 0 (uε ) + 2ε max(Fj0 (uε ), 0)Fj0 (u), d’où le résultat de convergence des
coefficients.

6.8.3 Algorithme d’Uzawa

En fait, il s’agit d’une méthode de recherche de point selle.
On sait que, pour L(v, q) = J(v) + (q, F (v)),

∀q ≥ 0, L(u, q) ≤ L(u, p) ≤ L(v, p)

Ainsi

∀q, q ≥ 0, (p − q, F (u)) ≥ 0.
Il vient, pour µ > 0

(p − q, p − (p + µF (u))) ≤ 0∀q ∈ (IR+ )M .

Ceci indique que, pour tout µ > 0, la projection de p + µF (u) est p sur l’espace
(IR+ )M .
On définit alors, pour µ paramètre fixé, la suite (un , pn ) donnée par

L(un , pn ) = inf L(v, pn )

v∈V

et le multiplicateur pn+1 est la projection sur (IR+ )m de pn + µF (un ).

Cette projection se fait très simplement: pour chaque coordonnée de pn +
µF (un ), si la coordonnée est positive ou nulle, on ne la change pas, mais si elle
est strictement négative, on la met à 0. Cet algorithme converge: ce qui s’écrit
dans le
128 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Théorème 6.10 On suppose J α−convexe différentiable, Lipschitz de con-

stante C et que le lagrangien L admet un point selle (u, p). Alors, pour 0 <
2α n donnée par l’algorithme d’Uzawa converge vers u .
µ< C 2 , la suite u

On admettra la démonstration de ce théorème.

Chapter 7

Introduction aux méthodes de

discrétisation des équations
aux dérivées partielles

On souhaite étudier les équations aux dérivées partielles suivantes:

i) Equation de la chaleur ∂t u − ∂x22 u = 0
ii) Equation des ondes ∂t22 u − ∂x22 u = 0
iii) Equation de Laplace avec condition de Dirichlet

−∆u = f sur Ω, u|∂Ω = 0.

7.1 Les différences finies

Pour les deux premières équations, on souhaite ramener ce problème continu à
un problème discrétisé, c’est-à-dire faisant intervenir les valeurs de la solution u
aux points (j∆x, n∆t). Pour cela, il s’agit de calculer la dérivée première et la
dérivée seconde en fonction des points voisins, sur le modèle de u(x+h)−u(x)h '
0
u (x).
On écrit pour cela ujn = u(j∆x, n∆t) pour u de classe C 4 , sur laquelle on
applique la formule de Taylor-Young.

uj+1
n = ujn + ∆x∂x u(j∆x, n∆t) + 21 (∆x)2 ∂x22 u(j∆x, n∆t) + 61 (∆x)3 ∂x33 u(j∆x, n∆t)
1
+ 24 (∆x)4 ∂x44 u((j + θ)∆x, n∆t).

Il ne suffit pas de uj+1

n et de ujn pour connaitre la dérivée seconde; il faut
un troisième point. On prend uj−1
n , et on a

uj−1
n = ujn − ∆x∂x u(j∆x, n∆t) + 21 (∆x)2 ∂x22 u(j∆x, n∆t) − 61 (∆x)3 ∂x33 u(j∆x, n∆t)
1
+ 24 (∆x)4 ∂x44 u((j − θ0 )∆x, n∆t).

En additionnant les deux relations, on trouve ainsi

129
130 CHAPTER 7. INTRODUCTION À LA DISCRÉTISATION

(∆x)4 4
unj+1 +unj−1 −2ujn = (∆x)2 ∂x22 u(j∆x, n∆t)+ [∂x4 u(j+θ)∆x, n∆t)+∂x44 u(j−θ0 )∆x, n∆t)],
24
ainsi

uj+1
n + unj−1 − 2ujn (∆x)2 4
∂x22 u(j∆x, n∆t) = − [∂x4 u(j+θ)∆x, n∆t)+∂x44 u(j−θ0 )∆x, n∆t)],
(∆x)2 24

ce qui donne, sur un compact K:

uj+1
n + uj−1
n − 2ujn (∆x)2 4
|∂x22 u(j∆x, n∆t) − | ≤ ||∂x4 u(j∆x, n∆t)||.
(∆x)2 12

On utilise aussi la relation

ujn+1 − ujn = ∆t∂t u(j∆x, n∆t) + O((∆t)2 )

qui nous permet d’écrire des schémas pour l’équation des ondes et pour l’équation
de la chaleur.
Pour l’équation des ondes, on écrit par exemple

ujn+1 − 2ujn + ujn−1 uj+1

n − 2ujn + uj−1
n
− =0 (7.1.1)
(∆t)2 (∆x)2
qui s’appelle un schéma explicite puisque ujn+1 est connu explicitement en
fonction des valeurs de ulk pour k ≤ n, c’est-à-dire que l’on connait les valeurs
aux points situés au temps (n + 1)∆t en fonction des temps précédents.
On écrit aussi

ujn+1 − 2ujn + ujn−1 uj+1 j j−1

n+1 − 2un+1 + un+1
− =0 (7.1.2)
(∆t)2 (∆x)2
qui s’appelle un schéma implicite car on ne peut pas déterminer les valeurs au
temps (n + 1)∆t en fonction des valeurs aux temps précédents.
On suppose que l’on se place sur un compact, par exemple x ∈ [0, 1]. On
vérifie que la discrétisation correspond aux ∆x = N1 et j ∈ [0, N ]. En ajoutant
des conditions aux extrémités, on se ramène à un système de la forme
 1 
un+1
 u2n+1 
A .  = 2un−1 − un−1 .


.uN
n+1

C’est un système linéaire de la forme Ax = b qui peut se résoudre par des

méthodes d’approximation du cours d’optimisation, sur la fonctionnelle

1
J(x) = (Ax, x) − (b, x).
2
7.1. LES DIFFÉRENCES FINIES 131

Pour l’équation de la chaleur, on écrit les mêmes schémas:

ujn+1 − ujn uj+1

n − 2ujn + uj−1
n
− =0 (7.1.3)
∆t (∆x)2
qui est un schéma explicite, et

ujn+1 − ujn uj+1 − 2ujn+1 + uj−1

− n+1 n+1
=0 (7.1.4)
∆t (∆x)2
qui est un schéma implicite.
Pour affiner l’analyse, nous introduisons les fonctions, polynômiales de degré
3 au plus, qui soient de classe C 2 sur [0, 1] et qui coincident avec tous les
ujn en tous les points j∆x pour ∆x = N1 . Pour ces fonctions là, on vérifie
que la dérivée seconde sur tous les intervalles [j∆x, (j + 1)∆x] est exacte-
uj+1 −2uj +uj−1
n+1
ment égale à n+1 (∆x) 2
n+1
, puisque la fonction est de dérivée quatrième
nulle sur chaque intervalle. On peut donc déduire une formulation continue
uj+1 j j−1
n+1 −2un+1 +un+1
de cette formulation discrète, en remplacant le terme (∆x)2
par
un+1 (x+∆x)+un+1 (x−∆x)−2un+1 (x)
(∆x)2
. On emploiera en permanence cette notation
désormais (utilisant l’indice pour la position en espace et l’exposant pour l’incrément
en temps). On écrit les schémas sous la forme

un+1 (x) − un (x) un+1 (x + ∆x) + un+1 (x − ∆x) − 2un+1 (x)

=
∆t (∆x)2

un+1 (x) − un (x) un (x + ∆x) + un (x − ∆x) − 2un (x)

=
∆t (∆x)2
Considérant la transformée de Fourier en x des deux égalités ci-dessus et
utilisant la relation
ξ∆x
eiξ∆x + e−iξ∆x − 2 sin2 2
= −4
(∆x)2 (∆x)2
on trouve respectivement, en notant
Z +∞
n
v (ξ) = e−ixξ un (x)dx
−∞
la relation pour le schéma implicite pour l’équation de la chaleur
ξ∆x ∆t
(1 + 4 sin2 )v n+1 (ξ) = v n (ξ)
2 (∆x)2
et la relation pour le schéma explicite pour l’équation de la chaleur

ξ∆x ∆t
v n+1 (ξ) = (1 − 4 sin2 )v n (ξ).
2 (∆x)2
Le but est d’assurer la convergence de la suite pour tout n (c’est à dire
lorsque le temps devient grand).
132 CHAPTER 7. INTRODUCTION À LA DISCRÉTISATION

• Dans le cas du schéma explicite, il est nécessaire pour cela que le coefficient
(1 − 4 sin2 ξ∆x ∆t
2 (∆x)2 ) soit de module plus petit que 1, soit l’inégalité

ξ∆x ∆t
4 sin2 > −2
2 (∆x)2
∆t 1
ce qui est possible lorsque le coefficient (∆x)2 est plus petit que 2 . Cette condi-

tion s’appelle une condition CFL et doit être vérifiée pour que la suite n’explose
pas lorsque ∆t tend vers 0 (ce qui est imposé par [0, T ] = ∪k≤ T [k∆t, (k+1)∆t]).
∆t
• Dans le cas du schéma implicite, le coefficient (1 + 4 sin2 ξ∆x ∆t −1
2 (∆x)2 ) est
toujours plus petit que 1 et le schéma implicite converge toujours.
Pour l’équation des ondes, la situation est similaire, sauf que la relation de
récurrence pour la suite est une relation d’ordre 2, et on doit étudier les racines
de la relation caractéristique. On trouve par exemple, pour le schéma explicite

ξ∆x ∆t 2 n+1
v n+1 (ξ) − 2(1 − 2 sin2 ( ) )v (ξ) + v n (ξ) = 0
2 ∆x
et pour le schéma implicite

ξ∆x ∆t 2
v n+1 (ξ)(1 + 4 sin2 ( ) ) − 2v n+1 (ξ) + v n (ξ) = 0.
2 ∆x
On constate pour le premier schéma que le produit des racines de l’équation
caractéristique est 1, donc le produit des modules est égal à 1. Si le discrim-
inant est négatif, les deux racines sont complexes conjuguées de module 1, si
le discriminant est positif, une des racines est de module supérieur à 1, donc il
n’y a pas convergence.
1
Pour le deuxième schéma, le produit des racines est 2 ξ∆x ∆t 2 et le dis-
1+4 sin 2
( ∆x )
criminant est négatif, elles sont donc complexes conjuguées de module inférieur
à 1 (égal à 1 lorsque ξ∆x = 2πn), donc ce schéma est convergent.
Ce schéma n’est pas employé en général; les numériciens préfèrent employer
le schéma de Cranck-Nicholson qui se présente de la manière suivante.
On introduit l’opérateur Ah qui est l’opérateur employé dans les algorithmes
précédents (le h correspond à ∆x). Cet opérateur s’écrit

φj+1 − 2φj + φj−1

(Ah φ)j = − (7.1.5)
(∆x)2
sur une suite φj .
Le schéma utilisé habituellement est alors

un+1
j + un−1
j − 2unj
+ (Ah (θun+1 + (1 − 2θ)un + θun+1 ))j = 0.
(∆t)2
où θ ∈ [0, 12 ]. Le choix θ = 0 correspond à un schéma explicite comme vu
précédemment.
La transformée de Fourier appliquée à ce schéma comme cela a été fait
précedemment conduit à la relation de récurrence
7.1. LES DIFFÉRENCES FINIES 133

(1 + α(ξ)θ)v n+1 (ξ) − (2 − (1 − 2θ)α(ξ))v n (ξ) + (1 + α(ξ)θ)v n−1 (ξ) = 0,

où

∆t 2 2 ξ∆x
α(ξ) = 4( ) sin
∆x 2
associée à l’équation caractéristique

(1 + α(ξ)θ)r2 − (2 − (1 − 2θ)α(ξ))r + (1 + α(ξ)θ) = 0,

Comme précédemment, le produit des racines est 1, donc si les deux racines
sont réelles et ne sont pas égales, le schéma est instable car une des racines
est plus grande que 1. Il vient alors qu’une condition nécessaire de stabilité
est donnée par le fait que les deux racines sont complexes conjuguées, donc de
module 1. Ceci s’écrit

(2(1 + θα(ξ)) − α(ξ))2 − 4(1 + α(ξ)θ)2 ≤ 0

soit −α(ξ)(4(1 + α(ξ)θ) − α(ξ)) ≤ 0 ou encore

(4θ − 1)α + 4 ≥ 0.
Lorsque θ ≥ 41 , cette inégalité est tout le temps vraie. Lorsque θ ∈ [0, 12 ], on
trouve que cette inégalité est vraie pour

∆t 2 2 ξ∆x 1
( ) sin ≤
∆x 2 1 − 4θ
ce qui est vrai sous la condition

∆t 1
≤√ .
∆x 1 − 4θ
On résume les résultats de cette section dans:

Théorème 7.1 Soit Ah l’opérateur d’approximation donné par (7.1.5).

1) Cet opérateur d’approximation vérifie l’inégalité, pour φ = (u(j∆x))j et
u de classe C 4 sur [0, 1] et j ≤ N , ∆x = N1 :

(∆x)2 (4)
|(Ah u)j + u”(j∆x)| ≤ ||u ||C 0 ([0,1]) .
12
2) Un schéma explicite pour l’équation de la chaleur s’écrit

un+1 − un
+ Ah un = 0.
∆t
Il est stable lorsque la condition suivante est satisfaite:

∆t 1
2
≤ .
(∆x) 2
134 CHAPTER 7. INTRODUCTION À LA DISCRÉTISATION

3) Un schéma implicite pour l’équation de la chaleur s’écrit

un+1 − un
+ Ah un+1 = 0.
∆t
Il est tout le temps stable.
4) Un schéma explicite pour l’équation des ondes s’écrit

un+1
j + un−1
j − 2unj
+ (Ah un )j = 0.
(∆t)2
Il est tout le temps instable
5) Un schéma implicite pour l’équation des ondes s’écrit

un+1
j + ujn−1 − 2unj
+ (Ah un+1 )j = 0.
(∆t)2
Il est tout le temps stable.
6) Un schéma implicite pour l’équation des ondes respectant l’invariance
par renversement du temps est

un+1
j + un−1
j − 2unj
+ (Ah (θun+1 + (1 − 2θ)un + θun+1 ))j = 0.
(∆t)2

Il est tout le temps stable pour 14 ≤ θ ≤ 12 .

Pour 0 ≤ θ ≤ 41 , il est stable sous la condition CFL

∆t 1
≤√ .
∆x 1 − 4θ

7.2 Les éléments finis

Nous terminons par une introduction à l’étude des éléments finis en utilisant
l’équation −∆u = f u ∈ H 1 (Ω) avec condition au bord de Dirichlet sur un
ouvert Ω borné.
On vérifie que, si cette équation est vraie au sens des distributions, alors on
a
∀φ ∈∈ C ∞ (Ω), < −∆u, φ >=< f, φ > .
On utilise la définition de la dérivée au sens des distributions pour obtenir

< ∇u, ∇φ >=< f, φ > .

Comme on suppose u ∈ H01 (Ω), la forme linéaire

φ →< ∇u, ∇φ >

est continue sur C0∞ (Ω) pour la norme de H01 (Ω) donc peut se prolonger par
densité. Si on suppose f ∈ L2 (Ω), le second membre a les mêmes propriétés,
donc
7.2. LES ÉLÉMENTS FINIS 135

Z
< ∇u, ∇v >= f (x)v(x)dx

pour v ∈ H01 (Ω). Cette égalité s’écrit donc

Z Z
1
∀v ∈ H0 (Ω), u(x)v(x)dx = f (x)v(x)dx. (7.2.6)
Ω Ω
On reconnaitRdans le membre de gauche la dérivée de Fréchet de la fonctionnelle
1−convexe 12 Ω (∇u)2 dx, et l’égalité est l’écriture de la condition d’Euler pour la
minimisation sur H01 (Ω) (dont l’espace des directions admissibles est lui-même)
de
Z Z
1
J(u) = (∇u)2 dx − f (x)u(x)dx.
2 Ω Ω
On utilise alors les théorèmes d’approximation, en supposant par exemple
que Ω = [0, 1] × [0, 1], pour lequel on construit des sous espaces adaptés de
fonctions H01 , donnés par (h = n1 )

Ph = {u(x, y) ∈ H01 ([0, 1]×[0, 1]), continues, polynômes de degré 1 sur[ph, (p+1)h]×[qh, (q+1)h]}.

On détermine alors une base de Ph en définissant la valeur au bord et la valeur

des dérivées ∂x u et ∂y u sur chacun des pavés du plan. On écrit alors un élément
de Ph sur une base, et on écrit la minimisation de J sur Ph ⊂ H01 ([0, 1] × [0, 1]).
Alors on trouve, de l’égalité variationnelle (7.2.6) écrite pour vh ∈ Ph et uh ∈ Ph ,
un système en dimension finie de la forme Ah uh = Fh , que l’on résout par les
méthodes usuelles du cours (en minimisant par exemple 12 (Ah X, X) − (Fh , X)),
et on essaie d’avoir un résultat en faisant tendre h vers 0.
Par exemple, la base de polynômes sur chaque pavé est (1, X, Y ) donc tout
polynôme de degré au plus 1 s’écrit

ap,q + bp,q (X − ph) + cp,q (Y − qh)

Son gradient est approché par (bp,q , cp,q ) et sa valeur sur X = ph est donnée par
ap,q + cp,q (Y − qh), sur X = (p + 1)h est donnée par ap,q + h + cp,q (Y − qh), sur
Y = qh est ap,q + bp,q (X − ph) et sur Y = (q + 1)h par ap,q + h + bp,q (X − ph).
On peut alors calculer l’intégrale du produit d’éléments de la base:
RhRh
11dxdy = h2
R0h R0h 3
1xdxdy = h2
R0h R0h 3
1ydxdy = h2
R0h R0h 2 4
x dxdy = h3
R0h R0h 4
0 0 xydxdy = h4
h4
RhRh 2
0 0 y dxdy = 3
ce qui fait que le produit de deux éléments a + bx + cy et a0 + b0 x + c0 y donne

h h h2
h2 [aa0 + (ab0 + a0 b + ac0 + a0 c) + (bc0 + b0 c) + (bb0 + cc0 ) ]
2 3 4
136 CHAPTER 7. INTRODUCTION À LA DISCRÉTISATION

ainsi la matrice de la forme quadratique associée (en divisant par h2 pour plus
de simplicité) est
 
1 h2 h
 h h2 h22 
 2 4 3 .
h h2 h2
2 3 4
Il est clair que c’est une forme quadratique définie positive puisque
Z hZ h
(a + bx + cy)2 dxdy = 0 ⇒ a = b = c = 0.
0 0
On utilise donc cette représentation des fonctions de H 1 par des des polynômes
de degré 1.
La présentation ainsi faite n’est pas satisfaisante; en effet un carré ou un
rectangle a quatre sommets, et un polynôme de degré 1 a trois coefficients.
Ainsi on ne pourra pas construire une fonction générale prenant quatre valeurs
données en tous les coins ABCD; il faut nécessairement que

u(A) + u(D) = u(B) + u(C)

Si on veut construire une famille qui conduise à toutes les valeurs possibles aux
points du carré, il faut considérer les fonctions de la forme

u(x, y) = u(0, 0) + bx + cy + dxy

qui sont des polynômes de degré 1 dans chacune des variables x, y. Alors on
aura

u(1, 0) = u(0, 0) + b, u(0, 1) = u(0, 0) + c, u(1, 1) = u(0, 0) + b + c + d

donc b = u(1, 0) − u(0, 0), c = u(0, 1) − u(0, 0), d = u(1, 1) + u(0, 0) − u(0, 1) −
u(1, 0), et cette famille permet de construire une solution dont les valeurs
données sont les valeurs au coin.
Les valeurs aux sommets s’appellent les degrés de liberté d’une fonction
de l’espace d’approximation. Dans le pavé [0, 1]×[0, 1], on construit les sommets
de l’approximation aij = (ih, jh) et la base de l’espace d’approximation Vh (φij )
des fonctions telles que

φij (ai0 j 0 ) = δii0 δjj 0

qui coincident avec les fonctions décrites ci-dessus sur tous les pavés élementaires
de côté h. La fonction φij est la fonction nulle sur tout pavé dont un coin n’est
pas aij est est construite comme la fonction valant 1 au coin aij et 0 à tout
autre coin pour un pavé ayant aij comme coin. Toute fonction de Vh s’écrit
X
u=u(aij )φij
R P R
et il suffit d’évaluer ∇u∇vdx = aij bi0 j 0 ∇φij ∇φi0 j 0 dx pour obtenir la
forme quadratique.
7.2. LES ÉLÉMENTS FINIS 137

Cette présentation fait partie d’un cadre plus général d’approximation, dont
on résume les résultats:

Proposition 7.1 La formulation variationnelle d’un système d’équations aux

dérivées partielles avec conditions aux limites prescrites est l’équation d’Euler
associée à la minimisation sur un espace de Hilbert H de la fonctionnelle
quadratique d’énergie associée au problème 21 a(u, u) − L(u),.
Elle s’écrit

∀v ∈ H, a(u, v) = L(v).
Une méthode d’approximation s’obtient par le processus suivant: on définit
une suite d’espaces vectoriels de dimension finie Vh , associée à un paramètre
h tendant vers 0, dont on connait une base simple Bh , ayant les propriétés
suivantes
i) pour tout élément v de H on peut construire une suite vh ∈ Vh telle que

|v − vh |H → 0 lorsque h → 0
ii) Le calcul de a(φ, ψ) pour φ et ψ dans Bh est simple.
Alors si uh est le minimum de 21 a(u, u) − Lh (u) sur Vh , dans certaines
conditions uh → u.
138 CHAPTER 7. INTRODUCTION À LA DISCRÉTISATION
Chapter 8

Résumé de cours (auteure

Laurence Halpern)

8.1 Résultats d’existence

Soit V un espace de Hilbert (sur R), K une partie de V , J une fonction définie
sur V à valeurs dans R . On dit que u est minimum local de J sur K si u
appartient à K et s’il existe un voisinage U de u dans K tel que
∀v ∈ U, J(u) ≤ J(v) (8.1.1)
Si la relation précédente est vraie pour tout v dans K, on dit que u est min-
imum global de J sur K. On définit un problème de minimisation sur K
par (
u ∈ K,
J(u) = inf J(v) (8.1.2)
v∈K
On dit alors que u est solution optimale du problème de minimisation sur
K. Le problème de minimisation est dit sans contrainte si V = K, avec
contraintes si V 6= K.
Bien évidemment, on définit un problème de maximisation, en remplaçant
6 par > dans (8.1.1) et inf par sup dans (8.1.2). On parlera en général de
problème d’optimisation. On passe de l’un à l’autre en définissant la fonction-
nelle opposée. Dans ce cours tous les résultats sont établis sur les problèmes de
minimisation.

8.1.1 Théorème de Weierstrass

Théorème 8.1 . Si K est un compact non vide et si J est continue sur K, le
problème de minimisation (8.1.2) admet une solution.
Remarque 8.1 . C’est un théorème d’existence, mais il ne donne pas de
résultat d’unicité.
Remarque 8.2 . Dans les problèmes d’optimisation, les ensembles de con-
traintes sont en général fermés bornés, mais pas forcément compacts. Par con-
tre ils sont souvent convexes.

139
140 CHAPTER 8. RESUME

8.1.2 Cas convexe

On rappelle qu’une partie K de V est convexe si

∀(x, y) ∈ K, ∀θ ∈ [0, 1], θx + (1 − θ)y ∈ K (8.1.3)

Une fonction J définie sur un convexe K est dite

• convexe si

∀(x, y) ∈ K, ∀θ ∈ [0, 1], J(θx + (1 − θ)y) 6 θJ(x) + (1 − θ)J(y), (8.1.4)

• strictement convexe si

∀(x, y) ∈ K, x 6= y, ∀θ ∈]0, 1[, J(θx + (1 − θ)y) 6 θJ(x) + (1 − θ)J(y),

(8.1.5)

• α convexe si

∀(x, y) ∈ K, ∀θ ∈ [0, 1], J(θx + (1 − θ)y) 6 θJ(x)+(1 − θ)J(y)−

− α
2 θ(1 − θ)||x − y||2 .
(8.1.6)

Théorème 8.2 . Si J est convexe, tout minimum local est global, et l’ensemble
des solutions optimales est convexe.

Théorème 8.3 . Si J est strictement convexe, la solution optimale, si elle

existe, est unique.

Théorème 8.4 (Théorème fondamental) . Soit K un convexe fermé non

vide, J une fonction définie sur K à valeurs dans R convexe continue. On
suppose que J est infinie à l’infini (i.e. J(v) → +∞ lorsque ||v|| → +∞) ou
que K est borné. Alors le problème de minimisation admet une solution.

Corollaire 8.1 . Soit K un convexe fermé non vide, J une fonction définie
sur K à valeurs dans R, α-convexe continue. Alors le problème de minimisation
admet une solution et une seule. De plus toute suite minimisante converge vers
u.

8.2 Rappels de calcul différentiel

Soit J une fonctionnelle définie sur un Hilbert V à valeurs dans R. On note V 0
le dual de V , i.e. l’espace vectoriel des applications linéaires continues sur V à
valeurs dans R.
8.2. RAPPELS DE CALCUL DIFFÉRENTIEL 141

8.2.1 Dérivées premières

Définition 8.1 (Différentiabilité) J est différentiable (au sens de Fréchet)
en u ∈ V s’il existe lu dans V 0 telle que,

∀w ∈ V, J(u + w) = J(u) + lu (w) + (w)kwk, lim (w) = 0 (8.2.7)

→0

lu est la dérivée de J et se note J 0 (u). On écrira J 0 (u) · v = lu (v).

Remarque 8.3 Par le théorème de Riesz puisque J 0 (u) est dans V 0 , il existe
un unique élément de V noté ∇J(u) tel que pour tout v dans V on ait

J 0 (u) · v = (∇J(u), v)

Exemples de base

1. Les formes linéaires J(u) = (c, u), où c est un vecteur donné dans V .
Alors J 0 (u).v = (c, v), ∇J(u) = c.

2. Les fonctions J(u) = a(u, u), où a est une forme bilinéaire continue sur V .
Alors J 0 (u).v = a(u, v) + a(v, u), et si a est symétrique J 0 (u).v = 2a(u, v).
Pn ∂J
3. Si V = Rn , J 0 (u) = ( ∂x
∂J
1
(u), · · · , ∂J
∂x n
(u)) et J 0 (u).v =
i=1 ∂xi (u)vi .

8.2.2 Dérivées secondes

Si J : V 7→ R, J 0 : V 7→ V 0 admet une différentielle J 00 et pour tout u,
J 00 (u) ∈ L(V, V 0 ), espace des applications linéaires continues de V dans V 0 .
Cet espace s’identifie à L2 (V ), espace des applications bilinéaires continues de
V × V dans R. On notera J”(u) · v · w.
Exemples de base

1. J(u) = (c, u), J”(u) = 0.

2. J(u) = a(u, u), alors J 00 (u).v.w = a(v, w) + a(w, v), et si a est symétrique
J 00 (u).v.w = 2a(v, w). Si V = Rn , J(u) = 21 (Au, u) où A est une matrice
symétrique, alors J”(u) = A pour tout u.
∂2J
3. Si V = Rn , J 00 (u) est la matrice des dérivées partielles secondes ∂xi ∂xj (u).

8.2.3 Formules de Taylor

Taylor Mac-Laurin ordre 1 Si J : V 7→ R est définie et continue sur [u, v],
différentiable sur ]u, v[, il existe θ ∈]0, 1[ tel que

J(v) = J(u) + J 0 (u + θ(v − u)) · (v − u)

Taylor Mac-Laurin ordre 2 Si J : V 7→ R est définie et continue sur [u, v],

2 fois différentiable sur ]u, v[, il existe θ ∈]0, 1[ tel que

J(v) = J(u) + J 0 (u) · (v − u) + 21 J 00 (u + θ(v − u)) · (v − u) · (v − u)

142 CHAPTER 8. RESUME

Taylor Young Si J : V 7→ Rp est définie et continue sur [u, v], de classe C 1

sur [u, v], 2 fois différentiable dans un voisinage de u,
J(v) = J(u) + J 0 (u) · (v − u) + (v − u)kv − uk, lim (v − u) = 0
→0

Théorème 8.5 (caractérisation des fonctions convexes) . J est convexe

si et seulement si l’une des conditions suivantes est vérifiée :
1. Si J est différentiable, le graphe de J est au-dessus de l’hyperplan tangent,
i.e.
∀u, v ∈ V, J(v) ≥ J(u) + J 0 (u) · (v − u) (8.2.8)
2. Si J est différentiable, J 0 est un opérateur monotone, i.e.
∀u, v ∈ V, (J 0 (v) − J 0 (u)) · (v − u) ≥ 0 (8.2.9)

3. Si J est deux fois différentiable, J 00 est un opérateur non négatif, i.e.

∀u, w ∈ V, J 00 (u)w.w ≥ 0 (8.2.10)

Pour une fonction α -convexe, on a :

Théorème 8.6 (caractérisation des fonctions α -convexes) . J est α-
convexe si et seulement si l’une des conditions suivantes est vérifiée :
1. Si J est différentiable,
∀u, v ∈ V, J(v) ≥ J(u) + J 0 (u) · (v − u) + α
2 k v − u k2 , (8.2.11)

2. Si J est différentiable,
∀u, v ∈ V, (J 0 (v) − J 0 (u)) · (v − u) ≥ α k v − u k2 , (8.2.12)

3. Si J est deux fois différentiable,

∀u, w ∈ V, J 00 (u)w.w ≥ α k w k2 . (8.2.13)

En particulier les fonctionnelles de la forme J(u) = a(u, u), où a est une forme
bilinéaire symétrique continue sur V sont α-convexes si et seulement si
∀u ∈ V, 2a(w, w) ≥ αkwk2
Si l’on est dans Rn , avec J(u) = 12 (Au, u), ceci revient à
∀u ∈ V, (Aw, w) ≥ αkwk2
La matrice A étant symétrique, elle diagonalise en base orthonormée, A =
P DP T , où D est la matrice des valeurs propres di et P la matrice des vecteurs
propres. On a alors
n
X n
X
2
(Aw, w) = di ((P w)i ) > (min1≤i≤n di ) ((P w)i )2
i=1 i=1

(Aw, w) > (min1≤i≤n di )kP wk = (min1≤i≤n di )kwk2

car, puisque P est orthogonale, kP wk = kwk. Si A est définie positive, a

fonctionnelle est min1≤i≤n di -convexe.
8.3. CARACTÉRISATION DES EXTREMA 143

8.3 Caractérisation des extrema

8.3.1 Equation d’Euler, cas général
Théorème 8.7 (condition nécessaire) . Si u est minimum local de J dans
V , alors

1. Si J est différentiable, J 0 (u) = 0,

2. Si J est deux fois différentiable, on a de plus ∀w ∈ V, J 00 (u)w.w ≥ 0.

Théorème 8.8 (condition suffisante) . Soit J une fonction différentiable

dans V et u un point de V tel que J 0 (u) = 0.

1. Si J est deux fois différentiable dans un voisinage de u et s’il existe un

voisinage Ω de u tel que ∀v ∈ Ω, ∀w ∈ V, J 00 (v)w.w ≥ 0, alors u est
minimum local de J.

2. Si J est deux fois différentiable,et s’il existe α > 0 tel que

∀w ∈ V, J 00 (u)w.w ≥ α k w k2 ,

alors u est minimum local strict pour J.

8.3.2 Inéquation d’Euler, cas convexe

Dans cette section on considère le problème de minimisation avec contraintes.
On suppose que K est un convexe fermé non vide et que J est différentiable.

Théorème 8.9 . Si u est solution optimale on a l’inéquation d’Euler

u∈K
(8.3.14)
∀v ∈ K, J 0 (u).(v − u) ≥ 0.

Réciproquement si on a l’inéquation d ’Euler en u et si de plus J est convexe,

alors u est solution optimale.

Corollaire 8.2 [Projection sur un convexe fermé]. Soit K une partie convexe
fermée non vide d’un espace de Hilbert V , et w un point de V n’appartenant
pas à K. alors il existe un unique point de K, noté PK w tel que
(
PK w ∈ K,
kw − PK wk = inf kw − vk (8.3.15)
v∈K

Il est caractérisé par

∀v ∈ K, (PK w − w, v − PK w) > 0 (8.3.16)

Les cas particuliers sont très importants.

1. K = V On a le
144 CHAPTER 8. RESUME

Théorème 8.10 . Si J est convexe différentiable, alors u réalise le min-

imum de J sur V si et seulement si J 0 (u) = 0.

Remarque 8.4 . En particulier si J est α-convexe, il existe une unique

solution optimale, caractérisée par J 0 (u) = 0.

2. K sous-espace affine engendré par l’espace vectoriel fermé E, i.e. K =

{u0 + v, v ∈ E}, alors
(
u∈K
(8.3.14) ⇔ (8.3.17)
∀w ∈ K, J 0 (u).w = 0

Si E est défini par m contraintes, E = {w ∈ V, (ai , w) = 0, 1 6 i 6 m},

alors

u ∈ K

m
(8.3.14) ⇔ X (8.3.18)
∃λ1 , .., λm , ∇J(u) +
 λi ai = 0
i=1

Remarque 8.5 Si l’on définit les fonctions affines Fi (w) = (w − u0 , ai ),

alors K = {w ∈ V, Fi (w) = 0}, et (8.3.18) se réécrit

u ∈ K

m
(8.3.14) ⇔ X (8.3.19)
∃λ1 , .., λm , ∇J(u) +
 λi Fi0 = 0.
i=1

3. K cône convexe fermé de sommet u0 . On note K0 le cône de sommet O

qui lui est parallèle. Alors

u ∈ K

(8.3.14) ⇔ J 0 (u).(u0 − u) = 0 (8.3.20)

∀w ∈ K0 , J 0 (u).w > 0.


Pour M cône convexe fermé de sommet O, on définit le cône dual par

M ? = {c ∈ V, ∀v ∈ M, (c, v) ≥ 0} (8.3.21)

Si M est engendré par un nombre fini de vecteurs, alors on peut décrire

M? :

Théorème 8.11 (Lemme de Farkas) .

Si M = {c ∈ V, ∀i ∈ {1, .., m}, (c, ai ) 6 0}, alors c ∈ M ? si et seule-
ment si −c appartient au cône convexe engendré par les ai , i.e. il existe
Xm
{λ1 , .., λm } tous ≥ 0 tels que c = − λ i ai .
i=1
8.3. CARACTÉRISATION DES EXTREMA 145

Intéressons nous maintenant au cas où K0 est défini par m contraintes,

K0 = {w ∈ V, (ai , w) ≤ 0, 1 6 i 6 m}. Alors la troisième ligne dans
(8.3.20) exprime que −J 0 (u) est dans K0? , et donc (8.3.20) se réécrit

u ∈ K

(8.3.14) ⇔ J 0 (u).(u0 − u) = 0 (8.3.22)
∃(λ1 , · · · , λm ) > 0, ∇J(u) + m
 P
i=1 λi ai = 0


Remarquons comme dans le cas précédent que K se définit ici comme

K = {w ∈ V, Fi (w) ≤ 0, 1 6 i 6 m}, et (8.3.22) s’écrit

u ∈ K

(8.3.14) ⇔ J 0 (u).(u0 − u) = 0 (8.3.23)
∃(λ1 , · · · , λm ) > 0, ∇J(u) + m

0
P
i=1 λi Fi = 0


8.3.3 Multiplicateurs de Lagrange, cas général

Le lemme de Farkas va nous permettre de trouver des conditions nécessaires
d’optimalité dans le cas général.
Pour K fermé non vide, pour tout v dans K, nous définissons le cône des
directions admissibles K(v). C’est un cône fermé de sommet O, défini par

K(v) = {0} ∪ {w ∈ V,
vk −v w
∃{vk }k∈N ⊂ K lim vk = v, vk 6= v pour tout k, lim = ||w|| }
k→+∞ k→+∞ ||vk −v||
(8.3.24)

Théorème 8.12 . Si J a un minimum local en u ∈ K et si J est différentiable

en u, alors J 0 (u) ∈ K(u)? .

Remarque 8.6 . Si K et J sont convexes, alors c’est une condition nécessaire

et suffisante.

8.3.4 contraintes égalités

K = {v ∈ V, F (v) = 0} (8.3.25)
où F est une fonction C 1 de V dans Rm , ses coordonnées sont F1 , .., Fm .

Définition 8.2 . Les contraintes sont régulières en u ∈ K si les Fi0 (u) sont
linéairement indépendantes. On dit alors que u est un point régulier.

On peut alors caractériser le cône des directions admissibles :

Lemme 8.1 . Si les contraintes sont regulières en u ∈ K, alors

K(u) = {w ∈ V, Fi0 (u).w = 0, 1 ≤ i ≤ m} (8.3.26)

et en déduire l’existence de multiplicateurs de Lagrange :

146 CHAPTER 8. RESUME

Théorème 8.13 . Si u ∈ K, u régulier, est minimum local pour J, il existe

m réels p1 , .., pm tels que
m
X
0
J (u) + pi Fi0 (u) = 0. (8.3.27)
i=1

Remarque 8.7 . Si K et J sont convexes, alors c’est une condition nécessaire

et suffisante.

Remarque 8.8 . Introduisons le lagrangien défini sur V × Rm à valeurs dans

R par
Xm
L(v, q) ≡ J(v) + qi Fi (v), (8.3.28)
i=1

alors
m
X
L0v (v, q) ≡ ∂L
∂v (v, q) = J 0 (v) + qi Fi0 (v)
i=1
(8.3.29)
L0q (v, q) ≡ ∂L
∂q (v, q) = F (v)
et
u ∈ K ⇔ ∀q ∈ Rm , L0v (u, q) = 0
(8.3.30)
u minimum local ⇔ ∃p ∈ Rm , L0q (u, p) = 0

8.3.5 contraintes inégalités

K = {v ∈ V, F (v) ≤ 0} (8.3.31)
où F est une fonction C 1 de V dans Rm , ses coordonnées sont F1 , .., Fm .

Définition 8.3 . Pour u ∈ K, on appelle I(u) l’ensemble des contraintes

actives ou saturées, i.e.Fi (u) = 0 si i ∈ I(u), Fi (u) < 0 sinon. Les contraintes
sont dites qualifiées en u si

∃w̄ ∈ V, ∀i ∈ I(u), (Fi0 (u), w̄) < 0 ( resp. ≤ 0 si Fi est affine). (8.3.32)

On peut encore caractériser le cône des directions admissibles :

Lemme 8.2 . Si les contraintes sont qualifiées en u ∈ K, alors

K(u) = {w ∈ V, ∀i ∈ I(u), Fi0 (u).w ≤ 0} (8.3.33)

Le lemme de Farkas permet alors d’établir le

Théorème 8.14 . Si u ∈ K, où les contraintes sont qualifiées, est minimum

local pour J, il existe m réels p1 , .., pm ≥ 0 tels que
m
X
J 0 (u) + pi Fi0 (u) = 0
i=1 (8.3.34)
m
X
pi Fi (u) = 0
i=1
8.3. CARACTÉRISATION DES EXTREMA 147

Remarque 8.9 . Le lagrangien est maintenant défini sur V × Rm

+ , et l’on peut
écrire
u ∈ K solution optimale ⇒ ∃p ∈ Rm +,
0 0 (8.3.35)
Lv (u, p) = Lq (u, p).p = 0.
Attention, contrairement au cas des contraintes égalités, on n’a qu’une condition
nécessaire.Le développement d’une condition nécéssaire et suffisante est l’objet
du chapitre suivant.
148 CHAPTER 8. RESUME
8.4. LAGRANGIEN ET POINT SELLE 149

8.4 Lagrangien et point selle

8.4.1 Point selle

Soient V et M deux espaces de Hilbert, U une partie de V et P une partie de
M . On définit le lagrangien comme une application de U × P dans R et on le
note L.

Exemple 8.1 au problème d’optimisation du chapitre précédent,

(
u ∈ K,
J(u) = inf J(v) (8.4.36)
v∈K

nous avons associé de façon naturelle un lagrangien dans les cas suivants :

K = {v, F (v) ≤ 0} ; L : K × Rm
+ →R
(8.4.37)
K = {v, F (v) = 0} ; L : K × Rm → R

où F : V → Rm , et

L(v, q) = J(v) + (F (v), q) (8.4.38)

(.,.) désigne le produit scalaire dans Rm .

Lemme 8.3 .
sup inf L(v, q) ≤ inf sup L(v, q) (8.4.39)
q∈P v∈U v∈U q∈P

Remarquons que l’on n’interdit pas les valeurs +∞ et −∞.

Définition 8.4 .(u, p) est point selle du lagrangien si

sup L(u, q) = L(u, p) = inf L(v, p) (8.4.40)

q∈P v∈U

Lemme 8.4 . Si (u, p) est point selle du lagrangien, alors

sup inf L(v, q) = L(u, p) = inf sup L(v, q) (8.4.41)

q∈P v∈U v∈U q∈P

On associe maintenant au lagrangien un problème primal et un problème

dual. On définit d’une part K et J par

K = {v ∈ U, sup L(v, q) < +∞},

q∈P

et pour v dans K,

J(v) = sup L(v, q).

q∈P

Le problème primal associé s’écrit :

150 CHAPTER 8. RESUME

(P) Trouver u ∈ K tel que J(u) = inf J(v)

v∈K

On définit également K ∗ et G par K ∗ = {q ∈ P, inf L(v, q) > −∞}, et pour q

v∈U
dans K ∗ , G(q) = inf L(v, q). Le problème dual associé s’écrit :
v∈U

(P ∗ ) Trouver p ∈ K ∗ tel que G(p) = sup G(q)

q∈K ∗

Théorème 8.15 . (u, p) est point selle du lagrangien si et seulement si u est

solution de (P), p est solution de (P ∗ ), et J(u) = G(p).

8.4.2 Théorie de Kuhn et Tucker

On considère maintenant le problème de minimisation convexe avec contraintes
inégalité :
K = {v ∈ V, F (v) ≤ 0} (8.4.42)
où F est une fonction convexe C 1 de V dans Rm , ses coordonnées sont F1 , .., Fm .
On suppose J convexe et on définit le lagrangien sur V × Rm + par

L(v, q) = J(v) + (F (v), q) (8.4.43)

On a vu au chapitre précédent une condition nécessaire de minimum lo-

cal, au moyen des multiplicateurs de Lagrange. On va maintenant établir une
réciproque.

Définition 8.5 . Les contraintes sont qualifiées si

∃v̄ ∈ V, ∀i, 1 ≤ i ≤ m, Fi (v̄) < 0 (resp. ≤ 0 si Fi est affine). (8.4.44)

Remarque 8.10 .
◦
1. Si aucune des Fi n’est affine, la définition 8.5 se résume à K 6= ∅. Si
toutes les Fi sont affines, elle signifie que K 6= ∅.

2. Si les contraintes sont qualifiées en ce sens, elles sont qualifiées en tout

point au sens de la définition 8.3 du chapitre 2.

Théorème 8.16 . Sous les hypothèses de qualification de la définition 8.5,

si u est solution de (P), il existe p dans Rm
+ tel que (u, p) soit point selle du
lagrangien.

Donc dans le cas convexe, avec l’hypothèse de qualification des con-

traintes de la définition 8.5, on a le schéma suivant :
8.5. MÉTHODES DE DESCENTE. PROBLÈMES SANS CONTRAINTES151

m

X
0 (u) + pi Fi0 (u) = 0

J



(Th 8.14) 
u solution optimale de (8.1.2) =⇒ ∃p ∈ Rm
+ m
X
i=1




 pi Fi (u) = 0
i=1

(Th 8.15) (Th 8.16)

=⇒ (u, p) point selle du lagrangien =⇒ u solution optimale de (8.1.2).

Théorème 8.17 (Kuhn et Tucker) . On suppose que les fonctions J et

{Fi }1≤i≤m sont convexes différentiables et que (8.4.44) est vérifiée. Soit

K = {v, Fi (v) ≤ 0, 1 ≤ i ≤ m}.

Alors u est minimum de J sur K si et seulement si il existe p dans Rm

+ tel que

m

X
0 pi Fi0 (u) = 0

 J (u) +



i=1 (8.4.45)
m
X




 pi Fi (u) = 0
i=1

De plus p est solution du problème dual (P ∗ ).

Algorithmes

8.5 Méthodes de descente. Problèmes sans contraintes

8.5.1 Principe
On se place dans un espace de Hilbert V , et on cherche à calculer numériquement
un x (qui n’est pas forcément unique) tel que

∀y ∈ V, J(x) 6 J(y) (8.5.46)

Le principe est de construire un algorithme itératif de la forme

xk+1 = xk − ρk dk (8.5.47)

dk est la direction de descente, ρk est le pas. Il est, soit fixé, éventuellement

le même pour toutes les étapes (on parle alors de méthode à pas variable),
soit calculé à chaque étape de façon à minimiser J dans la direction dk (on parle
alors de méthode à pas optimal).
152 CHAPTER 8. RESUME

8.5.2 Méthode de relaxation

On se place en dimension finie, i.e. V = Rn . Pour passer de xk à xk+1 , on
minimise successivement dans les n directions de la base canonique.

1. xk,1 est défini par

J(xk,1 ) = inf J(xk − ρe1 )
ρ∈R

ou encore
xk,1 = (xk1 − ρ1 , xk2 , .., xkn )

On note xk+1
1 = xk1 − ρ1

2. à l’étape i on a
xk,i = (xk+1 k+1 k
1 , .., xi , xi , .., xkn )

xk,i+1 est maintenant défini par

J(xk,i+1 ) = inf J(xk,i − ρei+1 )

3. xk+1 = xk,n

Théorème 8.18 . Si J est α-convexe C 1 sur Rn , l’algorithme de relaxation

est bien défini et converge vers la solution optimale.

Remarque 8.11 . Dans le cas où J est quadratique, i.e. J(v) = 12 (Av, v) −
(b, v), on retrouve l’algoritme de Gauss-Seidel ou S.O.R. pour la résolution du
système linéaire Ax = b.

8.5.3 Méthode du gradient

Ici on choisit à chaque étape dk = ∇J(xk ).

Méthode à pas variable

On se donne le pas ρk , il peut être différent d’une étape à l’autre.

Théorème 8.19 . Si J est α-convexe dérivable sur V , si ∇J est uniformément

lipschitzien de constante de Lipschitz M , l’algorithme de gradient à pas variable
2α
converge vers la solution optimale pour 0 < a ≤ ρk ≤ b < M 2 .

Remarque 8.12 . Si J est 2 fois différentiable, l’hypothèse est

sup ||D2 J(v)|| ≤ M

v∈V
8.6. ESTIMATIONS ET CONVERGENCE DANS LE CAS QUADRATIQUE153

Méthode à pas optimal

Ici on choisit à chaque étape ρk de façon que

J(xk − ρk ∇J(xk )) = inf J(xk − ρ∇J(xk )) (8.5.48)

ρ∈R

Théorème 8.20 . Si J est α-convexe dérivable sur V , si ∇J est uniformément

lipschitzien de constante de Lipschitz M , l’algorithme de gradient à pas optimal
est bien défini et converge vers la solution optimale.

Remarque 8.13 . Les directions de descente sont orthogonales, i.e.

∇J(xk ).∇J(xk+1 ) = 0.

8.6 Estimations et convergence dans le cas quadra-

tique
Ici la fonctionnelle J est quadratique sur Rn :

J(v) = 21 (Av, v) − (b, v)

où la matrice A est symétrique définie positive. La solution x du problème
de minimisation vérifie Ax = b. On appellera résidu à l’étape k la quantité
rk = Axk − b

8.6.1 Méthode à pas optimal

On prend ici une direction de descente dk quelconque dans Rn , non orthogonale
à rk . A chaque étape, la valeur du paramètre optimal ρk est donnée par

(rk ,dk )
ρk = (Adk ,dk )
(8.6.49)

et l’on a (rk+1 , dk ) = 0.
Notons E(v) = 12 (A(v − u), v − u), on a alors

E(xk+1 ) = (1 − γk )E(xk ) (8.6.50)

avec

1 (rk ,dk )2
γk = 2 (Adk ,dk )(A−1 rk ,rk ) . (8.6.51)

Puisque la quantité γk est par construction telle que 0 ≤ γk ≤ 1, on a

l’estimation suivante : si la direction de descente est telle que

rk dk 2

k , k
||r || ||d ||
>µ>0 (8.6.52)
µ
alors γk > γ = K(A) (où K(A) est le conditionnement de A, c’est-à-dire le
rapport de la plus grande à la plus petite valeur propre), et donc
154 CHAPTER 8. RESUME

E(xk+1 ) ≤ (1 − γ)E(xk ) (8.6.53)

On dit que la méthode converge linéairement.
Dans le cas particulier de la méthode du gradient, grâce à l’inégalité de
Kantorovitch on peut écrire
2k
K(A)−1
E(xk ) ≤ K(A)+1 E(x0 ) (8.6.54)

Remarque 8.14 . Plus la matrice est bien conditionnée (i.e. K(A) proche de
1), plus la convergence est rapide. Plus la matrice est mal conditionnée (i.e.
K(A) >> 1), plus la convergence est lente.

8.6.2 Méthode de gradient à pas constant

On choisit à chaque étape ρk = ρ. On a alors l’estimation
k
||xk − x||2 ≤ max |1 − ρλi | ||x0 − x||2

(8.6.55)
1≤i≤n

On en déduit que la méthode converge si et seulement si ρ < λ2n où λn est

la plus grande valeur propre de A. Ici encore, la convergence est linéaire.

Remarque 8.15 Comparer avec le théorème général 8.19.

8.7 Méthode du gradient conjugué

On se place ici dans le cas où la fonctionnelle J est quadratique sur RN : J(v) =
1
2 (Av, v) − (b, v), la matrice A étant symétrique définie positive. La solution x
du problème de minimisation vérifie Ax = b.

8.7.1 Principe de la méthode

Les (k + 1) premières itérées x0 , .., xk étant données, on cherche xk+1 , non plus
dans la direction du gradient, mais dans l’espace vectoriel engendré par tous les
gradients précédents. On note

Lk = vect{∇J(x0 ), .., ∇J(xk )} (8.7.56)

et on définit xk+1 par :

J(xk+1 ) = inf J(xk + ∆) (8.7.57)

∆∈Lk

Ceci définit xk+1 de manière unique (cf Corollaire 8.1, Partie I) et

Théorème 8.21 . On a les propriétés suivantes:

1. Les ∇J(xk ) forment un système orthogonal (donc libre),

2. l’algorithme converge en au plus N itérations.

8.7. MÉTHODE DU GRADIENT CONJUGUÉ 155

La première propriété traduit l’équation d’Euler (8.3.17, Partie I). Ce théorème

nous dit que la méthode du gradient conjugué est en fait une méthode directe.
La forme (8.7.57) n’est pas pratique, aussi allons nous réécrire l’algorithme sous
forme d’un algorithme de descente.

8.7.2 Ecriture comme algorithme de descente

Théorème 8.22 . L’algorithme du gradient conjugué s’écrit sous la forme


 xk+1 = xk − ρk dk
 dk = ∇J(xk ) + ||∇J(xk )||2 dk−1


||∇J(xk−1 )||2
||∇J(xk )||2
(8.7.58)


 ρk = (Adk ,dk )
 (rk+1 , dk ) = 0


Il suffit de se donner d0 = ∇J(x0 ).

N peut être très grand, on peut alors compter le nombre d’opérations nécessaires
pour réaliser l’algorithme : une itération nécessite 2cN opérations élémentaires,
où c est le nombre moyen de coefficients non nuls par ligne de A. Si bien que
pour une matrice pleine, le nombre d’opérations élémentaires pour N itérations
est 2N 3 . Cela risquerait de disqualifier la méthode par rapport à Cholewski
3
( N3 opérations élémentaires), si l’on ne faisait une

8.7.3 Analyse de convergence

On introduit l’espace de Krylov

Kk = vect{r0 , Ar0 , .., Ak r0 } (8.7.59)

et on a le

Théorème 8.23 . Si rj 6= 0 pour j ≤ k, alors Kk ≡ Lk

On en déduit une première estimation de l’erreur

Théorème 8.24

E(xk ) = inf max [1 + λi P (λi )]2 E(x0 ) (8.7.60)

P ∈Pk−1 1≤i≤N

où les λi sont les valeurs propres de A.

et par un calcul assez long sur les polynômes de Tchebycheff,

Corollaire 8.3 . On a l’estimation d’erreur

√
K(A)−1 2k

E(xk ) ≤ 4 √ E(x0 ) (8.7.61)
K(A)+1
156 CHAPTER 8. RESUME

De nouveau, la convergence est linéaire. Cette estimation est à comparer

avec l’estimation d’erreur (8.6.54) pour l’algorithme du gradient à pas optimal
:
2k
K(A)−1
E(xk ) ≤ K(A)+1 E(x0 )

Par exemple, d’après ces estimations pour K(A) = 100, pour obtenir une
erreur de 10−6 , il faudrait 340 itérations du gradient à pas optimal et seulement
34 itérations du gradient conjugué ! Comme les itérations sont comparables, ces
performances font de cet algoritme le favori de tous les gens qui font des calculs
de grande taille. De nombreuses extensions ont été proposées : BiCGSTAB,
GMRES, etc, pour des problèmes non symétriques, à coefficients complexes,
etc..

8.8 Méthodes pour les problèmes avec contraintes

8.8.1 Méthode de gradient projeté à pas variable

Soit le problème de minimisation avec contraintes
(
u ∈ K,
J(u) = inf J(v) (8.8.62)
v∈K

où K est un convexe fermé non vide de l’espace de Hilbert V . On rappelle

que si J est α convexe, il existe un minimum unique (corollaire 8.1, Partie I),
caractérisé dans le cas différentiable par (8.3.14, Partie I) :

u∈K
(8.8.63)
∀v ∈ K, J 0 (u).(v − u) ≥ 0.
On définit alors la suite des approximations uk par la relation de récurrence

uk+1 = PK (uk − ρk rk ) (8.8.64)

où rk est le résidu à l’étape k, i.e. rk = ∇J(uk ), et PK désigne la projection
sur le convexe fermé K (Partie I,8.2).

Théorème 8.25 . Si J est α-convexe dérivable sur V , si ∇J est uniformément

lipschitzien de constante de Lipschitz M , l’algorithme de gradient projeté à pas
2α
variable converge vers la solution optimale pour 0 < a ≤ ρk ≤ b < M 2 . De
plus il existe une constante β < 1 telle que

kuk − uk ≤ β k ku0 − uk (8.8.65)

En général, on ne peut pas expliciter la projection, sauf quand V = Rn , et

K = {v ∈ V, ∀i, 1 ≤ i ≤ n, vi > 0}, (8.8.66)

auquel cas
8.8. MÉTHODES POUR LES PROBLÈMES AVEC CONTRAINTES 157

(PK w)i = max(wi , 0), 1 ≤ i ≤ n. (8.8.67)

Qn
Si K est le pavé i=1 [ai , bi ], alors

 ai si wi ≤ ai
(PK w)i = wi si ai ≤ wi ≤ bi (8.8.68)
bi si wi > bi


8.8.2 Algorithme d’Uzawa

Soit un problème de minimisation avec contraintes inégalités

K = {v, F (v) ≤ 0} (8.8.69)

où F : V → Rm . On a défini un lagrangien

L(v, q) = J(v) + (F (v), q); L : K × Rm

+ →R (8.8.70)
et le problème dual :

K ∗ = {q ∈ P, inf L(v, q) > −∞} (8.8.71)

v∈U

et pour q dans K ∗ , G(q) = inf L(v, q). Le problème dual associé s’écrit :
v∈U

(P ∗ ) Trouver p ∈ K ∗ tel que G(p) = sup G(q)

q∈K ∗

L’idée est d’utiliser le problème dual : si K ∗ = Rm

+ (ce qui est le cas pour
des contraintes affines), on peut mettre en œuvre un algorithme de gradient
projeté sur le multiplicateur de Lagrange p. Pour q dans K ∗ , on a défini uq
comme la solution du problème

inf L(v, q) = L(uq , q) (8.8.72)

v∈V

L’algorithme se décrit alors comme suit:

pk → uk = upk → pk+1 = PK ∗ (pk + ρ∇G(pk )) (8.8.73)

Théorème 8.26 . On suppose que V = Rn et K = {v ∈ V, Cv ≤ d}. Alors

K ∗ = Rm+ et uk → u, unique solution de (P) . De plus si rgC = m, pk converge
vers l’unique solution de (P ∗ ).
158 CHAPTER 8. RESUME
Bibliography

[1] J.C. Culioli: Optimisation: Cours à l’Ecole des Mines publié aux éditions
Ellipses (1994)

[2] P. Faurre: Optimisation Cours à l’X (Promotion 1984)

[3] B. Larrouturou et P.L. Lions: Cours d’optimisation et d’Analyse

Numérique (Promotion 1986)

[4] J. Cea: Lectures on optimization-theory and algorithms: Tata institute of

fundamental research, Bombay, 1978.

[5] H. Sagan: Boundary and Eigenvalue Problems in Mathematical Physics

John Wiley and Sons, 1961.

[6] V. M. Tichomirov: Fundamental Principles of the Theory of Extremal

Problems: John Wiley and Sons, 1982, 1986.

[7] P. G. Ciarlet: Introduction à l’analyse numérique matricielle et à

l’optimisation Mathématiques Appliquées pour la maitrise, Masson, 1982.

[8] G. Allaire: cours à l’Ecole Polytechnique (publié aux éditions Ellipse, 2005)

[9] Richard B. Holmes:A Course on Optimization and Best Approximation

Lecture Notes in Mathematics Volume 257 1972

159

Vous aimerez peut-être aussi

Poly CSC 216
Pas encore d'évaluation
Poly CSC 216
158 pages
Poly
Pas encore d'évaluation
Poly
100 pages
Universite Montpellier 2 - Cours DOptimisation Numerique
Pas encore d'évaluation
Universite Montpellier 2 - Cours DOptimisation Numerique
71 pages
Cours Optimisation Lafitte
Pas encore d'évaluation
Cours Optimisation Lafitte
129 pages
1.livre Controle Sto
Pas encore d'évaluation
1.livre Controle Sto
156 pages
Modélisation et Simulation Numérique
Pas encore d'évaluation
Modélisation et Simulation Numérique
163 pages
Mainoptimisation PDF
Pas encore d'évaluation
Mainoptimisation PDF
113 pages
Optimisation EA1
Pas encore d'évaluation
Optimisation EA1
130 pages
Poly Cours
Pas encore d'évaluation
Poly Cours
142 pages
Optimisation Mathématique: Avec Applications en Imagerie
Pas encore d'évaluation
Optimisation Mathématique: Avec Applications en Imagerie
399 pages
CoursOptim PDF
Pas encore d'évaluation
CoursOptim PDF
104 pages
Optimisation et Calcul Différentiel ECP
Pas encore d'évaluation
Optimisation et Calcul Différentiel ECP
104 pages
Optimisation Numérique L3 Paris-Dauphine
Pas encore d'évaluation
Optimisation Numérique L3 Paris-Dauphine
78 pages
Cours d'Analyse Numérique L3
Pas encore d'évaluation
Cours d'Analyse Numérique L3
248 pages
Analyse Numérique et Optimisation
Pas encore d'évaluation
Analyse Numérique et Optimisation
150 pages
Anamat Brele Mpouebe ENSP Université Marien Ngouabi
Pas encore d'évaluation
Anamat Brele Mpouebe ENSP Université Marien Ngouabi
213 pages
Cours d'Analyse Numérique - Aix Marseille
Pas encore d'évaluation
Cours d'Analyse Numérique - Aix Marseille
271 pages
Polyao 101
Pas encore d'évaluation
Polyao 101
109 pages
Opt PDF
100% (1)
Opt PDF
395 pages
Programmation Non Linéaire
100% (1)
Programmation Non Linéaire
251 pages
Optimisation EA1
Pas encore d'évaluation
Optimisation EA1
130 pages
Magistere
Pas encore d'évaluation
Magistere
192 pages
Analyse Numérique pour Étudiants L3
Pas encore d'évaluation
Analyse Numérique pour Étudiants L3
301 pages
Contrôle optimal des équations PDE
Pas encore d'évaluation
Contrôle optimal des équations PDE
82 pages
Optimisation pour l'Apprentissage
Pas encore d'évaluation
Optimisation pour l'Apprentissage
64 pages
Cours d'Analyse Numérique - Licence Maths
Pas encore d'évaluation
Cours d'Analyse Numérique - Licence Maths
249 pages
Methodes Numeriques - 2011
Pas encore d'évaluation
Methodes Numeriques - 2011
80 pages
Analyse Num TT Les Cours
Pas encore d'évaluation
Analyse Num TT Les Cours
133 pages
Etude Des Models Mathematique Issue Du Vivant
Pas encore d'évaluation
Etude Des Models Mathematique Issue Du Vivant
217 pages
Mathématiques et Numériques Avancées
Pas encore d'évaluation
Mathématiques et Numériques Avancées
105 pages
Cours d'Analyse Numérique L3
Pas encore d'évaluation
Cours d'Analyse Numérique L3
243 pages
Méthodes Numériques et Systèmes Linéaires
Pas encore d'évaluation
Méthodes Numériques et Systèmes Linéaires
73 pages
Exercices Résolus en Analyse Numérique
Pas encore d'évaluation
Exercices Résolus en Analyse Numérique
6 pages
Problèmes d'Évolution et Théorie Spectrale
Pas encore d'évaluation
Problèmes d'Évolution et Théorie Spectrale
171 pages
Poly 435
Pas encore d'évaluation
Poly 435
237 pages
Lakrib AN PDF
0% (1)
Lakrib AN PDF
5 pages
Exercices Résolus en Analyse Numérique
Pas encore d'évaluation
Exercices Résolus en Analyse Numérique
5 pages
Analyse Matricielle en Mathématiques
100% (1)
Analyse Matricielle en Mathématiques
291 pages
Introduction aux Méthodes Numériques
Pas encore d'évaluation
Introduction aux Méthodes Numériques
121 pages
Poly 435
Pas encore d'évaluation
Poly 435
213 pages
Cours d'Analyse Numérique et Exercices
Pas encore d'évaluation
Cours d'Analyse Numérique et Exercices
162 pages
Exercices Résolus en Analyse Numérique
Pas encore d'évaluation
Exercices Résolus en Analyse Numérique
6 pages
Modmsv
Pas encore d'évaluation
Modmsv
258 pages
Cours d'Analyse Numérique - Licence Mathématiques
Pas encore d'évaluation
Cours d'Analyse Numérique - Licence Mathématiques
223 pages
Poly 2022
Pas encore d'évaluation
Poly 2022
69 pages
Exercices de Calcul Stochastique Dess Im
Pas encore d'évaluation
Exercices de Calcul Stochastique Dess Im
181 pages
M2 Exo
Pas encore d'évaluation
M2 Exo
181 pages
Calcul Stochastique en Finance
Pas encore d'évaluation
Calcul Stochastique en Finance
181 pages
Chapitres 1-2-3 Cours Optimisation Sans Contraintes
100% (1)
Chapitres 1-2-3 Cours Optimisation Sans Contraintes
43 pages
Cours Optimisation
Pas encore d'évaluation
Cours Optimisation
79 pages
Elements Finis
Pas encore d'évaluation
Elements Finis
414 pages
Oraux Thiers
Pas encore d'évaluation
Oraux Thiers
81 pages
TD Espaces Affines
Pas encore d'évaluation
TD Espaces Affines
5 pages
Series Entier Es Class I Ques
Pas encore d'évaluation
Series Entier Es Class I Ques
5 pages
Resume Cours Reduction
Pas encore d'évaluation
Resume Cours Reduction
3 pages
Fiche Cours Famm Sommables
Pas encore d'évaluation
Fiche Cours Famm Sommables
4 pages
Prob As Continues Fiche Cours CV G Ce
Pas encore d'évaluation
Prob As Continues Fiche Cours CV G Ce
1 page
TD DIfferences Finies
Pas encore d'évaluation
TD DIfferences Finies
6 pages
TH Planche Rel
Pas encore d'évaluation
TH Planche Rel
4 pages
Altruisme Citations Biblio
Pas encore d'évaluation
Altruisme Citations Biblio
2 pages
Fiche de TD (Distribution Et Transformation de Fourier)
Pas encore d'évaluation
Fiche de TD (Distribution Et Transformation de Fourier)
4 pages
DS 1 2018 Algebre
Pas encore d'évaluation
DS 1 2018 Algebre
2 pages
Mémoire Fin
Pas encore d'évaluation
Mémoire Fin
58 pages
Le QQOCQP OUTIL CREATION ENTREPRISE
Pas encore d'évaluation
Le QQOCQP OUTIL CREATION ENTREPRISE
5 pages
LPop - La Grammaire Graduelle, A Une Virgule Pres
Pas encore d'évaluation
LPop - La Grammaire Graduelle, A Une Virgule Pres
280 pages
Circulateur
Pas encore d'évaluation
Circulateur
6 pages
Technicien Gros-Œuvres à Oujda
Pas encore d'évaluation
Technicien Gros-Œuvres à Oujda
2 pages
Memento sur les Factorisations Mathématiques
Pas encore d'évaluation
Memento sur les Factorisations Mathématiques
3 pages
231 Modele CV Etudiant
Pas encore d'évaluation
231 Modele CV Etudiant
1 page
Notice Kit 130
Pas encore d'évaluation
Notice Kit 130
4 pages
Détermination de concentrations en solution
Pas encore d'évaluation
Détermination de concentrations en solution
3 pages
RAPPORTv6 Provisoire
Pas encore d'évaluation
RAPPORTv6 Provisoire
137 pages
Rapport sur le mur de soutènement
Pas encore d'évaluation
Rapport sur le mur de soutènement
18 pages
Complexité Algorithmique TD1
Pas encore d'évaluation
Complexité Algorithmique TD1
2 pages
Le Gardien
Pas encore d'évaluation
Le Gardien
5 pages
DJENIDI - Houda
Pas encore d'évaluation
DJENIDI - Houda
53 pages
Gestion du Temps : Avantages et Lois
Pas encore d'évaluation
Gestion du Temps : Avantages et Lois
11 pages
Magie Runique et Cristaux de Kniga
Pas encore d'évaluation
Magie Runique et Cristaux de Kniga
8 pages
FOS Français Juridique PDF
Pas encore d'évaluation
FOS Français Juridique PDF
94 pages
Compétences de Consultation pour Stylistes
Pas encore d'évaluation
Compétences de Consultation pour Stylistes
83 pages
Manuel Vitrail
100% (1)
Manuel Vitrail
115 pages
Bafikile
Pas encore d'évaluation
Bafikile
2 pages
Adaima Bibliographie
Pas encore d'évaluation
Adaima Bibliographie
10 pages
Mach Zehn Der
Pas encore d'évaluation
Mach Zehn Der
3 pages
Top Secret - Hors Serie 06
100% (6)
Top Secret - Hors Serie 06
82 pages
A Quoi Sert L'esprit D'entreprise
87% (15)
A Quoi Sert L'esprit D'entreprise
32 pages
Les Pronoms Personnels COI - Grammaire Delf A2
Pas encore d'évaluation
Les Pronoms Personnels COI - Grammaire Delf A2
3 pages
Exercices de texte descriptif et justificatif
Pas encore d'évaluation
Exercices de texte descriptif et justificatif
7 pages
Methode de Latin-1 PDF
Pas encore d'évaluation
Methode de Latin-1 PDF
149 pages
Exposé Sur La Gestion Du Temps Et de L'espace
100% (2)
Exposé Sur La Gestion Du Temps Et de L'espace
39 pages
Rapport de stage à Merengue Académie
100% (1)
Rapport de stage à Merengue Académie
22 pages
Deliberation 2021 2022
Pas encore d'évaluation
Deliberation 2021 2022
19 pages
Femmes, Genre Et Développement
Pas encore d'évaluation
Femmes, Genre Et Développement
9 pages