0% ont trouvé ce document utile (0 vote)
322 vues159 pages

Optimisation 2018

Transféré par

aboubacar berthe
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
322 vues159 pages

Optimisation 2018

Transféré par

aboubacar berthe
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Institut Galilée, Université Paris 13, Sorbonne Paris

Cité
Département de mathématiques
Analyse numérique: optimisation
Spécialité MACS de SupGalilée: Promotion
2017-2020.
Optimisation continue:
Mathématiques Financières-Actuariat
Modélisation mathématique
Centrale Marseille (Promotion 2019).
Master EDP de Aix-Marseille Université.

Olivier Lafitte1

1
SupGalilée, Institut Galilée, Université Paris XIII, LAGA [email protected]
2
Contents

1 Introduction et exemples 7
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Description du cours . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Euler-Legendre 21
2.1 Condition générale d’existence (suffisante) . . . . . . . . . . . . . 21
2.2 Condition d’Euler, condition de Legendre . . . . . . . . . . . . . 22
2.2.1 Dérivabilité au sens de Fréchet et au sens de Gâteaux . . 22
2.2.2 Deux espaces de Hilbert utiles dans la totalité de ce cours 24
2.2.3 Conditions necessaires d’optimalité. Conditions suffisantes
d’optimalité . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Inéquation d’Euler dans un problème avec contraintes . . . . . . 27
2.4 Multiplicateurs de Lagrange . . . . . . . . . . . . . . . . . . . . . 28
2.4.1 Contraintes égalités . . . . . . . . . . . . . . . . . . . . . 29
2.4.2 Les contraintes inégalité . . . . . . . . . . . . . . . . . . . 32
2.4.3 L’inégalité de Hardy. . . . . . . . . . . . . . . . . . . . . . 36
2.4.4 Problème mixte . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4.5 Le problème des entrepôts . . . . . . . . . . . . . . . . . . 40
2.4.6 Démonstration du lemme de Kantorovich . . . . . . . . . 42
2.4.7 Calcul de la constante optimale de Poincaré . . . . . . . . 43

3 Calcul des variations 45


3.1 Introduction et un peu d’histoire . . . . . . . . . . . . . . . . . . 45
3.2 Problèmes isopérimétriques . . . . . . . . . . . . . . . . . . . . . 46
3.2.1 Egalité d’Euler-Lagrange . . . . . . . . . . . . . . . . . . 46
3.2.2 Dérivée de Fréchet et de Gâteaux, inégalité d’Euler-Lagrange 47
3.2.3 Egalité d’Euler-Lagrange pour une contrainte intégrale . . 48
3.2.4 Les problèmes de Bolza . . . . . . . . . . . . . . . . . . . 50
3.3 Les équations d’Euler pour les problèmes de la mécanique . . . . 51
3.4 Formulation hamiltonienne . . . . . . . . . . . . . . . . . . . . . 52

4 Programme convexe 57
4.1 Fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.1 Compléments et extensions . . . . . . . . . . . . . . . . . 60
4.2 Minimisation de fonctionnelles convexes . . . . . . . . . . . . . . 62

3
4 CONTENTS

4.3 Fonctionnelles quadratiques. Formulations variationnelles. . . . . 64


4.4 Kuhn et Tucker . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4.1 Introduction à la notion de Lagrangien . . . . . . . . . . . 65
4.4.2 Point selle, lagrangien, et minimisation de fonctionnelle
convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.4.3 Principe du Min-Max . . . . . . . . . . . . . . . . . . . . 70

5 Introduction au contrôle optimal 73


5.1 Le problème général . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.2 Traitement abstrait du cas général . . . . . . . . . . . . . . . . . 74
5.3 Le cas particulier du contrôle distribué pour le problème de
Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.3.1 Système gouverné par un problème de Neumann . . . . . 76
5.4 Equation de Hamilton-Jacobi-Bellmann . . . . . . . . . . . . . . 77

6 Approximation de solutions 85
6.0.1 Algorithme de relaxation . . . . . . . . . . . . . . . . . . 85
6.1 Algorithmes de descente . . . . . . . . . . . . . . . . . . . . . . . 88
6.2 Cas classiques d’algorithmes de descente . . . . . . . . . . . . . . 90
6.2.1 Pas optimal . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.2.2 Pas de Curry . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.2.3 Pas de Goldstein . . . . . . . . . . . . . . . . . . . . . . . 91
6.2.4 Pas de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.3 Résultats de convergence . . . . . . . . . . . . . . . . . . . . . . . 93
6.4 Algorithmes de gradient . . . . . . . . . . . . . . . . . . . . . . . 95
6.4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.4.2 L’algorithme de gradient à pas optimal . . . . . . . . . . . 96
6.4.3 Algorithme de gradient à pas constant . . . . . . . . . . . 98
6.4.4 Taux de convergence de l’algorithme du gradient en di-
mension finie . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.4.5 Algorithme de gradient réduit . . . . . . . . . . . . . . . . 102
6.5 Algorithmes de gradient conjugué . . . . . . . . . . . . . . . . . . 105
6.5.1 Exemple en dimension 2 . . . . . . . . . . . . . . . . . . . 105
6.5.2 Algorithme de directions conjuguées . . . . . . . . . . . . 106
6.5.3 Algorithme du gradient conjugué . . . . . . . . . . . . . . 109
6.5.4 Un exemple en dimension 3 . . . . . . . . . . . . . . . . . 115
6.6 Descente pseudo-conjugué . . . . . . . . . . . . . . . . . . . . . . 117
6.7 Méthode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.8 Algorithmes d’optimisation avec contraintes . . . . . . . . . . . . 123
6.8.1 Le gradient avec projection . . . . . . . . . . . . . . . . . 123
6.8.2 Pénalisation des contraintes . . . . . . . . . . . . . . . . . 125
6.8.3 Algorithme d’Uzawa . . . . . . . . . . . . . . . . . . . . . 127

7 Introduction à la discrétisation 129


7.1 Les différences finies . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.2 Les éléments finis . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
CONTENTS 5

8 Resume 139
8.1 Résultats d’existence . . . . . . . . . . . . . . . . . . . . . . . . . 139
8.1.1 Théorème de Weierstrass . . . . . . . . . . . . . . . . . . 139
8.1.2 Cas convexe . . . . . . . . . . . . . . . . . . . . . . . . . . 140
8.2 Rappels de calcul différentiel . . . . . . . . . . . . . . . . . . . . 140
8.2.1 Dérivées premières . . . . . . . . . . . . . . . . . . . . . . 141
8.2.2 Dérivées secondes . . . . . . . . . . . . . . . . . . . . . . . 141
8.2.3 Formules de Taylor . . . . . . . . . . . . . . . . . . . . . . 141
8.3 Caractérisation des extrema . . . . . . . . . . . . . . . . . . . . . 143
8.3.1 Equation d’Euler, cas général . . . . . . . . . . . . . . . . 143
8.3.2 Inéquation d’Euler, cas convexe . . . . . . . . . . . . . . . 143
8.3.3 Multiplicateurs de Lagrange, cas général . . . . . . . . . . 145
8.3.4 contraintes égalités . . . . . . . . . . . . . . . . . . . . . . 145
8.3.5 contraintes inégalités . . . . . . . . . . . . . . . . . . . . . 146
8.4 Lagrangien et point selle . . . . . . . . . . . . . . . . . . . . . . . 149
8.4.1 Point selle . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
8.4.2 Théorie de Kuhn et Tucker . . . . . . . . . . . . . . . . . 150
8.5 Méthodes de descente. Problèmes sans contraintes . . . . . . . . 151
8.5.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
8.5.2 Méthode de relaxation . . . . . . . . . . . . . . . . . . . . 152
8.5.3 Méthode du gradient . . . . . . . . . . . . . . . . . . . . . 152
8.6 Estimations et convergence dans le cas quadratique . . . . . . . . 153
8.6.1 Méthode à pas optimal . . . . . . . . . . . . . . . . . . . 153
8.6.2 Méthode de gradient à pas constant . . . . . . . . . . . . 154
8.7 Méthode du gradient conjugué . . . . . . . . . . . . . . . . . . . 154
8.7.1 Principe de la méthode . . . . . . . . . . . . . . . . . . . 154
8.7.2 Ecriture comme algorithme de descente . . . . . . . . . . 155
8.7.3 Analyse de convergence . . . . . . . . . . . . . . . . . . . 155
8.8 Méthodes pour les problèmes avec contraintes . . . . . . . . . . . 156
8.8.1 Méthode de gradient projeté à pas variable . . . . . . . . 156
8.8.2 Algorithme d’Uzawa . . . . . . . . . . . . . . . . . . . . . 157
6 CONTENTS
Chapter 1

Introduction et exemples

1.1 Introduction
Le but de ce cours est d’introduire quelques unes des méthodes de la théorie de
l’optimisation. La méthode employée dans ce cours consiste essentiellement à
présenter une suite (non exhaustive) d’exemple simples issu en majeure partie
de la physique et de l’économie pour mettre en valeur une question que l’on se
pose dans le cadre de l’optimisation: trouver la meilleure quantité ou le meilleur
choix pour un problème lié à la physique ou à l’économie. Ce cours présentera
peu de résultats (les théorèmes principaux sont peu nombreux). Nous avons
essayé de traiter explicitement ici des exemples modèles simples, qui peuvent
nous permettre d’introduire des notions et de pouvoir les généraliser.
Les théories liées à l’optimisation sont très variées. On rencontre par exem-
ple (et cela est le plus courant) des problèmes de minimisation sons contraintes,
des résolutions d’équations aux dérivées partielles sous forme variationnelle,
des problèmes de contrôle, des problèmes de commande. Elles ont en commun
la minimisation d’un critère, c’est-à-dire d’une fonction chargée de mesurer
le coût d’un problème, en fonction de variables dites d’état (caractérisant la
position d’une particule par exemple) et de variables dites de commande (qui
modélisent les paramètres par lesquels on peut agir sur un système). Nous
évoquerons ainsi dans le cours la notion de commande optimale, dans les cas
où, à partir de variables d’état x et de commandes u, on souhaite soit minimiser
un critère, soit atteindre un état fixe.
Un des atouts de l’optimisation est la facilité d’obtention d’algorithmes
numériques qui convergent, et nous en aborderons certains: algorithmes d’optimisation
sans contrainte, comme un algorithme où on recherche un optimum sur N vari-
ables en résolvant, à chaque étape, N algorithmes d’optimisation sur chaque
variable, des algorithmes dit de gradient (à pas fixe ou à pas optimal, c’est à
dire une généralisation de la méthode de Newton de recherche de zéros), des
algorithmes de minimisation avec contraintes, l’algorithme d’Uzawa.
Pour l’instant, nous allons donner une liste non exhaustive d’exemples,
provenant des références [2], [3], [1]. Certains pourront être résolus dans cette
introduction sans utiliser de théorèmes nouveaux, d’autres non, et nous voulons,
dans la suite de ce cours, pouvoir résoudre les problèmes abordés ici.

7
8 CHAPTER 1. INTRODUCTION ET EXEMPLES

Les exemples abordés dans cette introduction peuvent être lus après le cours
correspondant, ils sont faits pour motiver les théorèmes du cours d’optimisation
et de calcul des variations.
On peut, très sommairement, diviser les résultats en conditions nécessaires
et en conditions nécessaires et suffisantes d’optimalité. Par exemple, x2 est
minimum en x = 0, où sa dérivée s’annule, mais la dérivée de 1 − x2 est dans
le même cas, alors que 1 − x2 est maximum en x = 0. La condition “la dérivée
s’annule” est une condition nécessaire de minimum, mais n’est pas une condition
suffisante.

1.2 Description du cours


• Cours 1: calcul fonctionnel, distance à un convexe, dérivée de 1/2(Ax,x) -(b,
x) et résultats généraux (euler, légendre),
• Cours 2: contraintes égalité et x de Lagrange pour une deuxième séance et
début de contraintes inégalité
• Cours 3: fin des contraintes inégalité et alpha convexité. Inégalité de Poincaré.
• Cours 4: le programme convexe, jusque au théorème de Kuhn et Tucker
•: Cours 5: algorithmes de gradient (sans la preuve de convergence sauf dans le
cas pas constant): pas constant, pas optimal, gradient conjugué et éventuellement
relaxation.
Ce polycopié présente deux parties:
le cours proprement dit (dont seulement certains chapitres seront traités, et pas
forcément comme ils le sont ici),
un résumé de cours.

1.3 Exemples
1. Résolution d’un système matriciel.
Soit A une matrice symétrique N × N définie positive et b un vecteur de
IRN . La solution du système linéaire Ax = b est donnée par le point de
minimum suivant

1
inf (Ax, x) − (b, x)
x∈IRN 2

Preuve On désigne par x0 la solution de Ax = b. On vérifie alors que

1 1 1 1 1
(A(x − x0 ), x − x0 ) = (Ax, x) − (b, x) − (Ax, x0 ) + (b, x0 ).
2 2 2 2 2
Comme (Ax, x0 ) = (x, t Ax0 ) = (x, Ax0 ) = (x, b) car A est symétrique

1 1 1
(Ax, x) − (b, x) = − (b, x0 ) + (A(x − x0 ), x − x0 ).
2 2 2
1.3. EXEMPLES 9

On
P diagonalise A qui est symétrique définie positive, on écrit x = x0 +
i yi ei , où les ei sont les vecteurs orthonormés qui diagonalisent A, alors

i=N
1 1 1X
(Ax, x) − (b, x) = − (b, x0 ) + λi yi2 .
2 2 2
i=1
L’expression ci-dessus est minimum lorsque tous les yi sont nuls, car tous
les λi sont strictement positifs, donc lorsque x = x0 . Le résultat est
démontré.

Remarque Lorsque la matrice A n’est pas symétrique, l’expression ci-


dessus existe. La matrice A peut alors être remplacée par à = 21 (A + t A)
et ce sont les propriétés de à qui sont importantes et non celles de A.
On résume dans:

Proposition Le minimum de la fonction 21 (Ax, x) − (b, x) est unique et


atteint en x0 = ( 21 (A + At ))−1 b si 12 (A + At ) est définie positive

2. Projection sur un convexe.


Soit K un ensemble convexe fermé dans un espace de Hilbert V . On
appelle projection de u0 sur K, et on note p(u0 ), le point de K le plus
proche de u0 , soit ||p(u0 ) − u0 || = inf v∈K ||v − u0 ||. On note que, de
la relation ∀v ∈ K, ||v − u0 ||2 ≥ ||p(u0 ) − u0 ||2 , et, plus précisément de
∀v ∈ K, ∀λ ∈]0, 1[, ||λv + (1 − λ)p(u0 ) − u0 ||2 ≥ ||p(u0 ) − u0 ||2 , on tire

λ2 ||v − p(u0 )||2 + 2λ(v − p(u0 ), p(u0 ) − u0 ) ≥ 0.


Divisant par λ et faisant tendre λ vers 0, on en déduit l’inégalité

(v − p(u0 ), p(u0 ) − u0 ) ≥ 0∀v ∈ K.

Dans le plan, cette égalité implique que (v − p(u0 ), u0 − p(u0 )) ≤ 0, c’est-


à-dire l’angle entre les vecteurs joignant la projection à u0 et à un élément
quelquonque de K est obtus.
Réciproquement, si cette inégalité est vérifiée, alors

||v−u0 ||2 = ||v−p(u0 )||2 +||p(u0 )−u0 ||2 +2(v−p(u0 ), p(u0 )−u0 ) ≥ ||v−p(u0 )||2 .

Il y a unicité de la projection. En effet, si on désigne par v0 une autre


projection, on a

(v − v0 , u0 − v0 ) ≤ 0, (v − p(u0 ), u0 − p(u0 )) ≤ 0.
Dans la première inégalité on considère v = p(u0 ) et dans la deuxième on
considère v = v0 . Alors
10 CHAPTER 1. INTRODUCTION ET EXEMPLES

(p(u0 ) − v0 , u0 − v0 ) ≤ 0, (−v0 + p(u0 ), −u0 + p(u0 )) ≤ 0.


Additionnant les deux égalités, on obtient

(p(u0 ) − v0 , p(u0 ) − v0 ) ≤ 0
ce qui implique v0 = p(u0 ). Il y a unicité de la projection sur un convexe.
Ceci est la redémonstration du théorème de Hahn-Banach.
On résume dans

Proposition Si K est un convexe fermé, le minimum de la distance de


x à K est atteint en un unique point p(x), qui s’appelle la projection de
x sur K et qui est caractérisé par l’inégalité

∀y ∈ K, (y − p(x), x − p(x)) ≤ 0.

3. Un exemple simple avec contraintes.


On veut trouver min( 21 v 2 − cv) sous la contrainte v ≤ b. Pour cela,
on voit que, si b ≤ c, minv≤b ( 21 v 2 − cv) = ( 12 v 2 − cv)|v=b et si b > c,
minv≤b ( 21 v 2 − cv) = ( 12 v 2 − cv)|v=c . Dans le premier cas, la contrainte est
saturée, dans le deuxième cas elle est insaturée.

4. Minimisation quadratique dans IR2 . Cet exemple est caractéristique des


méthodes qui seront développées dans le cours: il aborde les contraintes
de type égalité ainsi qu’inégalité en dimension finie, dans le cas où les
expressions sont très simples. Il aborde aussi des méthodes qui seront
développées sous le nom de gradient réduit.
On introduit la fonctionnelle J(y1 , y2 ) = 12 (y12 + y22 ) − b1 y1 − b2 y2 et on
cherche à résoudre les deux problèmes

inf J(y), a.y = a1 y1 + a2 y2 = 0

inf J(y), a1 y1 + a2 y2 ≤ 0

Dans le premier cas, on a plusieurs méthodes à notre disposition. La plus


évidente est de supposer a1 6= 0, ainsi y1 = − aa12 y2 , et on se ramène à

1 a2 b2 a1 − b1 a2
inf (1 + 21 )y12 − y2
2 a2 a1
qui est atteint au point y2 = a1 b2 aa12 −b
+a2
1 a2
et donc y1 = −a2 b2 aa12 −b
+a2
1 a2
.
1 2 1 2

On peut simplifier les expressions en vérifiant que, dans y2 , le coefficient


de b2 s’écrit avec a21 /(a21 + a22 ), ainsi
1.3. EXEMPLES 11

a1 b1 + a2 b2
(y1 , y2 ) = (b1 , b2 ) − (a1 , a2 ).
a21 + a22
Cette méthode n’est pas instructive, mais son résultat l’est: le minimum
est obtenu au point b + λa. Le réel λ est nul lorsque a.b = 0.
Distinguons les cas b.b = 0 et a.b 6= 0. Notons avant cela que le minimum
absolu de la fonctionnelle se situe au point b. Si b est dans la contrainte,
alors ce minimum absolu est atteint sur la contrainte, et donc le problème

inf J, a.y = 0
admet comme solution y = b, de même que le problème

inf J, a.y ≤ 0.

Si b n’est pas dans la contrainte égalité, on désigne par b0 la projection


de b sur la droite a.y = 0. On a bien sûr J(y) = − 21 b2 + 12 (y − b)2 ,
donc minimiser J revient donc à minimiser la distance de b à la droite
a.y = 0. Le point qui réalise ceci est bien sûr y = b0 . On vérifie alors
que y = b + (b0 − b), et, avec b0 − b = −λa, on a l’égalité y = b − λa. Le
minimum est solution de y − b + λa = 0, ce qui sera dans le cours l’égalité
de définition du point selle et du multiplicateur de Lagrange. On note
que, par b0 .y = 0, on a λ = a.b
a2
.
On étudie maintenant la contrainte inégalité a.y ≤ 0.
Si on considère b tel que a.b ≤ 0, on n’a besoin de rien d’autre, le min-
imum absolu est dans l’espace des contraintes, donc le minimum de la
fonctionnelle est atteint en y = b. On suppose donc que b est dans la zone
a.y > 0. Grâce à l’égalité b0 = b − λa et à l’égalité b0 .a = 0, on trouve
que λa2 > 0, et donc λ > 0 et le minimum est en b0 .
Lorsque on suppose que b n’est pas dans la zone a.y > 0, on trouve que
b0 = b − λa avec λa2 ≤ 0 et λ ≤ 0. Le minimum est alors obtenu en b et
on a b = b + 0a.
On voit sur cet exemple et sur la notion de projection que l’on forme
y − b + λa et a.y = 0. Lorsque la résolution de ce système conduit
à λ ≤ 0, on dit que la contrainte est insaturée et on a y = b comme
minimum. Le point de minimum absolu de la fonction J se trouve dans
l’espace des contraintes. Lorsque la résolution du système conduit à λ ≥ 0
, la contrainte est saturée et y = b − λa convient.
5. Soit f une application de IRM dans IRN . On appelle solution de l’équation
f (x) = 0 une solution du problème

inf |f (x)|2 .
x∈IRM

Par exemple, soit B une matrice N × M , et c un élément de IRN . On


appelle solution de Bx = c au sens des moindres carrés (remarquons
12 CHAPTER 1. INTRODUCTION ET EXEMPLES

qu’une solution de Bx = c n’existe pas forcément) un point de minimum


de |Bx − c|2 . Nous allons identifier de telles solutions.
En effet, on cherche un point minimum de (Bx − c, Bx − c) = (Bx, Bx) −
(c, Bx) − (Bx, c) + (c, c), c’est à dire de (t BBx, x) − 2(t Bc, x) + (c, c). La
matrice t BB est symétrique, et son noyau est le noyau de B (ceci car
tBBx = 0 implique |Bx|2 = 0, soit Bx = 0).
On vérifie que Imt BB ⊂ Imt B. De plus, pour y ∈ (Imt B)⊥ , on a

∀x ∈ IRN , (y, t Bx) = 0


ce qui implique (By, x) = 0∀x ∈ IRN . Ainsi By = 0, donc y ∈ ker B.
La réciproque est claire. Par le théorème du rang on a dim(ker t BB) +
dim(Imt BB) = M = dim(ker B) + dim(ImB) = M . On trouve donc que
l’image de t BB est confondue avec l’image de t B. L’équation donnant le
minimum étant t BBx = t Bc, on en conclut que x existe nécessairement,
puisqu’il existe d ∈ IRN tel que t BBd = t Bc. Le système d’équations
ainsi écrit s’appelle le système d’équations normales. On remarque que
c’est un espace affine passant par d dirigé par ker t BB = ker B. Une autre
méthode plus directe: on diagonalise t BB dans une base orthonormée, les
valeurs propres étant 0 ≤ λ1 ≤ ... ≤ λM associées aux vecteurs propres
(e1 , ...eM ). Alors on introduit p (éventuellement il n’existe pas) tel que
λp = 0 et λp+1 > 0. Alors (e1 , ...ep ) forme une t
P base de ker BB, donc de
ker B. On constate alors qu’en écrivant x = i yi ei , on trouve
X X
(t BBx, x) − 2(t Bc, x) = λi yi2 − 2 (t Bc, ei )yi .
i>p i

Vérifiant alors que pour i ≤ p, (t Bc, ei )


= (c, Bei ) = 0, on en déduit que
la fonction ne dépend que des yi , i > p. On applique le résultat précédent
et l’ensemble des solutions est un espace affine dirigé par ker B.
Ce résultat se retrouve en considérant la projection de c sur l’hyperespace
ImB. Alors on réalise le minimum de la distance au sous espace fermé
ImB. Soit p(c) cette projection. Le minimum de |Bx − c| est alors
l’ensemble des points tels que Bx = p(c). En effet, par caractérisation de
la projection, on a, pour tout z ∈ ImB, (Bx, z) = (p(c), z) = (c, z), ce
qui équivaut à ∀y, (Bx, By) = (p(c), By), soit utilisant c − p(c) orthogo-
nal à ImB, (t BBx, y) − (tBc, y) pour tout y. On vérifie immédiatement
que si x0 vérifie Bx0 = p(c), alors (B(x − x0 ), B(x − x0 )) = |Bx − c|2 +
(Bx0 , Bx0 ) − (c, c), ce qui indique le résultat de minimum.

6. Recherche de la plus petite valeur propre d’une matrice symétrique.

Proposition La plus petite valeur propre d’une matrice symétrique A


de IRN × IRN est le minimum du quotient de Rayleigh:

(Av, v)
λ1 = inf (Av, v) = inf .
v∈IRN ,||v||=1 IRN −{0} (v, v)
1.3. EXEMPLES 13

La matrice A P est symétrique donc diagonalisable. On écrit (Av, v) =


2 vi2 = 1, on trouve (Av, v) ≥ λ1 , avec égalité si vi = 0 si
P
i λi vi . Pour
λi 6= λ1 . Ceci permet de conclure sur l’existence d’un inf, qu’il est atteint,
et que le minimum est λ1 . Le lieu des points réalisant le minimum est
la sphère unité dans le sous-espace propre associé à λ1 . Quant à l’autre
terme de l’égalité, il provient du fait que v 1 est de norme 1 lorsque
(v,v) 2
v 6= 0.
7. Gain minimum pour un turfiste.
On suppose qu’un tiercé présente N chevaux au départ, chacun étant côté
avec un rapport ri . Montrer que la conditionP
nécessaire et suffisante pour
qu’un joueur récupère au moins sa mise est i r1i ≤ 1.
Posons les inconnues de ce problème. On suppose que le joueur joue xi
sur chaque cheval. Son gain est alors yi0 =Pxi0 ri0 si le cheval i0 l’emporte.
Pour simplifier notre analyse, on suppose xi = 1 (on mise 1) et on veut
qu’il existe une combinaison de sorte que chaque yi soit plus grand que 1.
Ainsi on a

X yi X yi X 1
= 1, yi ≥ 1∀i ⇒ 1 = ≥ .
ri ri ri
i i
P 1
Ainsi la condition 1 ≥ ri est nécessaire pour que le gain soit au moins
égal à la mise.
P 1
Réciproquement, on suppose 1 ≥ ri , et on veut yi pour tout i plus
grand que i. Le cas limite est obtenu pour tous les yi égaux, et cette
valeur commune est yi = P1 1 , ce qui impose de choisir xi = r1i P1 1 .
rp rp

Dans ce cas, le gain est P1 1 pour tout i; il est donc plus grand que 1.
rp

8. Un exemple de programme linéaire en recherche opérationnelle


On considère M entrepôts, chacun présentant si unités d’un stock. On
connait les N destinations, et on doit livrer rj unités à la destination j.
Les coûts de transport unitaire cij de l’entrepôt i à la destination j sont
connus, et on les appelle cij . Comment livrer au meilleur coût?
Pour formaliser le problème, on appelle vij la quantité livrée à j à partir
de l’entrepôt i. On a comme conditions:

j=N
X i=M
X
vij ≥ 0, vij ≤ si , vij ≥ rj
j=1 i=1
P
et le coût de livraison est i,j cij vij . On cherche l’inf de cette fonction.
Notons tout d’abord que, si l’on désigne par cj le min pour i = 1..M des
cij , on trouve

X j=N
X i=M
X X
cij vij ≥ cj ( vij ) ≥ cj rj .
i,j j=1 i=1 j
14 CHAPTER 1. INTRODUCTION ET EXEMPLES

Ainsi l’inf existe et est strictement positif. La résolution précise de cet


exemple ne peut être faite maintenant, nous renvoyons à la section 2.4.5.
Notons simplement que les points où le minimum doit être étudié sont ’au
bord’ des contraintes (’est-à-dire les inégalités deviennent des égalités).
Dans la suite des exemples de cette partie, on ne considère plus comme
inconnues des vecteurs, mais les inconnues deviennent des fonctions. La
fonction à minimiser s’appelle alors une fonctionnelle, et la théorie corre-
spondante s’appelle le calcul des variations. Ce sont parmi les plus anciens
problèmes étudiés par les mécaniciens.
9. Equilibre d’un fil pesant.
On se place dans le champ de pesanteur ~g = −g~j, et on se donne deux
points (x0 , y0 ) et (x1 , y1 ). On se place dans une situation suffisamment
simple pour qu’un fil placé entre ces deux points puisse être représenté
par y(x), avec y(x0 ) = y0 , y(x1 ) = y1 . La longueur de ce fil est supposée
fixe, égale à l, ce qui se traduit par l’égalité (basée sur la notion d’abscisse
curviligne, s = 0 au point (x0 , y0 ) et s = l au point (x1 , y1 ))
Z l Z x1 1
l= ds = (1 + (y 0 (x))2 ) 2 dx.
0 x0

Il est en équilibre lorsque son énergie potentielle est minimum. L’origine


de l’énergie potentielle est placée en y1 . Alors, si on désigne par ρ sa
masse linéique, l’énergie potentielle du fil est

Z l Z x1 1
ρg (y(x(s)) − y1 )ds = −ρgy1 l + ρg y(x)(1 + (y 0 (x))2 ) 2 dx.
0 x0

L’énergie totale, qui est constante, fait intervenir la vitesse, qui est donc
nulle. On a donc le problème
Z x1 1
inf y(x)(1 + (y 0 (x))2 ) 2 dx
y∈C 0 x0
sous les contraintes
Z x1
1
(1 + (y 0 (x))2 ) 2 dx = l, y(x0 ) = y0 , y(x1 ) = y1 .
x0

10. Le problème de Pappus, ou comment Didon a pu construire Carthage.


“Parmi toutes les courbes de longueur donnée joignant (0, 0) à (ξ, 0),
trouver celle qui conduit à l’aire maximum”
On se donne l’équation de cette courbe y = v(x). On a les contraintes
Z ξ
1
v ≥ 0, v(0) = v(ξ) = 0, (1 + (v 0 (x))2 ) 2 dx = l
0

et on recherche à minimiser − 0 v(x)dx. Notons ici l’emploi du signe −
lorsqu’on a à trouver un maximum et non un minimum.
1.3. EXEMPLES 15

11. Principe de Fermat et de Huyghens


On veut trouver la trajectoire reliant en temps minimum les points (x0 , y0 )
et (x1 , y1 ), en sachant qu’en (x, y), la vitesse est c(x, y). RAlors on cherche
s ds
v (que l’on précisera) telle que v(x0 ) = y0 , v(x1 ) = y1 et 0 0 c(x(s),y(s)) soit
minimum, o# u s est l’abscisse curviligne, c’est à dire l’unique paramétrage
(à l’orientation près) tel que (x0 )2 +(y 0 )2 = 1 c’est-à-dire, pour un paramétrage
y = y(x), é

1
x1
(1 + (v 0 (x))2 ) 2
Z
inf dx.
x0 c(x, v(x))

Lorsque on veut par exemple évaluer le rayon entre deux milieux de vitesse
c1 et c2 , tels que c(x, y) = c1 1x>0 + c2 1x>0 , on a donc, appliquant ce qui
est écrit ci-dessus à trouver le lieu de

1 1
0
(1 + (v 0 (x))2 ) 2 x1
(1 + (v 0 (x))2 ) 2
Z Z
inf[ dx + dx].
x0 c1 0 c2

12. Problèmes d’équilibre en mécanique des milieux continus


Soit Ω un ouvert de IRn et Γ sa frontière. On se donne les trois énergies
Z
1
U1 (v) = λ |∇v|2 dx
2 Ω

Z
1
U2 (v) = k |v|2 dx
2 Ω

Z
U3 (v) = − f (x)v(x)dx

qui sont respectivement l’énergie potentielle de déformation, l’énergie po-
tentielle élastique, l’énergie d’une force extérieure constante dans le temps.
On étudie deux fonctionnelles J1 = U1 + U2 + U3 et J2 = U1 + U3 . On
écrira quatre types de problèmes:

inf J2 (v), inf J1 (v), inf J1 , inf J2


v∈H01 (Ω) v∈H 1 (Ω) v∈H 1 (Ω),v|Γ ≥0 v∈H01 (Ω),v≥ψ

qui sont respectivement les problèmes de Dirichlet, Neumann, élasticité


avec contraintes unilatérales, équilibre avec obstacle.
Pour introduire certaines des méthodes de ce cours, traitons le premier
problème. Nous allons le faire à l’aide de ce que nous avons utilisé pour le
théorème de Hahn-Banach. On suppose que u existe. Alors, pour toute
fonction φ dans C0∞ (Ω), on remarque que u + φ ∈ H01 (Ω), ainsi on a

J2 (u + φ) ≥ J2 (u).
16 CHAPTER 1. INTRODUCTION ET EXEMPLES

Cette inégalité se traduit par


Z
∀φ ∈ C0∞ (Ω), λ ∇u∇φ + J2 (φ) ≥ 0.

On choisit alors ψ et on considère φ = εψ, où R ε tend vers


R 0. Alors on
en déduit, au passage à la limite, l’inégalité λ Ω ∇u∇ψ − f ψ ≥ 0 pour
toute ψ ∈ C0∞ (Ω). On remplace ψ par −ψ. On en déduit
Z Z
∀ψ ∈ C0∞ (Ω), λ ∇u∇ψ − f ψ = 0.

Un résultat d’intégrations par parties indique que, au sens des distribu-


tions de H −1 (Ω) (dual, rappelons le, des distributions de H01 (Ω)), on a la
relation

−λ∆u = f

Réciproquement, lorsque u est dans H01 (Ω) solution dans H −1 (Ω) de ce


problème, alors par écriture du produit scalaire qui correspond à la dualité
des distributions, on trouve
Z
1
J2 (v) − J2 (u) = λ (∇v − ∇u)2 dx.
2
En effet

1 2 1 2
R R R R
J2 (v) − J2 (u) = 2 λ R (∇v) dx − f vdx −
R 2 λ (∇u)R dx + f udx
1 2 − λ (∇u)2 dx + f udx
R R
= 2 λ (∇v − ∇u) dx + λ ∇u∇v − f vdx

et les deux termesR sont nuls enR prenant respectivement w = v puis w = u


dans l’égalité λ ∇u∇wdx = f wdx.
• Remarque: définition de la dérivée normale pour la solution du problème
de Dirichlet. On utilise la relation, valable pour (u, v) dans H 2 (Ω)
Z Z Z
∆uvdx = − ∇u∇vdx + ∂n uvdσ
Ω Ω

qui permet de définir ∂n u ∈ L2 (∂Ω) pour u ∈ H01 (Ω) tel que ∆u ∈ L2 (Ω)
et v ∈ H 1 (Ω)0 comme le résultat d’un théorème de Riesz. Pour
R cela, on
∞ (Ω), v → L(v) =
introduit la fonctionnelle, définie sur C 0 Ω ∇u∇v +
2
R
Ω ∆u.vdx, uniquement défini pour ∆u dans L (Ω). Cette fonctionnelle
est continue pour la topologie de C0∞ (Ω), on a:

|L(v)| ≤ C||v||H 1 (Ω) .

et C dépend continment de u dans (u ∈ H 1 (Ω), ∆u ∈ L2 (Ω)).


1.3. EXEMPLES 17

Lorsque v ∈ C ∞ (Ω), il est clair que cette fonctionnelle est continue et


que, par dualité, comme u ∈ H 1 (Ω), ∆u ∈ H −1 (Ω) lorsque le bord est
régulier, on trouve
Z
| ∇u∇v+ < ∆u, v > | ≤ C||v||H 1 (Ω) .

Pour v = φ ∈ C0∞ (Ω), on trouve 0, donc c’est une distribution qui ne
considére que les valeurs au bord de v = φ. D’autre part, lorsque u ∈
H 2 (Ω), on trouve que cette fonctionnelle permet de définir la dérivée
normale de u, ∂n u par la formule de Green usuelle.
Finalement, pour u ∈ H 2 (Ω) et v ∈ C ∞ (Ω), il existe C1 telle que (on
améliore la relation précédente)
Z
| ∇u∇v+ < ∆u, v > | ≤ C1 ||v|Γ || 1 .
Ω H 2 (Γ)

13. Problème de Neumann avec contrainte.


Nous étudions ici le cas du problème inf J1 (u), u|Γ ≥ 0, où u ∈ H 1 (Ω),
∂Ω = Γ. On souhaite démontrer la

Proposition 1.1 Si u est une solution qui minimise J1 dans H 1 (Ω) avec
u|Γ ≥ 0, alors
−λ∆u + ku = f dans L2 (Ω), et ∂n u = 0 sur u|Γ > 0 et ∂n u ≥ 0 sur
u|Γ = 0.

•: Equation aux dérivées partielles


On prend d’abord φ ∈ C0∞ (Ω), ainsi, pour tout ε > 0, u + εφ est dans
le domaine K défini par K = {u ∈ H 1 (Ω), u|Γ ≥ 0} dès que u ∈ K. On
applique alors la même méthode que précédemment, de faire tendre ε vers
0 après avoir divisé l’inégalité déduite de J1 (u + εφ) ≥ J1 (u) par ε. Ainsi
on a
Z Z Z
∀φ ∈ C0∞ (Ω), λ ∇u∇φdx + k uφdx = f φdx.

On en déduit, dans D0 (Ω), l’égalité

−λ∆u + ku = f.

• Traitement de la condition aux limites


Désormais, on considère v ∈ H 1 (Ω), v|Γ ≥ 0. Ainsi, de J1 (v) ≥ J1 (u),
écrivant v = u + (v − u), on déduit
Z
J1 (v)−J1 (u) = U1 (v−u)+U2 (v−u)+ [λ∇u∇(v−u)+ku(v−u)−f (v−u)]dx ≥ 0

(1.3.1)
Dans un premier temps, prenons v = cu, c ≥ 0 (donc v ∈ K). On trouve
alors
18 CHAPTER 1. INTRODUCTION ET EXEMPLES

Z
(c − 1)2 [U1 (u) + U2 (u)] + (c − 1) (λ(∇u)2 + k(u)2 − f u)dx ≥ 0.

Comme c ∈]0, +∞[, alors c − 1 ∈] − 1, +∞[. On peut prendre une valeur


négative et une valeur positive de c−1, ce qui implique la relation (faisant
tendre c − 1 vers 0)
Z
(λ(∇u)2 + k(u)2 − f u)dx = 0.

Remplaçant alors cette égalité dans l’inégalité (1.3.1), on trouve, pour


tout v ∈ K:
Z
U1 (v − u) + U2 (v − u) + [λ∇u∇v + kuv − f v]dx ≥ 0

• Traitement de l’inéquation d’Euler


En remplacant f par sa valeur en fonction de u et en utilisant la définition
de la dérivée normale, on obtient
Z
∀v ∈ K, ∂n uv|Γ dσ ≥ 0
Γ

Si x ∈ Γα où Γα est la partie du bord où u est supérieur ou égal à α,


alors on peut prendre ψ tel que ψ = 0 sur Γ − Γα et |ψ| ≤ α2 sur Γα ,
ψ identiquement égale à 1 sur le bord dans un voisinage d’un point x0
de Γα . On peut alors vérifier que u + ψ et que u − ψ sont dans K, ce
R permet d’obtenir directement, avec v − u = ±ψ, la relation au bord
qui
Γ ∂n uψdσ = 0, ce qui donne ∂n u = 0 sur Γα . On a donc
Z
∀α > 0, ∂n u|Γα = 0, u∂n udσ = 0
Γ
ce qui permet de partitionner Γ en Γ1 = {x, u(x)
R = 0} et Γ2 = Γ0 = Γ−Γα ,
sur lequel ∂n u = 0, et on a, par la condition Γ ∂n uvdσ ≥ 0 pour tout v
tel que v|Γ ≥ 0, la condition ∂n u ≥ 0.
14. Cas de non existence d’un minimum.
On se place
R 1 dans l’espace H 1 (]0, 1[) muni de la norme usuelle, et on définit
J(v) = 0 [(|v 0 (x)|−1)2 +(v(x))2 ]dx. On note que J(v) ≥ 0 et qu’il n’existe
pas de u tel que J(u) = 0. En effet, si il en existe un, |u0 | = 1 p.p. et u = 0
1
impossible dans H 1 . D’autre part, si on construit un (x) = 2n − |x − 2k+1
2n |
k+1
sur l’intervalle [ nk , k+1 (un (x))2 =
R
n ] pour 0 ≤ k ≤ n − 1, on trouve k
n

n
R 1 R k+1
2 02n x2 = 6n1 3 et k n (|u0 (x)| − 1)2 dx = 0. Ainsi
n

1
J(un ) =
6n2
et inf J = 0, alors qu’il n’existe pas de u tel que J(u) = inf J.
1.3. EXEMPLES 19

15. Un exemple de contrôle optimal


On considère y 0 ∈ IRN , T > 0, f ∈ L1 (]0, T [, IRN ) et A matrice N × N ,
B matrice N × M données. On considère, pour chaque v ∈ L2 (]0, T [, K),
la solution y(v) du système

dy(v)
(t) = Ay(v)(t) + Bv + f (t)
dt

avec y(v)(0) = y 0 . On cherche à minimiser le critère, qui peut s’exprimer


par “avec un v aussi petit que possible sur ]0, T [, trouver y(v) aussi proche
que possible de g aussi bien pondéré sur ]0, T [ qu’en t = T ” Le critère que
j’écris est

RT RT
J(v) = (v(t), v(t))dt + 0 (Q(y(v)(t) − g(t)), y(v)(t) − g(t))dt
0
+(R(y(v)(T )) − g(T ), y(v)(T ) − g(T ))

On note pour l’instant que y(v) peut être calculée, par exemple à l’aide
de y(0) puis de l’exponentielle de A dans une base où par exemple A
est diagonalisable, mais cela ne sera pas de grande aide pour calculer et
minimiser le critère.

16. Commande en temps minimal


Dans ce cas, le critère s’écrit de la manière suivante: “atteindre une cible
donnée C dans le temps le plus petit possible”. On introduit alors le
temps d’arrivée à la cible:

J(v) = +∞ si y(v) ∈ / C∀t


J(v) = inf{t ≥ 0, y(v)(t) ∈ C} si il existe t0 tel que y(v)(t0 ) ∈ C.

Commander le système en temps minimal est trouver inf J pour v dans


l’espace de commande et trouver un v0 tel que J(v0 ) = inf J.

17. On se donne A = {a ∈ L∞ ([0, 1]), 0 < α ≤ a(x) ≤ β∀x}. On se donne


aussi fi , ūi des fonctions (à préciser sur [0, 1]). On cherche à trouver a et
ui de sorte que

d 1 dui
− ( ) = fi (x), ∀x, ui (0) = ui (1) = 0 (1.3.2)
dx a(x) dx
XZ 1
inf |ui (x) − ūi (x)|2 dx. (1.3.3)
a∈A 0
i

C’est un problème modèle pour certains problèmes de la physique. Ici,


on cherche une équation de la chaleur (caractérisée par sa distribution a)
telle que les résultats théoriques de l’observation (pour chaque donnée
20 CHAPTER 1. INTRODUCTION ET EXEMPLES

extérieure fi on construit mathématiquement une solution de (1.3.2))


soient les plus proches possible de ce l’on observe (ūi ).
Dans un premierR temps, on peut résoudre explicitement (??) en intro-
x
duisant A(x) = 0 a(s)ds, mais trouver le meilleur a n’est pas encore à
notre portée. On peut le faire quand a(x) est une constante.
Dans le cas général, on trouve

Z x Z x
dui d
= CA0 (x)+A0 (x) fi (t)dt = (CA(x)+A(x) fi (t)dt)−A(x)fi (x),
dx 0 dx 0

soit
Z x Z x
ui (x) = CA(x) + A(x) fi (t)dt − A(t)fi (t)dt
0 0
en ayant utilisé ui (0) = 0. On identifie C grâce à ui (1) = 0, ce qui donne

Z 1 Z 1 Z x
A(x)
ui (x) = ( A(t)fi (t)dt−A(1) fi (t)dt)+ (A(x)−A(t))fi (t)dt.
A(1) 0 0 0

Dans le cas a(x) = a, on trouve ui (x) = au1i (x), avec


Z 1 Z x
u1i (x) = x (t − 1)fi (t)dt + (x − t)fi (t)dt.
0 0

Il est immédiat que le critère s’écrit


Z 1 Z 1 Z 1
2
J(a) = a (u1i (t))2 dt − 2a u1i (x)ūi (x)dx + (ūi (x))2 dx
0 0 0
Pi=N R 1 1
i=1 0 ui (t)ūi (t)dt
et qu’il est minimum en a0 = P i=N R 1 1 2
. Son minimum, d’après
i=1 0 (ui (t)) dt
les inégalités de Cauchy-Schwarz, est positif ou nul et n’est nul que si tous
les u1i sont égaux à un coefficient foit ūi .
Chapter 2

Minimum dans IRN ou dans un


espace de Hilbert, conditions
d’Euler et de Legendre

2.1 Condition générale d’existence (suffisante)


Nous allons d’abord donner des conditions suffisantes d’existence d’un mini-
mum. Le théorème le plus classique, que l’on trouve au début de chaque cours
d’optimisation, est le résultat en dimension finie:

Théorème 2.1 Soit K ⊂ IRN , soit J une fonctionnelle continue sur Ω con-
tenant K, et K fermé.
Si K est compact, ou si J est ∞ à l’∞ (c’est-à-dire, pour toute suite vn
telle que |vn | → +∞, J(vn ) → +∞), alors J a au moins un minimum sur K.
On peut extraire de toute suite minimisante sur K une sous-suite con-
vergeant vers un point de minimum sur K.

Preuve • Cas du compact


Toute partie non vide de IR admet une borne inférieure l. Si K est compacte,
d’une suite un telle que J(un ) tend vers l, on peut extraire (car un ∈ K com-
pact), une sous-suite convergente un0 → a. Comme J est continue, J(un0 ) tend
vers J(a), et donc J(a) = l.
• Cas d’une fonctionnelle infinie à l’infini
Si K n’est pas compacte, on vérifie cependant que la suite est bornée (si elle
ne l’était pas, on trouverait une sous-suite extraite un0 telle que |un0 | → +∞,
auquel cas J(un0 ) → +∞ par l’hypothèse sur le comportement de J, et donc
J(un0 ) ne converge pas vers l). Soit B une boule fermée contenant tous les
termes de la suite. Alors un ∈ K ∩ B est une suite dans un compact, une suite
extraite converge donc vers une valeur minimisante.

Remarque sur les compacts


On note que dans l’exemple 16 de l’introduction, la fonctionnelle vérifie la

21
22 CHAPTER 2. EULER-LEGENDRE

condition à l’infini, mais il n’y a pourtant pas de minimum car dans un espace
de dimension infinie, un fermé borné n’est pas necessairement compact.
Il s’agit maintenant d’être capable, comme dans les exemples traités précédemment,
de calculer les solutions. Nous allons faire cela, en écrivant des conditions très
anciennes, nécessaires pour certaines, suffisantes pour d’autres.

2.2 Condition d’Euler, condition de Legendre


Du traitement des exemples 13 et 15, on déduit un certain nombre de notions.
Nous reviendrons sur certaines d’entre elles plus loin. Pour l’instant, intéressons
nous à deux notions:
• la notion de dérivée dont nous avons besoin
• la notion de direction admissible.
La notion de dérivée que nous cherchons à obtenir s’obtient en comparant
(ce qui a été fait dans les exemples 13 et 15), J(u + εv) et J(u) après avoir
divisé par ε et fait tendre ε vers 0. On voit ainsi que la bonne notion est de
considérer
1
lim [J(u + εv) − J(u)]
ε→0 ε
et d’écrire l’inégalité, valable pour tout v tel que u + εv est dans le domaine
étudié
1
lim [J(u + εv) − J(u)] ≥ 0.
ε→0ε

2.2.1 Dérivabilité au sens de Fréchet et au sens de Gâteaux


La dérivée d’une fonction d’une variable élément d’un espace vectoriel de di-
mension finie doit être généralisée aux fonctionnelles, application d’un espace
vectoriel de dimension infinie dans IR. Il faut se placer dans un espace normé,
et un espace pour lequel l’espace dual est isomorphe à l’espace (on verra plus
loin que cela permettra de définir une application gradient). On se place sur
un espace de Hilbert V , dans lequel on a isomorphisme entre V et V 0 , et donc
le théorème de Riesz.

Définition 2.1 Lorsque, pour tout w, la limite limε→0 1ε [J(u + εw) − J(u)]
existe, on la note J 0 (u; w) et on l’appelle dérivée directionnelle de J en u dans
la direction w, qui est une fonction définie de V × V dans IR, homogène de
degré 1 dans la variable w.
Lorsque, de plus, la fonction w → J 0 (u; w) est une fonction linéaire con-
tinue, alors il existe, par le théorème de Riesz, un élément de l’espace de Hilbert
V , que l’on appelle la dérivée de Gâteaux de J en u et que l’on note J 0 (u). On
notera souvent de la même façon la forme linéaire et son représentant dans le
produit scalaire, soit (J 0 (u), w) = J 0 (u; w).
On peut aussi définir la dérivée seconde J”(u) si elle existe, lorsque la limite
1
lim [J 0 (u + δw1 ; w2 ) − J 0 (u; w2 )]
δ→0 δ
2.2. CONDITION D’EULER, CONDITION DE LEGENDRE 23

existe pour tout (w1 , w2 ) et est une forme bilinéaire continue sur V × V . La
limite est alors (J”(u)w1 , w2 ) par représentation des formes bilinéaires contin-
ues.

On rappelle la définition de la dérivée au sens de Fréchet, qui n’est plus


cette fois une forme linéaire définie sur chaque direction:

Définition 2.2 J est dérivable au sens de Fréchet en u si il existe une forme


linŕaire continue sur V , notée Lu , telle que

J(u + v) = J(u) + Lu (v) + ε(v)||v||


avec ε(v) → 0 quand v → 0.

Lorsque J est dérivable au sens de Fréchet, elle est dérivable au sens de Gâteaux,
mais la réciproque est fausse, car l’écriture de la dérivabilité au sens de Fréchet
correspond à ε(v)
||v|| tend vers 0, alors que la dérivabilité au sens de Gateaux
correspond à ε(λw)
λ tend vers 0 lorsque λ tend vers 0 et on perd l’uniformité de
w.
On peut alors écrire des formules de Taylor sur v a l’ordre 2

Proposition 2.1 si J est deux fois différentiable au sens de Fréchet:


1
J(u + v) = J(u) + (J 0 (u), v) + (J”(u)v, v) + o(||v||2 ) (2.2.1)
2
Si J est différentiable au sens de Fréchet et si sa dérivée est différentiable
au sens de Gateaux, alors on a aussi une formule de Taylor:

1
J(u + tw) = J(u) + t(J 0 (u), w) + t2 (J”(u)w, w) + o(t2 ). (2.2.2)
2
Lorsque J” est continue, on peut écrire la formule de Taylor avec reste
intégral

Z 1
0 2
J(u + tw) = J(u) + t(J (u), w) + t (1 − x)(J”(u + xtw)w, w)dx. (2.2.3)
0

Preuve La démonstration de ces égalités de Taylor peut par exemple se faire


en considérant la fonction de la variable réelle (que l’on considèrera très souvent
dans ce document)

φ(t) = J(u + tw). (2.2.4)


On vérifie que φ(t + h) = J((u + tw) + hw), φ(t) = J(u + tw) donc

φ(t + h) − φ(t)
→ (J 0 (u + tw), w)
h
ainsi φ0 (t) = (J 0 (u + tw), w).
24 CHAPTER 2. EULER-LEGENDRE

0 0 0 0 (u),w)
On voit alors que φ (t)−φ
t
(0)
= (J (u+tw),w)−(J
t tend vers φ”(0) = (J”(u)w, w).
Ainsi on peut écrire la formule de Taylor

t2
φ(t) = φ(0) + tφ0 (0) + φ”(0) + o(t2 )
2
et on a obtenu la formule de Taylor pour une fonction différentiable, qui admet
une dérivée seconde au sens de Gateaux.
D’autre part, si J est deux fois différentiable au sens de Fréchet dans un
voisinage de u, on a

φ”(t) = (J”(u + tw)w, w)


ainsi la formule de Taylor avec reste intégral pour la fonction φ conduit à l’égalité
(2.2.3).
Avec les outils de differentiabilité ainsi définis, on peut donner les résultats
d’optimalité connus sous le nom de condition d’Euler et de Legendre.

2.2.2 Deux espaces de Hilbert utiles dans la totalité de ce cours


Dans ce cours, nous avons besoin de la définition de deux espaces de Sobolev
importants (qui seront vus dans un cadre plus général dans un cours du second
semestre) et qui sont très utiles. Leurs propriétés sont admises pour le moment.

Définition 2.3 On appelle espace de Sobolev H 1 ([a, b]), où a et b sont deux
réels, a < b, le complété pour la norme
Z b
1
||u||H 1 ([a,b]) = ( ((u0 (x))2 + (u(x))2 )dx) 2
a

de l’espace C 1 ([a, b]).

On note que cette norme est associée au produit scalaire


Z b
(u, v)H 1 ([a,b]) = (u0 (x)v 0 (x) + u(x)v(x))dx.
a

Si on est sur un intervalle de R, les fonctions de H 1 ([a, b]) sont continues,


grâce à l’inégalité
Z y
1
|u(y) − u(x)| ≤ (| (u0 (t))2 dt|) 2 .
x

La propriété de continuité n’est pas vraie en dimension supérieure:

Définition 2.4 Soit Ω un ouvert régulier de Rd .


On appelle espace de Sobolev H 1 (Ω) le complété pour la norme
Z
1
||u||H 1 (Ω) = ( ((∇u(x))2 + (u(x))2 )dx) 2

de l’espace C 1 (Ω).
2.2. CONDITION D’EULER, CONDITION DE LEGENDRE 25

que cet espace peut aussi s’écrire H 1 ([a, b]) = {u ∈ L2 ([a, b]), u0 ∈ L2 ([a, b])}.
Dans l’écriture ci-dessus, on peut remarquer qu’une fonction de L2 ([a, b]) n’est
pas forcément définie en tout point (elle n’est définie que presque partout), donc
pour la définition de la dérivée il est nécessaire de passer par une autre notion,
la dérivée faible:

Définition 2.5 Soit f ∈ L2 (Ω). On appelle dérivée faible de f l’application


linéaire continue sur H 1 (Ω) définie par
Z
φ → (∂xi f )(φ) = − f (x)∂xi φ(x)dx.

C’est une application continue grâce à l’inégalité de Cauchy-Schwartz


Z
| f (x)g(x)dx| ≤ ||f ||L2 (Ω) ||g||L2 (Ω) .

On note traditionnellement l’application ci-dessus < ∂xi f, φ > et une explica-


tion de cette notation interviendra plus tard dans ce cours.
Lorsque f est une fonction C 1 (Ω), la dérivée faible concide avec la dérivée
classique.
Si d ≥ 2, les fonctions de H 1 (Ω) ne sont plus forcément continues.
Le deuxième espace est l’espace H01 (Ω).

Définition 2.6 Soit Ω un ouvert régulier de Rd .


On appelle espace de Sobolev H01 (Ω) le complété pour la norme
Z
1
||u||H 1 (Ω) = ( ((∇u(x))2 + (u(x))2 )dx) 2

de l’espace C01 (Ω) des fonctions de C 1 (Ω) qui sont nulles sur le bord de Ω ainsi
que leurs dérivées.
Par extension, on dira que la trace des éléments de H01 (Ω) sur le bord est nulle.
Un espace de Hilbert plus grand HΓ1 (Ω) peut aussi être défini par u nulle sur
une partie Γ du bord Ω.

2.2.3 Conditions necessaires d’optimalité. Conditions suffisantes


d’optimalité
On écrit des conditions nécessaires dans le

Théorème 2.2 Soit V un espace de Hilbert et J une fonctionnelle différentiable


(1 ou 2 fois) au sens des définitions précédentes
Pour que u ∈ V soit solution de

inf J(v)
(2.2.5)
v∈V
il FAUT que J 0 (u) = 0 (condition d’Euler).
(c’est-à-dire former cette équation, appelée équation d’Euler, donne tous les
minima, entre autres points (elle donne aussi tous les maxima locaux)).
26 CHAPTER 2. EULER-LEGENDRE

Si J est différentiable deux fois, on a, de plus nécessairement

∀w ∈ V, (J”(u)w, w) ≥ 0.
(condition de Legendre)

Démonstration:
Si u est un point d’optimum de J, alors, pour tout v ∈ V on a

J(u + v) ≥ J(u).

Si on utilise la dérivée de Fréchet de J, on en déduit que

∀v ∈ V, Lu (v) + o(v) ≥ 0.

On écrit v = tw, et on fait tendre t vers 0, t > 0. On en déduit , par


passage à la limite, Lu (w) ≥ 0. On choisit alors v = −tw, t > 0 et on en
déduit Lu (−w) ≥ 0. On a alors, ∀w, Lu (w) = 0. Ceci équivaut à J 0 (u) = 0. Un
raisonnement similaire est possible si la fonctionnelle est Gâteaux dérivable: en
effet
J(u + tw) − J(u) ≥ 0
pour w donné, quelconque.
Si t > 0, on peut diviser par t et passer à la limite: on déduit que (J 0 (u), w) ≥ 0.
Si on prend t < 0, on trouve (J 0 (u), w) ≤ 0. On en déduit donc aussi, dans le
cas où J est Gâteaux dérivable, J 0 (u) = 0. Pour la condition de Legendre, on
suppose que la fonctionnelle est dérivable au sens de Fréchet et que sa dérivée
de Fréchet est différentiable au sens de Gateaux.
On utilise alors la formule de Taylor (2.2.2), ce qui donne, si u est un
minimum, utilisant J 0 (u) = 0:

t2
J(u + tw) = J(u) + (J”(u)w, w) + o(t2 )
2
et l’inégalité J(u + tw) ≥ J(u) conduit à (J”(u)w, w) ≥ 0 pour tout w. Le
théorème est démontré.
Ce théorème est complété par une écriture de conditions suffisantes, valables
pour un minimum local

Théorème 2.3 Un ensemble de conditions suffisantes pour que u soit solution


du problème du théorème précédent est

J 0 (u) = 0
et pour tout ũ dans un voisinage V0 de u0 , on ait la condition (J”(ũ)w, w) ≥ 0.
(condition forte de Legendre)

Classiquement, au vu des applications numériques usuelles, on peut aussi écrire


une condition plus forte que la condition forte sous la forme
2.3. INÉQUATION D’EULER DANS UN PROBLÈME AVEC CONTRAINTES27

Il existe α > 0 tel que (J”(u)w, w) ≥ α(w, w)1 .


Démontrons le théorème. On suppose que J 0 (u) = 0 et (J”(ũ)w, w) ≥ 0
pour tout ũ dans un voisinage de u, et J deux fois Fréchet différentiable. On
utilise la formule de Taylor avec reste intégral
Z 1
2
J(u + tw) = J(u) + t (1 − x)(J”(u + txw)w, w)dx.
0
Soit ũ ∈ V0 . On choisit t = 1 et w = ũ − u de sorte que u + txw = xũ + (1 − x)u
est dans ce même voisinage, alors J(ũ) ≥ J(u) et u est un point de minimum
local, ce qu’il fallait démontrer.
• Contre-exemple de base.
Notons que l’on n’a pas ainsi de condition nécessaire et suffisante. En effet, si
on considère dans V = IR J(x) = x6 (1 + sin x1 ), et J(0) = 0, on vérifie que
J(x) ≥ 0 car sin u ≥ −1. Ainsi J(x) ≥ J(0) pour tout x et 0 est un point de
minimum absolu. On vérifie que J est continue en 0 (car lim x sin x1 = 0). Sa
dérivée est J 0 (x) = 6x5 (1+sin x1 )−x4 cos x1 , elle vérifie J 0 (x) → 0 lorsque x tend
vers 0, et de plus, J(x)−J(0)
x tend vers 0, donc J est dérivable et sa dérivée est
continue. Alors J”(x) = −x2 [sin x1 − 30x2 (1 + sin x1 ) − 10x cos x1 ]. On vérifie que
J”(0) = 0 et que J”( (n+11 )π ) = −( (n+11 )π )2 [(−1)n − 30( (n+11 )π )2 (1 + (−1)n )],
2 2 2
dont le signe est alternativement + et − pour n pair ou impair assez grand (par
exemple n ≥ 4). Ceci prouve que J ne vérifie pas la condition forte de Legendre
et pourtant J admet un minimum absolu en 0.

2.3 Inéquation d’Euler dans un problème avec con-


traintes
Les problèmes avec contrainte s’écrivent aussi comme des problème d’optimum
liés. Il s’agit en particulier de l’exemple 15. On voit, dans ce problème, que la
remarque utilisée généralement est que l’on doit pouvoir avoir u + εφ dans le
domaine K si u est donnée, afin d’écrire les conditions J(u + εψ) ≥ J(u). Il
faut alors que ψ soit positive sur le bord lorsque u|Γ est nulle en ce point du
bord, alors que, modulo le fait que ε soit choisi assez petit, ψ peut être prise
arbitraire sur le bord hors des points où u est nulle.
Lorsque K est l’ensemble des contraintes, et lorsque u ∈ K, on définit les
directions admissibles de u dans K par

Définition 2.7 L’espace des directions admissibles au sens de Fréchet pour


u ∈ K est l’ensemble des w de V tels qu’il existe une suite wn de V tendant
vers w et une suite en ≥ 0, en → 0, telle que u + en wn ∈ K. L’ensemble des
directions admissibles est noté K(u).

Définition 2.8 L’espace des directions admissibles au sens de Gâteaux est


l’ensemble des w tels que, pour ε assez petit, u + εw soit dans K. L’ensemble de
1
Notons que dans un Hilbert de dimension finie, cette inégalité est équivalente à l’inégalité
(J”(u)w, w) > 0 pour tout w non nul, puisque dans ce cas là la matrice J”(u) n’a pas de
vecteur propre nul, et α est sa plus petite valeur propre
28 CHAPTER 2. EULER-LEGENDRE

telles directions w est aussi appelé ensemble de directions admissibles intérieures


et noté K̇(u).

On note que les deux ensembles ainsi définis sont des cônes, et que K̇(u) ⊂
K(u).
On a alors les conditions nécessaires suivantes sur un minimum de la fonc-
tionnelle sous contraintes:

Théorème 2.4 (Inéquations d’Euler)


Si J est dérivable au sens usuel (de Fréchet), pour que u soit solution de
(2.2.5), il faut que

∀w ∈ K(u), (J 0 (u), w) ≥ 0.
Si J est dérivable au sens de Gâteaux, il faut que

∀w ∈ K̇(u), (J 0 (u), w) ≥ 0.

Soit u une solution de (2.2.5). Alors, comme u + en wn ∈ K, on a J(u +


en wn ) ≥ J(u). Ainsi on en déduit

1
[J(u + en wn ) − J(u)] ≥ 0 ∀n
en
puisque en ≥ 0. Ainsi, en passant à la limite dans l’égalité de définition de
la dérivée de Fréchet, on obtient e1n [J(u + en wn ) − J(u) − (J 0 (u), en wn )] → 0,
ainsi, écrivant (J 0 (u), wn ) − (J 0 (u), w) = (J 0 (u), wn − w) → 0, on a

(J 0 (u), w) ≥ 0.
Pour le deuxième, on vérifie que J(u + εw) − J(u) ≥ 0, ainsi, en divisant
par ε et en faisant tendre ε vers 0 pour w ∈ K̇(u), on trouve

∀w ∈ K̇(u), (J 0 (u), w) ≥ 0.

2.4 Multiplicateurs de Lagrange


Nous appliquons les résultats de la section précédente à des contraintes partic-
ulières, qui sont les plus simples que nous rencontrons. Les contraintes les plus
simples sont les contraintes égalités et les contraintes inégalités. Par exemple,
on peut écrire

K = {u ∈ V, F1 (u) = 0, F2 (u) = 0, ..Fm (u) = 0}


les fonctions F1 , ...Fm étant continues.
Par exemple, lorsque V = IR3 , on peut donner comme condition l’appartenance
à la sphère unité, qui s’écrit x2 +y 2 +z 2 −1 = 0. Ici F (x, y, z) = x2 +y 2 +z 2 −1.
2.4. MULTIPLICATEURS DE LAGRANGE 29

• L’exemple d’une variété simple: la sphère


Nous traitons le cas particulier de la contrainte égalité x2 + y 2 + z 2 = 1.
Commençons par l’ensemble ouvert K̇((x, y, z)). On considère (w1 , w2 , w3 )
tels que (x + w1 )2 + (y + w2 )2 + (z + w3 )2 = 1 et x2 + y 2 + z 2 = 1. Ainsi, en
utilisant ces deux égalités et en divisant par , on obtient

(∗)(xw1 + yw2 + zw3 ) = − ||w||2 .
2
En faisant tendre  vers 0, on trouve que xw1 + yw2 + zw3 = 0 car (x, y, z) et
(w1 , w2 , w3 ) sont indépendants de . D’autre part, en remplacant cette égalité
dans (*), on trouve ||w||2 = 0. Comme on prend  quelconque assez petit, la
norme de w est nulle donc w = 0. On trouve K̇((x, y, z)) = {(0, 0, 0)}.
D’autre part, considérons maintenant la définition de K((x, y, z)). Alors
w ∈ K((x, y, z)) lorsqu’il existe une suite en tendant vers 0 et une suite wn =
(w1n , w2n , w3n ) tendant vers w telles que (x, y, z) + en wn soit dans la sphère. On
cherche des conditions nécessaires pour que cela soit le cas. Comme précédemment,
on écrit les deux égalités et on obtient
en n 2
xw1n + yw2n + zw3n = − ||w || .
2
En considérant la limite lorsque n tend vers l’infini, le membre de gauche tend
vers xw1 + yw2 + zw3 et le membre de droite tend vers 0, donc une condition
nécessaire est xw1 + yw2 + zw3 = 0.
Montrons que cette condition est suffisante. On se donne un élément (w1 , w2 , w3 )
tel que u.w = 0, u = (x, y, z). On considère alors une suite quelconque wn
qui tend vers w (c’est toujours possible à définir, ce serait-ce qu’en prenant
w + n1 e, où e est un vecteur fixe quelconque). On sait alors que x.wn tend
vers 0. On construit alors w̃n = wn − 2|u.wn |(x, y, z) (ceci veut dire w̃1n =
wn1 − 2|xwn1 + ywn2 + zwn3 |x, w̃2n = wn2 − 2|xwn1 + ywn2 + zwn3 |y). Il en découle que
w̃n tend vers w car wn tend vers w et u.wn tend vers 0. De plus, w̃n .(x, y, z) =
w̃n
w̃n .u = wn .u − 2|wn .u| ≤ 0. On construit alors en = − ||2u w̃n ||2
≥ 0. La suite
(en , w̃n ) vérifie les conditions de la définition, donc (w1 , w2 , w3 ) ∈ K(u). Si
K = {(x, y, z), x2 + y 2 + z 2 ≤ 1}, alors K(u) = K̇(u) = IR3 pour u = (x, y, z)
tel que x2 + y 2 + z 2 < 1 (en effet, il suffit, pour toute direction non nulle w,
de considérer u + 21 (1 − ||u||) ||w||
w
, qui est dans la sphère unité, donc on vérifie
que pour 0 = 12 (1−||u||)
||w|| et  < 0 , u + w est dans la sphère). Pour un point du
2
bord u = 1, on aboutit, en divisant par en ou par , à l’inégalité
 en
u.w ≤ − ||w||2 , u.wn ≤ ||wn ||2
2 2
ce qui aboutit aux relations K̇(u) = {u.w < 0} et K(u) = {u.w ≤ 0}.

2.4.1 Contraintes égalités


• Inclusion K(u) ⊂ {w, (F 0 (u), w) = 0}
L’inclusion directe dans le cas général est facile à obtenir. En effet, si w est
une direction admissible pour u, il existe une suite wn tendant vers w et une
30 CHAPTER 2. EULER-LEGENDRE

suite en > 0 tendant vers 0 telles que F (u + en wn ) = 0. Alors on en déduit, en


supposant que F est différentiable

F (u) + (F 0 (u), en wn ) + o(en |wn |) = 0.


Faisant tendre en vers 0 après avoir utilisé F (u) = 0 et avoir divisé par en
conduit à (F 0 (u), w) = 0. • Inclusion réciproque:
Nous généralisons la méthode employée pour la sphère. Nous avons donc ob-
servé que l’argument principal est de corriger le fait que la droite dirigée par
w avec pour origine u dans le plan tangent ne rencontre pas la surface par un
déplacement complémentaire dans la direction normale au bord.
Supposons (F 0 (u), w) = 0. On introduit la fonction φ(λ, ε) = 1ε F (u + εw +
ελF 0 (u)), φ(λ, 0) = (F 0 (u), w + λF 0 (u)). On a

φ(λ + h, ε) − φ(λ, ε) 1
= (F (u+εw+ελF 0 (u)+εhF 0 (u))−F (u+εw+ελF 0 (u)))
h εh
donc

φ0λ (λ, ε) = (F 0 (u + εw + ελF 0 (u)), F 0 (u)).


On suppose que F 0 est Lipschitz et que F 0 (u) 6= 0. On souhaite trouver λ(ε)
tel que φ(λ(ε), ε) = 0. On écrit l’équation sous la forme

φ(λ, ε) − φ(0, ε) = −φ(0, ε)


De l’égalité (F 0 (u), w) = 0, on déduit φ(0, ε) = o(1). De la relation F 0 (u) 6= 0,
on tire que la dérivée de φ(λ, ε) − φ(0, ε) est ||F 0 (u)||2 > 0, et, de plus, φ(0, 0) =
0. On est dans le cas d’application du théorème des fonctions implicites et il
existe ε0 et une fonction continue λ(ε) telle que, pour ε < ε0 on ait

φ(λ(ε), ε) − φ(0, ε) = −φ(0, ε).


La fonction λ(ε) tend vers 0 lorsque ε tend vers 0. On peut aussi voir ce résultat
en écrivant l’équation sous la forme
Z 1
λ φ0λ (λx, ε)dx = −φ(0, ε)
0
ce qui donne, par approximation de la dérivée première

λ[||F 0 (u)||2 + O(ε)] = −φ(0, ε)


soit

φ(0, ε)
λ=− (1 + O(ε)),
||F 0 (u)||2
d’où une expression de λ(ε) (dont on a montré l’existence et l’unicité ci-dessus).
Ainsi on a trouvé wε = w + λ(ε)F 0 (u) tel que F (u + εwε ) = 0 et wε → w. La
direction w est une direction admissible. Lorsque F 0 (u) = 0, w est quelconque,
2.4. MULTIPLICATEURS DE LAGRANGE 31

mais cela n’assure pas l’existence d’un w non nul qui soit une direction ad-
missible. Par exemple, F (x) = x2 conduit, dans la définition, à écrire le cône
des directions admissibles à {0} dans IR, qui correspond à {0}, car dans ce cas
0 + en wn = 0 ce qui implique wn = 0, et non pas tout l’axe réel.

Lemme 2.1 Dans le cas F 0 (u) 6= 0, le cône K(u) associé à u tel que F (u) = 0
est l’ensemble des w ∈ V tels que (F 0 (u), w) = 0.

On en déduit la représentation suivante

Définition 2.9 Soit K = {u, F1 (u) = 0, F2 (u) = 0, ...Fm (u) = 0}. Lorsque les
vecteurs (F10 (u), F20 (u), ..Fm
0 (u)) sont linéairement indépendants, on dit que les

contraintes sont régulières en u.

Lemme 2.2 Si les contraintes sont régulières en u, alors

K(u) = {w ∈ V, (Fi0 (u), w) = 0, ∀i = 1..m}.

L’inclusion directe est facile. L’inclusion réciproque est une conséquence du


théorème des fonctions implicites matriciel. On choisit donc, pour un w tel
que (Fj0 (u), w) = 0 pour tout j, de regarder une perturbation de u + εw et de
déterminer (µ1 , .., µm ) tels que
k=m
X
∀j, ε−1 Fj (u + εw + εµk Fk0 (u)) = 0.
k=1
On regarde alors ce système comme une application de IRm dans lui même.
Le jacobien de cette application est, pour ε = 0, la matrice des produits scalaires
(Fj0 (u), Fk0 (u)). La famille est libre, donc cette matrice est inversible et cette
propriété est vraie pour ε < ε0 lorsque les µj appartiennent à un compact. On
applique alors le théorème des fonctions implicites de IRm+1 dans IRm et on
conclut sur l’existence de m fonctions µk (ε) tendant vers 0 lorsque ε tend vers
0 telles que ces égalités soient vérifiées pour ε petit. Il suffit alors de prendre
ε = n1 pour conclure sur l’existence d’une suite wn telle que u + n1 wn soit dans
K et wn tende vers w. Ainsi w est une direction admissible et on a montré
l’égalité des ensembles. Lorsque les vecteurs Fi0 (u) ne forment pas une famille
libre, on a le même problème que précédemment dans le cas F 0 (u) = 0.
On ne peut pas assurer l’existence de directions admissibles. Par exemple,
considérant {(x, y), x2 + y 2 = 1, x3 + y 3 = 1}, il est réduit à {(1, 0), (0, 1)} et
ces points sont isolés donc n’ont pas de directions admissibles. On peut aussi
considérer l’exemple d’une sphère S et d’un de ses plans tangents P . Au point
d’intersection, les deux vecteurs Fi0 (u) sont égaux à la direction normale à la
sphère, et l’intersection est réduite au point.
Lorsque le cône K(u) est facile à évaluer, le théorème 2.4 permet de calculer
ce que l’on appelle les multiplicateurs de Lagrange.

Théorème 2.5 Pour que u tel que (Fj0 (u))j forme une famille libre (on dit que
les contraintes Fj (v), 1 ≤ j ≤ m sont régulières en u), soit solution de
(2.2.5), il faut qu’il existe m réels λ1 , ...λm tels que
32 CHAPTER 2. EULER-LEGENDRE

J 0 (u) + λ1 F10 (u) + λ2 F20 (u) + ... + λm Fm


0
(u) = 0

Preuve La partie difficile de la preuve a été faite. En effet, si u est régulier,


on identifie aisément le cône K(u) des directions admissibles; c’est l’espace
vectoriel orthogonal à l’espace vectoriel F engendré par la famille (Fj0 (u))j=1..m .
Le théorème 2.4 se traduit alors par

∀w ∈ K(u), (J 0 (u), w) ≥ 0.
Comme K(u) est un espace vectoriel, −w ∈ K(u) lorsque w ∈ K(u), ce qui se
traduit par

∀w ∈ K(u), (J 0 (u), w) = 0.
Ainsi J 0 (u) est dans l’espace vectoriel orthogonal à F ⊥ , c’est-à-dire F , et
l’égalité du théorème est vraie.
On peut aussi le vérifier comme suit. Il existe des P
scalaires λj et un vecteur
r, orthogonal à tous les Fj (u), tels que J (u) = − m
0 0 0
j=1 λj Fj (u) + r. Alors
0
r ∈ K(u) et (J (u), r) = 0, ce qui s’écrit (r, r) = 0 soit r = 0.

2.4.2 Les contraintes inégalité


On suppose donc F (u) ≤ 0 une contrainte donnée de V dans IR. Soit u ∈ K,
vérifiant ainsi F (u) ≤ 0. Une direction w de K(u) est alors telle que F (u+εw) ≤
0 pour ε assez petit, soit F (u) + ε(F 0 (u), w) + o(εw) ≤ 0.
Deux cas sont alors à envisager:
• contrainte inactive: soit F (u) < 0, auquel cas, dès que ε est assez petit,
tout élément w est admissible. La contrainte F (u) ≤ 0 n’ajoute donc pas de
condition dans le théorème 2.4, la condition nécessaire est donc l’égalité d’Euler
J 0 (u) = 0 qui provient de (J 0 (u), w) ≥ 0 ∀w ∈ K(u). On dit pour cette raison
que la contrainte est inactive (on dira aussi de temps en temps insaturée).
• contrainte active: soit F (u) = 0, auquel cas, comme ε > 0, il faut et il
suffit, dans le cas F 0 (u) 6= 0, que (F 0 (u), w) ≤ 0.
On note tout de suite que si (F 0 (u), w) < 0, alors il est clair que, pour ε
assez petit, F (u + εw) = ε(F 0 (u), w) + o(ε) < 0. Le problème se pose lorsque
(F 0 (u), w) = 0 pour trouver un élément de l’espace des contraintes. On doit
donc introduire une notion de plus grande régularité des contraintes.
Par exemple la condition F 0 (u) 6= 0 est assurée lorsqu’il existe w tel que
(F 0 (u), w) < 0.
D’autre part, lorsqu’il y a plusieurs contraintes inégalités, on veut pouvoir
montrer que l’ensemble des directions admissibles n’est pas vide.
Pour cela, il faut trouver un w0 tels que, pour toutes les contraintes Fj
saturées, on a (Fj0 (u), w0 ) ≤ 0.
Cette condition n’est pas assez restrictive. En effet, la définition des direc-
tions admissibles w conduit à la relation (Fj0 (u), w) ≤ 0. En revanche, si on
2.4. MULTIPLICATEURS DE LAGRANGE 33

ne peut trouver un w0 que dans le cas où il existe un couple (j1 , j2 ) tels que
(Fj01 (u), w0 ) = (Fj02 (u), w0 ) = 0, on pourrait se trouver dans la situation où les
deux hypersurfaces Fj1 ≤ 0 et Fj2 ≤ 0 sont tangentes en u, de vecteur normal
w0 , et (par exemple) de concavité stricte opposée. Dans ce cas, l’intersection
des contraintes Fj1 ≤ 0 et Fj2 ≤ 0 est réduite à {u}, et on ne peut plus parler
de direction admissible.
Une condition pour que l’ensemble des directions admissibles soit non vide
est alors la condition:
Il existe w0 tel que, ∀j, (Fj0 (u), w0 ) < 0.
Cette condition est peu utilisable, car trop restrictive; en particulier une con-
trainte affine pourra donner une direction admissible avec uniquement l’égalité.
On utilise alors plutôt la condition suivante:
Il existe w0 tel que ∀j, (Fj0 (u), w0 ) < 0 (contraintes non affines) et (Fj0 (u), w0 ) =
0 si la contrainte est affine, car on sait que dans ce cas l’intersection entre le
demi hyperplan défini par la contrainte affine et les autres conditions est non
vide.
Enfin, on élimine grâce à cela la condition d’indépendance des (Fj0 (u)) que
l’on avait utilisé pour caractériser les directions admissibles.
Cette analyse induit une définition de contraintes qualifiées, qui est une hy-
pothèse technique mais qui est l’hypothèse la plus classique en théorie des mul-
tiplicateurs de Lagrange:

Définition 2.10 Soit K = {u, Fj (u) ≤ 0, j = 1..m}.


• On dit qu’une contrainte Fj est active si Fj (u) = 0, et elle est inactive si
Fj (u) < 0. On note I(u) l’ensemble des indices des contraintes actives.
• On dit que l’ensemble des contraintes (Fj ) est qualifié si il existe w0 ∈ V
tel que pour tout j ∈ I(u) (pour les contraintes actives), (Fi0 (u), w0 ) ≤ 0, et
(Fj0 (u), w0 ) = 0 uniquement pour Fj affine.

Commençons par ranger les contraintes actives affines pour j ∈ I 0 (u). On


prend w0 dans l’orthogonal de l’espace vectoriel F0 engendré par les Fj0 (u),
j ∈ I 0 (u), qui est indépendant de u. Il suffit alors de voir que, pour tout
w0 ∈ F0 et pour tout j ∈ I 0 (u), on a Fj (u + w0 ) = Fj (u) = 0. Il suffit alors de
regarder, pour les autres conditions, (j ∈ I(u) − I 0 (u)), (Fj0 (u), w0 ) et K(u) est
non vide lorsque w0 existe.
Une notion moins restrictive mais plus abstraite est la notion de con-
traintes qualifiables:

Définition 2.11 On dit que les contraintes inégalités {Fj (u) ≤ 0} sont quali-
fiables en u si

K(u) = {w, (Fj0 (u), w) ≤ 0 pour j ∈ I(u)}.

On a alors le lemme suivant

Lemme 2.3 On suppose que les contraintes Fj , 1 ≤ j ≤ m, sont qualifiées en


u ∈ K. Alors elles sont qualifiables en u.
34 CHAPTER 2. EULER-LEGENDRE

La preuve de ce lemme s’appuie sur l’existence de w0 pour la démonstration de la


réciproque; en effet l’implication directe est une conséquence de la dérivabilité et du
fait de faire tendre en vers 0.
On considère donc w dans {w ∈ V, (Fj0 (u), w) ≤ 0∀j ∈ I(u)}, et on forme, pour
tout ε et pour tout δ positif fixé u + ε(w + δw0 ). Pour ε assez petit, par continuité
de Fj pour j ∈ / I(u), Fj (u + ε(w + δw0 )) < 0. D’autre part, pour j ∈ I 0 (u), on a
Fj (u + ε(w + δw0 )) = Fj (u) + ε(Fj0 (u), w + δw0 )) = ε(Fj0 (u), w) ≤ 0. Enfin, pour
j ∈ I(u) − I 0 (u), il vient Fj (u + ε(w + δw0 )) = Fj (u) + ε(Fj0 (u), w + δw0 )) + o(ε).
Comme Fj (u) = 0, (Fi0 (u), w0 ) < 0 et (Fj0 (u), w) ≤ 0, on trouve

Fj (u + ε(w + δw0 )) ≤ δε(Fj0 (u), w0 ) + o(ε).


Le second membre est strictement négatif lorsque ε tend vers 0, car (Fj0 (u), w0 ) < 0 et
o(ε)/ε tend vers 0. Le lemme est démontré.

Théorème 2.6 Sous l’hypothèse que J est dérivable, que les Fj sont dérivables,
et que, en u, les contraintes sont qualifiables, pour que u soit une solution de
(2.2.5), il faut qu’il existe λ1 , ...λm ≥ 0 tels que λj = 0 pour j ∈ {1, .., m}−I(u)
et
i=m
X
0
J (u) + λi Fi0 (u) = 0.
i=1

Le théorème 2.6 est une conséquence simple du lemme suivant, dit de Farkas,
et de la représentation des directions admissibles du lemme 2.3. On applique
alors le théorème 2.4 pour en déduire l’existence des multiplicateurs de Lagrange
positifs.

Lemme 2.4 (Farkas)


Soit K l’intersection des demi hyperplans orthogonaux à aj , 1 ≤ j ≤ m,
K = {(aj , v) ≤ 0∀j}.

X
pour tout v ∈ K, (p, v) ≥ 0 on a ∃(λ1 , ...λm ) ∈ (IR+ )m , p = − λ i ai .
P
On définit B = {− λi ai , 1 ≤ i ≤ m, λi ≥ 0∀i}. Nous démontrerons que B
est un convexe fermé. Admettons le pour l’instant. On peut alors appliquer la
notion de projection sur un convexe fermé non vide. On suppose donc que p0
vérifie les hypothèses du lemme de Farkas et que p0 n’appartient pas à B. On
montre que la projection p̃ de p0 sur B est égale à p0 , d’où contradiction. On
trouve, de ||p0 − p̃||2 ≤ ||p0 − w||2 , w ∈ B, que ∀w ∈ B, (p̃ − p0 , w − p̃) ≤ 0.
Dans cette inégalité, on choisit alors w = −λai et on fait tendre λ vers +∞. Il
reste donc (ai , p0 − p̃) ≥ 0 pour tout i. Ceci implique que p̃ − p0 est dans K.
De l’inégalité 0 ≤ (p0 , p̃ − p0 ) = −|p0 − p̃|2 + (p0 − p̃, 0 − p̃) ≤ −|p0 − p̃|2 (car
0 ∈ B) on déduit que p0 = p̃. On a montré que p0 ∈ B, contradiction.
Il reste à démontrer que B est fermé convexe. Il est convexe de manière
évidente (on considère 0 ≤ µ ≤ 1, alors µλ1i + (1 − µ)λ2i ≥ 0, et donc il existe
une représentation de µv1 + (1 − µ)v2 qui soit une combinaison linéaire à coef-
ficients négatifs). En revanche le caractère fermé est plus difficile à obtenir. La
2.4. MULTIPLICATEURS DE LAGRANGE 35

preuve suit:

Si la famille (ai ) est libre, la matrice (ai .aj ) est symétrique définie positive.
On note ||a|| le max P des normes des ai et α la plus petite valeur propre de la
matrice. On obtient λi ai .aj = −v.aj , donc il vient maxi |λi | ≤ α−1 ||v||.||a||.
On considère alors une suite vn d’éléments de B qui converge. On note v sa
limite et on souhaite montrer que cette limite est dans B.
On peut identifier les λni associés à chaque vn , et les suites λni sont bornées.
Quitte à faire des extractions de suite en cascade, il existe une sous-suite con-
ψ(n) P
vergente λi , qui converge vers des valeurs positives λi , donc v = − λi ai .
La limite est donc dans B.

Deuxième
P cas, si la famille est linéairement dépendante, il existe µ1 , ..µm tels
que µi ai = 0 (avec au moins
P un des coefficients qui est positif), et donc un
élément de B s’écrit v = − (λi +tµi )ai . Il faut montrer que pour une valeur de
t ≤ 0, cette somme est une combinaison à coefficients positifs de m − 1 termes,
et on se sera ramené à une famille avec moins d’éléments pour tout t. Pour
t = 0, tous les coefficients sont positifs ou nuls, donc de deux choses l’une: ou
bien µi1 ≤ 0, auquel cas µi1 t ≥ 0 et le coefficient correspondant ne s’annulera
λ
pas si λi1 6= 0, ou bien µi1 > 0, ce qui implique que t = − µii1 est une valeur
1
où le coefficient s’annule. On prend alors t0 = mini,µi >0 µλii et la combinaison
précédente a un coefficient qui s’annule pour t = −t0 . Cette construction est
valable pour chaque élément de B.
On considère alors une suite xn d’éléments de B, suite de Cauchy dans
l’espace engendré par les ai , espace vectoriel de dimension finie. Elle s’écrit
− P λni ai . Par P
P
la construction ci-dessus, pour chaque n, il existe i(n) tel que
− λni ai = − i6=i(n) λ̃ni ai . On a donc enlevé chaque fois un élément de la
famille (ai ). On note Ii = {n, i(n) = i}. L’union des Ii est l’ensemble des
entiers naturels, donc il existe au moins un i0 tel que Ii est infini, soit Ii =
φ(n)
{φ(m), m = 0, 1.. + ∞}. La suite extraite xφ(n) = − i6=i0 λ̃i ai est une suite
P
qui correspond à la famille (ai )i6=i0 . Si cette famille est libre, on s’est ramené au
cas précédent, et la suite extraite xφ(n) converge vers un élément de B. Comme
la suite est de Cauchy, elle converge vers x et la limite de toute suite extraite
est x.
Si cette famille est liée, on reprend l’argument avec la suite xφ(n) . Comme
la famille n’est pas identiquement nulle (sinon B est réduit à {0} et on n’a rien
à démontrer), alors au bout d’un nombre fini d’itérations, on aboutit à une
famille libre (aj ) et la démonstration est finie puisque la limite est dans B pour
cette suite extraite.
On a donc montré que B est fermé, donc on peut utiliser le théorème de
projection sur un convexe fermé.
36 CHAPTER 2. EULER-LEGENDRE

2.4.3 L’inégalité de Hardy.


On peut obtenir en exercice l’inégalité
i=n i=n
1X 1 1X 1
( |xi |p ) p ≤ ( |xi |q ) q , q ≥ p
n n
i=1 i=1

|xi |q = 1 et on cherche à minimiser


P
En effet,
P onp suppose la contrainte
J(x) = |xi | . On écrit, avec le multiplicateur de Lagrange λ, yi = |xi |
pyip−1 + λqyiq−1 = 0, sous la contrainte
P q
yi = 1. On trouve alors yiq−p = − λq p

ou yi = 0. Soit k le nombre de valeurs de yi non nulles. Alors elles sont égales,


1 p p−q
donc yi = ( k1 ) q , ce qui donne J(y) = k( k1 ) q = k q . Lorsque q < p, la plus
petite valeur est atteinte pour k = 1, et le minimum est atteint lorsque l’un
seulement est non nul. Lorsque q ≥ p, la plus petite valeur est atteinte lorsque
p−q
tous les yi sont égaux, et la plus petite valeur de J est n q . On en déduit
P p q−p P
yi ≥ n q , yiq = 1 ainsi, en notant zi = P yip 1 , tel que
P p
zi = 1, on a le
( yi ) p
résultat.

2.4.4 Problème mixte


On appelle problème mixte un problème où les contraintes apparaissant sont
à la fois des contraintes égalité et des contraintes inégalite. Nous commencons
dans ce paragraphe l’étude par le cas de contraintes égalité que nous transfor-
mons en contraintes inégalité.
Si on considère l’ensemble des contraintes égalités (régulières) comme l’ensemble
de toutes les contraintes inégalités (Fj (u) = 0, 1 ≤ j ≤ m équivaut à Fj (u) ≤
0, −Fj (u) ≤ 0), toutes les contraintes sont actives, car si u est tel que Fj (u) < 0,
alors −Fj (u) > 0 donc (bien sûr) u n’est pas dans l’ensemble!!. On écrit la condi-
tion sur les multiplicateurs de Lagrange λj ≥ 0, µj ≥ 0, J 0 (u)+ j=m 0
P
j=1 λj Fj (u)+
Pj=m 0 0
P 0
j=1 µj (−Fj (u)) = 0, J (u) + j pj Fj (u) = 0 avec pj = λj − µj ∈ IR. Notons
pour l’instant que les contraintes ne sont pas qualifiées en un point.
En effet, si on prend une des contraintes égalité sous la forme F1 (u) ≤ 0 et
−F1 (u) ≤ 0, il n’existe pas de w tel que l’on ait simultanément (F10 (u), w) < 0
et (−F10 (u), w) < 0. La notion de contrainte qualifiée ne s’applique pas dans
ce cas. En revanche on sait que les contraintes sont qualifiables: en effet, si les
contraintes égalité sont régulières en u, alors

K(u) = {w, (Fj0 (u), w) = 0, 1 ≤ j ≤ m} = {w, (Fj0 (u), w) ≤ 0, (−Fj0 (u), w) ≤ 0, 1 ≤ j ≤ m}.

Nous considérons donc

K = {u, Fj (u) = 0, 1 ≤ j ≤ m, Fm+k (u) ≤ 0, 1 ≤ k ≤ p}.

Nous supposons K non vide. Nous montrons le

Théorème 2.7 Nous considérons les points u de K tels que la propriété suiv-
ante soit vérifiée (contraintes mixtes qualifiées):
Les contraintes égalités sont régulières en u, et les contraintes inégalité sont
2.4. MULTIPLICATEURS DE LAGRANGE 37

qualifiées en u, où le vecteur de qualification w0 est dans l’ensemble (V ect(F10 (u), ..., Fm
0 (u)))⊥ .

Pour que u soit minimum de J sur K, il faut qu’il existe λ1 , ..., λm , λm+1 , ..., λm+p ,
∀i ∈ {1, ..., p}, λm+i ≥ 0 tel que
m+p
X
J 0 (u) + λj Fj0 (u) = 0
j=1

λk Fk (u) = 0, pour tout k ≥ m + 1.


Nous proposons deux preuves. La première preuve s’appuie directement
sur la définition des contraintes mixtes qualifiées, nous allons construire une
suite de directions admissibles. On sait bien sûr que l’ensemble des directions
admissibles est inclus dans {w, (Fj0 (u), w) = 0∀j, 1 ≤ j ≤ m, (Fm+k0 (u), w) ≤
0, k ∈ I(u)}, où I(u) = {k, Fm+k (u) = 0}. On considère ainsi
m
X
w(δ, xj ) = w + δw0 + xj Fj0 (u).
j=1

On résout tout d’abord

φj (t, δ, x) = t−1 Fj (u + tw(δ, xj )) = 0, 1 ≤ j ≤ m.

C’est un système de m équations à m inconnues et deux paramètres. Quand


nous calculons le jacobien de ce système, il est non nul en (t, δ) = (0, 0) car les
contraintes égalité sont régulières en u. En effet, si on note φj (t, δ, x) la fonction
ci-dessus,
∂φj 0 0
∂xk (t, δ, x) = (Fj (u + tw(δ, x)), Fk (u))

et φj (0, δ, x) = (Fj0 (u), w + δw0 + xk Fk0 (u)) = 0 0


P P
k xk (Fj (u), Fk (u)). Ainsi
on vérifie que le point (t, δ) = (0, 0), x = 0 est une solution du système et le
jacobien en ce point est inversible. On en conclut qu’il existe m fonctions Xj
telles que
∀j, 1 ≤ j ≤ m, Fj (u + tw(δ, Xj (t, δ))) = 0.
Considérons maintenant les contraintes actives. On calcule ainsi le développement
limité
0 (u), w + δw0 + Xj (t, δ)Fj0 (u)) + o(t)
P
Fm+k (u + tw(δ, Xj (t, δ))) = t(Fm+k
0 0 (u), Fj0 (u)) + o(1)].
P
= t[δ(Fm+k (u), w0 ) + Xj (t, δ)(Fm+k

Dans le crochet, le premier terme est strictement négatif et le deuxième tend vers
0 si (t, δ) tend vers 0. Il s’agit de montrer précisément ce résultat. Il s’appuie sur
∂φ
φj (0, δ, 0) = 0 ainsi que sur ∂δj (t, δ, x) = (Fj0 (u + tw + t xk Fj0 (u) + tδw0 ), w0 ).
P
∂φj
On en déduit que ∂δ (0, δ, 0) = 0. Donc, considérant l’identité

φj (t, δ, X(t, δ)) = 0

et la dérivant par rapport à δ, il vient donc


∂φj
X ∂φ ∂X(t,δ)
j
∂δ (t, δ, X(t, δ)) + ∂xk (t, δ, X(t, δ)) ∂δ = 0.
k
38 CHAPTER 2. EULER-LEGENDRE

Appliquant en t = 0 pour lequel X(0, δ) = 0 et utilisant l’inversibilité de la


matrice (Fj0 (u), Fk0 (u)) on trouve que ∂X∂δ (0, δ) = 0.
Enfin, on regarde pour p indice actif
0
P
Fm+p (u + t(w + δw0 + P k Xk (t, δ)Fk (u)))
= t[(Fm+p (u), w + δw0 + k Xk (t, δ)Fk0 (u)) + ot (1)]
0
0 0 (u), k (Xk (t, δ) − Xk (0, δ))Fk0 (u) + o(t)
P
= t[(Fm+p (u), w) + (Fm+p
0 (u), w0 ) + k Xk (0,δ) 0 (u), Fk0 (u))]]
P
+δ[(Fm+p δ (Fm+p
On peut alors choisir δ indépendamment de t de sorte que le terme [(Fm+p 0 (u), w0 )+
P Xk (0,δ) 0
k δ (Fm+p (u), Fk0 (u))] soit strictement négatif pour δ ≤ δ0 . Alors la lim-
ite lorsque t tend vers 0 du crochet est négative ou nulle, donc pour t < ε0 on
trouve
0 0 (u), k (Xk (t, δ) − Xk (0, δ))Fk0 (u)) + o(t)
P
(Fm+p (u), w) + (Fm+p
0
< 21 |(Fm+p (u), w0 ) + k Xk (0,δ 0) 0 (u), Fk0 (u))|
P
δ0 (Fm+p
Les points u+t(w +δ0 w0 + k Xk (t, δ0 )Fk0 (u)) vérifient la contrainte Fm+p (v) ≤
P
0 pour t < ε0 . Ainsi on peut faire le même raisonnement pour toutes les con-
traintes actives, d’où le résultat attendu: construction d’une suite qui montre
que w est une direction admissible puisque ce raisonnement est valable pour
tout δ ≤ δ0 .
La deuxième méthode correspond à la résolution locale du problème. Nous al-
lons faire la résolution des contraintes égalité au voisinage d’un point régulier.
Pour cela, on fixe un point u0 qui vérifie les contraintes, autour duquel nous
allons étudier le problème. Considérons F = V ect{(F10 (u0 ), ..., Fm 0 (u )}. On
0
utilise la projection orthogonale sur F . Alors à toutP point u de V on associe m
réels sj (u) et un élément π(u) de F ⊥ tels que u = j sj (u)Fj0 (u0 ) + π(u). Le
système
Fj (u) = 0, 1 ≤ j ≤ m
se réécrit, pour r ∈ F ⊥
X
Fj ( sk (u0 )Fk0 (u0 ) + π(u0 ) + r) = 0, 1 ≤ j ≤ m.
k

Comme les contraintes sont régulières on peut donc résoudre localement le


système X
Fj ( sk (u0 )Fk0 (u0 ) + r + π(u0 )) = 0, 1 ≤ j ≤ m.
k
On trouve alors sk (r), pour tout r ∈ F ⊥ , tel que u = sk (r)Fk0 (u) + r + π(u0 )
P
vérifie les m contraintes égalité, sachant que sk (0) = Sk (u0 ) pour tout k. On
se ramène donc au problème de minimisation sous contraintes de
X
˜ = J(
J(r) sk (r)Fk0 (u) + r + π(u0 ))

sous les contraintes inégalité Gp (r) = Fm+p ( m 0


P
k=1 sk (r)Fk (u) + r + π(u0 )) dans
l’espace F ⊥ .
Comme sk (r + εw) = sk (r) + ε(s0k (r), w) + o(ε), il est alors clair que
X X
(G0p (r), w) = (Fm+p
0
( sk (r)Fk0 (u) + r), w + (s0k (r), w)Fk0 (u))).
k k
2.4. MULTIPLICATEURS DE LAGRANGE 39

En excluant de notre propos les contraintes affines, nous supposons donc que
les contraintes Fm+p sont qualifiées, la direction de qualification étant w0 dans
F ⊥ . Nous allons trouver une direction w dans F ⊥ pour laquelle Gp forment des
contraintes qualifiées. On sait d’autre part que les identités, pour 1 ≤ j ≤ m,

Fj (u(r)) = 0
0
P
où u(r) = π(u0 ) + r + k sk (r)Fk (u) impliquent les relations
X
∀w ∈ F ⊥ , ∀j, 1 ≤ j ≤ m, (Fj0 (u(r)), Fk0 (u))(s0k (r), w) + (Fj0 (u(r)), w) = 0.
k

Pour r = 0, on vérifie que (Fj0 (u(r)), w) = (Fj0 (u), w) = 0, donc nous avons
l’égalité
X
∀w ∈ F ⊥ , ∀j, 1 ≤ j ≤ m, (Fj0 (u), Fk0 (u))(s0k (0), w) = 0.
k

Comme les contraintes sont régulières, le système ci-dessus, où les inconnues
sont (s0k (0), w), est inversible, homogène, donc sa solution est la solution nulle.
On trouve donc

∀w ∈ F ⊥ , ∀k, 1 ≤ k ≤ m, (s0k (0), w) = 0.

Nous cherchons à montrer que l’on peut écrire un critère de qualification en u.


Le point u0 correspond à r = 0 et à sk (0) = Sk (u0 ) comme nous l’avons vu plus
haut. On voit ainsi que, pour tout w ∈ F ⊥

(G0p (0), w) = (Fm+p


0
(u0 ), w)

car (s0k (0), w) = 0. Ainsi, on trouve que (G0p (0), w0 ) < 0. Les contraintes Gp
sont alors qualifiables en 0.
On peut alors appliquer le théorème des multiplicateurs de Lagrange: il existe
(λ1 , ..., λq ) positifs ou nuls tels que
X
J˜0 (0) + λp G0p (0) = 0. (2.4.6)
p

On contrôle alors que


s (r+εw)F 0 (u ))−J(u )
P
J(π(u )+r+εw+
(J˜0 (0), w) = limε→0 0 k k
ε
k 0 0

= (J (u0 ), w) + k (J (u0 ), Fk (u0 ))(sk (0), w) = (J 0 (u0 ), w).


0 0 0 0
P

On contrôle aussi que si on note F̃j (r) = Fj (u(r)), comme cette fonction est
identiquement nulle, la dérivée est nulle donc elle n’intervient pas dans l’écriture
de la relation des multiplicateurs de Lagrange. En revanche, si on veut revenir
aux fonctions Fj et Fm+p et exprimer le résultat (2.4.6) avec ces fonctions
ainsi qu’avec J, il est nécessaire d’introduire des multiplicateurs de Lagrange
supplémentaires comme nous allons le voir dans l’exemple qui suit.
Le problème correspondant en dimension finie fait aussi l’objet de la section
40 CHAPTER 2. EULER-LEGENDRE

6.4.5 dans la partie sur les algorithmes. Nous allons réécrire le problème dans
le cas où l’espace de base est IR3 , la condition de type égalité conduit à z =
φ(x, y), ou encore, notant F la constante, F (x, y, φ(x, y)) = 0. La fonctionnelle
à minimiser est J(x, y, z), la contrainte inégalité est h(x, y, z) ≤ 0. On réécrit
donc le problème sous la forme

infh(x,y,φ(x,y))≤0 J(x, y, φ(x, y)).

On suppose que la contrainte est active. On écrit le théorème des multiplicateurs


de Lagrange: ∃λ ≥ 0,
∂ J˜ ∂ h̃
∂x + λ ∂x = 0
∂ J˜ ∂ h̃
∂y + λ ∂y = 0
∂ J˜ ∂ h̃
Comme ∂x = ∂x J + ∂z J∂x φ, ∂x = ∂x h + ∂z h∂x φ, on trouve

∂x J + λ∂x h + (∂z J + λ∂z h)∂x φ = 0. (2.4.7)

On introduit alors µ tel que

∂z J + λ∂z h + µ∂z F = 0

On remarque que ∂x F + ∂z F ∂x φ = 0, donc

(∂z J + λ∂z h)∂x φ + µ∂x φ∂z F = 0

ou encore
(∂z J + λ∂z h)∂x φ = µ∂x F
On remplace cette identité dans l’égalité (2.4.7) pour obtenir

∂x J + λ∂x h + µ∂x F = 0.

On a de même
∂y J + λ∂y h + µ∂y F = 0
d’où l’égalité des multiplicateurs de Lagrange pour un problème mixte.

2.4.5 Le problème des entrepôts


On résout ici le problème de deux entrepôts et de deux lieux de livraison décrit
dans l’introduction. Les contraintes s’écrivent (on met à côté le multiplicateur
de Lagrange)
−vij ≤ 0 µij ≥ 0
v11 + v21 = r1 λ1
v12 + v22 = r2 λ2
s1 − v11 − v12 ≤ 0 µ1 ≥ 0
s2 − v21 − v22 ≤ 0 µ2 ≥ 0
On vérifie d’abord que, comme r1 r2 > 0, v11 et v21 ne sont pas nuls en même
temps, pareil pour v12 et pour v22 . De même avec s1 s2 > 0, on ne peut pas
avoir v11 et v12 nuls en même temps et v21 et v22 nuls en même temps (afin de
déterminer quelles sont les contraintes actives). On étudie les cas suivants
2.4. MULTIPLICATEURS DE LAGRANGE 41

1. aucun des vij n’est nul

2. v11 = v22 = 0 (auquel cas on connait v21 = r1 , v12 = r2 )

3. v12 = v21 = 0 (auquel cas on connait v11 = r1 , v22 = r2 )

4. v11 = 0 (d’où v21 = r1 )

5. v21 = 0 (d’où v11 = r1 )

6. v12 = 0 (d’où v22 = r2 )

7. v22 = 0 (d’où v12 = r2 )

Dans le premier cas, tous les µij sont nuls. Le système des multiplicateurs de
Lagrange (en supposant µ1 et µ2 non nuls, soit les égalités v11 + v12 = s1 ainsi
que v21 + v22 = s2 , ce qui donne s1 + s2 = r1 + r2 ) est


 c11 + λ1 − µ1 =0
c12 + λ2 − µ1 =0

c + λ1 − µ2 =0
 21


c22 + λ2 − µ2 =0

Ce système implique alors la condition c11 + c22 = c12 + c21 . Si cette condition
n’est pas vérifiée, on sait que l’hypothèse du premier cas est impossible.
Si cette condition est vérifiée, on écrit c12 − c22 = c11 − c21 , et on regarde la
fonction coût

φ = c11 v11 + c12 v12 + c21 v21 + c22 v22 = c21 r1 + c22 r2 + (c11 − c21 )v11 + (c12 − c22 )v12
= c21 r1 + c22 r2 + (c11 − c21 )(v11 + v12 ) = c11 r1 + c12 r2 + (c22 − c12 )(v21 + v22 )

Dans le cas où les deux conditions sont réalisées il vient que la fonction coût est
constante et vaut c11 r1 + c12 r2 + (c22 − c12 )s2 . Si on a l’égalité v11 + v12 = s1
et v21 + v22 > s2 . Alors µ2 = 0 et on a le système


 c11 + λ1 − µ1 = 0
c12 + λ2 − µ1 = 0

c + λ1 = 0
 21


c22 + λ2 = 0

On en tire µ1 = c11 − c21 = c12 − c22 (soit la même condition) et la fonction


coût est constante aussi. Sa valeur est alors c12 s1 + c21 r1 + c22 (r2 − s1 ).
Dans les cas 2 et 3, on connait toutes les inconnues, donc on calcule la valeur
de la fonction coût. Dans les cas suivants, on se ramène à une seule inconnue
(dans le cas 4 et 5 on prend v12 et dans les cas 6 et 7 on prend v11 ). La fonction
coût s’écrit alors a + bx, où x est l’inconnue et b est le coefficient dépendant des
cij . On n’a pas besoin du système des multiplicateurs de Lagrange dans ce cas
et il faut déterminer l’intervalle de variation de x. Le problème se ramène
donc à la comparaison de la valeur de la fonction coût sur le bord du
domaine (méthode du simplexe).
42 CHAPTER 2. EULER-LEGENDRE

2.4.6 Démonstration du lemme de Kantorovich


Le lemme de Kantorovich, qui sera utilisé dans l’étude de l’algorithme de
gradient à pas optimal (chapitre 6.4.2) consiste en l’étude du maximum de
(y,y)2
1 − (Ay,y)(A −1 y,y) afin de trouver le moins bon des taux de convergence possi-

bles pour cet algorithme. On étudie alors le problème de maximisation sans


contrainte de
(A−1 y, y)(Ay, y)
.
(y, y)2
Il est équivalent au problème de maximisation avec contrainte sur la fonction-
nelle (A−1 y, y)(Ay, y) sur |y| de norme 1, puisque la fonctionnelle du lemme de
Kantorovich est homogène d’ordre 0.
On doit donc calculer sur les vecteurs de norme 1
X X
sup( λp yp2 )( λ−1 2
p yp ).

On suppose pour simplifier que toutes les valeurs propres sont distinctes,
λ1 < λ2 < ... < λm .
On voit que l’égalité du multiplicateur de Lagrange s’écrit
X X
yj [λ−1
j ( λ p yp
2
) + λj ( λ−1 2
p yp ) + µ] = 0∀j.

On remarque d’abord que l’égalité x−1 a + xb = −µ a au plus deux solutions


x quand a et b sont non nuls. DoncPil existe au plus P deux valeurs distinctes de
j telles que yj 6= 0 (en notant a = 2
λp yp et b = −1 2
λp yp ).
Dans le cas où y = (δii0 ), on voit que la fonctionnelle vaut 1. On comparera
cette valeur à celle obtenue dans le cas où il y a deux valeurs possibles pour i,
pour lequel on a à étudier

λq λp
(λp yp2 + λq yq2 )(λ−1 2 −1 2 4 4
p yp + λq yq ) = yp + yq + ( + )yp2 yq2 .
λp λq

C’est une fonctionnelle concave, donc en prenant x = yp2 , on se ramène à f (x) =


λ λ
x2 + (1 − x)2 + ( λpq + λpq )x(1 − x), concave, qui est maximum pour x = 0.5. La
λ λ
valeur du maximum est alors 12 + 14 ( λpq + λpq ) et comme la fonction 21 + 14 (t + 1t )
est strictement croissante pour t ≥ 1, sa plus grande valeur est obtenue, dans
λ
l’hypothèse λp > λq , pour t = max λqp = λλmax
min
.
On remarque alors que cette valeur est plus grande que la valeur en t = 1,
qui est exactement 1, lorsque γ 6= 0.
Les deux seuls cas possibles sont alors
• un seul des yi est non nul, auquel cas on trouve 1 pour la valeur de la
fonctionnelle
• deux valeurs de yi sont non nulles, et on trouve le résultat précédent.
On remarque alors que la valeur obtenue dans le paragraphe précédent est
maximum si p = 1 et q = n, soit yj = 0 pour j 6= 0 et j 6= n, et y1 = ± √12 ,
yn = ± √12 .
On vérifie que la valeur de la dérivée seconde de f (x) est
2.4. MULTIPLICATEURS DE LAGRANGE 43

λq λp λq λp
f ”(x) = 2(2 − + ) = 2( − 1)( − 1)
λp λq λp λq
et comme si λp /λq est plus grand que 1, λq /λp est plus petit que 1 donc le
produit est négatif.
Ce calcul est aussi celui qui prouve que la valeur 1 est plus petite que
1 1 λq λp
2 + 4 ( λp + λq ).

2.4.7 Calcul de la constante optimale de Poincaré


On sait (voir chapitre sur les formulations variationnelles ??) que si u ∈ H01 (Ω)
et si Ω est un ouvert borné, alors il existe une constante Cp , appelée constante
de Poincaré, telle que
Z Z
2
|∇u| dx ≥ Cp |u|2 dx.
Ω Ω

Pour se souvenir de l’ordre, il est conseillé de se souvenir de l’égalité


Z x
u(x) = u0 (t)dt, u(0) = 0
0

et d’appliquer l’inégalité de Cauchy-Schwartz, qui donne (u(x))2 ≤ x||u0 ||2L2 ([0,1] ,


R1
d’où 0 (u(x))2 dx ≤ 21 ||u0 ||2L2 ([0,1] .
Trouver la meilleure constante Cp , c’est trouver la plus grande constante Cp .
Proposition 2.2 La meilleure constante de Poincaré est la plus petite valeur
propre de l’opérateur −∆ avec condition de Dirichlet nulle au bord.
Démonstration:
Contrôlons que
|∇u(x)|2 dx
R
J(u) = RΩ
2
Ω |u(x)| dx

est plus grande que Cp , donc nous cherchons le minimum de J. Trouver le


minimum de J est alors équivalent à trouver la solution de

infR |∇u|2 dx

2 dx
= 1 et u dans H01 (Ω). En effet, si on considère
R
sous la contrainte Ω |u|
1
la fonction v = uk , avec k = ( Ω |u|2 dx) 2 , elle Rvérifie Ω v 2 dx = 1. On
R R

considèreR donc la nouvelle fonctionnelle J∗ (u) = R Ω (∇u)2 dx et la contrainte


FR(u) = Ω u2 dx. On remarque que (J∗0 (u), w) = 2 ω ∇u∇wdx et (F 0 (u), w) =
2 Ω uwdx. Si u∗ est une solution du problème de minimisation de J∗ sous
contrainte F − 1 = 0, il existe λ réel tel que

∀w ∈ H01 (Ω), (J∗0 (u), w) + λ(F 0 (u), w) = 0.

Cette égalité se traduit


Z
∀w ∈ Ω (∇u∇w + λuw)dx = 0

44 CHAPTER 2. EULER-LEGENDRE

donc −∆u + λu = 0 dans D0 (Ω), donc λ est une valeur propre du Laplacien
avec condition de Dirichlet sur Ω. On a alors, pour ce u,
Z Z Z
J∗ (u) = (∇u) dx = − ∆uudx = −λ u2 dx = −λ.
2
Ω Ω

La proposition est démontrée.


Dans le cas particulier de l’intervalle √
[0, L], on voit √ que u00 = λu, donc si λ > 0 la
solution est une combinaison A cosh λx + B sinh λx, donc A = 0 puis B = 0.
Nécessairement, λ < 0, on note λ = −ω 2 , donc u(x) = A cos ωx + B sin ωx.
Comme u(0) = 0, A = 0, et comme u(L) = 0, B sin ωL = 0, donc ωL = nπ,
2 2 2
donc λ = − nLπ2 . La plus petite est alors Lπ 2 , qui est la constante de Poincaré
pour un segment.
Rappelons cependant que, si on ne souhaite pas R x obtenir la valeur optimale mais
0
une valeur, il suffit d’écrire u(x) = u(0) + 0 u (t)dt, utilisant u(0) = 0 on
trouve, après application de l’inégalité de Cauchy-Schwartz:
Z x
(u(x))2 ≤ x (u0 (t))2 dt.
0
RL 2
On a donc 0 (u(x))2 dx ≤ L2 ||u(||2L2 , inégalité améliorée si u(0) = u(L) = 0 en
divisant l’intervalle en [0, L2 ] et [ L2 , L] en ||u0 ||2L2 ≥ L82 ||u||2L2 .
Chapter 3

Calcul des variations,


lagrangien, hamiltonien.

3.1 Introduction et un peu d’histoire


Dans cette section, qui est à l’origine des théories des extrema et de calcul
des variations, on considère des fonctions d’un intervalle de IR dans un espace
de Hilbert H. Comme dans l’exemple 8 de l’introduction, il peut s’agir de la
trajectoire d’une particule, le paramètre important variant dans un intervalle
de IR étant le temps. Il peut aussi s’agir de l’équation d’une courbe dans le
plan Oxy, sous la forme y = y(x). Les notations employées sont extrêmement
variées, et nous les mettrons en relation. Alors on minimise un critère J, qui
s’appelle une intégrale d’action, sous une contrainte, qui peut être les points
origine et destination de la courbe, ou une contrainte de type commande sous
la forme inf J(x, u) où x est solution de ẋ = f (x, u, t). Il peut s’agir aussi
d’une contrainte R x2intégrale, comme une contrainte sur la longueur de la courbe
1
0 2
y = y(x): l = x1 (1 + (y ) ) 2 dx. Les résultats de ce chapitre sont très anciens;
ils forment la base du calcul classique des variations. Les méthodes que nous
verrons montrent en quel sens le mot “variations” doit être entendu.
En 1696, Leibniz a résolu le problème de la brachistochrone. Il faut
trouver la courbe qui réalise le minimum du temps de parcours entre deux points
(x1 , y1 ) et (x2 , y2 ) dans un même plan vertical lorsque le point matériel glissant
est soumis à la force de pesanteur. Ce problème avait été posé par J. Bernoulli1 .
Ce problème peut être facilement résolu car les contraintes peuvent être incluses
à une intégrale première. Cependant, après sa publication, des problèmes plus
géneraux ont été énoncés sous le nom général de problèmes isopérimétriques,
et on peut les résumer en “quelles sont les courbes de longueur donnée qui
entourent la plus grande surface?”. Le premier de ces problèmes est légendaire,
comme nous l’avons rappelé dans l’exemple 11 (Problème de Didon). En effet,
Didon, descendante des Troyens et fuyant sa cité après la chute de Troie, a
demandé à Jarbas, roi des terres africaines, la terre que pouvait recouvrir une
peau d’un bœuf. Ce roi, ne pensant pas à une quelconque astuce, accepta et
Didon découpa la peau d’un bœuf en de fines lanières, qu’elle attacha entre elles
1
Problema novum, ad cujus solitionem mathematici invitantur

45
46 CHAPTER 3. CALCUL DES VARIATIONS

(et si on suppose que la largeur de la lanière était d’un millimètre, la longueur


obtenue était donc de 1000S). Elle forma la plus grande surface enclose par
cette lanière s’appuyant sur la côte méditerranéenne, et fonda Carthage, la
grande rivale de Rome2 .
J. Bernoulli demanda à un de ses élèves, le mathématicien L. Euler, de
résoudre ce problème, ce qu’il fit en 17443 , par une méthode de série, suivi en
1755 par Lagrange, qui inventa la méthode classique de calcul des variations.
Continuant ses travaux, Lagrange introduisit ses multiplicateurs en 1797.

3.2 Problèmes isopérimétriques


3.2.1 Egalité d’Euler-Lagrange
On considère ici y(x) ∈ C 1 ([x1 , x2 ]), y(x1 ) = y1 , y(x2 ) = y2 et on cherche à
minimiser:
Z x2
I(y) = f (x, y, y 0 )dx
x1

où f est une fonction de classe C 2 (IR × H × H).


On suppose connue une famille de fonctions y(x, ε) telle que y(x1 , ε) =
y1 , y(x2 , ε) = y2 et y(x, 0) = y0 (x), solution à trouver du problème de min-
imisation. On suppose y ∈ C 2 ([x1 , x2 ] × [0, ε0 ]). On introduit la première
variation de y:

∂y
η(x, ε) = (x, ε)
∂ε
(ce qui explique le nom de calcul des variations). On se ramène donc à une
fonction de ε:

J(ε) = I(y(., ε)).

Une condition nécessaire pour que y0 soit une solution du problème de min-
imisation est la suivante:

J 0 (0) = 0.

Par application du théorème de dérivation sous le signe intégral, et en remar-


∂ ∂y

quant que comme y est de classe C 2 , alors ∂ε (y 0 (x, ε)) = ∂x ( ∂ε (x, ε)) = η 0 (x, ε),
on obtient

Z x2
(∂y f (x, y0 (x), y00 (x)).η(x, 0) + ∂y0 f (x, y0 (x), y00 (x)).η 0 (x, 0))dx = 0. (3.2.1)
x1

2
Delenda Cartago est! (Caton)
3
Methodus inveniendi lineas curvas maximi minimive proprietate gaudentes, sive solutio
problematis isoperimetrici latissimo sensu accepti
3.2. PROBLÈMES ISOPÉRIMÉTRIQUES 47

Notons dans cette égalité comme dans l’écriture de f que l’on a considéré le
terme y 0 comme une variable indépendante de y et non comme la dérivée de y
par rapport à x.
On utilise alors la relation y(x1 , ε) = y1 , de sorte que, en dérivant par
rapport à ε, η(x1 , ε) = 0. De même, η(x2 , ε) = 0. On peut alors utiliser ces
conditions de bord pour effectuer une intégration par parties:

Z x2 Z x2
d
∂y0 f (x, y0 (x), y00 (x)).η 0 (x, 0)dx =− (∂y0 f (x, y0 (x), y00 (x))).η(x, 0)dx.
x1 x1 dx

En écrivant l’égalité (3.2.1) et en vérifiant qu’elle est vraie quelle que soit
la fonction η(x, 0) nulle en x1 et en x2 (pour s’en convaincre, il suffit d’écrire
y(x, ε) = y0 (x) + εg(x), où g est nulle aux deux bouts), on trouve l’équation
d’Euler-Lagrange:

d ∂f ∂f
( 0 (x, y0 (x), y00 (x))) = (x, y0 (x), y00 (x)). (3.2.2)
dx ∂y ∂y
Bien sûr, cette équation s’obtient facilement en utilisant le théorème 2.4
démontré dans le chapitre 2. Nous allons l’établir de deux façons distinctes.
Avant cela, cependant, donnons un résultat important lorsque f ne dépend que
des variables de position y et y 0 :

Lemme 3.1 Lorsque f ne dépend pas de x, une solution des équations d’Euler
vérifie l’égalité suivante:

d
y00 ∂y0 f (y0 , y00 ) − f (y0 , y00 )) = 0.

dx
Cette égalité donne une intégrale première.

La démonstration intuitive la plus facile est de voir comment varie l’action


lorsque l’intégrale d’action est minimale, soit
d 0 = ∂y f (y0 , y00 )y00 + ∂y0 f (y0 , y00 )y000
dx (f (y0 , y0 ))
d
= dx (∂y0 f (y0 , y00 ))y00 + ∂y0 f (y0 , y00 )y000
= dx (y00 ∂y0 f (y0 , y00 )).
d

3.2.2 Dérivée de Fréchet et de Gâteaux, inégalité d’Euler-Lagrange


Dans un premier temps, en vue d’appliquer le théorème 2.4 , nous allons calculer
la dérivée de Fréchet (qui existe puisque f est de classe C 2 ) de J. En fait, nous
allons calculer deux objets:
• le produit scalaire (J 0 (y0 ), w) pour w ∈ K(y0 ),
• la distribution J 0 (y0 ).
Le cône des directions admissibles K(y0 ) ⊂ H 1 (]x1 , x2 [) est l’ensemble des
w tels qu’il existe wn et en > 0 tels que en → 0 et wn → w et (y0 + en wn )
est dans l’espace des contraintes, soit y0 (x1 ) + en wn (x1 ) = y1 = y0 (x1 ) et
y0 (x2 ) + en wn (x2 ) = y2 = y0 (x2 ). Comme en > 0, on trouve que wn (x1 ) =
wn (x2 ) = 0. Comme les fonctions H 1 (]x1 , x2 [) sont continues aux bords x1 et
48 CHAPTER 3. CALCUL DES VARIATIONS

x2 , et que l’application trace est continue, on en déduit que w(x1 ) = w(x2 ) = 0.


Réciproquement, si w(x1 ) = w(x2 ) = 0, on construit y0 + n1 w qui vérifie bien
les contraintes.

K(y0 ) = H01 ([x1 , x2 ]).


Alors le calcul de (J 0 (y0 ), w), qui est le calcul de la limite

J(y0 + εw) − J(y0 )


lim
ε→0 ε
conduit exactement à

Z x2
∂f d ∂f
1
∀w ∈ H ([x0 , x1 ]), ( (x, y0 , y00 ) − ( (x, y0 (x), y00 (x))))w(x)dx ≥ 0
x1 ∂y dx ∂y 0

Le cône des directions admissibles est un espace vectoriel, donc cette inégalité
devient une égalité, et cette égalité entraine l’équation d’Euler-Lagrange.
D’autre part, pour w ∈ H 1 ([x1 , x2 ]), une intégration par parties conduit à

Rx
(J 0 (y0 ), w) = x12 ( ∂f 0 d ∂f 0
∂y (x, y0 , y0 ) − dx ( ∂y 0 (x, y0 (x), y0 (x))))w(x)dx
∂f 0 ∂f 0
+ ∂y 0 (x2 , y0 (x2 ), y0 (x2 ))w(x2 ) − ∂y 0 (x1 , y0 (x1 ), y0 (x1 ))w(x1 ).

En utilisant la distribution de Dirac (δx1 , w) = w(x1 ), on trouve

J 0 (y0 ) = ∂f 0 d ∂f 0
∂y (x, y0 , y0 ) − dx [ ∂y 0 (x, y0 (x), y0 (x))]
∂f 0 ∂f 0
+ ∂y 0 (x2 , y0 (x2 ), y0 (x2 ))δx2 − ∂y 0 (x1 , y0 (x1 ), y0 (x1 ))δx1 .

L’emploi des multiplicateurs de Lagrange pour des contraintes égalités, qui


sont respectivement F1 (y) = y(x1 ) − y1 et F2 (y) = y(x2 ) − y2 , ce qui donne
F10 (y0 ) = δx1 et F20 (y0 ) = δx2 , conduit à

J 0 (y0 ) + λ1 F10 (y0 ) + λ2 F20 (y0 ) = 0


(notons ici le rétablissement des signes permettant d’avoir la même formulation
pour les contraintes égalité et inégalité). On trouve alors l’équation d’Euler-
Lagrange et les égalités, qui donnent les multiplicateurs de Lagrange:

∂f ∂f
λ1 = (x1 , y0 (x1 ), y00 (x1 )), λ2 = − 0 (x2 , y0 (x2 ), y00 (x2 )). (3.2.3)
∂y 0 ∂y
Cette égalité aura une très jolie interprétation ci-dessous.

3.2.3 Egalité d’Euler-Lagrange pour une contrainte intégrale


Dans cette section, nous cherchons la solution de
Z x2
inf f (x, y, y 0 )dx
x1
3.2. PROBLÈMES ISOPÉRIMÉTRIQUES 49

R x2
sous les contraintes x1 g(x, y, y 0 )dx = C, y(x1 ) = y1 , y(x2 ) = y2 . Le cas modèle
1
est le problème de Didon: f (x, y, y 0 ) = y et g(x, y, y 0 ) = (1 + (y 0 )2 ) 2 .
Une méthode usuelle classique consiste Rà employer une double variation,
x
c’est-à-dire à tenir compte de la contrainte x12 g(x, y, y 0 )dx = C en ajoutant à
une première variation y0 + εη1 une deuxième variation faite pour la contrebal-
ancer:

y0 + ε1 η1 + ε2 η2 .
On introduit dans η1 et η2 les contraintes
R x2 d’extrémité sous laRforme ηi (xj ) =
x
0, i, j = 1, 2.On écrit alors que I = x1 f (x, y, y 0 )dx et C = x12 g(x, y, y 0 )dx
sont deux fonctions de ε1 et de ε2 , et on forme
!
∂I ∂I
∆(ε1 , ε2 ) = ∂ε1 ∂ε2 .
∂C ∂C
∂ε1 ∂ε2

Ce déterminant doit être nul pour y0 , solution, en ε1 , ε2 . En effet, si ∆ 6= 0,


il est clair que le couple (I, C) ne stationne pas, alors que par hypotèse C est
constant donc stationne et I stationne (noter l’emploi du mot “stationne”). Par
intégration par parties, on trouve

R x2 R x2 !
d d
(∂ f − dx (∂y f ))η1 dx
0 (∂ f − dx (∂y f ))η2 dx
0
∆(ε1 , ε2 ) = Rxx12 y d
Rxx12 y d .
x1 (∂y g − dx (∂y g))η1 dx x1 (∂y g − dx (∂y g))η2 dx
0 0

Rx d
Rx
On note les deux réels λ1 = x12 (∂y f − dx (∂y0 f ))η2 dx et λ2 = x12 (∂y g −
d
dx (∂y g))η2 dx. Si les deux réels sont nuls pour tous les choix de η2 , cela veut
0

dire que f et g vérifient tous deux l’équation d’Euler. Nous verrons ce cas plus
tard. Sinon, on note, pour un η2 donné non nul, que, pour tout η1 :
Z x2
d d
[λ2 (∂y f − (∂y0 f )) − λ1 (∂y g − (∂y0 g))]η1 dx = 0
x1 dx dx
ce qui donne l’existence d’un h = f + λg tel que h vérifie l’équation d’Euler.
Lorsque f et g vérifient toutes deux l’équation d’Euler, alors cette équation est
vérifiée quel que soit λ.
A l’évidence, cette méthode est celle que l’on emploie pour les multiplica-
teurs de Lagrange. On écrit ainsi l’existence de λ, λ1 , λ2 tels que

J 0 (y0 ) + λC 0 (y0 ) + λ1 F10 (y0 ) + λ2 F20 (y0 ) = 0


(par application du théorème 2.5). Ainsi on trouve immédiatement, sans avoir
besoin de considérer des variations qui se compensent:
d d
∂y f − dx (∂y0 f ) + λ(∂y g − dx (∂y0 g))
+(λ1 − ∂y f (x1 , y1 , y0 (x1 )) − λ∂y g(x1 , y1 , y00 (x1 )))δx1
0

+(λ2 + ∂y f (x2 , y2 , y00 (x2 )) + λ∂y g(x2 , y2 , y00 (x2 )))δx2 = 0.


1
L’écriture de l’équation d’Euler pour −y + λ(1 + (y 0 )2 ) 2 donne
50 CHAPTER 3. CALCUL DES VARIATIONS

d y0
1= (λ )
dx (1 + (y 0 )2 ) 21
soit encore

y0 x
1 = .
(1 + (y 0 )2 ) 2 λ

On obtient y 0 = ± x
1 , dont la solution s’écrit
(λ2 −x2 ) 2
1
y(x) = y(x1 ) ± (λ2 − x2 ) 2 .
1 1
On suppose y1 < y2 , donc y(x) = y1 +(λ2 −x21 ) 2 −(λ2 −x2 ) 2 car y(x1 ) = y1 .
1 1
On identifie λ en écrivant y(x2 ) = y2 , soit (λ − x22 ) 2 − (λ − x21 ) 2 = y1 − y2 , ce qui
1 1
permet de trouver les valeurs de (λ2 −x22 ) 2 et (λ2 −x21 ) 2 . Lorsque y1 = y2 = 0, on
trouve un demi-cercle de rayon R et l’aire est πR2 , correspondant à R = 1000S 2π .

3.2.4 Les problèmes de Bolza


On peut aussi vouloir inclure les contraintes dans la fonctionnelle à minimiser.
La classe de problèmes correspondants s’écrit
Z x2
inf[ f (x, y, y 0 )dx + l(y(x1 ), y(x2 ))].
x1

Il est clair que l’on obtient l’équation d’Euler:

d ∂f ∂f
( 0 (x, y0 , y00 )) = (x, y0 , y00 )
dx ∂y ∂y
et les équations sur les contraintes

∂u1 l(y(x1 ), y(x2 )) = ∂y0 f (x1 , y(x1 ), y 0 (x1 ))

∂u2 l(y(x1 ), y(x2 )) = −∂y0 f (x2 , y(x2 ), y 0 (x2 )).


Prenons un exemple simple pour le problème de Bolza:

1
lε (u1 , u2 ) = [(u1 − y1 )2 + (u2 − y2 )2 ].
ε
Rx
Soit y0 la solution du problème de minimisation de J(y) = x12 f (x, y, y 0 )dx
avec les contraintes y(x1 ) = y1 , y(x2 ) = y2 . Si K = {y, y(x1 ) = y1 , y(x2 ) = y2 },
alors, pour tout y ∈ K, J(y) + lε (y(x1 ) − y1 , y(x2 ) − y2 ) = J(y). On utilise alors

inf J(y) + lε (y(x1 ) − y1 , y(x2 ) − y2 ) ≤ inf J(y) = J(y0 ).


y∈H 1 y∈K

On note la solution du problème de Bolza yε . Ainsi

J(yε ) + lε (yε (x1 ) − y1 , yε (x2 ) − y2 ) ≤ J(y0 )


3.3. LES ÉQUATIONS D’EULER POUR LES PROBLÈMES DE LA MÉCANIQUE51

Ainsi J(yε ) est majoré. De plus, si on suppose f positive, lε (yε (x1 )−y1 , yε (x2 )−
y2 ) est majorée par J(y0 ). On en déduit que la suite (yε (xj )) converge vers
yj , j = 1..2. En revanche, on ne sait rien sur la convergence de la suite yε
dans ce cadre là. Il faut se reporter au chapitre concernant le programme
convexe pour comprendre et obtenir des résultats convaincants; cela s’appellera
la pénalisation des contraintes.

3.3 Les équations d’Euler pour les problèmes de la


mécanique
On considère un problème de la mécanique du point, ainsi on introduit les
coordonnées (x, y, z) et on veut retrouver mẌ = f~ lorsque m est la masse
de la particule, X = (x, y, z) et f~ = −∇U est la force dérivant d’un potentiel.
Analysons d’abord le phénomène. Il est classique de reconnaitre, en multipliant
les équations par Ẋ et en inégrant sur 0, T , que
1 1
m(Ẋ(T ))2 + U (X(T )) = m(Ẋ(0))2 + U (X(0)).
2 2
Cette égalité s’écrit comme la conservation de l’énergie. Ce n’est pas celle ci
que l’on souhaite obtenir, mais on cherche à interpréter le problème comme la
solution d’une équation d’Euler. Il faut donc que mẌ = f~ s’écrive dt d ∂L
( ∂ Ẋ ) =
∂L
∂X , où L est l’action que nous avons notée f dans le paragraphe précédent.
Pour cela, il serait simple d’avoir ∂∂LẊ
= mẊ et ∂X∂L
= −∇U . Une solution à
variables séparées est alors
1
A(X, Ẋ) = m(Ẋ)2 − U (X).
2
On vérifie que l’équation d’Euler dans ce cas est bien l’équation dite loi de
Newton.
Nous pouvons présenter autrement ce résultat. L’intégrale première du mou-
vement est à la fois Ẋ partialL
∂ Ẋ
− L et 12 m(Ẋ)2 + U (X). En égalant les deux
2
quantités et en dérivant par rapport à Ẋ, on trouve que ∂∂ẊL2 = m, donc
A = 12 m(Ẋ)2 + K(X)Ẋ + R(X). En remplaçant cette relation dans l’intégrale
première du mouvement,
Rt on vérifie que R(X) = −U (X) et que K est quel-
conque. Comme t01 K(q(t))q 0 (t)dt = 0 à cause des conditions aux limites, on
voit que ce terme n’intervient pas dans l’action. On en déduit que
La solution des équations du mouvement d’une particule dans un
champ de forces conservatif, c’est-à-dire dérivant d’un potentiel, est
la fonction qui minimise l’intégrale d’action

Z t1 Z t1 Z t1
1
A(X) = [ m(Ẋ(t))2 − U (X(t))]dt = (T − U )dt = L(q(t), q 0 (t))dt.
t0 2 t0 t0

On a noté ici l’énergie cinétique T = 21 m(Ẋ(t))2 .


Nous finissons ce paragraphe en calculant les multiplicateurs de Lagrange as-
sociés aux deux contraintes aux bouts et en donnant l’interprétation de ces
52 CHAPTER 3. CALCUL DES VARIATIONS

multiplicateurs de Lagrange.
˙ −
Si ξ est un élément de l’espace H 1 (]t0 , t1 [), le calcul de 1ε [L(q0 + εξ, q̇0 + εξ)
0 0
L(q0 , q̇0 )] conduit à l’expression ((L (q0 , q̇0 ), ξ) =< L (q0 , q̇0 ), ξ(t) >)

d
L0 (q0 , q̇0 ) = ∂q L(q0 , q̇0 ) − [∂q̇ L(q0 , q̇0 )] + ∂q̇ L(q0 , q̇0 )(t1 )δt1 − ∂q̇ L(q0 , q̇0 )(t0 )δt0 .
dt
La théorie des multiplicateurs de Lagrange avec q(t0 ) = q0 , q(t1 ) = q1 donne
alors immédiatement le système
d


 ∂q L(q0 , q̇0 ) − dt [∂q̇ L(q0 , q̇0 )] = 0 (équation d’Euler)
q0 (t0 ) = q0 , q0 (t1 ) = q1 (contraintes actives)

λ = −∂q̇ L(q0 , q̇0 )(t1 )
 1


λ0 = ∂q̇ L(q0 , q̇0 )(t0 )
L’écriture des deux premières égalités permet d’avoir les conditions d’extrémité
et l’équation de Newton. Les deux dernières donnent les multiplicateurs de
Lagrange. On obtient

λ1 = −mq̇0 (t1 ), λ0 = mq̇0 (t0 ).


On interprète alors les multiplicateurs de Lagrange comme les quantités de
mouvement aux extrémités de la courbe. On verra que la quantité de mouve-
ment (ou l’impulsion) joue un rôle particulier ci-dessous.

3.4 Formulation hamiltonienne


Le but de cette section est d’obtenir un système d’équations différentielles or-
dinaires permettant de calculer la solution de l’équation d’Euler (3.2.2). Les
résultats sont résumés dans la Proposition ??. La quantité q̇0 ∂q̇ L(q0 , q̇0 ) −
L(q0 , q̇0 ) se conserve. Généralisons en nemplaçant la quantité ∂q̇ L(q0 , q̇0 ) par
p(t). On étudie ainsi la quantité q̇(t)p(t) − L(q(t), q̇(t)). Cette quantité a pour
dérivée

q̈(p − ∂q̇ L) + q̇(ṗ − ∂q L),


expression nulle lorsque p = ∂q̇ L et ṗ = ∂q L. Ceci implique que q est solution
de l’équation d’Euler. D’autre part, la maximisation de q̃p − L(q, q̃) dans le cas
L convexe en q̃ conduit à la première égalité p = ∂q̇ L(q, q̃).
Par définition, la quantité H donnée par

H(t, q, p) = max(q̃p − L(t, q, q̃)).


s’appelle la transformée de Legendre de L.


On vérifie que si la matrice hessienne de L en q̃ au point (q, q̃) est définie positive
(au voisinage de (q0 , q̇0 )), l’équation p = ∂q̃ L(t, q, q̃) admet une solution unique
par le théorème des fonctions implicites, que l’on note Q(t, q, p). On vérifie
alors
3.4. FORMULATION HAMILTONIENNE 53

H(t, q, p) = pQ(q, p) − L(t, q, Q(q, p)).

On en déduit

∂q H(t, q, p) = (p − ∂q̃ L(t, q, Q(q, p))).∂q Q(t, q, p) − ∂q L(t, q, Q(q, p)) = −∂q L(t, q, Q(q, p))
∂p H(t, q, p) = Q(t, q, p) + (p − ∂q̃ L(t, q, Q(q, p))).∂p Q(t, q, p) = Q(t, q, p).

∂L
Par unicité de la solution de l’équation p = ∂q̃ L, que pour p(t) = ∂ q̃ (t, q0 (t), q̇0 (t)),
alors Q(t, q0 (t), p(t)) = q̇0 (t), soit

∂L
Q(t, q0 (t), (t, q0 (t), q̇0 (t))) = q̇0 (t).
∂ q̃
On en tire que, pour toute fonction q0 (t), on a l’identité

∂L
∂p H(t, q0 (t), (t, q0 (t), q̇0 (t))) = q̇0 (t).
∂ q̃
Maintenant, si q0 est solution de l’équation d’Euler, on trouve

d ∂L ∂L
( (t, q0 (t), q̇0 (t))) = (t, q0 (t), q̇0 (t)),
dt ∂ q̃ ∂q
soit

d ∂L ∂L
( (t, q0 (t), q̇0 (t))) = −∂q H(t, q0 (t), (t, q0 (t), q̇0 (t))).
dt ∂ q̃ ∂ q̃
On en déduit le système, appelé système hamiltonien:
(
dp ∂H
dt = − ∂q (t, q0 (t), p(t))
dq0 ∂H
dt = ∂p (t, q0 (t), p(t))

On a ainsi transformé l’équation d’Euler, du second ordre, en un


système d’équation du premier ordre, appelé système hamiltonien.
Lorsque, de plus, L ne dépend pas de t, alors H ne dépend pas de t et on
sait que H(q0 (t), p(t)) = H(q0 (t0 ), p(t0 )).
L’hamiltonien est une intégrale première du système hamiltonien.
Réciproquement, soit H(t, q, p) l’hamiltonien associé à L(t, q, p) lorsque ∂q̃22 L >
0. La solution du système hamiltonien (q(t), p(t)) permet de construire q̇(t) par
la première équation du système hamiltonien, qui est q̇(t) = q̃(t), où q̃(t) est
la solution de p(t) = ∂q̃ L(t, q(t), q̃(t)) et la dexième équation permet de vérifier
que

d
(∂q̃ L(t, q(t), q̇(t)) = ∂p L(t, q(t), q̇(t)).
dt
On a démontré la proposition suivante, dans le cas où L est une fonction stricte-
ment convexe dans les variables (q, q̃):
54 CHAPTER 3. CALCUL DES VARIATIONS

Proposition 3.1 labelprop:hamiltonien On introduit le hamiltonien, fonc-


tionnelle sur IR × IRd × IRd , par

H(t, q, p) = max(pq̃ − L(t, q, q̃)).


Dire que le couple de fonctions de IR dans IRd (q0 (t), p0 (t)) est solution du
système hamiltonien

∂H
 q̇0 (t) = ∂p (t, q0 (t), p0 (t))

ṗ0 (t) = − ∂H
∂q (t, q0 (t), p0 (t))

 p (0) = p , q (0) = q
0 0 0 0

équivaut à dire que


la fonction q0 (t) est solution de l’équation d’Euler

d ∂L ∂L
( (t, q0 (t), q̇0 (t))) = (t, q0 (t), q̇0 (t))
dt ∂ q̃ ∂q
avec les conditions initiales q0 (0) = q0 , q̇0 (0) = q̃0 , où q̃0 est la solution de
p0 = ∂L
∂ q̃ (t, q0 , q̃0 ).

Remarque 1 Dans le cas de la mécanique du point L(t, q, q̃) = 12 m(q̃)2 −U (q)


2
ce qui donne p = mq̃ et ainsi H(t, q, p) = 12 pm +U (q). Apparait dans cette égalité
l’énergie qui est l’hamiltonien, et la quantité de mouvement p qui est égale à
mq̃.

Remarque 2 Ce système hamiltonien est très couramment utilisé en optique,


mais il faut modifier pour cela la formulation de l’exemple 12 de l’introduction.
En effet, l’équation d’Euler devient alors

d y 0 (x) 0 2 12 ∂y c
( 1 ) = −(1 + (y (x)) ) (3.4.4)
dx c(x, y(x))(1 + (y 0 (x))2 ) 2 c2
d’où on déduit

y”(x) 1 y 0 (x)
3 + 1 ∂x c = 1 .
c(x, y(x))(1 + (y 0 (x))2 ) 2 c2 (1 + (y 0 (x))2 ) 2 c2 (1 + (y 0 (x))2 ) 2

On en déduit donc

d 1 0 2 21 ∂x c
( 1 = −(1 + (y (x)) ) . (3.4.5)
dx c(x, y(x))(1 + (y 0 (x))2 ) 2 c2
~
Les deux relations (3.4.5) et (3.4.4) expriment que ct a sa dérivée qui suit le
gradient de 1c , les rayons suivent le gradient de l’indice.
1
0 2 2
D’autre part, le hamiltonien équivalent au lagrangien (1+(y ) )
c(x,y(x)) ne peut pas
être calculé, car le lagrangien n’est pas strictement convexe.
3.4. FORMULATION HAMILTONIENNE 55

Pour se ramener à un lagrangien strictement convexe, on considère que le


1
(1+(y 0 )2 ) 2
terme c(x,y(x)) est un double produit, donc on a

1 1
(1 + (y 0 )2 ) 2 1 w (1 + (y 0 )2 ) 2 2 w2 1 + (y 0 )2
= [−( − ) + 2 + ].
c(x, y(x)) 2 c(x, y) w c w2
q̇ 2 +q̇ 2 2
Nous allons faire le raisonnement sur Lw (q1 , q2 , q̇1 , q̇2 ) = 1w2 2 + c2 (qw1 ,q2 ) . En
effet, Lw (q1 , q2 , q̇1 , q̇2 ) ≥ Lw0 (q1 , q2 , q̇1 , q̇2 ) pour w0 qui réalise le minimum en
1
w, c’est à dire w02 = c(q̇12 + q̇22 ) 2 . Dans ce cas on sait que d’une part
1
t2 t2
(q̇12 + q̇22 ) 2
Z Z
inf Lw (q1 , q2 , q̇1 , q̇2 )dt = inf dt
t1 t1 c(q1 , q2 )
et d’autre part
Z t2 Z t2
inf Lw (q1 , q2 , q̇1 , q̇2 )dt = inf Lw0 (q1 , q2 , q̇1 , q̇2 )dt
t1 t1

Ceci est une forme abstraite pour dire, dans le cas qui nous intéresse que
1
t2 t2
(q̇12 + q̇22 ) 2 q̇12 + q̇22
Z Z
1
inf dt = inf ( + 1)dt
t1 c(q1 , q2 ) 2 t1 c2 (q1 , q2 )
Pour ce nouveau lagrangien

1 ẋ2 + ẏ 2
L(x, y, ẋ, ẏ) = ( + 1)
2 c2
le hamiltonien est H(x, y, p, q) = 12 ((p2 + q 2 )c2 − 1). Ses courbes intégrales sont

dx 2
ds = pc


 dy

= qc2 ds
dp

 ds = −c∂x c(p2 + q 2 )
dq
= −c∂y c(p2 + q 2 )


ds

Il est constant sur les courbes bicaractéristiques. Si les données initiales sont
telles que le hamiltonien soit nul, on trouve que p2 + q 2 = c12 . On choisit le
changement d’abscisse curviligne donné par du = c(x(s), y(s))ds, alors
 dx p
 du = 2 2 12

 (p +q )
 dy =
 q
du 1
(p2 +q 2 ) 2
 dp
 = ∂x 1c
 du


dq 1
du = ∂y c .
Le vecteur d’onde suit les courbes intégrales du gradient d’indice. Ceci corre-
spond à une théorie d’optique géométrique, comme cela avait été vu ci-dessus
.
56 CHAPTER 3. CALCUL DES VARIATIONS
Chapter 4

Programme convexe

4.1 Fonctions convexes


Nous voyons dans ce chapitre une application très importante des calculs précédents,
dans la droite ligne des exemples 1, 2, 5, 13, 14, 15. Il s’agit du cas où J est
convexe et où les contraintes sont convexes. Cette partie de l’analyse fonction-
nelle est importante, car dans ce cas les conditions nécessaires et les conditions
suffisantes d’optimalité deviennent des caractérisations des points d’extremum.
Nous avons déjà vu dans l’exemple que l’ensemble des points de minimum
global d’une fonctionnelle convexe forment un ensemble convexe. Nous allons
préciser les choses ici, par des définitions et par un résultat

Définition 4.1 Soit K un ensemble convexe non vide (c’est-à-dire vérifiant,


pour tout u, v dans K et tout réel β de [0, 1], βu + (1 − β)v ∈ K.) On dit que
la fonction J définie sur K est une fonction convexe si et seulement si on a

∀β ∈ [0, 1], ∀(u, v) ∈ K 2 , J(βu + (1 − β)v) ≤ βJ(u) + (1 − β)J(v).

La fonctionnelle J est strictement convexe si l’inégalité précédente est stricte


pour β ∈]0, 1[ et u 6= v.
La fonctionnelle J est dite α−convexe lorsque
u+v J(u) + J(v) α
J( )≤ − ||u − v||2
2 2 8
Lemme 4.1 Si J est α−convexe et continue, elle est strictement convexe. De
plus,
αθ(1 − θ)
J(θu + (1 − θ)v) ≤ θJ(u) + (1 − θ)J(v) − ||u − v||2 .
2

Preuve On effectue d’abord un raisonnement par récurrence pour démontrer,


pour tout n ≥ 1, pour tout p ≤ 2n , l’inégalité pour θ = 2pn . Pour cela, on écrit,
pour p ≥ 2n−1
p−2n−1 2n −p
pu + (2n − p)v u 2n−1
u + 2n−1
v
= +
2n 2 2

57
58 CHAPTER 4. PROGRAMME CONVEXE

et on fait l’hypothèse de récurrence sur l’indice n − 1, pour tout p. Ainsi on a

pu + (2n − p)v 1 p − 2n−1 2n − p α p − 2n−1 2n − p


J( ) ≤ (J(u)+J( u+ v))− || u+ v−u||2 .
2n 2 2n−1 2n−1 2 2n−1 2n−1
Appliquant l’hypothèse de récurrence, il vient
n n−1 n n−1 2n −p
J( pu+(22n −p)v ) ≤ 12 (J(u) + p−2 2n−1n
−p
J(u) + 22n−1 J(v)) − 14 α p−2
2n−1 2n−1
||v − u||2
n−1 2 −p
− α8 || p−2
2n−1 u + 2 n−1 v − u||2.

n
Le premier terme est alors égal à 2pn J(u) + 2 2−p n J(v). Le second terme est
n −p
ainsi α8 22n−1 p
||u − v||2 , et est donc égal à α p 2n −p ||u − v||2 . Le cas p < 2n−1
2n−1 2 2n 2n
se traite en échangeant les rôles de u et de v. L’inégalité est démontrée pour θ
de la forme 2pn , puisque pour n − 1, on a p = 0 ou p = 1.
Pour la démontrer Pi=npour θ quelconque, on utilise le fait que, pour tout n,
αi 1
il existe θn égal à i=1 2i tel que αi (θ) ∈ {0, 1} et tel que |θ − θn | ≤ 2n
(développement binaire).
On a, pour tout n

αθn (1 − θn )
J(θn u + (1 − θn )v) ≤ θn J(u) + (1 − θn )J(v) − ||u − v||2 .
2
La limite des deux membres existe, car J est continue, ainsi on a

αθ(1 − θ)
J(θu + (1 − θ)v) ≤ θJ(u) + (1 − θ)J(v) − ||v − u||2 .
2
Le lemme est démontré, et on vérifie la stricte convexité sans souci.
La relation entre les fonctionnelles convexes et les problèmes de minimisation
est la suivante:

Proposition 4.1 Soit J une fonctionnelle convexe sur un ensemble convexe


K. Tout point de minimum local est un point de minimum global, et les points
de minimum forment un ensemble convexe. Cet ensemble convexe est réduit à
un point lorsque J est strictement convexe

Soit u un point de minimum local. Pour v ∈ K, et pour θ petit, u + θ(v − u)


est dans un voisinage de u, et donc, pour 0 < θ < θ0 , J(u+θ(v −u)) ≥ J(u). De
l’inégalité J(u + θ(v − u)) ≤ (1 − θ)J(u) + θJ(v), on déduit que J(v) − J(u) ≥ 0,
et donc u est un minimum global. On a déjà montré que si deux points étaient
minimum global, alors tout le segment l’était, grâce à J(u) ≤ J(θu+(1−θ)v) ≤
θJ(u) + (1 − θ)J(v) = J(u). Enfin, si u et v sont deux minima globaux distincts
et si J est strictement convexe,

u+v 1
J( ) < (J(u) + J(v)) = J(u)
2 2
ce qui est impossible.
On écrit ensuite des propriétés des fonctions convexes dérivables. On a la
4.1. FONCTIONS CONVEXES 59

Proposition 4.2 Soit J une application différentiable. Il est équivalent de dire


(i) la fonctionnelle J est convexe
(ii) Pour tous (u, v) dans V , J(v) ≥ J(u) + (J 0 (u), v − u)
(iii) Pour tous (u, v) (J 0 (u) − J 0 (v), u − v) ≥ 0.
De même on caractérise l’α−convexité par
α
J(v) ≥ J(u) + (J 0 (u), v − u) + ||v − u||2
2
ou par

(J 0 (u) − J 0 (v), u − v) ≥ α||u − v||2 .


(iv) Si de plus, J est deux fois différentiable, on a le résultat suivant:
(i) équivalent à

∀w ∈ H, (J 00 (u)w, w) ≥ α||w||2 .

Preuve Lorsque J est α−convexe, on a

α
J(u + θ(v − u)) ≤ J(u) + θ(J(v) − J(u)) − θ(1 − θ)||u − v||2 .
2
Ainsi

J(u + θh) − J(u) α


≤ J(u + h) − J(u) − (1 − θ)||h||2 .
θ 2
Passant à la limite en θ → 0, on trouve la première inégalité.
Ensuite, lorsque la première inégalité est vérifiée, on l’écrit pour u et pour
v:
α
J(v) ≥ J(u) + (J 0 (u), v − u) + ||v − u||2
2
α
J(u) ≥ J(v) + (J 0 (v), u − v) + ||v − u||2
2
et on les additionne pour trouver la deuxième inégalité.
Enfin, considèrant u vérifiant la deuxième inégalité, on veut étudier φ(t) =
J(tu + (1 − t)v).
On voit que φ0 (t) = J 0 (tu + (1 − t)v), u − v). On en déduit φ0 (t) − φ0 (s) =
J (tu + (1 − t)v), u − v) − J 0 (su + (1 − s)v), u − v) = t−s
0 1
[J 0 (tu + (1 − t)v −
J 0 (su + (1 − s)v), tu + (1 − t)v − su − (1 − s)v)]. Lorsque t ≥ s, on trouve bien
φ0 (t) − φ0 (s) ≥ α||v − u||2 (t − s). Intégrant de s = 0 à s = 12 et de t = 21 à t = 1,
on trouve

Z 1
1 1 1 1 α
[φ(1) − 2φ( ) + φ(0)] ≥ α||u − v||2 [ t − ]dt = ||u − v||2 .
2 2 1 2 8 8
2

On a donc l’inégalité d’α−convexité. Les caractérisations d’α−convexité sont


obtenues.
60 CHAPTER 4. PROGRAMME CONVEXE

D’autre part, on note que dans le cas α = 0 on a φ0 (t) − φ0 (s) ≥ 0 si t ≥ s.


R1 Rθ
Ainsi on trouve θ dt 0 ds(φ0 (t) − φ0 (s))ds = θφ(1) + (1 − θ)φ(0) − φ(θ) et c’est
un réel positif. On a la convexité. Le raisonnement précédent est valable pour
(i) ⇒ (ii) ⇒ (iii) ⇒ (i). On note finalement que la convexité et l’α−convexité
sont aussi caractérisées, pour le cas simple de J deux fois différentiable, par
(J 00 (u)w, w) ≥ 0 et par (J 00 (u)w, w) ≥ α(w, w).

4.1.1 Compléments et extensions


On peut définir un espace convexe simple à partir de J fonctionnelle convexe:
il s’appelle l’épigraphe.

Définition 4.2 On appelle épigraphe de J fonctionnelle convexe sur un con-


vexe K l’espace Epi(J) des {(λ, v), v ∈ K, λ ≥ J(v)}. C’est un convexe.

On vérifie que si (λ, v) et (µ, w) sont dans Epi(J), alors pour 0 ≤ θ ≤ 1 on a


J(θv+(1−θ)w) ≤ θJ(v)+(1−θ)J(w) ≤ θλ+(1−θ)µ donc θ(λ, v)+(1−θ)(µ, w)
est dans Epi(J).
On remarque aussi que si J(v) ≤ a pour tout a valeur d’adhérence de la
suite J(vn ), alors on a (λ, v) qui est dans l’épigraphe, et l’épigraphe est fermé.
Lemme 4.2 Si, pour tout v, on a

J(v) ≤ inf{a, a valeur d’adhérence de toute suite J(vn ), vn → v},

alors l’épigraphe de J est fermé. Toute fonction dont l’épigraphe est fermé est
semi-continue inférieurement (on le note f s.c.i.).
Notons en particulier que la démonstration de la relation sur la convexité
(J(θu + (1 − θ)v) ≤ θJ(u) + (1 − θ)J(v)) est vraie dès que J est s.c.i.
On a aussi le résultat:
Proposition 4.3 Si J est convexe continue sur K convexe fermé non vide,
il existe une forme linéaire continue L et une constante δ telles que J(v) ≥
L(v) + δ. Si J est α−convexe, on a J(v) ≥ α8 ||v||2 − C

Preuve Si J est convexe continu, son épigraphe est convexe fermé non vide.
Démontrons qu’il est fermé. Soit (λn , vn ) une suite de points de l’épigraphe
qui converge vers (λ, v) dans l’espace de Hilbert IR × V muni de la norme
1
(λ2 + ||v||2 ) 2 . On vérifie que

λn ≥ J(vn ). (4.1.1)
Soit, si J(vφ(n) ) tend vers a, on en déduit que λ ≥ a. Bien sûr, comme J
est continue, a = J(v). Soit v0 ∈ K et λ0 < J(v0 ). On note p0 = (λ0 , v0 ). Il est
à l’extérieur de l’épigraphe et on désigne sa projection sur l’épigraphe Epi(J)
par p∗ = (λ∗ , w0 ).
On montre d’abord λ∗ = J(w0 ).
Comme la projection réalise le minimum de la distance, on a ∀(λ, v), λ ≥ J(v),
c’est-à-dire (λ − λ0 )2 + (v − v0 )2 ≥ (λ∗ − λ0 )2 + (w0 − v0 )2 .
4.1. FONCTIONS CONVEXES 61

On choisit v = w0 , auquel cas pour λ ≥ J(w0 ) on a (λ − λ0 )2 ≥ (λ∗ − λ0 )2 .


On sait que λ∗ ≥ J(w0 ).
• Si J(w0 ) ≥ λ0 , on trouve λ ≥ J(w0 ) ⇒ λ ≥ λ0 , donc λ ≥ λ∗ pour λ ≥ J(w0 )
et on en déduit J(w0 ) ≥ λ∗ et comme (λ∗ , w0 ) est dans l’épigraphe, λ∗ = J(w0 ).
• Si J(w0 ) < λ0 , le point (λ0 , w0 ) est dans l’épigraphe, donc on trouve (λ∗ −
λ0 )2 ≤ 0, donc λ∗ = λ0 .
Dans le cas où J est continue, il existe θ tel que J(θv0 + (1 − θ)w0 ) = λ0 ,
puisque J(v0 ) < λ0 < J(w0 ). Alors, pour ce θ, on trouve

(1 − θ)2 (v0 − w0 )2 ≥ (v0 − w0 )2


ce qui est impossible puisque pour θ = 1, la valeur est distincte de λ0 .
Dans le cas général, soit θ0 tel que θ0 J(v0 ) + (1 − θ0 )J(w0 ) = λ0 . Alors
J(θ0 v0 +(1−θ0 )w0 ) ≤ λ0 , et le point (λ0 , θ0 v0 +(1−θ0 )w0 ) est dans l’épigraphe.
On en déduit

(1 − θ0 )2 (v0 − w0 )2 ≥ (v0 − w0 )2
ce qui entraine v0 = w0 , impossible car J(v0 ) < λ0 < J(w0 ).
On a donc montré que λ∗ = J(w0 ).
On a alors l’inégalité fondamentale de la projection:

(p0 − p∗ , p0 − p) ≥ 0∀p ∈ Epi(J).


Cette inégalité s’écrit, pour p = (J(v), v)

(λ0 − J(w0 ))(λ0 − J(v)) + (v0 − w0 , v0 − v) ≥ 0


soit

(J(w0 ) − λ0 )J(v) ≥ (v0 − w0 , v − v0 ) + (J(w0 ) − λ0 )λ0 . (4.1.2)


La démonstration du premier alinéa est alors la conséquence de J(w0 ) − λ0 > 0,
ce que nous allons démontrer.
Si on avait J(w0 ) − λ0 ≤ 0, alors le point (λ0 , w0 ) serait dans Epi(J) donc
on aurait
||(J(w0 ), w0 ) − (λ0 , v0 )|| ≤ ||(λ0 , v0 ) − (λ0 , w0 )||
soit (J(w0 ) − λ0 )2 + ||w0 − v0 ||2 ≤ ||v0 − w0 ||2 , ce qui donne λ0 = J(w0 ).
Il faut alors éliminer l’égalité λ0 = J(w0 ). Pour cela, introduisons 0 ≤ θ ≤ 1
et raisonnons par l’absurde, soit J(w0 ) = λ0 < J(v0 ). Le point θv0 + (1 − θ)w0
est dans le convexe K , donc (θv0 + (1 − θ)w0 , J(θv0 + (1 − θ)w0 )) est dans
Epi(J). On a donc, pour λ ≥ J(θv0 + (1 − θ)w0 )

(λ − J(w0 ))2 + (1 − θ)2 ||v0 − w0 ||2 ≥ ||v0 − w0 ||2 .


Deux cas: ou il existe une suite θn tendant vers 0 telle que J(θn v0 + (1 −
θn )w0 ) < J(w0 ), et dans ce cas je prends λ = λ0 = J(w0 ) ce qui donne v0 = w0
impossible, ou alors il existe θ0 tel que pour 0 < θ < θ0 on ait J(θv0 + (1 −
θ)w0 ) ≥ J(w0 ). Dans ce cas, pour 0 < θ < θ0 on trouve, replaçant λ par J(θv0 +
62 CHAPTER 4. PROGRAMME CONVEXE

(1−θ)w0 ) et utilisant l’inégalité J(θv0 +(1−θ)w0 )−J(w0 ) ≤ θ(J(v0 )−J(w0 )),on


en déduit

θ(J(v0 ) − J(w0 ))2 ≥ (2 − θ)||v0 − w0 ||2 .


La limite θ → 0 conduit à v0 = w0 , impossible.
On a donc éliminé J(w0 ) = λ0 donc, par les deux raisonnements, J(w0 ) −
λ0 > 0.
On divise par cette quantité l’inégalité (4.1.2). On trouve

v0 −w0
J(v) ≥ ( (J(w 0 )−λ0 )
, v − v0 ) + (J(w0 ) − λ0 )λ0 .
La première inégalité de la proposition est démontrée. Notons que la difficulté
de cette preuve provient de la continuité et non la dérivabilité de J dans nos
hypothèses; en effet le cas où J est dérivable est évident dans la mesure où J
dérivable et convexe entraine l’inégalité J(u) ≥ J(u0 ) + (J 0 (u0 ), u − u0 ), donc
la forme linéaire est naturelle. L’α−convexité entraine tout de suite après la
relation J(u) ≥ J(u0 ) + α4 ||u − u0 ||2 + [ α4 ||u − u0 ||2 + (J 0 (u0 , u − u0 )], et le
deuxième terme est une forme quadratique dont le minimum est explicite.
D’autre part, on trouve, pour v0 fixé

J(v) + J(v0 ) v + v0 α v + v0 α
≥ J( ) + ||v − v0 ||2 ≥ L( ) + δ + ||v − v0 ||2
2 2 8 2 8

On utilise alors le fait que α8 ||v − v0 ||2 + L(v)


2 est quadratique pour voir que
cette fonction, dont on peut calculer explicitement le minimum (c.f. supra), est
minorée par
α α
||v||2 − [||L|| + ||v0 ||]||v||
8 4
α 2
qui peut être minoré par 4 ||v|| − C1 , d’où le résultat.

4.2 Minimisation de fonctionnelles convexes


Le résultat agréable dans le programme convexe est que, contrairement au cas
de l’exemple 16, la condition J infinie à l’infini suffit.

Théorème 4.1 Soit K un convexe fermé non vide dans un Hilbert V et soit J
une fonctionnelle convexe continue sur K.
• Si J est infinie à l’infini, alors J admet un minimum.
• Si J est α−convexe continue, le minimum u est unique, et on a

4
∀v ∈ K, ||v − u||2 ≤ [J(v) − J(u)].
α
Le premier résultat se base sur la convergence faible d’une suite minimisante
un . Nous l’admettons ici.
Le deuxième résultat provient de l’écriture, pour un suite minimisante, de
la relation, notant l l’inf de J
4.2. MINIMISATION DE FONCTIONNELLES CONVEXES 63

un + um J(un ) + J(um ) α
l ≤ J( )≤ − ||un − um ||2
2 2 8
qui implique
4
||un − um ||2 ≤ [(J(um ) − l) + (J(un ) − l)]
α
Nous sommes exactement dans le cas d’application du critère de Cauchy, ainsi
la suite um est de Cauchy, donc possède une limite u. On passe à la limite en
m dans l’inégalité ci-dessus, ce qui implique que
4 4
||un − u||2 ≤ [J(un ) − l] = [J(un ) − J(u)].
α α
Le résultat est démontré.
Dans le cas convexe, on a une condition nécessaire et suffisante d’optimalité,
obtenue à partir de la condition nécessaire provenant de l’équation d’Euler, que
je rappelle ci-dessous

Proposition 4.4 Soit K convexe. On suppose que J est différentiable en u.


Si u est un point de minimum local de J sur K, alors

∀v ∈ K, (J 0 (u), v − u) ≥ 0

Remarque On a alors, si J est α−convexe différentiable, l’inégalité J(v) ≥


J(u) + α2 ||v − u||2 , qui implique l’inégalité

||v − u||2 ≤ α2 (J(v) − J(u))

améliorant ainsi l’inégalité du théorème 4.1.


Cette proposition est une conséquence du fait que, pour u ∈ K, toutes les
directions admissibles sont v − u pour v ∈ K, car u + θ(v − u) est dans K pour
0 < θ < 1.
On a

Théorème 4.2 Si K est convexe et si J est une fonctionnelle convexe,

u minimum de J ⇔ ∀v ∈ K, (J 0 (u), v − u) ≥ 0.

On sait que, si ∀v ∈ K, (J 0 (u), v − u) ≥ 0, alors, de (ii) de la proposition 4.2


implique que

∀v ∈ K, J(v) ≥ J(u).
Ainsi u est un minimum global.1
On note que, lorsque le K est un cône convexe fermé (c’est-à-dire λv ∈ K
pour v ∈ K et λ > 0), on a
1
La redémonstration rapide de l’inéquation d’Euler provient de θ1 (J(u+θ(v−u))−J(u)) ≥ 0
lorsque u est le minimum.
64 CHAPTER 4. PROGRAMME CONVEXE

Proposition 4.5 Le minimum de J est caractérisé par

(J 0 (u), u) = 0 et (J 0 (u), w) ≥ 0∀w ∈ K

La démonstration de cette proposition suit les idées utilisées dans la résolution


de l’exemple 15, où on a choisi v = cu. On prend ainsi l’inégalité

(J 0 (u), v − u) ≥ 0∀v ∈ K
et on prend v = λu. Les deux cas λ > 1 et 0 < λ < 1 donnent (J 0 (u), u) = 0,
et le remplacer dans l’inégalité donne le résultat de la proposition.

4.3 Fonctionnelles quadratiques. Formulations vari-


ationnelles.
Le cas particulier de ces résultats le plus important correspond à la minimi-
sation de fonctionnelles quadratiques, c’est-à-dire, dans l’exemple le plus
classique, si (, ) désigne le produit scalaire sur V Hilbert
1
J(v) = a(v, v) − (b, v)
2
où a est une forme bilinéaire continue sur V et b est un élément de V .

Définition 4.3 On dit que la forme bilinéaire a continue sur V est coercive si
et seulement si il existe ν > 0 tel que

∀u ∈ V a(u, u) ≥ ν||u||2 .

On a alors le

Lemme 4.3 Si a est coercive, et qu’une de ses constantes de coercivité est ν,


alors a est ν−convexe.

ce qui entraine

Théorème 4.3 Le minimum de J sur K convexe est unique et noté u. C’est


l’unique solution du problème

u ∈ K et ∀v ∈ K, a(u, v − u) ≥ (b, v − u).

Preuve du Lemme En appliquant le théorème (4.1)


On vérifie ainsi que

1 1 ε2
(J 0 (u), w) = lim [J(u+εw)−J(u)] = lim [εa(u, w)+ a(w, w)−ε(b, w)] = a(u, w)−(b, w).
ε→0 ε ε→0 ε 2
Alors (J 0 (u) − J 0 (v), u − v) = a(u, u − v) − (b, u − v) − a(v, u − v) + (b, u − v) =
a(u − v, u − v), donc
4.4. KUHN ET TUCKER 65

(J 0 (u) − J 0 (v), u − v) ≥ ν(u − v, u − v).


D’après la proposition 4.2, on a le lemme. L’identification de la dérivée donne
l’inégalité caractérisant le minimum (obtenue au théorème 4.2):

a(u, v − u) − (b, v − u) ≥ 0∀v ∈ K


ce qui est le résultat du théorème.
Les problèmes d’équations aux dérivées partielles linéaires elliptiques rentrent
dans le cadre des formes quadratiques. En effet, on intitule ces problèmes des
problèmes de formulation variationnelles.
L’exemple le plus classique d’opérateur elliptique est l’opérateur −∆ et le
problème d’EDP classique à résoudre est, pour Ω ouvert borné

−∆u = f, u|∂Ω = 0, u ∈ H 1 (Ω).

Pour obtenir la formulation variationnelle, on effectue la démarche inverse de


celle qui a été employée pour trouver la meilleure constante de Poincaré:
de −∆u = f , on déduit, pour tout φ ∈ C0∞ (Ω), < −∆u − f, φ >= 0.
par application de la définition des dérivées au sens des distributions, on vérifie
que ceci est équivalent à

∀φ ∈ C0∞ (Ω), < ∇u, ∇φ > − < f, φ >= 0.

Comme on recherche une solution dans H 1 , ∇u ∈ L2 (Ω) donc cette égalité


implique, par continuité
Z
1
∀φ ∈ H0 (Ω), (∇u∇φ − f φ)dx = 0.

Dans cette égalité, φ appartient à H01 (Ω) car le complété pour la norme H 1 de
C0∞ (Ω) est H01 (Ω).
L’égalité ci-dessus s’écrit donc a(u, φ) = (b, φ), où a est une forme bilinéaire
continue et b est un élément du dual de H01 (Ω). C’est donc l’équation d’Euler
pour la fonctionnelle
1
2 a(u, u) − (b, u).

Comme Ω est borné, la norme ||u||H 1 est équivalente à la norme ||∇u||L2 par
l’inégalité de Poincaré, donc d’après le calcul de dérivée seconde qui précède, la
fonctionnelle est ν−convexe, donc il y a existence et unicité du minimum, qui
est la solution du problème variationnel.

4.4 Notion de point selle, et théorème de Kuhn et


Tucker
4.4.1 Introduction à la notion de Lagrangien
Nous nous reportons à l’exemple inf 21 (y12 +y22 )−b.y sous la contrainte a.y = 0 ou
sons la contrainte a.y ≤ 0. Nous avons vu que cela pouvait être simple (et que
66 CHAPTER 4. PROGRAMME CONVEXE

c’était certainement naturel) de considérer la projection du minimum absolu b


sur l’ensemble des contraintes. Nous avons vu que si b est dans l’ensemble des
contraintes, sa projection est lui même, et en revanche si b n’y est pas, le point
où la fonctionnelle atteint son minimum est bien le point b0 de projection de b
sur l’ensemble des contraintes. Nous avons écrit le point b0 = b − λa, c’est à
dire nous avons résolu y − b + λa = 0.
Montrons d’abord que tous les arguments précédents s’appliquent. On
vérifie que

x1 + y1 x2 + y2 1 1 1 1
J( , ) − J(x1 , y1 ) − J(x2 , y2 ) = − (x1 − y1 )2 − (x2 − y2 )2
2 2 2 2 8 8
ce qui fait que J est 1−convexe! D’autre part, une contrainte linéaire est
convexe, on est donc dans le cas du programme convexe. D’autre part, on
trouve J 0 (y1 , y2 ) = y − b. La condition nécessaire d’optimalité est alors

(y 0 − b, y − y 0 ) ≥ 0, ∀y, a.y = 0
• cas égalité:
Si y 0 est intérieur à a.y = 0 (c’est-à-dire a.y 0 6= 0) alors y 0 = b et si b vérifie
a.b = 0 cela convient.
Si y 0 est au bord de a.y = 0 (c’est-à-dire a.y 0 = 0) on a a.(y − y 0 ) = 0
donc y − y 0 est proportionnel à aT , ainsi (y 0 − b, µaT ) ≥ 0 pour tout µ, donc
(y 0 − b).aT = 0, soit y 0 − b = −λa, et on identifie λ grâce à y 0 .a = 0.
• cas inégalité:
si y 0 est intérieur à a.y ≤ 0, alors a.y 0 < 0 et donc toutes les directions sont
admissibles et donc y 0 = b. Si on n’est pas dans le cas b.a < 0, le point b n’est
pas le minimum sur l’espace des contraintes car il n’est pas intérieur à l’espace
des contraintes.
On suppose donc maintenant que a.b ≥ 0. On sait donc que y 0 est sur le
bord a.y 0 = 0. On voit alors que pour tout y ∈ {a.y ≤ 0}, alors a.(y − y 0 ) ≤ 0.
Les directions possibles pour y − y 0 sont donc aT et a, le coefficient devant a
étant négatif. On écrit y − y 0 = µaT − µ1 a, et on en déduit que

∀µ ∈ IR, ∀µ1 ∈ IR+ , (y 0 − b, µaT − µ1 a) ≥ 0


Ceci implique que y 0 − b est orthogonal à aT et que (y 0 − b, a) ≤ 0. On en
déduit y 0 − b = −λa avec λ ≥ 0 et de plus, comme y 0 est sur le bord, y 0 .a = 0
donc (b − λa).a = 0 donc λ = b.a a2
, qui est négatif ou nul grâce à l’hypothèse
a.b ≥ 0.
Nous avons ici reconstruit les multiplicateurs de Lagrange, de manière plus
directe puisque avec une seule contrainte dans IR2 on n’a pas besoin d’un résultat
aussi général que le lemme de Farkas.

Remarque Utilisons la forme du minimum obtenu pour écrire y = b − λa + z.


On trouve
1 1 1
J(y) = z 2 − b2 + λ2 a2 − λa.b.
2 2 2
4.4. KUHN ET TUCKER 67

La contrainte s’écrit a.b − λa2 + a.z ≤ 0.


Le minimum de la fonctionnelle en λ est donc obtenu pour λ0 = a.b a2
, la
contrainte restante dans ce cas est alors a.z ≤ 0 et il reste la minimisation de
1 2
2 z , minimum atteint pour z = 0.

Remarque Soit w une direction admissible pour la contrainte inégalité F (y) ≤


0 (ici c’est a.y ≤ 0 et donc on a (F 0 (y), w) ≤ 0 soit encore a.w ≤ 0). On suppose
qu’il existe un couple (y0 , λ0 ) dans {F ≤ 0} × IR+ , tel que J 0 (y0 ) + λ0 F 0 (y0 ) = 0
et F (y0 ) = 0. Alors on introduit

φ(t) = J(y0 + tw)


On a φ0 (t) = (J 0 (y0 + tw), w) et φ0 (0) = −λ0 (F 0 (y0 ), w) ≥ 0. Comme w est
une direction admissible, y0 + tw est dans l’espace des contraintes, donc on doit
retrouver que φ0 (t) ≥ 0. On a bien sûr φ0 (0) ≥ 0 donc φ(t) ≥ φ(0) ce qu’il faut
vérifier pour que y0 soit un minimum.
D’autre part, on vérifie que dtd
(F (y0 + tw)) = (F 0 (y0 + tw), w) donc il est
trivial que

d
(φ(t) + λ0 F (y0 + tw))|t=0 = 0.
dt
On vérifie ainsi très directement que y0 n’est pas seulement le minimum de
J mais aussi le minimum de J + λ0 F .
Ceci nous amène à introduire dans l’exemple canonique en dimension 2 cette nouvelle fonction-
nelle. On pose

L(y, λ) = J(y) + λa.y

Le minimum sur IR2 de cette fonctionnelle est obtenu en y = b − λa, ce qui correspond à la remarque
que nous avons déjà faite sur le fait que cette écriture est la bonne écriture pour trouver le minimum.
Maintenant, lorsque y est dans l’intérieur de l’espace des contraintes a.y < 0 et que λ est assez petit,
alors y + λa est aussi dans l’espace des contraintes, donc le minimum de L(y, λ) est atteint en un
point yλ de l’espace des contraintes, et on vérifie que ce minimum vaut − 12 (b − λa)2 . Cette fonction
a.b
de λ admet un maximum en λ = a2
. et cette valeur du point où elle est maximum est celle cherchée
pour obtenir le point critique de J sous les contraintes a.y ≤ 0 lorsque b n’est pas dans l’espace des
contraintes.
D’autre part, lorsque y n’est pas dans l’espace F (y) = 0, on voit que L(y, λ)
n’a certainement pas d’extremum en λ (contrairement à ce que l’on a fait dans
le paragraphe ci-dessus) et on a probablement identifié un problème équivalent.

4.4.2 Point selle, lagrangien, et minimisation de fonctionnelle


convexe
On considère une fonctionnelle J à minimiser sur V , et on introduit, dans le
cas de M contraintes inégalités ou de M contraintes égalités, une application
de V × IRM dans IR. Elle s’appellera Lagrangien, et on construit le Lagrangien
associé à J et aux contraintes inégalités Fj (v):
X
L(v, q) = J(v) + qj Fj (v).
j
68 CHAPTER 4. PROGRAMME CONVEXE

Dans le cas des contraintes inégalités, on désigne par P = (IR+ )M , et dans


le cas de contraintes égalités, on note P = (IRM ). Soit U ⊂ V

Définition 4.4 On dit que (u, p) ∈ V × P est un point selle de L sur U × P si


on a les inégalités

∀q ∈ P, L(u, q) ≤ L(u, p) ≤ L(v, p)∀v ∈ U.

Notons que cette définition est la bonne définition pour les multiplicateurs
de Lagrange, puisque les extrema sont caractérisés par la dérivée nulle.
On a

Proposition 4.6 Si les fonctions J, F1 , ...FM sont continues sur V et si (u, p)


est un point selle de L sur U × P . Alors, K étant défini par les contraintes Fj
(égalité si P = IRM , inégalités si P = (IR+ )M , et K ⊂ U , on a
• l’élément u est dans K
• c’est un minimum global de J sur K
• Dans le cas où K est inclus dans l’intérieur de U , et où les fonctionnelles
sont dérivables, on a
M
X
J 0 (u) + pj Fj0 (u) = 0.
j=1

Preuve On suppose que (u, p) est un point selle. On se place tout d’abord
dans le cas de contraintes d’égalité. Si on suppose que, pour tout q dans
IRM , alors L(q, u) ≤ L(p, u), comme L(q, u) est une fonction affine en q, cette
inégalité ne peut être vérifiée que lorsque F (u) = 0. On a donc, écrivant la
deuxième inégalité, J(u) ≤ J(v) pour tout v ∈ U , donc a fortiori pour tout
v ∈ K, et donc u est un minimum global de J sur K.
On se place ensuite dans le cas de contraintes inégalités. Si on a, ∀q ∈
(IR+ )M , l’inégalité, ceci veut dire que, en faisant tendre q vers +∞ composante
après composante, que F (u) ≤ 0. On trouve alors pF (u) ≥ 0 par l’inégalité
L(q, u) ≤ L(p, u), et comme Fj (u) ≤ 0, on trouve que pj Fj (u) = 0 pour tout
j. Ceci permet de conclure sur le fait que u est un minimum global de J car
pF (v) ≤ 0 ainsi J(v) + pF (v) ≤ J(v) et donc l’inégalité de droite de définition
du point selle entraine J(u) + 0 ≤ J(v). Le point u est aussi minimum de la
fonctionnelle J(v)+pF (v), donc nécessairement la dérivée de cette fonctionnelle
est nulle si K est intérieur à U .
Ce qui est extraordinaire est qu’il y a des conditions pour lesquelles cette
proposition donne une condition nécessaire et suffisante d’optimalité

Théorème 4.4 (Théorème de Kuhn et Tucker, 1951)


On suppose que J, F sont convexes, continues, dérivables, et on suppose qu’il
existe un élément de V tel que ṽ vérifie
“pour chaque i, ou bien Fi (ṽ) < 0, ou bien Fi (ṽ) = 0 et Fi affine.”
u est minimum global de J sur K si et seulement si il existe p ∈ (IR+ )M tel
que (u, p) soit un point selle du Lagrangien L sur V × (IR+ )M .
4.4. KUHN ET TUCKER 69

Autrement dit, un minimum d’une fonctionnelle convexe avec contraintes est


un minimum libre du Lagrangien lorsqu’on choisit les paramètres de Lagrange.

Preuve La première partie de la démonstration a été faite: si (u, p) est un


point selle du Lagrangien sur V × IRM + , alors u est un minimum global de la
fonctionnelle sur K défini par les contraintes.
Etudions la réciproque. On suppose donc que u est un point de minimum
global de J sur K. On suppose que les contraintes vérifient il existe ṽ tel que
Fi (ṽ) < 0 pour les contraintes actives non affines, Fi (ṽ) ≤ 0 pour les contraintes
actives affines.
On considère l’ensemble

A = {(µ0 , µ) ∈ IRM +1 , ∃v ∈ V, µ0 > J(v), µj > Fj (v)}.


A est un ouvert convexe. On rappelle l’hypothèse u est un minimum global
pour la fonctionnelle sur l’espace des contraintes, alors ∀v, Fj (v) ≤ 0 on a
J(v) ≥ J(u).
Ceci veut dire que (J(u), 0) ∈
/ A (en effet si ce point étant dans A, il exis-
terait v tel que J(u) > J(v) et 0 > Fj (v) pour tout j). La projection sur un
convexe ouvert est aussi possible. On projette le point (J(u), 0) sur A. Il existe
donc (p0 , p) ∈ IRM +1 tel que

∀(µ0 , µ) ∈ A, (µ0 − p0 )(J(u) − p0 ) + (µ − p).(−p) ≤ 0.


On sait que dans cette égalité, on peut faire tendre µ0 et µ vers +∞, donc on en
déduit que J(u)−p0 ≤ 0 et −pj ≤ 0 pour tout j. On note q = p, q0 = p0 −J(u).
Alors on trouve

(µ0 − J(u) − q0 )q0 + (µ − p)p ≥ 0


soit
(µ0 − J(u))q0 + µp ≥ |q|2 + q02 .
On commence par démontrer que les valeurs qj associées à des contraintes in-
actives sont nulles. En effet, si la contrainte j est inactive, Fj (u) < 0, et il
F (u)
suffit de prendre µk =  pour k 6= j, µj = j2 puis µ0 = J(u) +  pour vérifier
F (u)
que ce point est dans A, ce qui conduit à qj j2 + O() ≥ q02 + q 2 , ce qui est
possible uniquement lorsque qj = 0. On en déduit alors que q.F (u) = 0 (pour
les contraintes actives le terme est nul car Fj (u) est nul et pour les contraintes
inactives le terme est nul car qj = 0).
On suppose que q0 > 0. Si cela est le cas, alors on voit que

q q 2 + q02
∀(µ0 , µ) ∈ A, µ0 − J(u) + µ ≥
q0 q0
donc si on prend le point µ0 = J(v) + , µj = Fj (v) +  qui est dans A on voit
que pour tout v ∈ V
q X qj
J(v) − J(u) + F (v). + ε(1 + )≥0
q0 q0
70 CHAPTER 4. PROGRAMME CONVEXE

et comme ceci est vrai pour tout , on a


q q
∀v ∈ V, J(v) + F (v). ≥ J(u) = J(u) + F (u). .
q0 q0
La condition q0 6= 0 implique que l’une des inégalités du point selle est vérifiée.
On doit donc traiter le cas q0 = 0. L’inégalité devient µq ≥ q 2 pour tout
F (ṽ)
(µ0 , µ) dans A. On prend ainsi µ0 = J(ṽ) + , µj = − j2 si la contrainte est
inactive ou active non affine, et µj =  si la contrainte est active affine. Ainsi
ce point est dans A car on a µ0 > J(ṽ) et µj > Fj (ṽ). Il vient donc
X 1X
qj − qj Fj (ṽ) ≥ q 2 .
2
j∈Ia In

Ainsi il n’y a aucun problème si il existe une contrainte active non affine, car
F (ṽ)
dans ce cas on se ramène à qj j2 ≥ q 2 , donc qj = 0. Il reste donc les contraintes
actives affines. Elles sont données par Fj (v) = (aj , v) et il suffit de changer de
vecteur ṽ pour prendre successivement un vecteur orthogonal a tous les vecteurs
ap p 6= p0 et dont le produit scalaire avec ap0 est négatif. On en déduit que q = 0
ce qui donne donc une inégalité trivialement vérifiée. Ainsi on trouve p0 = J(u)
et p = 0 donc la projection de (J(u), 0) est lui même. C’est impossible car le
point en question ne peut pas être dans A.
L’égalité qq0 .F (u) = 0 entraine donc

q q
∀v ∈ V, J(v) + ( , F (v)) ≥ J(u) + ( , F (u)) ≥ J(u) + (r, F (u))∀r, rj ≥ 0.
q0 p = q0

Le point (u, qq0 ) est donc un point selle et on a montré l’implication


”minimum global ⇒ il existe un point selle”.

4.4.3 Principe du Min-Max


De la définition d’un point selle (u, p), on déduit deux problèmes d’optimisation
associés à K = {Fj (u) ≤ 0} et à la fonctionnelle J(v). En effet, on a, pour
P = (IR+ )m et p ∈ P :

∀v ∈ V, L(u, p) ≤ L(v, p)
ce qui implique que, utilisant L(v, p) ≤ supq∈P L(v, q):

∀v ∈ V, L(u, p) ≤ sup L(v, q).


q∈P

De même,

∀q ∈ P, L(u, q) ≤ L(u, p)
donc, utilisant cette fois L(u, q) ≥ inf v∈V L(v, q), on obtient

∀q ∈ P, inf L(v, q) ≤ L(u, p).


v∈V
4.4. KUHN ET TUCKER 71

Ceci donne l’idée d’introduire deux fonctionnelles définies par ces inégalités,
l’une sur V , l’autre sur P , par

˜ = sup L(v, q), G(q) = inf L(v, q).


J(v)
q∈P v∈V

Dans le cas étudié, on a L(v, q) = J(v) + qF (v), donc, si il existe j0 tel que
Fj0 (v) > 0, alors supq∈P L(v, q) = +∞, et, si on a ∀j ∈ {1, ..., m}, Fj (v) ≤ 0
alors supq∈P L(v, q) = maxq∈ L(v, q) = L(v, 0) = J(v).
Ainsi

˜ J(v), v ∈ K
J(v) =
+∞, v ∈ /K

La minimisation de J˜ est équivalente à celle de J sur K. Ce problème


s’apppelle le problème primal.
Le problème dual est le problème de maximisation de G sur P .
On remarque que ∀q ∈ P, L(u, q) ≤ L(u, p), donc supq∈P L(u, q) = L(u, p) =
˜
J(u). On sait que L(u, p) ≤ supq∈P L(v, q), donc

˜
∀v ∈ V, L(u, p) ≤ J(v)
ce qui s’écrit

˜
∀v ∈ V, J(u) ˜
≤ J(v)
On en déduit que u est le minimum de J˜ sur V . De même

∀v ∈ V, L(u, p) ≤ L(v, p)
donc

inf L(v, p) = L(u, p) = G(p).


v∈V

Comme inf v∈V L(v, q) ≤ L(u, p), on a, ∀q ∈ P, G(q) ≤ G(p), donc p est un
maximum de G. On a ainsi démontré:

min(max L(v, q)) = max(min L(v, q))


v∈V q∈P q∈P v∈V

et le point de min-max est atteint en v = u, q = p. Le point selle est solution


du problème de min-max, et la réciproque est vraie.

Exemple minimisation de la fonctionnelle J(v) = 12 (Av, v)−(b, v) sur l’ensemble


convexe K = {Bv − c ≤ 0}. Pour être dans le cadre d’application du théorème
de Kuhn et Tucker, on suppose la matrice A symétrique définie positive. La
fonctionnelle du problème primal est calculée facilement. Celle du problème
dual G est donnée par l’équation sur v

∂L
(v, q) = 0
∂v
72 CHAPTER 4. PROGRAMME CONVEXE

qui admet une solution unique car L est α−convexe, où α est la plus petite
valeur propre de la matrice 12 A.
On trouve Av − b + t Bq = 0, soit v = A−1 b − A−1t Bq, donc
1 1
G(q) = − (t Bq, A−1t Bq) + (BA−1 b − c, q) − (b, A−1 b)
2 2
qui est strictement concave donc admet un maximum. Le gain dans cette for-
mulation est que les contraintes s’écrivent vraiment simplement: en l’occurence
elles sont sous la forme q ≥ 0.
Chapter 5

Introduction au contrôle
optimal

5.1 Le problème général


On étudie dans ce cas le contrôle de problèmes variationnels elliptiques. On
se donne deux espaces de Hilbert V et H, dont les normes respectives sont
désignées par ||.|| et |.|. On suppose V ⊂ H, V dense dans H et injection
continue.
On introduit une forme bilinéaire continue sur V , coercive, c’est-à-dire a(v, v) ≥
α||v||2 , α > 0, et une forme linéaire continue sur V , L(v) = (f, v) où f ∈ V 0
espace dual de V . On peut par exemple pour fixer les idées prendre V = H01
et V 0 = H −1 . C’est en ce sens que les problèmes de contrôle utilisent la théorie
des distributions et essentiellement des espaces de Sobolev.
On rappelle alors que pour tout f dans V 0 il existe un unique y dans V tel que

∀ψ ∈ V, a(y, ψ) = (f, ψ).

On appelle A l’opérateur qui à y fait correspondre f , qui est donc bijectif de V


dans V 0 , linéaire, bicontinu.
Autrement dit Ay = f .

Définition 5.1 (système contrôlable)


On appelle système gouverné par l’opérateur A et contrôlé par un espace U
de contrôle un système dont l’état est donné par

Ay = f + Bu

où B est un opérateur de U dans V 0 . La solution unique de ce problème est


alors y(u), dépendant de u.
On introduit l’observation qui est l’action sur la solution de l’opérateur d’observation
C de V dans un Hilbert H0 petit, sous la forme

z(u) = Cy(u).

73
74 CHAPTER 5. INTRODUCTION AU CONTRÔLE OPTIMAL

On introduit enfin sur l’espace U des contrôles un opérateur coercif N tel que
(N u, u) ≥ ν0 ||u||2H0 . Le coût du contrôle est alors

J(u) = ||Cy(u) − zd ||2 + (N u, u).

Notons que le terme ||Cy(u) − zd ||2 est un vrai terme de contrôle et le terme N
est un terme de pénalisation.

Définition 5.2 Le problème de contrôle est de trouver l’inf de J(u) sur l’ensemble
des u admissibles.

5.2 Traitement abstrait du cas général


Nous avons le théorème

Théorème 5.1 On suppose que l’ensemble des u admissibles forme un ensem-


ble convexe fermé. Alors il existe un unique élément u admissible tel que inf J
soit atteint en u.

Preuve On applique le théorème Comme l’ensemble des contrôles admissibles


Uad est un convexe fermé, l’ensemble des directions admissibles en u est l’ensemble
des v−u, v ∈ Uad . L’inéquation d’Euler sur la solution u du problème, qui existe
et qui est unique (on considère une suite minimisante, comme J est coercive,
elle est de Cauchy donc converge) est

(J 0 (u), v − u) ≥ 0∀v ∈ Uad

On sait que y(u) = A−1 (f + Bu) (revenant au cas général), d’où on déduit
(y 0 (u), w) = A−1 Bw. On a donc

(y 0 (u), v − u) = A−1 B(v − u) = A−1 (f + Bv − f − Bu) = y(v) − y(u).

Cette égalité sera utilisée en permanence. On calcule alors J 0 (u), v − u). On


trouve
(J 0 (u), w) = limt→0 J(u+tw)−J(u)
t

Avec

J(u+tw)−J(u) = ||Cy(u+tw)−zd ||2 − ||Cy(u)−zd ||2 + 2t(N u, w) +t2 (N w, w)

et en développant la différence des deux carrés scalaires, on déduit

J(u + tw) − J(u) = (C(y(u) + (y(u + tw) − y(u))) − zd , C(y(u) + (y(u + tw) − y(u))
+(C(y(u + tw) − y(u)), C(y(u + tw) − y(u))) − (Cy(u) − zd , Cy(u) − zd )
+2t(N u, w) + t2 (N w, w).

Divisant par t et passant à la limite, il vient

(J 0 (u), w) = 2(Cy(u) − zd , C(y 0 (u), w)) + 2(N u, w).


5.3. LE CAS PARTICULIER DU CONTRÔLE DISTRIBUÉ POUR LE PROBLÈME DE DIRICHLET7

On utilise alors w = v −u et le résultat (y 0 (u), v −u) = y(v)−y(u)) pour obtenir

(J 0 (u), v − u) = 2(Cy(u) − zd , C(y(v) − y(u))) + 2(N u, v − u).

On a donc l’inéquation d’Euler. On introduit l’adjoint C ∗ de C, et on suppose


pour simplifier que le dual de H0 est lui même. Alors il vient

(C ∗ (Cy(u) − zd ), y(v) − y(u)) + (N u, v − u) ≥ 0∀v.

On introduit l’état adjoint p(v) donné par

C ∗ (Cy(w) − zd ) = A∗ p(w)

où A∗ est l’opérateur adjoint de A. Ceci permet de réécrire le premier terme de


l’inégalité:
(A∗ p(u), y(v) − y(u)) + (N u, v − u) ≥ 0∀v
(p(u), A(y(v) − y(u))) + (N u, v − u) ≥ 0∀v
et avec la relation A(y(v) − y(u)) = B(v − u) on obtient

(p(u), Bv − Bu) + (N u, v − u) ≥ 0∀v

et enfin en introduisant l’adjoint B ∗ on trouve

(B ∗ p(u) + N u, v − u) ≥ 0∀v.

Cette inégalité est plus facile à traiter. On résume alors les résultats dans le

Théorème 5.2 On calcule la solution contrôlée y(u) telle que Ay(u) = f +Bu.
On forme l’état adjoint p(u) qui est solution de l’équation A∗ p(u) = C ∗ (C(y) −
zd ).
L’inéquation d’Euler qui caractérise la solution du problème de contrôle est:

(B ∗ p(u) + N u, v − u) ≥ 0∀v ∈ Uad .

5.3 Le cas particulier du contrôle distribué pour le


problème de Dirichlet
On se place dans ce cas dans le cas suivant: V = H01 (Ω), Ω ouvert borné donc
nous avons l’inégalité de Poincaré (voir paragraphe 2.4.7). De plus H = L2 (Ω).
L’opérateur a est donné par
Z X Z
a(φ, ψ) = aij (x)∂i φ∂j ψdx + a0 (x)φψdx.
Ω i,j Ω

On suppose dans le cas général les aij et a0 dans L∞ , a0 (x) ≥ α > 0,


P
aij ξi ξj ≥
α||ξ||2 . L’opérateur A est l’opérateur elliptique du second ordre
X X
Aφ = − ∂i ( aij ∂j φ) + a0 φ
i j
76 CHAPTER 5. INTRODUCTION AU CONTRÔLE OPTIMAL

On prend pour B l’identité, et C l’injection canonique de V dans H et H0 = H.


La donnée sur C veut dire que l’on observe y(u) sur tout le domaine Ω dans
notre cas.
On regarde donc le problème de Dirichlet

Ay(u) = f + u, y(u) ∈ H01 (Ω).

L’opérateur adjoint A∗ est donné par (Aφ, ψ) = (φ, A∗ ψ). En faisant le calcul
dans les fonctions C0∞ (Ω), on trouve
P
(Aφ, ψ) = i,j (a (x)∂j φ, ∂i ψ) + (a0 (x)φ, ψ)
Pij
= − i,j (φ, aij (x)∂i ψ) + (a0 (x)φ, ψ)

On vérifie que si la matrice n’est pas symétrique, A∗ et A diffèrent.


Le problème de contrôle s’écrit alors

 Ay(u) = f + u, y(u) ∈ H01 (Ω)


A∗ p(u) = y(u) − zd , p(u) ∈ H01 (Ω)


 R
(p(u) + N u)(v − u)dx ≥ 0∀v ∈ Uad
Le contrôle est dit distribué car u est défini dans tout Ω.

Le cas sans contrainte C’est un cas vraiment opératoire. En effet, la con-


dition d’Euler se ramène à p(u) + N u = 0. On a donc le système à résoudre
(éliminant le contrôle u:
 Ay + N −1 p = f

A∗ p − y = −zd
y, p ∈ H01 (Ω)

et on récupère le contrôle en ayant résolu ce système d’EDP sous forme faible.


On retrouve u = −N −1 p ou u = Ay − f .

5.3.1 Système gouverné par un problème de Neumann


On prend cette fois V = H 1 (Ω), H = L2 (Ω), et la même forme bilinéaire a. On
utilise alors A donné par le résultat suivant:

a(y, ψ) = f (ψ)∀ψ ∈ V ⇔ Ay = f.
1
On suppose que l’on a à la fois une donnée au bord g ∈ H − 2 (Γ) et une donnée
dans l’ouvert f1 ∈ L2 (Ω), de sorte que la forme linéaire soit, γ étant l’opérateur
de trace:
Z Z Z
f (ψ) = f1 ψdx + γψgdσ = f1 ψdx+ < g, γψ > .
Ω Γ Ω

L’état y(u) est alors la solution unique du problème dit de Neumann:



Ay(u) = f1 + u, dansΩ
∂y∂nA = g
5.4. EQUATION DE HAMILTON-JACOBI-BELLMANN 77

où la dérivée normale associée à l’opérateur A s’obtient grâce à:


X
< Aφ, ψ >= (aij ∂j φ∂i ψ) + (a0 φ, ψ) + (∂nA φ, γψ)Γ
i,j

et donc par intégration par parties


X
∂nA φ = ni aij ∂j φ|Γ .

l’égalité ci-dessus sur < Aφ, ψ > permet de construire de manière abstraite la
1
dérivée normale par passage à la limite pour φ, ψ dans H 1 donc γψ ∈ H 2 (Γ).
L’état adjoint est identifié comme la solution du problème de Neumann adjoint,
où il n’y a pas de terme source sur le bord:

A∗ p(u) = y(u) − zd , ∂nA∗ p(u) = 0.

En conclusion, pour l’ensemble des problèmes de contrôle, il suffit d’identifier


l’équation de l’état adjoint, dans le cas où la régularité Sobolev le permet.

5.4 Equation de Hamilton-Jacobi-Bellmann


On cherche à minimiser un critère dépendant de variables d’état x(t), t ∈ [0, 1],
et d’une commande u(t), sachant que x est solution d’une équation de com-
mande:

ẋ(t) = f (x(t), u(t), t)


avec une valeur initiale x(0) = xR0 .
1
Le critère étudié est J(u) = 0 g(x(t), u(t), t)dt + C(x(1)).
On forme le lagrangien du problème, sous les contraintes

(i)x(0) − x0 = 0
(ii)ẋ(t) − f (x(t), u(t), t) = 0
La contrainte (i) admet λ comme multiplicateur, la contrainte (ii) admet p(t)
comme multiplicateur (en effet, l’une est continue, l’autre est ponctuelle). Le
lagrangien est

Z 1 Z 1
L(x, u, λ, p) = g(x(t), u(t), t)dt+C(x(1))+ p(t)(ẋ(t)−f (x(t), u(t), t))dt+λ(x(0)−x0 ).
0 0

Par intégrations par parties, on trouve

R1 0 0
L(x, u, λ, p) = 0 Rg(x(t), u(t), t)dt + p(1)x(1) + C(x(1)) + λ(x(0) − x ) − p(0)x .
1
− 0 (ṗ(t)x(t) + p(t)f (x(t), u(t), t))dt

Les équations de point selle sont Lx = 0, Lu = 0, Lp = 0. On obtient les


équations formelles
78 CHAPTER 5. INTRODUCTION AU CONTRÔLE OPTIMAL

Z 1 Z 1
gx (x(t), u(t), t)w(t)dt− (ṗ(t)+p(t)fx (x(t), u(t), t))w(t)dt+C 0 (x(1))w(1) = 0,
0 0
Z 1 Z 1
gu (x(t), u(t), t)w̃(t)dt − p(t)fu (x(t), u(t), t)w̃(t)dt = 0,
0 0
Z 1
(π̇(t)x(t) + π(t)f (x(t), u(t), t))dt = 0.
0
De la deuxième, on déduit gu (x(t), u(t), t) = p(t)fu (x(t), u(t), t). De la
première, on déduit ṗ(t)+fx (x(t), u(t), t)p(t) = gx (x(t), u(t), t). De la troisième,
en effectuant une intégration par parties, on déduit l’équation (ii).
On note que le multiplicateur de Lagrange p est solution d’une équation que
l’on appelle équation adjointe de ẋ = f (x, u, t).
On remplace l’équation obtenue pour p dans le lagrangien. Alors

R1 R1
L(x, u, p, t) = 0[g(x(t), u(t), t) − xgx (t)]dt + p(1)x(1) + C(x(1)) − 0 p(t)(−x(t)fx
+f (x(t), u(t), t))dt + λ(x(0) − x0 ) − p(0)x0 .

Les expressions ci-dessus ressemblent de manière frappante aux expressions


du hamiltonien (intégrale première de l’équation d’Euler). En effet, g − xgx
ressemble a L − xLx .
On introduit alors l’hamiltonien de Pontryaguine:

H(x, u, p, t) = pf (x, u, t) − g(x, u, t).


On vérifie ∂x H = pfx − gx et ∂u H = pfu − gu . L’égalité gu = pfu obtenue à
partir de la deuxième équation ci-dessus implique que ∂u H = 0.
L’équation adjointe s’écrit ṗ = −∂x H(x(t), u(t), p(t), t). D’autre part, l’équation
sur x se réécrit ẋ = ∂p H(x(t), u(t), p(t), t).
Ainsi les conditions nécessaires d’optimalité impliquent que (x(t), u(t), p(t))
est solution du système:

 ẋ(t) = ∂p H(x(t), u(t), p(t), t)
ṗ(t) = −∂x H(x(t), u(t), p(t), t)
0 = ∂u H(x(t), u(t), p(t), t)

Si on introduit le Lagrangien instantané L(x, ẋ, u, p, t) = g(x, u, t) + p(ẋ −


f (x, u, t)), alors l’équation de l’état adjoint est

d
(Lẋ ) = Lx
dt
qui est l’équation d’Euler associée à ce lagrangien. D’autre part, de ce problème,
on déduit l’équation de Hamilton-Jacobi-Bellman.
Pour écrire cette équation on considère le même problème:
Z 1
infẋ(t)=f (x(t),u(t),t),x(0)=x0 J(u) = g(x(t), u(t), t)dt + C(x(1))
0
5.4. EQUATION DE HAMILTON-JACOBI-BELLMANN 79

et on introduit, comme pour l’étude des problèmes primaux et duaux, la solution


de infB(x, u), B à déterminer. Plus exactement, on considère τ ∈ [0, 1], y dans
l’espace d’arrivée, et x la solution de ẋ(t) = f (x(t), u(t), t), x(τ ) = y. On
introduit
R1
V (y, τ ) = min τ g(x(t), u(t), t)dt + C(x(1))
ẋ(t) = f (x(t), u(t), t), x(τ ) = y
Il semble bien sûr que le problème est aussi compliqué que de trouver le
minimum pour le problème précédent. Mais on va montrer que V est solution
d’une équation aux dérivées partielles.
Pour cela, on cherche V (y, τ + ).

Z 1
V (y, τ +) = min[ g(x(t), u(t), t)dt+c(x(1)), ẋ(t) = f (x(t), u(t), t), x(τ +) = y].
u τ +

D’autre part

Z 1 Z τ + Z 1
g(x(t), u(t), t)dt = g(x(t), u(t), t)dt + g(x(t), u(t), t).
τ τ τ +
R1
Soit u la solution du problème de minimisation pour τ g(x(t), u(t), t)dt. On
trouve

V (y, τ ) = min [g(y, v, τ ) + o() + V (x(τ + ), τ + )]


v=u(τ )

V (y, τ ) = min[g(y, v, τ ) + V (y + f (y, v, τ ) + o(), τ + )].


v

Heuristiquement, l’équation s’en déduit aisément en soustrayant à V (y +


f (y, v, τ ) + o(), τ + ) le terme V (y, τ + ) et en divisant par . On a

−∂τ V (y, τ ) = min[g(y, v, τ ) + ∂y V (y, τ )f (y, v, τ )].


v

Donc, même si V n’est pas connue, on peut accéder à l’équation différentielle


sur V .
Ceci s’exprime dans le

Théorème 5.3 Si l’équation de Hamilton-Jacobi-Bellman

∂V ∂V
+ min[g(y, v, t) + f (y, v, t)] = 0
∂t v ∂y
admet une solution de classe C 1 telle que V (x, 1) = C(x), alors le problème
R1
J(u) = 0 g(x(t), u(t), t)dt + C(x(1))
inf
ẋ(t) = f (x(t), u(t), t), x(0) = x0

admet une commande optimale v(x, t), qui minimise en v à chaque instant
80 CHAPTER 5. INTRODUCTION AU CONTRÔLE OPTIMAL

∂V
g(x, v, t) + (x, t)f (x, v, t).
∂x
L’équation de HJB s’écrit Vt = max H(x, −Vxt , u, t).

∂V ∂V
On considère pour cela G(x, u, t) = g(x, u, t) + ∂x (x, t)f (x, u, t) + ∂t (x, t).
Elle vérifie

∀t ∈ [0, 1], min G(x, u, t) = 0.


u

On note u∗
le point où ce minimum
R1 est atteint.
On remarque alors que 0 G(x(u), u, t)dt ≥ 0 pour tout u et que

Z 1
∂V ∂V
[ (x(u), t)f (x(u), u, t) + (x(u), t)]dt = V (x(1), 1) − V (x(0), 0)
0 ∂x ∂t

d’où on déduit

0 = J(u∗ ) − V (x0 , 0) ≤ J(u) − V (x0 , 0).


et donc bien sûr u∗ réalise le minimum de J.

Exemple Dans le cadre de cette équation de Hamilton-Jacobi Bellman, étudions


un exemple. C’est un problème de contrôle-commande (objet de la page de
garde ...)
On considère un oscillateur, qui peut être excité, et on souhaite le faire
passer d’un état donné à un autre état.
Cet oscillateur est régi par l’équation différentielle

ẍ + ω 2 (1 − εu(t))x = 0,
où x(0) et ẋ(0) sont connus, et on veut l’amener à l’état (x(t1 ), ẋ(t1 )), où
(x(t1 ))2 + (ẋ(t1 ))2 > (x(0))2 + (ẋ(0))2 . On peut le faire en introduisant la
commande u(t) qui vérifie 0 ≤ u(t) ≤ 1. Ainsi, on peut faire varier la fréquence
d’oscillation du ressort entre ω 2 et ω 2 (1 − ε).
On est dans la situation de ce chapitre lorsque on écrit cette équation
différentielle sous la forme du système différentiel

ẋ = y, ẏ = −(1 − εu(t))x.

Ainsi f1 (x, y, u, t) = y, f2 (x, y, u, t) = −(1 − εu(t))x et Ẋ = f . D’autre


part, on introduit le multiplicateur de Lagrange (p, q) associé à (x, y). Il n’y a
pas d’équation de contrôle sur u.
Le Lagrangien est alors
Rt
L(x, u, λ, µ, k, p, q) = 0 1 (ẋ(t) − f1 (x, y, u, t))p(t) + (ẏ(t) − f2 (x, y, u, t))q(t))dt
+λ(x(0) − x0 ) + µ(y(0) − y0 ) + k((x(t1 ))2 + (y(t1 ))2 − 1).
5.4. EQUATION DE HAMILTON-JACOBI-BELLMANN 81

Après intégration par parties en temps, on trouve les équations adjointes


pour p et q de sorte que ce Lagrangien ait un extremum (point selle). Il s’agit
de
Rt
L(x, u, λ, µ, k, p, q) = − 0 1 [xṗ + yp + y q̇ − (1 − εu)xq]dt + x(t1 )p(t1 ) + y(t1 )q(t1 )
−x(0)p(0) − y(0)q(0) + λ(x(0) − x0 ) + µ(y(0) − y0 )
+k((x(t1 ))2 + (y(t1 ))2 − 1)

et on en déduit les relations ṗ = (1−εu(t))q et q̇ = −p. En utilisant l’extremalité


en t1 , on trouve aussi que p(t1 ) = −kx(t1 ), q(t1 ) = −ky(t1 ). De plus, en
regardant en t = 0, on trouve p(0) = λ, q(0) = µ, ce qui fait que les conditions
initiales ne sont pas connues. Il faudra alors partir de la condition finale.
Le Hamiltonien de Pontriaguine est alors H = pf1 + qf2 = py − q(1 − εu)x =
py − qx + εuxq. Le principe du maximum de Pontriaguine, énoncé ici sans
démonstration (car on se trouve dans le cas discontinu) est de choisir (x, u, p)
qui réalise l’extremum de H, et plus précisément on prend le maximum en u
sur les contraintes. Lorsque xq < 0, ce maximum est atteint en u = 0, lorsque
xq > 0, il est atteint en u = 1. Le contrôle optimal prendra donc les valeurs 0
ou 1 selon le signe de qx.
Si k = 0, les conditions finales pour q et p sont 0, et l’équation différentielle
de second ordre sur q a ses conditions de Cauchy nulles en t = t1 , donc p et
q sont nulles, ce qui est impossible car on ne peut pas commander le système.
Donc k 6= 0, et donc, en divisant q et p par cette constante, on se ramène
à k = 1. Dans ce cas, pour t = t1 , q(t1 )x(t1 ) = − 21 dt d
[(x(t))2 ](t1 ). Si cette
quantité est négative, elle le reste dans un intervalle ]t1 − ε, t1 [, donc le contrôle
u est égal à 0 dans cet intervalle, et donc l’énergie en t1 est égale à l’énergie
en t1 − ε, ce qui est contradictoire avec le fait que le contrôle est optimal.
Ainsi le contrôle est égal à 1 dans ce voisinage, donc −xẋ(t1 ) < 0. On peut
positionner le point d’arriver dans le quatrième quadrant (x > 0, y < 0).On écrit
x(t1 ) = cos α, y(t1 ) = sin α, α ∈] − π2 , 0[. Ainsi on trouve q(t1 ) = cos(α + π2 ),
p(t1 ) = sin(α + π2 ). Le point (p(t), q(t)) est, dans un voisinage de t1 , sur
p2 2α
l’ellipse q 2 + 1−ε = a2 = sin2 α + cos 1−ε , et le point (x(t), y(t)) est sur l’ellipse
y2 2 2 2
x2 + 1−ε = b2 = cos2 α + sin α 2
1−ε . On contrôle que a =
1−ε sin α
1−ε et b2 = 1−ε1−ε
cos α
.
Dans ce qui suit, on va construire une trajectoire ’en remontant le sens du
temps’ à partir du point d’arrivée. PLus précisément, on adopte la démarche
suivante:

1. on détermine T > t1 tel que x(t) ne s’annule pas sur [t1 , T [ et s’annule en
t = T . Le contrôle reste u = 1.

2. on cherche le premier point t2 < t1 tel que q s’annule (u = 1 sur ]t2 , T [)

3. on construit t3 < t2 tel que x s’annule en t3 (u = 0 sur ]t3 , t2 [)

4. on construit t4 < t3 tel que q s’annule en t4 (u = 1 sur ]t4 , t3 [)

5. on construit T̃ < t4 tel que x s’annule en T̃ (u = 0 sur ]T̃ , t4 [).

• Sur ]t2 , T [:
82 CHAPTER 5. INTRODUCTION AU CONTRÔLE OPTIMAL

On commence par donner la forme des fonctions x et q. On trouve x(t) =


1 1 1
b cos((1 − ε) 2 (t − t1 ) + β), ẋ(t) = y = −b(1 − ε) 2 sin((1 − ε) 2 (t − t1 ) + β), d’où
on déduit β ∈]0, π2 [ et tan β = − tan α1 .
(1−ε) 2
On suppose que le système reste dans l’état excité avec u = 1. On sait
1
que q(t) = a cos((1 − ε) 2 (t − t1 ) + γ) avec γ ∈] − π2 , 0[, a cos γ = − sin α,
1
a(1 − ε) 2 sin γ = cos α. On en déduit γ ∈] − π2 , 0[ et tan γ = 1
1 . On
(1−ε) 2 tan α
contrôle alors que ab cos(γ − β) = ε sin1−ε
α cos α
< 0, donc, ajoutant le fait que
π
γ − β ∈] − π, 0[, il vient γ − β ∈] − π, − 2 [. On remarque que ab sin(γ − β) =
− 1 1.
(1−ε) 2
1
Soit T tel que (1 − ε) 2 (T − t1 ) + β = π2 . On en déduit que, pour t ∈]t1 , T ],
1
γ + (1 − ε) 2 (t − t1 ) décrit ]γ, γ + π2 − β] ⊂] − π2 , 0], avec
π 1 π
q(T ) = a cos( + γ − β), q̇(T ) = −a(1 − ε) 2 sin( + γ − β).
2 2
Lorsque l’on introduit ρ(α) et ω(α) tels que q(T ) = ρ(α) cos ω(α) et q̇(T ) =
1
ρ(α) sin ω(α), on obtient tan ω(α) = −(1 − ε) 2 tan( π2 + γ − β), ce qui donne
tan ω(α) = −ε cos α sin α. De plus, (ρ(α))2 = a2 sin2 (γ − β) + a2 (1 − ε) cos2 (γ −
2 sin2 α cos2 α
β) = 1+ε1−ε cos2 α
.
1 1
De plus ẋ(T ) = −b(1 − ε) 2 = −(1 − ε cos2 α) 2 .
On commence à remonter le temps à partir de t = T . On écrit
1
x(t) = b cos((1 − ε) 2 (t − T ) + π2 )
1
q(t) = a cos((1 − ε) 2 (t − T ) + π2 + γ − β).
Comme π2 + γ − β ∈] − π2 , 0[, on voit qu’en remontant le sens du temps, le
premier point òu le produit qx change de signe est atteint pour q au temps t2
tel que
1 π π
(1 − ε) 2 (t2 − T ) + +γ−β =− .
2 2
1
Le contrôle est u = 1 pour t ∈]t2 , T [, et q̇(t2 ) = a(1 − ε) 2 . On vérifie aussi que

π b 1 π b
x(t2 ) = b cos(β−γ−π+ ) = ρ(α) cos ω(α), ẋ(t2 ) = −b(1−ε) 2 sin(β−γ− ) = ρ(α) sin ω(α).
2 a 2 a
• Sur ]t3 , t2 [:
Le contrôle est u = 0, et les trajectoires sont des cercles. On identifie
directement

x(t) = ρ(α) ab cos(t − t2 − ω(α))


1
q(t) = a(1 − ε) 2 cos(t − t2 − π2 ).
On voit que la première quantité qui s’annule est x(t), au point t3 = t2 +
ω(α) − π2 . On a alors

b 1 1
ẋ(t3 ) = ρ(α) , q(t3 ) = −a(1 − ε) 2 cos ω(α), q̇(t3 ) = a(1 − ε) 2 sin ω(α).
a
5.4. EQUATION DE HAMILTON-JACOBI-BELLMANN 83

• Sur ]t4 , t3 [:
Le contrôle est a nouveau u = 1. Les courbes décrites par les points sont

(ẋ(t))2 b2 (q̇(t))2
(x(t))2 + = ρ2 (α) 2 , (q(t))2 + = a2 (1 − ε cos2 ω(α))
1−ε a (1 − ε) 1−ε

ce qui donne
1
x(t) = ρ(α) ab 1
1 cos((1 − ε) 2 (t − t3 ) − π2 )
(1−ε) 2
1 1
q(t) = a(1 − ε cos2 ω(α)) 2 cos((1 − ε) 2 (t − t3 ) + β(α))
avec les relations

1
sin ω(α) (1 − ε) 2 cos ω(α)
sin β(α) = − 1 , cos β(α) = − 1 .
(1 − ε cos2 ω(α)) 2 (1 − ε cos2 ω(α)) 2

On trouve donc β(α) ∈] − π, − π2 [ et tan β(α) = − ε sin α cos


1
α
.
(1−ε) 2
Le point où q(t) s’annule (qui est le premier point inférieur à t3 où xq change
de signe) est donné par
1 3π
(1 − ε) 2 (t4 − t3 ) + β(α) = − .
2
On a
x(t4 ) = −µ(α) cos ω(α), ẋ(t4 ) = −µ(α) sin ω(α),
avec
b cos2 β(α) (1 + ε2 cos2 α sin2 α)
(µ(α))2 = (ρ(α) )2 ( +sin2 β(α)) = .
a 1−ε (1 − ε + ε2 cos2 α sin2 α)(1 − ε sin2 α)

• Pour t ∈]T̃ , t4 [:
le contrôle est alors u = 0, les points se déplacent sur des cercles, donc
x(t) = µ(α) cos(t − t4 − π + ω(α)). Le point où x(t) s’annule est alors T̃ =
t4 − π2 − ω(α), ce qui donne tout de suite ẋ(T̃ ) = −µ(α).
Dans ce cas, on a fait un tour complet de l’espce des phases pour x(t), y(t)
de t = T̃ à t = T . Le gain d’orbite (rapport entre la valeur du point pour les
deux temps) est alors
1
ẋ(T ) b(1 − ε) 2 1 − ε + ε2 cos2 α sin2 α
= =
ẋ(T̃ ) µ(α) 1 + ε2 cos2 α sin2 α

en ayant utilisé 1 − ε + ε2 cos2 α sin2 α = (1 − ε cos2 α)(1 − ε sin2 α).


On vérifie alors que ẋ(t 2) ẋ(t4 )
x(t2 ) = tan ω(α), x(t4 ) = tan ω(α) et limt→T,t<T
ẋ(t)
x(t) =
ẋ(t) ẋ(t)
+∞, limt→t3 ,t>t3 x(t) = −∞, limt→t3 ,t<t3 x(t) = +∞, limt→T̃ ,t>T̃ ẋ(t)
x(t) = −∞.
ẋ(t)
On a ainsi vu que le contrôle est donné par u(t) = H( x(t) − tan ω(α)), où
H désigne la fonction de Heaviside.
84 CHAPTER 5. INTRODUCTION AU CONTRÔLE OPTIMAL
Chapter 6

Approximation de solutions de
problèmes d’optimisation

Nous donnons dans cette section des algorithmes d’approximation de solutions


de problèmes de minimisation, afin de pouvoir mettre en œuvre des méthodes
numériques. Nous nous restreignons aux fonctionnelles convexes, car, si il est
difficile de trouver la solution de minimisation de problèmes non convexes, il est
encore moins évident de trouver des algorithmes qui convergent vers de telles
solutions. Nous étudierons ici les algorithmes de relaxation, où on fait les
calculs successifs sur chaque variable, les algorithmes de gradient, l’algorithme
d’Uzawa, et, chose que je considère comme très importante, la méthode de
pénalisation des contraintes, qui est celle que nous avons abordé dans l’étude
du problème de Bolza.

6.0.1 Algorithme de relaxation


On suppose que l’on étudie un minimum sans contraintes pour J(v) = J(v1 , ..., vN ),
chaque vj étant élément d’un espace de Hilbert Vj . On suppose J α−convexe
différentiable. Le minimum existe et est unique. On note ce minimum
(u1 , ..., uN ).
L’algorithme de relaxation utilise le fait que la restriction de J à Vj , toutes
les autres composantes étant fixées, est aussi α−convexe. On dit que c’est de
la relaxation, car on ‘ne traite pas’ toutes les composantes en même temps, on
en relaxe une sur laquelle on minimise.
Soit u0 = (u01 , .., u0N ) donné. On écrit une suite un = (un1 , .., unN ). Pour
simplifier la compréhension, on suppose N = 3, mais le résultat s’étend, avec
une petite surchage de notations, pour N quelconque.
On suppose le n−ième terme construit un = (un1 , un2 , un3 ). On résout

inf J(v1 , un2 , un3 ) = J(un+1


1 , un2 , un3 )
v1 ∈V1

puis
inf J(un+1
1 , v2 , un3 ) = J(un+1
1 , un+1
2 , un3 )
v2 ∈V2

85
86 CHAPTER 6. APPROXIMATION DE SOLUTIONS

enfin
inf J(un+1
1 , un+1
2 , v3 ) = J(un+1
1 , un+1
2 , un+1
3 ).
v3 ∈V3

Exemple d’utilisation de la méthode de relaxation On considère la


fonctionnelle J(x1 , x2 ) = 21 (x21 + x22 + x1 x2 ) − αx1 − βx2 .
Son minimum est atteint en un point (x01 , x02 ) donné par
1 1
x1 + x2 = α, x2 + x1 = β
2 2
soit
4 2 4 2
x01 = α − β, x02 = β − α.
3 3 3 3
L’algorithme de relaxation consiste à partir du point (x, y) quelconque, puis
à déterminer le point où J(x1 , y) est minimum (c’est donc x11 = α − 21 y), évaluer
le point x2 où J(x11 , x2 ) est minimum, soit x12 = β − 12 x11 , et donc étudier la
suite récurrente
1 1
xn+1
1 = α − xn2 , xn+1
2 = β − xn+1 .
2 2 1
On obtient ainsi une relation de récurrence qui est
4 2 1 4 2
xn+1
1 − ( α − β) = (xn1 − ( α − β))
3 3 4 3 3
qui conduit à
4 2 1 4 2
xn1 − ( α − β) = n [x11 − ( α − β)]
3 3 4 3 3
dont on a la convergence vers la valeur x1 . 0

Un résultat général est le suivant:

Théorème 6.1 On suppose que J est α−convexe différentiable et que, de plus


J 0 est Lipschitzien sur tout borné:

||J 0 (v) − J 0 (w)|| ≤ C||v − w||.


Alors la suite un construite par le procédé décrit converge vers la solution de

inf J(v1 , ..., vN ).


(v1 ,...,vn )∈V1 ×...×VN

Preuve On introduit, pour chaque i, la solution du i−ème problème in-


termédiaire. Ainsi

un+1,1 = (un+1
1 , un2 , un3 ), un+1,2 = (un+1
1 , un+1
2 , un3 ), un+1,3 = (un+1
1 , un+1
2 , un+1
3 ).

On note Ji0 la dérivée de J par rapport à l’élément de Vj , tous les autres


éléments étant fixes:
87

J(v1 , .., vi + εwi , ..., vN ) − J(v)


(Ji0 (v1 , ..., vN ), wi ) = lim .
ε→0 ε
Comme un+1
i est solution d’un problème de minimisation avec une fonction-
nelle α−convexe, il est unique et Ji0 (un,i ) = 0.
Revenons à N = 3 pour alléger les notations. En utilisant l’α−convexité de
J, on écrit
α n,1
J(un ) − J(un,1 ) ≥ (J10 (un,1 ), un − un,1 ) + ||u − un ||2 ,
2
α n,2
J(un,1 ) − J(un,2 ) ≥ (J20 (un,2 ), un,1 − un,2 ) +||u − un,1 ||2 ,
2
α
J(un,2 ) − J(un,3 ) ≥ (J30 (un,3 ), un,2 − un,3 ) + ||un,3 − un,2 ||2 ,
2
et en sommant les trois égalités et en utilisant les égalités d’Euler partielles
α
J(un ) − J(un+1 ) ≥ ||un+1 − un ||2 .
2
n
• Comme la suite J(u ) est ainsi décroissante, minorée par J(u), elle con-
verge, donc la différence J(un+1 ) − J(un ) tend vers 0, donc un+1 − un tend vers
0. Notons que cela ne permet pas de conclure sur la convergence de
un .
• La suite un est bornée. En effet, si elle ne l’était pas, il existerait une
sous-suite telle que ||un0 || tendrait vers l’infini. Ainsi, comme J est α−convexe,
J(un0 ) tendrait vers l’infini, ce qui est impossible car la suite J(un ) est décroissante.
On peut alors appliquer l’inégalité Lipschitz.
• On utilise l’α−convexité:

(J 0 (un ) − J 0 (u), un − u) = (J 0 (un ), un − u) ≥ α|un − u|2


puis la définition des dérivées partielles:
X
(J 0 (un ), un − u) = (Ji0 (un ), uni − ui )
i
puis les N équations d’Euler partielles1
(J 0 (un ), un − u) = P
P 0 n 0 n,i n
i (Ji (u ) − Ji (u ), ui − ui )
≤ C i≤N −1 ||u − u ||||uni − ui ||
n n,i
1
≤ C(N − 1) 2 ||un+1 − un ||.||un − u||.
1
noter la différence de notations entre un
i et u
n,i
, on l’explicite pour N = 3 et on utilise
J30 (un,3 ) = 0:

(J 0 (un ), un − u)
= (J10 (un n n 0 n
1 , u2 , u3 ) − J1 (u1 , u2
n−1
, u3n−1 ), un
1 − u1 )
0 0 n−1
+(J2 (u1 , u2 , u3 ) − J2 (u1 , u2 , u3 ), un
n n n n n
2 − u2 )
ce qui permet d’utiliser le caractère Lipschitz, pour avoir
1
(J 0 (un ), un − u) ≤ C[(||u n−1 n 2
√ 2 n+1− u2 ||n + ||u
n−1
3 − un 2 n n n−1
3 || ) 2 ||u1 − u1 || + ||u3 − u3 ||.||un
2 − u2 ||]
n
≤ C 2||u − u ||.||u − u||
√ 2 1
grâce à ||un n
1 − u1 || + ||u2 − u2 || ≤ 2(||un 2 n
1 − u1 || + ||u2 − u2 || ) 2 ce qui achève la preuve de
l’inégalité.
88 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Il vient alors, par l’inégalité d’α−convexité:


1
α||un − u||2 ≤ C(N − 1) 2 ||un+1 − un ||.||un − u||.
Cela donne
1
C(N − 1) 2 n+1
||un − u|| ≤ ||u − un ||.
α
On a démontré la convergence de un vers u et la majoration entre les deux
suites.

6.1 Algorithmes de descente


On commence par la définition d’une direction de descente. Pour cela, on se
place en un point u du domaine d’étude, pour une fonctionnelle J et on cherche
des points v tels que J(v) < J(u) et v aussi dans le domaine. On en déduit
qu’il suffit que v − u soit une direction admissible pour  = 1.
Ceci nous amène à la

Définition 6.1 Soit J une fonctionnelle continue sur V , espace de Hilbert et


soit K l’espace des contraintes. On dit que d est une direction de descente au
point u de K si
i) d est une direction admissible de K̇(u)
ii) Il existe ρ0 > 0 tel que

∀ ∈]0, ρ0 [, J(u + d) < J(u).

On peut aussi écrire une définition plus générale, qui tienne compte des
contraintes égalités:

Définition 6.2 On suppose que d ∈ K(u) et que, de plus, il existe 0 > 0 et


d() tels que d() → d et ∀ < 0 , u + d() ∈ K (généralisation continue de la
direction admissible au sens de Fréchet).
On dit que d est une direction de descente limite au point u de K si il existe
1 ≤ 0 tel que
pour 0 <  < 1 , on a J(u + d()) < J(u).

Il est alors clair que

Lemme 6.1 Si d est une direction de descente, c’est une direction de descente
limite.

Ceci est une conséquence du fait que si d est une direction de descente,
d ∈ K̇(u) donc d ∈ K(u) et la suite que l’on peut définir est d() = d.
On a alors le résultat suivant

Lemme 6.2 Si J est différentiable en u et si (J 0 (u), d) < 0, d direction admis-


sible continue, alors d est une direction de descente limite.
6.1. ALGORITHMES DE DESCENTE 89

Preuve Comme d est une direction admissible continue, il existe d() et 0


tels que, pour  < 0 , u + d() soit dans K. Comme J est différentiable en u,
on peut écrire l’égalité de Taylor définissant la dérivabilité au sens de Fréchet:

J(u + d()) = J(u) + [(J 0 (u), d) + (J 0 (u), d() − d) + o(1)].


On sait que (J 0 (u), d) < 0 et la forme linéaire représentée par J 0 (u) est
continue donc (J 0 (u), d() − d) + o(1) tend vers 0. Il existe 1 < 0 tel que, pour
 < 1 , |(J 0 (u), d() − d) + o(1)| ≤ − 21 (J 0 (u), d). Ainsi, pour de tels  on trouve
[(J 0 (u), d) + (J 0 (u), d() − d) + o(1)] < 0, donc J(u + d()) < J(u), ce qu’il
fallait démontrer.
Remarque: la réciproque est fausse. Il suffit de prendre la fonction J(x, y) =
−(x4 + y 4 ). Au point (0, 0), toute direction est une direction de descente
continue et pourtant la dérivée est la forme différentielle nulle. Si on prend
J(x, y) = x+y−(x4 +y 4 ), la forme linéaire dérivée est (J 0 (0, 0), h1 , h2 ) = h1 +h2 ,
et toute direction telle que h1 + h2 ≤ 0 est une direction de descente.
La définition où on étudie le point u + d n’est pas adaptée aux contraintes
égalités, pour lesquelles la bonne notion (pour une direction admissible) est la
notion de direction admissible continue. En fait, avoir à la fois le paramètre  et
la direction d() qui varient n’est pas pratique dans l’écriture d’un algorithme.
On écrit donc un résultat, qui permet de s’affranchir du cas des contraintes
égalité:

Proposition 6.1 Soit J une fonctionnelle différentiable sur un espace de Hilbert


V et F une fonctionnelle différentiable. Le problème:

infJ(v)
v ∈ K, F (v) = 0
est équivalent, pour tous les points u où F (u) = 0, F 0 (u) 6= 0, à un problème
de minimisation sur (F 0 (u))⊥ de la forme

{v + tF 0 (u) ∈ K, t = g(v), v ∈ (F 0 (u))⊥ }


˜ = J(u + v + g(v)F 0 (u)).
pour la fonctionnelle J(v)

Ceci est un résultat de réduction des variables. On en verra l’utilisation


plus loin, lorsqu’on étudiera l’algorithme de gradient réduit.

Preuve Comme F 0 (u) est non nul, il définit une droite vectorielle dans l’espace
de Hilbert, qui est un fermé convexe. Ainsi tout point w de l’espace de Hilbert se
projette en un point φ(w)F 0 (u), et on a w − φ(w)F 0 (u) dans l’espace orthogonal
à F 0 (u).
L’égalité F (v + u + tF 0 (u)) = 0 a pour solution t = 0, v = 0 car u vérifie
F (u) = 0. Pour chaque v dans (F 0 (u))⊥ , on trouve, par le théorème des fonc-
tions implicites (dû à ∂t (F (v+u+tF 0 (u))) = ||F 0 (u)||2 > 0) une unique solution
de l’égalité ci-dessus, soit t = g(v). Alors, au voisinage de u, on étudie pour tout
v dans l’intersection Iu d’une boule de petit rayon et de (F 0 (u))⊥ , la fonction-
nelle sous les contraintes. On voit alors que pour tout v dans Iu , le problème
90 CHAPTER 6. APPROXIMATION DE SOLUTIONS

de minimisation s’écrit u + v + tF 0 (u) ∈ K et u + v + tF 0 (u) ∈ {F (w) = 0},


soit u + v + tF 0 (u) ∈ K et t = g(v), soit u + v + g(v)F 0 (u) ∈ K. Ainsi on s’est
˜ = J(u + v + g(v)F 0 (u)) et au problème
ramené à la fonctionnelle J(v)

˜

 infJ(v)
v ∈ Iu
v + g(v)F 0 (u) ∈ K

La contrainte égalité a ainsi été résolue. On note cependant que résoudre


un problème numérique en utilisant le théorème des fonctions implicites est
quasiment impossible, sauf si les contraintes sont affines.

6.2 Cas classiques d’algorithmes de descente


Un algorithme de descente est donné par la définition suivante:

Définition 6.3 Un algorithme de descente est une suite de points de V × V ×


IR+ , qui s’écrit

(un , dn , ln )
telle que
i) dn est une direction de descente en xn pour J, associée à ρn tel que
J(un + dn ) < J(un ) pour 0 <  < ρn
ii) ln est un pas vérifiant 0 < ln < ρn
iii) un+1 = un + ln dn .

Les algorithmes les plus courants sont des algorithmes de recherche linéaires.
En effet, ces algorithmes conduisent, une fois la direction de descente choisie, à
la recherche d’une valeur réelle qui est la valeur du pas. On suppose ainsi que, à
chaque étape, la direction de descente dn soit choisie. Nous allons décrire dans
ce qui suit un certain nombre d’algorithmes.
Dans tous les cas, on notera, par souci de simplicité

φ() = J(u + d). (6.2.1)

6.2.1 Pas optimal


Définition 6.4 Pour chaque couple (u, d), on note, si elle existe, la solution
du problème

Min≥0 J(u + d) = Min≥0 φ().


Il s’appelle le pas optimal.

L’algorithme dit du pas optimal conduit à associer, à chaque (un , dn ), le


point n construit par la définition 6.4. C’est l’algorithme le plus satisfaisant, en
théorie, mais il conduit à déterminer la solution d’un problème de minimisation
chaque fois.
6.2. CAS CLASSIQUES D’ALGORITHMES DE DESCENTE 91

6.2.2 Pas de Curry


Le pas de Curry est donné par:
Définition 6.5 Le pas de Curry est le premier extremum local de φ, soit encore

lc = inf{ > 0, φ0 () = 0}.


Alors φ(lc ) < φ(0), et pour 0 ≤  ≤ lc , φ() ≥ φ(lc ).
Comme φ0 ne s’annule pas sur ]0, lc [, φ0 garde le même signe sur cet Rintervalle,

soit φ0 ≥ 0 ou φ0 ≤ 0. Dans le cas φ0 ≥ 0, on vérifie que φ() − φ(0) ≥ 0 φ0 (t)dt,
ainsi φ() ≥ φ(0), contradiction avec le fait que d soit une direction de descente.
Ainsi φ0 () ≤ 0 sur [0, lc ]. Pour  ∈ [0, lc ], on vérifie
Z lc
φ(lc ) − φ() = φ0 (t)dt

donc, pour 0 ≤  ≤ lc , on trouve φ(lc ) ≤ φ().
Dans le cas où lc est un point d’inflexion, on ne peut bien sûr pas conclure
sur le fait que lc soit un minimum local. En revanche, on sait que pour cette
valeur, φ(lc ) est le minimum de φ sur [0, lc ].

6.2.3 Pas de Goldstein


Définition 6.6 On dit que lg est un pas de Goldstein si il existe m1 , m2 tels
que 0 < m1 < m2 < 1 tels que

φ(lg ) ≥ φ(0) + m1 lg φ0 (0)




φ(lg ) ≤ φ(0) + m2 lg φ0 (0)

C’est un pas pseudo optimal, qui vérifie

φ(lg ) − φ(0)
0 < m1 ≤ ≤ m2 < 1.
lg φ0 (0)
La situation importante est la situation où il existe au moins 1 , 0 < 1 < ρ0
tel que

φ(0) + 1 φ0 (0) < φ(1 ) < φ(0).


Dans ce cas, on a la
Proposition 6.2 i) Si φ() ≤ φ(0) + φ0 (0) pour tout  ∈ [0, ρ0 ], il n’existe pas
de pas de Goldstein.
ii) Dans le cas contraire, il existe m1 , m2 ∈]0, 1[, m1 < m2 tel que l’ensemble
des points l vérifiant les inégalités de la définition 6.6 soit non vide.
iii) Toujours dans le cas contraire, il existe 2 > 0 et M > 0 (dans le cas
où la fonctionnelle admet un minimum) tel que, pour tout lg , 2 ≤ lg ≤ M .
Selon le point iii), il y a une borne supérieure pour lg , et lg n’est pas trop
petit. Ces deux remarques sont importantes, et en particulier si on avait
φ() ≤ φ(0) + φ0 (0) on n’aurait pas de majorant a priori de .
92 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Preuve On note m = φ(11φ)−φ(0) 0 (0) . On sait que m ∈]0, 1[ et si on choisit m1 <

m < m2 , l’ensemble des pas de Goldstein associés à [m1 , m2 ] est non vide. En
effet, définissons h() = φ()−φ(0)
φ0 (0) et, par continuité, h(0) = 1. La fonction h est
une fonction continue.
Par le théorème des valeurs intermédiaires, comme h(0) = 1 et h(1 ) = m,
l’image réciproque dans [0, 1 ] de [m, m2 ] ⊂ [m, 1] est non vide. Tout point de
[m, m2 ] a au moins un antécédent par h, qui est un pas de Goldstein.
D’autre part, l’image réciproque de ]m2 , 1] contient un voisinage [0, 2 ] de
 = 0 puisque h(0) = 1. Ainsi on a ∀ ∈ h−1 (]m2 , 1]),  n’est pas un pas de
Goldstein, donc si lg est un pas de Goldstein, lg ≥ 2 .
Enfin, on ne peut pas avoir  → ∞. En effet, cela impliquerait que pour
tout , ou au moins pour une suite n tendant vers +∞, la relation

φ(n ) − φ(0)
≥ m1
n φ0 (0)
soit φ(n ) ≤ φ(0)+m1 φ0 (0)n . Il existe donc une suite n telle que J(u+n d) →
−∞, et le minimum n’existe pas.

6.2.4 Pas de Wolfe


Définition 6.7 lw est un pas de Wolfe si il existe m1 , m2 , 0 < m1 < m2 < 1
tels que

φ(lw ) ≤ φ(0) + m1 lw φ0 (0)




φ0 (lw ) ≥ m2 φ0 (0)

Ce pas de Wolfe a les mêmes propriétés que celui de Goldstein; en effet on


a

Proposition 6.3 i) Si φ0 () ≤ φ0 (0) pour tout  ∈ [0, ρ0 [, il n’existe pas de pas
de Wolfe. (On note que cela implique qu’il n’existe pas de pas de Goldstein).
ii) Dans le cas contraire, il existe (m1 , m2 ) tels que l’ensemble des points l
vérifiant les inégalités de la définition 6.7 est non vide.
iii) Il existe 02 > 0 et M > 0 tels que lw ≥ 02 , lw ≤ M .

φ0 (1 )
Preuve Si 1 donné tel que φ0 (1 ) > φ0 (0), alors m = φ0 (0) < 1 et donc on
φ0 (0) 0 ()
choisit m2 ∈]m, 1[. Comme = 1 et que la fonction
φ0 (0)  → φφ0 (0)
est continue,
par le théorème des valeurs intermédiaires, tout point de ]m, 1] a au moins un
antécédent, et l’image réciproque de ]m2 , 1] contient un voisinage de 0. On
prend un point l de (φ0 )−1 [m2 φ0 (0), mφ0 (0)], ainsi l ≥ 02 .
La fonction  → φ()−φ(0)
φ0 (0) est continue sur le compact [02 , ρ0 ] et ne s’annule
pas sur cet intervalle, donc

φ() − φ(0)
inf∈[02 ,ρ0 ] = α > 0.
φ0 (0)
6.3. RÉSULTATS DE CONVERGENCE 93

Si on choisit 0 < m1 < α, on trouve que pour tout  ∈ [02 , ρ0 ], φ()−φ(0)


φ0 (0) ≥ α,
donc  est un pas de Wolfe.
Enfin, si on était dans le cas ρ0 = +∞ et si il existait une suite de pas de
Wolfe qui tendait vers +∞, il existe donc n telle que φ(n ) ≤ φ(0) + m1 n φ0 (0),
donc J(u + n d) → −∞ et le minimum n’existe pas.

6.3 Résultats de convergence


On a le

Théorème 6.2 On suppose J continuement différentiable et on suppose que


l’on a un algorithme de descente (un , dn , ln ) vérifiant ||dn || = 1. On suppose
qu’il existe α > 0 tel que

(H) (J 0 (un ), dn ) ≤ −α|dn ||J 0 (un )| = −α|J 0 (un )|.


i) Si, à chaque étape n, ln est un pas de Curry ou de Wolfe, et si la suite
un converge, elle converge vers une solution de J 0 (u) = 0.
ii) si ln est un pas de Goldstein ou de Wolfe, alors J(un ) → −∞ ou
lim inf||J 0 (un )|| = 0.

On démontre ce théorème.
Preuve de i)
On suppose que la suite un converge (dans le cas du pas de Curry). Ainsi,
comme un+1 − un tend vers 0, ln tend vers 0 puisque dn est de norme 1. D’autre
part, comme J est continuement différentiable, la dérivée de φ est

φ0 () = (J 0 (un + dn ), dn ).


Dans le cas où ln est le pas de Curry, on a (J 0 (un + ln dn ), dn ) = 0. D’autre
part

(J 0 (un + ln dn ) − J 0 (un ), dn ) = −(J 0 (un ), dn ) ≥ α||J 0 (un )||.


On a l’inégalité

|(J 0 (un + ln dn ) − J 0 (un ), dn )| ≤ ||J 0 (un + ln dn ) − J 0 (un )||


On trouve alors
1 0
||J 0 (un )|| ≤
||J (un + ln dn ) − J 0 (un )||.
α
Comme J 0 est continue, on vérifie que J 0 (un+1 ) − J 0 (u) − (J 0 (un ) − J 0 (u)) tend
vers 0 dans l’espace des formes linéaires, donc on en déduit que J 0 (un ) tend
vers 0.
D’autre part, la suite J(un ) est strictement décroissante (par construction)
donc comme un converge vers u, la suite J(un ) converge vers J(u) et la suite
J 0 (un ) converge vers J 0 (u). On en déduit J 0 (u) = 0. Le point i) est démontré
pour le pas de Curry.
94 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Démontrons le point i) pour la règle de Wolfe. On suppose que un con-


verge. Par continuité J(un ) converge vers J(u) et J 0 (un ) converge vers J 0 (u).
On a (J 0 (un ), dn ) ∈ [−α||J 0 (un )||, 0] donc toute suite extraite convergente de
(J 0 (un ), dn ) converge vers une limite l dans l’intervalle [−α||J 0 (u)||, 0].
On utilise la deuxième inégalité du pas de Wolfe. On a alors (J 0 (un+1 ), dn ) ≥
m2 (J 0 (un ), dn ). On note que si on prend une suite extraite convergente de
(J 0 (un ), dn ), notée (J 0 (uφ(n) ), dφ(n) ), la suite (J 0 (uφ(n)+1 ), dφ(n) ) converge aussi
vers l car la différence est majorée par un terme tendant vers 0 par continuité
de J 0 et convergence de la suite un . Ainsi, l qui est négatif vérifie l’inégalité
l ≥ m2 l, soit (1 − m2 )l ≥ 0 donc l = 0.
On a démontré le point i) pour la règle de Wolfe.
Démontrons le point ii). Pour cela, suposons que liminf||J 0 (un )|| = α0 > 0.
Alors il existe N assez grand tel que, pour tout n ≥ N on ait ||J 0 (un )|| > α20 . Si
cela n’était pas le cas, il existerait un nombre infini de termes de cette suite de
nombres positifs qui sont compris entre 0 et α20 , donc il existerait une sous-suite
extraite de cette suite qui convergerait vers une valeur comprise entre 0 et α20 ,
contradictoire avec l’hypothèse que α0 est la plus petite des limites des suites
extraites.
On en déduit alors
αα0
||un+1 − un || ≤ J(un ) − J(un+1 ).
2
Si J(un ), qui est une suite décroissante, ne tend pas vers −∞, alors elle
tend vers une limite l et la série de terme généralP (J(un ) − J(un+1 )) est une
série convergente, donc la somme de la série u1 + n (−un + un+1 ) existe, et on
la note u, qui est la limite de la suite un . Deux cas se présentent: l’application
de la règle de Wolfe et de celle de Goldstein.
i) Règle de Wolfe. D’après le i), comme un a une limite, notée u, on sait
que la suite J 0 (un ) est convergente et que sa limite est J 0 (u) = 0, ce qui est
contradictoire avec l’hypothèse que la limite inf de ||J 0 (un )|| est nulle.
On a donc démontré que liminf||J 0 (un )|| = α0 > 0 ⇒ J(un ) → −∞. On
en déduit que si J(un ) converge vers une limite finie, alors liminf||J 0 (un )|| = 0.
Notons qu’on ne peut pas conclure directement que la suite un converge.
ii) Règle de Goldstein
On suppose donc que la suite J(un ) converge vers une limite l. On suppose
aussi que liminf||J 0 (un )|| = α0 > 0. Ceci implique que la suite un est conver-
gente, et sa limite est notée u. Par continuité de J et de J 0 , J(un ) tend vers
J(u) et J 0 (un ) tend vers J 0 (u). Contrairement à la règle de Wolfe, on n’a pas
d’autre information sur la dérivée. En effet, l’information sur la limite inf nous
apprend que ||J 0 (un )|| ≥ α20 pour n ≥ n0 , mais on n’a pas le même résultat
pour (J 0 (un ), dn ).
On sait, par la règle de Goldstein, que

J(un ) − J(un+1 )
∈ [m1 , m2 ].
(J 0 (un ), un − un+1 )
Dans le cas où on suppose que J 0 est uniformément continue sur
un borné contenant u, alors pour n assez grand comme la suite un converge
6.4. ALGORITHMES DE GRADIENT 95

vers u, les points un sont dans ce borné. Ainsi on aura


Z 1
−J(un ) + J(un+1 ) = (J 0 (un + θ(un+1 − un )), un+1 − un )dθ
0
donc on en déduit que
|J(un ) − J(un+1 ) − (J 0 (un ), un+1 − un )| ≤ ||un+1 − un ||, n ≥ n .
Ainsi, divisant les deux membres par (J 0 (un ), un+1 −un ) et utilisant l’inégalité
(J 0 (un ), dn ) ≤ −α||J 0 (un )||, dans le cas où J 0 (un ) ne tend pas vers 0, pour
n ≥ n ,

J(un ) − J(un+1 ) ||un+1 − un ||   2


| 0
−1| ≤ 0
= 0
≤ 0
≤ .
(J (un ), un+1 − un ) |(J (un ), un+1 − un )| |(J (un ), dn )| α||J (un )|| αα0
On en déduit que le quotient (JJ(u n )−J(un+1 )
0 (u ),u
n n+1 −un )
tend vers 1. Comme ce quotient
appartient à [m1 , m2 ] et que m2 < 1 il y a contradiction. Le résultat est
démontré sous l’hypothèse d’uniforme continuité ou de continuité dans un borné
en dimension finie.
Remarque 1 : le i) peut s’étendre à toute sous-suite convergente dans le
cas où la suite ln tend vers 0. On note que ceci n’implique pas que la suite
un converge : exemple si dn = e1 pour tout n et si ln = n1 alors il n’y a pas
convergence de un .
Remarque 2 :Pour la règle de Goldstein, il suffit, en dimension finie que J
vérifie l’une des deux conditions suivantes :
(*) J 0 est uniformément Lipschitz sur tout borné
(**) la fonctionnnelle J est deux fois Fréchet dérivable à dérivée continue
(qui implique la condition (*) et qui se retrouve le plus fréquemment)

6.4 Algorithmes de gradient


6.4.1 Définition
On commence par le résultat suivant, qui nous donnera l’algorithme de gradient
Proposition 6.4 Soit φ(l, d) = J(un + ld). On suppose J 0 (un ) 6= 0.

inf φ0 (0, d) = −||J 0 (un )||


||d||=1
0
et ce minimum est atteint pour d = − ||JJ 0 (u
(un )
n )||
.

On note que φ0 (0, d) = −(J 0 (un ), d). On a, par l’inégalité triangulaire

|φ0 (0, d)| ≥ −||d||||J 0 (un )||


et l’égalité est atteinte dans le cas d’égalité pour Cauchy-Schwartz, soit pour d
colinéaire à J 0 (un ), ce qui correspond au vecteur indiqué.
La direction du gradient est, parmi les directions de norme 1, la meilleure
pour le taux de décroissance de la fonctionnelle. C’est par ce type d’algorithme
que l’on recherche la solution de f = 0 par la méthode de Newton.
96 CHAPTER 6. APPROXIMATION DE SOLUTIONS

6.4.2 L’algorithme de gradient à pas optimal


On démontre le

Théorème 6.3 Soit J une fonctionnelle α−convexe sur un espace de Hilbert


H, telle que J 0 est uniformément continue sur tout borné. La suite, définie par
la relation

un+1 = un − µn J 0 (un ),
où µn est la solution unique de (J 0 (un − µJ 0 (un )), J 0 (un )) = 0 qui s’appelle
l’algorithme de gradient à pas optimal, converge vers l’unique valeur qui rend
minimum la fonctionnelle J.

L’agorithme de gradient à pas optimal est défini par la suite

un+1 = un − µJ 0 (un )
et on cherche un+1 = inf µ∈IR J(un − µJ 0 (un )). Il est clair que la dérivée de
φ(µ) = J(un − µJ 0 (un )) est donnée par

φ0 (µ) = −(J 0 (un − µJ 0 (un )), J 0 (un )).


Comme J est α−convexe, lorsque J 0 (un ) 6= 0 (ce qui correspond au cas où on
n’a pas atteint le point de minimum) on a φ α(||J 0 (un )||2 )−convexe. En effet

(J 0 (un − µ1 J 0 (un )) − J 0 (un − µ2 J 0 (un )), un − µ1 J 0 (un ) − un + µ2 J 0 (un ))


≥ α||un − µ1 J 0 (un ) − un + µ2 J 0 (un ))||2
= α(µ2 − µ1 )2 ||J 0 (un )||2 .

En remplaçant la différence, on trouve

(φ0 (µ1 ) − φ0 (µ2 ), µ1 − µ2 ) ≥ α(µ2 − µ1 )2 ||J 0 (un )||2


d’où l’α−convexité de φ. Le problème de minimisation admet donc une solution
unique µn . De plus, µn est solution de φ0 (µn ) = (J 0 (un −µn J 0 (un )), J 0 (un )) = 0,
on en déduit que (J 0 (un+1 ), J 0 (un )) = 0 et deux directions de descente succes-
sives sont orthogonales.
La démonstration du théorème 6.3 s’appuie sur l’inégalité de convexité
α n+1
J(un ) − J(un+1 ) ≥ (J 0 (un+1 ), un − un+1 ) + ||u − un ||2
2
et sur l’égalité un+1 − un = −µn J 0 (un ), ce qui annule le premier terme de
l’inégalité ci-dessus car (J 0 (un+1 ), J 0 (un )) = 0.
On a donc démontré que J(un ) − J(un+1 ) ≥ α2 ||un − un+1 ||2 . La suite J(un )
est décroissante, bornée par le minimum de J, donc elle converge, donc on en
déduit que ||un − un+1 || tend vers 0.
D’autre part, on vérifie que

||J 0 (un )||2 = (J 0 (un ), J 0 (un ) − J 0 (un+1 ))


6.4. ALGORITHMES DE GRADIENT 97

car deux directions successives sont orthogonales. Ainsi

||J 0 (un )|| ≤ ||J 0 (un ) − J 0 (un+1 )||.

D’autre part, la suite un est bornée. En effet, si elle ne l’était pas, il existerait
une sous suite uφ(n) qui tendrait, en norme, vers +∞, et comme la fonctionnelle
J est α−convexe, elle est infinie à l’infini et la suite J(uφ(n) ) tendrait vers
+∞, contradiction. Dans ce cas, en utilisant l’uniforme continuité sur une
boule fermée qui contient tous les termes de la suite un , on en déduit que
||J 0 (un ) − J 0 (un+1 )|| ≤ C||un − un+1 ||. On a alors

2 1 p
||J 0 (un )|| ≤ C||un − un+1 || ≤ ( ) 2 C J(un ) − J(un+1 ).
α
On en déduit la convergence de la suite J 0 (un ) vers 0. On note u le point
où J est minimale. Par la coercivité

(J 0 (un ) − J 0 (u), un − u) ≥ α||un − u||2 .

Par l’inégalité de Cauchy-Schwarz, on trouve

α||un − u||2 ≤ ||J 0 (un )||.||un − u||

ce qui implique

1 0 n
||un − u|| ≤ ||J (u )||
α
donc

1 2 1 p
||un − u|| ≤ ( ) 2 C J(un ) − J(un+1 )
α α
et donc la suite un converge vers u.

Proposition 6.5 Pour que les hypothèses du théorème 6.3 soient vérifiées, il
suffit que J vérifie
i) soit J fonctionnelle α−convexe dérivable, J 0 continue en dimension finie
ii) soit J fonctionnelle α−convexe dérivable, J 0 Lipschitzienne sur tout
borné en dimension infinie
iii) soit J est une fonctionnelle deux fois Fréchet dérivable, telle que la
dérivée seconde soit autoadjointe et vérifie

m||w||2 ≤ (J 00 (u)w, w) ≤ M ||w||2

avec m > 0.
On remarque que ces conditions sont telles que iii) → ii) → i).

Ce résultat provient de l’uniforme continuité sur un compact d’une fonc-


tionnelle continue en dimension finie.
98 CHAPTER 6. APPROXIMATION DE SOLUTIONS

6.4.3 Algorithme de gradient à pas constant


Théorème 6.4 On a convergence de l’algorithme de gradient à pas fixe, seule-
ment si J 0 est Lipschitzien sur V tout entier, lorsque 0 < µ < C 2α
2.

La preuve est plus simple. On écrit un+1 − un = −µJ 0 (un ). Ainsi, soit u
la solution On trouve un+1 − u = un − u − µ(J 0 (un ) − J 0 (u)). On utilise un
argument de type “théorème du point fixe”. Ainsi

||un+1 − u||2 = ||un − u||2 − 2µ(J 0 (un ) − J 0 (u), un − u) + µ2 ||J 0 (un ) − J 0 (u)||2
≤ (1 − 2µα + µ2 C 2 )||un − u||2
où C est la constante de Lipschitz de J 0 sur tout l’espace de Hilbert. La
démonstration est terminée car la suite ||un − u|| est alors majorée par une
suite géométrique convergeant vers 0. Dans cette inégalité, on peut choisir la
meilleure valeur de µ, c’est-à-dire celle qui minimise le taux de convergence. Le
minimum de la fonction 1 − 2µα + µ2 C 2 est alors atteint en µ = Cα2 et le taux
q
α2
de convergence est alors 1 − C 2 . En particulier, si la fonctionnelle est une
fonctionnelle quadratique en dimension finie, la valeur optimale de α est la plus
petite des valeurs propres de A = J 00 alors que la valeur optimale de C est la
plus grande des valeurs propres de A. On voit donc la difficulté essentielle à
choisir correctement la meilleure valeur de µ puisque la recherche des valeurs
propres est un problème difficile. On peut espérer une valeur de α inférieure à
λmin et une valeur de C plus grande que λmax , ce qui réduit d’autant le pas.

6.4.4 Taux de convergence de l’algorithme du gradient en di-


mension finie
Le but de cette section est de démontrer le résultat suivant:
Théorème 6.5 On suppose J de classe C 2 , α−convexe et on suppose que le
Hilbert V est de dimension finie d. Soit u la valeur du point où J atteint son
minimum. On note λmax et λmin les plus grande et plus petite valeur propre de
la matrice hessienne (définie positive) J”(u). On désigne par
λmax
γ= .
λmin
Cette valeur s’appelle le conditionnement de J”(u). On note β = γ−1 γ+1 , et si β
est proche de 1, l’algorithme peut converger très lentement. On dit dans ce cas
que la matrice J”(u) est mal conditionnée.
i) Lorsque J est quadratique, l’algorithme de gradient vérifie l’inégalité:

||un+1 − u||J”(u) ≤ β n ||u1 − u||J”(u) .


ii) Lorsque J est quelconque, l’algorithme de gradient vérifie l’inégalité
γ−1
∀β > , ∃n0 ,
γ+1

∀n ≥ n0 , ||un+n0 − u|| ≤ Dβ n ||un0 − u||.


6.4. ALGORITHMES DE GRADIENT 99

Ce théorème est très important de manière théorique, mais la valeur du


conditionnement est difficilement accessible donc il est difficile à utiliser en
pratique. Cependant, en comparant les deux algorithmes, celui-ci a un taux de
convergence en γ−1
γ+1 alors que l’algorithme du gradient à pas constant a pour
1
taux de convergence (1 − γ12 ) 2 . Sa démonstration se fait en deux temps:
i) on le démontre pour J(x) = 12 (Ax, x)
ii) on le démontre dans le cas général.
On se place d’abord dans le cas J(x) = 12 (Ax, x).
Pour toute fonctionnelle quadratique, on peut se ramener à ce cas car si A
est définie positive symétrique, on note x0 la solution de Ax = b et la forme
quadratique (qui par définition a pour dérivée seconde A) vérifie Q(x)− 21 (Ax, x)
est affine continue, donc par le théorème de représentation de Riesz, Q(x) −
1 1
2 (Ax, x) − Q(0) étant linéaire continue, il existe b telle que Q(x) − 2 (Ax, x) −
Q(0) = (b, x). On vérifie alors que Q(x) − Q(0) = 21 (A(x − x0 ), x − x0 ) −
1
2 (Ax0 , x0 ). Une fois la représentation précédente obtenue, on introduit φ(l) =
J(u − lJ 0 (u)). On a

1 1 l2
φ(l) = J(u−lAu) = (Au−lA2 u, u−lAu) = (Au, u)−l(A2 u, u)+ (A2 u, Au).
2 2 2
(Au,Au)
On en déduit que la valeur du pas optimal est l = (A2 u,Au)
et que la valeur
minimale de φ est

1 (Au, Au)2 (Au, Au)2


[(Au, u) − 2 ] = J(u)(1 − 2 ).
2 (A u, Au) (A u, Au)(Au, u)
Le résultat dans ce cas s’appuie alors sur le lemme de Kantorovitch:

Lemme 6.3 On a l’inégalité, pour A matrice symétrique définie positive:

(y, y)2 4λmin λmax


∀y ∈ IRm \0, ≥ .
(Ay, y)(A−1 y, y) (λmin + λmax )2

Ce résultat est démontré dans la section 2.4.6. La suite donnée par l’algorithme
(Aun ,Aun )
de gradient à pas optimal est un+1 = un −ln Aun , où ln = (A 2 un ,Aun ) et on trouve

(Aun , Aun )2
J(un+1 ) = J(un )(1 − ).
(A2 un , Aun )(Aun , un )
Dans cette égalité, on prend yn = Aun et on utilise le lemme de Kan-
torovitch. Alors on trouve

4λmin λmax λmax − λmin 2


J(un+1 ) ≤ J(un )(1 − )=( ) .
(λmax + λmin )2 λmax + λmin
p
Comme ||un ||A = 2J(un ), on trouve l’inégalité

||un+1 − 0||A ≤ β||un − 0||A

d’où la convergence géométrique de la suite un vers 0.


100 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Nous passons à l’étude dans le cas général. Pour ce faire, on utilise la formule
de Taylor avec reste intégral pour J et pour J 0 . Pour simplifier les notations,
on effectue une translation sur l’inconnue u pour se ramener au minimum u = 0
et on change J(u) en J(u) − l où l est le minimum de J.
Les formules de Taylor s’écrivent

Z 1 Z 1
1
J(u) = (1−θ)(J 00 (0+θu)u, u)dθ = (J 00 (0)u, u)+([ (1−θ)(J 00 (θu)−J 00 (0))]u, u).
0 2 0

Z 1
J 0 (u) = J 00 (0)u + ( J 00 (θu)dθ − J 00 (0))u
0

que l’on écrira pour simplifier J(u) = 12 (J 00 (0)u, u) + (Q(u)u, u) et J 0 (u) =


J 00 (0)u + R(u)u, où Q et R, par la continuité de la dérivée seconde au sens de
Fréchet, sont égales à o(1) (c’est à dire tendent vers 0 lorsque u tend vers 0).
On sait déjà que l’algorithme du gradient converge, donc il existe n0 tel
que ||un || ≤ δ0 pour n ≥ n0 . On cherche donc, pour u donné l’unique solution
de (J 0 (u − µJ 0 (u)), J 0 (u)) = 0. On note, comme précédemment, φ(µ) = J(u −
µJ 0 (u)), φ0 (µ) = −(J 0 (u−µJ 0 (u)), J 0 (u)), φ00 (µ) = (J 00 (u−µJ 0 (u))J 0 (u), J 0 (u)).
On vérifie que

−φ0 (µ) = (J 00 (0)(u − µJ 0 (u)) + R(u − µJ 0 (u))(u − µJ 0 (u)), J 00 (0)u + R(u)u)


= (J 00 (0)u, J 00 (0)u) − µ(J 00 (0)J 0 (u), J 00 (0)u)
+R(u − µJ 0 (u))(u − µJ 0 (u)), J 00 (0)u + R(u)u) .
= (J 00 (0)u, J 00 (0)u) − µ(J 00 (0)2 u, J 00 (0)u) − µ(J 00 (0)R(u)u, J 00 (0)u)
+R(u − µJ 0 (u))(u − µJ 0 (u)), J 00 (0)u + R(u)u)

Ainsi si on étudie, pour u tendant vers 0, la solution de φ0 (µ) = 0, on trouve


(J 00 (0)u,J 00 (0)u)
que µ est proche de µ0 (u) = (J 00 (0)2 u,J 00 (0)u) , qui est homogène de degré 0 en

u, non singulier car la matrice J”(0) est symétrique définie positive. On écrit
alors µ = µ0 + β. On trouve

−φ0 (µ) = −β(J 00 (0)2 u, J 00 (0)u) − (µ0 + β)(J 00 (0)R(u)u, J 00 (0)u)


+R(u − (µ0 + β)J 0 (u))(u − (µ0 + β)J 0 (u)), J 00 (0)u + R(u)u).

La relation φ0 (µ) = 0 s’écrit alors aussi sous la forme

(J 00 (0)R(u)u, J 00 (0)u) R(u − (µ0 + β)J 0 (u))(u − (µ0 + β)J 0 (u)), J 00 (0)u + R(u)u)
β+(µ0 +β) − = 0.
(J 00 (0)2 u, J 00 (0)u) (J 00 (0)2 u, J 00 (0)u)

On vérifie alors que, par le théorème des fonctions implicites, il existe une
fonction β(u) telle que β(u) = o(1) c’est-à-dire tend vers 0 avec ||u||. Cette
valeur de β(u) détermine l’unique pas optimal.
On calcule alors

J(u − (µ0 + β(u))J 0 (u)).


6.4. ALGORITHMES DE GRADIENT 101

On s’intéresse au point de base. Il reste

φ(u) = u − (µ0 + β(u))J 0 (u) = u − µ0 J”(0)u − β(u)J”(0)u − µ0 R(u)u

et ce terme peut s’écrire

φ(u) = u − µ0 J”(0)u + S(u)u


où S(u) = β(u)J”(0)+µ0 R(u), et tend vers 0 dans l’espace des matrices comme
||u||.
On a alors J(φ(u)) = 12 (J”(0)(u−µ0 J”(0)u+S(u)u), u−µ0 J”(0)u+S(u)u)+
(Q(φ(u))φ(u), φ(u)). On remarque alors que, comme φ(u) = u − µ0 J”(0)u +
S(u)u, pour ||u|| assez petit on trouve que ||φ(u)|| ≤ C||u||. Ainsi on trouve
1
J(φ(u)) = (J”(0)(u − µ0 J”(0)u), u − µ0 J”(0)u) + (u)||u||2 ,
2
où le terme (u) tend vers 0 avec ||u||.
On reconnait le calcul dans le cas de la forme quadratique 21 (Au, u), ce qui
donne tout de suite

1 (J”(0)u, J”(0)u)2
J(φ(u)) = (J”(0)u, u)(1 − ) + (u)||u||2 .
2 (J”(0)u, u)((J”(0))2 u, J”(0)u)

Enfin, on reconnait que J(u) = 21 (J”(0)u, u)(1 + η(u)) avec η(u) tend vers
0 comme ||u|| puisque J”(0) est symétrique définie positive donc (J”(0)u, u) ≥
λmin ||u||2 . Ainsi il vient
J(u) (J”(0)u,J”(0)u)2
J(φ(u)) = 1+η(u) (1 −
(J”(0)u,u)((J”(0))2 u,J”(0)u)
) + (u)||u||2
(J”(0)u,J”(0)u) 2
= J(u)(1 − (J”(0)u,u)((J”(0)) 2
2 u,J”(0)u) ) + (u)||u||
η(u) (J”(0)u,J”(0)u)2
− 1+η(u) (1 − (J”(0)u,u)((J”(0)) 2 u,J”(0)u) )J(u).

Utilisant alors la plus petite valeur propre de J”(0), on constate qu’il existe une
fonction g(u), tendant vers 0 si ||u|| → 0, telle que

(J”(0)u, J”(0)u)2
J(φ(u)) = J(u)(1 − + g(u)).
(J”(0)u, u)((J”(0))2 u, J”(0)u)
max −λmin
On se donne β > λλmax 2 4λmax λmin
+λmin . On remarque que β + (λmax +λmin )2 > 1. Alors,
comme la suite un converge vers le minimum de la fonctionnelle 0, il existe n0
tel que pour n ≥ n0 on ait

4λmax λmin
1 + g(u) ≤ β 2 + .
(λmax + λmin )2
On en déduit, par application du lemme de Kantorovitch

(J”(0)u,J”(0)u)2 4λmax λmin (J”(0)u,J”(0)u)2


1 + g(u) − (J”(0)u,u)((J”(0))2 u,J”(0)u)
≤ β2 + (λmax +λmin )2
− (J”(0)u,u)((J”(0))2 u,J”(0)u)
≤ β2.
102 CHAPTER 6. APPROXIMATION DE SOLUTIONS

On a donc, pour n ≥ n0

J(un+1 ) ≤ β 2 J(un )
ce qui donne

J(un+n0 ) ≤ β 2n J(un0 ).
Il suffit de rappeler la relation que l’on a obtenue précédemment
1 2 1 p
||un − u|| ≤ ( ) 2 C J(un ) − J(un+1 ).
α α
On utilise α = λmin et C = λmax , et J(un ) − J(un+1 ) ≤ β 2 J(un ) pour obtenir

λmax p
||un+n0 − u|| ≤ 3 β n+1 2J(un0 ).
2
λmin
On a donc démontré une convergence géométrique de la suite un vers u,
ayant un taux de convergence β arbitraire, strictement supérieur à γ−1
γ+1 . Ce
taux de convergence est moins bon au fur et à mesure que le conditionnement
de la matrice γ tend vers +∞. c’est par exemple ce qui se passe dans un espace
de Hilbert lorsqu’on l’approxime par des espaces de dimension finie de plus
en plus grand et que la matrice admet des valeurs propres formant une suite
tendant vers +∞. Le point ii) du théorème est démontré.

6.4.5 Algorithme de gradient réduit


On cherche dans cette section à minimiser une fonctionnelle J(x) sous la con-
trainte x ∈ K = {Ax = b}, A matrice d × m de rang d < m.
On suppose pour simplifier l’expression que les inconnues sont ordonnées de
sorte que

A = (A0 , A1 )
où A0 est une matrice d × d inversible et A1 est une matrice d × (m − d).

Proposition 6.6 L’algorithme de gradient réduit est une suite (un , dn , µn )


donnée par

u0 = (A−1 0 0 0 0 −1 t 0 0
0 (b − A1 y ), y ), d0 = Jy (u ) − (A0 A1 ) Jx (u )

et, tant que dn non nul, on construit la suite par

y 1 = y 0 − µ0 d0 , u1 = (A−1 1 1 0 1 −1 t 0 1
0 (b − A1 y ), y ), d1 = Jy (u ) − (A0 A1 ) Jx (u ),

y n+1 = y n −µn dn , un+1 = (A−1


0 (b−A1 y
n+1
), y n+1 ), dn+1 = Jy0 (un+1 )−(A−1 t 0
0 A1 ) Jx (u
n+1
).

Cet algorithme de gradient réduit est un algorithme de descente pour le


problème avec contrainte. Si le pas est choisi convenablement, il converge. Dans
6.4. ALGORITHMES DE GRADIENT 103

le cas où la fonctionnelle est α−convexe et Lipschitzienne sur tout borné, il


converge (pas optimal ou pas fixe).

On vérifie tout d’abord que IRm = {(x, y), x ∈ IRd , y ∈ IRm−d }, et que
A(x, y) = A0 x + A1 y. On en déduit que (x, y) ∈ K ⇔ A0 x = b − A1 y, soit
x = A−1
0 (b − A1 y).
On utilise la procédure décrite dans la proposition 6.1. On en déduit que

J(u) = J(A−1
0 (b − A1 y), y) = Jr (y).

Pour calculer la dérivée, on emploie la différentielle de Gâteaux. On trouve


alors, pour w ∈ IRm−d , et notant p(y) = (A−1 0 (b − A1 y), y)

Jr (y + w) − Jr (y) = J(A−1 0 (b − A1 (y + w)), y + w) − J(p(y))


= J(p(y) − A−1 0 A1 w, y + w) − J(p(y))
= (J 0 (p(y)), (−A−1
0 A1 w, w)) + o()

Si on écrit la dérivée J 0 en (Jx0 , Jy0 ), on trouve que

(Jr0 (y), w) = (Jx0 (p(y)), −A−1 0


0 A1 w) + (Jy (p(y)), y), w)

Utilisant la transposée, il vient

(Jr0 (y), w) = (Jy0 (p(y)) − (A−1 t 0


0 A1 ) Jx (p(y)), w).

On en déduit la relation

Jr0 = Jy0 − (A−1 t 0


0 A1 ) Jx .

L’algorithme de gradient usuel construit une suite (y n , dn ) caracérisée par

un = (A−1 n n 0 n −1 t 0 n
0 (b − A1 y ), y ), dn = Jy (u ) − (A0 A1 ) Jx (u ).

On se place dans le cas où dn 6= 0 (car sinon on aurait atteint le point de


minimum). Dans ce cas, on introduit

Dxn = −A−1
0 A1 dn .

On a, par définition, A0 Dxn + A1 dn = 0. Soit J 0 (un ) = (dnx , dny ). Le vecteur


Dn = (Dxn , dn ) vérifie

(Dn , J 0 (un )) = (−A−1 n n n −1 t n


0 A1 dn , dx )+(dn , dy ) = (dn , dy −(A0 A1 ) dx ) = (dn , dn ) > 0

donc la direction −Dn est à la fois une direction admissible (continue) et une
direction de descente pour la fonctionnelle J. C’est donc une direction de
descente pour le problème avec contrainte.
D’autre part, si on a Jr0 (y n ) = 0, alors on a dny = (A−1 t n
0 A1 ) dx , ce qui s’écrit

dy = At1 ((A−1
 n t n
0 ) dx )
n t −1 t n
dx = A0 ((A0 ) dx )
104 CHAPTER 6. APPROXIMATION DE SOLUTIONS

dont on déduit le multiplicateur de Lagrange, égal à −(A−1 t n


0 ) dx , car on a

J 0 (un ) + λAt = 0.

L’algorithme ainsi construit est un algorithe de gradient pour Jr . Ainsi,


pour la suite yn , dn , il suffit de choisir le pas convenablement pour se placer
dans la catégorie des algorithmes de gradient convergents.
En particulier, si la fonctionnelle est α−convexe Lipschitz alors Jr est aussi
α−convexe Lipschitz puisque les contraintes forment un espace convexe. La
proposition est démontrée.

Généralisation à des contraintes non affines On cherche à généraliser


cet algorithme de gradient réduit à une situation où la contrainte n’est plus
affine. Pour fixer les idées, on suppose de même que le problème s’écrit

infF (x,y)=0 J(x, y)

où ∇x F (x0 , y0 ) inversible pour un point (x0 , y0 ) tel que F (x0 , y0 ) = 0. Notons
que cela signifie que F est une application de K dans IRd , et que si on suppose
K ⊂ IRm (ou plus généralement il existe un système de coordonnées sur K
qui est inclus dans un espace vectoriel de dimension m > d, éventuellement de
dimension non finie), alors x ∈ IRd et y ∈ IRm−d . Comme F est un système
de d équations avec d inconnues x et m − d paramètres y, on se trouve dans
le cadre d’application du théorème des fonctions implicites au voisinage de y0 ,
c’est à dire on peut résoudre localement F (x, y) = 0 sous la forme y = G(x).
L’application G est alors une application de IRd dans IRm−d .
Le problème de minimisation s’écrit alors localement

infJ(G(y), y).

On note J∗ (y) = J(G(y), y). Calculons le gradient de J∗ (qui est donc le


gradient réduit). On note h l’accroissement en y et on écrit la dérivée de
Gâteaux:
J∗ (y+h)−J∗ (y) J(G(y+h),y+h)−J(G(y),y)
 = 
J(G(y)+(∇y G(y),h)+o(),y+h)−J(G(y),y)
= 
On constate que le taux d’accroissement précédent est un taux d’accroissement
pour J au point (G(y), y) dans la direction ((∇y G(y), h), h) (qui est un vecteur
ayant m composantes puisque G est une application de IRm−d dans IRd et donc
son gradient est une matrice d × (m − d) (le nombre de lignes de la matrice
est le nombre de coordonnées de G et le nombre de colonnes est le nombre de
dérivées), ainsi dans cette notation (∇y G, h) = ∇y G.h est un vecteur de taille
d comme application de la matrice d × (m − d) au vecteur dual h dans IRm−d ).
Ainsi, prenant la limite lorsque  → 0, on trouve

(J∗0 (y), h) = (J 0 (G(y), y), (∇y G.h, h)) 


= (∇x J(G(y), y), ∇y J(G(y), y)), (∇y G.h, h)
= ∇x J(G(y), y).[∇y G.h] + ∇y J(G(y), y).h.
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 105

Il faut alors calculer la dérivée de G. Pour cela, on utilise l’identité car-


actérisant G:
F (G(y), y) = 0.
Ainsi, utilisant la même méthode que pour le calcul de la dérivée de J∗ : on
trouve que F∗ (y) = F (G(y), y) a pour dérivée 0 (car c’est la fonction nulle) et
que
((F∗ )0 (y), h) = (∇x F (G(y), y), [∇y G.h]) + (∇y F (G(y), y), h)
où on note que comme F présente d équations, ce gradient est un ensemble de
d vecteurs gradient.
L’égalité F∗ (y) = 0 implique donc

∇y F (G(y), y) + ∇x F (G(y), y).∇y G(y) = 0.

On en déduit alors

∇y G = −(∇x F (G(y), y))−1 .∇y F (G(y), y)

Vérifions la cohérence de cette formule. On a dit que G était une application de


IRm−d dans IRd , donc son gradient est une matrice d×m−d. L’application F est
une application de IRm dans IRd , donc son gradient en y est une matrice d×m−d,
son gradient en x est une matrice d × d, donc (∇x F )−1 ∇y F ) est une matrice
d × m − d. QED. Finalement, on tire alors que J∗0 = Jy0 − Jx0 (∇x F )−1 ∇y F ).

6.5 Algorithmes de gradient conjugué


Dans cette section, nous construisons un des algorithmes les plus utilisés: le
gradient conjugué.

6.5.1 Exemple en dimension 2


Nous commençons par un exemple en dimension 2, qui prouve que même si
localement la direction de gradient est la meilleure direction, ce n’est pas la
meilleure globalement.
En effet, on considère f (x, y) = a2 x2 + b2 y 2 . Les isovaleurs de f sont des
ellipses et le minimum est trivialement 0.
Lorsqu’on utilise l’algorithme du gradient à pas optimal, on sait que la suite
vérifie, pour tout n:

(f 0 (xn+1 , y n+1 ), f 0 (xn , y n )) = 0.


Comme on est en dimension 2, cela veut dire qu’il existe λn tel que

f 0 (xn+1 , y n+1 ) = λn (f 0 (xn , y n ))⊥


On en déduit, utilisant

f 0 (xn+2 , y n+2 ) = λn+1 (f 0 (xn+1 , y n+1 ))⊥

f 0 (xn+2 , y n+2 ) = −λn λn+1 f 0 (xn , y n )


106 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Dans le cas où a 6= b, la suite est donc infinie et converge par itérations succes-
sives vers le minimum. Si a = b, bien sûr une direction de gradient pointe vers
le centre du cercle et on converge en une itération.
Mais il est clair que (x0 , y 0 ) − (x0 , y 0 ) = (0, 0), donc la direction optimale
n’est pas celle du gradient mais celle du vecteur pointant vers le centre!
Nous cherchons à exploiter cette idée. En effet, en dimension 2, il n’y a que
deux directions possibles, donc même si au premier pas on n’a pas trouvé la
bonne direction, on le trouvera au deuxième pas. Pour cela, on considère la
direction du gradient comme direction de départ. On trouve que

a4 x20 + b4 y02
(x1 , y1 ) = (x0 , y0 ) − λ0 (2a2 x0 , 2b2 y0 ), λ0 = .
2(a6 x20 + b6 y02 )
La bonne direction est (x1 , y1 ), car elle conduit tout de suite au minimum.
On vérifie que

((2a2 x0 , 2b2 y0 ), A(x1 , y1 ))


= ((2a2 x0 , 2b2 y0 ), (2a2 x1 , 2b2 y1 ))
= ((2a2 x0 , 2b2 y0 ), (2a2 x0 , 2b2 y0 )) − λ0 ((2a2 x0 , 2b2 y0 ), (4a4 x0 , 4b4 y0 ))
= 4a4 x20 + 4b4 y02 − (8a6 x20 + 8b6 y02 )λ0
= 0.

La direction d1 = (x1 , y1 ) vérifie alors (d0 , Ad1 ) = 0 et grâce à elle, l’algorithme


s’arrête immédiatement.

6.5.2 Algorithme de directions conjuguées


Dans le cas de la minimisation d’une fonctionnelle quadratique en dimension
finie ou infinie, par exemple J(x) = 21 (Ax, x) − (b, x), où on sait que Ax = b
admet une solution x0 , on vérifie que

1 1 1
J(x) = (Ax, x) − (Ax0 , x) = (A(x − x0 ), x − x0 ) − (b, x0 ).
2 2 2
Ainsi minimiser J revient à minimiser la norme ||x − x0 ||A .
On se place en dimension finie N . La matrice A est symétrique définie
positive, donc elle est diagonalisable dans une base orthogonale notée (p1 , .., pN ).
On a alors, comme (Api , pj ) = 0 pour i 6= j
X
||x − x0 ||2A = (xi − x0,i )2 (Api , pi ).
i

On part du point x1 . On cherche le minimum de la fonction sur IR égale à


λ → J(x1 + λp1 ). On trouve que la relation donnant le minimum en λ est

(A(x1 + λp1 ) − b, p1 ) = 0
soit
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 107

(b − Ax1 , p1 )
λ = λ1 = .
(Ap1 , p1 )
On regarde alors le deuxième point x2 = x1 + λp2 . On trouve que la valeur
de λ est λ2 = (b−Ax 2 ,p2 )
(Ap2 ,p2 ) .
D’autre part, on considère φ(λ, µ) = J(x1 + λp1 + µp2 ). C’est une fonction
de deux variables, qui est minimale pour

∂λ φ = ∂µ φ = 0.
On obtient les relations

(J 0 (x1 + λp1 + µp2 ), p1 ) = 0




(J 0 (x1 + λp1 + µp2 ), p2 ) = 0


soit 
(Ax1 − b + λAp1 + µAp2 , p1 ) = 0
(Ax1 − b + λAp1 + µAp2 , p2 ) = 0

(Ax1 − b, p1 ) + λ(Ap1 , p1 ) = 0
(Ax1 − b, p2 + µ(Ap2 , p2 ) = 0
ce qui conduit à λ = λ1 et µ = λ2 .
On voit donc que le point x3 = x1 + λ1 p1 + λ2 p2 est le point qui réalise le
minimum de J sur l’espace affine x1 + Vect(p1 , p2 ).
On définit alors la suite de récurrence par

xn+1 = xn + λn pn
avec
(b − Axn , pn )
λn =
(Apn , pn )
Alors xn+1 est le point où J est minimum sur En = x1 + Vect(p1 , p2 , ..., pn ).
Cet algorithme est un algorithme de directions conjuguées. On écrit alors
la

Proposition 6.7 Soit (pn ) une suite dans V Hilbert de directions conjuguées
au sens où (pi , Apj ) = (Api , pj ) = 0 pour i 6= j tel que l’espace vectoriel fermé
engendré par la suite des pj est l’espace de Hilbert tout entier (c’est à dire
que tout élément de l’espace de Hilbert est limite d’une suite de combinaisons
linéaires finies des pj ).
La suite définie par
(
xn+1 = xn + λn pn
λn = (p(pn ,b−Ax n)
n ,Apn )

vérifie les relations

(b − Apn , pk ) = 0 pourk ≤ n − 1

et xn converge vers x0 la solution unique de Ax = b.


108 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Pour démontrer cette proposition, on écrit effectivement la norme. On voit


alors que
X X X
x1 = xi1 pi , x0 = Xi pi , b = Xi Api

(p1 , (xi1 − Xi )Api )


P
(p1 , b − Ax1 )
λ1 = =− = −(x11 − X1 )
(p1 , Ap1 ) (p1 , Ap1 )
donc x2 = X1 p1 + i≥2 xi1 pi .
P
i
P
On voit alors que b − Ax2 = i≥2 (Xi − x1 )Api , donc (b − Ax2 , p2 ) =
(X2 − x1 )(Ap2 , p2 ) donc λ2 = X2 − x1 et x3 = X1 p1 + X2 p2 + i≥3 xi1 pi .
2 2
P
On continue le raisonnement pour obtenir
X X
xn = Xi pi + xi1 pi .
1≤i≤n−1 i≥n

On voit alors que


X
||xn − x0 ||2A = (Xi − xi1 )2 (Api , pi )
i≥n

et la suite ||xn −x0 ||2A est une suite décroissante positive. Elle a donc une limite.
Cette limite est 0 car la famille (pj ) est une famille complète. On en déduit que
la suite xn tend vers la solution du problème. La proposition est démontrée.
On remarque aussi que xn identifie déjà les n − 1 premiers termes de x0 .
Ce raisonnement n’est réellement applicable que lorsqu’on connait A donc
la forme quadratique. Dans le cas général, on va combiner cette méthode
avec une méthode de gradient afin de construire une suite par un procédé
d’orthogonalisation de Gram-Schmidt.

Application aux polynômes de Hermite On définit les polynômes de


Hermite par la relation

dn − x2 x2
Hn (x) = (−1)n (e 2 )e 2 .
dxn
On vérifie par récurrence que Hn est un polynôme de degré n dont le
monôme de plus haut degré est xn . En effet,

d x2 x2
Hn+1 (x) = − (Hn (x)e− 2 )e 2 = xHn (x) − Hn0 (x).
dx
Comme, par hypothèse, Hn est de degré n dont le monôme de plus haut
degré est xn (dans le raisonnement par récurrence), on sait que Hn0 est de degré
n − 1 donc xHn − Hn0 est de degré n + 1 et son terme de plus haut degré est
xn+1 . D’autre part, H1 (x) = 1 donc l’hypothèse de récurrence est vraie pour
n = 1.
On contrôle que

dp
Z 2
Z
x2
− x2
Hn (x)Hp (x)e dx = Hn (x)(−1)p p (e− 2 )dx.
IR IR dx
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 109

Sans restreindre la généralit,́ on peut supposer soit p = n soit p > n. Dans le


cas p > n, en faisant p intégrations par parties, on trouve que
dp
Z 2
Z 2
− x2 − x2
Hn (x)Hp (x)e dx = p
(Hn (x))e dx = 0
IR IR dx

car Hn est un polynôme de degré n < p.


D’autre part, pour p = n on trouve que
Z
− x2
2
Z
x2 √
Hn (x)Hn (x)e dx = n! e− 2 dx = n! 2π
IR IR

La famille de polynômes Hn est donc une famille orthogonale pour le produit


scalaire
Z
x2
f (x)g(x)e− 2 dx

x2
et c’est donc une famille conjuguée pour l’application Af = f e− 2 .

6.5.3 Algorithme du gradient conjugué


Théorème 6.6 On considère une fonctionnelle quadratique J(x). On construit
la suite de directions dj par

d0 = −J 0 (x0 )

xn+1 = xn + ρn dn , ρn = arginfJ(xn + ρdn )

dn+1 = −J 0 (xn+1 ) + βn+1 dn .

|J 0 (xn+1 )|2 |J 0 (xn )|2


βn+1 = , ρn = − .
|J 0 (xn )|2 (Adn , J 0 (xn ))
La famille (dj ) définit une famille de directions conjuguées associées à A
telle que J 0 (x) − J 0 (y) = A(x − y).
La famille des directions J 0 (xp ) est une famille orthogonale pour le produit
scalaire usuel.
L’espace vectoriel engendré par la famille (J 0 (xp )), 0 ≤ p ≤ j est égal à
l’espace vectoriel engendré par la famille (dp ), 0 ≤ p ≤ j.
En dimension finie N la famille de directions conjuguées est complète et
l’algorithme donné dans la partie précédente converge en au plus N itérations.

Pour faire la démonstration correctement, il s’agit de construire les éléments


de la suite successivement. On suppose que l’on minimise la fonctionelle quadra-
tique 21 (Ax, x) − (b, x). On utilisera la relation

J 0 (x) − J 0 (y) = A(x − y). (6.5.2)

Etape 1. On commence avec un point x0 et on introduit


110 CHAPTER 6. APPROXIMATION DE SOLUTIONS


x1 = x0 + ρ0 d0
d0 = −J 0 (x0 )
La condition d’optimalité s’écrit

(J 0 (x1 ), d0 ) = 0.
On en déduit
(J 0 (x1 ) − J 0 (x0 ), d0 ) + (J 0 (x0 ), d0 ) = 0.

(A(x1 − x0 ), d0 ) = |J 0 (x0 )|2


soit ρ0 (Ad0 , d0 ) = |J 0 (x0 )|2 , ou encore

|J 0 (x0 )|2 |J 0 (x0 )|2


ρ0 = =− .
(Ad0 , d0 ) (Ad0 , J 0 (x0 ))
On note alors que (J 0 (x1 ), J 0 (x0 )) = 0.
Etape 2. On construit une direction conjuguée. Alors d1 vérifie (Ad1 , d0 ) =
0. On impose de plus que cette direction conjuguée soit une direction de de-
scente reliée au gradient, par

d1 = −J 0 (x1 ) + β1 d0 .
Ceci implique que l’on veuille trouver une direction conjuguée dans l’espace
vectoriel engendré par les gradients successifs (J 0 (x0 ), J 0 (x1 )). On a simplement
imposé que cette direction conjuguée soit telle que d1 + J 0 (x1 ) = 0. On verra
plus loin que cela ne restreint pas la généralité de faire ainsi.
Comme c’est une direction conjuguée, on trouve

(d1 , Ad0 ) = 0
soit
(J 0 (x1 ), Ad0 ) = β1 (Ad0 , d0 ).
On multiplie les deux membres de l’égalité par ρ0 , et on remarque que ρ0 d0 =
x1 − x0 , ce qui donne

(J 0 (x1 ), A(x1 − x0 )) = β1 (A(x1 − x0 ), −J 0 (x0 ))


ou encore en utilisant la relation (6.5.2)

(J 0 (x1 ), J 0 (x1 ) − J 0 (x0 )) = β1 (J 0 (x1 ) − J 0 (x0 ), −J 0 (x0 )).


On utilise l’orthogonalité de J 0 (x0 ) et de J 0 (x1 ) pour obtenir

|J 0 (x1 )|2
β1 = .
|J 0 (x0 )|2
La condition d’optimalité pour ρ1 s’écrit (J 0 (x2 ), d1 ) = 0. Comme de plus
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 111

(J 0 (x2 ), d0 ) = (J 0 (x2 ) − J 0 (x1 ), d0 ) + (J 0 (x1 ), d0 ) = ρ1 (Ad1 , d0 ) + 0 = 0

on en déduit que J 0 (x2 ) est orthogonal à d0 et à d1 , donc est orthogonal à J 0 (x0 )


et à J 0 (x1 ).
La condition d’optimalité donne alors la valeur de ρ1 par

(J 0 (x2 ) − J 0 (x1 ), d1 ) + (J 0 (x1 ), d1 ) = 0

ρ1 (Ad1 , d1 ) = |J 0 (x1 )|2


puisque d1 = −J 0 (x1 ) + β1 d0 , et que (J 0 (x1 ), d0 ) = −(J 0 (x1 ), J 0 (x0 )) = 0.
D’autre part, d1 = −J 0 (x1 )+β1 d0 et (Ad1 , d0 ) = 0 donc (Ad1 , d1 ) = −(Ad1 , J 0 (x1 )).
Il vient

|J 0 (x1 )|2 |J 0 (x1 )|2


ρ1 = − = .
(Ad1 , J 0 (x1 )) (Ad1 , d1 )
Pour bien comprendre la procédure, nous étudions l’étape 2.
On construit donc une direction conjuguée d2 . Elle est conjuguée donc

(Ad2 , d1 ) = (Ad2 , d0 ) = 0.
On suppose que cette direction conjuguée appartient à l’espace vectoriel
engendré par la famille (J 0 (x0 ), J 0 (x1 ), J 0 (x2 )). Comme l’espace vectoriel en-
gendré par (J 0 (x0 ), J 0 (x1 )) est l’espace vectoriel engendré par (d0 , d1 ), on écrit
d2 = −J 0 (x2 ) + β20 d0 + β21 d1 .
Pour justifier cette forme, prenons une direction quelconque de V ect(J 0 (x0 ), J 0 (x1 ), J 0 (x2 )).
Comme l’espace vectoriel engendré par J 0 (x0 ), J 0 (x1 ) est le même que l’espace
vectoriel engendré par d0 , d1 , une direction quelconque est donc sous la forme

d˜2 = αJ 0 (x2 ) + βd0 + γd1 .


Cette direction est une direction de descente, donc nécessairement (d˜2 , J 0 (x2 )) ≤
0. Comme J 0 (x2 ) est orthogonal à d0 et à d1 , on en déduit que α ≤ 0. On veut
éviter le cas où α = 0 car on est dans l’espace vectoriel engendré par d0 et d1
qui sont deux directions de descente que l’on a utilisé, ainsi α < 0.
D’autre part, si on considère un point dans cette direction de descente, il
s’écrit
−β −γ
x2 + rd˜2 = x2 + (−αr)(−J 0 (x2 ) + d0 + d1 ).
α α
On a donc, par le fait que le pas ρ1 est optimal

(J 0 (x2 ), d1 ) = 0
D’autre part, on a J 0 (x2 ) − J 0 (x1 ) = A(x2 − x1 ) = A(ρ1 d1 ), donc (J 0 (x2 ) −
J 0 (x1 ), d0 ) = 0 car (Ad1 , d0 ) = 0. Ainsi, comme par la condition d’optimalité
(J 0 (x1 ), d0 ) = 0 on en déduit que (J 0 (x2 ), d0 ) = 0. Comme J 0 (x2 ) est orthogonal
à l’espace vectoriel engendré par d0 et d1 , il est orthogonal à J 0 (x0 ) et à J 0 (x1 ).
112 CHAPTER 6. APPROXIMATION DE SOLUTIONS

On a retrouvé le pas ρ = −αr ≥ 0 et l’écriture de la direction de descente


d2 . On a de plus, uniquement grâce aux conditions d’optimalité, que les trois
vecteurs J 0 (x0 ), J 0 (x1 ) et J 0 (x2 ) sont orthogonaux.
Pour identifier les coefficients, on n’a besoin que des conditions de conjugai-
son. On trouve alors

(−J 0 (x2 ) + β20 d0 + β21 d1 , Ad0 ) = 0


(−J 0 (x2 ) + β20 d0 + β21 d1 , Ad1 ) = 0
En utilisant le fait que les directions d0 et d1 sont conjuguées, on trouve

β20 (d0 , Ad0 ) = (J 0 (x2 ), Ad0 ), β21 (d1 , Ad1 ) = (J 0 (x2 ), Ad1 ).
On multiplie respectivement chacune de ces égalités par ρ0 et par ρ1 et on utilise
ρ1 d1 = x2 − x1 , ρ0 d0 = x1 − x0 . Alors il vient

β20 (d0 , Aρ0 d0 ) = (J 0 (x2 ), A(x1 − x0 )), β21 (d1 , Aρ1 d1 ) = (J 0 (x2 ), A(x2 − x1 ))

On utilise la remarque (6.5.2) pour obtenir

β20 (d0 , Aρ0 d0 ) = (J 0 (x2 ), J 0 (x1 )−J 0 (x0 )), β21 ρ1 (d1 , Ad1 ) = (J 0 (x2 ), J 0 (x2 )−J 0 (x1 )).

On utilise alors ρ1 d1 = x2 − x1 , ce qui fait que ρ1 (d1 , Ad1 ) = (d1 , A(x2 −


x1 )) = (d1 , J 0 (x2 ) − J 0 (x1 )) = (−J 0 (x1 ) + β1 d0 , J 0 (x2 ) − J 0 (x1 )) = (−J 0 (x1 ) −
β1 J 0 (x0 ), J 0 (x2 ) − J 0 (x1 )). On utilise alors l’orthogonalité des vecteurs dérivées.
Ainsi il reste β20 = 0 et

β21 ρ1 (d1 , Ad1 ) = (J 0 (x2 ), J 0 (x2 ))

Comme d1 = −J 0 (x1 ) + β1 d0 = −J 0 (x1 ) − β1 J 0 (x0 ), il vient

−β21 |J 0 (x1 )|2 = |J 0 (x2 )|2 .

D’autre part la condition d’optimalité est (J 0 (x3 ), d2 ) = 0, x3 = x2 + ρ2 d2 .


On sait d’autre part que

(J 0 (x3 ), d1 ) = (J 0 (x3 ) − J 0 (x2 ), d1 ) + (J 0 (x2 ), d1 )


= (J 0 (x3 ) − J 0 (x2 ), d1 ) optimalité pour x2
= (A(x3 − x2 ), d1 ) = ρ2 (Ad2 , d1 ) = 0 conjuguées

(J 0 (x3 ), d0 ) = (J 0 (x2 ), d0 ) + ρ2 (Ad2 , d0 ) = (J 0 (x2 ), d0 ) = −(J 0 (x2 ), J 0 (x0 )) = 0.

On sait donc que J 0 (x3 ) est orthogonal à l’espace vectoriel engendré par
d0 , d1 , d2 donc est orthogonal à J 0 (x0 ), J 0 (x1 ), J 0 (x2 ).
Finalement le coefficient ρ2 est donné par

ρ2 (Ad2 , d2 ) + (J 0 (x2 ), d2 ) = 0
soit, utilisant d2 = −J 0 (x2 ) + β21 d1 et l’orthogonalité de d1 et de J 0 (x2 )
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 113

ρ2 (Ad2 , d2 ) = |J 0 (x2 )|2


et on en déduit, utilisant le fait que les directions sont conjuguées

|J 0 (x2 )|2 |J 0 (x2 )|2


ρ2 = − = .
(J 0 (x2 ), Ad2 ) d2 , Ad2 )

Raisonnement par récurrence On suppose donc que l’on a construit une


suite (xp , ρp , dp ), p ≤ n, et xn+1 ayant les propriétés suivantes:
• la suite (dp ) est une suite de directions conjuguées
• dp+1 = −J 0 (xp+1 ) + βp+1 dp pour p ≤ n − 1 avec

|J 0 (xp+1 )|2
βp+1 = .
|J 0 (xp )|2

• les vecteurs (J 0 (xp )) forment une famille orthogonale pour le produit


scalaire usuel pour 0 ≤ p ≤ n
• xp+1 = xp + ρp dp pour p ≤ n, les ρp étant donnés par la relation

|J 0 (xp )|2
ρp = − .
(J 0 (xp ), Adp )
• On commence par vérifier que J 0 (xn+1 ) est orthogonal à tous les autres.
Pour cela, on démontre que J 0 (xn+1 ) est orthogonal à tous les dp , 0 ≤ p ≤ n.
La première relation est la condition d’optimalité, qui s’écrit

(J 0 (xn+1 ), dn ) = 0

(et qui vient du fait que l’on minimise J(xn + tdn )). On utilise ensuite, pour
j ≤ n − 1, la relation

(J 0 (xj+1 ), dj ) = 0
et on trouve

(J 0 (xn+1 ) − J 0 (xj+1 ), dj ) = (J 0 (xn+1 ), dj ) = (A(xn+1 − xj ), dj )

soit
(J 0 (xn+1 ), dj ) = (A(ρn dn + .. + ρj+1 dj+1 ), dj )
et il suffit d’utiliser le fait que dj soit conjugué, par l’hypothèse de récurrence,
avec tous les dk , j +1 ≤ k ≤ n. On a donc démontré que J 0 (xn+1 ) est orthogonal
à tous les dj , j ≤ n. Comme l’espace vectoriel engendré par les dj , 0 ≤ j ≤ n
est le même que l’espace vectoriel engendré par les J 0 (xj ), 0 ≤ j ≤ n, on a le
résultat d’orthogonalité.
On construit donc xn+2 , dn+1 et ρn+1 comme suit. On veut que l’espace
vectoriel engendré par (J 0 (x0 ), .., J 0 (xp+1 )) soit aussi l’espace vectoriel engendré
par les directions (d0 , .., dp+1 ). On impose de plus que dp+1 = −J 0 (xp+1 )+lp , où
lp est dans l’espace vectoriel engendré par (d0 , .., dp ) qui est égal, par l’hypothèse
de récurrence, à l’espace vectoriel engendré par (J 0 (x0 ), .., J 0 (xp )).
114 CHAPTER 6. APPROXIMATION DE SOLUTIONS

On sait déjà que


n
j
X
dn+1 = −J 0 (xn+1 ) + βn+1 dj
j=0

Les directions sont conjuguées, donc (dn+1 , Adp ) = 0∀p. On en déduit donc que
n
j
X
βn+1 (dj , Adp ) = (J 0 (xn+1 ), Adp ).
j=0
Utilisant le fait que la famille de directions dj est conjuguée, il vient
p
βn+1 (dp , Adp ) = (J 0 (xn+1 ), Adp ).
On multiplie les deux membres de l’égalité par ρp et on utilise ρp Adp = J 0 (xp+1 )−
J 0 (xp ). Ensuite, comme la famille (J 0 (xk )), 0 ≤ k ≤ n + 1 est une famille or-
thogonale (ce qu’on a juste démontré), on en déduit que J 0 (xn+1 ) est orthogonal
à tous les J 0 (xp+1 ) pour p + 1 ≤ n et à tous les J 0 (xp ) pour p ≤ n. On en déduit
p
que βn+1 = 0 pour p 6= n. Il reste alors seulement un terme

n
βn+1 (dn , J 0 (xn+1 − J 0 (xn )) = (J 0 (xn+1 ), J 0 (xn+1 ) − J 0 (xn )) = |J 0 (xn+1 )|2
Comme d’autre part dn = −J 0 (xn ) + βn−1 dn−1 , utilisant le fait que dn−1 est
dans l’espace vectoriel engendré par J 0 (x0 ), .., J 0 (xn−1 ) donc est orthogonal à
J 0 (xn ) et à J 0 (xn+1 ), il reste

n
βn+1 (−J 0 (xn ), J 0 (xn+1 ) − J 0 (xn )) = |J 0 (xn+1 )|2
soit
n |J 0 (xn+1 )|2
βn = βn+1 = .
|J 0 (xn )|2
On a donc construit une direction dn+1 = −J 0 (xn+1 ) + βn dn telle que les
directions (dp ), 0 ≤ p ≤ n + 1 soient conjuguées.
Enfin, écrivons la condition d’optimalité. On a donc,

(A(xn+2 − xn+1 ), dn+1 ) + (J 0 (xn+1 ), dn+1 ) = 0


soit utilisant dn+1 = −J 0 (xn+1 ) + βn dn , ρn+1 (Adn+1 , dn+1 ) = |J 0 (xn+1 )|2 .
On en tire la relation
|J 0 (xn+1 )|2
ρn+1 = − .
(Adn+1 , J 0 (xn+1 ))
Toutes les hypothèses du raisonnement par récurrence ont été vérifiées, ainsi
l’algorithme continue jusquà obtenir J 0 (xN ) = 0. En dimension finie d, on aura
nécessairement cette condition puisque la famille (J 0 (x0 ), .., J 0 (xd−1 )) est une
famille orthogonale. Si c’est une famille libre, c’est une base et J 0 (xd ) orthogonal
à tous les éléments implique que J 0 (xd ) = 0. Si c’est une famille liée, comme le
vecteur J 0 (xd−1 ) est orthogonal à tous les autres, si il est combinaison linéaire
de tous les autres, cette combinaison linéaire est nulle si tous sont non nuls,
donc il en existe au moins un qui est nul.
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 115

Corollaire 6.1 Le coefficient de dp dans la suite de directions conjuguées de


l’algorithme de gradient conjugué est la valeur qui maximise le facteur de réduction
de l’erreur, erreur définie par E(x) = (r(x), A−1 (r(x))) où r(x) = −J 0 (x).

On remarque que dans le cas de la forme quadratique J(x) = 21 (Ax, x), on


trouve J 0 (x) = Ax donc E(x) = 2J(x). On a alors immédiatement

xn+1 = xn + ρn dn , dn = −J 0 (xn ) + βn−1 dn−1 .

Le terme ρn est calculé par 0 = (Axn + ρn Adn , dn ), soit ρn = − (Ax n ,dn )


(Adn ,dn ) .
Dans ce cas, on applique le résultat donné précédemment et on trouve

(Axn , dn )2
E(xn+1 ) = E(xn )[1 − ],
(Adn , dn )(xn , Axn )
On voit alors que (Axn , dn ) = (Axn , −Axn +βn−1 dn−1 ) = −(Axn , Axn ) car Axn
est orthogonal à dn−1 . Maximiser le facteur de réduction de l’erreur revient alors
2
à maximiser (Adn(Ax n ,dn )
,dn )(xn ,Axn ) , donc à minimiser (Adn , dn ). Comme

(Adn , dn ) = (−A2 xn + βn−1 Adn−1 , −Axn + βn−1 dn−1 )


= (A2 xn , Axn ) − 2βn−1 (Adn−1 , Axn ) + βn−1
2 (Ad
n−1 , dn−1 )

(Adn−1 ,Axn )
le minimum de cette fonction quadratique est obtenu pour βn−1 = (Ad n−1 ,dn−1 )
,
ce qui correspond à la formule obtenue précédemment en utilisant αn−1 dn−1 =
(A(xn −xn−1 ),Axn )
xn − xn−1 . En effet, αn1 dn−1 = xn − xn−1 donc βn−1 = (A(x n −xn−1 ),dn−1 )
. En
utilisant dn−1 = −Axn−1 + βn−2 dn−2 si n ≥ 2, d0 = −Ax0 , dn−2 est orthogonal
à Axn et à Axn−2 si n ≥ 2, donc (dn−1 , Axn − Axn−1 ) = (−Axn−1 , Axn −
||Axn ||2
Axn−1 ) = ||J 0 (xn−1 )||2 = ||r(xn−1 )||2 , et il reste βn−1 = ||Ax n−1 ||
2 . Le Corollaire

est démontré.

6.5.4 Un exemple en dimension 3


En dimension 3, on sait que pour une fonctionnelle quadratique l’algorithme
du gradient conjugué converge en trois itérations au plus, c’est à dire on con-
struit au mieux d0 , d1 , d2 . Nous donnons dans le cas de cet exemple les cas où
l’algorithme converge en une itération et en deux itérations.
La fonctionnelle étudiée ici est une fonctionnelle dont les lignes de niveau
sont des ellipsoides. On prend

1
J(x, y, z) = (a2 x2 + b2 y 2 + c2 z 2 ).
2
Le point de départ est le point (x0 , y0 , z0 ). Le gradient en ce point est (a2 x0 , b2 y0 , c2 z0 ).
Les points de la droite de descente sont

(x0 (1 − a2 t), y0 (1 − b2 t), z0 (1 − c2 t)).


L’algorithme converge en une itération lorsque le point d’arrivée est le point
(0, 0, 0). On trouve donc
116 CHAPTER 6. APPROXIMATION DE SOLUTIONS

 x0 (1 − a2 t) = 0

y0 (1 − b2 t) = 0
z0 (1 − c2 t) = 0

et donc, si x0 6= 0, alors t = a12 donc y0 = z0 = 0, et si c’est y0 qui est non nul


on trouve x0 = z0 = 0 et si z0 6= 0 alors x0 = y0 = 0.
On en déduit que l’algorithme converge en une itération lorsque le
point est sur un des axes principaux de l’ellipsoide
Dans le cas contraire, on calcule la valeur de la fonctionnelle.
On trouve, notant

φ(t) = J(x0 (1 − a2 t), y0 (1 − b2 t), z0 (1 − c2 t))

1
φ(t) = (x20 (1 − a2 t)2 a2 + y02 (1 − b2 t)2 b2 + z02 (1 − c2 t)2 c2 )
2
qui atteint son minimum en t0 que l’on ne calculera pas.
Le gradient en ce point est alors

J 0 (x(1) ) = (a2 x0 (1 − a2 t0 ), b2 y0 (1 − b2 t0 ), c2 z0 (1 − c2 t0 ))
On trouve alors que la direction d1 , qui vaut d1 = −J 0 (x(1) ) + β0 d0 , est de
la forme

d1 = (αx0 , βy0 , γz0 ) = (a2 x0 (−1+a2 t0 +β0 ), b2 y0 (−1+b2 t0 +β0 ), c2 z0 (−1+c2 t0 +β0 ))

et donc x(2) = x(1) + ρd1 , soit


 2
a x0 [(1 − a2 t0 ) + ρ(−1 + a2 t0 + β0 )]

t (2)
x =  b2 y0 [(1 − b2 t0 ) + ρ(−1 + b2 t0 + β0 )]  .
c2 z0 [(1 − c2 t0 ) + ρ(−1 + c2 t0 + β0 )])
On suppose que l’algorithme a convergé en deux itérations. Alors les coor-
données dans l’expression ci-dessus sont nulles. On élimine le cas où une seule-
ment des valeurs de (x0 , y0 , z0 ) est non nulle car c’est le cas précédent. Si
x0 y0 z0 6= 0, on en déduit que les coefficients sont nuls, c’est à dire on obtient un
système sur t0 , β0 , ρ. On vérifie que ce système n’a pas de solutions. En effet,
on trouve les relations (1 − a2 t0 )(1 − ρ) + ρβ0 = (1 − b2 t0 )(1 − ρ) + β0 ρ = 0,
d’où (a2 − b2 )t0 (1 − ρ) = 0. Le cas t0 est impossible (il suffit de vérifier que
t0 (a6 x20 + b6 y02 + c6 z02 ) = a4 x20 + b4 y02 + c4 z02 ). Il reste donc ρ = 1, ce qui donne
β0 = 0. Comme β0 est le quotient des normes de J 0 (x(1) ) et de J 0 (x(0) ), on
trouve que c’est impossible. Ainsi, seulement deux valeurs sur les trois sont
non nulles.
Dans ce cas, on considère par exemple z0 = 0. Alors le point de départ est
dans le plan z = 0, ainsi que le vecteur gradient. Le point d’arrivée x(1) est
alors dans ce plan, et on s’est ramené au minimum de la fonctionnelle J(x, y, 0)
qui est atteint en deux itérations, la première direction d0 = −J 0 (x(0) ) et la
deuxième direction d1 = −J 0 (x(1) ) + β0 d0 comme dans le cas de l’ellipse.
6.6. DESCENTE PSEUDO-CONJUGUÉ 117

On vérifie alors que l’algorithme du gradient conjugué converge en


deux itérations seulement si le point de départ appartient à un des
espaces de dimension 2 invariants par la matrice J”(0).

Remarque On  considére la forme quadratique associée à la matrice A =


a2 1 0

 1 b2 0  . On voit que les valeurs propres de cette matrice sont c2 et λ
0 0 c2
solution de λ2 − (a2 + b2 )λ + a2 b2 − 1 = 0, soit

a2 + b2 2 a2 − b2 2
(λ − ) =1+( )
2 2
Pour pouvoir écrire la matrice comme précédemment, il faut diagonaliser la
matrice donc rechercher
q les vecteurs propres (e± , f± , 0) pour les deux valeurs
2 2 2 2
propres λ± = a +b2 ± 1 + ( a −b 2
2 ) .
L’algorithme du gradient conjugué converge en deux itérations dans les trois
cas suivants:
point de départ de la forme A(e+ , f+ , 0) + B(e− , f− , 0) = (x, y, 0),
point de départ de la forme A(e+ , f+ , 0) + C(0, 0, 1),
point de départ de la forme B(e− , f− , 0) + C(0, 0, 1).

6.6 Algorithme de descente pseudo-conjugué pour


une forme non quadratique
On peut construire, en s’inspirant de l’algorithme ci-dessus, des algorithmes de
descente déduits de l’algorithme du gradient conjugué. En fait, l’idée consiste
à conserver la relation dn+1 = −J 0 (xn ) + βn dn et d0 = −J 0 (x0 ) en construisant
la suite βn et la suite de pas ρn .
On l’écrit dans la

Définition 6.8 Les algorithmes de descente suivants sont la généralisation de


l’algorithme du gradient conjugué pour une fonctionnelle quelconque:
• algorithme de Fletcher-Reeves:


 d0 = −J 0 (x0 )
 xn+1 = xn + ρn dn

 dn+1 = −J 0 (xn ) + βn dn
 βn = |J 0 (xn+1 |2


|J 0 (xn )|2

• algorithme de Polak-Ribiere

d = −J 0 (x0 )
 0


 xn+1 = xn + ρn dn
 dn+1 = −J 0 (xn ) + βn dn
 βn = (J 0 (xn+1 ,J 00(xn+12)−J 0 (xn ))


|J (xn )|

On a le résultat suivant (admis)


118 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Proposition 6.8 L’algorithme de Fletcher-Reeves avec le choix du pas optimal


pour ρn est un algorithme de descente.
L’algorithme de Polak-Ribiere avec ρn pas de Wolfe pas trop grand est un
algorithme de descente.
Si J est strictement convexe et de classe C 2 alors l’algorithme de Polak-
Ribière avec pas optimal converge.

6.7 Méthode de Newton


On se place sur un espace de Hilbert V , et on considère une fonctionnelle J
qui admet un gradient G(u) et une matrice hessienne H(u). On suppose que J
admet son minimum absolu en u. Il est alors nécessaire que G(u) soit nul.
Rappelons tout d’abord la formule de Taylor au voisinage de v: il existe
θ ∈]0, 1[ tel que

(G(u), φ) = (G(v), φ) + (H(v + θ(u − v))(u − v), u − v).


La méthode de Newton-Rophson usuelle construit la solution comme limite
de la suite uk , définie par récurrence: on calcule uk+1 à partir de uk en résolvant
G(uk ) + H(uk )(uk+1 − uk ) = 0. Cette méthode est efficace si la valeur initiale
de la suite est proche de la solution cherchée.
Dans cette partie, on se restreint à des fonctionnelles assez régulières:
(H1) la fonctionnelle J est infinie à l’infini
(H2) la fonctionnelle J a un gradient et un hessien réguliers (au moins
continus uniformément sur tout compact)
(H3) H est uniformément V coercive sur tout borné K:

(H(v), φ, φ) ≥ αK ||φ||2 , ∀φ ∈ V, ∀v ∈ K

(H4) H vérifie une condition de Lipschitz sur les bornés:

||H(u) − H(v)|| ≤ βK ||u − v||, ∀(u, v) ∈ K 2


De plus, ce qui fait la différence avec la méthode de Newton habituelle, c’est
l’introduction d’une forme bilinéaire supplémentaire bk pour chaque élément de
la suite uk qui sera définie ultérieurement. Plus précisément, on définit b(u) qui
vérifie soit les hypothèses (H5) ou (H6) ci dessous (sur un borné, par exemple)
(H5a) coercivité faible

b(u)(φ, φ) ≥ λ0 (G(u), φ)2 ∀φ ∈ V

(H5b) continuité: |b(u)(φ, ψ)| ≤ µ0 ||G(u)||φ||||ψ||∀φ, ψ ∈ V


(H6a) (1 + )-coercivité forte

b(u)(φ, φ) ≥ λ1 ||G(u)||1+ ||φ||2 ∀φ ∈ V


(H6b) (1 + )-continuité |b(u)(φ, ψ)| ≤ µ1 ||G(u)||1+ ||φ||||ψ||∀φ, ψ ∈ V .
On a le
6.7. MÉTHODE DE NEWTON 119

Théorème 6.7 Sous les hypothèses (H1), (H2), (H3), (H4), et (H5) ou (H6)
on a:
• Le problème de minimisation admet une solution unique u.
On considère u0 donné. Soit uk un élément de la suite. L’élément uk+1 est
construit comme uk + ∆k , où ∆k est la solution du problème variationnel

∀φ ∈ V, (H(uk )∆k , φ) + bk (∆k , φ) = −(G(uk ), φ). (6.7.3)


• La suite uk est bien définie, et elle converge vers u
• Il existe deux constantes γ1 et γ2 telles que

γ1 ||uk+1 − uk || ≤ ||u − uk || ≤ γ2 ||uk+1 − uk ||


• Il existe une constante γ3 telle que

||uk+1 − u|| ≤ γ3 ||uk − u||2 .

On commence par donner des exemples de formes de la fonctionnelle b(u).


On notera bk la fonctionnelle b(uk ) pour simplifier les notations.
Pour bk (φ, ψ) = λk (G(uk ), φ)(G(uk ), ψ), les hypothèses (H5a) et (H5b) sont
vérifiées. En revanche, on n’a pas l’hypothèse (H6a).
Pour bk (φ, ψ) = λk ||G(uk )||1+ (φ, ψ), les hypothèses (H5a), (H5b), (H6a),
(H6b) sont toutes vérifiées.

Preuve Etapes de la démonstration.


On commence par démontrer que la suite J(uk ) est décroissante si µ0 (resp.
µ1 ) est choisi de manière adéquate dans l’hypothèse (H5a) (resp. (H6a)). On
en déduit que les termes de la suite restent dans un fermé borné fixe.
Dans un deuxième temps, en choisissant dans la formulation variationnelle
et dans l’égalité de développement de Taylor des valeurs astucieuses de φ, on
montre des estimations sur la différence de deux termes et sur la différence
d’un terme de la suite avec la limite. Pour cela, on utilise de manière cruciale
l’inégalité de coercivité sur le fermé borné.
On définit
U = {v ∈ V, J(v) ≤ J(u0 )}.
• Si J admet un minimum, il est dans U . Comme J est infinie en l’∞,
U est borné. Il est fermé. En effet, si vj ∈ U, vj → v, alors J(u0 ) ≥ J(vj ) =
J(v)+(G(v), vj −v)+ 21 (H(v +θ(vj −v))(vj −v), vj −v). Comme H est coercive,
on a J(u0 ) ≥ J(vj ) ≥ J(v) + (G(v), vj − v). Comme v ne dépend pas de j, on
passe à la limite et J(u0 ) ≥ J(v). Il vient v ∈ U .
• Le problème variationnel linéaire (6.7.3) admet une seule solution ∆k .
Prenant φ = ∆k dans l’égalité variationnelle (6.7.3), on en déduit que

(H(uk )∆k , ∆k ) + bk (∆k , ∆k ) = −(G(uk ), ∆k ). (6.7.4)

Utilisant la coercivité de H et la positivité de bk , on en déduit

(H(uk )∆k , ∆k ) + bk (∆k , ∆k ) ≥ αU ||∆k ||2 .


120 CHAPTER 6. APPROXIMATION DE SOLUTIONS

On utilise l’inégalité

| − (G(uk ), ∆k )| ≤ ||∆k ||||G(uk )||.

On divise, si ∆k 6= 0, par la norme et on obtient

α||∆k || ≤ ||G(uk )||. (6.7.5)


Désignant par ||G|| le maximum de G sur le fermé U , on en déduit

||∆k || ≤ α−1 ||G||.

Soit
U1 = {v ∈ V, ||v − w|| ≤ α−1 ||G||, w ∈ U }
Il vient uk+1 = uk + ∆k ∈ U1 .
• Il s’agit maintenant de contrôler le terme J(uk+1 ) par rapport au terme
J(uk ); On effectue un développement de Taylor pour J au voisinage de uk .
Ainsi
1
J(uk+1 ) − J(uk ) = (G(uk ), ∆k ) + (H(uk + θ∆k )∆k , ∆k )
2
d’où, en utilisant l’égalité (6.7.4) pour remplacer le terme (G(uk ), ∆k ):

1 1
J(uk+1 )−J(uk ) = − (H(uk )∆k , ∆k )−bk (∆k , ∆k )+ ([H(uk +θ∆k )−H(uk )]∆k , ∆k ).
2 2
On note β1 la constante de Lipschitz pour H sur U1 . Si on suppose uk ∈ U0 ,
on trouve uk + θ∆k ∈ U1 . Ceci permet de minorer le terme − 21 ([H(uk + θ∆k ) −
H(uk )]∆k , ∆k ). En utilisant la coercivité de H, on trouve l’inégalité

α β1 α β1
J(uk )−J(uk+1 ) ≥ ||∆k ||2 (1− ||∆k ||)+bk (∆k , ∆k ) ≥ ||∆k ||2 (1− ||∆k ||).
2 α 2 α
Deux cas se présentent. Dans cette inégalité, on doit contrôler le signe du
second membre.

• Si ||∆k || est petit, c’est-à-dire ||∆k || ≤ (1 − C) βα1 , alors J(uk ) − J(uk+1 ) ≥


αC 2
2 ||∆k || en utilisant uniquement la positivité de bk .
Dans le cas contraire, on utilise la forme de b.

• On suppose vérifiées les hypothèses (H5).


Dans ce cas, le terme bk (∆k , ∆k ) vérifie

bk ((∆k , ∆k ) ≥ λ0 ((G(uk ), ∆k ))2 .


On contrôle alors que par emploi de la relation (6.7.4), on trouve

−(G(uk ), ∆k ) ≥ α||∆k ||2


donc on tire
6.7. MÉTHODE DE NEWTON 121

((G(uk ), ∆k ))2 ≥ α2 ||∆k ||4


Alors
α 1
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 1 + λ0 α2 ||∆k ||4 − β1 ||∆k ||3 .
2 2
β1
La somme des deux derniers termes est du signe de λ0 α2 ||∆k || − 2 donc
est positive dès que ||∆k || ≥ 2λβ01α2
β1
Si on choisit λ0 de sorte que 2λ0 α2
≤ (1 − C) βα1 , soit

β12
λ0 >
2α3

il existe C telle que 2λβ01α2 ≤ (1 − C) βα1 . Dans ce cas, on voit que si


||∆k || ≥ (1 − C) βα1 , on obtient

β1
||∆k || ≥
2λ0 α2
et donc

α
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 .
2
En résumé, sous cette hypothèse sur λ0 , on trouve, pour tout ∆k

αC
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 . (6.7.6)
2
• Dans le cas où J vérifie les hypothèses (H6) pour  = 1, et si la constante
β2
lambda1 (que l’on suppose assez grande) vérifie λ1 > 8α13 , on vérifie que
8µ α3 −β 2
λ1 α2 ||∆k ||2 + α2 − β21 ||∆k || ≥ 16µ
0

2
1
= δ0 > α2 , et donc J(uk )−J(uk+1 ) ≥
δ0 ||∆k ||2 (la condition sur λ1 est plus faible).
• Le raisonnement est le même si l’hypothèse (H6) est vérifiée. En effet,
on obtient

α β1
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 (1 − ||∆k ||) + µ0 ||G(uk )||1+ ||∆k ||2 ,
2 α
et, utilisant (6.7.5), on obtient

α α β1
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 [ − ||∆k ||) + µ0 α1+ ||∆k ||1+ ],
2 2 2
Lorsque µ0 grand, le minimum de cette fonction est strictement positif
α
pour tout  > 0 (il s’écrit m2 − ψ()µ−
0 ), donc l’inégalité obtenue est
toujours valable.
122 CHAPTER 6. APPROXIMATION DE SOLUTIONS

On a démontré que la suite J(uk+1 ) < J(uk ) lorsque uk ∈ U . De u0 ∈ U , on


déduit alors J(u1 ) < J(u0 ) donc u1 ∈ U . Ainsi, par récurrence, J(uk+1 < J(uk )
donc uk+1 ∈ U . La suite J(uk ), décroissante et minorée, converge. Ainsi la suite
J(uk )−J(uk+1 ) tend vers 0, donc ∆k tend vers 0 grâce à l’inégalité (6.7.6)6.7.6).
Il faut montrer désormais que la suite uk converge. On écrit la formule de
Taylor (G(uk ), φ) = (G(u), φ) + (H(u + θ0 (uk − u))(uk − u), φ), ce qui donne

(H(uk )∆k , φ) + bk (∆k , φ) = −(H(u + θ0 (uk − u))(uk − u), φ), (6.7.7)

par l’application de l’égalité variationnelle définissant ∆k . Comme U est con-


vexe (la fonctionnelle est convexe car son Hessien est coercif), u + θ0 (uk − u)
est dans U . Ainsi, prenant φ = uk − u et appliquant les inégalités de Cauchy-
Schwartz à (H(uk )∆k , uk − u) + bk (∆k , uk − u) = −(H(u + θ0 (uk − u))(uk −
u), uk − u), on trouve, notant γ la constante majorant les normes de H(uk ) et
de bk (ce qui est possible puisque uk ∈ U donc G(uk ) est borné par ||G||):

γ||∆k ||||uk − u|| ≥ α||uk − u||2 .


La convergence de ∆k vers 0 et l’inégalité ||uk − u|| ≤ α−1 γ||∆k || entrainent
la convergence de uk vers u. De plus, on vérifie facilement que si on considère
φ = ∆k dans l’égalité (6.7.7), alors on trouve ||uk − u|| ≥ αγ ||∆k ||.
On montre enfin la convergence quadratique. L’égalité (6.7.7) donne alors,
écrivant δk = uk − u et ∆k = δk+1 − δk , l’égalité

(H(uk )δk+1 , φ)+bk (δk+1 , φ) = (H(uk )δk , φ)+bk (δk , φ)−(H(u+θ0 (uk −u))δk , φ)

puis utilisant pour le terme de gauche la coercivité de H, pour le terme de droite


le caractère Lipschitz de H, et la positivité de bk pour le terme de gauche, il
reste, pour φ = δk+1 ,

α||δk+1 ||2 ≤ µ1 ||G(uk )||1+ ||δk+1 ||||δk || + β1 ||δk ||2 ||δk+1 ||


d’où on déduit

α||δk+1 || ≤ µ1 ||G(uk )||1+ ||δk || + β1 ||δk ||2


Comme G est Lipschitz (puisque H est continue) et que G(u) = 0, on en déduit
||G(uk )|| = ||G(uk ) − G(u)|| ≤ Γ||δk ||. Comme cette quantité est bornée par D
constante, on en déduit l’inégalité

α||δk+1 || ≤ (µ1 Γ1+ D + β1 )||δk ||2 ,


qui est la convergence quadratique.
Cette démonstration, bien que longue et fastidieuse, est importante et intéressante,
car elle permet de manipuler les formulations variationnelles, de voir l’importance
de la coercivité, de voir les choix de fonctions test. Notons que les deux hy-
pothèses possibles (H5) ou (H6) conduisent au résultat, et sont utilisées de
manière cruciale dans la preuve de la décroissance de J(uk ), preuve suffisante
pour la convergence. C’est pour cela que cette méthode conduit toujours à
6.8. ALGORITHMES D’OPTIMISATION AVEC CONTRAINTES 123

une solution. D’autre part, dire que µ0 est assez grand est possible car on est
libre du choix de b pour le problème d’optimisation. On peut rapprocher cette
méthode des méthodes de pénalisation.

6.8 Algorithmes d’optimisation avec contraintes


Les trois algorithmes que je compte présenter correspondent aux algorithmes
de minimisation sous contraintes.

6.8.1 Le gradient avec projection


On suppose dans ce premier cas que l’espace des contraintes K est convexe. On
rappelle dans ce cas qu’il existe une projection sur K, définie par

||x − pK (x)|| = inf ||x − y||


y∈K

et caractérisé par l’inégalité

(y − pK (x), x − pK (x)) ≤ 0∀y ∈ K.


Un des problèmes essentiels d’un algorithe de gradient, lorsqu’on n’est pas
dans le cas du gradient réduit, est qu’il ne donne pas à l’itération n + 1 un
élément de l’espace des contraintes car on ne sait pas si la direction −J 0 (xn ) est
une direction admissible pour l’espace des contraintes si xn est dans K. D’autre
part, la projection est une application contractante, donc ||pK (x) − pK (y)|| ≤
||x − y||, ce qui implique que ||pK (x − αJ 0 (x)) − pK (y)|| ≤ ||x − αJ 0 (x) − y|| donc
en projetant le résultat d’un algorithme de gradient, on se rapproche plus de y
solution du problème de minimisation. L’algorithme de gradient avec projection
est un algorithme de la forme

xn+1 = pK (xn − ρn J 0 (xn )).

Proposition 6.9 Si J est convexe et que K est convexe, un point solution


du problème de minimisation de J sur K est un point stationnaire de l’égalité
x0 = pK (x0 − αJ 0 (x0 )).

Preuve On suppose que x0 est une solution du problème de minimisation.


Comme J est convexe, la condition d’Euler est équivalente à

∀y ∈ K, (J 0 (x0 ), y − x0 ) ≥ 0.

On en déduit, pour tout α > 0, que

(y − x0 , −αJ 0 (x0 )) ≤ 0
donc
∀y ∈ K, (y − x0 , x0 − αJ 0 (x0 ) − x0 ) ≤ 0
124 CHAPTER 6. APPROXIMATION DE SOLUTIONS

ce qui est la caractérisation de la projection de x0 −αJ 0 (x0 ) en x0 . On en déduit


que

∀α > 0, x0 = pK (x0 − αJ 0 (x0 )).


Réciproquement, soit α0 > 0 tel que x0 = pK (x0 − α0 J 0 (x0 )). On a alors

∀y ∈ K, (y − x0 , x0 − α0 J 0 (x0 ) − x0 ) ≤ 0
soit
∀y ∈ K, (y − x0 , J 0 (x0 )) ≥ 0
ce qui, par la caractérisation dans le cas convexe, implique que x0 est solution
du problème de minimisation.
On a même un résultat lorsque le pas de l’algorithme de gradient avec
projection est bien choisi:

Théorème 6.8 On suppose K convexe fermé non vide, J bornée inférieurement


sur K, de classe C 1 , Lipschitz uniformément sur K dont une constante de Lip-
schitz est L:

||J 0 (x) − J 0 (y)|| ≤ L||x − y||.


Si il existe  > 0 tel que, pour tout n, ρn ∈ [, L2 (1 − )], la suite xn donnée par
l’algorithme de gradient avec projection vérifie

||xn+1 − xn || → 0
Tous les points d’adhérence de cette suite sont des points stationnaires.

Preuve On vérifie que, par caractérisation de la projection

∀y ∈ K, (y − pK (xn − ρn J 0 (xn )), xn − ρn J 0 (xn ) − pK (xn − ρn J 0 (xn ))) ≤ 0,

donc

∀y ∈ K, (y − xn+1 , xn − ρn J 0 (xn ) − xn+1 ) ≤ 0.


On conmmence l’algorithme avec un point x0 , pas forcément dans K. En re-
vanche, pour n ≥ 1, tous les termes de la suite sont dans K donc on peut
prendre y = xn . On en déduit l’inégalité:

(xn − xn+1 , xn − xn+1 ) − ρn (xn − xn+1 , J 0 (xn )) ≤ 0


soit

1
(J 0 (xn ), xn+1 − xn ) ≤ − ||xn − xn+1 ||2 .
ρn
On utilise
6.8. ALGORITHMES D’OPTIMISATION AVEC CONTRAINTES 125

Z 1
0
J 0 (xn +t(xn+1 −xn ))−J 0 (xn ), xn+1 −xn dt.

J(xn+1 )−J(xn )−(J (xn ), xn+1 −xn ) =
0

Comme on a L−Lipschitz, on trouve

R1
|J(xn+1 ) − J(xn ) − (J 0 (xn ), xn+1 − xn )| ≤ 0 ||J 0 (xn + t(xn+1 − xn )) − J 0 (xn )||||xn+1 − xn ||dt
R1
≤ L( 0 tdt||xn+1 − xn ||)||xn+1 − xn ||
≤ L2 ||xn+1 − xn ||2

On utilise alors la convexité de J pour obtenir

J(xn+1 ) ≥ J(xn ) + (J 0 (xn ), xn+1 − xn ).


On en déduit l’inégalité

L
J(xn+1 ) − J(xn ) − (J 0 (xn ), xn+1 − xn ) ≤ ||xn+1 − xn ||2
2
et de l’inégalité de caractérisation de la projection on déduit

1
(J 0 (xn ), xn+1 − xn ) ≤ − ||xn+1 − xn ||2
ρn
donc

L 1
J(xn+1 ) − J(xn ) ≤ ( − )||xn+1 − xn ||2 .
2 ρn
On utilise alors ρ1n ∈ [ L2 1−
1
, 1 ] soit L2 − 1
ρn ∈ [ L2 − 1 , − L2 1−

], donc finalement
la suite J(xn ) est décroissante et on a

L 
||xn+1 − xn ||2 ≤ J(xn ) − J(xn+1 ).
2 1−
La suite J(xn ) est minorée et décroissante, donc elle converge. La décroissance
de la suite vient uniquement de l’hypothèse sur le pas... On en déduit que
J(xn+1 ) − J(xn ) tend vers 0, donc il en est de même de xn+1 − xn .
Enfin, si y est une valeur d’adhérence de la suite, xφ(n) tend vers y, dont
on déduit que xφ(n)+1 tend aussi vers y. De l’égalité xφ(n)+1 = pK (xφ(n) −
ρφ(n) J 0 ((xφ(n) )), on ne peut rien déduire car on ne sait pas si la suite ρφ(n)
converge. Il s’agit alors de remarquer que cette suite est bornée, donc on peut
extraire une sous-suite convergente, que l’on note ρφ(ψ(n)) . Elle converge vers
α > 0, et de la continuité de J 0 , de la continuité de la projection sur un convexe
fermé, on déduit l’égalité y = pK (y − αJ 0 (y)).

6.8.2 Pénalisation des contraintes


Le premier concerne la pénalisation des contraintes;on cherche à minimiser J(u)
sous les contraintes Fj (u) ≤ 0. On introduit
126 CHAPTER 6. APPROXIMATION DE SOLUTIONS

j=M
1 X
Jε (v) = J(v) + [max(Fj (v), 0)]2
ε
j=1

On a

Théorème 6.9 On suppose V = IRN .


On suppose que J est continue, α−convexe, que les Fj sont convexes et que
l’ensemble des contraintes K est non vide. Si uε est l’unique solution de inf Jε
et u l’unique solution de inf v∈K J, alors

lim uε = u.
ε→0
De plus, sous l’hypothèse J, F1 , .., FM continuement différentiables, les con-
traintes sont qualifiées en u, et la famille des contraintes actives est régulière
en u, les multiplicateurs de Lagrange λj du problème non pénalisé vérifient
2
λi = lim max(Fi (uε ), 0).
ε→0 ε

1 Pj=M
Preuve L’existence et l’unicité de u et de uε sont claires car u → ε j=1 [max(Fj (v), 0)]2 =
G(u)
ε est une fonctionnelle convexe.
On sait d’autre part que

J (u ) ≤ infK J ,
et comme, pour y ∈ K, J (y) = J(y), on vérifie que J (u ) ≤ J(u). Comme
d’autre part

J (u ) ≥ J(u )
on a l’inégalité J(u ) ≤ J(u). Comme J est α−convexe, la suite uε est bornée.
On peut extraire une sous-suite convergeant vers une limite ũ. De l’inégalité
J(uε ) ≤ J(uε ) + G(u ε
ε)
≤ J(u), on déduit l’inégalité G(uε ) ≤ ε(J(u) − J(uε )),
ce qui implique que G(ũ) = 0 (car G est continue donc G(uε ) tend vers G(ũ)
pour la suite extraite et que ε → 0). Cela exprime que ũ ∈ K. Ainsi comme
J(uε ) ≤ J(u), en considérant toujours la même suite extraite et la continuité
de J, on trouve J(ũ) ≤ J(u). On a démontré que ũ = u et donc la suite uε
admet une seule valeur d’adhérence.
Pour les multiplicateurs de Lagrange, on trouve, par définition de la dérivée
en un point x de (max(x, 0))2 qui vaut 2 max(x, 0), l’égalité
j=M
1 X
J 0 (uε ) + 2 max(Fj (uε ), 0)Fj0 (uε ) = 0.
ε
j=1

Comme J 0 , Fj0 sont continues, on trouve J 0 (uε ) → J 0 (u) et Fj0 (uε ) → Fj0 (u). On
suppose que pour un élément j, on ait Fj (uε ) → Fj0 (u) < 0. Alors il existe ε0
tel que, pour ε < ε0 , Fj (uε ) < 0 et donc on trouve max(Fj (uε , 0) = 0. L’égalité
devient, pour ε assez petit
6.8. ALGORITHMES D’OPTIMISATION AVEC CONTRAINTES 127

1 X
J 0 (uε ) + 2 max(Fj (uε ), 0)Fj0 (uε ) = 0.
ε
j∈I(u)

D’autre part, pour j ∈ I(u), on P vérifie qu’il existe une suite λ1 , ..λM , avec
/ I(u), telle que J 0 (u) + λj Fj0 (u) = 0. Ainsi on trouve
λj = 0 si j ∈

1 X
J 0 (uε ) − J 0 (u) + ( 2 max(Fj (uε ), 0) − λj )Fj0 (uε ) = 0.
ε
j∈I(u)

La famille (Fj0 (u) est libre, donc, par continuité, pour ε assez petit, la famille
(Fj0 (uε )
est libre. De plus, en formant le produit scalaire avec tous les Fj0 (uε ),
le déterminant du système obtenu est, toujours pour ε petit, minoré par une
constante. Ceci permet d’assurer le fait que 2ε max(Fj0 (uε , 0) est borné et donc
que

2
max(Fj0 (uε ), 0)(Fj0 (uε ) − Fj0 (u))
ε
tend vers 0 pour tout j. On en conclut sur la convergence, sur la base fixe des
Fj0 (u), de J 0 (uε ) + 2ε max(Fj0 (uε ), 0)Fj0 (u), d’où le résultat de convergence des
coefficients.

6.8.3 Algorithme d’Uzawa


En fait, il s’agit d’une méthode de recherche de point selle.
On sait que, pour L(v, q) = J(v) + (q, F (v)),

∀q ≥ 0, L(u, q) ≤ L(u, p) ≤ L(v, p)


Ainsi

∀q, q ≥ 0, (p − q, F (u)) ≥ 0.
Il vient, pour µ > 0

(p − q, p − (p + µF (u))) ≤ 0∀q ∈ (IR+ )M .


Ceci indique que, pour tout µ > 0, la projection de p + µF (u) est p sur l’espace
(IR+ )M .
On définit alors, pour µ paramètre fixé, la suite (un , pn ) donnée par

L(un , pn ) = inf L(v, pn )


v∈V

et le multiplicateur pn+1 est la projection sur (IR+ )m de pn + µF (un ).


Cette projection se fait très simplement: pour chaque coordonnée de pn +
µF (un ), si la coordonnée est positive ou nulle, on ne la change pas, mais si elle
est strictement négative, on la met à 0. Cet algorithme converge: ce qui s’écrit
dans le
128 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Théorème 6.10 On suppose J α−convexe différentiable, Lipschitz de con-


stante C et que le lagrangien L admet un point selle (u, p). Alors, pour 0 <
2α n donnée par l’algorithme d’Uzawa converge vers u .
µ< C 2 , la suite u

On admettra la démonstration de ce théorème.


Chapter 7

Introduction aux méthodes de


discrétisation des équations
aux dérivées partielles

On souhaite étudier les équations aux dérivées partielles suivantes:


i) Equation de la chaleur ∂t u − ∂x22 u = 0
ii) Equation des ondes ∂t22 u − ∂x22 u = 0
iii) Equation de Laplace avec condition de Dirichlet

−∆u = f sur Ω, u|∂Ω = 0.

7.1 Les différences finies


Pour les deux premières équations, on souhaite ramener ce problème continu à
un problème discrétisé, c’est-à-dire faisant intervenir les valeurs de la solution u
aux points (j∆x, n∆t). Pour cela, il s’agit de calculer la dérivée première et la
dérivée seconde en fonction des points voisins, sur le modèle de u(x+h)−u(x)h '
0
u (x).
On écrit pour cela ujn = u(j∆x, n∆t) pour u de classe C 4 , sur laquelle on
applique la formule de Taylor-Young.

uj+1
n = ujn + ∆x∂x u(j∆x, n∆t) + 21 (∆x)2 ∂x22 u(j∆x, n∆t) + 61 (∆x)3 ∂x33 u(j∆x, n∆t)
1
+ 24 (∆x)4 ∂x44 u((j + θ)∆x, n∆t).

Il ne suffit pas de uj+1


n et de ujn pour connaitre la dérivée seconde; il faut
un troisième point. On prend uj−1
n , et on a

uj−1
n = ujn − ∆x∂x u(j∆x, n∆t) + 21 (∆x)2 ∂x22 u(j∆x, n∆t) − 61 (∆x)3 ∂x33 u(j∆x, n∆t)
1
+ 24 (∆x)4 ∂x44 u((j − θ0 )∆x, n∆t).

En additionnant les deux relations, on trouve ainsi

129
130 CHAPTER 7. INTRODUCTION À LA DISCRÉTISATION

(∆x)4 4
unj+1 +unj−1 −2ujn = (∆x)2 ∂x22 u(j∆x, n∆t)+ [∂x4 u(j+θ)∆x, n∆t)+∂x44 u(j−θ0 )∆x, n∆t)],
24
ainsi

uj+1
n + unj−1 − 2ujn (∆x)2 4
∂x22 u(j∆x, n∆t) = − [∂x4 u(j+θ)∆x, n∆t)+∂x44 u(j−θ0 )∆x, n∆t)],
(∆x)2 24

ce qui donne, sur un compact K:

uj+1
n + uj−1
n − 2ujn (∆x)2 4
|∂x22 u(j∆x, n∆t) − | ≤ ||∂x4 u(j∆x, n∆t)||.
(∆x)2 12

On utilise aussi la relation

ujn+1 − ujn = ∆t∂t u(j∆x, n∆t) + O((∆t)2 )


qui nous permet d’écrire des schémas pour l’équation des ondes et pour l’équation
de la chaleur.
Pour l’équation des ondes, on écrit par exemple

ujn+1 − 2ujn + ujn−1 uj+1


n − 2ujn + uj−1
n
− =0 (7.1.1)
(∆t)2 (∆x)2
qui s’appelle un schéma explicite puisque ujn+1 est connu explicitement en
fonction des valeurs de ulk pour k ≤ n, c’est-à-dire que l’on connait les valeurs
aux points situés au temps (n + 1)∆t en fonction des temps précédents.
On écrit aussi

ujn+1 − 2ujn + ujn−1 uj+1 j j−1


n+1 − 2un+1 + un+1
− =0 (7.1.2)
(∆t)2 (∆x)2
qui s’appelle un schéma implicite car on ne peut pas déterminer les valeurs au
temps (n + 1)∆t en fonction des valeurs aux temps précédents.
On suppose que l’on se place sur un compact, par exemple x ∈ [0, 1]. On
vérifie que la discrétisation correspond aux ∆x = N1 et j ∈ [0, N ]. En ajoutant
des conditions aux extrémités, on se ramène à un système de la forme
 1 
un+1
 u2n+1  
A .  = 2un−1 − un−1 .

.uN
n+1

C’est un système linéaire de la forme Ax = b qui peut se résoudre par des


méthodes d’approximation du cours d’optimisation, sur la fonctionnelle

1
J(x) = (Ax, x) − (b, x).
2
7.1. LES DIFFÉRENCES FINIES 131

Pour l’équation de la chaleur, on écrit les mêmes schémas:

ujn+1 − ujn uj+1


n − 2ujn + uj−1
n
− =0 (7.1.3)
∆t (∆x)2
qui est un schéma explicite, et

ujn+1 − ujn uj+1 − 2ujn+1 + uj−1


− n+1 n+1
=0 (7.1.4)
∆t (∆x)2
qui est un schéma implicite.
Pour affiner l’analyse, nous introduisons les fonctions, polynômiales de degré
3 au plus, qui soient de classe C 2 sur [0, 1] et qui coincident avec tous les
ujn en tous les points j∆x pour ∆x = N1 . Pour ces fonctions là, on vérifie
que la dérivée seconde sur tous les intervalles [j∆x, (j + 1)∆x] est exacte-
uj+1 −2uj +uj−1
n+1
ment égale à n+1 (∆x) 2
n+1
, puisque la fonction est de dérivée quatrième
nulle sur chaque intervalle. On peut donc déduire une formulation continue
uj+1 j j−1
n+1 −2un+1 +un+1
de cette formulation discrète, en remplacant le terme (∆x)2
par
un+1 (x+∆x)+un+1 (x−∆x)−2un+1 (x)
(∆x)2
. On emploiera en permanence cette notation
désormais (utilisant l’indice pour la position en espace et l’exposant pour l’incrément
en temps). On écrit les schémas sous la forme

un+1 (x) − un (x) un+1 (x + ∆x) + un+1 (x − ∆x) − 2un+1 (x)


=
∆t (∆x)2

un+1 (x) − un (x) un (x + ∆x) + un (x − ∆x) − 2un (x)


=
∆t (∆x)2
Considérant la transformée de Fourier en x des deux égalités ci-dessus et
utilisant la relation
ξ∆x
eiξ∆x + e−iξ∆x − 2 sin2 2
= −4
(∆x)2 (∆x)2
on trouve respectivement, en notant
Z +∞
n
v (ξ) = e−ixξ un (x)dx
−∞
la relation pour le schéma implicite pour l’équation de la chaleur
ξ∆x ∆t
(1 + 4 sin2 )v n+1 (ξ) = v n (ξ)
2 (∆x)2
et la relation pour le schéma explicite pour l’équation de la chaleur

ξ∆x ∆t
v n+1 (ξ) = (1 − 4 sin2 )v n (ξ).
2 (∆x)2
Le but est d’assurer la convergence de la suite pour tout n (c’est à dire
lorsque le temps devient grand).
132 CHAPTER 7. INTRODUCTION À LA DISCRÉTISATION

• Dans le cas du schéma explicite, il est nécessaire pour cela que le coefficient
(1 − 4 sin2 ξ∆x ∆t
2 (∆x)2 ) soit de module plus petit que 1, soit l’inégalité

ξ∆x ∆t
4 sin2 > −2
2 (∆x)2
∆t 1
ce qui est possible lorsque le coefficient (∆x)2 est plus petit que 2 . Cette condi-

tion s’appelle une condition CFL et doit être vérifiée pour que la suite n’explose
pas lorsque ∆t tend vers 0 (ce qui est imposé par [0, T ] = ∪k≤ T [k∆t, (k+1)∆t]).
∆t
• Dans le cas du schéma implicite, le coefficient (1 + 4 sin2 ξ∆x ∆t −1
2 (∆x)2 ) est
toujours plus petit que 1 et le schéma implicite converge toujours.
Pour l’équation des ondes, la situation est similaire, sauf que la relation de
récurrence pour la suite est une relation d’ordre 2, et on doit étudier les racines
de la relation caractéristique. On trouve par exemple, pour le schéma explicite

ξ∆x ∆t 2 n+1
v n+1 (ξ) − 2(1 − 2 sin2 ( ) )v (ξ) + v n (ξ) = 0
2 ∆x
et pour le schéma implicite

ξ∆x ∆t 2
v n+1 (ξ)(1 + 4 sin2 ( ) ) − 2v n+1 (ξ) + v n (ξ) = 0.
2 ∆x
On constate pour le premier schéma que le produit des racines de l’équation
caractéristique est 1, donc le produit des modules est égal à 1. Si le discrim-
inant est négatif, les deux racines sont complexes conjuguées de module 1, si
le discriminant est positif, une des racines est de module supérieur à 1, donc il
n’y a pas convergence.
1
Pour le deuxième schéma, le produit des racines est 2 ξ∆x ∆t 2 et le dis-
1+4 sin 2
( ∆x )
criminant est négatif, elles sont donc complexes conjuguées de module inférieur
à 1 (égal à 1 lorsque ξ∆x = 2πn), donc ce schéma est convergent.
Ce schéma n’est pas employé en général; les numériciens préfèrent employer
le schéma de Cranck-Nicholson qui se présente de la manière suivante.
On introduit l’opérateur Ah qui est l’opérateur employé dans les algorithmes
précédents (le h correspond à ∆x). Cet opérateur s’écrit

φj+1 − 2φj + φj−1


(Ah φ)j = − (7.1.5)
(∆x)2
sur une suite φj .
Le schéma utilisé habituellement est alors

un+1
j + un−1
j − 2unj
+ (Ah (θun+1 + (1 − 2θ)un + θun+1 ))j = 0.
(∆t)2
où θ ∈ [0, 12 ]. Le choix θ = 0 correspond à un schéma explicite comme vu
précédemment.
La transformée de Fourier appliquée à ce schéma comme cela a été fait
précedemment conduit à la relation de récurrence
7.1. LES DIFFÉRENCES FINIES 133

(1 + α(ξ)θ)v n+1 (ξ) − (2 − (1 − 2θ)α(ξ))v n (ξ) + (1 + α(ξ)θ)v n−1 (ξ) = 0,

où

∆t 2 2 ξ∆x
α(ξ) = 4( ) sin
∆x 2
associée à l’équation caractéristique

(1 + α(ξ)θ)r2 − (2 − (1 − 2θ)α(ξ))r + (1 + α(ξ)θ) = 0,


Comme précédemment, le produit des racines est 1, donc si les deux racines
sont réelles et ne sont pas égales, le schéma est instable car une des racines
est plus grande que 1. Il vient alors qu’une condition nécessaire de stabilité
est donnée par le fait que les deux racines sont complexes conjuguées, donc de
module 1. Ceci s’écrit

(2(1 + θα(ξ)) − α(ξ))2 − 4(1 + α(ξ)θ)2 ≤ 0


soit −α(ξ)(4(1 + α(ξ)θ) − α(ξ)) ≤ 0 ou encore

(4θ − 1)α + 4 ≥ 0.
Lorsque θ ≥ 41 , cette inégalité est tout le temps vraie. Lorsque θ ∈ [0, 12 ], on
trouve que cette inégalité est vraie pour

∆t 2 2 ξ∆x 1
( ) sin ≤
∆x 2 1 − 4θ
ce qui est vrai sous la condition

∆t 1
≤√ .
∆x 1 − 4θ
On résume les résultats de cette section dans:

Théorème 7.1 Soit Ah l’opérateur d’approximation donné par (7.1.5).


1) Cet opérateur d’approximation vérifie l’inégalité, pour φ = (u(j∆x))j et
u de classe C 4 sur [0, 1] et j ≤ N , ∆x = N1 :

(∆x)2 (4)
|(Ah u)j + u”(j∆x)| ≤ ||u ||C 0 ([0,1]) .
12
2) Un schéma explicite pour l’équation de la chaleur s’écrit

un+1 − un
+ Ah un = 0.
∆t
Il est stable lorsque la condition suivante est satisfaite:

∆t 1
2
≤ .
(∆x) 2
134 CHAPTER 7. INTRODUCTION À LA DISCRÉTISATION

3) Un schéma implicite pour l’équation de la chaleur s’écrit

un+1 − un
+ Ah un+1 = 0.
∆t
Il est tout le temps stable.
4) Un schéma explicite pour l’équation des ondes s’écrit

un+1
j + un−1
j − 2unj
+ (Ah un )j = 0.
(∆t)2
Il est tout le temps instable
5) Un schéma implicite pour l’équation des ondes s’écrit

un+1
j + ujn−1 − 2unj
+ (Ah un+1 )j = 0.
(∆t)2
Il est tout le temps stable.
6) Un schéma implicite pour l’équation des ondes respectant l’invariance
par renversement du temps est

un+1
j + un−1
j − 2unj
+ (Ah (θun+1 + (1 − 2θ)un + θun+1 ))j = 0.
(∆t)2

Il est tout le temps stable pour 14 ≤ θ ≤ 12 .


Pour 0 ≤ θ ≤ 41 , il est stable sous la condition CFL

∆t 1
≤√ .
∆x 1 − 4θ

7.2 Les éléments finis


Nous terminons par une introduction à l’étude des éléments finis en utilisant
l’équation −∆u = f u ∈ H 1 (Ω) avec condition au bord de Dirichlet sur un
ouvert Ω borné.
On vérifie que, si cette équation est vraie au sens des distributions, alors on
a
∀φ ∈∈ C ∞ (Ω), < −∆u, φ >=< f, φ > .
On utilise la définition de la dérivée au sens des distributions pour obtenir

< ∇u, ∇φ >=< f, φ > .


Comme on suppose u ∈ H01 (Ω), la forme linéaire

φ →< ∇u, ∇φ >


est continue sur C0∞ (Ω) pour la norme de H01 (Ω) donc peut se prolonger par
densité. Si on suppose f ∈ L2 (Ω), le second membre a les mêmes propriétés,
donc
7.2. LES ÉLÉMENTS FINIS 135

Z
< ∇u, ∇v >= f (x)v(x)dx

pour v ∈ H01 (Ω). Cette égalité s’écrit donc


Z Z
1
∀v ∈ H0 (Ω), u(x)v(x)dx = f (x)v(x)dx. (7.2.6)
Ω Ω
On reconnaitRdans le membre de gauche la dérivée de Fréchet de la fonctionnelle
1−convexe 12 Ω (∇u)2 dx, et l’égalité est l’écriture de la condition d’Euler pour la
minimisation sur H01 (Ω) (dont l’espace des directions admissibles est lui-même)
de
Z Z
1
J(u) = (∇u)2 dx − f (x)u(x)dx.
2 Ω Ω
On utilise alors les théorèmes d’approximation, en supposant par exemple
que Ω = [0, 1] × [0, 1], pour lequel on construit des sous espaces adaptés de
fonctions H01 , donnés par (h = n1 )

Ph = {u(x, y) ∈ H01 ([0, 1]×[0, 1]), continues, polynômes de degré 1 sur[ph, (p+1)h]×[qh, (q+1)h]}.

On détermine alors une base de Ph en définissant la valeur au bord et la valeur


des dérivées ∂x u et ∂y u sur chacun des pavés du plan. On écrit alors un élément
de Ph sur une base, et on écrit la minimisation de J sur Ph ⊂ H01 ([0, 1] × [0, 1]).
Alors on trouve, de l’égalité variationnelle (7.2.6) écrite pour vh ∈ Ph et uh ∈ Ph ,
un système en dimension finie de la forme Ah uh = Fh , que l’on résout par les
méthodes usuelles du cours (en minimisant par exemple 12 (Ah X, X) − (Fh , X)),
et on essaie d’avoir un résultat en faisant tendre h vers 0.
Par exemple, la base de polynômes sur chaque pavé est (1, X, Y ) donc tout
polynôme de degré au plus 1 s’écrit

ap,q + bp,q (X − ph) + cp,q (Y − qh)

Son gradient est approché par (bp,q , cp,q ) et sa valeur sur X = ph est donnée par
ap,q + cp,q (Y − qh), sur X = (p + 1)h est donnée par ap,q + h + cp,q (Y − qh), sur
Y = qh est ap,q + bp,q (X − ph) et sur Y = (q + 1)h par ap,q + h + bp,q (X − ph).
On peut alors calculer l’intégrale du produit d’éléments de la base:
RhRh
11dxdy = h2
R0h R0h 3
1xdxdy = h2
R0h R0h 3
1ydxdy = h2
R0h R0h 2 4
x dxdy = h3
R0h R0h 4
0 0 xydxdy = h4
h4
RhRh 2
0 0 y dxdy = 3
ce qui fait que le produit de deux éléments a + bx + cy et a0 + b0 x + c0 y donne

h h h2
h2 [aa0 + (ab0 + a0 b + ac0 + a0 c) + (bc0 + b0 c) + (bb0 + cc0 ) ]
2 3 4
136 CHAPTER 7. INTRODUCTION À LA DISCRÉTISATION

ainsi la matrice de la forme quadratique associée (en divisant par h2 pour plus
de simplicité) est
 
1 h2 h
 h h2 h22 
 2 4 3 .
h h2 h2
2 3 4
Il est clair que c’est une forme quadratique définie positive puisque
Z hZ h
(a + bx + cy)2 dxdy = 0 ⇒ a = b = c = 0.
0 0
On utilise donc cette représentation des fonctions de H 1 par des des polynômes
de degré 1.
La présentation ainsi faite n’est pas satisfaisante; en effet un carré ou un
rectangle a quatre sommets, et un polynôme de degré 1 a trois coefficients.
Ainsi on ne pourra pas construire une fonction générale prenant quatre valeurs
données en tous les coins ABCD; il faut nécessairement que

u(A) + u(D) = u(B) + u(C)

Si on veut construire une famille qui conduise à toutes les valeurs possibles aux
points du carré, il faut considérer les fonctions de la forme

u(x, y) = u(0, 0) + bx + cy + dxy


qui sont des polynômes de degré 1 dans chacune des variables x, y. Alors on
aura

u(1, 0) = u(0, 0) + b, u(0, 1) = u(0, 0) + c, u(1, 1) = u(0, 0) + b + c + d

donc b = u(1, 0) − u(0, 0), c = u(0, 1) − u(0, 0), d = u(1, 1) + u(0, 0) − u(0, 1) −
u(1, 0), et cette famille permet de construire une solution dont les valeurs
données sont les valeurs au coin.
Les valeurs aux sommets s’appellent les degrés de liberté d’une fonction
de l’espace d’approximation. Dans le pavé [0, 1]×[0, 1], on construit les sommets
de l’approximation aij = (ih, jh) et la base de l’espace d’approximation Vh (φij )
des fonctions telles que

φij (ai0 j 0 ) = δii0 δjj 0


qui coincident avec les fonctions décrites ci-dessus sur tous les pavés élementaires
de côté h. La fonction φij est la fonction nulle sur tout pavé dont un coin n’est
pas aij est est construite comme la fonction valant 1 au coin aij et 0 à tout
autre coin pour un pavé ayant aij comme coin. Toute fonction de Vh s’écrit
X
u=u(aij )φij
R P R
et il suffit d’évaluer ∇u∇vdx = aij bi0 j 0 ∇φij ∇φi0 j 0 dx pour obtenir la
forme quadratique.
7.2. LES ÉLÉMENTS FINIS 137

Cette présentation fait partie d’un cadre plus général d’approximation, dont
on résume les résultats:

Proposition 7.1 La formulation variationnelle d’un système d’équations aux


dérivées partielles avec conditions aux limites prescrites est l’équation d’Euler
associée à la minimisation sur un espace de Hilbert H de la fonctionnelle
quadratique d’énergie associée au problème 21 a(u, u) − L(u),.
Elle s’écrit

∀v ∈ H, a(u, v) = L(v).
Une méthode d’approximation s’obtient par le processus suivant: on définit
une suite d’espaces vectoriels de dimension finie Vh , associée à un paramètre
h tendant vers 0, dont on connait une base simple Bh , ayant les propriétés
suivantes
i) pour tout élément v de H on peut construire une suite vh ∈ Vh telle que

|v − vh |H → 0 lorsque h → 0
ii) Le calcul de a(φ, ψ) pour φ et ψ dans Bh est simple.
Alors si uh est le minimum de 21 a(u, u) − Lh (u) sur Vh , dans certaines
conditions uh → u.
138 CHAPTER 7. INTRODUCTION À LA DISCRÉTISATION
Chapter 8

Résumé de cours (auteure


Laurence Halpern)

8.1 Résultats d’existence


Soit V un espace de Hilbert (sur R), K une partie de V , J une fonction définie
sur V à valeurs dans R . On dit que u est minimum local de J sur K si u
appartient à K et s’il existe un voisinage U de u dans K tel que
∀v ∈ U, J(u) ≤ J(v) (8.1.1)
Si la relation précédente est vraie pour tout v dans K, on dit que u est min-
imum global de J sur K. On définit un problème de minimisation sur K
par (
u ∈ K,
J(u) = inf J(v) (8.1.2)
v∈K
On dit alors que u est solution optimale du problème de minimisation sur
K. Le problème de minimisation est dit sans contrainte si V = K, avec
contraintes si V 6= K.
Bien évidemment, on définit un problème de maximisation, en remplaçant
6 par > dans (8.1.1) et inf par sup dans (8.1.2). On parlera en général de
problème d’optimisation. On passe de l’un à l’autre en définissant la fonction-
nelle opposée. Dans ce cours tous les résultats sont établis sur les problèmes de
minimisation.

8.1.1 Théorème de Weierstrass


Théorème 8.1 . Si K est un compact non vide et si J est continue sur K, le
problème de minimisation (8.1.2) admet une solution.
Remarque 8.1 . C’est un théorème d’existence, mais il ne donne pas de
résultat d’unicité.
Remarque 8.2 . Dans les problèmes d’optimisation, les ensembles de con-
traintes sont en général fermés bornés, mais pas forcément compacts. Par con-
tre ils sont souvent convexes.

139
140 CHAPTER 8. RESUME

8.1.2 Cas convexe


On rappelle qu’une partie K de V est convexe si

∀(x, y) ∈ K, ∀θ ∈ [0, 1], θx + (1 − θ)y ∈ K (8.1.3)

Une fonction J définie sur un convexe K est dite

• convexe si

∀(x, y) ∈ K, ∀θ ∈ [0, 1], J(θx + (1 − θ)y) 6 θJ(x) + (1 − θ)J(y), (8.1.4)

• strictement convexe si

∀(x, y) ∈ K, x 6= y, ∀θ ∈]0, 1[, J(θx + (1 − θ)y) 6 θJ(x) + (1 − θ)J(y),


(8.1.5)

• α convexe si

∀(x, y) ∈ K, ∀θ ∈ [0, 1], J(θx + (1 − θ)y) 6 θJ(x)+(1 − θ)J(y)−


− α
2 θ(1 − θ)||x − y||2 .
(8.1.6)

Théorème 8.2 . Si J est convexe, tout minimum local est global, et l’ensemble
des solutions optimales est convexe.

Théorème 8.3 . Si J est strictement convexe, la solution optimale, si elle


existe, est unique.

Théorème 8.4 (Théorème fondamental) . Soit K un convexe fermé non


vide, J une fonction définie sur K à valeurs dans R convexe continue. On
suppose que J est infinie à l’infini (i.e. J(v) → +∞ lorsque ||v|| → +∞) ou
que K est borné. Alors le problème de minimisation admet une solution.

Corollaire 8.1 . Soit K un convexe fermé non vide, J une fonction définie
sur K à valeurs dans R, α-convexe continue. Alors le problème de minimisation
admet une solution et une seule. De plus toute suite minimisante converge vers
u.

8.2 Rappels de calcul différentiel


Soit J une fonctionnelle définie sur un Hilbert V à valeurs dans R. On note V 0
le dual de V , i.e. l’espace vectoriel des applications linéaires continues sur V à
valeurs dans R.
8.2. RAPPELS DE CALCUL DIFFÉRENTIEL 141

8.2.1 Dérivées premières


Définition 8.1 (Différentiabilité) J est différentiable (au sens de Fréchet)
en u ∈ V s’il existe lu dans V 0 telle que,

∀w ∈ V, J(u + w) = J(u) + lu (w) + (w)kwk, lim (w) = 0 (8.2.7)


→0

lu est la dérivée de J et se note J 0 (u). On écrira J 0 (u) · v = lu (v).

Remarque 8.3 Par le théorème de Riesz puisque J 0 (u) est dans V 0 , il existe
un unique élément de V noté ∇J(u) tel que pour tout v dans V on ait

J 0 (u) · v = (∇J(u), v)

Exemples de base

1. Les formes linéaires J(u) = (c, u), où c est un vecteur donné dans V .
Alors J 0 (u).v = (c, v), ∇J(u) = c.

2. Les fonctions J(u) = a(u, u), où a est une forme bilinéaire continue sur V .
Alors J 0 (u).v = a(u, v) + a(v, u), et si a est symétrique J 0 (u).v = 2a(u, v).
Pn ∂J
3. Si V = Rn , J 0 (u) = ( ∂x
∂J
1
(u), · · · , ∂J
∂x n
(u)) et J 0 (u).v =
i=1 ∂xi (u)vi .

8.2.2 Dérivées secondes


Si J : V 7→ R, J 0 : V 7→ V 0 admet une différentielle J 00 et pour tout u,
J 00 (u) ∈ L(V, V 0 ), espace des applications linéaires continues de V dans V 0 .
Cet espace s’identifie à L2 (V ), espace des applications bilinéaires continues de
V × V dans R. On notera J”(u) · v · w.
Exemples de base

1. J(u) = (c, u), J”(u) = 0.

2. J(u) = a(u, u), alors J 00 (u).v.w = a(v, w) + a(w, v), et si a est symétrique
J 00 (u).v.w = 2a(v, w). Si V = Rn , J(u) = 21 (Au, u) où A est une matrice
symétrique, alors J”(u) = A pour tout u.
∂2J
3. Si V = Rn , J 00 (u) est la matrice des dérivées partielles secondes ∂xi ∂xj (u).

8.2.3 Formules de Taylor


Taylor Mac-Laurin ordre 1 Si J : V 7→ R est définie et continue sur [u, v],
différentiable sur ]u, v[, il existe θ ∈]0, 1[ tel que

J(v) = J(u) + J 0 (u + θ(v − u)) · (v − u)

Taylor Mac-Laurin ordre 2 Si J : V 7→ R est définie et continue sur [u, v],


2 fois différentiable sur ]u, v[, il existe θ ∈]0, 1[ tel que

J(v) = J(u) + J 0 (u) · (v − u) + 21 J 00 (u + θ(v − u)) · (v − u) · (v − u)


142 CHAPTER 8. RESUME

Taylor Young Si J : V 7→ Rp est définie et continue sur [u, v], de classe C 1


sur [u, v], 2 fois différentiable dans un voisinage de u,
J(v) = J(u) + J 0 (u) · (v − u) + (v − u)kv − uk, lim (v − u) = 0
→0

Théorème 8.5 (caractérisation des fonctions convexes) . J est convexe


si et seulement si l’une des conditions suivantes est vérifiée :
1. Si J est différentiable, le graphe de J est au-dessus de l’hyperplan tangent,
i.e.
∀u, v ∈ V, J(v) ≥ J(u) + J 0 (u) · (v − u) (8.2.8)
2. Si J est différentiable, J 0 est un opérateur monotone, i.e.
∀u, v ∈ V, (J 0 (v) − J 0 (u)) · (v − u) ≥ 0 (8.2.9)

3. Si J est deux fois différentiable, J 00 est un opérateur non négatif, i.e.


∀u, w ∈ V, J 00 (u)w.w ≥ 0 (8.2.10)

Pour une fonction α -convexe, on a :


Théorème 8.6 (caractérisation des fonctions α -convexes) . J est α-
convexe si et seulement si l’une des conditions suivantes est vérifiée :
1. Si J est différentiable,
∀u, v ∈ V, J(v) ≥ J(u) + J 0 (u) · (v − u) + α
2 k v − u k2 , (8.2.11)

2. Si J est différentiable,
∀u, v ∈ V, (J 0 (v) − J 0 (u)) · (v − u) ≥ α k v − u k2 , (8.2.12)

3. Si J est deux fois différentiable,


∀u, w ∈ V, J 00 (u)w.w ≥ α k w k2 . (8.2.13)

En particulier les fonctionnelles de la forme J(u) = a(u, u), où a est une forme
bilinéaire symétrique continue sur V sont α-convexes si et seulement si
∀u ∈ V, 2a(w, w) ≥ αkwk2
Si l’on est dans Rn , avec J(u) = 12 (Au, u), ceci revient à
∀u ∈ V, (Aw, w) ≥ αkwk2
La matrice A étant symétrique, elle diagonalise en base orthonormée, A =
P DP T , où D est la matrice des valeurs propres di et P la matrice des vecteurs
propres. On a alors
n
X n
X
2
(Aw, w) = di ((P w)i ) > (min1≤i≤n di ) ((P w)i )2
i=1 i=1

(Aw, w) > (min1≤i≤n di )kP wk = (min1≤i≤n di )kwk2


2

car, puisque P est orthogonale, kP wk = kwk. Si A est définie positive, a


fonctionnelle est min1≤i≤n di -convexe.
8.3. CARACTÉRISATION DES EXTREMA 143

8.3 Caractérisation des extrema


8.3.1 Equation d’Euler, cas général
Théorème 8.7 (condition nécessaire) . Si u est minimum local de J dans
V , alors

1. Si J est différentiable, J 0 (u) = 0,

2. Si J est deux fois différentiable, on a de plus ∀w ∈ V, J 00 (u)w.w ≥ 0.

Théorème 8.8 (condition suffisante) . Soit J une fonction différentiable


dans V et u un point de V tel que J 0 (u) = 0.

1. Si J est deux fois différentiable dans un voisinage de u et s’il existe un


voisinage Ω de u tel que ∀v ∈ Ω, ∀w ∈ V, J 00 (v)w.w ≥ 0, alors u est
minimum local de J.

2. Si J est deux fois différentiable,et s’il existe α > 0 tel que

∀w ∈ V, J 00 (u)w.w ≥ α k w k2 ,

alors u est minimum local strict pour J.

8.3.2 Inéquation d’Euler, cas convexe


Dans cette section on considère le problème de minimisation avec contraintes.
On suppose que K est un convexe fermé non vide et que J est différentiable.

Théorème 8.9 . Si u est solution optimale on a l’inéquation d’Euler



u∈K
(8.3.14)
∀v ∈ K, J 0 (u).(v − u) ≥ 0.

Réciproquement si on a l’inéquation d ’Euler en u et si de plus J est convexe,


alors u est solution optimale.

Corollaire 8.2 [Projection sur un convexe fermé]. Soit K une partie convexe
fermée non vide d’un espace de Hilbert V , et w un point de V n’appartenant
pas à K. alors il existe un unique point de K, noté PK w tel que
(
PK w ∈ K,
kw − PK wk = inf kw − vk (8.3.15)
v∈K

Il est caractérisé par

∀v ∈ K, (PK w − w, v − PK w) > 0 (8.3.16)

Les cas particuliers sont très importants.

1. K = V On a le
144 CHAPTER 8. RESUME

Théorème 8.10 . Si J est convexe différentiable, alors u réalise le min-


imum de J sur V si et seulement si J 0 (u) = 0.

Remarque 8.4 . En particulier si J est α-convexe, il existe une unique


solution optimale, caractérisée par J 0 (u) = 0.

2. K sous-espace affine engendré par l’espace vectoriel fermé E, i.e. K =


{u0 + v, v ∈ E}, alors
(
u∈K
(8.3.14) ⇔ (8.3.17)
∀w ∈ K, J 0 (u).w = 0

Si E est défini par m contraintes, E = {w ∈ V, (ai , w) = 0, 1 6 i 6 m},


alors

u ∈ K

m
(8.3.14) ⇔ X (8.3.18)
∃λ1 , .., λm , ∇J(u) +
 λi ai = 0
i=1

Remarque 8.5 Si l’on définit les fonctions affines Fi (w) = (w − u0 , ai ),


alors K = {w ∈ V, Fi (w) = 0}, et (8.3.18) se réécrit

u ∈ K

m
(8.3.14) ⇔ X (8.3.19)
∃λ1 , .., λm , ∇J(u) +
 λi Fi0 = 0.
i=1

3. K cône convexe fermé de sommet u0 . On note K0 le cône de sommet O


qui lui est parallèle. Alors

u ∈ K

(8.3.14) ⇔ J 0 (u).(u0 − u) = 0 (8.3.20)

∀w ∈ K0 , J 0 (u).w > 0.

Pour M cône convexe fermé de sommet O, on définit le cône dual par

M ? = {c ∈ V, ∀v ∈ M, (c, v) ≥ 0} (8.3.21)

Si M est engendré par un nombre fini de vecteurs, alors on peut décrire


M? :

Théorème 8.11 (Lemme de Farkas) .


Si M = {c ∈ V, ∀i ∈ {1, .., m}, (c, ai ) 6 0}, alors c ∈ M ? si et seule-
ment si −c appartient au cône convexe engendré par les ai , i.e. il existe
Xm
{λ1 , .., λm } tous ≥ 0 tels que c = − λ i ai .
i=1
8.3. CARACTÉRISATION DES EXTREMA 145

Intéressons nous maintenant au cas où K0 est défini par m contraintes,


K0 = {w ∈ V, (ai , w) ≤ 0, 1 6 i 6 m}. Alors la troisième ligne dans
(8.3.20) exprime que −J 0 (u) est dans K0? , et donc (8.3.20) se réécrit

u ∈ K

(8.3.14) ⇔ J 0 (u).(u0 − u) = 0 (8.3.22)
∃(λ1 , · · · , λm ) > 0, ∇J(u) + m
 P
i=1 λi ai = 0

Remarquons comme dans le cas précédent que K se définit ici comme


K = {w ∈ V, Fi (w) ≤ 0, 1 6 i 6 m}, et (8.3.22) s’écrit

u ∈ K

(8.3.14) ⇔ J 0 (u).(u0 − u) = 0 (8.3.23)
∃(λ1 , · · · , λm ) > 0, ∇J(u) + m

0
P
i=1 λi Fi = 0

8.3.3 Multiplicateurs de Lagrange, cas général


Le lemme de Farkas va nous permettre de trouver des conditions nécessaires
d’optimalité dans le cas général.
Pour K fermé non vide, pour tout v dans K, nous définissons le cône des
directions admissibles K(v). C’est un cône fermé de sommet O, défini par

K(v) = {0} ∪ {w ∈ V,
vk −v w
∃{vk }k∈N ⊂ K lim vk = v, vk 6= v pour tout k, lim = ||w|| }
k→+∞ k→+∞ ||vk −v||
(8.3.24)

Théorème 8.12 . Si J a un minimum local en u ∈ K et si J est différentiable


en u, alors J 0 (u) ∈ K(u)? .

Remarque 8.6 . Si K et J sont convexes, alors c’est une condition nécessaire


et suffisante.

8.3.4 contraintes égalités


K = {v ∈ V, F (v) = 0} (8.3.25)
où F est une fonction C 1 de V dans Rm , ses coordonnées sont F1 , .., Fm .

Définition 8.2 . Les contraintes sont régulières en u ∈ K si les Fi0 (u) sont
linéairement indépendantes. On dit alors que u est un point régulier.

On peut alors caractériser le cône des directions admissibles :

Lemme 8.1 . Si les contraintes sont regulières en u ∈ K, alors

K(u) = {w ∈ V, Fi0 (u).w = 0, 1 ≤ i ≤ m} (8.3.26)

et en déduire l’existence de multiplicateurs de Lagrange :


146 CHAPTER 8. RESUME

Théorème 8.13 . Si u ∈ K, u régulier, est minimum local pour J, il existe


m réels p1 , .., pm tels que
m
X
0
J (u) + pi Fi0 (u) = 0. (8.3.27)
i=1

Remarque 8.7 . Si K et J sont convexes, alors c’est une condition nécessaire


et suffisante.

Remarque 8.8 . Introduisons le lagrangien défini sur V × Rm à valeurs dans


R par
Xm
L(v, q) ≡ J(v) + qi Fi (v), (8.3.28)
i=1

alors
m
X
L0v (v, q) ≡ ∂L
∂v (v, q) = J 0 (v) + qi Fi0 (v)
i=1
(8.3.29)
L0q (v, q) ≡ ∂L
∂q (v, q) = F (v)
et
u ∈ K ⇔ ∀q ∈ Rm , L0v (u, q) = 0
(8.3.30)
u minimum local ⇔ ∃p ∈ Rm , L0q (u, p) = 0

8.3.5 contraintes inégalités


K = {v ∈ V, F (v) ≤ 0} (8.3.31)
où F est une fonction C 1 de V dans Rm , ses coordonnées sont F1 , .., Fm .

Définition 8.3 . Pour u ∈ K, on appelle I(u) l’ensemble des contraintes


actives ou saturées, i.e.Fi (u) = 0 si i ∈ I(u), Fi (u) < 0 sinon. Les contraintes
sont dites qualifiées en u si

∃w̄ ∈ V, ∀i ∈ I(u), (Fi0 (u), w̄) < 0 ( resp. ≤ 0 si Fi est affine). (8.3.32)

On peut encore caractériser le cône des directions admissibles :

Lemme 8.2 . Si les contraintes sont qualifiées en u ∈ K, alors

K(u) = {w ∈ V, ∀i ∈ I(u), Fi0 (u).w ≤ 0} (8.3.33)

Le lemme de Farkas permet alors d’établir le

Théorème 8.14 . Si u ∈ K, où les contraintes sont qualifiées, est minimum


local pour J, il existe m réels p1 , .., pm ≥ 0 tels que
m
X
J 0 (u) + pi Fi0 (u) = 0
i=1 (8.3.34)
m
X
pi Fi (u) = 0
i=1
8.3. CARACTÉRISATION DES EXTREMA 147

Remarque 8.9 . Le lagrangien est maintenant défini sur V × Rm


+ , et l’on peut
écrire
u ∈ K solution optimale ⇒ ∃p ∈ Rm +,
0 0 (8.3.35)
Lv (u, p) = Lq (u, p).p = 0.
Attention, contrairement au cas des contraintes égalités, on n’a qu’une condition
nécessaire.Le développement d’une condition nécéssaire et suffisante est l’objet
du chapitre suivant.
148 CHAPTER 8. RESUME
8.4. LAGRANGIEN ET POINT SELLE 149

8.4 Lagrangien et point selle

8.4.1 Point selle


Soient V et M deux espaces de Hilbert, U une partie de V et P une partie de
M . On définit le lagrangien comme une application de U × P dans R et on le
note L.

Exemple 8.1 au problème d’optimisation du chapitre précédent,


(
u ∈ K,
J(u) = inf J(v) (8.4.36)
v∈K

nous avons associé de façon naturelle un lagrangien dans les cas suivants :

K = {v, F (v) ≤ 0} ; L : K × Rm
+ →R
(8.4.37)
K = {v, F (v) = 0} ; L : K × Rm → R

où F : V → Rm , et

L(v, q) = J(v) + (F (v), q) (8.4.38)


(.,.) désigne le produit scalaire dans Rm .

Lemme 8.3 .
sup inf L(v, q) ≤ inf sup L(v, q) (8.4.39)
q∈P v∈U v∈U q∈P

Remarquons que l’on n’interdit pas les valeurs +∞ et −∞.

Définition 8.4 .(u, p) est point selle du lagrangien si

sup L(u, q) = L(u, p) = inf L(v, p) (8.4.40)


q∈P v∈U

Lemme 8.4 . Si (u, p) est point selle du lagrangien, alors

sup inf L(v, q) = L(u, p) = inf sup L(v, q) (8.4.41)


q∈P v∈U v∈U q∈P

On associe maintenant au lagrangien un problème primal et un problème


dual. On définit d’une part K et J par

K = {v ∈ U, sup L(v, q) < +∞},


q∈P

et pour v dans K,

J(v) = sup L(v, q).


q∈P

Le problème primal associé s’écrit :


150 CHAPTER 8. RESUME

(P) Trouver u ∈ K tel que J(u) = inf J(v)


v∈K

On définit également K ∗ et G par K ∗ = {q ∈ P, inf L(v, q) > −∞}, et pour q


v∈U
dans K ∗ , G(q) = inf L(v, q). Le problème dual associé s’écrit :
v∈U

(P ∗ ) Trouver p ∈ K ∗ tel que G(p) = sup G(q)


q∈K ∗

Théorème 8.15 . (u, p) est point selle du lagrangien si et seulement si u est


solution de (P), p est solution de (P ∗ ), et J(u) = G(p).

8.4.2 Théorie de Kuhn et Tucker


On considère maintenant le problème de minimisation convexe avec contraintes
inégalité :
K = {v ∈ V, F (v) ≤ 0} (8.4.42)
où F est une fonction convexe C 1 de V dans Rm , ses coordonnées sont F1 , .., Fm .
On suppose J convexe et on définit le lagrangien sur V × Rm + par

L(v, q) = J(v) + (F (v), q) (8.4.43)

On a vu au chapitre précédent une condition nécessaire de minimum lo-


cal, au moyen des multiplicateurs de Lagrange. On va maintenant établir une
réciproque.

Définition 8.5 . Les contraintes sont qualifiées si

∃v̄ ∈ V, ∀i, 1 ≤ i ≤ m, Fi (v̄) < 0 (resp. ≤ 0 si Fi est affine). (8.4.44)

Remarque 8.10 .

1. Si aucune des Fi n’est affine, la définition 8.5 se résume à K 6= ∅. Si
toutes les Fi sont affines, elle signifie que K 6= ∅.

2. Si les contraintes sont qualifiées en ce sens, elles sont qualifiées en tout


point au sens de la définition 8.3 du chapitre 2.

Théorème 8.16 . Sous les hypothèses de qualification de la définition 8.5,


si u est solution de (P), il existe p dans Rm
+ tel que (u, p) soit point selle du
lagrangien.

Donc dans le cas convexe, avec l’hypothèse de qualification des con-


traintes de la définition 8.5, on a le schéma suivant :
8.5. MÉTHODES DE DESCENTE. PROBLÈMES SANS CONTRAINTES151

m

X
0 (u) + pi Fi0 (u) = 0

J



(Th 8.14) 
u solution optimale de (8.1.2) =⇒ ∃p ∈ Rm
+ m
X
i=1




 pi Fi (u) = 0
i=1

(Th 8.15) (Th 8.16)


=⇒ (u, p) point selle du lagrangien =⇒ u solution optimale de (8.1.2).

Théorème 8.17 (Kuhn et Tucker) . On suppose que les fonctions J et


{Fi }1≤i≤m sont convexes différentiables et que (8.4.44) est vérifiée. Soit

K = {v, Fi (v) ≤ 0, 1 ≤ i ≤ m}.

Alors u est minimum de J sur K si et seulement si il existe p dans Rm


+ tel que

m

X
0 pi Fi0 (u) = 0

 J (u) +



i=1 (8.4.45)
m
X




 pi Fi (u) = 0
i=1

De plus p est solution du problème dual (P ∗ ).

Algorithmes

8.5 Méthodes de descente. Problèmes sans contraintes

8.5.1 Principe
On se place dans un espace de Hilbert V , et on cherche à calculer numériquement
un x (qui n’est pas forcément unique) tel que

∀y ∈ V, J(x) 6 J(y) (8.5.46)

Le principe est de construire un algorithme itératif de la forme

xk+1 = xk − ρk dk (8.5.47)

dk est la direction de descente, ρk est le pas. Il est, soit fixé, éventuellement


le même pour toutes les étapes (on parle alors de méthode à pas variable),
soit calculé à chaque étape de façon à minimiser J dans la direction dk (on parle
alors de méthode à pas optimal).
152 CHAPTER 8. RESUME

8.5.2 Méthode de relaxation


On se place en dimension finie, i.e. V = Rn . Pour passer de xk à xk+1 , on
minimise successivement dans les n directions de la base canonique.

1. xk,1 est défini par


J(xk,1 ) = inf J(xk − ρe1 )
ρ∈R

ou encore
xk,1 = (xk1 − ρ1 , xk2 , .., xkn )

On note xk+1
1 = xk1 − ρ1

2. à l’étape i on a
xk,i = (xk+1 k+1 k
1 , .., xi , xi , .., xkn )

xk,i+1 est maintenant défini par

J(xk,i+1 ) = inf J(xk,i − ρei+1 )


ρ

3. xk+1 = xk,n

Théorème 8.18 . Si J est α-convexe C 1 sur Rn , l’algorithme de relaxation


est bien défini et converge vers la solution optimale.

Remarque 8.11 . Dans le cas où J est quadratique, i.e. J(v) = 12 (Av, v) −
(b, v), on retrouve l’algoritme de Gauss-Seidel ou S.O.R. pour la résolution du
système linéaire Ax = b.

8.5.3 Méthode du gradient


Ici on choisit à chaque étape dk = ∇J(xk ).

Méthode à pas variable

On se donne le pas ρk , il peut être différent d’une étape à l’autre.

Théorème 8.19 . Si J est α-convexe dérivable sur V , si ∇J est uniformément


lipschitzien de constante de Lipschitz M , l’algorithme de gradient à pas variable

converge vers la solution optimale pour 0 < a ≤ ρk ≤ b < M 2 .

Remarque 8.12 . Si J est 2 fois différentiable, l’hypothèse est

sup ||D2 J(v)|| ≤ M


v∈V
8.6. ESTIMATIONS ET CONVERGENCE DANS LE CAS QUADRATIQUE153

Méthode à pas optimal


Ici on choisit à chaque étape ρk de façon que

J(xk − ρk ∇J(xk )) = inf J(xk − ρ∇J(xk )) (8.5.48)


ρ∈R

Théorème 8.20 . Si J est α-convexe dérivable sur V , si ∇J est uniformément


lipschitzien de constante de Lipschitz M , l’algorithme de gradient à pas optimal
est bien défini et converge vers la solution optimale.

Remarque 8.13 . Les directions de descente sont orthogonales, i.e.

∇J(xk ).∇J(xk+1 ) = 0.

8.6 Estimations et convergence dans le cas quadra-


tique
Ici la fonctionnelle J est quadratique sur Rn :

J(v) = 21 (Av, v) − (b, v)


où la matrice A est symétrique définie positive. La solution x du problème
de minimisation vérifie Ax = b. On appellera résidu à l’étape k la quantité
rk = Axk − b

8.6.1 Méthode à pas optimal


On prend ici une direction de descente dk quelconque dans Rn , non orthogonale
à rk . A chaque étape, la valeur du paramètre optimal ρk est donnée par

(rk ,dk )
ρk = (Adk ,dk )
(8.6.49)

et l’on a (rk+1 , dk ) = 0.
Notons E(v) = 12 (A(v − u), v − u), on a alors

E(xk+1 ) = (1 − γk )E(xk ) (8.6.50)


avec

1 (rk ,dk )2
γk = 2 (Adk ,dk )(A−1 rk ,rk ) . (8.6.51)

Puisque la quantité γk est par construction telle que 0 ≤ γk ≤ 1, on a


l’estimation suivante : si la direction de descente est telle que

rk dk 2

k , k
||r || ||d ||
>µ>0 (8.6.52)
µ
alors γk > γ = K(A) (où K(A) est le conditionnement de A, c’est-à-dire le
rapport de la plus grande à la plus petite valeur propre), et donc
154 CHAPTER 8. RESUME

E(xk+1 ) ≤ (1 − γ)E(xk ) (8.6.53)


On dit que la méthode converge linéairement.
Dans le cas particulier de la méthode du gradient, grâce à l’inégalité de
Kantorovitch on peut écrire
 2k
K(A)−1
E(xk ) ≤ K(A)+1 E(x0 ) (8.6.54)

Remarque 8.14 . Plus la matrice est bien conditionnée (i.e. K(A) proche de
1), plus la convergence est rapide. Plus la matrice est mal conditionnée (i.e.
K(A) >> 1), plus la convergence est lente.

8.6.2 Méthode de gradient à pas constant


On choisit à chaque étape ρk = ρ. On a alors l’estimation
k
||xk − x||2 ≤ max |1 − ρλi | ||x0 − x||2

(8.6.55)
1≤i≤n

On en déduit que la méthode converge si et seulement si ρ < λ2n où λn est


la plus grande valeur propre de A. Ici encore, la convergence est linéaire.

Remarque 8.15 Comparer avec le théorème général 8.19.

8.7 Méthode du gradient conjugué


On se place ici dans le cas où la fonctionnelle J est quadratique sur RN : J(v) =
1
2 (Av, v) − (b, v), la matrice A étant symétrique définie positive. La solution x
du problème de minimisation vérifie Ax = b.

8.7.1 Principe de la méthode


Les (k + 1) premières itérées x0 , .., xk étant données, on cherche xk+1 , non plus
dans la direction du gradient, mais dans l’espace vectoriel engendré par tous les
gradients précédents. On note

Lk = vect{∇J(x0 ), .., ∇J(xk )} (8.7.56)


et on définit xk+1 par :

J(xk+1 ) = inf J(xk + ∆) (8.7.57)


∆∈Lk

Ceci définit xk+1 de manière unique (cf Corollaire 8.1, Partie I) et

Théorème 8.21 . On a les propriétés suivantes:

1. Les ∇J(xk ) forment un système orthogonal (donc libre),

2. l’algorithme converge en au plus N itérations.


8.7. MÉTHODE DU GRADIENT CONJUGUÉ 155

La première propriété traduit l’équation d’Euler (8.3.17, Partie I). Ce théorème


nous dit que la méthode du gradient conjugué est en fait une méthode directe.
La forme (8.7.57) n’est pas pratique, aussi allons nous réécrire l’algorithme sous
forme d’un algorithme de descente.

8.7.2 Ecriture comme algorithme de descente


Théorème 8.22 . L’algorithme du gradient conjugué s’écrit sous la forme


 xk+1 = xk − ρk dk
 dk = ∇J(xk ) + ||∇J(xk )||2 dk−1


||∇J(xk−1 )||2
||∇J(xk )||2
(8.7.58)


 ρk = (Adk ,dk )
 (rk+1 , dk ) = 0

Il suffit de se donner d0 = ∇J(x0 ).


N peut être très grand, on peut alors compter le nombre d’opérations nécessaires
pour réaliser l’algorithme : une itération nécessite 2cN opérations élémentaires,
où c est le nombre moyen de coefficients non nuls par ligne de A. Si bien que
pour une matrice pleine, le nombre d’opérations élémentaires pour N itérations
est 2N 3 . Cela risquerait de disqualifier la méthode par rapport à Cholewski
3
( N3 opérations élémentaires), si l’on ne faisait une

8.7.3 Analyse de convergence


On introduit l’espace de Krylov

Kk = vect{r0 , Ar0 , .., Ak r0 } (8.7.59)

et on a le

Théorème 8.23 . Si rj 6= 0 pour j ≤ k, alors Kk ≡ Lk

On en déduit une première estimation de l’erreur

Théorème 8.24

E(xk ) = inf max [1 + λi P (λi )]2 E(x0 ) (8.7.60)


P ∈Pk−1 1≤i≤N

où les λi sont les valeurs propres de A.

et par un calcul assez long sur les polynômes de Tchebycheff,

Corollaire 8.3 . On a l’estimation d’erreur


√
K(A)−1 2k

E(xk ) ≤ 4 √ E(x0 ) (8.7.61)
K(A)+1
156 CHAPTER 8. RESUME

De nouveau, la convergence est linéaire. Cette estimation est à comparer


avec l’estimation d’erreur (8.6.54) pour l’algorithme du gradient à pas optimal
:
 2k
K(A)−1
E(xk ) ≤ K(A)+1 E(x0 )

Par exemple, d’après ces estimations pour K(A) = 100, pour obtenir une
erreur de 10−6 , il faudrait 340 itérations du gradient à pas optimal et seulement
34 itérations du gradient conjugué ! Comme les itérations sont comparables, ces
performances font de cet algoritme le favori de tous les gens qui font des calculs
de grande taille. De nombreuses extensions ont été proposées : BiCGSTAB,
GMRES, etc, pour des problèmes non symétriques, à coefficients complexes,
etc..

8.8 Méthodes pour les problèmes avec contraintes

8.8.1 Méthode de gradient projeté à pas variable


Soit le problème de minimisation avec contraintes
(
u ∈ K,
J(u) = inf J(v) (8.8.62)
v∈K

où K est un convexe fermé non vide de l’espace de Hilbert V . On rappelle


que si J est α convexe, il existe un minimum unique (corollaire 8.1, Partie I),
caractérisé dans le cas différentiable par (8.3.14, Partie I) :

u∈K
(8.8.63)
∀v ∈ K, J 0 (u).(v − u) ≥ 0.
On définit alors la suite des approximations uk par la relation de récurrence

uk+1 = PK (uk − ρk rk ) (8.8.64)


où rk est le résidu à l’étape k, i.e. rk = ∇J(uk ), et PK désigne la projection
sur le convexe fermé K (Partie I,8.2).

Théorème 8.25 . Si J est α-convexe dérivable sur V , si ∇J est uniformément


lipschitzien de constante de Lipschitz M , l’algorithme de gradient projeté à pas

variable converge vers la solution optimale pour 0 < a ≤ ρk ≤ b < M 2 . De
plus il existe une constante β < 1 telle que

kuk − uk ≤ β k ku0 − uk (8.8.65)

En général, on ne peut pas expliciter la projection, sauf quand V = Rn , et

K = {v ∈ V, ∀i, 1 ≤ i ≤ n, vi > 0}, (8.8.66)


auquel cas
8.8. MÉTHODES POUR LES PROBLÈMES AVEC CONTRAINTES 157

(PK w)i = max(wi , 0), 1 ≤ i ≤ n. (8.8.67)


Qn
Si K est le pavé i=1 [ai , bi ], alors

 ai si wi ≤ ai
(PK w)i = wi si ai ≤ wi ≤ bi (8.8.68)
bi si wi > bi

8.8.2 Algorithme d’Uzawa


Soit un problème de minimisation avec contraintes inégalités

K = {v, F (v) ≤ 0} (8.8.69)


où F : V → Rm . On a défini un lagrangien

L(v, q) = J(v) + (F (v), q); L : K × Rm


+ →R (8.8.70)
et le problème dual :

K ∗ = {q ∈ P, inf L(v, q) > −∞} (8.8.71)


v∈U

et pour q dans K ∗ , G(q) = inf L(v, q). Le problème dual associé s’écrit :
v∈U

(P ∗ ) Trouver p ∈ K ∗ tel que G(p) = sup G(q)


q∈K ∗

L’idée est d’utiliser le problème dual : si K ∗ = Rm


+ (ce qui est le cas pour
des contraintes affines), on peut mettre en œuvre un algorithme de gradient
projeté sur le multiplicateur de Lagrange p. Pour q dans K ∗ , on a défini uq
comme la solution du problème

inf L(v, q) = L(uq , q) (8.8.72)


v∈V

L’algorithme se décrit alors comme suit:

pk → uk = upk → pk+1 = PK ∗ (pk + ρ∇G(pk )) (8.8.73)

Théorème 8.26 . On suppose que V = Rn et K = {v ∈ V, Cv ≤ d}. Alors


K ∗ = Rm+ et uk → u, unique solution de (P) . De plus si rgC = m, pk converge
vers l’unique solution de (P ∗ ).
158 CHAPTER 8. RESUME
Bibliography

[1] J.C. Culioli: Optimisation: Cours à l’Ecole des Mines publié aux éditions
Ellipses (1994)

[2] P. Faurre: Optimisation Cours à l’X (Promotion 1984)

[3] B. Larrouturou et P.L. Lions: Cours d’optimisation et d’Analyse


Numérique (Promotion 1986)

[4] J. Cea: Lectures on optimization-theory and algorithms: Tata institute of


fundamental research, Bombay, 1978.

[5] H. Sagan: Boundary and Eigenvalue Problems in Mathematical Physics


John Wiley and Sons, 1961.

[6] V. M. Tichomirov: Fundamental Principles of the Theory of Extremal


Problems: John Wiley and Sons, 1982, 1986.

[7] P. G. Ciarlet: Introduction à l’analyse numérique matricielle et à


l’optimisation Mathématiques Appliquées pour la maitrise, Masson, 1982.

[8] G. Allaire: cours à l’Ecole Polytechnique (publié aux éditions Ellipse, 2005)

[9] Richard B. Holmes:A Course on Optimization and Best Approximation


Lecture Notes in Mathematics Volume 257 1972

159

Vous aimerez peut-être aussi