0% ont trouvé ce document utile (0 vote)
90 vues129 pages

Cours Optimisation Lafitte

Ce document présente un cours sur l'optimisation et le calcul des variations, abordant des méthodes théoriques et des exemples pratiques issus de la physique et de l'économie. Il traite des conditions d'optimalité, des algorithmes d'optimisation, ainsi que des problèmes liés aux équations d'Euler et à la minimisation de fonctionnelles convexes. Le contenu est structuré en plusieurs chapitres, chacun explorant des concepts clés et des techniques d'optimisation.

Transféré par

DIDIER VIGBE
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
90 vues129 pages

Cours Optimisation Lafitte

Ce document présente un cours sur l'optimisation et le calcul des variations, abordant des méthodes théoriques et des exemples pratiques issus de la physique et de l'économie. Il traite des conditions d'optimalité, des algorithmes d'optimisation, ainsi que des problèmes liés aux équations d'Euler et à la minimisation de fonctionnelles convexes. Le contenu est structuré en plusieurs chapitres, chacun explorant des concepts clés et des techniques d'optimisation.

Transféré par

DIDIER VIGBE
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Optimisation et calcul des variations

Olivier Lafitte12

1
Institut Galilée, Université de Paris XIII
2
Commissariat à l’Energie Atomique, Centre d’études de Saclay, lafitte@[Link]
2
Contents

1 Introduction et exemples 5
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Euler-Legendre 17
2.1 Condition générale d’existence (suffisante) . . . . . . . . . . . . . . . . 17
2.2 Condition d’Euler, condition de Legendre . . . . . . . . . . . . . . . . 18
2.2.1 Dérivabilité au sens de Fréchet et au sens de Gâteaux . . . . . 18
2.2.2 Conditions necessaires d’optimalité. Conditions suffisantes d’optimalité 20
2.3 Inéquation d’Euler dans un problème avec contraintes . . . . . . . . . 21
2.4 Multiplicateurs de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Calcul des variations 31


3.1 Introduction et un peu d’histoire . . . . . . . . . . . . . . . . . . . . . 31
3.2 Problèmes isopérimétriques . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.1 Egalité d’Euler-Lagrange . . . . . . . . . . . . . . . . . . . . . 32
3.2.2 Dérivée de Fréchet et de Gâteaux, inégalité d’Euler-Lagrange . 33
3.2.3 Egalité d’Euler-Lagrange pour une contrainte intégrale . . . . . 34
3.2.4 Les problèmes de Bolza . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Les équations d’Euler pour les problèmes de la mécanique . . . . . . . 36
3.4 Formulation hamiltonienne . . . . . . . . . . . . . . . . . . . . . . . . 37

4 Programme convexe 41
4.1 Fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Minimisation de fonctionnelles convexes . . . . . . . . . . . . . . . . . 46
4.3 Fonctionnelles quadratiques . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4 Notion de point selle, et théorème de Kuhn et Tucker . . . . . . . . . 48
4.4.1 Introduction à la notion de Lagrangien . . . . . . . . . . . . . . 48
4.4.2 Point selle, lagrangien, et minimisation de fonctionnelle convexe 50
4.4.3 Principe du Min-Max . . . . . . . . . . . . . . . . . . . . . . . 52

5 Equation de Hamilton-Jacobi-Bellmann 55

6 Approximation de solutions 63
6.0.4 Algorithme de relaxation . . . . . . . . . . . . . . . . . . . . . 63
6.1 Algorithmes de descente . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.2 Cas classiques d’algorithmes de descente . . . . . . . . . . . . . . . . . 67
6.2.1 Pas optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

3
4 CONTENTS

6.2.2 Pas de Curry . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68


6.2.3 Pas de Goldstein . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2.4 Pas de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.3 Résultats de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.4 Algorithmes de gradient . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.4.2 L’algorithme de gradient à pas optimal . . . . . . . . . . . . . . 73
6.4.3 Algorithme de gradient à pas constant . . . . . . . . . . . . . . 75
6.4.4 Taux de convergence de l’algorithme du gradient en dimension
finie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.4.5 Démonstration du lemme de Kantorovich . . . . . . . . . . . . 79
6.4.6 Algorithme de gradient réduit . . . . . . . . . . . . . . . . . . . 80
6.5 Algorithmes de gradient conjugué . . . . . . . . . . . . . . . . . . . . . 82
6.5.1 Exemple en dimension 2 . . . . . . . . . . . . . . . . . . . . . . 82
6.5.2 Algorithme de directions conjuguées . . . . . . . . . . . . . . . 83
6.5.3 Algorithme du gradient conjugué . . . . . . . . . . . . . . . . . 85
6.5.4 Un exemple en dimension 3 . . . . . . . . . . . . . . . . . . . . 91
6.6 Algorithme de descente pseudo-conjugué pour une forme non quadratique 93
6.7 Méthode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.8 Algorithmes d’optimisation avec contraintes . . . . . . . . . . . . . . . 98
6.8.1 Le gradient avec projection . . . . . . . . . . . . . . . . . . . . 98
6.8.2 Pénalisation des contraintes . . . . . . . . . . . . . . . . . . . . 101
6.8.3 Algorithme d’Uzawa . . . . . . . . . . . . . . . . . . . . . . . . 102

7 Introduction à la discrétisation 105


7.1 Les différences finies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.2 Les éléments finis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

8 Problèmes d’examens 113


8.1 Problème des splines: texte du problème de 1999 . . . . . . . . . . . . 113
8.2 Texte du problème 2000 . . . . . . . . . . . . . . . . . . . . . . . . . . 121
8.3 Texte du problème 2000-2001 . . . . . . . . . . . . . . . . . . . . . . . 123
8.4 Partie I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
8.5 Partie II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Chapter 1

Introduction et exemples

1.1 Introduction
Le but de ce cours est d’introduire quelques unes des méthodes de la théorie de
l’optimisation. La méthode employée dans ce cours consiste essentiellement à présenter
une suite (non exhaustive) d’exemple simples issu en majeure partie de la physique
et de l’économie pour mettre en valeur une question que l’on se pose dans le cadre de
l’optimisation: trouver la meilleure quantité ou le meilleur choix pour un problème
lié à la physique ou à l’économie. Ce cours présentera peu de résultats (les théorèmes
principaux sont peu nombreux). Nous avons essayé de traiter explicitement ici des
exemples modèles simples, qui peuvent nous permettre d’introduire des notions et de
pouvoir les généraliser.
Les théories liées à l’optimisation sont très variées. On rencontre par exemple
(et cela est le plus courant) des problèmes de minimisation sons contraintes, des
résolutions d’équations aux dérivées partielles sous forme variationnelle, des problèmes
de contrôle, des problèmes de commande. Elles ont en commun la minimisation d’un
critère, c’est-à-dire d’une fonction chargée de mesurer le coût d’un problème, en
fonction de variables dites d’état (caractérisant la position d’une particule par exem-
ple) et de variables dites de commande (qui modélisent les paramètres par lesquels
on peut agir sur un système). Nous évoquerons ainsi dans le cours la notion de com-
mande optimale, dans les cas où, à partir de variables d’état x et de commandes u,
on souhaite soit minimiser un critère, soit atteindre un état fixe.
Un des atouts de l’optimisation est la facilité d’obtention d’algorithmes numériques
qui convergent, et nous en aborderons certains: algorithmes d’optimisation sans con-
trainte, comme un algorithme où on recherche un optimum sur N variables en résolvant,
à chaque étape, N algorithmes d’optimisation sur chaque variable, des algorithmes dit
de gradient (à pas fixe ou à pas optimal, c’est à dire une généralisation de la méthode
de Newton de recherche de zéros), des algorithmes de minimisation avec contraintes,
l’algorithme d’Uzawa.
Pour l’instant, nous allons donner une liste non exhaustive d’exemples, provenant
des références [2], [3], [1]. Certains pourront être résolus dans cette introduction sans
utiliser de théorèmes nouveaux, d’autres non, et nous voulons, dans la suite de ce
cours, pouvoir résoudre les problèmes abordés ici.
On peut, très sommairement, diviser les résultats en conditions nécessaires et en
conditions nécessaires et suffisantes d’optimalité. Par exemple, x2 est minimum en
x = 0, où sa dérivée s’annule, mais la dérivée de 1 − x2 est dans le même cas, alors que

5
6 CHAPTER 1. INTRODUCTION ET EXEMPLES

1 − x2 est maximum en x = 0. La condition “la dérivée s’annule” est une condition


nécessaire de minimum, mais n’est pas une condition suffisante.

1.2 Exemples
1. Résolution d’un système matriciel.
Soit A une matrice symétrique N × N définie positive et b un vecteur de IRN . La
solution du système linéaire Ax = b est donnée par le point de minimum suivant

1
inf (Ax, x) − (b, x)
x∈IR N 2

Preuve On désigne par x0 la solution de Ax = b. On vérifie alors que

1 1 1 1 1
(A(x − x0 ), x − x0 ) = (Ax, x) − (b, x) − (Ax, x0 ) + (b, x0 ).
2 2 2 2 2
Comme (Ax, x0 ) = (x, t Ax0 ) = (x, Ax0 ) = (x, b) car A est symétrique

1 1 1
(Ax, x) − (b, x) = − (b, x0 ) + (A(x − x0 ), x − x0 ).
2 2 2
On diagonalise A qui est symétrique définie positive, on écrit x = x0 + i yi ei ,
P

où les ei sont les vecteurs orthonormés qui diagonalisent A, alors

1 1 1 i=N
λi yi2 .
X
(Ax, x) − (b, x) = − (b, x0 ) +
2 2 2 i=1
L’expression ci-dessus est minimum lorsque tous les yi sont nuls, car tous les λi
sont strictement positifs, donc lorsque x = x0 . Le résultat est démontré.
Je vais décrire sommairement un algorithme dans ce cas: l’algorithme qui consiste à minimiser sur
chaque coordonnée. On vérifie que (A(1, 0...0), (1, 0...0)) = a11 donc a11 > 0 (matrice définie positive).
Ainsi le minimum, x2 , ..xn étant fixés, de la fonction quadratique en x1 est obtenu pour a11 x1 +
Pi=N
i=2
ai1 xi − b1 = 0, et sa valeur est

1 X X 1 X
f (x2 , ..xn ) = aij xi xj − bj xj − (b1 − a1j xj )2 .
2 2a11
i,j≥2 i≥2 j≥2

Il s’agit à nouveau d’une forme quadratique que l’on peut minimiser en x2 . On itère le procédé.

2. Soit f une application de IRM dans IRN . On appelle solution de l’équation


f (x) = 0 une solution du problème

inf |f (x)|2 .
x∈IRM

Par exemple, soit B une matrice N × M , et c un élément de IRN . On appelle


solution de Bx = c au sens des moindres carrés (remarquons qu’une solution de
Bx = c n’existe pas forcément) un point de minimum de |Bx − c|2 . Nous allons
identifier de telles solutions.
1.2. EXEMPLES 7

En effet, on cherche un point minimum de (Bx−c, Bx−c) = (Bx, Bx)−(c, Bx)−


(Bx, c) + (c, c), c’est à dire de (t BBx, x) − 2(t Bc, x) + (c, c). La matrice t BB
est symétrique, et son noyau est le noyau de B (ceci car tBBx = 0 implique
|Bx|2 = 0, soit Bx = 0).
On vérifie que Imt Bb ⊂ Imt B. De plus, pour y ∈ (Imt B)⊥ , on a

∀x ∈ IRN , (y, t Bx) = 0


ce qui implique (By, x) = 0∀x ∈ IRN . Ainsi By = 0, donc y ∈ ker B. La
réciproque est claire. Par le théorème du rang on a dim(ker t BB)+dim(Imt BB) =
M = dim(ker B)+dim(ImB) = M . On trouve donc que l’image de t BB est con-
fondue avec l’image de t B. L’équation donnant le minimum étant t BBx = t Bc,
on en conclut que x existe nécessairement, puisqu’il existe d ∈ IRN tel que
t BBd = t Bc. Le système d’équations ainsi écrit s’appelle le système d’équations

normales. On remarque que c’est un espace affine passant par d dirigé par
ker t BB = ker B.
Une autre méthode plus directe: on diagonalise t BB dans une base orthonormée, les valeurs propres
étant 0 ≤ λ1 ≤ ... ≤ λM associées aux vecteurs propres (e1 , ...eM ). Alors on introduit p (éventuellement
il n’existe pas) tel que λp = 0 et λp+1P> 0. Alors (e1 , ...ep ) forme une base de ker t BB, donc de ker B.
On constate alors qu’en écrivant x = y e , on trouve
i i i

X X
(t BBx, x) − 2(t Bc, x) = λi yi2 − 2 (t Bc, ei )yi .
i>p i

Vérifiant alors que pour i ≤ p, (t Bc, e


i ) = (c, Bei ) = 0, on en déduit que la fonction ne dépend que des
yi , i > p. On applique le résultat précédent et l’ensemble des solutions est un espace affine dirigé par
ker B.

Ce résultat se retrouve en considérant la projection de c sur l’hyperespace ImB. Alors on réalise le


minimum de la distance au sous espace fermé ImB. Soit p(c) cette projection. Le minimum de |Bx − c|
est alors l’ensemble des points tels que Bx = p(c). En effet, par caractérisation de la projection, on
a, pour tout z ∈ ImB, (Bx, z) = (p(c), z) = (c, z), ce qui équivaut à ∀y, (Bx, By) = (p(c), By), soit
utilisant c − p(c) orthogonal à ImB, (t BBx, y) − (tBc, y) pour tout y. On vérifie immédiatement que
si x0 vérifie Bx0 = p(c), alors (B(x − x0 ), B(x − x0 )) = |Bx − c|2 + (Bx0 , Bx0 ) − (c, c), ce qui indique
le résultat de minimum.

3. Recherche de la plus petite valeur propre d’une matrice symétrique.


La plus petite valeur propre d’une matrice symétrique A de IRN × IRN est

(Av, v)
λ1 = inf (Av, v) = inf .
N
v∈IR ,||v||=1 IR N
−{0} (v, v)

La matrice A est symétrique donc diagonalisable. On écrit (Av, v) = i λi vi2 .


P
P 2
Pour vi = 1, on trouve (Av, v) ≥ λ1 , avec égalité si vi = 0 si λi 6= λ1 . Ceci
permet de conclure sur l’existence d’un inf, qu’il est atteint, et que le minimum
est λ1 . Le lieu des points réalisant le minimum est la sphère unité dans le sous-
espace propre associé à λ1 . Quant à l’autre terme de l’égalité, il provient du fait
que v 1 est de norme 1 lorsque v 6= 0.
(v,v) 2

4. On se donne A = {a ∈ L∞ ([0, 1]), 0 < α ≤ a(x) ≤ β∀x}. On se donne aussi


fi , ūi des fonctions (à préciser sur [0, 1]). On cherche à trouver a et ui de sorte
que
8 CHAPTER 1. INTRODUCTION ET EXEMPLES

d 1 dui
− ( ) = fi (x), ∀x, ui (0) = ui (1) = 0 (1.2.1)
dx a(x) dx
XZ 1
inf |ui (x) − ūi (x)|2 dx. (1.2.2)
a∈A 0
i

C’est un problème modèle pour certains problèmes de la physique. Ici, on


cherche une équation de la chaleur (caractérisée par sa distribution a) telle que
les résultats théoriques de l’observation (pour chaque donnée extérieure fi on
construit mathématiquement une solution de (1.2.1)) soient les plus proches
possible de ce l’on observe (ūi ).
Dans unR premier temps, on peut résoudre explicitement (8.2.1) en introduisant
A(x) = 0x a(s)ds, mais trouver le meilleur a n’est pas encore à notre portée. On
peut le faire quand a(x) est une constante.
Dans le cas général, on trouve
Z x Z x
dui d
= CA0 (x) + A0 (x) fi (t)dt = (CA(x) + A(x) fi (t)dt) − A(x)fi (x),
dx 0
dx 0

soit
Z x Z x
ui (x) = CA(x) + A(x) fi (t)dt − A(t)fi (t)dt
0 0

en ayant utilisé ui (0) = 0. On identifie C grâce à ui (1) = 0, ce qui donne

Z 1 Z 1 Z x
A(x)
ui (x) = ( A(t)fi (t)dt − A(1) fi (t)dt) + (A(x) − A(t))fi (t)dt.
A(1) 0 0 0

Dans le cas a(x) = a, on trouve ui (x) = au1i (x), avec

Z 1 Z x
u1i (x) =x (t − 1)fi (t)dt + (x − t)fi (t)dt.
0 0

Il est immédiat que le critère s’écrit

Z 1 Z 1 Z 1
2
J(a) = a (u1i (t))2 dt − 2a u1i (x)ūi (x)dx + (ūi (x))2 dx
0 0 0
Pi=N R 1 1
u (t)ūi (t)dt
et qu’il est minimum en a0 = Pi=1
i=N
R0 1 i 1 . Son minimum, d’après les inégalités de Cauchy-
2 (ui (t)) dt
i=1 0
Schwarz, est positif ou nul et n’est nul que si tous les u1i sont égaux à un coefficient foit ūi .

5. Projection sur un convexe.


Soit K un ensemble convexe fermé dans un espace de Hilbert V . On appelle
projection de u0 sur K, et on note p(u0 ), le point de K le plus proche de u0 , soit
||p(u0 ) − u0 || = inf v∈K ||v − u0 ||. On note que, de la relation ∀v ∈ K, ||v − u0 ||2 ≥
||p(u0 ) − u0 ||2 , et, plus précisément de ∀v ∈ K, ∀λ ∈]0, 1[, ||λv + (1 − λ)p(u0 ) −
u0 ||2 ≥ ||p(u0 ) − u0 ||2 , on tire

λ2 ||v − p(u0 )||2 + 2λ(v − p(u0 ), p(u0 ) − u0 ) ≥ 0.


Faisant tendre λ vers 0, on en déduit l’inégalité
1.2. EXEMPLES 9

(v − p(u0 ), p(u0 ) − u0 ) ≥ 0∀v ∈ K.

Notons que cette égalité, dans le cas du plan, implique que (v − p(u0 ), u0 −
p(u0 )) ≤ 0, c’est-à-dire l’angle entre les vecteurs joignant la projection à u0 et à
un élément quelquonque de K est obtus.
Réciproquement, si cette inégalité est vérifiée, alors

||v−u0 ||2 = ||v−p(u0 )||2 +||p(u0 )−u0 ||2 +2(v−p(u0 ), p(u0 )−u0 ) ≥ ||v−p(u0 )||2 .

Il y a unicité de la projection. En effet, si on désigne par v0 une autre projection,


on a

(v − v0 , u0 − v0 ) ≤ 0, (v − p(u0 ), u0 − p(u0 )) ≤ 0.
Dans la premiére inégalité on considère v = p(u0 ) et dans la deuxième on con-
sidère v = v0 . Alors

(p(u0 ) − v0 , u0 − v0 ) ≤ 0, (−v0 + p(u0 ), −u0 + p(u0 )) ≤ 0.


Additionnant les deux égalités, on obtient

(p(u0 ) − v0 , p(u0 ) − v0 ) ≤ 0
ce qui implique v0 = p(u0 ). Il y a unicité de la projection sur un convexe.
Ceci est la redémonstration du théorème de Hahn-Banach.

6. Gain minimum pour un turfiste.


On suppose qu’un tiercé présente N chevaux au départ, chacun étant côté avec
un rapport ri . Montrer que la condition nécessaire et suffisante pour qu’un
joueur récupère au moins sa mise est i r1i ≤ 1.
P

Posons les inconnues de ce problème. On suppose que le joueur joue xi sur chaque cheval. P Son gain
est alors yi0 = xi0 ri0 si le cheval i0 l’emporte. Pour simplifier notre analyse, on suppose xi = 1 (on
mise 1) et on veut qu’il existe une combinaison de sorte que chaque yi soit plus grand que 1. Ainsi on
a

X yi X yi X 1
= 1, yi ≥ 1∀i ⇒ 1 = ≥ .
ri ri ri
i i

1
P
Ainsi la condition 1 ≥ ri
est nécessaire pour que le gain soit au moins égal à la mise.
1
P
Réciproquement, on suppose 1 ≥ ri
, et on veut yi pour tout i plus grand que i. Le cas limite
est obtenu pour tous les yi égaux, et cette valeur commune est yi = P1 1 , ce qui impose de choisir
rp
1 1 1
xi = ri
P 1
. Dans ce cas, le gain est P 1
pour tout i; il est donc plus grand que 1.
rp rp

7. Un exemple de programme linéaire en recherche opérationnelle


On considère M entrepôts, chacun présentant si unités d’un stock. On connait
les N destinations, et on doit livrer rj unités à la destination j. Les coûts de
10 CHAPTER 1. INTRODUCTION ET EXEMPLES

transport unitaire cij de l’entrepôt i à la destination j sont connus, et on les


appelle cij . Comment livrer au meilleur coût?
Pour formaliser le problème, on appelle vij la quantité livrée à j à partir de
l’entrepôt i. On a comme conditions:

j=N
X i=M
X
vij ≥ 0, vij ≤ si , vij ≥ rj
j=1 i=1

et le coût de livraison est


P
i,j cij vij . On cherche l’inf de cette fonction.
Notons tout d’abord que, si l’on désigne par cj le min pour i = 1..M des cij , on
trouve
X j=N
X i=M
X X
cij vij ≥ cj ( vij ) ≥ cj rj .
i,j j=1 i=1 j

Ainsi l’inf existe et est strictement positif. Il faut voir si cette valeur est atteinte.
Pour cela, il faut cj rj = i cij vij , donc si les cij sont ordonnés et distincts, tous
P

les vij sont nuls sauf celui correspondant au plus petit des cij , où il vaut rj .
On peut écrire la solution explicite dans le cas M = N = 2 et sous la condition de compatibilité
r1 + r2 ≤ s1 + s2 (on ne peut pas livrer plus que ce que l’on a). On trouve alors

min(c11 , c12 ) = c12 ⇒ v12 = r1 , v11 = 0


min(c11 , c12 ) = c11 ⇒ v12 = 0, v11 = r1
min(c21 , c21 ) = c21 ⇒ v21 = r2 , v22 = 0
min(c21 , c22 ) = c22 ⇒ v21 = 0, v22 = r2

On n’a même pas besoin de se poser les questions de vij entier. D’autre part, lorsque deux sont égaux,
on peut choisir les quantités arbitrairement. On note ainsi que l’on se trouve donc sur le bord du
domaine défini par les contraintes.

8. Un exemple de contrôle optimal


On considère y 0 ∈ IRN , T > 0, f ∈ L1 (]0, T [, IRN ) et A matrice N ×N , B matrice
N × M données. On considère, pour chaque v ∈ L2 (]0, T [, K), la solution y(v)
du système

dy(v)
(t) = Ay(v)(t) + Bv + f (t)
dt

avec y(v)(0) = y 0 . On cherche à minimiser le critère, qui peut s’exprimer par


“avec un v aussi petit que possible sur ]0, T [, trouver y(v) aussi proche que
possible de g aussi bien pondéré sur ]0, T [ qu’en t = T ” Le critère que j’écris est

RT
(v(t), v(t))dt + 0T (Q(y(v)(t) − g(t)), y(v)(t) − g(t))dt
R
J(v) = 0
+(R(y(v)(T )) − g(T ), y(v)(T ) − g(T ))

On note pour l’instant que y(v) peut être calculée, par exemple à l’aide de y(0)
puis de l’exponentielle de A dans une base où par exemple A est diagonalisable,
mais cela ne sera pas de grande aide pour calculer et minimiser le critère. On
aura un principe dans la suite du cours.
1.2. EXEMPLES 11

9. Commande en temps minimal


Dans ce cas, le critère s’écrit de la manière suivante: “atteindre une cible donnée
C dans le temps le plus petit possible”. On introduit alors le temps d’arrivée à
la cible:

J(v) = +∞ si y(v) ∈ / C∀t


J(v) = inf{t ≥ 0, y(v)(t) ∈ C} si il existe t0 tel que y(v)(t0 ) ∈ C.

Commander le système en temps minimal est trouver inf J pour v dans l’espace
de commande et trouver un v0 tel que J(v0 ) = inf J.

10. Equilibre d’un fil pesant.


On se place dans le champ de pesanteur ~g = −g~j, et on se donne deux points
(x0 , y0 ) et (x1 , y1 ). On se place dans une situation suffisamment simple pour
qu’un fil placé entre ces deux points puisse être représenté par y(x), avec y(x0 ) =
y0 , y(x1 ) = y1 . La longueur de ce fil est supposée fixe, égale à l, ce qui se traduit
par l’égalité (basée sur la notion d’abscisse curviligne, s = 0 au point (x0 , y0 ) et
s = l au point (x1 , y1 ))

Z l Z x1 1
l= ds = (1 + (y 0 (x))2 ) 2 dx.
0 x0

Il est en équilibre lorsque son énergie potentielle est minimum. L’origine de


l’énergie potentielle est placée en y1 . Alors, si on désigne par ρ sa masse linéique,
l’énergie potentielle du fil est

Z l Z x1 1
ρg (y(x(s)) − y1 )ds = −ρgy1 l + ρg y(x)(1 + (y 0 (x))2 ) 2 dx.
0 x0

L’énergie totale, qui est constante, fait intervenir la vitesse, qui est donc nulle.
On a donc le problème

Z x1 1
Z x1 1
inf y(x)(1+ (y 0 (x))2 ) 2 dx, (1+ (y 0 (x))2 ) 2 dx = l, y(x0 ) = y0 , y(x1 ) = y1 .
y∈C 0 x0 x0

11. Le problème de Pappus, ou comment Didon a pu construire Carthage.


“Parmi toutes les courbes de longueur donnée joignant (0, 0) à (ξ, 0), trouver
celle qui conduit à l’aire maximum”
On se donne l’équation de cette courbe y = v(x). On a les conditions
Z ξ 1
v ≥ 0, v(0) = v(ξ) = 0, (1 + (v 0 (x))2 ) 2 dx = l
0

et on recherche à minimiser − 0ξ v(x)dx. Notons ici l’emploi du signe − lorsqu’on


R

a à trouver un maximum et non un minimum.


12 CHAPTER 1. INTRODUCTION ET EXEMPLES

12. Principe de Fermat et de Huyghens


On veut trouver la trajectoire reliant en temps minimum les points (x0 , y0 ) et
(x1 , y1 ), en sachant qu’en (x, y), la vitesse est c(x, y). Alors on cherche v (que
l’on précisera) telle que v(x0 ) = y0 , v(x1 ) = y1 et 0s c(x(s),y(s))
ds
R
soit minimum,
c’est-à-dire

1
x1 (1 + (v 0 (x))2 ) 2
Z
inf dx.
x0 c(x, v(x))

Lorsque on veut par exemple évaluer le rayon entre deux milieux de vitesse c1
et c2 , tels que c(x, y) = c1 1x>0 + c2 1x>0 , on a donc, appliquant ce qui est écrit
ci-dessus à trouver le lieu de

1 1
0 (1 + (v 0 (x))2 ) 2 x1 (1 + (v 0 (x))2 ) 2
Z Z
inf[ dx + dx].
x0 c1 0 c2

13. Problèmes d’équilibre en mécanique des milieux continus


Soit Ω un ouvert de IRn et Γ sa frontière. On se donne les trois énergies

1
Z
U1 (v) = λ |∇v|2 dx
2 Ω

1
Z
U2 (v) = k |v|2 dx
2 Ω

Z
U3 (v) = − f (x)v(x)dx

qui sont respectivement l’énergie potentielle de déformation, l’énergie potentielle
élastique, l’énergie d’une force extérieure constante dans le temps.
On étudie deux fonctionnelles J1 = U1 + U2 + U3 et J2 = U1 + U3 . On écrira
quatre types de problèmes:

inf J2 (v), inf J1 (v), inf J1 , inf J2


v∈H01 (Ω) v∈H 1 (Ω) v∈H 1 (Ω),v|Γ ≥0 v∈H01 (Ω),v≥ψ

qui sont respectivement les problèmes de Dirichlet, Neumann, élasticité avec


contraintes unilatérales, équilibre avec obstacle.
Pour introduire certaines des méthodes de ce cours, traitons le premier problème.
Nous allons le faire à l’aide de ce que nous avons utilisé pour le théorème de
Hahn-Banach. On suppose que u existe. Alors, pour toute fonction φ dans
C0∞ (Ω), on remarque que u + φ ∈ H01 (Ω), ainsi on a

J2 (u + φ) ≥ J2 (u).
Cette inégalité se traduit par
Z
∀φ ∈ C0∞ (Ω), λ ∇u∇φ + J2 (φ) ≥ 0.

1.2. EXEMPLES 13

On choisit alors ψ et on considère φ = εψ, oùR ε tend vers 0. Alors on en déduit, au


passage à la limite, l’inégalité λ ΩR ∇u∇ψ− fR ψ ≥ 0 pour toute ψ ∈ C0∞ (Ω). On
R

choisit alors −ψ, pour obtenir λ Ω ∇u∇ψ − f ψ = 0∀ψ ∈ C0∞ (Ω). Un résultat
d’intégrations par parties indique que, au sens des distributions de H −1 (Ω) (dual,
rappelons le, des distributions de H01 (Ω)), on a la relation

−λ∆u = f

Réciproquement, lorsque u est dans H01 (Ω) solution dans H −1 (Ω) de ce problème,
alors par écriture du produit scalaire qui correspond à la dualité des distribu-
tions, on trouve

1
Z
J2 (v) − J2 (u) = λ (∇v − ∇u)2 dx.
2
14. Un exemple simple avec contraintes.
On veut trouver min( 21 v 2 − cv) sous la contrainte v ≤ b. Pour cela, on voit que,
si b ≤ c, minv≤b ( 12 v 2 − cv) = ( 21 v 2 − cv)|v=b et si b > c, minv≤b ( 12 v 2 − cv) =
( 12 v 2 − cv)|v=c . Dans le premier cas, la contrainte est saturée, dans le deuxième
cas elle est insaturée.

15. Problème de Neumann avec contrainte.


Nous étudions ici le cas du problème inf J1 (u), u|Γ ≥ 0, où u ∈ H 1 (Ω), ∂Ω = Γ.
On prend d’abord φ ∈ C0∞ (Ω), ainsi, pour tout ε > 0, u+ εφ est dans le domaine
K défini par K = {u ∈ H 1 (Ω), u|Γ ≥ 0} dès que u ∈ K. On applique alors la
même méthode que précédemment, de faire tendre ε vers 0 après avoir divisé
l’inégalité déduite de J1 (u + εφ) ≥ J1 (u) par ε. Ainsi on a
Z Z Z
∀φ ∈ C0∞ (Ω), λ ∇u∇φdx + k uφdx = f φdx.

On en déduit, dans D 0 (Ω), l’égalité

−λ∆u + ku = f.

Désormais, on considère v ∈ H 1 (Ω), v|Γ ≥ 0. Ainsi, de J1 (v) ≥ J1 (u), écrivant


v = u + (v − u), on déduit
Z
J1 (v)−J1 (u) = U1 (v−u)+U2 (v−u)+ [λ∇u∇(v−u)+ku(v−u)−f (v−u)]dx ≥ 0

(1.2.3)
D’une part, si v = cu, c ≥ 0, alors v ∈ K. On trouve alors
Z
(c − 1) (λ(∇u)2 + k(u)2 − f u)dx ≥ 0.

Comme c ∈]0, +∞[, alors c−1 ∈]−1, +∞[. On peut prendre une valeur négative
et une valeur positive de c − 1, ce qui implique la relation
Z
(λ(∇u)2 + k(u)2 − f u)dx = 0.

14 CHAPTER 1. INTRODUCTION ET EXEMPLES

Remplaçant alors cette égalité dans l’inégalité (1.2.3), on trouve, pour tout v ∈
K: Z
U1 (v − u) + U2 (v − u) + [λ∇u∇v + kuv − f v]dx ≥ 0

R R
On remplace f par −λ∆u+ku et on utilise la relation ∆uvdx = − Ω ∇u∇vdx+
1 1
R
Ω ∂n uvdσ (qui est une manière de définir ∂n u pour u ∈ H (Ω) et v ∈ H (Ω)
comme le résultat d’un théorème de Riesz)1 .
R
La relation obtenue est alors ∀v ∈ K, Γ ∂n uv|Γ dσ ≥ 0.
Nous avons pu ici étudier le problème facilement car la fonctionnelle est une
forme quadratique. Dans le cas où elle ne l’est pas, il s’agit d’étudier u + ψ, et
on vérifie que si x ∈ Γα où Γα est la partie du bord où u est supérieur ou égal
à α, alors on peut prendre ψ tel que ψ = 0 sur Γ − Γα et |ψ| ≤ α2 sur Γα , ψ
identiquement égale à 1 sur le bord dans un voisinage d’un point x0 de Γα . On
peut alors vérifier que u + ψ et que u − ψ sont dansR K, ce qui permet d’obtenir
directement, avec v − u = ±ψ, la relation au bord Γ ∂n uψdσ = 0, ce qui donne
∂n u = 0 sur Γα . On a donc
Z
∀α > 0, ∂n uΓα = 0, u∂n udσ = 0
Γ
ce qui permet de partitionner Γ en Γ1 = {x,
R
u(x) = 0} et Γ2 = Γ0 = Γ − Γα , sur
lequel ∂n u = 0, et on a, par la condition Γ ∂n uvdσ ≥ 0 pour tout v, v|Γ ≥ 0, la
condition ∂n u ≥ 0.

16. Cas de non existence d’un minimum.


On se place
R1
dans l’espace H 1 (]0, 1[) muni de la norme usuelle, et on définit
J(v) = 0 [(|v 0 (x)| − 1)2 + (v(x))2 ]dx. On note que J(v) ≥ 0 et qu’il n’existe
pas de u tel que J(u) = 0. En effet, si il en existe un, |u0 | = 1 p.p. et u = 0
1
impossible dans H 1 . D’autre part, si on construit un (x) = 2n − |x − 2k+1
2n | sur
k+1 1
1
l’intervalle [ nk , k+1 (un (x))2 = 2 x2 =
R R 2n
n ] pour 0 ≤ k ≤ n−1, on trouve
n
k 0 6n3
n
k+1
(|u0 (x)| − 1)2 dx = 0. Ainsi
R
et k
n

1
J(un ) =
6n2
et inf J = 0, alors qu’il n’existe pas de u tel que J(u) = inf J.
1
R
On introduit la fonctionnelle v → Ω ∇u∇v+ < ∆u, v >. Lorsque v ∈ C ∞ (Ω), il est clair que
cette fonctionnelle est continue et que, par dualité, comme u ∈ H 1 (Ω), ∆u ∈ H −1 (Ω) lorsque le bord
est régulier, on trouve
Z
| ∇u∇v+ < ∆u, v > | ≤ C||v||H 1 (Ω) .

Pour v = φ ∈ C0∞ (Ω), on trouve 0, donc c’est une distribution qui ne considére que les valeurs au
bord de v = φ. D’autre part, lorsque u ∈ H 2 (Ω), on trouve que cette fonctionnelle permet de définir
la dérivée normale de u, ∂n u par la formule de Green usuelle.
Finalement, pour u ∈ H 2 (Ω) et v ∈ C ∞ (Ω), il existe C1 telle que (on améliore la relation précédente)
Z
| ∇u∇v+ < ∆u, v > | ≤ C1 ||v|Γ || 1 .
H 2 (Γ)

1.2. EXEMPLES 15

17. Minimisation quadratique dans IR2 .


On introduit la fonctionnelle J(y1 , y2 ) = 21 (y12 + y22 ) − b1 y1 − b2 y2 et on cherche
à résoudre les deux problèmes

inf J(y), a1 y1 + a2 y2 = 0

inf J(y), a1 y1 + a2 y2 ≤ 0

Dans le premier cas, on a plusieurs méthodes à notre disposition. La plus


évidente est de supposer a1 6= 0, ainsi y1 = − aa12 y1 , et on se ramène à

1 a2 b2 a1 − b1 a2
inf (1 + 12 )y12 − y2
2 a2 a1
−b1 a2 −b1 a2
qui est atteint au point y2 = a1 b2 aa21 +a2 et donc y1 = −a2 b2 aa21 +a2 .
1 2 1 2

On peut simplifier les expressions en vérifiant que, dans y2 , le coefficient de b2


s’écrit avec a21 /(a21 + a22 ), ainsi

a1 b1 + a2 b2
(y1 , y2 ) = (b1 , b2 ) − (a1 , a2 ).
a21 + a22
Cette méthode n’est pas instructive, mais son résultat l’est: le minimum est
obtenu au point b + λa. Le réel λ est nul lorsque a.b = 0.
Distinguons les deux cas. Notons avant cela que le minimum absolu de la fonc-
tionnelle se situe au point b. Si b est dans la contrainte, alors ce minimum absolu
est atteint sur la contrainte, et donc le problème

inf J, a.y = 0
admet comme solution y = b, de même que le problème

inf J, a, y ≤ 0.

Si b n’est pas dans la contrainte égalité, on désigne par b0 la projection de b sur la


droite a.y = 0. On a bien sûr J(y) = − 12 b2 + 21 (y − b)2 , donc minimiser J revient
donc à minimiser la distance de b à la droite a.y = 0. Le point qui réalise ceci
est bien sûr y = b0 . On vérifie alors que y = b + (b0 − b), et, avec b0 − b = −λa,
on a l’égalité y = b − λa. Le minimum est solution de y − b + λa = 0, ce qui
sera dans le cours l’égalité de définition du point selle et du multiplicateur de
Lagrange. On note que, par b0 .a = 0, on a λ = a.b a2
.
On étudie maintenant la contrainte inégalité a.y ≤ 0.
Si on considère b tel que a.b ≤ 0, on n’a besoin de rien d’autre, le minimum
absolu est dans l’espace des contraintes, donc le minimum de la fonctionnelle
est atteint en y = b. On suppose donc que b est dans la zone a.y > 0. Grâce à
l’égalité b0 = b − λa et à l’égalité b0 .a = 0, on trouve que λa2 > 0, et donc λ > 0
et le minimum est en b0 .
16 CHAPTER 1. INTRODUCTION ET EXEMPLES

Lorsque on suppose que b n’est pas dans la zone a.y > 0, on trouve que b0 = b−λa
avec λa2 ≤ 0 et λ ≤ 0. Le minimum est alors obtenu en b et on a b = b + 0a.
On voit sur cet exemple et sur la notion de projection que l’on forme y − b + λa
et a.y = 0. Lorsque la résolution de ce système conduit à λ ≤ 0, on dit que la
contrainte est insaturée et on a y = b comme minimum. Le point de minimum
est dans l’espace des contraintes. Lorsque la résolution du système conduit à
λ ≥ 0 , la contrainte est saturée et y = b − λa convient.
Chapter 2

Minimum dans IRN ou dans un


espace de Hilbert, conditions
d’Euler et de Legendre

2.1 Condition générale d’existence (suffisante)


Nous allons d’abord donner des conditions suffisantes d’existence d’un minimum. Le
théorème le plus classique, que l’on trouve au début de chaque cours d’optimisation,
est

Théorème 2.1 Soit K ⊂ IRN , soit J une fonctionnelle continue sur Ω contenant K,
et K fermé.
Si K est compact, ou si J est ∞ à l’∞ (c’est-à-dire, pour toute suite vn telle que
|vn | → +∞, J(vn ) → +∞), alors J a au moins un minimum sur K.
On peut extraire de toute suite minimisante sur K une sous-suite convergeant vers
un point de minimum sur K.

Preuve Toute partie de IR admet une borne inférieure l, éventuellement −∞. Si il


s’agit de −∞, on a immédiatement l’existence d’une suite un telle que J(un ) → −∞.
Si l est fini, et si K est compacte, d’une suite un telle que J(un ) tend vers l, on peut
extraire (car un ∈ K compact), une sous-suite convergente un0 → a. Comme J est
continue, J(un0 ) tend vers J(a), et donc J(a) = l. Si K n’est pas compacte, on vérifie
cependant que la suite est bornée (si elle ne l’était pas, on trouverait une sous-suite
extraite un0 telle que |un0 | → +∞, auquel cas J(un0 ) → +∞ par l’hypothèse sur le
comportement de J, et donc J(un0 ) ne converge pas vers l). Soit B une boule fermée
contenant tous les termes de la suite. Alors un ∈ K ∩B est une suite dans un compact,
une suite extraite converge donc vers une valeur minimisante.
On note que dans l’exemple 16 de l’introduction, la fonctionnelle vérifie la condition
à l’infini, mais il n’y a pourtant pas de minimum car dans un espace de dimension
infinie, un fermé borné n’est pas necessairement compact.
Il s’agit maintenant d’être capable, comme dans les exemples traités précédemment,
de calculer les solutions. Nous allons faire cela, en écrivant des conditions très anci-
ennes, nécessaires pour certaines, suffisantes pour d’autres.

17
18 CHAPTER 2. EULER-LEGENDRE

2.2 Condition d’Euler, condition de Legendre


Du traitement des exemples 13 et 15, on déduit un certain nombre de notions. Nous
reviendrons sur certaines d’entre elles plus loin. Pour l’instant, intéressons nous à
deux notions:
• la notion de dérivée dont nous avons besoin
• la notion de direction admissible.
La notion de dérivée que nous cherchons à obtenir s’obtient en comparant (ce qui
a été fait dans les exemples 13 et 15), J(u + εv) et J(u) après avoir divisé par ε et
fait tendre ε vers 0. On voit ainsi que la bonne notion est de considérer
1
lim [J(u + εv) − J(u)]
ε→0 ε
et d’écrire l’inégalité, valable pour tout v tel que u + εv est dans le domaine étudié
1
lim [J(u + εv) − J(u)] ≥ 0.
ε→0 ε

2.2.1 Dérivabilité au sens de Fréchet et au sens de Gâteaux


La dérivée d’une fonction d’une variable élément d’un espace vectoriel de dimension
finie doit être généralisée aux fonctionnelles, application d’un espace vectoriel de di-
mension infinie dans IR. Il faut se placer dans un espace normé, et un espace pour
lequel l’espace dual est isomorphe à l’espace (on verra plus loin que cela permettra de
définir une application gradient). On se place sur un espace de Hilbert V , dans lequel
on a isomorphisme entre V et V 0 , et donc le théorème de Riesz.

Définition 2.1 Lorsque, pour tout w, la limite limε→0 1ε [J(u + εv) − J(u)] existe, on
la note J 0 (u; w) et on l’appelle dérivée directionnelle de J en u dans la direction w,
qui est une fonction définie de V × V dans IR, homogène de degré 1 dans la variable
w.
Lorsque, de plus, la fonction w → J 0 (u; w) est une fonction linéaire continue,
alors il existe, par le théorème de Riesz, un élément de l’espace de Hilbert V , que l’on
appelle la dérivée de Gâteaux de J en u et que l’on note J 0 (u). On notera souvent
de la même façon la forme linéaire et son représentant dans le produit scalaire, soit
(J 0 (u), w) = J 0 (u; w).
On peut aussi définir la dérivée seconde J”(u) si elle existe, lorsque la limite
1
lim [J 0 (u + δw1 ; w2 ) − J 0 (u; w2 )]
δ→0 δ
existe pour tout (w1 , w2 ) et est une forme bilinéaire continue sur V × V . La limite est
alors (J”(u)w1 , w2 ) par représentation des formes bilinéaires continues.

On rappelle la définition de la dérivée au sens de Fréchet, qui n’est plus cette fois
une forme linéaire définie sur chaque direction:

Définition 2.2 J est dérivable au sens de Fréchet en u si

J(u + v) = J(u) + Lu (v) + ε(v)


ε(v)
avec Lu forme linéaire continue sur V et ||v|| → 0 quand v → 0.
2.2. CONDITION D’EULER, CONDITION DE LEGENDRE 19

Lorsque J est dérivable au sens de Fréchet, elle est dérivable au sens de Gâteaux, mais
la réciproque est fausse, car l’écriture de la dérivabilité au sens de Fréchet correspond
à ε(v)
||v|| tend vers 0, alors que la dérivabilité au sens de Gateaux correspond à
ε(λw)
λ tend
vers 0 lorsque λ tend vers 0 et on perd l’uniformité de w.
On peut alors écrire des formules de Taylor sur v a l’ordre 2 si J est deux fois
différentiable au sens de Fréchet:

1
J(u + v) = J(u) + (J 0 (u), v) + (J”(u)v, v) + o(||v||2 ) (2.2.1)
2
Si J est diff’erentiable au sens de Fréchet et si sa dérivée est différentiable au sens
de Gateaux, alors on a aussi une formule de Taylor:

1
J(u + tw) = J(u) + t(J 0 (u), w) + t2 (J”(u)w, w) + o(t2 ). (2.2.2)
2
Lorsque J” est continue, on peut écrire la formule de Taylor avec reste intégral

Z 1
0 2
J(u + tw) = J(u) + t(J (u), w) + t (1 − x)(J”(u + xtw)w, w)dx. (2.2.3)
0

La démonstration de ces égalités de Taylor peut par exemple se faire en considérant


la fonction de la variable réelle

φ(t) = J(u + tw).

On vérifie que

φ(t + h) − φ(t)
→ (J 0 (u + tw), w)
h
ainsi φ0 (t) = (J 0 (u + tw), w).
0 0 (0) 0 0 (u),w)
On voit alors que φ (t)−φ t = (J (u+tw),w)−(J
t tend vers φ”(0) = (J”(u)w, w).
Ainsi on peut écrire la formule de Taylor

t2
φ(t) = φ(0) + tφ0 (0) + φ”(0) + o(t2 )
2
et on a obtenu la formule de Taylor pour une fonction différentiable, qui admet une
dérivée seconde au sens de Gateaux.
D’autre part, si J est deux fois différentiable au sens de Fréchet dans un voisinage
de u

φ”(t) = (J”(u + tw)w, w)

ainsi la formule de Taylor avec reste intégral pour la fonction φ conduit à l’égalité
(2.2.3).
Avec les outils de differentiabilité ainsi définis, on peut donner les résultats d’optimalité
connus soul le nom de condition d’Euler et de Legendre.
20 CHAPTER 2. EULER-LEGENDRE

2.2.2 Conditions necessaires d’optimalité. Conditions suffisantes d’optimalité


On écrit des conditions nécessaires dans le

Théorème 2.2 Soit V un espace de Hilbert et J une fonctionnelle différentiable (1


ou 2 fois) au sens des définitions précédentes
Pour que u ∈ V soit solution de
(
inf J(v)
(2.2.4)
v∈V

il FAUT que J 0 (u) = 0 (condition d’Euler).


(c’est-à-dire former cette équation, appelée équation d’Euler, donne tous les min-
ima, entre autres points (elle donne aussi tous les maxima locaux)).
Si J est différentiable deux fois, on a, de plus nécessairement

∀w ∈ V, (J”(u)w, w) ≥ 0.
(condition de Legendre)

Démonstration:
On vérifie que, si u est un point d’optimum de J, alors, pour tout v ∈ V on a

J(u + v) ≥ J(u).
Si on utilise la dérivée de Fréchet de J, on en déduit que

∀v ∈ V, Lu (v) + o(v) ≥ 0.
On écrit v = tw, et on fait tendre t vers 0, t > 0. On en déduit , par passage à la
limite, Lu (w) ≥ 0. On choisit alors v = −tw, t > 0 et on en déduit Lu (−w) ≥ 0. On
a alors, ∀w, Lu (w) = 0. Ceci équivaut à J 0 (u) = 0.
Pour la condition de Legendre, on suppose que la fonctionnelle est dérivable au
sens de Fréchet et que sa dérivée de Fréchet est différentiable au sens de Gateaux.
On utilise alors la formule de Taylor (2.2.2), ce qui donne, si u est un minimum,
utilisant J 0 (u) = 0:

t2
J(u + tw) = J(u) + (J”(u)w, w) + o(t2 )
2
et l’inégalité J(u + tw) ≥ J(u) conduit à (J”(u)w, w) ≥ 0 pour tout w. Le théorème
est démontré.
Ce théorème est complété par une écriture de conditions suffisantes, valables pour
un minimum local

Théorème 2.3 Un ensemble de conditions suffisantes pour que u soit solution du


problème du théorème précédent est

J 0 (u) = 0
et pour tout ũ dans un voisinage de u0 , on ait la condition (J”(ũ)w, w) ≥ 0. (condi-
tion forte de Legendre)
2.3. INÉQUATION D’EULER DANS UN PROBLÈME AVEC CONTRAINTES 21

De manière opératoire, on peut aussi écrire une condition plus forte que la condition
forte sous la forme
Il existe α > 0 tel que (J”(u)w, w) ≥ α(w, w)1 .
Démontrons le théorème. On suppose que J 0 (u) = 0 et (J”(ũw, w) ≥ 0 pour tout
ũ dans un voisinage de u, et J deux fois Fréchet différentiable. Alors en utilisant la
formule de Taylor avec reste intégral
Z 1
J(u + tw) = J(u) + t2 (1 − x)(J”(u + txw)w, w)dx
0
et l’hypotèse sur la dérivée seconde qui implique que, pour tout ũ dans ce voisinage
de u, on choisit t = 1 et w = ũ − u de sorte que u + txw = xũ + (1 − x)u est dans ce
même voisinage, alors J(ũ) ≥ J(u) et u est un point de minimum local, ce qu’il fallait
démontrer.
Notons que l’on n’a pas ainsi de condition nécessaire et suffisante. En effet, si on
considère dans V = IR J(x) = x6 (1 + sin x1 ), et J(0) = 0, on vérifie que J(x) ≥ 0
car sin u ≥ −1. Ainsi J(x) ≥ J(0) pour tout x et 0 est un point de minimum
absolu. On vérifie que J est continue en 0 (car lim x sin x1 = 0). Sa dérivée est
J 0 (x) = 6x5 (1+sin x1 )−x4 cos x1 , elle vérifie J 0 (x) → 0 lorsque x tend vers 0, et de plus,
J(x)−J(0)
x tend vers 0, donc J est dérivable et sa dérivée est continue. Alors J”(x) =
−x2 [sin x1 − 30x2 (1 + sin x1 ) − 10x cos x1 ]. On vérifie que J”(0) = 0 et que J”( (n+11 )π ) =
2
−( (n+11 )π )2 [(−1)n − 30( (n+11 )π )2 (1 + (−1)n )], dont le signe est alternativement + et −
2 2
pour n pair ou impair assez grand (par exemple n ≥ 4). Ceci prouve que J ne vérifie
pas la condition forte de Legendre et pourtant J admet un minimum absolu en 0.

2.3 Inéquation d’Euler dans un problème avec contraintes


Les problèmes avec contrainte s’écrivent aussi problème d’optimum liés. Il s’agit
en particulier de l’exemple 15. On voit, dans ce problème, que la remarque utilisée
généralement est que l’on doit pouvoir avoir u + εφ dans le domaine K si u est donnée,
afin d’écrire les conditions J(u + εψ) ≥ J(u). Il faut alors que ψ soit positive sur le
bord lorsque u|Γ est nulle en ce point du bord, alors que, modulo le fait que ε soit
choisi assez petit, ψ peut être prise arbitraire sur le bord hors des points où u est
nulle.
Lorsque K est l’ensemble des contraintes, et lorsque u ∈ K, on définit les direc-
tions admissibles de u dans K par

Définition 2.3 L’espace des directions admissibles au sens de Fréchet est l’ensemble
des w de V est une direction admissible pour u sur K si il existe une suite wn de V
tendant vers w et une suite en ≥ 0 telle que u + en wn ∈ K. L’ensemble des directions
admissibles est noté K(u).

Définition 2.4 L’espace des directions admissibles au sens de Gâteaux est l’ensemble
des w tels que, pour ε assez petit, u + εw soit dans K. L’ensemble de telles directions
w est aussi appelé ensemble de directions admissibles intérieures et noté K̇(u).
1
Notons que dans un Hilbert de dimension finie, cette inégalité est équivalente à l’inégalité
(J”(u)w, w) > 0 pour tout w non nul, puisque dans ce cas là la matrice J”(u) n’a pas de vecteur
propre nul, et α est sa plus petite valeur propre
22 CHAPTER 2. EULER-LEGENDRE

On note que les deux ensembles ainsi définis sont des cônes, et que K̇(u) ⊂ K(u)..
On a alors les conditions nécessaires suivantes sur un minimum de la fonctionnelle
sous contraintes:

Théorème 2.4 (Inéquations d’Euler)


Si J est dérivable au sens usuel (de Fréchet), pour que u soit solution de (2.2.4),
il faut que

∀w ∈ K(u), (J 0 (u), w) ≥ 0.
Si J est dérivable au sens de Gâteaux, il faut que

∀w ∈ K̇(u), (J 0 (u), w) ≥ 0.

Soit u une solution de (2.2.4). Alors, comme u + en wn ∈ K, on a J(u + en wn ) ≥


J(u). Ainsi on en déduit
1
[J(u + en wn ) − J(u)] ≥ 0∀n
en
puisque en ≥ 0. Ainsi, en passant à la limite dans l’égalité de définition de la dérivée
de Fréchet, on obtient e1n [J(u + en wn ) − J(u) − (J 0 (u), en wn )] → 0, ainsi, écrivant
(J 0 (u), wn ) − (J 0 (u), w) = (J 0 (u), wn − w) → 0, on a

(J 0 (u), w) ≥ 0.
Pour le deuxième, on vérifie que J(u + εw) − J(u) ≥ 0, ainsi, en divisant par ε et
en faisant tendre ε vers 0 pour w ∈ K̇(u), on trouve

∀w ∈ K̇(u), (J 0 (u), w) ≥ 0.

2.4 Multiplicateurs de Lagrange


Nous appliquons les résultats de la section précédente à des contraintes particulières,
qui sont les plus simples que nous rencontrons. Les contraintes les plus simples sont
les contraintes égalités et les contraintes inégalités. Par exemple, on peut écrire

K = {u ∈ V, F1 (u) = 0, F2 (u) = 0, ..Fm (u) = 0}


les fonctions F1 , ...Fm étant continues.
Par exemple, lorsque V = IR3 , on peut donner comme condition l’appartenance à
la sphère unité, qui s’écrit x2 + y 2 + z 2 − 1 = 0. Ici F (x, y, z) = x2 + y 2 + z 2 − 1.
Nous traitons le cas particulier de la contrainte égalité x2 + y 2 + z 2 = 1.
Commençons par l’ensemble ouvert K̇((x, y, z)). On trouve que (x + w1 )2 + (y + w2 )2 +
(z + w3 )2 = 1 et x2 + y 2 + z 2 = 1. Ainsi, en utilisant ces deux égalités et en divisant par ,
on obtient

(∗)(xw1 + yw2 + zw3 ) = − ||w||2 .
2
En faisant tendre  vers 0, on trouve que xw1 + yw2 + zw3 = 0 car (x, y, z) et (w1 , w2 , w3 )
sont indépendants de . D’autre part, en remplacant cette égalité dans (*), on trouve ||w||2 =
2.4. MULTIPLICATEURS DE LAGRANGE 23

0. Comme on prend  quelconque assez petit, la norme de w est nulle donc w = 0. On trouve
K̇((x, y, z)) = {(0, 0, 0)}.
D’autre part, considérons maintenant la définition de K((x, y, z)). Alors w ∈ K((x, y, z))
lorsqu’il existe une suite en tendant vers 0 et une suite wn = (w1n , w2n , w3n ) tendant vers w
telles que (x, y, z) + en wn soit dans la sphère. On cherche des conditions nécessaires pour que
cela soit le cas. Comme précédemment, on écrit les deux égalités et on obtient

en n 2
xw1n + yw2n + zw3n = − ||w || .
2

En considérant la limite lorsque n tend vers l’infini, le membre de gauche tend vers xw1 +yw2 +
zw3 et le membre de droite tend vers 0, donc une condition nécessaire est xw1 +yw2 +zw3 = 0.
Montrons que cette condition est suffisante. On se donne un élément (w1 , w2 , w3 ) tel
que u.w = 0, u = (x, y, z). On considère alors une suite quelconque wn qui tend vers w
(c’est toujours possible à définir, ce serait-ce qu’en prenant w + n1 e, où e est un vecteur fixe
quelconque). On sait alors que [Link] tend vers 0. On construit alors w̃n = wn −2|[Link] |(x, y, z)
(ceci veut dire w̃1n = wn1 − 2|xwn1 + ywn2 + zwn3 |x, w̃2n = wn2 − 2|xwn1 + ywn2 + zwn3 |y). Il en
découle que w̃n tend vers w car wn tend vers w et [Link] tend vers 0. De plus, w̃n .(x, y, z) =
w̃ n
w̃n .u = wn .u − 2|wn .u| ≤ 0. On construit alors en = − ||2u n
w̃ n ||2 ≥ 0. La suite (en , w̃ ) vérifie les
conditions de la définition, donc (w1 , w2 , w3 ) ∈ K(u) (exemple 1).
Exemple1

Si K = {(x, y, z), x2 + y 2 + z 2 ≤ 1}, alors K(u) = K̇(u) = IR3 pour u = (x, y, z) tel
que x2 + y 2 + z 2 < 1 (en effet, il suffit, pour toute direction non nulle w, de considérer
u + 21 (1 − ||u||) ||w||
w
, qui est dans la sphère unité, donc on vérifie que pour 0 = 21 (1−||u||)
||w|| et
2
 < 0 , u + w est dans la sphère). Pour un point du bord u = 1, on aboutit, en divisant par
en ou par , à l’inégalité

 en n 2
u.w ≤ − ||w||2 , [Link] ≤ ||w ||
2 2

ce qui aboutit aux relations K̇(u) = {u.w < 0} et K(u) = {u.w ≤ 0}.
Nous généralisons ces expressions. Commençons par une contrainte égalité F (v) =
0 (exemple 1). Ainsi w est une direction admissible pour u si il existe une suite wn
tendant vers w et une suite en > 0 tendant vers 0 telles que F (u + en wn ) = 0. Alors
on en déduit, en supposant que F est différentiable

F (u) + (F 0 (u), en wn ) + o(en |wn |) = 0.

Faisant tendre en vers 0 après avoir utilisé F (u) = 0 et avoir divisé par en conduit à
(F 0 (u), w) = 0.
24 CHAPTER 2. EULER-LEGENDRE

Réciproquement, supposons (F 0 (u), w) = 0. On introduit la fonction φ(λ, ε) =


1
ε F (u + εw + ελF 0 (u)), φ(λ, 0) = (F 0 (u), w + λF 0 (u)). On a

φ(λ + h, ε) − φ(λ, ε) 1
= (F (u + εw + ελF 0 (u) + εhF 0 (u)) − F (u + εw + ελF 0 (u)))
h εh
donc

φ0λ (λ, ε) = (F 0 (u + εw + ελF 0 (u)), F 0 (u)).


On suppose que F 0 est Lipschitz et que F 0 (u) 6= 0. On souhaite trouver λ(ε) tel
que φ(λ(ε), ε) = 0. On écrit l’équation sous la forme

φ(λ, ε) − φ(0, ε) = −φ(0, ε)


De l’égalité (F 0 (u), w) = 0, on déduit φ(0, ε) = o(1). De la relation F 0 (u) 6= 0, on tire
que la dérivée de φ(λ, ε) − φ(0, ε) est ||F 0 (u)||2 > 0, et, de plus, φ(0, 0) = 0. On est
dans le cas d’application du théorème des fonctions implicites et il existe ε0 et une
fonction continue λ(ε) telle que, pour ε < ε0 on ait

φ(λ(ε), ε) − φ(0, ε) = −φ(0, ε).


La fonction λ(ε) tend vers 0 lorsque ε tend vers 0. On peut aussi voir ce résultat en
écrivant l’équation sous la forme
Z 1
λ φ0λ (λx, ε)dx = −φ(0, ε)
0
ce qui donne, par approximation de la dérivée première

λ[||F 0 (u)||2 + O(ε)] = −φ(0, ε)


soit

φ(0, ε)
λ=− (1 + O(ε)),
||F 0 (u)||2
d’où une expression de λ(ε) (dont on a montré l’existence et l’unicité ci-dessus). Ainsi
on a trouvé wε = w + λ0 F 0 (u) tel que F (u + εwε ) = 0 et wε → w. La direction w est
une direction admissible. Lorsque F 0 (u) = 0, w est quelconque, mais cela n’assure pas
l’existence d’un w non nul qui soit une direction admissible. Par exemple, F (x) = x2
conduit, dans la définition, à écrire le cône des directions admissibles à {0} dans IR,
qui correspond à {0}, car dans ce cas 0 + en wn = 0 ce qui implique wn = 0, et non
pas tout l’axe réel.

Lemme 2.1 Le cône K(u) associé à u tel que F (u) = 0 est, dans le cas F 0 (u) 6= 0
l’ensemble des w ∈ V tels que (F 0 (u), w) = 0.

On en déduit la représentation suivante

Définition 2.5 Soit K = {u, F1 (u) = 0, F2 (u) = 0, ...Fm (u) = 0}. Lorsque les
vecteurs (F10 (u), F20 (u), ..Fm
0 (u)) sont linéairement indépendants, on dit que les con-

traintes sont régulières en u.


2.4. MULTIPLICATEURS DE LAGRANGE 25

Lemme 2.2 Si les contraintes sont régulières en u, alors K(u) = {w ∈ V, (Fi0 (u), w) =
0∀i = 1..m}.

L’implication directe est facile. L’implication réciproque est une conséquence du


théorème des fonctions implicites matriciel. On choisit donc, pour un w tel que
(Fj0 (u), w) = 0 pour tout j, de regarder une perturbation de u + εw et de déterminer
(µ1 , .., µm ) tels que
k=m
εµk Fk0 (u)) = 0.
X
∀jFj (u + εw +
k=1

On regarde alors ce système comme une application de IRM dans lui même.
Le jacobien de cette application est, pour ε = 0, la matrice des produits scalaires
(Fj0 (u), Fk0 (u)). La famille est libre, donc cette matrice est inversible et cette propriété
est vraie pour ε < ε0 lorsque les µj appartiennent à un compact. On applique alors le
théorème des fonctions implicites de IRM dans IRM et on conclut. Lorsque les vecteurs
Fi0 (u) ne forment pas une famille libre, on a le même problème que précédemment dans
le cas F 0 (u) = 0. On ne peut pas assurer l’existence de directions admissibles. Par
exemple, si on considère l’ensemble x2 + y 2 = 1, x3 + y 3 = 1 admet comme solutions
(1, 0), (0, 1) et ces points sont isolés donc leurs directions admissibles sont réduites à
{0}. On peut aussi considérer l’exemple d’une sphère S et d’un de ses plans tangents
P . Au point d’intersection, les deux vecteurs Fi0 (u) sont égaux à la direction normale
à la sphère, et l’intersection est réduite au point.
Lorsque le cône K(u) est facile à évaluer, le théorème 2.4 permet de calculer ce
que l’on appelle les multiplicateurs de Lagrange.

Théorème 2.5 Pour que u tel que (Fj0 (u))j forme une famille libre (on dit que les
contraintes Fj (v), 1 ≤ j ≤ m sont régulières en u), soit solution de (2.2.4), il
faut qu’il existe m réels λ1 , ...λm tels que

J 0 (u) + λ1 F10 (u) + λ2 F20 (u) + ... + λm Fm


0
(u) = 0

Preuve La partie difficile de la preuve a été faite. En effet, si u est régulier, on


identifie aisément le cône K(u) des directions admissibles; c’est l’espace vectoriel or-
thogonal à l’espace vectoriel F engendré par la famille (Fj0 (u))j=1..m . Le théorème
(2.4) se traduit alors par

∀w ∈ K(u), (J 0 (u), w) ≥ 0.
Comme K(u) est un espace vectoriel, −w ∈ K(u) lorsque w ∈ K(u), ce qui se traduit
par

∀w ∈ K(u), (J 0 (u), w) = 0.
Ainsi J 0 (u) est dans l’espace vectoriel orthogonal à F ⊥ , c’est-à-dire F , et l’égalité du
théorème est vraie.
On peut aussi le vérifier comme suit. Il existe des scalaires λj et un vecteur r,
orthogonal à tous les Fj0 (u), tels que J 0 (u) = − m 0
P
j=1 λj Fj (u) + r. Alors r ∈ K(u) et
0
(J (u), r) = 0, ce qui s’écrit (r, r) = 0 soit r = 0.
26 CHAPTER 2. EULER-LEGENDRE

Un travail identique peut être fait pour les contraintes inégalités. On suppose donc
F (u) ≤ 0 une contrainte donnée de V dans IR. Soit u ∈ K, vérifiant ainsi F (u) ≤ 0.
Une direction w de K(u) est alors telle que F (u + εw) ≤ 0 pour ε assez petit, soit
F (u) + ε(F 0 (u), w) + o(εw) ≤ 0.
Deux cas sont alors à envisager:
• soit F (u) < 0, auquel cas, dès que ε est assez petit, tout élément w est admissible.
La contrainte F (u) ≤ 0 n’ajoute donc pas de condition dans le théorème 2.4, la
condition nécessaire est donc l’égalité d’Euler J 0 (u) = 0 qui provient de (J 0 (u), w) ≥
0∀w ∈ K(u). On dit pour cette raison que la contrainte est inactive (on dira aussi de
temps en temps insaturée).
• soit F (u) = 0, auquel cas, comme ε > 0, il faut et il suffit, dans le cas F 0 (u) 6= 0,
que (F 0 (u), w) ≤ 0.
On note tout de suite que si (F 0 (u), w) < 0, alors il est clair que, pour ε assez petit,
F (u + εw) = ε(F 0 (u), w) + o(ε) < 0. Le problème se pose lorsque (F 0 (u), w) = 0 pour
trouver un élément de l’espace des contraintes. On doit donc introduire une notion
de plus grande régularité des contraintes.
Par exemple la condition F 0 (u) 6= 0 est assurée lorsqu’il existe w tel que (F 0 (u), w) <
0.
D’autre part, lorsqu’il y a plusieurs contraintes inégalités, on veut pouvoir montrer
que l’ensemble des directions admissibles n’est pas vide.
Pour cela, il faut trouver un w0 tels que, pour toutes les contraintes Fj saturées,
on a (Fj0 (u), w0 ) ≤ 0.
Cette condition n’est pas assez restrictive. En effet, la définition des directions ad-
missibles w conduit à la relation (Fj0 (u), w) ≤ 0. En revanche, si on ne peut trouver un
w0 que dans le cas où il existe un couple (j1 , j2 ) tels que (Fj01 (u), w0 ) = (Fj02 (u), w0 ) =
0, on pourrait se trouver dans la situation où les deux hypersurfaces Fj1 ≤ 0 et
Fj2 ≤ 0 sont tangentes en u, de vecteur normal w0 , et (par exemple) de concavité
stricte opposée (exemple 2):
Exemple 2

Dans ce cas, l’intersection des contraintes Fj1 ≤ 0 et Fj2 ≤ 0 est réduite à {u}, et
on ne peut plus parler de direction admissible.
Une condition pour que l’ensemble des directions admissibles soit non vide est
alors la condition:
Il existe w0 tel que, ∀j, (Fj (u), w0 ) < 0.
Cette condition est peu utilisable, car trop restrictive; en particulier une contrainte
affine pourra donner une direction admissible avec uniquement l’égalité. On utilise
alors plutôt la condition suivante:
Il existe w0 tel que ∀j, (Fj (u), w0 ) < 0 (contraintes non affines) et (Fj0 (u), w0 ) = 0
si la contrainte est affine, car on sait que dans ce cas l’intersection entre le demi
2.4. MULTIPLICATEURS DE LAGRANGE 27

hyperplan défini par la contrainte affine et les autres conditions est non vide.
Enfin, on élimine grâce à cela la condition d’indépendance des (Fj0 (u)) que l’on avait
utilisé pour caractériser les directions admissibles (qui est non pas automatique, mais
inutile: voir exemple 3). Exemple 3

Cette étude induit une définition de contraintes qualifiées, qui est une hypothèse
technique mais qui est l’hypothèse la plus classique en théorie des multiplicateurs de
Lagrange:

Définition 2.6 Soit K = {u, Fj (u) ≤ 0, j = 1..m}.


• On dit qu’une contrainte Fj est active si Fj (u) = 0, et elle est inactive si Fj (u) <
0. On note I(u) l’ensemble des indices des contraintes actives.
• On dit que l’ensemble des contraintes (Fj ) est qualifié si il existe w0 ∈ V tel que
pour tout j ∈ I(u) (pour les contraintes actives), (Fi0 (u), w0 ) ≤ 0, et (Fj0 (u), w0 ) = 0
uniquement pour Fj affine.

Commençons par ranger les contraintes actives affines pour j ∈ I 0 (u). On prend
w0 dans l’orthogonal de l’espace vectoriel F0 engendré par les Fj0 (u), j ∈ I 0 (u), qui est
indépendant de u. Il suffit alors de voir que, pour tout w0 ∈ F0 et pour tout j ∈ I 0 (u),
on a Fj (u + w0 ) = Fj (u) = 0. Il suffit alors de regarder, pour les autres conditions,
(j ∈ I(u) − I 0 (u)), (Fj0 (u), w0 ) et K(u) est non vide lorsque w0 existe.
Une notion moins restrictive mais plus abstraite est la notion de contraintes
qualifiables:

Définition 2.7 On dit que les contraintes inégalités {Fj (u) ≤ 0} sont qualifiables en
u si

K(u) = {w, (Fj0 (u), w) ≤ 0 pour j ∈ I(u)}.

On a alors le lemme suivant

Lemme 2.3 On suppose que les contraintes Fj , 1 ≤ j ≤ m, sont qualifiées en u ∈ K.


Alors elles sont qualifiables en u.

La preuve de ce lemme s’appuie sur l’existence de w0 pour la démonstration de la réciproque;


en effet l’implication directe est une conséquence de la dérivabilité et du fait de faire tendre
en vers 0.
On considère donc w dans {w ∈ V, (Fj0 (u), w) ≤ 0∀j ∈ I(u)}, et on forme, pour tout ε
et pour tout δ positif fixé u + ε(w + δw0 ). Pour ε assez petit, par continuité de Fj pour
j∈/ I(u), Fj (u + ε(w + δw0 )) < 0. D’autre part, pour j ∈ I 0 (u), on a Fj (u + ε(w + δw0 )) =
Fj (u) + ε(Fj0 (u), w + δw0 )) = ε(Fj0 (u), w) ≤ 0. Enfin, pour j ∈ I(u) − I 0 (u), il vient Fj (u +
ε(w + δw0 )) = Fj (u) + ε(Fj0 (u), w + δw0 )) + o(ε). Comme Fj (u) = 0, (Fi0 (u), w0 ) < 0 et
(Fj0 (u), w) ≤ 0, on trouve
28 CHAPTER 2. EULER-LEGENDRE

Fj (u + ε(w + δw0 )) ≤ δε(Fj0 (u), w0 ) + o(ε).


Le second membre est strictement négatif lorsque ε tend vers 0, car (Fj0 (u), w0 ) et o(ε)/ε tend
vers 0. Le lemme est démontré.

Théorème 2.6 Sous l’hypothèse que J est dérivable, que les Fj sont dérivables, et
que, en u, les contraintes sont qualifiables, pour que u soit une solution de (2.2.4), il
faut qu’il existe λ1 , ...λm ≥ 0 tels que λj = 0 pour j ∈ {1, .., m} − I(u) et
i=m
0
λi Fi0 (u) = 0.
X
J (u) +
i=1

Remarquons que si on considère l’ensemble des contraintes égalités comme l’ensemble


de toutes les contraintes inégalités (Fj (u) = 0, 1 ≤ j ≤ m équivaut à Fj (u) ≤
0, −Fj (u) ≤ 0), toutes les contraintes sont actives, car si u est tel que Fj (u) < 0,
alors −Fj (u) > 0 donc (bien sûr) u n’est pas dans l’ensemble!!. On écrit la con-
dition sur les multiplicateurs de Lagrange λj ≥ 0, µj ≥ 0, J 0 (u) + j=m 0
P
j=1 λj Fj (u) +
Pj=m 0 0 P 0
j=1 µj (−Fj (u)) = 0, J (u) + j pj Fj (u) = 0 avec pj = λj − µj ∈ IR.
Le théorème 2.6 est une conséquence simple du lemme suivant, dit de Farkas, et
de la représentation des directions admissibles du lemme 2.3. On applique alors le
théorème 2.4 pour en déduire l’existence des multiplicateurs de Lagrange positifs.

Lemme 2.4 (Farkas)


Soit K l’intersection des demi hyperplans orthogonaux à aj , 1 ≤ j ≤ m, K =
{(aj , v) ≤ 0∀j}.

∀v ∈ K, (p, v) ≥ 0 ⇒ ∃(λ1 , ...λm ) ∈ (IR+ )m , v = −


X
λi ai .
P
On définit B = {− λi ai , 1 ≤ i ≤ M }. Nous démontrerons que B est un convexe
fermé. Admettons le pour l’instant. On peut alors appliquer la notion de projection
sur un convexe fermé non vide. On suppose donc que p0 vérifie les hypothèses du
lemme de Farkas et que p0 n’appartient pas à B. On montre que la projection p̃ de p0
sur B est égale à p0 , d’où contradiction. On trouve, de ||p0 − p̃||2 ≥ ||p0 − w||2 , w ∈ B,
que ∀w ∈ B, (p̃ − p0 , w − p̃) ≤ 0. Dans cette inégalité, on choisit alors w = −λai et on
fait tendre λ vers +∞. Il reste donc (ai , p0 − p̃) ≥ 0 pour tout i. Ceci implique que
p̃−p0 est dans K. De l’inégalité 0 ≤ (p0 , p̃−p0 ) = −|p0 − p̃|2 +(p0 − p̃, 0− p̃) ≤ −|p0 − p̃|2
(car 0 ∈ B) on déduit que p0 = p̃. On a montré que p0 ∈ B, contradiction.
Il reste à démontrer que B est fermé convexe. Il est convexe de manière évidente
(pm considère 0 ≤ µ ≤ 1, alors µλ1i +(1−µ)λ2i ≥ 0, et donc il existe une représentation
de µv1 +(1−µ)v2 qui soit une combinaison linéaire à coefficients négatifs). En revanche
le caractère fermé est plus difficile à obtenir.
Si la famille (ai ) est libre, la matrice (ai .aj ) est symétrique définie positive. On
note ||a|| le max des normes des ai et α la plus petite valeur propre de la matrice. On
obtient λi ai .aj = −[Link] , donc il vient |λi | ≤ α−1 ||v||||a||. Si la suite vn d’éléments
P

de B converge vers v, on peut identifier les λni associés, et les suites λni sont bornées.
Quitte à faire des extractions de suite en cascade, il existe une sous-suite convergente
ψ(n)
λi , qui converge vers des valeurs positives λi , donc v = − λi ai . La limite est
P

donc dans B.
2.4. MULTIPLICATEURS DE LAGRANGE 29

Deuxième cas, si la famille est linéairement dépendante, il existe µ1 , ..µm tels que
P
µi ai = 0 (avec au moins un des coefficients qui est positif), et donc un élément
de B s’écrit v = − (λi + tµi )ai . Il faut montrer que pour une valeur de t ≤ 0,
P

cette somme est une combinaison à coefficients positifs de m − 1 termes, et on se


sera ramené à une famille avec moins d’éléments pour tout t. Pour t = 0, tous les
coefficients sont positifs ou nuls, donc de deux choses l’une: ou bien µi1 ≤ 0, auquel
cas µi1 t ≥ 0 et le coefficient correspondant ne s’annulera pas si λi1 6= 0, ou bien
λ
µi1 > 0, ce qui implique que t = − µii1 est une valeur où le coefficient s’annule. On
1
prend alors t0 = mini,µi >0 µλii et la combinaison précédente a un coefficient qui s’annule
pour t = −t0 . Cette construction est valable pour chaque élément de B.
On considère alors une suite xn d’éléments de B, suite de Cauchy dans l’espace
engendré par les ai , espace vectoriel de dimension finie. Elle s’écrit − λni ai . Par la
P

construction ci-dessus, pour chaque n, il existe i(n) tel que − λi ai = − i6=i(n) λ̃ni ai .
P n P

On a donc enlevé chaque fois un élément de la famille (ai ). On note Ii = {n, i(n) = i}.
L’union des Ii est l’ensemble des entiers naturels, donc il existe au moins un i0 tel que
φ(m)
Ii est infini, soit Ii = {φ(m), m = 0, 1..+∞}. La suite extraite xφ(n) = − i6=i0 λ̃i
P
ai
est une suite qui correspond à la famille (ai )i6=i0 . Si cette famille est libre, on s’est
ramené au cas précédent, et la suite extraite xφ(n) converge vers un élément de B.
Comme la suite est de Cauchy, elle converge vers x et la limite de toute suite extraite
est x.
Si cette famille est liée, on reprend l’argument avec la suite xφ(n) . Comme la famille
n’est pas identiquement nulle (sinon B est réduit à {0} et on n’a rien à démontrer),
alors au bout d’un nombre fini d’itérations, on aboutit à une famille libre (aj ) et la
démonstration est finie puisque la limite est dans B pour cette suite extraite.
On a donc montré que B est fermé, donc on peut utiliser le théorème de projection
sur un convexe fermé.

Remarque: inégalités de Hardy. On peut obtenir en exercice l’inégalité

1 i=n 1 1 i=n 1
|xi |p ) p ≤ ( |xi |q ) q , q ≥ p
X X
(
n i=1 n i=1
En effet, on suppose la contrainte |xi |q = 1 et on cherche à minimiser J(x) =
P

|xi | . On écrit, avec le multiplicateur de Lagrange λ, yi = |xi | pyip−1 + λqyiq−1 = 0,


p
P

sous la contrainte yiq = 1. On trouve alors yiq−p = − λq p


P
ou yi = 0. Soit k le nombre
1
de valeurs de yi non nulles. Alors elles sont égales, donc yi = ( k1 ) q , ce qui donne
p p−q
J(y) = k( k1 ) q = k q . Lorsque q < p, la plus petite valeur est atteinte pour k = 1,
et le minimum est atteint lorsque l’un seulement est non nul. Lorsque q ≥ p, la plus
petite valeur est atteinte lorsque tous les yi sont égaux, et la plus petite valeur de J
p−q q−p P
est n q . On en déduit yip ≥ n q , yip = 1 ainsi, en notant zi = Pyip 1 , tel que
P
( yi ) p
zip
P
= 1, on a le résultat.
30 CHAPTER 2. EULER-LEGENDRE
Chapter 3

Calcul des variations, lagrangien,


hamiltonien.

3.1 Introduction et un peu d’histoire


Dans cette section, qui est à l’origine des théories des extrema et de calcul des vari-
ations, on considère des fonctions d’un intervalle de IR dans un espace de Hilbert H.
Comme dans l’exemple 8 de l’introduction, il peut s’agir de la trajectoire d’une par-
ticule, le paramètre important variant dans un intervalle de IR étant le temps. Il peut
aussi s’agir de l’équation d’une courbe dans le plan Oxy, sous la forme y = y(x). Les
notations employées sont extrêmement variées, et nous les mettrons en relation. Alors
on minimise un critère J, qui s’appelle une intégrale d’action, sous une contrainte,
qui peut être les points origine et destination de la courbe, ou une contrainte de type
commande sous la forme inf J(x, u) où x est solution de ẋ = f (x, u, t). Il peut s’agir
aussi d’une contrainte intégrale, comme une contrainte sur la longueur de la courbe
1
y = y(x): l = xx12 (1 + (y 0 )2 ) 2 dx. Les résultats de ce chapitre sont très anciens; ils
R

forment la base du calcul classique des variations. Les méthodes que nous verrons
montrent en quel sens le mot “variations” doit être entendu.
En 1696, Leibniz a résolu le problème de la brachistochrone. Il faut trouver
la courbe qui réalise le minimum du temps de parcours entre deux points (x1 , y1 ) et
(x2 , y2 ) dans un même plan vertical lorsque le point matériel glissant est soumis à
la force de pesanteur. Ce problème avait été posé par J. Bernoulli1 . Ce problème
peut être facilement résolu car les contraintes peuvent être intégrées à une intégrale
première. Cependant, après sa publication, des problèmes plus géneraux ont été
énoncés sous le nom général de problèmes isopérimétriques, et on peut les résumer
en “quelles sont les courbes de longueur donnée qui entoure la plus grande surface?”.
Le premier de ces problèmes est légendaire, comme nous l’avons rappelé dans l’exemple
11 (Problème de Didon). En effet, Didon, descendante des Troyens et fuyant sa cité
après la chute de Troie, a demandé à Jarbas, roi des terres africaines, la terre que pou-
vait recouvrir une peau d’un bœuf. Ce roi, ne pensant pas à une quelconque astuce,
accepta et Didon découpa la peau d’un bœuf en de fines lanières, qu’elle attacha entre
elles (et si on suppose que la largeur de la lanière était d’un millimètre, la longueur
obtenue était donc de 1000S). Elle forma la plus grande surface enclose par cette
lanière s’appuyant sur la côte méditerranéenne, et fonda Carthage, la grande rivale de
1
Problema novum, ad cujus solitionem mathematici invitantur

31
32 CHAPTER 3. CALCUL DES VARIATIONS

Rome2 .
J. Bernoulli demanda à un de ses élèves, le mathématicien L. Euler, de résoudre ce
problème, ce qu’il fit en 17443 , par une méthode de série, suivi en 1755 par Lagrange,
qui inventa la méthode classique de calcul des variations. Continuant ses travaux,
Lagrange introduisit ses multiplicateurs en 1797.

3.2 Problèmes isopérimétriques


3.2.1 Egalité d’Euler-Lagrange
On considère ici y(x) ∈ C 1 ([x1 , x2 ]), y(x1 ) = y1 , y(x2 ) = y2 et on cherche à minimiser:
Z x2
I(y) = f (x, y, y 0 )dx
x1

où f est une fonction de classe C 2 (IR × H × H).


On suppose connue une famille de fonctions y(x, ε) telle que y(x1 , ε) = y1 , y(x2 , ε) =
y2 et y(x, 0) = y0 (x), solution à trouver du problème de minimisation. On suppose
y ∈ C 2 ([x1 , x2 ] × [0, ε0 ]). On introduit la première variation de y:

∂y
(x, ε)
η(x, ε) =
∂ε
(ce qui explique le nom de calcul des variations). On se ramène donc à une fonction
de ε:

J(ε) = I(y(., ε)).


Une condition nécessaire pour que y0 soit une solution du problème de minimisation
est la suivante:

J 0 (0) = 0.
Par application du théorème de dérivation sous le signe intégral, et en remarquant
∂ ∂y
que comme y est de classe C 2 , alors ∂ε

(y 0 (x, ε)) = ∂x ( ∂ε (x, ε)) = η 0 (x, ε), on obtient

Z x2
(∂y f (x, y0 (x), y00 (x)).η(x, 0) + ∂y0 f (x, y0 (x), y00 (x)).η 0 (x, 0))dx = 0. (3.2.1)
x1

Notons dans cette égalité comme dans l’écriture de f que l’on a considéré le terme y 0
comme une variable indépendante de y et non comme la dérivée de y par rapport à x.
On utilise alors la relation y(x1 , ε) = y1 , de sorte que, en dérivant par rapport à
ε, η(x1 , ε) = 0. De même, η(x2 , ε) = 0. On peut alors utiliser ces conditions de bord
pour effectuer une intégration par parties:

Z x2 Z x2 d
∂y0 f (x, y0 (x), y00 (x)).η 0 (x, 0)dx = − (∂y0 f (x, y0 (x), y00 (x))).η(x, 0)dx.
x1 x1 dx
2
Delenda Cartago est! (Caton)
3
Methodus inveniendi lineas curvas maximi minimive proprietate gaudentes, sive solutio problema-
tis isoperimetrici latissimo sensu accepti
3.2. PROBLÈMES ISOPÉRIMÉTRIQUES 33

En écrivant l’égalité (3.2.1) et en vérifiant qu’elle est vraie quelle que soit la fonction
η(x, 0) nulle en x1 et en x2 (pour s’en convaincre, il suffit d’écrire y(x, ε) = y0 (x) +
εg(x), où g est nulle aux deux bouts), on trouve l’équation d’Euler-Lagrange:

d ∂f ∂f
( 0 (x, y0 (x), y00 (x))) = (x, y0 (x), y00 (x)). (3.2.2)
dx ∂y ∂y
Bien sûr, cette équation s’obtient facilement en utilisant le théorème 2.4 démontré
dans le chapitre 2. Nous allons l’établir de deux façons distinctes. Avant cela, cepen-
dant, donnons un résultat important lorsque f ne dépend que des variables de position
y et y 0 :

Lemme 3.1 Lorsque f ne dépend pas de x, une solution des équations d’Euler vérifie
l’égalité suivante:

d
y00 ∂y0 f (y0 , y00 ) − f (y0 , y00 )) = 0.

dx
Cette égalité donne une intégrale première.

La démonstration intuitive la plus facile est de voir comment varie l’action lorsque
l’intégrale d’action est minimale, soit
d 0
dx (f (y0 , y0 )) = ∂y f (y0 , y00 )y00 + ∂y0 f (y0 , y00 )y000
d
= dx (∂y0 f (y0 , y00 ))y00 + ∂y0 f (y0 , y00 )y000
d
= dx (y00 ∂y0 f (y0 , y00 )).

3.2.2 Dérivée de Fréchet et de Gâteaux, inégalité d’Euler-Lagrange


Dans un premier temps, en vue d’appliquer le théorème 2.4 , nous allons calculer la
dérivée de Fréchet (qui existe puisque f est de classe C 2 ) de J. En fait, nous allons
calculer deux objets:
• le produit scalaire (J 0 (y0 ), w) pour w ∈ K(y0 ),
• la distribution J 0 (y0 ).
Le cône des directions admissibles K(y0 ) ⊂ H 1 (]x1 , x2 [) est l’ensemble des w tels
qu’il existe wn et en > 0 tels que en → 0 et wn → w et (y0 +en wn ) est dans l’espace des
contraintes, soit y0 (x1 ) + en wn (x1 ) = y1 = y0 (x1 ) et y0 (x2 ) + en wn (x2 ) = y2 = y0 (x2 ).
Comme en > 0, on trouve que wn (x1 ) = wn (x2 ) = 0. Comme les fonctions H 1 (]x1 , x2 [)
sont continues aux bords x1 et x2 , et que l’application trace est continue, on en déduit
que w(x1 ) = w(x2 ) = 0. Réciproquement, si w(x1 ) = w(x2 ) = 0, on construit y0 + n1 w
qui vérifie bien les contraintes.

K(y0 ) = H01 ([x1 , x2 ]).


Alors le calcul de (J 0 (y0 ), w), qui est le calcul de la limite

J(y0 + εw) − J(y0 )


lim
ε→0 ε
conduit exactement à

Z x2 ∂f d ∂f
1
∀w ∈ H ([x0 , x1 ]), ( (x, y0 , y00 ) − ( (x, y0 (x), y00 (x))))w(x)dx ≥ 0
x1 ∂y dx ∂y 0
34 CHAPTER 3. CALCUL DES VARIATIONS

Le cône des directions admissibles est un espace vectoriel, donc cette inégalité devient
une égalité, et cette égalité entraine l’équation d’Euler-Lagrange.
D’autre part, on vérifie aisément que, pour w ∈ H 1 ([x1 , x2 ]), après intégration par
parties, on trouve

(J 0 (y0 ), w) = xx12 ( ∂f 0 d ∂f 0
R
∂y (x, y0 , y0 ) − dx ( ∂y 0 (x, y0 (x), y0 (x))))w(x)dx
∂f ∂f
+ ∂y0 (x2 , y0 (x2 ), y00 (x2 ))w(x2 ) − ∂y0 (x1 , y0 (x1 ), y00 (x1 ))w(x1 ).

En utilisant la distribution de Dirac (δx1 , w) = w(x1 ), on trouve

J 0 (y0 ) = ∂f 0 d ∂f 0
∂y (x, y0 , y0 ) − dx [ ∂y 0 (x, y0 (x), y0 (x))]
∂f ∂f
+ ∂y0 (x2 , y0 (x2 ), y00 (x2 ))δx2 − ∂y0 (x1 , y0 (x1 ), y00 (x1 ))δx1 .

L’emploi des multiplicateurs de Lagrange pour des contraintes égalités, qui sont re-
spectivement F1 (y) = y(x1 ) − y1 et F2 (y) = y(x2 ) − y2 , ce qui donne F10 (y0 ) = δx1 et
F20 (y0 ) = δx2 , conduit à

J 0 (y0 ) + λ1 F10 (y0 ) + λ2 F20 (y0 ) = 0


(notons ici le rétablissement des signes permettant d’avoir la même formulation pour
les contraintes égalité et inégalité). On trouve alors l’équation d’Euler-Lagrange et les
égalités, qui donnent les multiplicateurs de Lagrange:

∂f ∂f
λ1 = 0
(x1 , y0 (x1 ), y00 (x1 )), λ2 = − 0 (x2 , y0 (x2 ), y00 (x2 )). (3.2.3)
∂y ∂y
Cette égalité aura une très jolie interprétation ci-dessous.

3.2.3 Egalité d’Euler-Lagrange pour une contrainte intégrale


Dans cette section, nous cherchons la solution de
Z x2
inf f (x, y, y 0 )dx
x1
R x2
sous les contraintes x1 g(x, y, y 0 )dx = C, y(x1 ) = y1 , y(x2 ) = y2 . Le cas modèle est le
1
problème de Didon: f (x, y, y 0 ) = y et g(x, y, y 0 ) = (1 + (y 0 )2 ) 2 .
Une méthode usuelle classique consiste à employer une double variation, c’est-à-
dire à tenir compte de la contrainte xx12 g(x, y, y 0 )dx = C en ajoutant à une première
R

variation y0 + εη1 une deuxième variation faite pour la contrebalancer:

y0 + ε1 η1 + ε2 η2 .
On introduit dans η1 et η2 lesR contraintes d’extrémité Rsous la forme ηi (xj ) = 0,
i, j = 1, [Link] écrit alors que I = xx12 f (x, y, y 0 )dx et C = xx12 g(x, y, y 0 )dx sont deux
fonctions de ε1 et de ε2 , et on forme
!
∂I ∂I
∆(ε1 , ε2 ) = ∂ε1 ∂ε2 .
∂C ∂C
∂ε1 ∂ε2

Ce déterminant doit être nul pour y0 , solution, en ε1 , ε2 . En effet, si ∆ 6= 0, il est


clair que le couple (I, C) ne stationne pas, alors que par hypotèse C est constant
3.2. PROBLÈMES ISOPÉRIMÉTRIQUES 35

donc stationne et I stationne (noter l’emploi du mot “stationne”). Par intégration


par parties, on trouve

R x2 d
R x2 d
!
(∂ f − dx (∂y f ))η1 dx
0 (∂ f − dx (∂y f ))η2 dx
0
∆(ε1 , ε2 ) = Rxx12 y d Rxx12 y d .
x1 (∂y g − dx (∂y g))η1 dx
0
x1 (∂y g − dx (∂y g))η2 dx
0

On note les deux réels λ1 = xx12 (∂y f − dx


d
(∂y0 f ))η2 dx et λ2 = xx12 (∂y g− dx
d
R R
(∂y0 g))η2 dx.
Si les deux réels sont nuls pour tous les choix de η2 , cela veut dire que f et g vérifient
tous deux l’équation d’Euler. Nous verrons ce cas plus tard. Sinon, on note, pour un
η2 donné non nul, que, pour tout η1 :
Z x2 d d
[λ2 (∂y f − (∂y0 f )) − λ1 (∂y g − (∂y0 g))]η1 dx = 0
x1 dx dx
ce qui donne l’existence d’un h = f + λg tel que h vérifie l’équation d’Euler. Lorsque
f et g vérifient toutes deux l’équation d’Euler, alors cette équation est vérifiée quel
que soit λ.
A l’évidence, cette méthode est celle que l’on emploie pour les multiplicateurs de
Lagrange. On écrit ainsi l’existence de λ, λ1 , λ2 tels que

J 0 (y0 ) + λC 0 (y0 ) + λ1 F10 (y0 ) + λ2 F20 (y0 ) = 0

(par application du théorème 2.5). Ainsi on trouve immédiatement, sans avoir besoin
de considérer des variations qui se compensent:

d d
∂y f − dx (∂y0 f ) + λ(∂y g − dx (∂y0 g))
+(λ1 − ∂y f (x1 , y1 , y0 (x1 )) − λ∂y g(x1 , y1 , y00 (x1 )))δx1
0

+(λ2 + ∂y f (x2 , y2 , y00 (x2 )) + λ∂y g(x2 , y2 , y00 (x2 )))δx2 = 0.


1
L’écriture de l’équation d’Euler pour −y + λ(1 + (y 0 )2 ) 2 donne

d y0
1= (λ )
dx (1 + (y 0 )2 ) 12

soit encore

y0 x
1 = .
(1 + (y 0 )2 ) 2 λ

On obtient y 0 = ± x
1 , dont la solution s’écrit
(λ2 −x2 ) 2
1
y(x) = y(x1 ) ± (λ2 − x2 ) 2 .
1 1
On suppose y1 < y2 , donc y(x) = y1 + (λ2 − x21 ) 2 − (λ2 − x2 ) 2 car y(x1 ) = y1 . On
1 1
identifie λ en écrivant y(x2 ) = y2 , soit (λ − x22 ) 2 − (λ − x21 ) 2 = y1 − y2 , ce qui permet
1 1
de trouver les valeurs de (λ2 − x22 ) 2 et (λ2 − x21 ) 2 . Lorsque y1 = y2 = 0, on trouve un
demi-cercle de rayon R et l’aire est πR2 , correspondant à R = 1000S 2π .
36 CHAPTER 3. CALCUL DES VARIATIONS

3.2.4 Les problèmes de Bolza


On peut aussi vouloir inclure les contraintes dans la fonctionnelle à minimiser. La
classe de problèmes correspondants s’écrit
Z x2
inf[ f (x, y, y 0 )dx + l(y(x1 ), y(x2 ))].
x1

Il est clair que l’on obtient l’équation d’Euler:

d ∂f ∂f
( (x, y0 , y00 )) = (x, y0 , y00 )
dx ∂y 0 ∂y
et les équations sur les contraintes

∂u1 l(y(x1 ), y(x2 )) = ∂y0 f (x1 , y(x1 ), y 0 (x1 ))

∂u2 l(y(x1 ), y(x2 )) = −∂y0 f (x2 , y(x2 ), y 0 (x2 )).


Prenons un exemple simple pour le problème de Bolza:

1
lε (u1 , u2 ) = [(u1 − y1 )2 + (u2 − y2 )2 ].
ε
Soit y0 la solution du problème de minimisation de J(y) = xx12 f (x, y, y 0 )dx avec
R

les contraintes y(x1 ) = y1 , y(x2 ) = y2 . Si K = {y, y(x1 ) = y1 , y(x2 ) = y2 }, alors, pour


tout y ∈ K, J(y) + lε (y(x1 ) − y1 , y(x2 ) − y2 ) = J(y). On utilise alors

inf J(y) + lε (y(x1 ) − y1 , y(x2 ) − y2 ) ≤ inf J(y) = J(y0 ).


y∈H 1 y∈K

On note la solution du problème de Bolza yε . Ainsi

J(yε ) + lε (yε (x1 ) − y1 , yε (x2 ) − y2 ) ≤ J(y0 )


Ainsi J(yε ) est majoré. De plus, si on suppose f positive, lε (yε (x1 ) − y1 , yε (x2 ) − y2 )
est majorée par J(y0 ). On en déduit que la suite (yε (xj )) converge vers yj , j = 1..2.
En revanche, on ne sait rien sur la convergence de la suite yε dans ce cadre là. Il faut
se reporter au chapitre concernant le programme convexe pour comprendre et obtenir
des résultats convaincants; cela s’appellera la pénalisation des contraintes.

3.3 Les équations d’Euler pour les problèmes de la mécanique


On considère un problème de la mécanique du point, ainsi on introduit les coordonnées
(x, y, z) et on veut retrouver mẌ = f~ lorsque m est la masse de la particule, X =
(x, y, z) et f~ = −∇U est la force dérivant d’un potentiel. Analysons d’abord le
phénomène. Il est classique de reconnaitre, en multipliant les équations par Ẋ et en
inégrant sur 0, T , que

1 1
m(Ẋ(T ))2 + U (X(T )) = m(Ẋ(0))2 + U (X(0)).
2 2
Cette égalité s’écrit comme la conservation de l’énergie. Ce n’est pas celle ci que l’on
souhaite obtenir, mais on cherche à interpréter le problème comme la solution d’une
3.4. FORMULATION HAMILTONIENNE 37

équation d’Euler. Il faut donc que mẌ = f~ s’écrive d ∂f


dt ( ∂ Ẋ ) = ∂f
∂X . Pour cela, il serait
∂f ∂f
simple d’avoir ∂ Ẋ
= mẊ et ∂X = −∇U . Une solution à variables séparées est alors

1
f (X, Ẋ) = m(Ẋ)2 − U (X).
2
On vérifie que l’équation d’Euler dans ce cas est bien l’équation dite loi de Newton.
On en déduit que
La solution des équations du mouvement d’une particule dans un champ
de forces conservatif, c’est-à-dire dérivant d’un potentiel, est la fonction
qui minimise l’intégrale d’action
Z t1 1
Z t1
A(X) = [ m(Ẋ(t))2 − U (X(t))]dt = (T − U )dt.
t0 2 t0

On a noté ici l’énergie cinétique T = 21 m(Ẋ(t))2 .


Soit L(q, q̇) = T (q̇) − U (q). Le changement de notation ici illustre la façon dont les
mécaniciens notent ce problème. Si ξ est un élément de l’espace H 1 (]t0 , t1 [), le calcul
˙ − L(q0 , q̇0 )] conduit à l’expression
de 1ε [L(q0 + εξ, q̇0 + εξ)

d
L0 (q0 , q̇0 ) = ∂q L(q0 , q̇0 ) − [∂q̇ L(q0 , q̇0 )] + ∂q̇ L(q0 , q̇0 )(t1 )δt1 − ∂q̇ L(q0 , q̇0 )(t0 )δt0 .
dt
La théorie des multiplicateurs de Lagrange avec q(t0 ) = q0 , q(t1 ) = q1 donne alors
immédiatement le système
d


 ∂q L(q0 , q̇0 ) − dt [∂q̇ L(q0 , q̇0 )] = 0( équation d’Euler)


q0 (t0 ) = q0 , q0 (t1 ) = q1 ( contraintes actives)



λ1 = −∂q̇ L(q0 , q̇0 )(t1 )

λ0 = ∂q̇ L(q0 , q̇0 )(t0 )
L’écriture des deux premières égalités permet d’avoir les conditions d’extrémité et
l’équation de Newton. Les deux dernières donnent les multiplicateurs de Lagrange.
On obtient

λ1 = −mq̇0 (t1 ), λ0 = mq̇0 (t0 ).


On interprète alors les multiplicateurs de Lagrange comme les quantités de mou-
vement aux extrémités de la courbe. On verra que la quantité de mouvement (ou
l’impulsion) joue un rôle particulier ci-dessous.

3.4 Formulation hamiltonienne


On écrit dans ce cas l’action L(q, q̇). On sait que la quantité q̇0 ∂q̇ L(q0 , q̇0 )−L(q0 , q̇0 ) se
conserve. Généralisons en étudiant la quantité q̇(t)p(t) − L(q(t), q̇(t)). Cette quantité
a pour dérivée

q̈(p − ∂q̇ L) + q̇(ṗ − ∂q L).


On voit que cette quantité est nulle lorsque p = ∂q̇ L et ṗ = ∂q L, ce qui implique
que q est solution de l’équation d’Euler. D’autre part, la maximisation de q̃p − L(q, q̃)
38 CHAPTER 3. CALCUL DES VARIATIONS

dans le cas L convexe en q̃ conduit à la première égalité p = ∂q̇ L(q, q̃), ce qui porte un
nom: transformation de Legendre. Revenant au cas où L dépend de t (car ceci n’est
pas essentiel pour cette partie de l’analyse), soit

H(t, q, p) = max(q̃p − L(t, q, q̃)).


Par définition, H est la transformée de Legendre de L lorsqu’elle existe, et on a le


résultat suivant:
“La transformée de Legendre de H est L.”
Dans le cas de la mécanique du point L(t, q, q̃) = 21 m(q̃)2 − U (q) ce qui donne
2
p = mq̃ et ainsi H(t, q, p) = 12 pm + U (q). Apparait dans cette égalité l’énergie qui est
l’hamiltonien, et la quantité de mouvement p qui est égale à mq̃.
On vérifie que si la matrice hessienne de L en q̃ au point (q, q̃) est définie positive
(au voisinage de (q0 , q̇0 )), l’équation p = ∂q̃ L(t, q, q̃) admet une solution unique par le
théorème des fonctions implicites, que l’on note Q(t, q, p). On vérifie alors

H(t, q, p) = pQ(q, p) − L(t, q, Q(q, p)).

On trouve alors les relations

∂q H(t, q, p) = (p − ∂q̃ L(t, q, Q(q, p))).∂q Q(t, q, p) − ∂q L(t, q, Q(q, p)) = −∂q L(t, q, Q(q, p))
∂p H(t, q, p) = Q(t, q, p) + (p − ∂q̃ L(t, q, Q(q, p))).∂p Q(t, q, p) = Q(t, q, p).

On remarque alors, par unicité de la solution de l’équation p = ∂q̃ L, que pour


p(t) = ∂L
∂ q̃ (t, q0 (t), q̇0 (t)), alors Q(t, q0 (t), p(t)) = q̇0 (t), soit

∂L
Q(t, q0 (t), (t, q0 (t), q̇0 (t))) = q̇0 (t).
∂ q̃
On en tire que, pour toute fonction q0 (t), on a l’identité

∂L
∂p H(t, q0 (t), (t, q0 (t), q̇0 (t))) = q̇0 (t).
∂ q̃
Maintenant, si q0 est solution de l’équation d’Euler, on trouve

d ∂L ∂L
( (t, q0 (t), q̇0 (t))) = (t, q0 (t), q̇0 (t)),
dt ∂ q̃ ∂q
soit

d ∂L ∂L
( (t, q0 (t), q̇0 (t))) = −∂q H(t, q0 (t), (t, q0 (t), q̇0 (t))).
dt ∂ q̃ ∂ q̃
On en déduit le système, appelé système hamiltonien:
dp ∂H
(
dt = − ∂q (t, q0 (t), p(t))
dq0 ∂H
dt = ∂p (t, q0 (t), p(t))

On a ainsi transformé l’équation d’Euler, du second ordre, en un système d’équation


du premier ordre, appelé système hamiltonien.
3.4. FORMULATION HAMILTONIENNE 39

Lorsque, de plus, L ne dépend pas de t, alors H ne dépend pas de t et on sait que


H(q0 (t), p(t)) = H(q0 (t0 ), p(t0 )). L’hamiltonien est une intégrale première du système
hamiltonien.
Réciproquement, soit H(t, q, p) l’hamiltonien associé à L(t, q, p) lorsque ∂q̃22 L >
0. La solution du système hamiltonien (q(t), p(t)) permet de construire q̇(t) par la
première équation du système hamiltonien, qui est q̇(t) = q̃(t), où q̃(t) est la solution
de p(t) = ∂q̃ L(t, q(t), q̃(t)) et la dexième équation permet de vérifier que

d
(∂q̃ L(t, q(t), q̇(t)) = ∂p L(t, q(t), q̇(t)).
dt
Soit L une action (un lagrangien) de la forme L(t, q(t), q̇(t)). Lorsque q(t) est une
fonction donnée, L est une fonction de t uniquement. Lorsque on veut considérer les
problèmes d’intégrale d’action, on se ramène à la fonctionnelle de IR × IRd × IRd dans
IR qui à (t, q, q̃) fait correspondre L(t, q, q̃).
On a démontré la proposition suivante, dans le cas où L est une fonction stricte-
ment convexe dans les variables (q, q̃):

Proposition 3.1 On introduit le hamiltonien, fonctionnelle sur IR × IRd × IRd , par

H(t, q, p) = max(pq̃ − L(t, q, q̃)).


Dire que le couple de fonctions de IR dans IRd (q0 (t), p0 (t)) est solution du système
hamiltonien
∂H

 q̇0 (t) =
 ∂p (t, q0 (t), p0 (t))
ṗ0 (t) = − ∂H
∂q (t, q0 (t), p0 (t))

p0 (0) = p0 , q0 (0) = q0

équivaut à dire que


la fonction q0 (t) est solution de l’équation d’Euler

d ∂L ∂L
( (t, q0 (t), q̇0 (t))) = (t, q0 (t), q̇0 (t))
dt ∂ q̃ ∂q
avec les conditions initiales q0 (0) = q0 , q̇0 (0) = q̃0 , où q̃0 est la solution de p0 =
∂L
∂ q̃ (t, q0 , q̃0 ).

Ce système hamiltonien est très couramment utilisé en optique, mais il faut modifier pour
cela la formulation de l’exemple 12 de l’introduction. En effet, l’équation d’Euler devient alors

d y 0 (x) 0 2 12 ∂y c
( 1 ) = −(1 + (y (x)) ) (3.4.4)
dx c(x, y(x))(1 + (y (x)) ) 2
0 2 c2
d’où on déduit

y”(x) 1 y 0 (x)
3 + 1 ∂x c = 1 .
c(x, y(x))(1 + (y 0 (x))2 ) 2 c2 (1 + (y 0 (x))2 ) 2 c2 (1 + (y 0 (x))2 ) 2
On en déduit donc

d 1 1 ∂x c
( = −(1 + (y 0 (x))2 ) 2 2 . (3.4.5)
dx c(x, y(x))(1 + (y 0 (x))2 ) 12 c
40 CHAPTER 3. CALCUL DES VARIATIONS

~
t
Les deux relations (3.4.5) et (3.4.4) expriment que c a sa dérivée qui suit le gradient de
1
c , les rayons suivent le gradient de l’indice.
1
(1+(y 0 )2 ) 2
D’autre part, le hamiltonien équivalent au lagrangien c(x,y(x)) ne peut pas être calculé,
car le lagrangien n’est pas strictement convexe.
1
(1+(y 0 )2 ) 2
Pour se ramener à un lagrangien strictement convexe, on considère que le terme c(x,y(x))
est un double produit, donc on a
1 1
(1 + (y 0 )2 ) 2 1 w (1 + (y 0 )2 ) 2 2 w2 1 + (y 0 )2
= [−( − ) + 2 + ].
c(x, y(x)) 2 c(x, y) w c w2
q̇12 +q̇22 w2
Nous allons faire le raisonnement sur Lw (q1 , q2 , q̇1 , q̇2 ) = w 2 + c2 (q1 ,q2 ) . En effet, Lw (q1 , q2 , q̇1 , q̇2 ) ≥
1
Lw0 (q1 , q2 , q̇1 , q̇2 ) pour w0 qui réalise le minimum en w, c’est à dire w02 = c(q̇12 + q̇22 ) 2 . Dans
ce cas on sait que d’une part
t2 t2 1
(q̇12 + q̇22 ) 2
Z Z
inf Lw (q1 , q2 , q̇1 , q̇2 )dt = inf dt
t1 t1 c(q1 , q2 )
et d’autre part
Z t2 Z t2
inf Lw (q1 , q2 , q̇1 , q̇2 )dt = inf Lw0 (q1 , q2 , q̇1 , q̇2 )dt
t1 t1

Ceci est une forme abstraite pour dire, dans le cas qui nous intéresse que
t2 1 t2
(q̇12 + q̇22 ) 2 1 q̇12 + q̇22
Z Z
inf dt = inf ( + 1)dt
t1 c(q1 , q2 ) 2 t1 c2 (q1 , q2 )
Pour ce nouveau lagrangien

1 ẋ2 + ẏ 2
L(x, y, ẋ, ẏ) = ( + 1)
2 c2
le hamiltonien est H(x, y, p, q) = 12 ((p2 + q 2 )c2 − 1). Ses courbes intégrales sont
 dx 2

 dyds = pc
2
ds = qc

dp 2 2
 ds = −c∂x c(p + q )

dq 2 2
ds = −c∂y c(p + q )

Il est constant sur les courbes bicaractéristiques. Si les données initiales sont telles que le
hamiltonien soit nul, on trouve que p2 +q 2 = c12 . On choisit le changement d’abscisse curviligne
donné par du = c(x(s), y(s))ds, alors

= 2 p2 1
 dx
 du

 (p +q ) 2
 dy
 q
du = 1
(p2 +q2 ) 2
 dp = ∂ 1
 xc
 du

dq
 1
du = ∂ y c.

Le vecteur d’onde suit les courbes intégrales du gradient d’indice. Ceci correspond à une
théorie d’optique géométrique, comme cela avait été vu ci-dessus .
Chapter 4

Programme convexe

4.1 Fonctions convexes


Nous voyons dans ce chapitre une application très importante des calculs précédents,
dans la droite ligne des exemples 1, 2, 5, 13, 14, 15. Il s’agit du cas où J est convexe et
où les contraintes sont convexes. Cette partie de l’analyse fonctionnelle est importante,
car dans ce cas les conditions nécessaires et les conditions suffisantes d’optimalité
deviennent des caractérisations des points d’extremum.
Nous avons déjà vu dans l’exemple que l’ensemble des points de minimum global
d’une fonctionnelle convexe forment un ensemble convexe. Nous allons préciser les
choses ici, par des définitions et par un résultat

Définition 4.1 Soit K un ensemble convexe non vide (c’est-à-dire vérifiant, pour
tout u, v dans K et tout réel β de [0, 1], βu + (1 − β)v ∈ K.) On dit que la fonction
J définie sur K est une fonction convexe si et seulement si on a

∀β ∈ [0, 1], ∀(u, v) ∈ K 2 , J(βu + (1 − β)v) ≤ βJ(u) + (1 − β)J(v).


La fonctionnelle J est strictement convexe si l’inégalité précédente est stricte pour
β ∈]0, 1[ et u 6= v.
La fonctionnelle J est dite α−convexe lorsque
u+v J(u) + J(v) α
J( )≤ − ||u − v||2
2 2 8
On peut définir un espace convexe simple à partir de J fonctionnelle convexe: il
s’appelle l’épigraphe.

Définition 4.2 On appelle épigraphe de J fonctionnelle convexe sur un convexe K


l’espace Epi(J) des {(λ, v), v ∈ K, λ ≥ J(v)}. C’est un convexe.

On vérifie que si (λ, v) et (µ, w) sont dans Epi(J), alors pour 0 ≤ θ ≤ 1 on a


J(θv + (1 − θ)w) ≤ θJ(v) + (1 − θ)J(w) ≤ θλ + (1 − θ)µ donc θ(λ, v) + (1 − θ)(µ, w)
est dans Epi(J).

Lemme 4.1 Si J est α−convexe et continue, elle est strictement convexe. De plus,
αθ(1 − θ)
J(θu + (1 − θ)v) ≤ θJ(u) + (1 − θ)J(v) − ||u − v||2 .
2

41
42 CHAPTER 4. PROGRAMME CONVEXE

Preuve On effectue d’abord un raisonnement par récurrence pour démontrer, pour


tout n ≥ 1, pour tout p ≤ 2n , l’inégalité pour θ = 2pn . Pour cela, on écrit, pour
p ≥ 2n−1
p−2 n−1 n
2 −p
pu + (2n − p)v u 2n−1 u + 2n−1 v
= +
2n 2 2
et on fait l’hypothèse de récurrence sur l’indice n − 1, pour tout p. Ainsi on a

pu + (2n − p)v 1 p − 2n−1 2n − p α p − 2n−1 2n − p


J( ) ≤ (J(u)+J( u+ v))− || u+ v−u||2 .
2n 2 2n−1 2n−1 2 2n−1 2n−1
Appliquant l’hypothèse de récurrence, il vient
n n−1 n n−1 2n −p
J( pu+(22n −p)v ) ≤ 12 (J(u) + p−22
2 −p 1 p−2
n−1 J(u) + 2n−1 J(v)) − 4 α 2n−1 2n−1 ||v − u||2
n−1 2n −p
− α8 || p−2 2
2n−1 u + 2n−1 v − u|| .
n
Le premier terme est alors égal à 2pn J(u) + 2 2−pn J(v). Le second terme est ainsi
n −p
α 2 p 2 α p 2n −p 2 n−1 se traite
8 2n−1 2n−1 ||u − v|| , et est donc égal à 2 2n 2n ||u − v|| . Le cas p < 2
en échangeant les rôles de u et de v. L’inégalité est démontrée pour θ de la forme 2pn ,
puisque pour n − 1, on a p = 0 ou p = 1.
Pour la démontrer pour θ quelconque, on utilise le fait que, pour tout n, il existe θn
1
égal à i=n αi
P
i=1 2i tel que αi (θ) ∈ {0, 1} et tel que |θ − θn | ≤ 2n (développement binaire).
On a, pour tout n

αθn (1 − θn )
J(θn u + (1 − θn )v) ≤ θn J(u) + (1 − θn )J(v) − ||u − v||2 .
2
La limite des deux membres existe, car J est continue, ainsi on a

αθ(1 − θ)
J(θu + (1 − θ)v) ≤ θJ(u) + (1 − θ)J(v) − ||v − u||2 .
2
Le lemme est démontré, et on vérifie la stricte convexité sans souci.
On a les résultats suivants:

Proposition 4.1 Si J est convexe continue sur K convexe fermé non vide, il existe
une forme linéaire continue L et une constante δ telles que J(v) ≥ L(v) + δ. Si J est
α−convexe, on a J(v) ≥ α8 ||v||2 − C

Preuve Si J est convexe continu, son épigraphe est convexe fermé non vide.
Démontrons qu’il est fermé. Soit (λn , vn ) une suite de points de l’épigraphe qui con-
1
verge vers (λ, v) dans l’espace de Hilbert IR × V muni de la norme (λ2 + ||v||2 ) 2 . On
vérifie que

λn ≥ J(vn ). (4.1.1)
Soit, si J(vφ(n) ) tend vers a, on en déduit que λ ≥ a. Bien sûr, comme J est
continue, a = J(v).
On remarque aussi que si J(v) ≤ a pour tout a valeur d’adhérence de la suite
J(vn ), alors on a (λ, v) qui est dans l’épigraphe, et l’épigraphe est fermé.
On remarque alors que le Lemme suivant est vrai
4.1. FONCTIONS CONVEXES 43

Lemme 4.2 Si, pour tout v, on a

J(v) ≤ inf{a, a valeur d’adhérence de toute suite J(vn ), vn → v},

alors l’épigraphe de J est fermé.

La notion de continuité plus faible évoquée dans ce lemme porte le nom de semi
continuité inférieure (et on note parfois J s.c.i.).
Reprenons la démonstration de la proposition.
Soit v0 ∈ K et λ0 < J(v0 ).
On note ce point p0 , qui est à l’extérieur de l’épigraphe et on désigne sa projection
sur l’épigraphe Epi(J) par p∗ = (λ∗ , w0 ). On montre d’abord λ∗ = J(w0 ).
Comme la projection réalise le minimum de la distance, on a ∀(λ, v), λ ≥ J(v),
l’inégalité (λ − λ0 )2 + (v − v0 )2 ≥ (λ∗ − λ0 )2 + (w0 − v0 )2 .
On suppose v = w0 , auquel cas pour λ ≥ J(w0 ) on a (λ − λ0 )2 ≥ (λ∗ − λ0 )2 . On
sait que λ∗ ≥ J(w0 ). Si J(w0 ) ≥ λ0 , on trouve λ ≥ J(w0 ) ⇒ λ ≥ λ0 , donc λ ≥ λ∗
pour λ ≥ J(w0 ) et on en déduit J(w0 ) ≥ λ∗ et comme (λ∗ , w0 ) est dans l’épigraphe,
λ∗ = J(w0 ).
Si J(w0 ) < λ0 , le point (λ0 , w0 ) est dans l’épigraphe, donc on trouve (λ∗ −λ0 )2 ≤ 0,
donc λ∗ = λ0 .
Dans le cas où J est continue, il existe θ tel que J(θv0 + (1 − θ)w0 ) = λ0 , puisque
J(v0 ) < λ0 < J(w0 ). Alors, pour ce θ, on trouve

(1 − θ)2 (v0 − w0 )2 ≥ (v0 − w0 )2


ce qui est impossible puisque pour θ = 1, la valeur est distincte de λ0 .
Dans le cas général, soit θ0 tel que θ0 J(v0 ) + (1 − θ0 )J(w0 ) = λ0 . Alors J(θ0 v0 +
(1 − θ0 )w0 ) ≤ λ0 , et le point (λ0 , θ0 v0 + (1 − θ0 )w0 ) est dans l’épigraphe. On en déduit

(1 − θ0 )2 (v0 − w0 )2 ≥ (v0 − w0 )2
ce qui entraine v0 = w0 , impossible car J(v0 ) < λ0 < J(w0 ).
On a donc montré que λ∗ = J(w0 ).
On a alors l’inégalité fondamentale de la projection:

(p0 − p∗ , p0 − p) ≥ 0∀p ∈ Epi(J).


Cette inégalité s’écrit, pour p = (J(v), v)

(λ0 − J(w0 ))(λ0 − J(v)) + (v0 − w0 , v0 − v) ≥ 0


soit

(J(w0 ) − λ0 )J(v) ≥ (v0 − w0 , v − v0 ) + (J(w0 ) − λ0 )λ0 . (4.1.2)


La démonstration du premier alinéa est alors la conséquence de J(w0 ) − λ0 > 0, ce
que nous allons démontrer.
Si on avait J(w0 ) − λ0 ≤ 0, alors le point (λ0 , w0 ) serait dans Epi(J) donc on
aurait
||(J(w0 ), w0 ) − (λ0 , v0 )|| ≤ ||(λ0 , v0 ) − (λ0 , w0 )||
soit (J(w0 ) − λ0 )2 + ||w0 − v0 ||2 ≤ ||v0 − w0 ||2 , ce qui donne λ0 = J(w0 ).
44 CHAPTER 4. PROGRAMME CONVEXE

Il faut alors éliminer l’égalité λ0 = J(w0 ). Pour cela, introduisons 0 ≤ θ ≤ 1 et


raisonnons par l’absurde, soit J(w0 ) = λ0 < J(v0 ). Le point θv0 + (1 − θ)w0 est dans
le convexe K , donc (θv0 + (1 − θ)w0 , J(θv0 + (1 − θ)w0 )) est dans Epi(J). On a donc,
pour λ ≥ J(θv0 + (1 − θ)w0 )

(λ − J(w0 ))2 + (1 − θ)2 ||v0 − w0 ||2 ≥ ||v0 − w0 ||2 .


Deux cas: ou il existe une suite θn tendant vers 0 telle que J(θn v0 + (1 − θn )w0 ) <
J(w0 ), et dans ce cas je prends λ = λ0 = J(w0 ) ce qui donne v0 = w0 impossible, ou
alors il existe θ0 tel que pour 0 < θ < θ0 on ait J(θv0 + (1 − θ)w0 ) ≥ J(w0 ). Dans
ce cas, pour 0 < θ < θ0 on trouve, replaçant λ par J(θv0 + (1 − θ)w0 ) et utilisant
l’inégalité J(θv0 + (1 − θ)w0 ) − J(w0 ) ≤ θ(J(v0 ) − J(w0 )),on en déduit

θ(J(v0 ) − J(w0 ))2 ≥ (2 − θ)||v0 − w0 ||2 .


La limite θ → 0 conduit à v0 = w0 , impossible.
On a donc éliminé J(w0 ) = λ0 donc, par les deux raisonnements, J(w0 ) − λ0 > 0.
On divise par cette quantité l’inégalité (4.1.2). On trouve

v0 −w0
J(v) ≥ ( (J(w 0 )−λ0 )
, v − v0 ) + (J(w0 ) − λ0 )λ0 .
La première inégalité de la proposition est démontrée.
D’autre part, on trouve, pour v0 fixé

J(v) + J(v0 ) v + v0 α v + v0 α
≥ J( ) + ||v − v0 ||2 ≥ L( ) + δ + ||v − v0 ||2
2 2 8 2 8
On utilise alors le fait que α8 ||v − v0 ||2 + L(v)
2 est quadratique en +∞ pour voir que
cette fonction est minorée par
α α
||v||2 − [||L|| + ||v0 ||]||v||
8 4
qui peut être minoré par α4 ||v||2 − C1 , d’où le résultat.
La relation entre les fonctionnelles convexes et les problèmes de minimisation est
la suivante:

Proposition 4.2 Soit J une fonctionnelle convexe sur un ensemble convexe K. Tout
point de minimum local est un point de minimum global, et les points de minimum
forment un ensemble convexe. Cet ensemble convexe est réduit à un point lorsque J
est strictement convexe

Soit u un point de minimum local. Pour v ∈ K, et pour θ petit, u + θ(v − u) est


dans un voisinage de u, et donc, pour 0 < θ < θ0 , J(u+θ(v−u)) ≥ J(u). De l’inégalité
J(u + θ(v − u)) ≤ (1 − θ)J(u) + θJ(v), on déduit que J(v) − J(u) ≥ 0, et donc u est un
minimum global. On a déjà montré que si deux points étaient minimum global, alors
tout le segment l’était, grâce à J(u) ≤ J(θu + (1 − θ)v) ≤ θJ(u) + (1 − θ)J(v) = J(u).
Enfin, si u et v sont deux minima globaux distincts et si J est strictement convexe,
u+v 1
J( ) < (J(u) + J(v)) = J(u)
2 2
ce qui est impossible.
On écrit ensuite des propriétés des fonctions convexes dérivables. On a la
4.1. FONCTIONS CONVEXES 45

Proposition 4.3 Soit J une application différentiable. Il est équivalent de dire


(i) la fonctionnelle J est convexe
(ii) Pour tous (u, v) dans V , J(v) ≥ J(u) + (J 0 (u), v − u)
(iii) Pour tous (u, v) (J 0 (u) − J 0 (v), u − v) ≥ 0.
De même on caractérise l’α−convexité par

α
J(v) ≥ J(u) + (J 0 (u), v − u) + ||v − u||2
2
ou par

(J 0 (u) − J 0 (v), u − v) ≥ α||u − v||2 .

Lorsque J est α−convexe, on a

α
J(u + θ(v − u)) ≤ J(u) + θ(J(v) − J(u)) − θ(1 − θ)||u − v||2 .
2
Ainsi

J(u + θh) − J(u) α


≤ J(u + h) − J(u) − (1 − θ)||h||2 .
θ 2
Passant à la limite en θ → 0, on trouve la première inégalité.
Ensuite, lorsque la première inégalité est vérifiée, on l’écrit pour u et pour v:

α
J(v) ≥ J(u) + (J 0 (u), v − u) + ||v − u||2
2

α
J(u) ≥ J(v) + (J 0 (v), u − v) + ||v − u||2
2
et on les additionne pour trouver la deuxième inégalité.
Enfin, considèrant u vérifiant la deuxième inégalité, on veut étudier φ(t) = J(tu +
(1 − t)v).
On voit que φ0 (t) = J 0 (tu + (1 − t)v), u − v). On en déduit φ0 (t) − φ0 (s) = J 0 (tu +
1
(1 − t)v), u − v) − J 0 (su + (1 − s)v), u − v) = t−s [J 0 (tu + (1 − t)v − J 0 (su + (1 − s)v), tu +
(1− t)v − su− (1− s)v)]. Lorsque t ≥ s, on trouve bien φ0 (t)− φ0 (s) ≥ α||v − u||2 (t − s).
Intégrant de s = 0 à s = 12 et de t = 12 à t = 1, on trouve

1 1
Z 1 1 1 α
[φ(1) − 2φ( ) + φ(0)] ≥ α||u − v||2 [ t − ]dt = ||u − v||2 .
2 2 1
2
2 8 8

On a donc l’inégalité d’α−convexité. Les caractérisations d’α−convexité sont obtenues.


D’autre part,R on note que dans le cas α = 0 on a φ0 (t) − φ0 (s) ≥ 0 si t ≥ s.
1 Rθ
Ainsi on trouve θ dt 0 ds(φ0 (t) − φ0 (s))ds = θφ(1) + (1 − θ)φ(0) − φ(θ) et c’est un
réel positif. On a la convexité. Le raisonnement précédent est valable pour (i) ⇒
(ii) ⇒ (iii) ⇒ (i). On note finalement que la convexité et l’α−convexité sont aussi
caractérisées, pour le cas simple de J deux fois différentiable, par (J 00 (u)w, w) ≥ 0 et
par (J 00 (u)w, w) ≥ α(w, w).
46 CHAPTER 4. PROGRAMME CONVEXE

4.2 Minimisation de fonctionnelles convexes


Le résultat agréable dans le programme convexe est que, contrairement au cas de
l’exemple 16, la condition J infinie à l’infini suffit.

Théorème 4.1 Soit K un convexe fermé non vide dans un Hilbert V et soit J une
fonctionnelle convexe continue sur K.
• Si J est infinie à l’infini, alors J admet un minimum.
• Si J est α−convexe continue, le minimum u est unique, et on a

4
∀v ∈ K, ||v − u||2 ≤ [J(v) − J(u)].
α

Le premier résultat se base sur la convergence faible d’une suite minimisante un .


Nous l’admettons ici.
Le deuxième résultat provient de l’écriture, pour un suite minimisante, de la rela-
tion, notant l l’inf de J

un + um J(un ) + J(um ) α
l ≤ J( )≤ − ||un − um ||2
2 2 8
qui implique

4
||un − um ||2 ≤ [(J(um ) − l) + (J(un ) − l)]
α
Nous sommes exactement dans le cas d’application du critère de Cauchy, ainsi la suite
um est de Cauchy, donc possède une limite u. On passe à la limite en m dans l’inégalité
ci-dessus, ce qui implique que

4 4
||un − u||2 ≤ [J(un ) − l] = [J(un ) − J(u)].
α α
Le résultat est démontré.
Dans le cas convexe, on a une condition nécessaire et suffisante d’optimalité,
obtenue à partir de la condition nécessaire provenant de l’équation d’Euler, que je
rappelle ci-dessous

Proposition 4.4 Soit K convexe. On suppose que J est différentiable en u. Si u est


un point de minimum local de J sur K, alors

∀v ∈ K, (J 0 (u), v − u) ≥ 0

Cette proposition est une conséquence du fait que, pour u ∈ K, toutes les directions
admissibles sont v − u pour v ∈ K, car u + θ(v − u) est dans K pour 0 < θ < 1.
On a

Théorème 4.2 Si K est convexe et si J est une fonctionnelle convexe,

u minimum de J ⇔ ∀v ∈ K, (J 0 (u), v − u) ≥ 0.
4.3. FONCTIONNELLES QUADRATIQUES 47

On sait que, si ∀v ∈ K, (J 0 (u), v − u) ≥ 0, alors, de (ii) de la proposition 4.3


implique que

∀v ∈ K, J(v) ≥ J(u).
Ainsi u est un minimum global.1
On note que, lorsque le K est un cône convexe fermé (c’est-à-dire λv ∈ K pour
v ∈ K et λ > 0), on a

Proposition 4.5 Le minimum de J est caractérisé par

(J 0 (u), u) = 0 et (J 0 (u), w) ≥ 0∀w ∈ K

La démonstration de cette proposition suit les idées utilisées dans la résolution de


l’exemple 15, où on a choisi v = cu. On prend ainsi l’inégalité

(J 0 (u), v − u) ≥ 0∀v ∈ K
et on prend v = λu. Les deux cas λ > 1 et 0 < λ < 1 donnent (J 0 (u), u) = 0, et le
remplacer dans l’inégalité donne le résultat de la proposition.

4.3 Fonctionnelles quadratiques


Le cas particulier de ces résultats le plus important correspond à la minimisation
de fonctionnelles quadratiques, c’est-à-dire, dans l’exemple le plus classique, si
(, ) désigne le produit scalaire sur V Hilbert

1
J(v) = a(v, v) − (b, v)
2
où a est une forme bilinéaire continue sur V et b est un élément de V .

Définition 4.3 On dit que la forme bilinéaire a continue sur V est coercive si et
seulement si il existe ν > 0 tel que

∀u ∈ V a(u, u) ≥ ν||u||2 .

On a alors le

Lemme 4.3 Si a est coercive, et qu’une de ses constantes de coercivité est ν, alors a
est ν−convexe.

ce qui entraine

Théorème 4.3 Le minimum de J sur K convexe est unique et noté u. C’est l’unique
solution du problème

u ∈ Ket∀v ∈ K, a(u, v − u) ≥ (b, v − u).


1 1
La redémonstration rapide de l’inéquation d’Euler provient de θ
(J(u + θ(v − u)) − J(u)) ≥ 0
lorsque u est le minimum.
48 CHAPTER 4. PROGRAMME CONVEXE

Preuve du Lemme On vérifie ainsi que

1 1 ε2
(J 0 (u), w) = lim [J(u+εw)−J(u)] = lim [εa(u, w)+ a(w, w)−ε(b, w)] = a(u, w)−(b, w).
ε→0 ε ε→0 ε 2
Alors (J 0 (u)−J 0 (v), u−v) = a(u, u−v)−(b, u−v)−a(v, u−v)+(b, u−v) = a(u−v, u−v),
donc

(J 0 (u) − J 0 (v), u − v) ≥ ν(u − v, u − v).


D’après la proposition 4.3, on a le lemme. L’identification de la dérivée donne l’inégalité
caractérisant le minimum (obtenue au théorème 4.2):

a(u, v − u) − (b, v − u) ≥ 0∀v ∈ K


ce qui est le résultat du théorème.

4.4 Notion de point selle, et théorème de Kuhn et Tucker


4.4.1 Introduction à la notion de Lagrangien
Nous nous reportons à l’exemple inf 21 (y12 + y22 ) − b.y sous la contrainte a.y = 0 ou
sons la contrainte a.y ≤ 0. Nous avons vu que cela pouvait être simple (et que c’était
certainement naturel) de considérer la projection du minimum absolu b sur l’ensemble
des contraintes. Nous avons vu que si b est dans l’ensemble des contraintes, sa projec-
tion est lui même, et en revanche si b n’y est pas, le point où la fonctionnelle atteint
son minimum est bien le point b0 de projection de b sur l’ensemble des contraintes.
Nous avons écrit le point b0 = b − λa, c’est à dire nous avons résolu y − b + λa = 0.
Montrons d’abord que tous les arguments précédents s’appliquent. On vérifie que

x1 + y1 x2 + y2 1 1 1 1
J( , ) − J(x1 , y1 ) − J(x2 , y2 ) = − (x1 − y1 )2 − (x2 − y2 )2
2 2 2 2 8 8
ce qui fait que J est 1−convexe! D’autre part, une contrainte linéaire est convexe, on
est donc dans le cas du programme convexe. D’autre part, on trouve J 0 (y1 , y2 ) = y −b.
La condition nécessaire d’optimalité est alors

(y 0 − b, y − y 0 ) ≥ 0, ∀y, a.y = 0
• cas égalité:
Si y 0 est intérieur à a.y = 0 (c’est-à-dire a.y 0 6= 0) alors y 0 = b et si b vérifie
a.b = 0 cela convient.
Si y 0 est au bord de a.y = 0 (c’est-à-dire a.y 0 = 0) on a a.(y − y 0 ) = 0 donc y − y 0
est proportionnel à aT , ainsi (y 0 − b, µaT ) ≥ 0 pour tout µ, donc (y 0 − b).aT = 0, soit
y 0 − b = −λa, et on identifie λ grâce à y 0 .a = 0.
• cas inégalité:
si y 0 est intérieur à a.y ≤ 0, alors a.y 0 < 0 et donc toutes les directions sont
admissibles et donc y 0 = b. Si on n’est pas dans le cas b.a < 0, le point b n’est
pas le minimum sur l’espace des contraintes car il n’est pas intérieur à l’espace des
contraintes.
4.4. NOTION DE POINT SELLE, ET THÉORÈME DE KUHN ET TUCKER 49

On suppose donc maintenant que a.b ≥ 0. On sait donc que y 0 est sur le bord
a.y 0= 0. On voit alors que pour tout y ∈ {a.y ≤ 0}, alors a.(y−y 0 ) ≤ 0. Les directions
possibles pour y − y 0 sont donc aT et a, le coefficient devant a étant négatif. On écrit
y − y 0 = µaT − µ1 a, et on en déduit que

∀µ ∈ IR, ∀µ1 ∈ IR+ , (y 0 − b, µaT − µ1 a) ≥ 0


Ceci implique que y 0 − b est orthogonal à aT et que (y 0 − b, a) ≤ 0. On en déduit
y 0 − b = −λa avec λ ≥ 0 et de plus, comme y 0 est sur le bord, y 0 .a = 0 donc
(b − λa).a = 0 donc λ = b.a
a2
, qui est négatif ou nul grâce à l’hypothèse a.b ≥ 0.
Nous avons ici reconstruit les multiplicateurs de Lagrange, de manière plus directe
puisque avec une seule contrainte dans IR2 on n’a pas besoin d’un résultat aussi général
que le lemme de Farkas.

Remarque Utilisons la forme du minimum obtenu pour écrire y = b − λa + z. On


trouve
1 2 1 2 1 2 2
J(y) = z − b + λ a − λa.b.
2 2 2
La contrainte s’écrit a.b − λa2 + a.z ≤ 0.
Le minimum de la fonctionnelle en λ est donc obtenu pour λ0 = a.b
a2 , la contrainte
restante dans ce cas est alors a.z ≤ 0 et il reste la minimisation de 12 z 2 , minimum
atteint pour z = 0.

Remarque Soit w une direction admissible pour la contrainte inégalité F (y) ≤ 0


(ici c’est a.y ≤ 0 et donc on a (F 0 (y), w) ≤ 0 soit encore a.w ≤ 0). On suppose
qu’il existe un couple (y0 , λ0 ) dans {F ≤ 0} × IR+ , tel que J 0 (y0 ) + λ0 F 0 (y0 ) = 0 et
F (y0 ) = 0. Alors on introduit

φ(t) = J(y0 + tw)


On a φ0 (t) = (J 0 (y0 + tw), w) et φ0 (0) = −λ0 (F 0 (y0 ), w) ≥ 0. Comme w est une
direction admissible, y0 + tw est dans l’espace des contraintes, donc on doit retrouver
que φ0 (t) ≥ 0. On a bien sûr φ0 (0) ≥ 0 donc φ(t) ≥ φ(0) ce qu’il faut vérifier pour que
y0 soit un minimum.
d
D’autre part, on vérifie que dt (F (y0 + tw)) = (F 0 (y0 + tw), w) donc il est trivial
que

d
(φ(t) + λ0 F (y0 + tw))|t=0 = 0.
dt
On vérifie ainsi très directement que y0 n’est pas seulement le minimum de J mais
aussi le minimum de J + λ0 F .
Ceci nous amène à introduire dans l’exemple canonique en dimension 2 cette nouvelle fonctionnelle. On
pose

L(y, λ) = J(y) + λa.y

Le minimum sur IR2 de cette fonctionnelle est obtenu en y = b − λa, ce qui correspond à la remarque que
nous avons déjà faite sur le fait que cette écriture est la bonne écriture pour trouver le minimum. Maintenant,
lorsque y est dans l’intérieur de l’espace des contraintes a.y < 0 et que λ est assez petit, alors y + λa est aussi
dans l’espace des contraintes, donc le minimum de L(y, λ) est atteint en un point yλ de l’espace des contraintes,
50 CHAPTER 4. PROGRAMME CONVEXE

et on vérifie que ce minimum vaut − 21 (b − λa)2 . Cette fonction de λ admet un maximum en λ = a.b
a2
. et cette
valeur du point où elle est maximum est celle cherchée pour obtenir le point critique de J sous les contraintes
a.y ≤ 0 lorsque b n’est pas dans l’espace des contraintes.
D’autre part, lorsque y n’est pas dans l’espace F (y) = 0, on voit que L(y, λ)
n’a certainement pas d’extremum en λ (contrairement à ce que l’on a fait dans le
paragraphe ci-dessus) et on a probablement identifié un problème équivalent.

4.4.2 Point selle, lagrangien, et minimisation de fonctionnelle con-


vexe
On considère une fonctionnelle J à minimiser sur V , et on introduit, dans le cas de
M contraintes inégalités ou de M contraintes égalités, une application de V × IRM
dans IR. Elle s’appellera Lagrangien, et on construit le Lagrangien associé à J et aux
contraintes inégalités Fj (v):
X
L(v, q) = J(v) + qj Fj (v).
j

Dans le cas des contraintes inégalités, on désigne par P = (IR+ )M , et dans le cas
de contraintes égalités, on note P = (IRM ). Soit U ⊂ V

Définition 4.4 On dit que (u, p) ∈ V × P est un point selle de L sur U × P si on a


les inégalités

∀q ∈ P, L(u, q) ≤ L(u, p) ≤ L(v, p)∀v ∈ U.

Notons que cette définition est la bonne définition pour les multiplicateurs de
Lagrange, puisque les extrema sont caractérisés par la dérivée nulle.
On a

Proposition 4.6 Si les fonctions J, F1 , ...FM sont continues sur V et si (u, p) est
un point selle de L sur U × P . Alors, K étant défini par les contraintes Fj (égalité si
P = IRM , inégalités si P = (IR+ )M , et K ⊂ U , on a
• l’élément u est dans K
• c’est un minimum global de J sur K
• Dans le cas où K est inclus dans l’intérieur de U , et où les fonctionnelles sont
dérivables, on a
M
J 0 (u) + pj Fj0 (u) = 0.
X

j=1

Preuve On suppose que (u, p) est un point selle. On se place tout d’abord dans le
cas de contraintes d’égalité. Si on suppose que, pour tout q dans IRM , alors L(q, u) ≤
L(p, u), comme L(q, u) est une fonction affine en q, cette inégalité ne peut être vérifiée
que lorsque F (u) = 0. On a donc, écrivant la deuxième inégalité, J(u) ≤ J(v) pour
tout v ∈ U , donc a fortiori pour tout v ∈ K, et donc u est un minimum global de J
sur K.
On se place ensuite dans le cas de contraintes inégalités. Si on a, ∀q ∈ (IR+ )M ,
l’inégalité, ceci veut dire que, en faisant tendre q vers +∞ composante après com-
posante, que F (u) ≤ 0. On trouve alors pF (u) ≥ 0 par l’inégalité, et comme Fj (u) ≤ 0,
4.4. NOTION DE POINT SELLE, ET THÉORÈME DE KUHN ET TUCKER 51

on trouve que pj Fj (u) = 0 pour tout j. Ceci permet de conclure sur le fait que u est
un minimum global de J car pF (v) ≤ 0 ainsi J(v) + pF (v) ≤ J(v) et donc l’inégalité
de droite de définition du point selle entraine J(u) + 0 ≤ J(v). Le point u est aussi
minimum de la fonctionnelle J(v) + pF (v), donc nécessairement la dérivée de cette
fonctionnelle est nulle si K est intérieur à U .
Ce qui est extraordinaire est qu’il y a des conditions pour lesquelles cette propo-
sition donne une condition nécessaire et suffisante d’optimalité

Théorème 4.4 (Théorème de Kuhn et Tucker, 1951)


On suppose que J, F sont convexes, continues, dérivables, et on suppose qu’il existe
un élément de V tel que ṽ vérifie
“ou bien Fi (ṽ) < 0, ou bien Fi (ṽ) = 0 et Fi affine.”
u est minimum global de J sur K si et seulement si il existe p ∈ (IR+ )M tel que
(u, p) soit un point selle du Lagrangien L sur V × (IR+ )M .
Autrement dit, un minimum d’une fonctionnelle convexe avec contraintes est un
minimum libre du Lagrangien lorsqu’on choisit les paramètres de Lagrange.

Preuve On considère un point de minimum global sur K. Soit I(u) l’ensemble des
indices où les contraintes sont actives, qui est, rappelons le, l’ensemble des indices tels
que Fi (u) = 0. La convexité de Fi entraine que

Fi (ṽ) − Fi (u) ≥ (Fi0 (u), ṽ − u)


donc (Fi0 (u), ṽ − u) < 0 dans le cas où Fi (ṽ) < 0 et
(Fi0 (u), ṽ − u) = Fi (ṽ) − Fi (u) = 0 si Fi est affine et Fi (ṽ) = 0.
On retrouve la notion de contraintes qualifiées au sens de la définition 2.6, le w0
dans ce cas étant ṽ − u. La condition nécessaire du théorème 2.6 donne donc l’égalité

∃λ ∈ (IR+ )M , J 0 (u) + λF 0 (u) = 0.


Cette inégalité ne suffit pas pour montrer que le Lagrangien a un point selle. Pour
cela, on considère l’ensemble A ⊂ IRM +1 suivant

A = {(µ0 , µ) ∈ IRM +1 , ∃v ∈ K, µ0 > J(v), µj > Fj (v)}.


A est un ouvert convexe, et si u est un minimum global pour la fonctionnelle sur
l’espace des contraintes, alors ∀v, Fj (v) ≤ 0 on a J(v) ≥ J(u).
Ceci veut dire que (J(u), 0) ∈ / A. La projection sur un convexe ouvert est aussi
possible. Il existe donc (p0 , p) ∈ IRM +1 , (p0 , p) 6= (0, 0) (ceci car on peut définir, si le
point est dans l’adhérence du convexe ouvert, une direction normale au bord) tel que

p0 (µ0 − J(u)) + pµ > 0∀(µ0 , µ) ∈ A.


En faisant tendre µ0 et µ vers +∞, on en déduit p0 ≥ 0, p ≥ 0.
Le réel p0 est non nul, car sinon en choisissant (J(ṽ) + 1, 0) qui est dans A pour les
contraintes non affines (et on prend µj > 0 tendant vers 0 pour les contraintes affines,
et µj tendant vers Fj (ṽ) pour les contraintes non affines) on trouverait (p, Fj (ṽ)) ≥ 0
pour les contraintes non affines, et p ≥ 0 contradictoire avec Fj (ṽ) < 0. Ainsi p0 > 0
donc on trouve
52 CHAPTER 4. PROGRAMME CONVEXE

p
∀(µ0 , µ) ∈ A, µ0 − J(u) + µ>0
p0
Comme A = ∪v∈V ]J(v), +∞[×]Fj (v), +∞[, il vient
p
∀v, J(v) − J(u) + F (v) ≥ 0.
p0
p
Finalement, si v = u on en déduit p0 F (u) ≥ 0, donc comme pj ≥ 0 et Fj (u) ≤ 0 on
trouve pp0 F (u) = 0 donc on trouve

p p
∀v ∈ V, J(v) + ( , F (v)) ≥ J(u) + ( , F (u)) ≥ J(u) + (q, F (u))∀q, qj ≥ 0.
p0 p0

Le point (u, pp0 ) est donc un point selle et on a montré l’implication


”minimum global ⇒ il existe un point selle”.
On s’intéresse maintenant à la condition avec multiplicateurs de Lagrange. On
sait que si u est minimum global, alors il existe (λ1 , .., λm ) positifs tels que
i=m
J 0 (u) + λi Fi0 (u) = 0
X

i=1

(ce qui est équivalent à + i∈I(u) λi Fi0 (u) = 0 où I(u) est l’ensemble des con-
J 0 (u)
P

traintes actives en u, et λi = 0 lorsque la contrainte est inactive).


il s’agit désormais de supposer qu’il existe (λ1 , .., λm ) tous positifs ou nuls tels que

J 0 (u) + λi Fi0 (u) = 0.


X

On veut montrer que (u, λ) est un point selle pour le Lagrangien, d’où on déduira
que u est un minimum global donc que u est le minimum global.
La fonctionnelle L(v, λ) est convexe. De plus, on a la relation λj Fj (u) = 0, donc

∀v ∈ K,
La condition nécessaire et suffisante est démontrée.

Remarque Dans ce cas ci, on ne peut pas transformer un ensemble de contraintes


égalités en un ensemble de contraintes inégalités, sauf si elles sont affines, car si F est
convexe, alors −F est concave sauf si elle est affine.

4.4.3 Principe du Min-Max


De la définition d’un point selle (u, p), on déduit deux problèmes d’optimisation as-
sociés à K = {Fj (u) ≤ 0} et à la fonctionnelle J(v). En effet, on a, pour P = (IR+ )m
et p ∈ P :

∀v ∈ V, L(u, p) ≤ L(v, p)
ce qui implique que, utilisant L(v, p) ≤ supq∈P L(v, q):

∀v ∈ V, L(u, p) ≤ sup L(v, q).


q∈P
4.4. NOTION DE POINT SELLE, ET THÉORÈME DE KUHN ET TUCKER 53

De même,

∀q ∈ P, L(u, q) ≤ L(u, p)

donc, utilisant cette fois L(u, q) ≥ inf v∈V L(v, q), on obtient

∀q ∈ P, inf L(v, q) ≤ L(u, p).


v∈V

Ceci donne l’idée d’introduire deux fonctionnelles définies par ces inégalités, l’une
sur V , l’autre sur P , par

J˜(v) = sup L(v, q), G(q) = inf L(v, q).


q∈P v∈V

Dans le cas étudié, on a L(v, q) = J(v) + qF (v), donc, si il existe j0 tel que
Fj0 (v) > 0, alors supq∈P L(v, q) = +∞, et, si on a ∀j ∈ {1, ..., m}, Fj (v) ≤ 0 alors
supq∈P L(v, q) = maxq∈ L(v, q) = L(v, 0) = J(v).
Ainsi
(
˜ = J(v), v ∈ K
J(v)
+∞, v ∈ /K

La minimisation de J˜ est équivalente à celle de J sur K. Ce problème s’apppelle


le problème primal.
Le problème dual est le problème de maximisation de G sur P .
˜
On remarque que ∀q ∈ P, L(u, q) ≤ L(u, p), donc supq∈P L(u, q) = L(u, p) = J(u).
On sait que L(u, p) ≤ supq∈P L(v, q), donc

∀v ∈ V, L(u, p) ≤ J˜(v)

ce qui s’écrit

∀v ∈ V, J˜(u) ≤ J(v)
˜

On en déduit que u est le minimum de J˜ sur V . De même

∀v ∈ V, L(u, p) ≤ L(v, p)

donc

inf L(v, p) = L(u, p) = G(p).


v∈V

Comme inf v∈V L(v, q) ≤ L(u, p), on a, ∀q ∈ P, G(q) ≤ G(p), donc p est un
maximum de G. On a ainsi démontré:

min(max L(v, q)) = max(min L(v, q))


v∈V q∈P q∈P v∈V

et le point de min-max est atteint en v = u, q = p. Le point selle est solution du


problème de min-max, et la réciproque est vraie.
54 CHAPTER 4. PROGRAMME CONVEXE

Exemple minimisation de la fonctionnelle J(v) = 21 (Av, v) − (b, v) sur l’ensemble


convexe K = {bV − c ≤ 0}. Pour être dans le cadre d’application du théorème de
Kuhn et Tucker, on suppose la matrice A symétrique définie positive. La fonctionnelle
du problème primal est calculée facilement. Celle du problème dual G est donnée par
l’équation sur v

∂L
(v, q) = 0
∂v
qui admet une solution unique car L est α−convexe, où α est la plus petite valeur
propre de la matrice 12 A.
On trouve Av − b + t Bq = 0, soit v = A−1 b − A−1t Bq, donc
1 1
G(q) = − (t Bq, A−1t Bq) + (BA−1 b − c, q) − (b, A−1 b)
2 2
qui est strictement concave donc admet un maximum. Le gain dans cette formulation
est que les contraintes s’écrivent vraiment simplement: en l’occurence elles sont sous
la forme q ≥ 0.
Chapter 5

Equation de
Hamilton-Jacobi-Bellmann

On cherche à minimiser un critère dépendant de variables d’état x(t), t ∈ [0, 1], et


d’une commande u(t), sachant que x est solution d’une équation de commande:

ẋ(t) = f (x(t), u(t), t)


avec une valeur initiale x(0) = x0 .
Le critère étudié est J(u) = 01 g(x(t), u(t), t)dt + C(x(1)).
R

On forme le lagrangien du problème, sous les contraintes

(i)x(0) − x0 = 0
(ii)ẋ(t) − f (x(t), u(t), t) = 0
La contrainte (i) admet λ comme multiplicateur, la contrainte (ii) admet p(t) comme
multiplicateur (en effet, l’une est continue, l’autre est ponctuelle). Le lagrangien est

Z 1 Z 1
L(x, u, λ, p) = g(x(t), u(t), t)dt+C(x(1))+ p(t)(ẋ(t)−f (x(t), u(t), t))dt+λ(x(0)−x0 ).
0 0

Par intégrations par parties, on trouve

R1 0 0
L(x, u, λ, p) = 0 Rg(x(t), u(t), t)dt + p(1)x(1) + C(x(1)) + λ(x(0) − x ) − p(0)x .
1
− 0 (ṗ(t)x(t) + p(t)f (x(t), u(t), t))dt

Les équations de point selle sont Lx = 0, Lu = 0, Lp = 0. On obtient les équations


formelles
Z 1 Z 1
gx (x(t), u(t), t)w(t)dt − (ṗ(t) + p(t)fx (x(t), u(t), t))w(t)dt = 0,
0 0
Z 1 Z 1
gu (x(t), u(t), t)w̃(t)dt − p(t)fu (x(t), u(t), t)w̃(t)dt = 0,
0 0

Z 1
(π̇(t)x(t) + π(t)fx (x(t), u(t), t))dt = 0.
0

55
56 CHAPTER 5. EQUATION DE HAMILTON-JACOBI-BELLMANN

De la deuxième, on déduit gu (x(t), u(t), t) = p(t)fu (x(t), u(t), t). De la première,


on déduit ṗ(t) + fx (x(t), u(t), t)p(t) = gx (x(t), u(t), t). De la troisième, en effectuant
une intégration par parties, on déduit l’équation (ii).
On note que le multiplicateur de Lagrange p est solution d’une équation que l’on
appelle équation adjointe de ẋ = f (x, u, t).
On remplace l’équation obtenue pour p dans le lagrangien. Alors

R1 R1
L(x, u, p, t) = 0 [g(x(t), u(t), t)− xgx (t)]dt + p(1)x(1) + C(x(1)) − 0 p(t)(−x(t)fx
+f (x(t), u(t), t))dt + λ(x(0) − x0 ) − p(0)x0 .

Les expressions ci-dessus ressemblent de manière frappante aux expressions du


hamiltonien (intégrale première de l’équation d’Euler). En effet, g − xgx ressemble a
L − xLx .
On introduit alors l’hamiltonien de Pontryaguine:

H(x, u, p, t) = pf (x, u, t) − g(x, u, t).


On vérifie ∂x H = pfx − gx et ∂u H = pfu − gu . L’égalité gu = pfu obtenue à partir de
la deuxième équation ci-dessus implique que ∂u H = 0.
L’équation adjointe s’écrit ṗ = −∂x H(x(t), u(t), p(t), t). D’autre part, l’équation
sur x se réécrit ẋ = ∂p H(x(t), u(t), p(t), t).
Ainsi les conditions nécessaires d’optimalité impliquent que (x(t), u(t), p(t)) est
solution du système:

 ẋ(t) = ∂p H(x(t), u(t), p(t), t)

ṗ(t) = −∂ H(x(t), u(t), p(t), t)
x
 0 = ∂ H(x(t), u(t), p(t), t)

u

Si on introduit le Lagrangien instantané L(x, ẋ, u, p, t) = g(x, u, t) + p(ẋ − f (x, u, t)),


alors l’équation de l’état adjoint est

d
(Lẋ ) = Lx
dt
qui est l’équation d’Euler associée à ce lagrangien. D’autre part, de ce problème, on
déduit l’équation de Hamilton-Jacobi-Bellman.
Pour écrire cette équation on considère le même problème:

J(u) = 01 g(x(t), u(t), t)dt + C(x(1))


R
inf
ẋ(t) = f (x(t), u(t), t), x(0) = x0
et on introduit, comme pour l’étude des problèmes primaux et duaux, la solution de
infB(x, u). Plus exactement, on considère τ ∈ [0, 1], y dans l’espace d’arrivée, et x la
solution de ẋ(t) = f (x(t), u(t), t), x(τ ) = y. On introduit
R1
V (y, t) = min τ g(x(t), u(t), t)dt + C(x(1))
ẋ(t) = f (x(t), u(t), t), x(τ ) = y
Il semble bien sûr que le problème est aussi compliqué que de trouver le minimum
pour le problème précédent. Mais on va montrer que V est solution d’une équation
aux dérivées partielles.
57

Pour cela, on cherche V (y, τ + ).

Z 1
V (y, τ + ) = min[ g(x(t), u(t), t)dt + c(x(1)), ẋ(t) = f (x(t), u(t), t), x(τ + ) = y].
u τ +
D”autre part
Z 1 Z τ + Z 1
g(x(t), u(t), t)dt = g(x(t), u(t), t)dt + g(x(t), u(t), t).
τ τ τ +
R1
Soit u la solution du problème de minimisation pour τ g(x(t), u(t), t)dt. On trouve

V (y, τ ) = min [g(y, v, τ ) + o() + V (x(τ + ), τ + )]


v=u(τ )

V (y, τ ) = min[g(y, v, τ ) + V (y + f (y, v, τ ) + o(), τ + )].


v
Heuristiquement, l’équation s’en déduit aisément en soustrayant à V (y+f (y, v, τ )+
o(), τ + ) le terme V (y, τ + ) et en divisant par . On a

−∂τ V (y, τ ) = min[g(y, v, τ ) + ∂y V (y, τ )f (y, v, τ )].


v
Donc, même si V n’est pas connue, on peut accéder à l’équation différentielle sur V .
Ceci s’exprime dans le
Théorème 5.1 Si l’équation de Hamilton-Jacobi-Bellman

∂V ∂V
+ min[g(y, v, t) + f (y, v, t)] = 0
∂t v ∂y
admet une solution de classe C 1 telle que V (x, 1) = C(x), alors le problème
J(u) = 01 g(x(t), u(t), t)dt + C(x(1))
R
inf
ẋ(t) = f (x(t), u(t), t), x(0) = x0
admet une commande optimale v(x, t), qui minimise en v à chaque instant

∂V
g(x, v, t) +
(x, t)f (x, v, t).
∂x
L’équation de HJB s’écrit Vt = max H(x, −Vxt , u, t).
∂V ∂V
On considère pour cela G(x, u, t) = g(x, u, t) + ∂x (x, t)f (x, u, t) + ∂t (x, t). Elle
vérifie

∀t ∈ [0, 1], min G(x, u, t) = 0.


u
On note u∗
le point où ce minimum est atteint.
On remarque alors que 01 G(x(u), u, t)dt ≥ 0 pour tout u et que
R

Z 1∂V ∂V
[(x(u), t)f (x(u), u, t) + (x(u), t)]dt = V (x(1), 1) − V (x(0), 0)
0 ∂x ∂t
d’où on déduit

0 = J(u∗ ) − V (x0 , 0) ≤ J(u) − V (x0 , 0).


et donc bien sûr u∗ réalise le minimum de J.
58 CHAPTER 5. EQUATION DE HAMILTON-JACOBI-BELLMANN

Exemple Dans le cadre de cette équation de Hamilton-Jacobi Bellman, étudions un


exemple. C’est un problème de contrôle-commande (objet de la page de garde ...)
On considère un oscillateur, qui peut être excité, et on souhaite le faire passer d’un
état donné à un autre état.
Cet oscillateur est régi par l’équation différentielle

ẍ + ω 2 (1 − εu(t))x = 0,
où x(0) et ẋ(0) sont connus, et on veut l’amener à l’état (x(t1 ), ẋ(t1 )), où (x(t1 ))2 +
(ẋ(t1 ))2 > (x(0))2 + (ẋ(0))2 . On peut le faire en introduisant la commande u(t) qui
vérifie 0 ≤ u(t) ≤ 1. Ainsi, on peut faire varier la fréquence d’oscillation du ressort
entre ω 2 et ω 2 (1 − ε).
On est dans la situation de ce chapitre lorsque on écrit cette équation différentielle
sous la forme du système différentiel

ẋ = y, ẏ = −(1 − εu(t))x.
Ainsi f1 (x, y, u, t) = y, f2 (x, y, u, t) = −(1 − εu(t))x et Ẋ = f . D’autre part, on
introduit le multiplicateur de Lagrange (p, q) associé à (x, y). Il n’y a pas d’équation
de contrôle sur u.
Le Lagrangien est alors

L(x, u, λ, µ, k, p, q) = 0t1 (ẋ(t) − f1 (x, y, u, t))p(t) + (ẏ(t) − f2 (x, y, u, t))q(t))dt


R

+λ(x(0) − x0 ) + µ(y(0) − y0 ) + k((x(t1 ))2 + (y(t1 ))2 − 1).

Après intégration par parties en temps, on trouve les équations adjointes pour p
et q de sorte que ce Lagrangien ait un extremum (point selle). Il s’agit de

L(x, u, λ, µ, k, p, q) = − 0t1 [xṗ + yp + y q̇ − (1 − εu)xq]dt + x(t1 )p(t1 ) + y(t1 )q(t1 )


R

−x(0)p(0) − y(0)q(0) + λ(x(0) − x0 ) + µ(y(0) − y0 )


+k((x(t1 ))2 + (y(t1 ))2 − 1)

et on en déduit les relations ṗ = (1 − εu(t))q et q̇ = −p. En utilisant l’extremalité en


t1 , on trouve aussi que p(t1 ) = −kx(t1 ), q(t1 ) = −ky(t1 ). De plus, en regardant en
t = 0, on trouve p(0) = λ, q(0) = µ, ce qui fait que les conditions initiales ne sont pas
connues. Il faudra alors partir de la condition finale.
Le Hamiltonien de Pontriaguine est alors H = pf1 + qf2 = py − q(1 − εu)x = py −
qx + εuxq. Le principe du maximum de Pontriaguine, énoncé ici sans démonstration
(car on se trouve dans le cas discontinu) est de choisir (x, u, p) qui réalise l’extremum
de H, et plus précisément on prend le maximum en u sur les contraintes. Lorsque
xq < 0, ce maximum est atteint en u = 0, lorsaue xq > 0, il est atteint en u = 1. Le
contrôle optimal prendra donc les valeurs 0 ou 1 selon le signe de qx.
Si k = 0, les conditions finales pour q et p sont 0, et l’équation différentielle de
second ordre sur q a ses conditions de Cauchy nulles en t = t1 , donc p et q sont
nulles, ce qui est impossible car on ne peut pas commander le système. Donc k 6= 0,
et donc, en divisant q et p par cette constante, on se ramène à k = 1. Dans ce cas,
pour t = t1 , q(t1 )x(t1 ) = − 12 dt
d
[(x(t))2 ](t1 ). Si cette quantité est négative, elle le
reste dans un intervalle ]t1 − ε, t1 [, donc le contrôle u est égal à 0 dans cet intervalle,
et donc l’énergie en t1 est égale à l’énergie en t1 − ε, ce qui est contradictoire avec
le fait que le contrôle est optimal. Ainsi le contrôle est égal à 1 dans ce voisinage,
59

donc −xẋ(t1 ) < 0. On peut positionner le point d’arriver dans le quatrième quadrant
(x > 0, y < 0).On écrit x(t1 ) = cos α, y(t1 ) = sin α, α ∈] − π2 , 0[. Ainsi on trouve
q(t1 ) = cos(α + π2 ), p(t1 ) = sin(α + π2 ). Le point (p(t), q(t)) est, dans un voisinage de
p2 2α
t1 , sur l’ellipse q 2 + 1−ε = a2 = sin2 α + cos1−ε , et le point (x(t), y(t)) est sur l’ellipse
y 2 2 2 2
x2 + 1−ε = b2 = cos2 α + sin α 2
1−ε . On contrôle que a =
1−ε sin α
1−ε et b2 = 1−ε1−ε
cos α
.
Dans ce qui suit, on va construire une trajectoire ’en remontant le sens du temps’
à partir du point d’arrivée. PLus précisément, on adopte la démarche suivante:

1. on détermine T > t1 tel que x(t) ne s’annule pas sur [t1 , T [ et s’annule en t = T .
Le contrôle reste u = 1.

2. on cherche le premier point t2 < t1 tel que q s’annule (u = 1 sur ]t2 , T [)

3. on construit t3 < t2 tel que x s’annule en t3 (u = 0 sur ]t3 , t2 [)

4. on construit t4 < t3 tel que q s’annule en t4 (u = 1 sur ]t4 , t3 [)

5. on construit T̃ < t4 tel que x s’annule en T̃ (u = 0 sur ]T̃ , t4 [).

• Sur ]t2 , T [:
On commence par donner la forme des fonctions x et q. On trouve x(t) = b cos((1−
1 1 1
ε) 2 (t − t1 )+ β), ẋ(t) = y = −b(1− ε) 2 sin((1− ε) 2 (t − t1 )+ β), d’où on déduit β ∈]0, π2 [
et tan β = − tan α1 .
(1−ε) 2
On suppose que le système reste dans l’état excité avec u = 1. On sait que q(t) =
1 1
a cos((1 − ε) 2 (t − t1 ) + γ) avec γ ∈] − π2 , 0[, a cos γ = − sin α, a(1 − ε) 2 sin γ = cos α.
1
On en déduit γ ∈] − π2 , 0[ et tan γ = 1 . On contrôle alors que ab cos(γ − β) =
(1−ε) 2 tan α
ε sin α cos α
1−ε< 0, donc, ajoutant le fait que γ − β ∈] − π, 0[, il vient γ − β ∈] − π, − π2 [.
On remarque que ab sin(γ − β) = − 1 1 .
(1−ε) 2
1
Soit T tel que (1 − ε) (T − t1 ) + β = π2 . On en déduit que, pour t ∈]t1 , T ],
2
1
γ + (1 − ε) 2 (t − t1 ) décrit ]γ, γ + π2 − β] ⊂] − π2 , 0], avec
π 1 π
q(T ) = a cos(+ γ − β), q̇(T ) = −a(1 − ε) 2 sin( + γ − β).
2 2
Lorsque l’on introduit ρ(α) et ω(α) tels que q(T ) = ρ(α) cos ω(α) et q̇(T ) =
1
ρ(α) sin ω(α), on obtient tan ω(α) = −(1− ε) 2 tan( π2 + γ − β), ce qui donne tan ω(α) =
2 sin2 α cos2 α
−ε cos α sin α. De plus, (ρ(α))2 = a2 sin2 (γ−β)+a2 (1−ε) cos2 (γ−β) = 1+ε1−ε cos2 α
.
1 1
De plus ẋ(T ) = −b(1 − ε) 2 = −(1 − ε cos2 α) 2 .
On commence à remonter le temps à partir de t = T . On écrit
1
x(t) = b cos((1 − ε) 2 (t − T ) + π2 )
1
q(t) = a cos((1 − ε) 2 (t − T ) + π2 + γ − β).
Comme π2 + γ − β ∈] − π2 , 0[, on voit qu’en remontant le sens du temps, le premier
point òu le produit qx change de signe est atteint pour q au temps t2 tel que
1 π π
(1 − ε) 2 (t2 − T ) + +γ−β =− .
2 2
1
Le contrôle est u = 1 pour t ∈]t2 , T [, et q̇(t2 ) = a(1 − ε) 2 . On vérifie aussi que
60 CHAPTER 5. EQUATION DE HAMILTON-JACOBI-BELLMANN

π b 1 π b
x(t2 ) = b cos(β−γ−π+ ) = ρ(α) cos ω(α), ẋ(t2 ) = −b(1−ε) 2 sin(β−γ− ) = ρ(α) sin ω(α).
2 a 2 a
• Sur ]t3 , t2 [:
Le contrôle est u = 0, et les trajectoires sont des cercles. On identifie directement

x(t) = ρ(α) ab cos(t − t2 − ω(α))


1
q(t) = a(1 − ε) 2 cos(t − t2 − π2 ).
On voit que la première quantité qui s’annule est x(t), au point t3 = t2 + ω(α) − π2 .
On a alors

b 1 1
ẋ(t3 ) = ρ(α) , q(t3 ) = −a(1 − ε) 2 cos ω(α), q̇(t3 ) = a(1 − ε) 2 sin ω(α).
a
• Sur ]t4 , t3 [:
Le contrôle est a nouveau u = 1. Les courbes décrites par les points sont

(ẋ(t))2 b2 (q̇(t))2
(x(t))2 + = ρ2 (α) 2 , (q(t))2 + = a2 (1 − ε cos2 ω(α))
1−ε a (1 − ε) 1−ε

ce qui donne
1
1
x(t) = ρ(α) ab 1 cos((1 − ε) 2 (t − t3 ) − π2 )
(1−ε) 2
1 1
q(t) = a(1 − ε cos2 ω(α)) 2 cos((1 − ε) 2 (t − t3 ) + β(α))
avec les relations
1
sin ω(α) (1 − ε) 2 cos ω(α)
sin β(α) = − 1 , cos β(α) = − 1 .
(1 − ε cos2 ω(α)) 2 (1 − ε cos2 ω(α)) 2
On trouve donc β(α) ∈] − π, − π2 [ et tan β(α) = − ε sin α cos
1
α
.
(1−ε) 2
Le point où q(t) s’annule (qui est le premier point inférieur à t3 où xq change de
signe) est donné par
1 3π
(1 − ε) 2 (t4 − t3 ) + β(α) = − .
2
On a
x(t4 ) = −µ(α) cos ω(α), ẋ(t4 ) = −µ(α) sin ω(α),
avec
b cos2 β(α) (1 + ε2 cos2 α sin2 α)
(µ(α))2 = (ρ(α) )2 ( + sin2 β(α)) = .
a 1−ε (1 − ε + ε2 cos2 α sin2 α)(1 − ε sin2 α)

• Pour t ∈]T̃ , t4 [:
le contrôle est alors u = 0, les points se déplacent sur des cercles, donc x(t) =
µ(α) cos(t − t4 − π + ω(α)). Le point où x(t) s’annule est alors T̃ = t4 − π2 − ω(α), ce
qui donne tout de suite ẋ(T̃ ) = −µ(α).
61

Dans ce cas, on a fait un tour complet de l’espce des phases pour x(t), y(t) de t = T̃
à t = T . Le gain d’orbite (rapport entre la valeur du point pour les deux temps) est
alors 1
ẋ(T ) b(1 − ε) 2 1 − ε + ε2 cos2 α sin2 α
= =
ẋ(T̃ ) µ(α) 1 + ε2 cos2 α sin2 α
en ayant utilisé 1 − ε + ε2 cos2 α sin2 α = (1 − ε cos2 α)(1 − ε sin2 α).
ẋ(t2 ) ẋ(t4 ) ẋ(t)
On vérifie alors que x(t 2)
= tan ω(α), x(t 4)
= tan ω(α) et limt→T,t<T x(t) = +∞,
ẋ(t) ẋ(t) ẋ(t)
limt→t3 ,t>t3 x(t) = −∞, limt→t3 ,t<t3 x(t) = +∞, limt→T̃ ,t>T̃ x(t) = −∞.
ẋ(t)
On a ainsi vu que le contrôle est donné par u(t) = H( x(t) − tan ω(α)), où H
désugne la fonction de Heaviside.
62 CHAPTER 5. EQUATION DE HAMILTON-JACOBI-BELLMANN
Chapter 6

Approximation de solutions de
problèmes d’optimisation

Nous donnons dans cette section des algorithmes d’approximation de solutions de


problèmes de minimisation, afin de pouvoir mettre en œuvre des méthodes numériques.
Nous nous restreignons aux fonctionnelles convexes, car, si il est difficile de trouver la
solution de minimisation de problèmes non convexes, il est encore moins évident de
trouver des algorithmes qui convergent vers de telles solutions. Nous étudierons ici
les algorithmes de relaxation, où on fait les calculs successifs sur chaque variable, les
algorithmes de gradient, l’algorithme d’Uzawa, et, chose que je considère comme très
importante, la méthode de pénalisation des contraintes, qui est celle que nous avons
abordé dans l’étude du problème de Bolza.

6.0.4 Algorithme de relaxation


On suppose que l’on étudie un minimum sans contraintes pour J(v) = J(v1 , ..., vN ),
chaque vj étant élément d’un espace de Hilbert Vj . On suppose J α−convexe
différentiable. Le minimum existe et est unique. On note ce minimum (u1 , ..., uN ).
L’algorithme de relaxation utilise le fait que la restriction de J à Vj , toutes les
autres composantes étant fixées, est aussi α−convexe. On dit que c’est de la relaxation,
car on ‘ne traite pas’ toutes les composantes en même temps, on en relaxe une sur
laquelle on minimise.
Soit u0 = (u01 , .., u0N ) donné. On écrit une suite un = (un1 , .., unN ). Pour simplifier la
compréhension, on suppose N = 3, mais le résultat s’étend, avec une petite surchage
de notations, pour N quelconque.
On suppose le n−ième terme construit un = (un1 , un2 , un3 ). On résout

inf J(v1 , un2 , un3 ) = J(un+1


1 , un2 , un3 )
v1 ∈V1

puis
inf J(un+1
1 , v2 , un3 ) = J(un+1
1 , un+1
2 , un3 )
v2 ∈V2

enfin
inf J(un+1
1 , un+1
2 , v3 ) = J(un+1
1 , un+1
2 , un+1
3 ).
v3 ∈V3

63
64 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Exemple d’utilisation de la méthode de relaxation On considère la fonction-


nelle J(x1 , x2 ) = 21 (x21 + x22 + x1 x2 ) − αx1 − βx2 .
Son minimum est atteint en un point (x01 , x02 ) donné par

1 1
x1 + x2 = α, x2 + x1 = β
2 2
soit
4 2 4 2
x01 = α − β, x02 = β − α.
3 3 3 3
L’algorithme de relaxation consiste à partir du point (x, y) quelconque, puis à
déterminer le point où J(x1 , y) est minimum (c’est donc x11 = α − 21 y), évaluer le point
x2 où J(x11 , x2 ) est minimum, soit x12 = β − 12 x11 , et donc étudier la suite récurrente
1 1
xn+1
1 = α − xn2 , xn+1
2 = β − xn+1 .
2 2 1
On obtient ainsi une relation de récurrence qui est
4 2 1 4 2
xn+1
1 − ( α − β) = (xn1 − ( α − β))
3 3 4 3 3
qui conduit à
4 2 1 4 2
xn1 − ( α − β) = n [x11 − ( α − β)]
3 3 4 3 3
dont on a la convergence vers la valeur x01 .
Un résultat général est le suivant:

Théorème 6.1 On suppose que J est α−convexe différentiable et que, de plus J 0 est
Lipschitzien sur tout borné:

||J 0 (v) − J 0 (w)|| ≤ C||v − w||.


Alors la suite un construite par le procédé décrit converge vers la solution de

inf J(v1 , ..., vN ).


(v1 ,...,vn )∈V1 ×...×VN

Preuve On introduit, pour chaque i, la solution du i−ème problème intermédiaire.


Ainsi

un+1,1 = (un+1
1 , un2 , un3 ), un+1,2 = (un+1
1 , un+1
2 , un3 ), un+1,3 = (un+1
1 , un+1
2 , un+1
3 ).

On note Ji0 la dérivée de J par rapport à l’élément de Vj , tous les autres éléments
étant fixes:

J(v1 , .., vi + εwi , ..., vN ) − J(v)


(Ji0 (v1 , ..., vN ), wi ) = lim .
ε→0 ε
Comme un+1 i est solution d’un problème de minimisation avec une fonctionnelle
α−convexe, il est unique et Ji0 (un,i ) = 0.
65

Revenons à N = 3 pour alléger les notations. En utilisant l’α−convexité de J, on


écrit
α n,1
J(un ) − J(un,1 ) ≥ (J10 (un,1 ), un − un,1 ) + ||u − un ||2 ,
2
α n,2
J(un,1 ) − J(un,2 ) ≥ (J20 (un,2 ), un,1 − un,2 ) +
||u − un,1 ||2 ,
2
α
J(un,2 ) − J(un,3 ) ≥ (J30 (un,3 ), un,2 − un,3 ) + ||un,3 − un,2 ||2 ,
2
et en sommant les trois égalités et en utilisant les égalités d’Euler partielles
α n+1
J(un ) − J(un+1 ) ≥ ||u − un ||2 .
2
• Comme la suite J(un ) est ainsi décroissante, minorée par J(u), elle converge,
donc la différence J(un+1 ) − J(un ) tend vers 0, donc un+1 − un tend vers 0. Notons
que cela ne permet pas de conclure sur la convergence de un .
• La suite un est bornée. En effet, si elle ne l’était pas, il existerait une sous-suite
telle que ||un0 || tendrait vers l’infini. Ainsi, comme J est α−convexe, J(un0 ) tendrait
vers l’infini, ce qui est impossible car la suite J(un ) est décroissante. On peut alors
appliquer l’inégalité Lipschitz.
• On utilise l’α−convexité:

(J 0 (un ) − J 0 (u), un − u) = (J 0 (un ), un − u) ≥ α|un − u|2


puis la définition des dérivées partielles:

(J 0 (un ), un − u) = (Ji0 (un ), uni − ui )


X

puis les N équations d’Euler partielles1


(J 0 (un ), un − u) = i (Ji0 (un ) − Ji0 (un,i ), uni − ui )
P

≤ C i≤N −1 ||un − un,i ||||uni − ui ||


P
1
≤ C(N − 1) 2 ||un+1 − un ||.||un − u||.
Il vient alors, par l’inégalité d’α−convexité:
1
α||un − u||2 ≤ C(N − 1) 2 ||un+1 − un ||.||un − u||.
Cela donne
1
C(N − 1) 2 n+1
n
||u − u|| ≤ ||u − un ||.
α
On a démontré la convergence de un vers u et la majoration entre les deux suites.
1
noter la différence de notations entre un
i et u
n,i
, on l’explicite pour N = 3 et on utilise J30 (un,3 ) = 0:

(J 0 (un ), un −u) = (J10 (un n n 0 n n−1


1 , u2 , u3 )−J1 (u1 , u2 , u3n−1 ), un 0 n n n 0 n n n−1
1 −u1 )+(J2 (u1 , u2 , u3 )−J2 (u1 , u2 , u3 ), un
2 −u2 )

ce qui permet d’utiliser le caractère Lipschitz, pour avoir


2 1
2 2

(J 0 (un ), un −u) ≤ C[(||u2n−1 −un 2 || +||u3
n−1
−un n n
3 || ) ||u1 −u1 ||+||u3 −u3
n−1
||.||un
2 −u2 ||] ≤ C 2||u
n+1
−un ||.||un −u||
√ 2 2 1
grâce à ||un n
1 − u1 || + ||u2 − u2 || ≤ 2(||un n
1 − u1 || + ||u2 − u2 || ) 2 ce qui achève la preuve de l’inégalité.
66 CHAPTER 6. APPROXIMATION DE SOLUTIONS

6.1 Algorithmes de descente


On commence par la définition d’une direction de descente. Pour cela, on se place en
un point u du domaine d’étude, pour une fonctionnelle J et on cherche des points v
tels que J(v) < J(u) et v aussi dans le domaine. On en déduit qu’il suffit que v − u
soit une direction admissible pour  = 1.
Ceci nous amène à la

Définition 6.1 Soit J une fonctionnelle continue sur V , espace de Hilbert et soit K
l’espace des contraintes. On dit que d est une direction de descente au point u de K
si
i) d est une direction admissible de K̇(u)
ii) Il existe ρ0 > 0 tel que

∀ ∈]0, ρ0 [, J(u + d) < J(u).

On peut aussi écrire une définition plus générale, qui tienne compte des contraintes
égalités:

Définition 6.2 On suppose que d ∈ K(u) et que, de plus, il existe 0 > 0 et d()
tels que d() → d et ∀ < 0 , u + d() ∈ K (généralisation continue de la direction
admissible au sens de Fréchet).
On dit que d est une direction de descente limite au point u de K si il existe 1 ≤ 0
tel que
pour 0 <  < 1 , on a J(u + d()) < J(u).

Il est alors clair que

Lemme 6.1 Si d est une direction de descente, c’est une direction de descente limite.

Ceci est une conséquence du fait que si d est une direction de descente, d ∈ K̇(u)
donc d ∈ K(u) et la suite que l’on peut définir est d() = d.
On a alors le résultat suivant

Lemme 6.2 Si J est différentiable en u et si (J 0 (u), d) < 0, d direction admissible


continue, alors d est une direction de descente limite.

Comme d est une direction admissible continue, il existe d() et 0 tels que, pour
 < 0 , u + d() soit dans K. Comme J est différentiable en u, on peut écrire l’égalité
de Taylor définissant la dérivabilité au sens de Fréchet:

J(u + d()) = J(u) + [(J 0 (u), d) + (J 0 (u), d() − d) + o(1)].


On sait que (J 0 (u), d) < 0 et la forme linéaire représentée par J 0 (u) est continue
donc (J 0 (u), d() − d) + o(1) tend vers 0. Il existe 1 < 0 tel que, pour  < 1 ,
|(J 0 (u), d() − d) + o(1)| ≤ − 21 (J 0 (u), d). Ainsi, pour de tels  on trouve [(J 0 (u), d) +
(J 0 (u), d() − d) + o(1)] < 0, donc J(u + d()) < J(u), ce qu’il fallait démontrer.
Remarque: la réciproque est fausse. Il suffit de prendre la fonction J(x, y) =
−(x4 + y 4 ). Au point (0, 0), toute direction est une direction de descente continue et
pourtant la dérivée est la forme différentielle nulle. Si on prend J(x, y) = x + y −
6.2. CAS CLASSIQUES D’ALGORITHMES DE DESCENTE 67

(x4 + y 4 ), la forme linéaire dérivée est (J 0 (0, 0), h1 , h2 ) = h1 + h2 , et toute direction


telle que h1 + h2 ≤ 0 est une direction de descente.
La définition où on étudie le point u+d n’est pas adaptée aux contraintes égalités,
pour lesquelles la bonne notion (pour une direction admissible) est la notion de direc-
tion admissible continue. En fait, avoir à la fois le paramètre  et la direction d() qui
varient n’est pas pratique dans l’écriture d’un algorithme. On écrit donc un résultat,
qui permet de s’affranchir du cas des contraintes égalité:

Proposition 6.1 Soit J une fonctionnelle différentiable sur un espace de Hilbert V


et F une fonctionnelle différentiable. Le problème:
(
infJ(v)
v ∈ K, F (v) = 0

est équivalent, pour tous les points u où F (u) = 0, F 0 (u) 6= 0, à un problème de
minimisation sur (F 0 (u))⊥ de la forme

{v + tF 0 (u) ∈ K, t = g(v), v ∈ (F 0 (u))⊥ }


pour la fonctionnelle J˜(v) = J(v + g(v)F 0 (u)).

Ceci est un résultat de réduction des variables. On en verra l’utilisation plus loin,
lorsqu’on étudiera l’algorithme de gradient réduit.
Comme F 0 (u) est non nul, il définit une droite vectorielle dans l’espace de Hilbert,
qui est un fermé convexe. Ainsi tout point w de l’espace de Hilbert se projette en un
point φ(w)F 0 (u), et on a w − φ(w)F 0 (u) dans l’espace orthogonal à F 0 (u).
L’égalité F (v + u + tF 0 (u)) = 0 a pour solution t = 0, v = 0 car u vérifie F (u) = 0.
Pour chaque v dans (F 0 (u))⊥ , on trouve, par le théorème des fonctions implicites (dû
à ∂t (F (v + u + tF 0 (u))) = ||F 0 (u)||2 > 0) une unique solution de l’égalité ci-dessus, soit
t = g(v). Alors, au voisinage de u, on étudie pour tout v dans l’intersection Iu d’une
boule de petit rayon et de (F 0 (u))⊥ , la fonctionnelle sous les contraintes. On voit alors
que pour tout v dans Iu , le problème de minimisation s’écrit u + v + tF 0 (u) ∈ K et
u+v+tF 0 (u) ∈ {F (w) = 0}, soit u+v+tF 0 (u) ∈ K et t = g(v), soit u+v+g(v)F 0 (u) ∈
K. Ainsi on s’est ramené à la fonctionnelle J(v) ˜ = J(u+v +g(v)F 0 (u)) et au problème

˜

 infJ(v)

v∈I u
 v + g(v)F 0 (u) ∈ K

La contrainte égalité a ainsi été résolue. On note cependant que résoudre un


problème numérique en utilisant le théorème des fonctions implicites est quasiment
impossible, sauf si les contraintes sont affines.

6.2 Cas classiques d’algorithmes de descente


Un algorithme de descente est donné par la définition suivante:

Définition 6.3 Un algorithme de descente est une suite de points de V × V × IR+ ,


qui s’écrit
68 CHAPTER 6. APPROXIMATION DE SOLUTIONS

(un , dn , ln )
telle que
i) dn est une direction de descente en xn pour J, associée à ρn tel que J(un +dn ) <
J(un ) pour 0 <  < ρn
ii) ln est un pas vérifiant 0 < ln < ρn
iii) un+1 = un + ln dn .

Les algorithmes les plus courants sont des algorithmes de recherche linéaires.
En effet, ces algorithmes conduisent, une fois la direction de descente choisie, à la
recherche d’une valeur réelle qui est la valeur du pas. On suppose ainsi que, à chaque
étape, la direction de descente dn soit choisie. Nous allons décrire dans ce qui suit un
certain nombre d’algorithmes.
Dans tous les cas, on notera, par souci de simplicité

φ() = J(u + d). (6.2.1)

6.2.1 Pas optimal


Définition 6.4 Pour chaque couple (u, d), on note, si elle existe, la solution du
problème

Min≥0 J(u + d) = Min≥0 φ().


Il s’appelle le pas optimal.

L’algorithme dit du pas optimal conduit à associer, à chaque (un , dn ), le point n


construit par la définition 6.4. C’est l’algorithme le plus satisfaisant, en théorie, mais
il conduit à déterminer la solution d’un problème de minimisation chaque fois.

6.2.2 Pas de Curry


Le pas de Curry est donné par:
Définition 6.5 Le pas de Curry est le premier extremum local de φ, soit encore

lc = inf{ > 0, φ0 () = 0}.


Alors φ(lc ) < φ(0), et pour 0 ≤  ≤ lc , φ() ≥ φ(lc ).
Comme φ0 ne s’annule pas sur ]0, lc [, φ0 garde le même signe sur cetR intervalle, soit
φ0 ≥ 0 ou φ0 ≤ 0. Dans le cas φ0 ≥ 0, on vérifie que φ() − φ(0) ≥ 0 φ0 (t)dt, ainsi
φ() ≥ φ(0), contradiction avec le fait que d soit une direction de descente.
Ainsi φ0 () ≤ 0 sur [0, lc ]. Pour  ∈ [0, lc ], on vérifie
Z lc
φ(lc ) − φ() = φ0 (t)dt

donc, pour 0 ≤  ≤ lc , on trouve φ(lc ) ≤ φ().
Dans le cas où lc est un point d’inflexion, on ne peut bien sûr pas conclure sur le
fait que lc soit un minimum local. En revanche, on sait que pour cette valeur, φ(lc )
est le minimum de φ sur [0, lc ].
6.2. CAS CLASSIQUES D’ALGORITHMES DE DESCENTE 69

6.2.3 Pas de Goldstein


Définition 6.6 On dit que lg est un pas de Goldstein si il existe m1 , m2 tels que
0 < m1 < m2 < 1 tels que
(
φ(lg ) ≤ φ(0) + m1 lg φ0 (0)
φ(lg ) ≥ φ(0) + m2 lg φ0 (0)

C’est un pas pseudo optimal, qui vérifie

φ(lg ) − φ(0)
0 < m1 ≤ ≤ m2 < 1.
lg φ0 (0)
Exemples:
figure 1 figure 2
Dans la situation de la figure 2, il n’existe pas de pas de Goldstein, mais en revanche
on a ∀ ∈ [0, ρ0 ], φ() ≤ φ(0) + φ0 (0), ce qui fait que l’on peut choisir pour  la valeur
ρ0 , même si cela a un inconvénient, comme on le verra ci-dessous.
La situation importante est la situation où il existe au moins 1 , 0 < 1 < ρ0 tel
que

φ(0) + 1 φ0 (0) < φ(1 ) < φ(0).


Dans ce cas, on a la

Proposition 6.2 i) Si φ() ≤ φ(0) + φ0 (0) pour tout  ∈ [0, ρ0 ], il n’existe pas de pas
de Goldstein.
ii) Dans le cas contraire, il existe m1 , m2 ∈]0, 1[, m1 < m2 tel que l’ensemble des
points l vérifiant les inégalités de la définition 6.6 soit non vide.
iii) Toujours dans le cas contraire, il existe 2 > 0 et M > 0 (dans le cas où la
fonctionnelle admet un minimum) tel que, pour tout lg , 2 ≤ lg ≤ M .

Selon le point iii), il y a une borne supérieure pour lg , et lg n’est pas trop petit. Ces
deux remarques sont importantes, et en particulier si on avait φ() ≤ φ(0) + φ0 (0) on
n’aurait pas de majorant a priori de .
Preuve:
On note m = φ(11φ)−φ(0)
0 (0) . On sait que m ∈]0, 1[ et si on choisit m1 < m < m2 ,
l’ensemble des pas de Goldstein associés à [m1 , m2 ] est non vide. En effet, définissons
h() = φ()−φ(0)
φ0 (0) et, par continuité, h(0) = 1. La fonction h est une fonction continue.
Par le théorème des valeurs intermédiaires, comme h(0) = 1 et h(1 ) = m, l’image
réciproque dans [0, 1 ] de [m, m2 ] ⊂ [m, 1] est non vide. Tout point de [m, m2 ] a au
moins un antécédent par h, qui est un pas de Goldstein.
D’autre part, l’image réciproque de ]m2 , 1] contient un voisinage [0, 2 ] de  = 0
puisque h(0) = 1. Ainsi on a ∀ ∈ h−1 (]m2 , 1]),  n’est pas un pas de Goldstein, donc
si lg est un pas de Goldstein, lg ≥ 2 .
Enfin, on ne peut pas avoir  → ∞. En effet, cela impliquerait que pour tout ,
ou au moins pour une suite n tendant vers +∞, la relation

φ(n ) − φ(0)
≥ m1
n φ0 (0)
70 CHAPTER 6. APPROXIMATION DE SOLUTIONS

soit φ(n ) ≤ φ(0) + m1 φ0 (0)n . Il existe donc une suite n telle que J(u + n d) → −∞,
et le minimum n’existe pas.

6.2.4 Pas de Wolfe


Définition 6.7 lw est un pas de Wolfe si il existe m1 , m2 , 0 < m1 < m2 < 1 tels que
(
φ(lw ) ≤ φ(0) + m1 lw φ0 (0)
φ0 (lw ) ≥ m2 φ0 (0)

Ce pas de Wolfe a les mêmes propriétés que celui de Goldstein; en effet on a

Proposition 6.3 i) Si φ0 () ≤ φ0 (0) pour tout  ∈ [0, ρ0 [, il n’existe pas de pas de
Wolfe. (On note que cela implique qu’il n’existe pas de pas de Goldstein).
ii) Dans le cas contraire, il existe (m1 , m2 ) tels que l’ensemble des points l vérifiant
les inégalités de la définition 6.7 est non vide.
iii) Il existe 02 > 0 et M > 0 tels que lw ≥ 02 , lw ≤ M .

Preuve
φ0 (1 )
Si 1 donné tel que φ0 (1 ) > φ0 (0), alors m = φ0 (0) < 1 et donc on choisit
φ0 (0) φ0 ()
m2 ∈]m, 1[. Comme φ0 (0) = 1 et que la fonction  → φ0 (0) est continue, par le
théorème des valeurs intermédiaires, tout point de ]m, 1] a au moins un antécédent,
et l’image réciproque de ]m2 , 1] contient un voisinage de 0. On prend un point l de
(φ0 )−1 [m2 φ0 (0), mφ0 (0)], ainsi l ≥ 02 .
La fonction  → φ()−φ(0)
φ0 (0) est continue sur le compact [02 , ρ0 ] et ne s’annule pas sur
cet intervalle, donc
φ() − φ(0)
inf∈[02,ρ0 ] = α > 0.
φ0 (0)
Si on choisit 0 < m1 < α, on trouve que pour tout  ∈ [02 , ρ0 ], φ()−φ(0)
φ0 (0) ≥ α, donc 
est un pas de Wolfe.
Enfin, si on était dans le cas ρ0 = +∞ et si il existait une suite de pas de Wolfe
qui tendait vers +∞, il existe donc n telle que φ(n ) ≤ φ(0) + m1 n φ0 (0), donc
J(u + n d) → −∞ et le minimum n’existe pas.

6.3 Résultats de convergence


On a le

Théorème 6.2 On suppose J continuement différentiable et on suppose que l’on a un


algorithme de descente (un , dn , ln ) vérifiant ||dn || = 1. On suppose qu’il existe α > 0
tel que

(H) (J 0 (un ), dn ) ≤ −α|dn ||J 0 (un )| = −α|J 0 (un )|.


i) Si, à chaque étape n, ln est un pas de Curry ou de Wolfe, et si la suite un
converge, elle converge vers une solution de J 0 (u) = 0.
ii) si ln est un pas de Goldstein ou de Wolfe, alors J(un ) → −∞ ou lim inf||J 0 (un )|| =
0.
6.3. RÉSULTATS DE CONVERGENCE 71

On démontre ce théorème.
Preuve de i)
On suppose que la suite un converge (dans le cas du pas de Curry). Ainsi, comme
un+1 − un tend vers 0, ln tend vers 0 puisque dn est de norme 1. D’autre part, comme
J est continuement différentiable, la dérivée de φ est

φ0 () = (J 0 (un + dn ), dn ).


Dans le cas où ln est le pas de Curry, on a (J 0 (un + ln dn ), dn ) = 0. D’autre part

(J 0 (un + ln dn ) − J 0 (un ), dn ) = −(J 0 (un ), dn ) ≥ α||J 0 (un )||.


On a l’inégalité

|(J 0 (un + ln dn ) − J 0 (un ), dn )| ≤ ||J 0 (un + ln dn ) − J 0 (un )||


On trouve alors

1 0
||J 0 (un )|| ≤ ||J (un + ln dn ) − J 0 (un )||.
α
Comme J 0 est continue, on vérifie que J 0 (un+1 ) − J 0 (u) − (J 0 (un ) − J 0 (u)) tend vers
0 dans l’espace des formes linéaires, donc on en déduit que J 0 (un ) tend vers 0.
D’autre part, la suite J(un ) est strictement décroissante (par construction) donc
comme un converge vers u, la suite J(un ) converge vers J(u) et la suite J 0 (un ) converge
vers J 0 (u). On en déduit J 0 (u) = 0. Le point i) est démontré pour le pas de Curry.
Démontrons le point i) pour la règle de Wolfe. On suppose que un converge. Par
continuité J(un ) converge vers J(u) et J 0 (un ) converge vers J 0 (u). On a (J 0 (un ), dn ) ∈
[−α||J 0 (un )||, 0] donc toute suite extraite convergente de (J 0 (un ), dn ) converge vers une
limite l dans l’intervalle [−α||J 0 (u)||, 0].
On utilise la deuxième inégalité du pas de Wolfe. On a alors (J 0 (un+1 ), dn ) ≥
m2 (J 0 (un ), dn ). On note que si on prend une suite extraite convergente de (J 0 (un ), dn ),
notée (J 0 (uφ(n) ), dφ(n) ), la suite (J 0 (uφ(n)+1 ), dφ(n) ) converge aussi vers l car la différence
est majorée par un terme tendant vers 0 par continuité de J 0 et convergence de la suite
un . Ainsi, l qui est négatif vérifie l’inégalité l ≥ m2 l, soit (1 − m2 )l ≥ 0 donc l = 0.
On a démontré le point i) pour la règle de Wolfe.
Démontrons le point ii). Pour cela, suposons que liminf||J 0 (un )|| = α0 > 0. Alors
il existe N assez grand tel que, pour tout n ≥ N on ait ||J 0 (un )|| > α20 . Si cela
n’était pas le cas, il existerait un nombre infini de termes de cette suite de nombres
positifs qui sont compris entre 0 et α20 , donc il existerait une sous-suite extraite de
cette suite qui convergerait vers une valeur comprise entre 0 et α20 , contradictoire avec
l’hypothèse que α0 est la plus petite des limites des suites extraites.
On en déduit alors
αα0
||un+1 − un || ≤ J(un ) − J(un+1 ).
2
Si J(un ), qui est une suite décroissante, ne tend pas vers −∞, alors elle tend vers
une limite l et la série de terme général (J(un ) − J(un+1 )) est une série convergente,
donc la somme de la série u1 + n (−un + un+1 ) existe, et on la note u, qui est la
P

limite de la suite un . Deux cas se présentent: l’application de la règle de Wolfe et de


celle de Goldstein.
72 CHAPTER 6. APPROXIMATION DE SOLUTIONS

i) Règle de Wolfe. D’après le i), comme un a une limite, notée u, on sait que la
suite J 0 (un ) est convergente et que sa limite est J 0 (u) = 0, ce qui est contradictoire
avec l’hypothèse que la limite inf de ||J 0 (un )|| est nulle.
On a donc démontré que liminf||J 0 (un )|| = α0 > 0 ⇒ J(un ) → −∞. On en déduit
que si J(un ) converge vers une limite finie, alors liminf||J 0 (un )|| = 0. Notons qu’on ne
peut pas conclure directement que la suite un converge.
ii) Règle de Goldstein
On suppose donc que la suite J(un ) converge vers une limite l. On suppose aussi
que liminf||J 0 (un )|| = α0 > 0. Ceci implique que la suite un est convergente, et sa
limite est notée u. Par continuité de J et de J 0 , J(un ) tend vers J(u) et J 0 (un ) tend
vers J 0 (u). Contrairement à la règle de Wolfe, on n’a pas d’autre information sur la
dérivée. En effet, l’information sur la limite inf nous apprend que ||J 0 (un )|| ≥ α20 pour
n ≥ n0 , mais on n’a pas le même résultat pour (J 0 (un ), dn ).
On sait, par la règle de Goldstein, que

J(un ) − J(un+1 )
∈ [m1 , m2 ].
(J 0 (un ), un − un+1 )

Dans le cas où on suppose que J 0 est uniformément continue sur un


borné contenant u, alors pour n assez grand comme la suite un converge vers u, les
points un sont dans ce borné. Ainsi on aura

Z 1
−J(un ) + J(un+1 ) = (J 0 (un + θ(un+1 − un )), un+1 − un )dθ
0

donc on en déduit que

|J(un ) − J(un+1 ) − (J 0 (un ), un+1 − un )| ≤ ||un+1 − un ||, n ≥ n .

Ainsi, divisant les deux membres par (J 0 (un ), un+1 − un ) et utilisant l’inégalité
(J 0 (u 0 0
n ), dn ) ≤ −α||J (un )||, dans le cas où J (un ) ne tend pas vers 0, pour n ≥ n ,

J(un ) − J(un+1 ) ||un+1 − un ||   2


| 0
−1| ≤ 0
= 0
≤ 0
≤ .
(J (un ), un+1 − un ) |(J (un ), un+1 − un )| |(J (un ), dn )| α||J (un )|| αα0

n )−J(un+1 )
On en déduit que le quotient (JJ(u
0 (u ),u
n n+1 −un )
tend vers 1. Comme ce quotient appar-
tient à [m1 , m2 ] et que m2 < 1 il y a contradiction. Le résultat est démontré sous
l’hypothèse d’uniforme continuité ou de continuité dans un borné en dimension finie.
Remarque 1 : le i) peut s’étendre à toute sous-suite convergente dans le cas où
la suite ln tend vers 0. On note que ceci n’implique pas que la suite un converge :
exemple si dn = e1 pour tout n et si ln = n1 alors il n’y a pas convergence de un .
Remarque 2 :Pour la règle de Goldstein, il suffit, en dimension finie que J vérifie
l’une des deux conditions suivantes :
(*) J 0 est uniformément Lipschitz sur tout borné
(**) la fonctionnnelle J est deux fois Fréchet dérivable à dérivée continue (qui
implique la condition (*) et qui se retrouve le plus fréquemment)
6.4. ALGORITHMES DE GRADIENT 73

6.4 Algorithmes de gradient


6.4.1 Définition
On commence par le résultat suivant, qui nous donnera l’algorithme de gradient

Proposition 6.4 Soit φ(l, d) = J(un + ld). On suppose J 0 (un ) 6= 0.

inf φ0 (0, d) = −||J 0 (un )||


||d||=1

(un ) 0
et ce minimum est atteint pour d = − ||JJ 0 (u n )||
.

On note que φ0 (0, d) = −(J 0 (un ), d). On a, par l’inégalité triangulaire

|φ0 (0, d)| ≥ −||d||||J 0 (un )||


et l’égalité est atteinte dans le cas d’égalité pour Cauchy-Schwartz, soit pour d colinéaire
à J 0 (un ), ce qui correspond au vecteur indiqué.
La direction du gradient est, parmi les directions de norme 1, la meilleure pour
le taux de décroissance de la fonctionnelle. C’est par ce type d’algorithme que l’on
recherche la solution de f = 0 par la méthode de Newton.

6.4.2 L’algorithme de gradient à pas optimal


On démontre le

Théorème 6.3 Soit J une fonctionnelle α−convexe sur un espace de Hilbert H, telle
que J 0 est uniformément continue sur tout borné. La suite, définie par la relation

un+1 = un − µn J 0 (un ),
où µn est la solution unique de J 0 (un − µJ 0 (un )) = 0 qui s’appelle l’algorithme de gra-
dient à pas optimal, converge vers l’unique valeur qui rend minimum la fonctionnelle
J.

L’agorithme de gradient à pas optimal est défini par la suite

un+1 = un − µJ 0 (un )
et on cherche un+1 = inf µ∈IR J(un − µJ 0 (un )). Il est clair que la dérivée de φ(µ) =
J(un − µJ 0 (un )) est donnée par

φ0 (µ) = −(J 0 (un − µJ 0 (un )), J 0 (un )).


Comme J est α−convexe, lorsque J 0 (un ) 6= 0 (ce qui correspond au cas où on n’a pas
atteint le point de minimum) on a φ α(||J 0 (un )||2 )−convexe. En effet

(J 0 (un − µ1 J 0 (un )) − J 0 (un − µ2 J 0 (un )), un − µ1 J 0 (un ) − un + µ2 J 0 (un ))


≥ α||un − µ1 J 0 (un ) − un + µ2 J 0 (un ))||2
= α(µ2 − µ1 )2 ||J 0 (un )||2 .

En remplaçant la différence, on trouve


74 CHAPTER 6. APPROXIMATION DE SOLUTIONS

(φ0 (µ1 ) − φ0 (µ2 ), µ1 − µ2 ) ≥ α(µ2 − µ1 )2 ||J 0 (un )||2


d’où l’α−convexité de φ. Le problème de minimisation admet donc une solution
unique µn . De plus, µn est solution de φ0 (µn ) = (J 0 (un − µn J 0 (un )), J 0 (un )) = 0, on
en déduit que (J 0 (un+1 ), J 0 (un )) = 0 et deux directions de descente successives sont
orthogonales.
La démonstration du théorème 6.3 s’appuie sur l’inégalité de convexité
α n+1
J(un ) − J(un+1 ) ≥ (J 0 (un+1 ), un − un+1 ) + ||u − un ||2
2
et sur l’égalité un+1 − un = −µn J 0 (un ), ce qui annule le premier terme de l’inégalité
ci-dessus car (J 0 (un+1 ), J 0 (un )) = 0.
On a donc démontré que J(un ) − J(un+1 ) ≥ α2 ||un − un+1 ||2 . La suite J(un ) est
décroissante, bornée par le minimum de J, donc elle converge, donc on en déduit que
||un − un+1 || tend vers 0.
D’autre part, on vérifie que

||J 0 (un )||2 = (J 0 (un ), J 0 (un ) − J 0 (un+1 ))


car deux directions successives sont orthogonales. Ainsi

||J 0 (un )|| ≤ ||J 0 (un ) − J 0 (un+1 )||.


D’autre part, la suite un est bornée. En effet, si elle ne l’était pas, il existerait
une sous suite uφ(n) qui tendrait, en norme, vers +∞, et comme la fonctionnelle
J est α−convexe, elle est infinie à l’infini et la suite J(uφ(n) ) tendrait vers +∞,
contradiction. Dans ce cas, en utilisant l’uniforme continuité sur une boule fermée
qui contient tous les termes de la suite un , on en déduit que ||J 0 (un ) − J 0 (un+1 )|| ≤
C||un − un+1 ||. On a alors

2 1 q
||J 0 (un )|| ≤ C||un − un+1 || ≤ ( ) 2 C J(un ) − J(un+1 ).
α
On en déduit la convergence de la suite J 0 (un ) vers 0. On note u le point où J est
minimale. Par la coercivité

(J 0 (un ) − J 0 (u), un − u) ≥ α||un − u||2 .


Par l’inégalité de Cauchy-Schwarz, on trouve

α||un − u||2 ≤ ||J 0 (un )||.||un − u||


ce qui implique

1 0 n
||un − u|| ≤ ||J (u )||
α
donc

1 2 1 q
||un − u|| ≤( ) 2 C J(un ) − J(un+1 )
α α
et donc la suite un converge vers u.
6.4. ALGORITHMES DE GRADIENT 75

Proposition 6.5 Pour que les hypothèses du théorème 6.3 soient vérifiées, il suffit
que J vérifie
i) soit J fonctionnelle α−convexe dérivable, J 0 continue en dimension finie
ii) soit J fonctionnelle α−convexe dérivable, J 0 Lipschitzienne sur tout borné en
dimension infinie
iii) soit J est une fonctionnelle deux fois Fréchet dérivable, telle que la dérivée
seconde soit autoadjointe et vérifie

m||w||2 ≤ (J 00 (u)w, w) ≤ M ||w||2


avec m > 0.
On remarque que ces conditions sont telles que iii) → ii) → i).

Ce résultat provient de l’uniforme continuité sur un compact d’une fonctionnelle


continue en dimension finie.

6.4.3 Algorithme de gradient à pas constant


Théorème 6.4 On a convergence de l’algorithme de gradient à pas fixe, seulement
si J 0 est Lipschitzien sur V tout entier, lorsque 0 < µ < 2α
C .

La preuve est plus simple. On écrit un+1 −un = −µJ 0 (un ). Ainsi, soit u la solution
On trouve un+1 − u = un − u − µ(J 0 (un ) − J 0 (u)). On utilise un argument de type
“théorème du point fixe”. Ainsi

||un+1 − u||2 = ||un − u||2 − 2µ(J 0 (un ) − J 0 (u), un − u) + µ2 ||J 0 (un ) − J 0 (u)||2
≤ (1 − 2µα + µ2 C 2 )||un − u||2

où C est la constante de Lipschitz de J 0 sur tout l’espace de Hilbert. La démonstration


est terminée car la suite ||un − u|| est alors majorée par une suite géométrique con-
vergeant vers 0.

6.4.4 Taux de convergence de l’algorithme du gradient en dimension


finie
Le but de cette section est de démontrer le résultat suivant:

Théorème 6.5 On suppose J de classe C 2 , α−convexe et on suppose que le Hilbert


V est de dimension finie d. Soit u la valeur du point où J atteint son minimum. On
note λmax et λmin les plus grande et plus petite valeur propre de la matrice hessienne
(définie positive) J”(u). On désigne par

λmax
γ= .
λmin
γ−1
Cette valeur s’appelle le conditionnement de J”(u). On note β = γ+1 , et si β est
proche de 1, l’algorithme peut converger très lentement. On dit dans ce cas que la
matrice J”(u) est mal conditionnée.
i) Lorsque J est quadratique, l’algorithme de gradient vérifie l’inégalité:
76 CHAPTER 6. APPROXIMATION DE SOLUTIONS

||un+1 − u||J”(u) ≤ β n ||u1 − u||J”(u) .


ii) Lorsque J est quelconque, l’algorithme de gradient vérifie l’inégalité
γ−1
∀β > , ∃n0 ,
γ+1

∀n ≥ n0 , ||un+n0 − u|| ≤ Dβ n ||un0 − u||.

Ce théorème est très important de manière théorique, mais la valeur du condi-


tionnement est difficilement accessible donc il est difficile à utiliser en pratique. Sa
démonstration se fait en deux temps:
i) on le démontre pour J(x) = 21 (Ax, x)
ii) on le démontre dans le cas général.
On se place d’abord dans le cas J(x) = 21 (Ax, x).
Pour toute fonctionnelle quadratique, on peut se ramener à ce cas car si A est
définie positive symétrique, on note x0 la solution de Ax = b et la forme quadratique
(qui par définition a pour dérivée seconde A) vérifie Q(x)− 12 (Ax, x) est affine continue,
donc par le théorème de représentation de Riesz, Q(x) − 21 (Ax, x) − Q(0) étant linéaire
continue, il existe b telle que Q(x) − 12 (Ax, x) − Q(0) = (b, x). On vérifie alors que
Q(x) − Q(0) = 12 (A(x − x0 ), x − x0 ) − 12 (Ax0 , x0 ).
Une fois la représentation précédente obtenue, on introduit φ(l) = J(u − lJ 0 (u)).
On a

1 1 l2
φ(l) = J(u − lAu) = (Au − lA2 u, u − lAu) = (Au, u) − l(A2 u, u) + (A2 u, Au).
2 2 2
(Au,Au)
On en déduit que la valeur du pas optimal est l = (A2 u,Au) et que la valeur de φ est

1 (Au, Au)2 (Au, Au)2


[(Au, u) − 2 ] = J(u)(1 − 2 ).
2 (A u, Au) (A u, Au)(Au, u)

Le résultat dans ce cas s’appuie alors sur le lemme de Kantorovitch:

Lemme 6.3 On a l’inégalité, pour A matrice symétrique définie positive:

(y, y)2 4λmin λmax


∀y ∈ IRm \0, −1
≥ .
(Ay, y)(A y, y) (λmin + λmax )2

On admet pour l’instant ce résultat.


On a alors, dans notre suite, la relation

(Aun , Aun )2
J(un+1 ) = J(un )(1 − ).
(A2 un , Aun )(Aun , un )
Dans cette égalité, on prend yn = Aun et on utilise le lemme de Kantorovitch.
Alors on trouve

4λmin λmax λmax − λmin 2


J(un+1 ) ≤ J(un )(1 − 2
)=( ) .
(λmax + λmin ) λmax + λmin
6.4. ALGORITHMES DE GRADIENT 77

p
Comme ||un ||A = 2J(un ), on trouve l’inégalité

||un+1 − 0||A ≤ β||un − 0||A

d’où la convergence géométrique de la suite un vers 0.


Nous passons à l’étude dans le cas général. Pour ce faire, on utilise la formule de
Taylor avec reste intégral pour J et pour J 0 . Pour simplifier les notations, on effectue
une translation sur l’inconnue u pour se ramener au minimum u = 0 et on change
J(u) en J(u) − l où l est le minimum de J.
Les formules de Taylor s’écrivent

Z 1 1
Z 1
J(u) = 00
(1−θ)(J (0+θu)u, u)dθ = (J 00 (0)u, u)+([ (1−θ)(J 00 (θu)−J 00 (0))]u, u).
0 2 0

Z 1
0 00
J (u) = J (0)u + ( J 00 (θu)dθ − J 00 (0))u
0
1 00
que l’on écrira pour simplifier J(u) = 2 (J (0)u, u)+ (Q(u)u, u) et J 0 (u) = J 00 (0)u +
R(u)u, où Q et R, par la continuité de la dérivée seconde au sens de Fréchet, sont
égales à o(1) (c’est à dire tendent vers 0 lorsque u tend vers 0).
On sait déjà que l’algorithme du gradient converge, donc il existe n0 tel que
||un || ≤ δ0 pour n ≥ n0 . On cherche donc, pour u donné l’unique solution de
(J 0 (u − µJ 0 (u)), J 0 (u)) = 0. On note, comme précédemment, φ(µ) = J(u − µJ 0 (u)),
φ0 (µ) = −(J 0 (u − µJ 0 (u)), J 0 (u)), φ00 (µ) = (J 00 (u − µJ 0 (u))J 0 (u), J 0 (u)).
On vérifie que

−φ0 (µ) = (J 00 (0)(u − µJ 0 (u)) + R(u − µJ 0 (u))(u − µJ 0 (u)), J 00 (0)u + R(u)u)


= (J 00 (0)u, J 00 (0)u) − µ(J 00 (0)J 0 (u), J 00 (0)u)
+R(u − µJ 0 (u))(u − µJ 0 (u)), J 00 (0)u + R(u)u) .
= (J 00 (0)u, J 00 (0)u) − µ(J 00 (0)2 u, J 00 (0)u) − µ(J 00 (0)R(u)u, J 00 (0)u)
+R(u − µJ 0 (u))(u − µJ 0 (u)), J 00 (0)u + R(u)u)

Ainsi si on étudie, pour u tendant vers 0, la solution de φ0 (µ) = 0, on trouve que µ


(J 00 (0)u,J 00 (0)u)
est proche de µ0 (u) = (J 00 (0)2 u,J 00 (0)u) , qui est homogène de degré 0 en u, non singulier

car la matrice J”(0) est symétrique définie positive. On écrit alors µ = µ0 + β. On


trouve

−φ0 (µ) = −β(J 00 (0)2 u, J 00 (0)u) − (µ0 + β)(J 00 (0)R(u)u, J 00 (0)u)


+R(u − (µ0 + β)J 0 (u))(u − (µ0 + β)J 0 (u)), J 00 (0)u + R(u)u).

La relation φ0 (µ) = 0 s’écrit alors aussi sous la forme

(J 00 (0)R(u)u, J 00 (0)u) R(u − (µ0 + β)J 0 (u))(u − (µ0 + β)J 0 (u)), J 00 (0)u + R(u)u)
β+(µ0 +β) − = 0.
(J 00 (0)2 u, J 00 (0)u) (J 00 (0)2 u, J 00 (0)u)
On vérifie alors que, par le théorème des fonctions implicites, il existe une fonction
β(u) telle que β(u) = o(1) c’est-à-dire tend vers 0 avec ||u||. Cette valeur de β(u)
détermine l’unique pas optimal.
On calcule alors
78 CHAPTER 6. APPROXIMATION DE SOLUTIONS

J(u − (µ0 + β(u))J 0 (u)).


On s’intéresse au point de base. Il reste

φ(u) = u − (µ0 + β(u))J 0 (u) = u − µ0 J”(0)u − β(u)J”(0)u − µ0 R(u)u

et ce terme peut s’écrire

φ(u) = u − µ0 J”(0)u + S(u)u


où S(u) = β(u)J”(0) + µ0 R(u), et tend vers 0 dans l’espace des matrices comme ||u||.
On a alors J(φ(u)) = 12 (J”(0)(u − µ0 J”(0)u + S(u)u), u − µ0 J”(0)u + S(u)u) +
(Q(φ(u))φ(u), φ(u)). On remarque alors que, comme φ(u) = u − µ0 J”(0)u + S(u)u,
pour ||u|| assez petit on trouve que ||φ(u)|| ≤ C||u||. Ainsi on trouve
1
J(φ(u)) = (J”(0)(u − µ0 J”(0)u), u − µ0 J”(0)u) + (u)||u||2 ,
2
où le terme (u) tend vers 0 avec ||u||.
On reconnait le calcul dans le cas de la forme quadratique 12 (Au, u), ce qui donne
tout de suite

1 (J”(0)u, J”(0)u)2
J(φ(u)) = (J”(0)u, u)(1 − ) + (u)||u||2 .
2 (J”(0)u, u)((J”(0))2 u, J”(0)u)

Enfin, on reconnait que J(u) = 21 (J”(0)u, u)(1+η(u)) avec η(u) tend vers 0 comme
||u|| puisque J”(0) est symétrique définie positive donc (J”(0)u, u) ≥ λmin ||u||2 . Ainsi
il vient
J(u) (J”(0)u,J”(0)u)2
J(φ(u)) = 1+η(u) (1 −
(J”(0)u,u)((J”(0))2 u,J”(0)u)
) + (u)||u||2
(J”(0)u,J”(0)u) 2
= J(u)(1 − (J”(0)u,u)((J”(0)) 2
2 u,J”(0)u) ) + (u)||u||
η(u) (J”(0)u,J”(0)u)2
− 1+η(u) (1 − (J”(0)u,u)((J”(0)) 2 u,J”(0)u) )J(u).

Utilisant alors la plus petite valeur propre de J”(0), on constate qu’il existe une
fonction g(u), tendant vers 0 si ||u|| → 0, telle que

(J”(0)u, J”(0)u)2
J(φ(u)) = J(u)(1 − + g(u)).
(J”(0)u, u)((J”(0))2 u, J”(0)u)
max −λmin 4λmax λmin
On se donne β > λλmax 2
+λmin . On remarque que β + (λmax +λmin )2 > 1. Alors,
comme la suite un converge vers le minimum de la fonctionnelle 0, il existe n0 tel que
pour n ≥ n0 on ait

4λmax λmin
1 + g(u) ≤ β 2 + .
(λmax + λmin )2
On en déduit, par application du lemme de Kantorovitch

(J”(0)u,J”(0)u)2 4λmax λmin (J”(0)u,J”(0)u)2


1 + g(u) − (J”(0)u,u)((J”(0))2 u,J”(0)u) ≤ β2 + (λmax +λmin )2 − (J”(0)u,u)((J”(0))2 u,J”(0)u)
≤ β2.
6.4. ALGORITHMES DE GRADIENT 79

On a donc, pour n ≥ n0

J(un+1 ) ≤ β 2 J(un )
ce qui donne

J(un+n0 ) ≤ β 2n J(un0 ).
Il suffit de rappeler la relation que l’on a obtenue précédemment
1 2 1 q
||un − u|| ≤ ( ) 2 C J(un ) − J(un+1 ).
α α
On utilise α = λmin et C = λmax , et J(un ) − J(un+1 ) ≤ β 2 J(un ) pour obtenir

λmax q
||un+n0 − u|| ≤ 3 β n+1 2J(un0 ).
2
λmin
On a donc démontré une convergence géométrique de la suite un vers u, ayant un
γ−1
taux de convergence β arbitraire, strictement supérieur à γ+1 . Ce taux de convergence
est moins bon au fur et à mesure que le conditionnement de la matrice γ tend vers
+∞. c’est par exemple ce qui se passe dans un espace de Hilbert lorsqu’on l’approxime
par des espaces de dimension finie de plus en plus grand et que la matrice admet des
valeurs propres formant une suite tendant vers +∞. Le point ii) du théorème est
démontré.

6.4.5 Démonstration du lemme de Kantorovich


On se place tout de suite dans le problème de maximisation sans contrainte de
(A−1 y, y)(Ay, y)
.
(y, y)2
Il est équivalent au problème de maximisation avec contrainte sur la fonctionnelle
(A−1 y, y)(Ay, y) sur |y| de norme 1, puisque la fonctionnelle du lemme de Kantorovich
est homogène d’ordre 0.
On doit donc calculer sur les vecteurs de norme 1

λp yp2 )( λ−1 2
X X
sup( p yp ).
On suppose pour simplifier que toutes les valeurs propres sont distinctes, λ1 <
λ2 < ... < λm .
On voit que l’égalité du multiplicateur de Lagrange s’écrit

yj [λ−1 λp yp2 ) + λj ( λ−1 2


X X
j ( p yp ) + µ] = 0∀j.

On remarque d’abord que l’égalité x−1 a + xb = −µ a au plus deux solutions x


quand a et b sont non nuls. Donc il existe au plus deux valeurs distinctes de j telles
que yj 6= 0 (en notant a = λp yp2 et b = λ−1 2
P P
p yp ).
Dans le cas où y = (δii0 ), on voit que la fonctionnelle vaut 1. On comparera cette
valeur à celle obtenue dans le cas où il y a deux valeurs possibles pour i, pour lequel
on a à étudier
λq λp
(λp yp2 + λq yq2 )(λ−1 2 −1 2 4 4
p y p + λq y q ) = y p + y q + ( + )yp2 yq2 .
λp λq
80 CHAPTER 6. APPROXIMATION DE SOLUTIONS

C’est une fonctionnelle concave, donc en prenant x = yp2 , on se ramène à f (x) =


x2 + (1 − x)2 + ( λλpq + λλpq )x(1 − x), concave, qui est maximum pour x = 0.5. La valeur
λ λ
du maximum est alors 12 + 14 ( λpq + λpq ) et comme la fonction 21 + 14 (t + 1t ) est strictement
croissante pour t ≥ 1, sa plus grande valeur est obtenue, dans l’hypothèse λp > λq ,
pour t = max λλqp = λλmax
min
.
On remarque alors que cette valeur est plus grande que la valeur en t = 1, qui est
exactement 1, lorsque γ 6= 0.
Les deux seuls cas possibles sont alors
• un seul des yi est non nul, auquel cas on trouve 1 pour la valeur de la fonctionnelle
• deux valeurs de yi sont non nulles, et on trouve le résultat précédent. On
remarque alors que la valeur obtenue dans le paragraphe précédent est maximum si
p = 1 et q = n, soit yj = 0 pour j 6= 0 et j 6= n, et y1 = ± √12 , yn = ± √12 .
On vérifie que la valeur de la dérivée seconde de f (x) est

λq λp λq λp
f ”(x) = 2(2 − + ) = 2( − 1)( − 1)
λp λq λp λq
et comme si λp /λq est plus grand que 1, λq /λp est plus petit que 1 donc le produit est
négatif.
λ λ
Ce calcul est aussi celui qui prouve que la valeur 1 est plus petite que 21 + 41 ( λqp + λqp ).

6.4.6 Algorithme de gradient réduit


On cherche dans cette section à minimiser une fonctionnelle J(x) sous la contrainte
x ∈ K = {Ax = b}, A matrice m × n de rang m < n.
On suppose pour simplifier l’expression que les inconnues sont ordonnées de sorte
que

A = (A0 , A1 )
où A0 est une matrice m × m inversible et A1 est une matrice m × (n − m).

Proposition 6.6 L’algorithme de gradient réduit est une suite (un , dn , µn ) donnée
par

u0 = (A−1 0 0 0 0 −1 t 0 0
0 (b − A1 y ), y ), d0 = Jy (u ) − (A0 A1 ) Jx (u )

et, tant que dn non nul, on construit la suite par

y 1 = y 0 − µ0 d0 , u1 = (A−1 1 1 0 1 −1 t 0 1
0 (b − A1 y ), y ), d1 = Jy (u ) − (A0 A1 ) Jx (u ),

y n+1 = y n −µn dn , un+1 = (A−1


0 (b−A1 y
n+1
), y n+1 ), dn+1 = Jy0 (un+1 )−(A−1 t 0
0 A1 ) Jx (u
n+1
).

Cet algorithme de gradient réduit est un algorithme de descente pour le problème


avec contrainte. Si le pas est choisi convenablement, il converge. Dans le cas où la
fonctionnelle est α−convexe et Lipschitzienne sur tout borné, il converge (pas optimal
ou pas fixe).
6.4. ALGORITHMES DE GRADIENT 81

On vérifie tout d’abord que IRn = {(x, y), x ∈ IRm , y ∈ IRn−m }, et que A(x, y) =
A0 x + A1 y. On en déduit que (x, y) ∈ K ⇔ A0 x = b − A1 y, soit x = A−1 0 (b − A1 y).
On utilise la procédure décrite dans la proposition 6.1. On en déduit que

J(u) = J(A−1
0 (b − A1 y), y) = Jr (y).

Pour calculer la dérivée, on emploie la différentielle de Gâteaux. On trouve alors,


pour w ∈ IRn−m

Jr (y + w) − Jr (y) = J(A−1 −1


0 (b − A1 (y + w)), y + w) − J(A0 (b − A1 y), y)
= J(A0 (b − A1 y) − A0 A1 w, y + w) − J(A−1
−1 −1
0 (b − A1 y), y)
0 −1 −1
= (J (A0 (b − A1 y), y), (−A0 A1 w, w)) + o()

Si on écrit la dérivée J 0 en (Jx0 , Jy0 ), on trouve que

(Jr0 (y), w) = (Jx0 (A−1 −1 0 −1


0 (b − A1 y), y), −A0 A1 w) + (Jy (A0 (b − A1 y), y), w)

Utilisant la transposée, il vient

(Jr0 (y), w) = (Jy0 − (A−1 t 0


0 A1 ) Jx , w).

On en déduit la relation

Jr0 = (Jy0 − (A−1 t 0


0 A1 ) Jx .

L’algorithme de gradient usuel construit une suite (y n , dn ) caracérisée par

un = (A−1 n n 0 n −1 t 0 n
0 (b − A1 y ), y ), dn = Jy (u ) − (A0 A1 ) Jx (u ).

On se place dans le cas où dn 6= 0 (car sinon on aurait atteint le point de minimum).
Dans ce cas, on introduit
Dxn = −A−1 0 A1 dn .

On a, par définition, A0 Dxn + A1 dn = 0. Soit J 0 (un ) = (dnx , dny ). Le vecteur D n =


(Dxn , dn ) vérifie

(D n , J 0 (un )) = (−A−1 n n n −1 t n
0 A1 dn , dx ) + (dn , dy ) = (dn , dy − (A0 A1 ) dx ) = (dn , dn ) > 0

donc la direction −Dn est à la fois une direction admissible (continue) et une direction
de descente pour la fonctionnelle J. C’est donc une direction de descente pour le
problème avec contrainte.
D’autre part, si on a Jr0 (y n ) = 0, alors on a dny = (A−1 t n
0 A1 ) dx , ce qui s’écrit
(
dny = At1 ((A−1 t n
0 ) dx )
dnx = At0 ((A−1 t n
0 ) dx )

dont on déduit le multiplicateur de Lagrange, égal à −(A−1 t n


0 ) dx , car on a

J 0 (un ) + λAt = 0.
82 CHAPTER 6. APPROXIMATION DE SOLUTIONS

L’algorithme ainsi construit est un algorithe de gradient pour Jr . Ainsi, pour la


suite yn , dn , il suffit de choisir le pas convenablement pour se placer dans la catégorie
des algorithmes de gradient convergents.
En particulier, si la fonctionnelle est α−convexe Lipschitz alors Jr est aussi α−convexe
Lipschitz puisque les contraintes forment un espace convexe. La proposition est
démontrée.

6.5 Algorithmes de gradient conjugué


Dans cette section, nous construisons un des algorithmes les plus utilisés: le gradient
conjugué.

6.5.1 Exemple en dimension 2


Nous commençons par un exemple en dimension 2, qui prouve que même si localement
la direction de gradient est la meilleure direction, ce n’est pas la meilleure globalement.
En effet, on considère f (x, y) = a2 x2 + b2 y 2 . Les isovaleurs de f sont des ellipses
et le minimum est trivialement 0.
Lorsqu’on utilise l’algorithme du gradient à pas optimal, on sait que la suite vérifie,
pour tout n:

(f 0 (xn+1 , y n+1 ), f 0 (xn , y n )) = 0.

Comme on est en dimension 2, cela veut dire qu’il existe λn tel que

f 0 (xn+1 , y n+1 ) = λn (f 0 (xn , y n ))⊥

On en déduit, utilisant

f 0 (xn+2 , y n+2 ) = λn+1 (f 0 (xn+1 , y n+1 ))⊥

f 0 (xn+2 , y n+2 ) = −λn λn+1 f 0 (xn , y n )

Dans le cas où a 6= b, la suite est donc infinie et converge par itérations successives
vers le minimum. Si a = b, bien sûr une direction de gradient pointe vers le centre du
cercle et on converge en une itération.
Mais il est clair que (x0 , y 0 ) − (x0 , y 0 ) = (0, 0), donc la direction optimale n’est
pas celle du gradient mais celle du vecteur pointant vers le centre!
Nous cherchons à exploiter cette idée. En effet, en dimension 2, il n’y a que
deux directions possibles, donc même si au premier pas on n’a pas trouvé la bonne
direction, on le trouvera au deuxième pas. Pour cela, on considère la direction du
gradient comme direction de départ. On trouve que

a4 x20 + b4 y02
(x1 , y1 ) = (x0 , y0 ) − λ0 (2a2 x0 , 2b2 y0 ), λ0 = .
2(a6 x20 + b6 y02 )

La bonne direction est (x1 , y1 ), car elle conduit tout de suite au minimum. On
vérifie que
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 83

((2a2 x0 , 2b2 y0 ), A(x1 , y1 ))


= ((2a2 x0 , 2b2 y0 ), (2a2 x1 , 2b2 y1 ))
= ((2a x0 , 2b y0 ), (2a2 x0 , 2b2 y0 )) − λ0 ((2a2 x0 , 2b2 y0 ), (4a4 x0 , 4b4 y0 ))
2 2

= 4a4 x20 + 4b4 y02 − (8a6 x20 + 8b6 y02 )λ0


= 0.

La direction d1 = (x1 , y1 ) vérifie alors (d0 , Ad1 ) = 0 et grâce à elle, l’algorithme


s’arrête immédiatement.

6.5.2 Algorithme de directions conjuguées


Dans le cas de la minimisation d’une fonctionnelle quadratique en dimension finie ou
infinie, par exemple J(x) = 12 (Ax, x)−(b, x), où on sait que Ax = b admet une solution
x0 , on vérifie que

1 1 1
J(x) = (Ax, x) − (Ax0 , x) = (A(x − x0 ), x − x0 ) − (b, x0 ).
2 2 2
Ainsi minimiser J revient à minimiser la norme ||x − x0 ||A .
On se place en dimension finie N . La matrice A est symétrique définie positive,
donc elle est diagonalisable dans une base orthogonale notée (p1 , .., pN ). On a alors,
comme (Api , pj ) = 0 pour i 6= j

||x − x0 ||2A = (xi − x0,i )2 (Api , pi ).


X

On part du point x1 . On cherche le minimum de la fonction sur IR égale à λ →


J(x1 + λp1 ). On trouve que la relation donnant le minimum en λ est

(A(x1 + λp1 ) − b, p1 ) = 0
soit

(b − Ax1 , p1 )
λ = λ1 = .
(Ap1 , p1 )
On regarde alors le deuxième point x2 = x1 + λp2 . On trouve que la valeur de λ
est λ2 = (b−Ax 2 ,p2 )
(Ap2 ,p2 ) .
D’autre part, on considère φ(λ, µ) = J(x1 + λp1 + µp2 ). C’est une fonction de deux
variables, qui est minimale pour

∂λ φ = ∂µ φ = 0.
On obtient les relations
(
(J 0 (x1 + λp1 + µp2 ), p1 ) = 0
(J 0 (x1 + λp1 + µp2 ), p2 ) = 0
soit (
(Ax1 − b + λAp1 + µAp2 , p1 ) = 0
(Ax1 − b + λAp1 + µAp2 , p2 ) = 0
84 CHAPTER 6. APPROXIMATION DE SOLUTIONS
(
(Ax1 − b, p1 ) + λ(Ap1 , p1 ) = 0
(Ax1 − b, p2 + µ(Ap2 , p2 ) = 0
ce qui conduit à λ = λ1 et µ = λ2 .
On voit donc que le point x3 = x1 + λ1 p1 + λ2 p2 est le point qui réalise le minimum
de J sur l’espace affine x1 + Vect(p1 , p2 ).
On définit alors la suite de récurrence par

xn+1 = xn + λn pn
avec
(b − Axn , pn )
λn =
(Apn , pn )
Alors xn+1 est le point où J est minimum sur En = x1 + Vect(p1 , p2 , ..., pn ).
Cet algorithme est un algorithme de directions conjuguées. On écrit alors la

Proposition 6.7 Soit (pn ) une suite dans V Hilbert de directions conjuguées au sens
où (pi , Apj ) = (Api , pj ) = 0 pour i 6= j tel que l’espace vectoriel fermé engendré par la
suite des pj est l’espace de Hilbert tout entier (c’est à dire que tout élément de l’espace
de Hilbert est limite d’une suite de combinaisons linéaires finies des pj ).
La suite définie par
(
xn+1 = xn + λn pn
λn = (p(pn ,b−Ax n)
n ,Apn )

vérifie les relations


(bA pn , pk ) = 0 pourk ≤ n − 1
et xn converge vers x0 la solution unique de Ax = b.

Pour démontrer cette proposition, on écrit effectivement la norme. On voit alors


que
X X X
x1 = xi1 pi , x0 = Xi pi , b = Xi Api

(p1 , b − Ax1 ) (p1 , (xi1 − Xi )Api )


P
λ1 = =− = −(x11 − X1 )
(p1 , Ap1 ) (p1 , Ap1 )
donc x2 = X1 p1 + i≥2 xi1 pi .
P

On voit alors que b − Ax2 = i≥2 (Xi − xi1 )Api , donc (b − Ax2 , p2 ) = (X2 −
P

x21 )(Ap2 , p2 ) donc λ2 = X2 − x21 et x3 = X1 p1 + X2 p2 + i≥3 xi1 pi .


P

On continue le raisonnement pour obtenir

xi1 pi .
X X
xn = Xi pi +
1≤i≤n−1 i≥n

On voit alors que

||xn − x0 ||2A = (Xi − xi1 )2 (Api , pi )


X

i≥n

et la suite ||xn −x0 ||2A est une suite décroissante positive. Elle a donc une limite. Cette
limite est 0 car la famille (pj ) est une famille complète. On en déduit que la suite xn
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 85

tend vers la solution du problème. La proposition est démontrée. On remarque aussi


que xn identifie déjà les n − 1 premiers termes de x0 .
Ce raisonnement n’est réellement applicable que lorsqu’on connait A donc la forme
quadratique. Dans le cas général, on va combiner cette méthode avec une méthode
de gradient afin de construire une suite par un procédé d’orthogonalisation de Gram-
Schmidt.

Application aux polynômes de Hermite On définit les polynômes de Hermite


par la relation

dn − x2 x2
Hn (x) = (−1)n
(e 2 )e 2 .
dxn
On vérifie par récurrence que Hn est un polynôme de degré n dont le monôme de
plus haut degré est xn . En effet,

d x2 x2
Hn+1 (x) = − (Hn (x)e− 2 )e 2 = xHn (x) − Hn0 (x).
dx
Comme, par hypothèse, Hn est de degré n dont le monôme de plus haut degré
est xn (dans le raisonnement par récurrence), on sait que Hn0 est de degré n − 1 donc
xHn − Hn0 est de degré n + 1 et son terme de plus haut degré est xn+1 . D’autre part,
H1 (x) = 1 donc l’hypothèse de récurrence est vraie pour n = 1.
On contrôle que

x2 dp − x2
Z Z
Hn (x)Hp (x)e− 2 dx = Hn (x)(−1)p (e 2 )dx.
IR IR dxp
Sans restreindre la généralit,́ on peut supposer soit p = n soit p > n. Dans le cas
p > n, en faisant p intégrations par parties, on trouve que

x2 dp x2
Z Z
Hn (x)Hp (x)e− 2 dx = p
(Hn (x))e− 2 dx = 0
IR IR dx
car Hn est un polynôme de degré n < p.
D’autre part, pour p = n on trouve que
Z
x2
Z
x2 √
Hn (x)Hn (x)e− 2 dx = n! e− 2 dx = n! 2π
IR IR

La famille de polynômes Hn est donc une famille orthogonale pour le produit scalaire

x2
Z
f (x)g(x)e− 2 dx

x2
et c’est donc une famille conjuguée pour l’application Af = f e− 2 .

6.5.3 Algorithme du gradient conjugué


Théorème 6.6 On considère une fonctionnelle quadratique J(x). On construit la
suite de directions dj par

d0 = −J 0 (x0 )
86 CHAPTER 6. APPROXIMATION DE SOLUTIONS

xn+1 = xn + ρn dn , ρn = arginfJ(xn + ρdn )

dn+1 = −J 0 (xn+1 ) + βn+1 dn .

|J 0 (xn+1 )|2 |J 0 (xn )|2


βn+1 = , ρn = − .
|J 0 (xn )|2 (Adn , J 0 (xn ))
La famille (dj ) définit une famille de directions conjuguées associées à A telle que
J 0 (x)
− J 0 (y) = A(x − y).
La famille des directions J 0 (xp ) est une famille orthogonale pour le produit scalaire
usuel.
L’espace vectoriel engendré par la famille (J 0 (xp )), 0 ≤ p ≤ j est égal à l’espace
vectoriel engendré par la famille (dp ), 0 ≤ p ≤ j.
En dimension finie N la famille de directions conjuguées est complète et l’algorithme
donné dans la partie précédente converge en au plus N itérations.

Pour faire la démonstration correctement, il s’agit de construire les éléments de


la suite successivement. On suppose que l’on minimise la fonctionelle quadratique
1
2 (Ax, x) − (b, x). On utilisera la relation

J 0 (x) − J 0 (y) = A(x − y). (6.5.2)

Etape 1. On commence avec un point x0 et on introduit


(
x1 = x0 + ρ0 d0
d0 = −J 0 (x0 )
La condition d’optimalité s’écrit

(J 0 (x1 ), d0 ) = 0.
On en déduit
(J 0 (x1 ) − J 0 (x0 ), d0 ) + (J 0 (x0 ), d0 ) = 0.

(A(x1 − x0 ), d0 ) = |J 0 (x0 )|2


soit ρ0 (Ad0 , d0 ) = |J 0 (x0 )|2

|J 0 (x0 )|2 |J 0 (x0 )|2


ρ0 = =− .
(Ad0 , d0 ) (Ad0 , J 0 (x0 ))
On note alors que (J 0 (x1 ), J 0 (x0 )) = 0.
Etape 2. On construit une direction conjuguée. Alors d1 vérifie (Ad1 , d0 ) = 0. On
impose de plus que cette direction conjuguée soit une direction de descente reliée au
gradient, par

d1 = −J 0 (x1 ) + β1 d0 .
Ceci implique que l’on veuille trouver une direction conjuguée dans l’espace vec-
toriel engendré par les gradients successifs (J 0 (x0 ), J 0 (x1 )). On a simplement imposé
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 87

que cette direction conjuguée soit telle que d1 + J 0 (x1 ) = 0. On verra plus loin que
cela ne restreint pas la généralité de faire ainsi.
Comme c’est une direction conjuguée, on trouve

(d1 , Ad0 ) = 0
soit
(J 0 (x1 ), Ad0 ) = β1 (Ad0 , d0 ).
On multiplie les deux membres de l’égalité par ρ0 , et on remarque que ρ0 d0 = x1 − x0 ,
ce qui donne

(J 0 (x1 ), A(x1 − x0 )) = β1 (A(x1 − x0 ), −J 0 (x0 ))


ou encore en utilisant la relation (6.5.2)

(J 0 (x1 ), J 0 (x1 ) − J 0 (x0 )) = β1 (J 0 (x1 ) − J 0 (x0 ), −J 0 (x0 )).


On utilise l’orthogonalité de J 0 (x0 ) et de J 0 (x1 ) pour obtenir

|J 0 (x1 )|2
β1 = .
|J 0 (x0 )|2
La condition d’optimalité pour ρ1 s’écrit (J 0 (x2 ), d1 ) = 0. Comme de plus

(J 0 (x2 ), d0 ) = (J 0 (x2 ) − J 0 (x1 ), d0 ) + (J 0 (x1 ), d0 ) = ρ1 (Ad1 , d0 ) + 0 = 0

on en déduit que J 0 (x2 ) est orthogonal à d0 et à d1 , donc est orthogonal à J 0 (x0 ) et à


J 0 (x1 ).
La condition d’optimalité donne alors la valeur de ρ1 par

(J 0 (x2 ) − J 0 (x1 ), d1 ) + (J 0 (x1 ), d1 ) = 0

ρ1 (Ad1 , d1 ) = |J 0 (x1 )|2


puisque d1 = −J 0 (x1 ) + β1 d0 , et que (J 0 (x1 ), d0 ) = −(J 0 (x1 ), J 0 (x0 )) = 0. D’autre
part, d1 = −J 0 (x1 ) + β1 d0 et (Ad1 , d0 ) = 0 donc (Ad1 , d1 ) = −(Ad1 , J 0 (x1 )). Il vient

|J 0 (x1 )|2 |J 0 (x1 )|2


ρ1 = − = .
(Ad1 , J 0 (x1 )) (Ad1 , d1 )
Pour bien comprendre la procédure, nous étudions l’étape 2.
On construit donc une direction conjuguée d2 . Elle est conjuguée donc

(Ad2 , d1 ) = (Ad2 , d0 ) = 0.
On suppose que cette direction conjuguée appartient à l’espace vectoriel engendré
par la famille (J 0 (x0 ), J 0 (x1 ), J 0 (x2 )). Comme l’espace vectoriel engendré par (J 0 (x0 ), J 0 (x1 ))
est l’espace vectoriel engendré par (d0 , d1 ), on écrit d2 = −J 0 (x2 ) + β20 d0 + β21 d1 .
Pour justifier cette forme, prenons une direction quelconque de V ect(J 0 (x0 ), J 0 (x1 ), J 0 (x2 )).
Comme l’espace vectoriel engendré par J 0 (x0 ), J 0 (x1 ) est le même que l’espace vectoriel
engendré par d0 , d1 , une direction quelconque est donc sous la forme
88 CHAPTER 6. APPROXIMATION DE SOLUTIONS

d˜2 = αJ 0 (x2 ) + βd0 + γd1 .


Cette direction est une direction de descente, donc nécessairement (d˜2 , J 0 (x2 )) ≤ 0.
Comme J 0 (x2 ) est orthogonal à d0 et à d1 , on en déduit que α ≤ 0. On veut éviter
le cas où α = 0 car on est dans l’espace vectoriel engendré par d0 et d1 qui sont deux
directions de descente que l’on a utilisé, ainsi α < 0.
D’autre part, si on considère un point dans cette direction de descente, il s’écrit
−β −γ
x2 + r d˜2 = x2 + (−αr)(−J 0 (x2 ) + d0 + d1 ).
α α
On a retrouvé le pas ρ = −αr ≥ 0 et l’écriture de la direction de descente d2 .
Pour identifier les coefficients, on n’a besoin que des conditions de conjugaison.
On trouve alors

(−J 0 (x2 ) + β20 d0 + β21 d1 , Ad0 ) = 0


(−J 0 (x2 ) + β20 d0 + β21 d1 , Ad1 ) = 0
En utilisant le fait que les directions d0 et d1 sont conjuguées, on trouve

β20 (d0 , Ad0 ) = (J 0 (x2 ), Ad0 ), β21 (d1 , Ad1 ) = (J 0 (x2 ), Ad1 ).
On multiplie respectivement chacune de ces égalités par ρ0 et par ρ1 et on utilise
ρ1 d1 = x2 − x1 , ρ0 d0 = x1 − x0 . Alors il vient

β20 (d0 , Aρ0 d0 ) = (J 0 (x2 ), A(x1 − x0 )), β21 (d1 , Aρ1 d1 ) = (J 0 (x2 ), A(x2 − x1 ))

On utilise la remarque (6.5.2) pour obtenir

β20 (d0 , Aρ0 d0 ) = (J 0 (x2 ), J 0 (x1 )−J 0 (x0 )), β21 (d1 , J 0 (x1 )−J 0 (x0 )) = (J 0 (x2 ), J 0 (x2 )−J 0 (x1 ))

et on utilise l’orthogonalité des vecteurs dérivées. Ainsi il reste β20 = 0 et

β21 (d1 , J 0 (x1 ) − J 0 (x0 )) = (J 0 (x2 ), J 0 (x2 ))

Comme d1 = −J 0 (x1 ) + β1 d0 = −J 0 (x1 ) − β1 J 0 (x0 ), il vient

−β21 |J 0 (x1 )|2 = |J 0 (x2 )|2 .

D’autre part la condition d’optimalité est (J 0 (x3 ), d2 ) = 0, x3 = x2 + ρ2 d2 . On


sait d’autre part que

(J 0 (x3 ), d1 ) = (J 0 (x3 ) − J 0 (x2 ), d1 ) + (J 0 (x2 ), d1 )


= (J 0 (x3 ) − J 0 (x2 ), d1 ) optimalité pour x2
= (A(x3 − x2 ), d1 ) = ρ2 (Ad2 , d1 ) = 0 conjuguées

(J 0 (x3 ), d0 ) = (J 0 (x2 ), d0 ) + ρ2 (Ad2 , d0 ) = (J 0 (x2 ), d0 ) = −(J 0 (x2 ), J 0 (x0 )) = 0.

On sait donc que J 0 (x3 ) est orthogonal à l’espace vectoriel engendré par d0 , d1 , d2
donc est orthogonal à J 0 (x0 ), J 0 (x1 ), J 0 (x2 ).
Finalement le coefficient ρ2 est donné par
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 89

ρ2 (Ad2 , d2 ) + (J 0 (x2 ), d2 ) = 0
soit, utilisant d2 = −J 0 (x2 ) + β21 d1 et l’orthogonalité de d1 et de J 0 (x2 )

ρ2 (Ad2 , d2 ) = |J 0 (x2 )|2


et on en déduit, utilisant le fait que les directions sont conjuguées

|J 0 (x2 )|2 |J 0 (x2 )|2


ρ2 = − = .
(J 0 (x2 ), Ad2 ) d2 , Ad2 )

Raisonnement par récurrence On suppose donc que l’on a construit une suite
(xp , ρp , dp ), p ≤ n, et xn+1 ayant les propriétés suivantes:
• la suite (dp ) est une suite de directions conjuguées
• dp+1 = −J 0 (xp+1 ) + βp+1 dp pour p ≤ n − 1 avec

|J 0 (xp+1 )|2
βp+1 = .
|J 0 (xp )|2

• les vecteurs (J 0 (xp )) forment une famille orthogonale pour le produit scalaire
usuel pour 0 ≤ p ≤ n + 1
• xp+1 = xp + ρp dp pour p ≤ n, les ρp étant donnés par la relation

|J 0 (xp )|2
ρp = − .
(J 0 (xp ), Adp )
On construit xn+2 , dn+1 et ρn+1 suivant les conditions suivantes. On veut que
l’espace vectoriel engendré par (J 0 (x0 ), .., J 0 (xp+1 ) soit aussi l’espace vectoriel engendré
par les directions (d0 , .., dp+1 ). On impose de plus que dp+1 = −J 0 (xp+1 ) + lp , où lp
est dans l’espace vectoriel engendré par (d0 , .., dp ) qui est égal, par l’hypothèse de
récurrence, à l’espace vectoriel engendré par (J 0 (x0 ), .., J 0 (xp )). On écrit donc
On sait déjà que
n
j
dn+1 = −J 0 (xn+1 ) +
X
βn+1 dj
j=0

Les directions sont conjuguées, donc (dn+1 , Adp ) = 0∀p.


On en déduit donc que
n
j
(dj , Adp ) = (J 0 (xn+1 ), Adp ).
X
βn+1
j=0

Utilisant le fait que la famille de directions dj est conjuguée, il vient

p
βn+1 (dp , Adp ) = (J 0 (xn+1 ), Adp ).
On multiplie les deux membres de l’égalité par ρp et on utilise ρp Adp = J 0 (xp+1 ) −
J 0 (xp ). Ensuite, comme la famille (J 0 (xk )), 0 ≤ k ≤ n + 1 est une famille orthogonale,
on en déduit que J 0 (xn+1 ) est orthogonal à tous les J 0 (xp+1 ) pour p + 1 ≤ n et à tous
p
les J 0 (xp ) pour p ≤ n. On en déduit que βn+1 = 0 pour p 6= n. Il reste alors seulement
un terme
90 CHAPTER 6. APPROXIMATION DE SOLUTIONS

n
βn+1 (dn , J 0 (xn+1 − J 0 (xn )) = (J 0 (xn+1 ), J 0 (xn+1 ) − J 0 (xn )) = |J 0 (xn+1 )|2

Comme d’autre part dn = −J 0 (xn ) + βn−1 dn−1 , utilisant le fait que dn−1 est dans
l’espace vectoriel engendré par J 0 (x0 ), .., J 0 (xn−1 ) donc est orthogonal à J 0 (xn ) et à
J 0 (xn+1 ), il reste

n
βn+1 (−J 0 (xn ), J 0 (xn+1 ) − J 0 (xn )) = |J 0 (xn+1 )|2
soit
n |J 0 (xn+1 )|2
βn = βn+1 = .
|J 0 (xn )|2
On a donc construit une direction dn+1 = −J 0 (xn+1 )+ βn dn telle que les directions
(dp ), 0 ≤ p ≤ n + 1 soient conjuguées.
La condition d’optimalité pour xn+2 s’écrit

(J 0 (xn+2 ), dn+1 ) = 0
On sait en outre que

(J 0 (xn+2 ), dk ) = (J 0 (xn+2 ) − J 0 (xk+1 ), dk ) + (J 0 (xk+1 ), dk ).


On utilise la condition d’optimalité pour xk+1 pour annuler (J 0 (xk+1 ), dk ). D’autre
part, on utilise la remarque (6.5.2) pour obtenir, A étant symétrique

(J 0 (xn+2 ), dk ) = (xn+2 − xk+1 , Adk ).


Comme xn+2 − xk+1 = ρn+1 dn+1 + ... + ρk+1 dk+1 et que la famille de directions est
conjuguée, on trouve 0 pour k ≤ n. Le vecteur J 0 (xn+2 ) est orthogonal à toutes les
directions dk pour 0 ≤ k ≤ n + 1. Comme l’espace vectoriel engendré par les J 0 (xp ),
0 ≤ p ≤ n + 1 est égal, dans le cas où le minimum n’a pas été atteint à celui
engendré par les dp , on vérifie que J 0 (xn+2 ) est orthogonal à tous les J 0 (xp ) pour
0 ≤ p ≤ n + 1.
Enfin, écrivons la condition d’optimalité. On a donc,

(A(xn+2 − xn+1 ), dn+1 ) + (J 0 (xn+1 ), dn+1 ) = 0


soit utilisant dn+1 = −J 0 (xn+1 ) + βn dn , ρn+1 (Adn+1 , dn+1 ) = |J 0 (xn+1 )|2 .
On en tire la relation
|J 0 (xn+1 )|2
ρn+1 = − .
(Adn+1 , J 0 (xn+1 ))

Toutes les hypothèses du raisonnement par récurrence ont été vérifiées, ainsi l’algorithme
continue jusquà obtenir J 0 (xN ) = 0. En dimension finie d, on aura nécessairement
cette condition puisque la famille (J 0 (x0 ), .., J 0 (xd−1 )) est une famille orthogonale. Si
c’est une famille libre, c’est une base et J 0 (xd ) orthogonal à tous les éléments implique
que J 0 (xd ) = 0. Si c’est une famille liée, comme le vecteur J 0 (xd−1 ) est orthogonal
à tous les autres, si il est combinaison linéaire de tous les autres, cette combinaison
linéaire est nulle si tous sont non nuls, donc il en existe au moins un qui est nul.
6.5. ALGORITHMES DE GRADIENT CONJUGUÉ 91

Corollaire 6.1 Le coefficient de dp dans la suite de directions conjuguées de l’algorithme


de gradient conjugué est la valeur qui maximise le facteur de réduction de l’erreur,
erreur définie par E(x) = (r(x), A−1 (r(x))) où r(x) = −J 0 (x).

On remarque que dans le cas de la forme quadratique J(x) = 21 (Ax, x), on trouve
J 0 (x)
= Ax donc E(x) = 2J(x). On a alors immédiatement

xn+1 = xn + ρn dn , dn = −J 0 (xn ) + βn−1 dn−1 .

Le terme ρn est calculé par 0 = (Axn + ρn Adn , dn ), soit ρn = − (Ax n ,dn )


(Adn ,dn ) . Dans ce
cas, on applique le résultat donné précédemment et on trouve

(Axn , dn )2
E(xn+1 ) = E(xn )[1 − ],
(Adn , dn )(xn , Axn )
On voit alors que (Axn , dn ) = (Axn , −Axn + βn−1 dn−1 ) = −(Axn , Axn ) car Axn
est orthogonal à dn−1 . Maximiser le facteur de réduction de l’erreur revient alors à
2
maximiser (Adn(Ax n ,dn )
,dn )(xn ,Axn ) , donc à minimiser (Adn , dn ). Comme

(Adn , dn ) = (−A2 xn + βn−1 Adn−1 , −Axn + βn−1 dn−1 )


= (A2 xn , Axn ) − 2βn−1 (Adn−1 , Axn ) + βn−1
2 (Ad
n−1 , dn−1 )

(Adn−1 ,Axn )
le minimum de cette fonction quadratique est obtenu pour βn−1 = (Ad n−1 ,dn−1 )
, ce qui
correspond à la formule obtenue précédemment en utilisant αn−1 dn−1 = xn − xn−1 .
(A(xn −xn−1 ),Axn )
En effet, αn1 dn−1 = xn − xn−1 donc βn−1 = (A(x n −xn−1 ),dn−1 )
. En utilisant dn−1 =
−Axn−1 + βn−2 dn−2 si n ≥ 2, d0 = −Ax0 , dn−2 est orthogonal à Axn et à Axn−2
si n ≥ 2, donc (dn−1 , Axn − Axn−1 ) = (−Axn−1 , Axn − Axn−1 ) = ||J 0 (xn−1 )||2 =
||Axn ||2
||r(xn−1 )||2 , et il reste βn−1 = ||Ax n−1 ||
2 . Le Corollaire est démontré.

6.5.4 Un exemple en dimension 3


En dimension 3, on sait que pour une fonctionnelle quadratique l’algorithme du gra-
dient conjugué converge en trois itérations au plus, c’est à dire on construit au mieux
d0 , d1 , d2 . Nous donnons dans le cas de cet exemple les cas oú l’algorithme converge
en une itération et en deux itérations.
La fonctionnelle étudiée ici est une fonctionnelle dont les lignes de niveau sont des
ellipsoides. On prend

1
J(x, y, z) = (a2 x2 + b2 y 2 + c2 z 2 ).
2
Le point de départ est le point (x0 , y0 , z0 ). Le gradient en ce point est

(a2 x0 , b2 y0 , c2 z0 ).
Les points de la droite de descente sont

(x0 (1 − a2 t), y0 (1 − b2 t), z0 (1 − c2 t)).


L’slgorithme converge en une itération lorsque le point d’arrivée est le point
(0, 0, 0). On trouve donc
92 CHAPTER 6. APPROXIMATION DE SOLUTIONS


2
 x0 (1 − a t) = 0

y (1 − b2 t) = 0
0
 z (1 − c2 t) = 0

0

et donc, si x0 6= 0, alors t = a12 donc y0 = z0 = 0, et si c’est y0 qui est non nul on


trouve x0 = z0 = 0 et si z0 6= 0 alors x0 = y0 = 0.
On en déduit que l’algorithme converge en une itération lorsque le point
est sur un des axes principaux de l’ellipsoide
Dans le cas contraire, on calcule la valeur de la fonctionnelle.
On trouve, notant

φ(t) = J(x0 (1 − a2 t), y0 (1 − b2 t), z0 (1 − c2 t))

1
φ(t) = (x20 (1 − a2 t)2 a2 + y02 (1 − b2 t)2 b2 + z02 (1 − c2 t)2 c2 )
2
qui atteint son minimum en t0 que l’on ne calculera pas.
Le gradient en ce point est alors

J 0 (x(1) ) = (a2 x0 (1 − a2 t0 ), b2 y0 (1 − b2 t0 ), c2 z0 (1 − c2 t0 ))
On trouve alors que la direction d1 , qui vaut d1 = −J 0 (x(1) ) + β0 d0 , est de la forme

d1 = (αx0 , βy0 , γz0 ) = (a2 x0 (−1+a2 t0 +β0 ), b2 y0 (−1+b2 t0 +β0 ), c2 z0 (−1+c2 t0 +β0 ))

et donc x(2) = x(1) + ρd1 , soit

x(2) =
(a2 x 0 [(1 − a2 t 0) + ρ(−1 + a2 t 0 + β0 )], b2 y 0 [(1 − b2 t 2 2 2 2
0 ) + ρ(−1 + b t0 + β0 )], c z0 [(1 − c t0 ) + ρ(−1 + c t0

On suppose que l’algorithme a convergé en deux itérations. Alors les coordonnées dans
l’expression ci-dessus sont nulles. On élimine le cas où une seulement des valeurs de
(x0 , y0 , z0 ) est non nulle car c’est le cas précédent. Si x0 y0 z0 6= 0, on en déduit que les
coefficients sont nuls, c’est à dire on obtient un système sur t0 , β0 , ρ. On vérifie que ce
système n’a pas de solutions. En effet, on trouve les relations (1 − a2 t0 )(1 − ρ) + ρβ0 =
(1 − b2 t0 )(1 − ρ) + β0 ρ = 0, d’où (a2 − b2 )t0 (1 − ρ) = 0. Le cas t0 est impossible (il
suffit de vérifier que t0 (a6 x20 + b6 y02 + c6 z02 ) = a4 x20 + b4 y02 + c4 z02 ). Il reste donc ρ = 1,
ce qui donne β0 = 0. Comme β0 est le quotient des normes de J 0 (x(1) ) et de J 0 (x(0) ),
on trouve que c’est impossible. Ainsi, seulement deux valeurs sur les trois sont non
nulles.
Dans ce cas, on considère par exemple z0 = 0. Alors le point de départ est dans
le plan z = 0, ainsi que le vecteur gradient. Le point d’arrivée x(1) est alors dans
ce plan, et on s’est ramené au minimum de la fonctionnelle J(x, y, 0) qui est atteint
en deux itérations, la première direction d0 = −J 0 (x(0) ) et la deuxième direction
d1 = −J 0 (x(1) ) + β0 d0 comme dans le cas de l’ellipse.
On vérifie alors que l’algorithme du gradient conjugué converge en deux
itérations seulement si le point de départ appartient à un des espaces de
dimension 2 invariants par la matrice J”(0).
6.6. ALGORITHME DE DESCENTE PSEUDO-CONJUGUÉ POUR UNE FORME NON QUADRATIQU
 
a2 1 0
Remarque On considére la forme quadratique associée à la matrice A =  1 b2 0  .
 
0 0 c2
On voit que les valeurs propres de cette matrice sont c2 et λ solution de λ2 − (a2 +
b2 )λ + a2 b2 − 1 = 0, soit

a2 + b2 2 a2 − b2 2
(λ − ) =1+( )
2 2
Pour pouvoir écrire la matrice comme précédemment, il faut diagonaliser la matrice
donc rechercher
q les vecteurs propres (e± , f± , 0) pour les deux valeurs propres λ± =
a2 +b2 2 2
2 ± 1 + ( a −b 2
2 ) .
L’algorithme du gradient conjugué converge en deux itérations dans les trois cas
suivants:
point de départ de la forme A(e+ , f+ , 0) + B(e− , f− , 0) = (x, y, 0),
point de départ de la forme A(e+ , f+ , 0) + C(0, 0, 1),
point de départ de la forme B(e− , f− , 0) + C(0, 0, 1).

6.6 Algorithme de descente pseudo-conjugué pour une


forme non quadratique
On peut construire, en s’inspirant de l’algorithme ci-dessus, des algorithmes de de-
scente déduits de l’algorithme du gradient conjugué. En fait, l’idée consiste à conserver
la relation dn+1 = −J 0 (xn ) + βn dn et d0 = −J 0 (x0 ) en construisant la suite βn et la
suite de pas ρn .
On l’écrit dans la

Définition 6.8 Les algorithmes de descente suivants sont la généralisation de l’algorithme


du gradient conjugué pour une fonctionnelle quelconque:
• algorithme de Fletcher-Reeves:

d0 = −J 0 (x0 )



xn+1 = xn + ρn dn


 dn+1 = −J 0 (xn ) + βn dn
0 2

βn = |J|J (x n+1 |


0 (x )|2
n

• algorithme de Polak-Ribiere

d0 = −J 0 (x0 )



xn+1 = xn + ρn dn


 dn+1 = −J 0 (xn ) + βn dn
0 0 0

βn = (J (xn+1 ,J|J 0(x n+1 )−J (xn ))


(xn )|2

On a le résultat suivant (admis)

Proposition 6.8 L’algorithme de Fletcher-Reeves avec le choix du pas optimal pour


ρn est un algorithme de descente.
L’algorithme de Polak-Ribiere avec ρn pas de Wolfe pas trop grand est un algo-
rithme de descente.
94 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Si J est strictement convexe et de classe C 2 alors l’algorithme de Polak-Ribière


avec pas optimal converge.

6.7 Méthode de Newton


On se place sur un espace de Hilbert V , et on considère une fonctionnelle J qui
admet un gradient G(u) et une matrice hessienne H(u). On suppose que J admet son
minimum absolu en u. Il est alors nécessaire que G(u) soit nul.
Rappelons tout d’abord la formule de Taylor au voisinage de v: il existe θ ∈]0, 1[
tel que

(G(u), φ) = (G(v), φ) + (H(v + θ(u − v))(u − v), u − v).


La méthode de Newton-Rophson usuelle construit la solution comme limite de la
suite uk , définie par récurrence: on calcule uk+1 à partir de uk en résolvant G(uk ) +
H(uk )(uk+1 − uk ) = 0. Cette méthode est efficace si la valeur initiale de la suite est
proche de la solution cherchée.
Dans cette partie, on se restreint à des fonctionnelles assez régulières:
(H1) la fonctionnelle J est infinie à l’infini
(H2) la fonctionnelle J a un gradient et un hessien réguliers (au moins continus
uniformément sur tout compact)
(H3) H est uniformément V coercive sur tout borné K:

(H(v), φ, φ) ≥ αK ||φ||2 , ∀φ ∈ V, ∀v ∈ K

(H4) H vérifie une condition de Lipschitz sur les bornés:

||H(u) − H(v)|| ≤ βK ||u − v||, ∀(u, v) ∈ K 2


De plus, ce qui fait la différence avec la méthode de Newton habituelle, c’est
l’introduction d’une forme bilinéaire supplémentaire bk pour chaque élément de la
suite uk qui sera définie ultérieurement. Plus précisément, on définit b(u) qui vérifie
soit les hypothèses (H5) ou (H6) ci dessous (sur un borné, par exemple)
(H5a) coercivité faible

b(u)(φ, φ) ≥ λ0 (G(u), φ)2 ∀φ ∈ V

(H5b) continuité: |b(u)(φ, ψ)| ≤ µ0 ||G(u)||φ||||ψ||∀φ, ψ ∈ V


(H6a) (1 + )-coercivité forte

b(u)(φ, φ) ≥ λ1 ||G(u)||1+ ||φ||2 ∀φ ∈ V


(H6b) (1 + )-continuité |b(u)(φ, ψ)| ≤ µ1 ||G(u)||1+ ||φ||||ψ||∀φ, ψ ∈ V .
On a le

Théorème 6.7 Sous les hypothèses (H1), (H2), (H3), (H4), et (H5) ou (H6) on a:
• Le problème de minimisation admet une solution unique u.
On considère u0 donné. Soit uk un élément de la suite. L’élément uk+1 est con-
struit comme uk + ∆k , où ∆k est la solution du problème variationnel

∀φ ∈ V, (H(uk )∆k , φ) + bk (∆k , φ) = −(G(uk ), φ). (6.7.3)


6.7. MÉTHODE DE NEWTON 95

• La suite uk est bien définie, et elle converge vers u


• Il existe deux constantes γ1 et γ2 telles que

γ1 ||uk+1 − uk || ≤ ||u − uk || ≤ γ2 ||uk+1 − uk ||


• Il existe une constante γ3 telle que

||uk+1 − u|| ≤ γ3 ||uk − u||2 .

On commence par donner des exemples de formes de la fonctionnelle b(u). On


notera bk la fonctionnelle b(uk ) pour simplifier les notations.
Pour bk (φ, ψ) = λk (G(uk ), φ)(G(uk ), ψ), les hypothèses (H5a) et (H5b) sont vérifiées.
En revanche, on n’a pas l’hypothèse (H6a).
Pour bk (φ, ψ) = λk ||G(uk )||1+ (φ, ψ), les hypothèses (H5a), (H5b), (H6a), (H6b)
sont toutes vérifiées.

Preuve Etapes de la démonstration.


On commence par démontrer que la suite J(uk ) est décroissante si µ0 (resp. µ1 )
est choisi de manière adéquate dans l’hypothèse (H5a) (resp. (H6a)). On en déduit
que les termes de la suite restent dans un fermé borné fixe.
Dans un deuxième temps, en choisissant dans la formulation variationnelle et dans
l’égalité de développement de Taylor des valeurs astucieuses de φ, on montre des
estimations sur la différence de deux termes et sur la différence d’un terme de la suite
avec la limite. Pour cela, on utilise de manière cruciale l’inégalité de coercivité sur le
fermé borné.
On définit
U = {v ∈ V, J(v) ≤ J(u0 )}.
• Si J admet un minimum, il est dans U . Comme J est infinie en l’∞, U est
borné. Il est fermé. En effet, si vj ∈ U, vj → v, alors J(u0 ) ≥ J(vj ) = J(v) +
(G(v), vj − v) + 21 (H(v + θ(vj − v))(vj − v), vj − v). Comme H est coercive, on a
J(u0 ) ≥ J(vj ) ≥ J(v) + (G(v), vj − v). Comme v ne dépend pas de j, on passe à la
limite et J(u0 ) ≥ J(v). Il vient v ∈ U .
• Le problème variationnel linéaire (6.7.3) admet une seule solution ∆k . Prenant
φ = ∆k dans l’égalité variationnelle (6.7.3), on en déduit que

(H(uk )∆k , ∆k ) + bk (∆k , ∆k ) = −(G(uk ), ∆k ). (6.7.4)

Utilisant la coercivité de H et la positivité de bk , on en déduit

(H(uk )∆k , ∆k ) + bk (∆k , ∆k ) ≥ αU ||∆k ||2 .


On utilise l’inégalité

| − (G(uk ), ∆k )| ≤ ||∆k ||||G(uk )||.

On divise, si ∆k 6= 0, par la norme et on obtient

α||∆k || ≤ ||G(uk )||. (6.7.5)


Désignant par ||G|| le maximum de G sur le fermé U , on en déduit

||∆k || ≤ α−1 ||G||.


96 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Soit
U1 = {v ∈ V, ||v − w|| ≤ α−1 ||G||, w ∈ U }
Il vient uk+1 = uk + ∆k ∈ U1 .
• Il s’agit maintenant de contrôler le terme J(uk+1 ) par rapport au terme J(uk );
On effectue un développement de Taylor pour J au voisinage de uk . Ainsi
1
J(uk+1 ) − J(uk ) = (G(uk ), ∆k ) + (H(uk + θ∆k )∆k , ∆k )
2
d’où, en utilisant l’égalité (6.7.4) pour remplacer le terme (G(uk ), ∆k ):

1 1
J(uk+1 )−J(uk ) = − (H(uk )∆k , ∆k )−bk (∆k , ∆k )+ ([H(uk +θ∆k )−H(uk )]∆k , ∆k ).
2 2
On note β1 la constante de Lipschitz pour H sur U1 . Si on suppose uk ∈ U0 , on trouve
uk + θ∆k ∈ U1 . Ceci permet de minorer le terme − 21 ([H(uk + θ∆k ) − H(uk )]∆k , ∆k ).
En utilisant la coercivité de H, on trouve l’inégalité

α β1 α β1
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 (1 − ||∆k ||) + bk (∆k , ∆k ) ≥ ||∆k ||2 (1 − ||∆k ||).
2 α 2 α
Deux cas se présentent. Dans cette inégalité, on doit contrôler le signe du second
membre.

• Si ||∆k || est petit, c’est-à-dire ||∆k || ≤ (1 − C) βα1 , alors J(uk ) − J(uk+1 ) ≥


αC 2
2 ||∆k || en utilisant uniquement la positivité de bk .
Dans le cas contraire, on utilise la forme de b.

• On suppose vérifiées les hypothèses (H5).


Dans ce cas, le terme bk (∆k , ∆k ) vérifie

bk ((∆k , ∆k ) ≥ λ0 ((G(uk ), ∆k ))2 .


On contrôle alors que par emploi de la relation (6.7.4), on trouve

−(G(uk ), ∆k ) ≥ α||∆k ||2


donc on tire

((G(uk ), ∆k ))2 ≥ α2 ||∆k ||4


Alors
α 1
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 1 + λ0 α2 ||∆k ||4 − β1 ||∆k ||3 .
2 2
β1
La somme des deux derniers termes est du signe de λ0 α2 ||∆k || − 2 donc est
positive dès que ||∆k || ≥ 2λβ01α2
β1
Si on choisit λ0 de sorte que 2λ0 α2 ≤ (1 − C) βα1 , soit

β12
λ0 >
2α3
6.7. MÉTHODE DE NEWTON 97

il existe C telle que 2λβ01α2 ≤ (1 − C) βα1 . Dans ce cas, on voit que si ||∆k || ≥
(1 − C) βα1 , on obtient
β1
||∆k || ≥
2λ0 α2
et donc

α
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 .
2
En résumé, sous cette hypothèse sur λ0 , on trouve, pour tout ∆k

αC
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 . (6.7.6)
2
• Dans le cas où J vérifie les hypothèses (H6) pour  = 1, et si la constante lambda1
β12
(que l’on suppose assez grande) vérifie λ1 > 8α3 , on vérifie que λ1 α2 ||∆k ||2 +
8µ0 α3 −β12
α
2 − β21 ||∆k || ≥ 16µ0 α2
= δ0 > α
2, et donc J(uk ) − J(uk+1 ) ≥ δ0 ||∆k ||2 (la
condition sur λ1 est plus faible).
• Le raisonnement est le même si l’hypothèse (H6) est vérifiée. En effet, on
obtient

α β1
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 (1 − ||∆k ||) + µ0 ||G(uk )||1+ ||∆k ||2 ,
2 α
et, utilisant (6.7.5), on obtient

α α β1
J(uk ) − J(uk+1 ) ≥ ||∆k ||2 [ − ||∆k ||) + µ0 α1+ ||∆k ||1+ ],
2 2 2
Lorsque µ0 grand, le minimum de cette fonction est strictement positif pour tout
α
 > 0 (il s’écrit m2 − ψ()µ−
0 ), donc l’inégalité obtenue est toujours valable.

On a démontré que la suite J(uk+1 ) < J(uk ) lorsque uk ∈ U . De u0 ∈ U , on


déduit alors J(u1 ) < J(u0 ) donc u1 ∈ U . Ainsi, par récurrence, J(uk+1 < J(uk )
donc uk+1 ∈ U . La suite J(uk ), décroissante et minorée, converge. Ainsi la suite
J(uk ) − J(uk+1 ) tend vers 0, donc ∆k tend vers 0 grâce à l’inégalité (6.7.6)6.7.6).
Il faut montrer désormais que la suite uk converge. On écrit la formule de Taylor
(G(uk ), φ) = (G(u), φ) + (H(u + θ 0 (uk − u))(uk − u), φ), ce qui donne

(H(uk )∆k , φ) + bk (∆k , φ) = −(H(u + θ 0 (uk − u))(uk − u), φ), (6.7.7)

par l’application de l’égalité variationnelle définissant ∆k . Comme U est convexe


(la fonctionnelle est convexe car son Hessien est coercif), u + θ 0 (uk − u) est dans
U . Ainsi, prenant φ = uk − u et appliquant les inégalités de Cauchy-Schwartz à
(H(uk )∆k , uk − u) + bk (∆k , uk − u) = −(H(u + θ 0 (uk − u))(uk − u), uk − u), on trouve,
notant γ la constante majorant les normes de H(uk ) et de bk (ce qui est possible
puisque uk ∈ U donc G(uk ) est borné par ||G||):

γ||∆k ||||uk − u|| ≥ α||uk − u||2 .


98 CHAPTER 6. APPROXIMATION DE SOLUTIONS

La convergence de ∆k vers 0 et l’inégalité ||uk − u|| ≤ α−1 γ||∆k || entrainent la con-


vergence de uk vers u. De plus, on vérifie facilement que si on considère φ = ∆k dans
l’égalité (6.7.7), alors on trouve ||uk − u|| ≥ αγ ||∆k ||.
On montre enfin la convergence quadratique. L’égalité (6.7.7) donne alors, écrivant
δk = uk − u et ∆k = δk+1 − δk , l’égalité

(H(uk )δk+1 , φ) + bk (δk+1 , φ) = (H(uk )δk , φ) + bk (δk , φ) − (H(u + θ 0 (uk − u))δk , φ)

puis utilisant pour le terme de gauche la coercivité de H, pour le terme de droite le


caractère Lipschitz de H, et la positivité de bk pour le terme de gauche, il reste, pour
φ = δk+1 ,

α||δk+1 ||2 ≤ µ1 ||G(uk )||1+ ||δk+1 ||||δk || + β1 ||δk ||2 ||δk+1 ||


d’où on déduit

α||δk+1 || ≤ µ1 ||G(uk )||1+ ||δk || + β1 ||δk ||2


Comme G est Lipschitz (puisque H est continue) et que G(u) = 0, on en déduit
||G(uk )|| = ||G(uk ) − G(u)|| ≤ Γ||δk ||. Comme cette quantité est bornée par D con-
stante, on en déduit l’inégalité

α||δk+1 || ≤ (µ1 Γ1+ D  + β1 )||δk ||2 ,


qui est la convergence quadratique.
Cette démonstration, bien que longue et fastidieuse, est importante et intéressante,
car elle permet de manipuler les formulations variationnelles, de voir l’importance de
la coercivité, de voir les choix de fonctions test. Notons que les deux hypothèses
possibles (H5) ou (H6) conduisent au résultat, et sont utilisées de manière cruciale
dans la preuve de la décroissance de J(uk ), preuve suffisante pour la convergence.
C’est pour cela que cette méthode conduit toujours à une solution. D’autre part, dire
que µ0 est assez grand est possible car on est libre du choix de b pour le problème
d’optimisation. On peut rapprocher cette méthode des méthodes de pénalisation.

6.8 Algorithmes d’optimisation avec contraintes


Les trois algorithmes que je compte présenter correspondent aux algorithmes de min-
imisation sous contraintes.

6.8.1 Le gradient avec projection


On suppose dans ce premier cas que l’espace des contraintes K est convexe. On
rappelle dans ce cas qu’il existe une projection sur K, définie par

||x − pK (x)|| = inf ||x − y||


y∈K

et caractérisé par l’inégalité

(y − pK (x), x − pK (x)) ≤ 0∀y ∈ K.


6.8. ALGORITHMES D’OPTIMISATION AVEC CONTRAINTES 99

Un des problèmes essentiels d’un algorithe de gradient, lorsqu’on n’est pas dans
le cas du gradient réduit, est qu’il ne donne pas à l’itération n + 1 un élément de
l’espace des contraintes car on ne sait pas si la direction −J 0 (xn ) est une direction
admissible pour l’espace des contraintes si xn est dans K. D’autre part, la projection
est une application contractante, donc ||pK (x)−pK (y)|| ≤ ||x−y||, ce qui implique que
||pK (x − αJ 0 (x)) − pK (y)|| ≤ ||x − αJ 0 (x) − y|| donc en projetant le résultat d’un algo-
rithme de gradient, on se rapproche plus de y solution du problème de minimisation.
L’algorithme de gradient avec projection est un algorithme de la forme

xn+1 = pK (xn − ρn J 0 (xn )).


Proposition 6.9 Si J est convexe et que K est convexe, un point solution du problème
de minimisation de J sur K est un point stationnaire de l’égalité x0 = pK (x0 −
αJ 0 (x0 )).

Preuve On suppose que x0 est une solution du problème de minimisation. Comme


J est convexe, la condition d’Euler est équivalente à
∀y ∈ K, (J 0 (x0 ), y − x0 ) ≥ 0.
On en déduit, pour tout α > 0, que

(y − x0 , −αJ 0 (x0 )) ≤ 0
donc
∀y ∈ K, (y − x0 , x0 − αJ 0 (x0 ) − x0 ) ≤ 0
ce qui est la caractérisation de la projection de x0 − αJ 0 (x0 ) en x0 . On en déduit que

∀α > 0, x0 = pK (x0 − αJ 0 (x0 )).


Réciproquement, soit α0 > 0 tel que x0 = pK (x0 − α0 J 0 (x0 )). On a alors

∀y ∈ K, (y − x0 , x0 − α0 J 0 (x0 ) − x0 ) ≤ 0
soit
∀y ∈ K, (y − x0 , J 0 (x0 )) ≥ 0
ce qui, par la caractérisation dans le cas convexe, implique que x0 est solution du
problème de minimisation.
On a même un résultat lorsque le pas de l’algorithme de gradient avec projection
est bien choisi:
Théorème 6.8 On suppose K convexe fermé non vide, J bornée inférieurement sur
K, de classe C 1 , Lipschitz uniformément sur K dont une constante de Lipschitz est
L:

||J 0 (x) − J 0 (y)|| ≤ L||x − y||.


Si il existe  > 0 tel que, pour tout n, ρn ∈ [, L2 (1 − )], la suite xn donnée par
l’algorithme de gradient avec projection vérifie

||xn+1 − xn || → 0
Tous les points d’adhérence de cette suite sont des points stationnaires.
100 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Preuve On vérifie que, par caractérisation de la projection

∀y ∈ K, (y − pK (xn − ρn J 0 (xn )), xn − ρn J 0 (xn ) − pK (xn − ρn J 0 (xn ))) ≤ 0,

donc

∀y ∈ K, (y − xn+1 , xn − ρn J 0 (xn ) − xn+1 ) ≤ 0.


On conmmence l’algorithme avec un point x0 , pas forcément dans K. En revanche,
pour n ≥ 1, tous les termes de la suite sont dans K donc on peut prendre y = xn . On
en déduit l’inégalité:

(xn − xn+1 , xn − xn+1 ) − ρn (xn − xn+1 , J 0 (xn )) ≤ 0


soit

1
(J 0 (xn ), xn+1 − xn ) ≤ − ||xn − xn+1 ||2 .
ρn
On utilise

Z 1
0
J(xn+1 )−J(xn )−(J (xn ), xn+1 −xn ) = (J 0 (xn +t(xn+1 −xn ))−J 0 (xn ), xn+1 −xn )dt.
0

Comme on a L−Lipschitz, on trouve

|J(xn+1 ) − J(xn ) − (J 0 (xn ), xn+1 − xn )| ≤ 01 ||J 0 (xn + t(xn+1 − xn )) − J 0 (xn )||||xn+1 − xn ||dt
R

≤ L( 01 tdt||xn+1 − xn ||)||xn+1 − xn ||
R

≤ L2 ||xn+1 − xn ||2

On utilise alors la convexité de J pour obtenir

J(xn+1 ) ≥ J(xn ) + (J 0 (xn ), xn+1 − xn ).


On en déduit l’inégalité

L
J(xn+1 ) − J(xn ) − (J 0 (xn ), xn+1 − xn ) ≤||xn+1 − xn ||2
2
et de l’inégalité de caractérisation de la projection on déduit

1
(J 0 (xn ), xn+1 − xn ) ≤ − ||xn+1 − xn ||2
ρn
donc

L 1
J(xn+1 ) − J(xn ) ≤ ( − )||xn+1 − xn ||2 .
2 ρn
On utilise alors ρ1n ∈ [ L2 1−
1
, 1 ] soit L
2 − ρ1n ∈ [ L2 − 1 , − L2 1−

], donc finalement la suite
J(xn ) est décroissante et on a

L 
||xn+1 − xn ||2 ≤ J(xn ) − J(xn+1 ).
2 1−
6.8. ALGORITHMES D’OPTIMISATION AVEC CONTRAINTES 101

La suite J(xn ) est minorée et décroissante, donc elle converge. La décroissance de


la suite vient uniquement de l’hypothèse sur le pas... On en déduit que J(xn+1 )−J(xn )
tend vers 0, donc il en est de même de xn+1 − xn .
Enfin, si y est une valeur d’adhérence de la suite, xφ(n) tend vers y, dont on déduit
que xφ(n)+1 tend aussi vers y. De l’égalité xφ(n)+1 = pK (xφ(n) − ρφ(n) J 0 ((xφ(n) )), on
ne peut rien déduire car on ne sait pas si la suite ρφ(n) converge. Il s’agit alors de
remarquer que cette suite est bornée, donc on peut extraire une sous-suite convergente,
que l’on note ρφ(ψ(n)) . Elle converge vers α > 0, et de la continuité de J 0 , de la
continuité de la projection sur un convexe fermé, on déduit l’égalité y = pK (y−αJ 0 (y)).

6.8.2 Pénalisation des contraintes


Le premier concerne la pénalisation des contraintes;on cherche à minimiser J(u) sous
les contraintes Fj (u) ≤ 0. On introduit
j=M
1 X
Jε (v) = J(v) + [max(Fj (v), 0)]2
ε j=1

On a

Théorème 6.9 On suppose V = IRN .


On suppose que J est continue, α−convexe, que les Fj sont convexes et que
l’ensemble des contraintes K est non vide. Si uε est l’unique solution de inf Jε et
u l’unique solution de inf v∈K J, alors

lim uε = u.
ε→0

De plus, sous l’hypothèse J, F1 , .., FM continuement différentiables, les contraintes


sont qualifiées en u, et la famille des contraintes actives est régulière en u, les multi-
plicateurs de Lagrange λj du problème non pénalisé vérifient

2
λi = lim max(Fi (uε ), 0).
ε→0 ε

1 Pj=M
Preuve L’existence et l’unicité de u et de uε sont claires car u → ε j=1 [max(Fj (v), 0)]2 =
G(u)
ε est une fonctionnelle convexe.
On sait d’autre part que

J (u ) ≤ infK J ,
et comme, pour y ∈ K, J (y) = J(y), on vérifie que J (u ) ≤ J(u). Comme d’autre
part

J (u ) ≥ J(u )
on a l’inégalité J(u ) ≤ J(u). Comme J est α−convexe, la suite uε est bornée. On
peut extraire une sous-suite convergeant vers une limite ũ. De l’inégalité J(uε ) ≤
ε)
J(uε ) + G(uε ≤ J(u), on déduit l’inégalité G(uε ) ≤ ε(J(u) − J(uε )), ce qui implique
que G(ũ) = 0 (car G est continue donc G(uε ) tend vers G(ũ) pour la suite extraite
et que ε → 0). Cela exprime que ũ ∈ K. Ainsi comme J(uε ) ≤ J(u), en considérant
102 CHAPTER 6. APPROXIMATION DE SOLUTIONS

toujours la même suite extraite et la continuité de J, on trouve J(ũ) ≤ J(u). On a


démontré que ũ = u et donc la suite uε admet une seule valeur d’adhérence.
Pour les multiplicateurs de Lagrange, on trouve, par définition de la dérivée en un
point x de (max(x, 0))2 qui vaut 2 max(x, 0), l’égalité

j=M
1 X
J 0 (uε ) + 2 max(Fj (uε ), 0)Fj0 (uε ) = 0.
ε j=1

Comme J 0 , Fj0 sont continues, on trouve J 0 (uε ) → J 0 (u) et Fj0 (uε ) → Fj0 (u). On
suppose que pour un élément j, on ait Fj (uε ) → Fj0 (u) < 0. Alors il existe ε0 tel que,
pour ε < ε0 , Fj (uε ) < 0 et donc on trouve max(Fj (uε , 0) = 0. L’égalité devient, pour
ε assez petit

1 X
J 0 (uε ) + 2 max(Fj (uε ), 0)Fj0 (uε ) = 0.
ε j∈I(u)

D’autre part, pour j ∈ I(u), on vérifie qu’il existe une suite λ1 , ..λM , avec λj = 0
/ I(u), telle que J 0 (u) + λj Fj0 (u) = 0. Ainsi on trouve
P
si j ∈

1 X
J 0 (uε ) − J 0 (u) + ( 2 max(Fj (uε ), 0) − λj )Fj0 (uε ) = 0.
ε j∈I(u)

La famille (Fj0 (u) est libre, donc, par continuité, pour ε assez petit, la famille
(Fj0 (uε )
est libre. De plus, en formant le produit scalaire avec tous les Fj0 (uε ), le
déterminant du système obtenu est, toujours pour ε petit, minoré par une constante.
Ceci permet d’assurer le fait que 2ε max(Fj0 (uε , 0) est borné et donc que

2
max(Fj0 (uε ), 0)(Fj0 (uε ) − Fj0 (u))
ε
tend vers 0 pour tout j. On en conclut sur la convergence, sur la base fixe des Fj0 (u),
de J 0 (uε ) + 2ε max(Fj0 (uε ), 0)Fj0 (u), d’où le résultat de convergence des coefficients.

6.8.3 Algorithme d’Uzawa


En fait, il s’agit d’une méthode de recherche de point selle.
On sait que, pour L(v, q) = J(v) + (q, F (v)),

∀q ≥ 0, L(u, q) ≤ L(u, p) ≤ L(v, p)


Ainsi

∀q, q ≥ 0, (p − q, F (u)) ≥ 0.
Il vient, pour µ > 0

(p − q, p − (p + µF (u))) ≤ 0∀q ∈ (IR+ )M .


Ceci indique que, pour tout µ > 0, la projection de p + µF (u) est p sur l’espace
(IR+ )M .
On définit alors, pour µ paramètre fixé, la suite (un , pn ) donnée par
6.8. ALGORITHMES D’OPTIMISATION AVEC CONTRAINTES 103

L(un , pn ) = inf L(v, pn )


v∈V

et le multiplicateur pn+1 est la projection sur (IR+ )m de pn + µF (un ).


Cette projection se fait très simplement: pour chaque coordonnée de pn + µF (un ),
si la coordonnée est positive ou nulle, on ne la change pas, mais si elle est strictement
négative, on la met à 0. Cet algorithme converge: ce qui s’écrit dans le

Théorème 6.10 On suppose J α−convexe différentiable, Lipschitz de constante C et


2α n
que le lagrangien L admet un point selle (u, p). Alors, pour 0 < µ < C 2 , la suite u
donnée par l’algorithme d’Uzawa converge vers u .

On admettra la démonstration de ce théorème.


104 CHAPTER 6. APPROXIMATION DE SOLUTIONS
Chapter 7

Introduction aux méthodes de


discrétisation des équations aux
dérivées partielles

On souhaite étudier les équations aux dérivées partielles suivantes:


i) Equation de la chaleur ∂t u − ∂x22 u = 0
ii) Equation des ondes ∂t22 u − ∂x22 u = 0
iii) Equation de Laplace avec condition de Dirichlet

−∆u = f sur Ω, u|∂Ω = 0.

7.1 Les différences finies


Pour les deux premières équations, on souhaite ramener ce problème continu à un
problème discrétisé, c’est-à-dire faisant intervenir les valeurs de la solution u aux
points (j∆x, n∆t). Pour cela, il s’agit de calculer la dérivée première et la dérivée
seconde en fonction des points voisins, sur le modèle de u(x+h)−u(x)
h ' u0 (x).
j 4
On écrit pour cela un = u(j∆x, n∆t) pour u de classe C , sur laquelle on applique
la formule de Taylor-Young.

uj+1
n = ujn + ∆x∂x u(j∆x, n∆t) + 12 (∆x)2 ∂x22 u(j∆x, n∆t) + 61 (∆x)3 ∂x33 u(j∆x, n∆t)
1
+ 24 (∆x)4 ∂x44 u((j + θ)∆x, n∆t).

Il ne suffit pas de uj+1


n et de ujn pour connaitre la dérivée seconde; il faut un
troisième point. On prend uj−1
n , et on a

uj−1
n = ujn − ∆x∂x u(j∆x, n∆t) + 12 (∆x)2 ∂x22 u(j∆x, n∆t) − 61 (∆x)3 ∂x33 u(j∆x, n∆t)
1
+ 24 (∆x)4 ∂x44 u((j − θ 0 )∆x, n∆t).

En additionnant les deux relations, on trouve ainsi

2 2 (∆x)4 4
uj+1 j−1 j
n +un −2un = (∆x) ∂x2 u(j∆x, n∆t)+ [∂x4 u(j+θ)∆x, n∆t)+∂x44 u(j−θ 0 )∆x, n∆t)],
24

105
106 CHAPTER 7. INTRODUCTION À LA DISCRÉTISATION

ainsi

uj+1 + uj−1 − 2ujn (∆x)2 4


∂x22 u(j∆x, n∆t) = n n
− [∂x4 u(j+θ)∆x, n∆t)+∂x44 u(j−θ 0 )∆x, n∆t)],
(∆x)2 24

ce qui donne, sur un compact K:

uj+1 + uj−1 − 2ujn (∆x)2 4


|∂x22 u(j∆x, n∆t) − n n
| ≤ ||∂x4 u(j∆x, n∆t)||.
(∆x)2 12
On utilise aussi la relation

ujn+1 − ujn = ∆t∂t u(j∆x, n∆t) + O((∆t)2 )


qui nous permet d’écrire des schémas pour l’équation des ondes et pour l’équation de
la chaleur.
Pour l’équation des ondes, on écrit par exemple

ujn+1 − 2ujn + ujn−1 uj+1


n − 2ujn + uj−1
n
− =0 (7.1.1)
(∆t)2 (∆x)2
qui s’appelle un schéma explicite puisque ujn+1 est connu explicitement en fonction
des valeurs de ulk pour k ≤ n, c’est-à-dire que l’on connait les valeurs aux points situés
au temps (n + 1)∆t en fonction des temps précédents.
On écrit aussi

ujn+1 − 2ujn + ujn−1 uj+1 j j−1


n+1 − 2un+1 + un+1
− =0 (7.1.2)
(∆t)2 (∆x)2
qui s’appelle un schéma implicite car on ne peut pas déterminer les valeurs au temps
(n + 1)∆t en fonction des valeurs aux temps précédents.
On suppose que l’on se place sur un compact, par exemple x ∈ [0, 1]. On vérifie
que la discrétisation correspond aux ∆x = N1 et j ∈ [0, N ]. En ajoutant des conditions
aux extrémités, on se ramène à un système de la forme

u1n+1
 
 u2n+1   
A  = 2un−1 − un−1 .
 
 . 
.uNn+1

C’est un système linéaire de la forme Ax = b qui peut se résoudre par des méthodes
d’approximation du cours d’optimisation, sur la fonctionnelle

1
J(x) = (Ax, x) − (b, x).
2
Pour l’équation de la chaleur, on écrit les mêmes schémas:

ujn+1 − ujn uj+1 − 2ujn + uj−1


− n n
=0 (7.1.3)
∆t (∆x)2
qui est un schéma explicite, et
7.1. LES DIFFÉRENCES FINIES 107

ujn+1 − ujn uj+1 j j−1


n+1 − 2un+1 + un+1
− =0 (7.1.4)
∆t (∆x)2
qui est un schéma implicite.
Pour affiner l’analyse, nous introduisons les fonctions, polynômiales de degré 3
au plus, qui soient de classe C 2 sur [0, 1] et qui coincident avec tous les ujn en tous
les points j∆x pour ∆x = N1 . Pour ces fonctions là, on vérifie que la dérivée sec-
uj+1 −2uj +uj−1
onde sur tous les intervalles [j∆x, (j + 1)∆x] est exactement égale à n+1 (∆x)
n+1
2
n+1
,
puisque la fonction est de dérivée quatrième nulle sur chaque intervalle. On peut
donc déduire une formulation continue de cette formulation discrète, en remplacant
uj+1 −2uj +uj−1 n+1 n+1 n+1
le terme n+1 (∆x)n+1
2
n+1
par u (x+∆x)+u (∆x)(x−∆x)−2u
2
(x)
. On emploiera en per-
manence cette notation désormais (utilisant l’indice pour la position en espace et
l’exposant pour l’incrément en temps). On écrit les schémas sous la forme

un+1 (x) − un (x) un+1 (x + ∆x) + un+1 (x − ∆x) − 2un+1 (x)


=
∆t (∆x)2

un+1 (x) − un (x) un (x + ∆x) + un (x − ∆x) − 2un (x)


=
∆t (∆x)2
Considérant la transformée de Fourier en x des deux égalités ci-dessus et utilisant
la relation

eiξ∆x + e−iξ∆x − 2 sin2 ξ∆x


2
= −4
(∆x)2 (∆x)2
on trouve respectivement, en notant
Z +∞
n
v (ξ) = e−ixξ un (x)dx
−∞
la relation pour le schéma implicite pour l’équation de la chaleur
ξ∆x ∆t
(1 + 4 sin2 )v n+1 (ξ) = v n (ξ)
2 (∆x)2
et la relation pour le schéma explicite pour l’équation de la chaleur

ξ∆x ∆t
v n+1 (ξ) = (1 − 4 sin2 )v n (ξ).
2 (∆x)2
Le but est d’assurer la convergence de la suite pour tout n (c’est à dire lorsque le
temps devient grand).
• Dans le cas du schéma explicite, il est nécessaire pour cela que le coefficient
(1 − 4 sin2 ξ∆x ∆t
2 (∆x)2 ) soit de module plus petit que 1, soit l’inégalité

ξ∆x ∆t
4 sin2 > −2
2 (∆x)2
∆t 1
ce qui est possible lorsque le coefficient (∆x) 2 est plus petit que 2 . Cette condition

s’appelle une condition CFL et doit être vérifiée pour que la suite n’explose pas lorsque
∆t tend vers 0 (ce qui est imposé par [0, T ] = ∪k≤ T [k∆t, (k + 1)∆t]).
∆t
108 CHAPTER 7. INTRODUCTION À LA DISCRÉTISATION

• Dans le cas du schéma implicite, le coefficient (1+4 sin2 ξ∆x ∆t −1


2 (∆x)2 ) est toujours
plus petit que 1 et le schéma implicite converge toujours.
Pour l’équation des ondes, la situation est similaire, sauf que la relation de récurrence
pour la suite est une relation d’ordre 2, et on doit étudier les racines de la relation
caractéristique. On trouve par exemple, pour le schéma explicite

ξ∆x ∆t 2 n+1
v n+1 (ξ) − 2(1 − 2 sin2 ( ) )v (ξ) + v n (ξ) = 0
2 ∆x
et pour le schéma implicite

ξ∆x ∆t 2
v n+1 (ξ)(1 + 4 sin2 ( ) ) − 2v n+1 (ξ) + v n (ξ) = 0.
2 ∆x
On constate pour le premier schéma que le produit des racines de l’équation car-
actéristique est 1, donc le produit des modules est égal à 1. Si le discriminant est
négatif, les deux racines sont complexes conjuguées de module 1, si le discriminant est
positif, une des racines est de module supérieur à 1, donc il n’y a pas convergence.
1
Pour le deuxième schéma, le produit des racines est 2 ξ∆x ∆t 2
et le discrim-
1+4 sin 2
( ∆x )
inant est négatif, elles sont donc complexes conjuguées de module inférieur à 1 (égal
à 1 lorsque ξ∆x = 2πn), donc ce schéma est convergent.
Ce schéma n’est pas employé en général; les numériciens préfèrent employer le
schéma de Cranck-Nicholson qui se présente de la manière suivante.
On introduit l’opérateur Ah qui est l’opérateur employé dans les algorithmes
précédents (le h correspond à ∆x). Cet opérateur s’écrit

φj+1 − 2φj + φj−1


(Ah φ)j = − (7.1.5)
(∆x)2
sur une suite φj .
Le schéma utilisé habituellement est alors

un+1
j + ujn−1 − 2unj
+ (Ah (θun+1 + (1 − 2θ)un + θun+1 ))j = 0.
(∆t)2
où θ ∈ [0, 12 ]. Le choix θ = 0 correspond à un schéma explicite comme vu précédemment.
La transformée de Fourier appliquée à ce schéma comme cela a été fait précedemment
conduit à la relation de récurrence

(1 + α(ξ)θ)v n+1 (ξ) − (2 − (1 − 2θ)α(ξ))v n (ξ) + (1 + α(ξ)θ)v n−1 (ξ) = 0,

où

∆t 2 2 ξ∆x
α(ξ) = 4( ) sin
∆x 2
associée à l’équation caractéristique

(1 + α(ξ)θ)r 2 − (2 − (1 − 2θ)α(ξ))r + (1 + α(ξ)θ) = 0,


Comme précédemment, le produit des racines est 1, donc si les deux racines sont
réelles et ne sont pas égales, le schéma est instable car une des racines est plus grande
7.1. LES DIFFÉRENCES FINIES 109

que 1. Il vient alors qu’une condition nécessaire de stabilité est donnée par le fait que
les deux racines sont complexes conjuguées, donc de module 1. Ceci s’écrit

(2(1 + θα(ξ)) − α(ξ))2 − 4(1 + α(ξ)θ)2 ≤ 0


soit −α(ξ)(4(1 + α(ξ)θ) − α(ξ)) ≤ 0 ou encore

(4θ − 1)α + 4 ≥ 0.
Lorsque θ ≥ 41 , cette inégalité est tout le temps vraie. Lorsque θ ∈ [0, 21 ], on trouve
que cette inégalité est vraie pour

∆t 2 2 ξ∆x 1
() sin ≤
∆x 2 1 − 4θ
ce qui est vrai sous la condition

∆t 1
≤√ .
∆x 1 − 4θ
On résume les résultats de cette section dans:

Théorème 7.1 Soit Ah l’opérateur d’approximation donné par (7.1.5).


1) Cet opérateur d’approximation vérifie l’inégalité, pour φ = (u(j∆x))j et u de
classe C 4 sur [0, 1] et j ≤ N , ∆x = N1 :

(∆x)2 (4)
|(Ah u)j + u”(j∆x)| ≤ ||u ||C 0 ([0,1]) .
12
2) Un schéma explicite pour l’équation de la chaleur s’écrit

un+1 − un
+ Ah un = 0.
∆t
Il est stable lorsque la condition suivante est satisfaite:

∆t 1
2
≤ .
(∆x) 2
3) Un schéma implicite pour l’équation de la chaleur s’écrit

un+1 − un
+ Ah un+1 = 0.
∆t
Il est tout le temps stable.
4) Un schéma explicite pour l’équation des ondes s’écrit

un+1
j + ujn−1 − 2unj
+ (Ah un )j = 0.
(∆t)2
Il est tout le temps instable
5) Un schéma implicite pour l’équation des ondes s’écrit

un+1
j + ujn−1 − 2unj
+ (Ah un+1 )j = 0.
(∆t)2
Il est tout le temps stable.
110 CHAPTER 7. INTRODUCTION À LA DISCRÉTISATION

6) Un schéma implicite pour l’équation des ondes respectant l’invariance par


renversement du temps est

un+1
j + ujn−1 − 2unj
+ (Ah (θun+1 + (1 − 2θ)un + θun+1 ))j = 0.
(∆t)2

Il est tout le temps stable pour 14 ≤ θ ≤ 12 .


Pour 0 ≤ θ ≤ 41 , il est stable sous la condition CFL

∆t 1
≤√ .
∆x 1 − 4θ

7.2 Les éléments finis


Nous terminons par une introduction à l’étude des éléments finis en utilisant l’équation
−∆u = f u ∈ H 1 (Ω) avec condition au bord de Dirichlet sur un ouvert Ω borné.
On vérifie que, si cette équation est vraie au sens des distributions, alors on a

∀φ ∈∈ C ∞ (Ω), < −∆u, φ >=< f, φ > .

On utilise la définition de la dérivée au sens des distributions pour obtenir

< ∇u, ∇φ >=< f, φ > .


Comme on suppose u ∈ H01 (Ω), la forme linéaire

φ →< ∇u, ∇φ >


est continue sur C0∞ (Ω) pour la norme de H01 (Ω) donc peut se prolonger par densité.
Si on suppose f ∈ L2 (Ω), le second membre a les mêmes propriétés, donc
Z
< ∇u, ∇v >= f (x)v(x)dx

pour v ∈ H01 (Ω). Cette égalité s’écrit donc


Z Z
∀v ∈ H01 (Ω), u(x)v(x)dx = f (x)v(x)dx. (7.2.6)
Ω Ω
On reconnait Rdans le membre de gauche la dérivée de Fréchet de la fonctionnelle
1−convexe 12 Ω (∇u)2 dx, et l’égalité est l’écriture de la condition d’Euler pour la
minimisation sur H01 (Ω) (dont l’espace des directions admissibles est lui-même) de
1
Z Z
J(u) = (∇u)2 dx − f (x)u(x)dx.
2 Ω Ω
On utilise alors les théorèmes d’approximation, en supposant par exemple que
Ω = [0, 1] × [0, 1], pour lequel on construit des sous espaces adaptés de fonctions H01 ,
donnés par (h = n1 )

Ph = {u(x, y) ∈ H01 ([0, 1]×[0, 1]), continues, polynômes de degré 1 sur[ph, (p+1)h]×[qh, (q+1)h]}.

On détermine alors une base de Ph en définissant la valeur au bord et la valeur des


dérivées ∂x u et ∂y u sur chacun des pavés du plan. On écrit alors un élément de Ph
7.2. LES ÉLÉMENTS FINIS 111

sur une base, et on écrit la minimisation de J sur Ph ⊂ H01 ([0, 1] × [0, 1]). Alors on
trouve, de l’égalité variationnelle (7.2.6) écrite pour vh ∈ Ph et uh ∈ Ph , un système
en dimension finie de la forme Ah uh = Fh , que l’on résout par les méthodes usuelles
du cours (en minimisant par exemple 21 (Ah X, X) − (Fh , X)), et on essaie d’avoir un
résultat en faisant tendre h vers 0.
Par exemple, la base de polynômes sur chaque pavé est (1, X, Y ) donc tout polynôme
de degré au plus 1 s’écrit

ap,q + bp,q (X − ph) + cp,q (Y − qh)

Son gradient est approché par (bp,q , cp,q ) et sa valeur sur X = ph est donnée par
ap,q + cp,q (Y − qh), sur X = (p + 1)h est donnée par ap,q + h + cp,q (Y − qh), sur Y = qh
est ap,q + bp,q (X − ph) et sur Y = (q + 1)h par ap,q + h + bp,q (X − ph). On peut alors
calculer l’intégrale du produit d’éléments de la base:
RhRh
11dxdy = h2
R0h R0h 3
0 0 1xdxdy = h2
RhRh 3
1ydxdy = h2
R0h R0h 2 4
x dxdy = h3
R0h R0h 4
xydxdy = h4
R0h R0h 2 h 4
0 0 y dxdy = 3

ce qui fait que le produit de deux éléments a + bx + cy et a0 + b0 x + c0 y donne

h h h2
h2 [aa0 + (ab0 + a0 b + ac0 + a0 c)
+ (bc0 + b0 c) + (bb0 + cc0 ) ]
2 3 4
2
ainsi la matrice de la forme quadratique associée (en divisant par h pour plus de
simplicité) est
h h
 
1 2 2
h h2 h2
.
 
 2 4 3
h h2 h2
2 3 4
Il est clair que c’est une forme quadratique définie positive puisque
Z hZ h
(a + bx + cy)2 dxdy = 0 ⇒ a = b = c = 0.
0 0

On utilise donc cette représentation des fonctions de H 1 par des des polynômes de
degré 1.
La présentation ainsi faite n’est pas satisfaisante; en effet un carré ou un rectangle
a quatre sommets, et un polynôme de degré 1 a trois coefficients. Ainsi on ne pourra
pas construire une fonction générale prenant quatre valeurs données en tous les coins
ABCD; il faut nécessairement que

u(A) + u(D) = u(B) + u(C)

Si on veut construire une famille qui conduise à toutes les valeurs possibles aux points
du carré, il faut considérer les fonctions de la forme

u(x, y) = u(0, 0) + bx + cy + dxy


112 CHAPTER 7. INTRODUCTION À LA DISCRÉTISATION

qui sont des polynômes de degré 1 dans chacune des variables x, y. Alors on aura

u(1, 0) = u(0, 0) + b, u(0, 1) = u(0, 0) + c, u(1, 1) = u(0, 0) + b + c + d


donc b = u(1, 0) − u(0, 0), c = u(0, 1) − u(0, 0), d = u(1, 1) + u(0, 0) − u(0, 1) − u(1, 0),
et cette famille permet de construire une solution dont les valeurs données sont les
valeurs au coin.
Les valeurs aux sommets s’appellent les degrés de liberté d’une fonction de
l’espace d’approximation. Dans le pavé [0, 1] × [0, 1], on construit les sommets de
l’approximation aij = (ih, jh) et la base de l’espace d’approximation Vh (φij ) des
fonctions telles que

φij (ai0 j 0 ) = δii0 δjj 0


qui coincident avec les fonctions décrites ci-dessus sur tous les pavés élementaires de
côté h. La fonction φij est la fonction nulle sur tout pavé dont un coin n’est pas aij
est est construite comme la fonction valant 1 au coin aij et 0 à tout autre coin pour
un pavé ayant aij comme coin. Toute fonction de Vh s’écrit
X
u= u(aij )φij
R R
et il suffit d’évaluer ∇u∇vdx =
P
aij bi0 j 0 ∇φij ∇φi0 j 0 dx pour obtenir la forme
quadratique.
Cette présentation fait partie d’un cadre plus général d’approximation, dont on
résume les résultats:

Proposition 7.1 La formulation variationnelle d’un système d’équations aux dérivées


partielles avec conditions aux limites prescrites est l’équation d’Euler associée à la
minimisation sur un espace de Hilbert H de la fonctionnelle quadratique d’énergie
associée au problème 21 a(u, u) − L(u),.
Elle s’écrit

∀v ∈ H, a(u, v) = L(v).
Une méthode d’approximation s’obtient par le processus suivant: on définit une
suite d’espaces vectoriels de dimension finie Vh , associée à un paramètre h tendant
vers 0, dont on connait une base simple Bh , ayant les propriétés suivantes
i) pour tout élément v de H on peut construire une suite vh ∈ Vh telle que

|v − vh |H → 0 lorsque h → 0
ii) Le calcul de a(φ, ψ) pour φ et ψ dans Bh est simple.
Alors si uh est le minimum de 12 a(u, u) − Lh (u) sur Vh , dans certaines conditions
uh → u.
Chapter 8

Problèmes d’examens

Dans cette partie, nous donnons les sujets d’examens posés les années précédentes.
La solution sommaire est donnée en italique à la suite de chaque question.

8.1 Problème des splines: texte du problème de 1999


Dans ce long problème, on cherche à présenter une théorie d’optimisation pour con-
struire les fonctions spline cubiques, qui sont, rappelons le, des polynômes de degré 3
qui se raccordent sur une subdivision. Dans un premier temps, on étudie des problèmes
semblables au calcul des variations, en imposant les valeurs en t = 0 et en t = 1. Dans
une deuxième partie, on étudiera une subdivision t0 = 0, t1 , ..tN = 1 de [0, 1]. Les
questions marquées d’une * sont soit un peu plus difficiles soit présentent des calculs
compliqués. Elles sont à considérer comme des questions facultatives, donnant un
bonus lorsqu’elles sont résolues.
PARTIE I; Optimisation en deux points
On introduit y(t) ∈ H 2 (0, 1), v = (v0 , v1 ) ∈ IR2 . On définit

2
J0 (y) = 12 01 ( ddt2y )2 (t)dt
R

J(y, v) = J0 (y) + 12 (y(1) − v1 )2 + 21 (y(0) − v0 )2


2
Jε (y) = 21 01 ( ddt2y )2 (t)dt + 2ε 01 ( dy 2 ε R1 2
R R
dt ) (t)dt + 2 0 y (t)dt

1. On veut résoudre

inf J0 (y)
(A) y(0) = v0
y(1) = v1 .

On note K = {y ∈ H 2 (0, 1), y(0) = v0 , y(1) = v1 }. Montrer que K est fermé.


On peut par exemple utiliser y(0) = y( 12 ) − 01 y 0 (s)ds. On se donne une suite
R

yn dans K qui converge vers y. Comme H 2 est complet, y ∈ H 2 . Le point 12 est


intérieur donc comme la norme C 0 est majorée par la norme H 2 sur tout compact
inclus dans ]0, 1[, , yn ( 21 ) converge vers y( 12 ). On en déduit que yn (0) tend vers y(0)
donc y(0) = v0 et K est fermé. Deuxième solution élégante y(x) − v0 − (v1 − v0 )x est
dans H02 qui est un espqce complet inclus dans C 1 .

113
114 CHAPTER 8. PROBLÈMES D’EXAMENS

1.1. Calculer la dérivée de Gâteaux de J0 en y ∈ H 2 (0, 1) suivant la direction w ∈


H 2 (0, 1).
R 2 2
On a la relation J0 (y + w) − J0 (y) = 12 2 J0 (w) +  01 ddt2y ddtw
2 dt. Ainsi

1 d2 y d2 w
Z
(J00 (y), w) = dt.
0 dt2 dt2

1.2. Pour y ∈ K déterminer le cône des directions admissibles K(y).


Le cône des directions admissibles est K(y) = H02 ([0, 1]).

1.3. Ecrire l’équation d’Euler et donner les conditions nécessaires sur y. Calculer la
solution générale dans H 4 (0, 1) de l’équation différentielle obtenue.
R 2 2
L’équation d’Euler est ∀w ∈ H 2 (0, 1), 01 ddt2y ddtw ∞
2 dt = 0. On prend w ∈ C0 (0, 1),

ce qui implique que, au sens de D 0 (0, 1), y (4) = 0. On ne peut pas aller plus loin car
on n’a aucune information sur la continuité de y” pour y ∈ H 2 , donc on ne peut pas
utiliser la formule d’intégration par parties.
La solution générale de l’équation différentielle dans H 4 est y = a0 + a1 x + a2 x2 +
3
a3 x .

1.4. Calculer la solution y0 de (A) et donner J0 (y0 ).


Toute solution au sens des distributions de cette équation différentielle est alors
un polynôme de degré 3. En effet, on montre que si z est une distribution de dérivée
nulle et ψ une fonction test,
R
en utilisant une fonction test θ donnée d’intégrale égale
à 1, la fonction ψ(x) − ( ψ(x)dx)θ(x) est une fonction à support compact d’intégrale
nulle, donc sa primitive φ(x) est Rune fonction à support compact.R Ainsi < z, ψ >=<
ψ − ( ψ(x)dx)θ) > + < z, θ > ψ(x)dx =< z, φ0 > + < z, θ > ψ(x)dx =< z, θ >
R
z,
R
ψ(x)dx. On en déduit que z est constante.
Maintenant, si y est de dérivée quatrième nulle, alors y (3) = 6a3 , donc (y −
a3 x3 )(3) = 0. On reprend le raisonnement de proche en proche pour aboutir à la
conclusion. Maintenant, on peut appliquer, pour la solution de l’équation d’Euler,
qui est (condition nécessaire) un polynôme de degré 3 donc est dans H 4 , les formules
d’intégration par parties. Alors, utilisant w(0) = w(1) = 0, on trouve, utilisant des
fonctions test telles que w0 (0) 6= 0 et w0 (1) 6= 0, les relations y”(0) = y”(1) = 0. On
trouve donc 6a3 + 2a2 = 0 et a2 = 0, donc la solution est y0 (x) = v0 + v1 x, pour
laquelle J0 (y0 ) = 0, donc c’est bien un minimum et il est unique.

2. On cherche à résoudre

inf Jε (y)
(B) y(0) = v0
y(1) = v1 .

2.1. Identifier α tel que Jε est α−convexe sur H 2 (0, 1) muni de sa norme usuelle

d2 u 2
1 du
Z
1
||u|| = ( [(
2
) + ( )2 + u2 ]dt) 2 .
0 dt dt
Il suffit de prendre α = min(ε, 1).
8.1. PROBLÈME DES SPLINES: TEXTE DU PROBLÈME DE 1999 115

2.2. Justifier le fait que (B) admet une solution unique. Donner les conditions
nécessaires sur la solution yε , supposée encore ici dans H 4 (0, 1). *Montrer que cette
solution peut se décomposer sur une base de fonctions de la forme eλt et donner le
système vérifié par les coefficients. Ne Pas le résoudre.
On applique le théorème 4.1. L’équation d’Euler s’écrit
Z 1
2
∀w ∈ H (0, 1), y”w” + ε(y 0 w0 + yw) = 0.
0

L’équation différentielle ordinaire est alors

y (4) − εy” + εy = 0.

Si la solution est dans H 4 , par intégrations par parties, on trouve y”(1) = y”(0) =
0. On a donc l’équation différentielle ordinaire + quatre conditions aux limites y(0) =
v0 , y(1) = v1 , y”(0) = y”(1) = 0.
D’autre part, il est facile de voir que l’équation différentielle ordinaire a, dans H 4 ,
les solutions (pour  < 4)

a+ eλ1 x+iλ2 x + a− eλ1 x−iλ2 x + b+ e−λ1 x+iλ2 x + ba− e−λ1 x−iλ2 x = y


√ 1 √ 1
où λ1 = ( ε + 2ε ) 2 , λ2 = ( ε − 2ε ) 2 . Les quatre conditions aux limites conduisent à
un système sur les coefficients.

2.3. * Montrer que, en utilisant y0 , on a l’inégalité Jε (yε ) ≤ Cε où C est une


constante dépendant de v0 et de v1 . Peut-on en déduire la limite, lorsque ε → 0, de
yε ? On pourra utiliser la formule de Taylor avec reste intégral.
On a Jε (yε ) ≤ Jε (y0 ), ce qui implique Jε (yε ) ≤ 2ε [v02 − 2v0 v1 + v12 + v02 + v0 v1 + v12 ] =
ε[v0 − v02v1 ].
2

On en déduit J0 (yε ) ≤ Cε, ce qui démontre, puisque y”ε est une suite de L2 , que
y”ε tend vers 0 dans L2 . On écrit alors
Z 1
yε (x) = v0 + yε0 (0)x + x2 (1 − t)y”ε (tx)dt
0

égalité valable car yε est dans H 4 , et, de plus, on a la relation


Z 1
yε0 (0) = v1 − v0 − (1 − t)y”ε (t)dt
0

De ces deux égalités, on déduit que yε0 (0) converge vers v1 − v0 , en utilisant
l’inégalité de Cauchy-Schwartz sur l’intégrale, puis que yε (x) converge vers v0 + (v1 −
v0 )x en tout point. On montre même, utilisant la formule de Taylor avec reste intégral
sur yε0 , que yε tend vers y0 dans H 2 .

3. On veut résoudre

inf J(y, v)
(C)
y ∈ H 2 (0, 1).
116 CHAPTER 8. PROBLÈMES D’EXAMENS

3.1. Montrer que, pour tout v ∈ IR2 , il existe y(v)(t) telle que y”(v)(t) = 0∀t et
J(y, v) = J(y − y(v), 0).
Comme y” est nulle, y(v)(x) = a + bx. Dire que l’égalité demandée est vraie se
traduit en

1
J(y − y(v)) = J0 (y − y(v)) + [(y(1) − a − b − v1 )2 + (y(0) − a − v0 )2 ]
2
donc y(v)(x) = −v0 − (v1 − v0 )x et l’égalité est vérifiée.

3.2. Démontrer que, pour (y, z) ∈ H 2 (0, 1)

(J 0 (y, 0) − J 0 (z, 0), y − z) = 2J(y − z, 0).


1
On admet que z → (J(z, 0)) 2 est une norme sur H 2 (0, 1), équivalente à ||z||.
En déduire que J(y, 0) est uneR fonctionnelle α−convexe.
L’égalité vient de (J 0 (y), w) = 01 y”w”dt+yw(1)+yw(0). Pour montrer l’inégalité
de coercivité, on montre que 01 y 2 dx et 01 (y 0 )2 dx sont majorés par C[(y(0))2 +(y(1))2 +
R R
R1 2 2
0 (y”) dx], ce qui implique que ||y||H 2 ≤ (C + 1)J(y, 0).R
On démontre par exemple que y 0 (0) = y(1) − y(0) − 01 (1 − t)y”(t)dt, donc

Z 1 Z 1
y(x) = y(0) + (y(1) − y(0))x + x2 (1 − t)y”(tx)dt − x (1 − t)y”(t)dt
0 0

Z 1 Z 1
0
y (x) = y(1) − y(0) + x y”(xt)dt − y”(t)dt
0 0

On en déduit ((a + b)2 ≤ 2(a2 + b2 ))

(y(x))2 ≤ 2[(y(0) + (y(1) − y(0))x)2 + (x2 01 (1 − t)y”(tx)dt − x 01 (1 − t)y”(t)dt)2 ]


R R

≤ 2[(y(0) + (y(1) − y(0))x)2 + 2(x2 01 (1 − t)y”(tx)dt)2 + 2x2 ( 01 (1 − t)y”(t)dt)2 ]


R R
3 2
≤ 2[(y(0) + (y(1) − y(0))x)2 + 2( x3 + x3 )||y”||2L2 ]

On en déduit

Z 1 7 7
(y(x))2 dx ≤ 2((y(0))2 +y(0)y(1)+(y(1))2 )+ ||y”||2L2 ≤ 3((y(0))2 +(y(1))2 )+ ||y”||2L2
0 9 9
On a un résultat identique pour l’intégrale de y 0 , donc on a la coercivité de J par
l’équivalence des normes. On applique alors la proposition 4.3.

3.3. Démontrer que le problème (C) admet une solution unique dans H 2 (0, 1). En
écrivant la condition d’Euler, déterminer la solution de (C).
Comme il s’agit d’une fonctionnelle α−convexe, on a l’existence et l’unicité du
minimum. Les équations d’Euler sont
Z 1
∀w ∈ H 2 , y”w” + y(0)w(0) + y(1)w(1) = 0.
0
8.1. PROBLÈME DES SPLINES: TEXTE DU PROBLÈME DE 1999 117

En prenant w ∈ C0∞ , on trouve que y est un polynôme. Alors la formule d’intégrations


par parties est licite, et on trouve

∀w ∈ H 2 , y”(1)w0 (1) − y”(0)w0 (0) + (y(0) − y (3) (0))w(0) + (y(1) − y (3) (1))w(1) = 0

ce qui donne quatre relations sur les coefficients 6a3 + 2a2 = 0, a2 = 0, a0 − 6a3 =
0, a0 +a1 +a2 +a3 −6a3 = 0, donc la solution est 0. On aurait pu le trouver directement
en rappelant qu’il y a une solution unique, que la valeur de J(y, 0) en y = 0 est le
minimum, donc le minimum est 0.

4. Résultat général de calcul des variations:


Soit L(t, u, u̇, ü) une fonction de classe C 2 de toutes ses variables t ∈ [0, 1], u ∈
IR, u̇ ∈ IR, ü ∈ IR.
On introduit, pour y ∈ C 2 ([0, 1], IR), J(y) = 01 L(s, y(s), y 0 (s), y”(s))ds. Déterminer
R

l’équation d’Euler associée à la minimisation de J(y) pour y(0) = v0 et y(1) = v1 .


Donner les conditions aux limites sur y0 , qui est le point où J est supposée être
extremum.
En généralisant l’approche de l’équation d’Euler pour la mécanique, on écrit

Z 1
∀w ∈ C ∞ , [∂y L(s, y, y 0 , y”)w + ∂y0 L(s, y, y 0 , y”)w0 + ∂y” L(s, y, y 0 , y”)w”]ds = 0.
0

Au sens des distributions, on trouve ainsi

d d2
∂y L(t, y0 (t), y00 (t), y”0 (t))− (∂y0 L(t, y0 (t), y00 (t), y”0 (t)))+ 2 (∂y” L(t, y0 (t), y00 (t), y”0 (t))) = 0.
dt dt

En supposant la solution de classe C 4 par exemple et en réalisant les intégrations


par parties, on obtient les quatre relations

∂y” L(1, v1 , y00 (1), y0 ”(1)) = 0, ∂y” L(0, v0 , y00 (0), y”0 (0)) = 0, y0 (1) = v1 , y0 (0) = v0 .

PARTIE II; Optimisation en N + 1 points


On donne (v0 , ..., vN ) ∈ IRN +1 , et 0 = t0 < t1 < ... < tN −1 < tN = 1. On introduit

j=N
1 1 d2 y 2 1 X
Z
S(y, v) = ( ) dt + (y(tj ) − vj )2 .
2 0 dt2 2 j=0

On cherche les solutions de

inf S(y, v) inf J0 (y)


(D) (E)
y ∈ H 2 (0, 1) y ∈ H 2 (0, 1), y(t0 ) = v0 , ..., y(tj ) = vj ...

5. Spline d’ajustement.
118 CHAPTER 8. PROBLÈMES D’EXAMENS

5.1. On suppose N ≥ 2. Déterminer les relations sur t1 , ..., tN1 , v1 , ..., vN1 en fonction
de v0 et de vN de sorte que S(y, v) = 0 admette une solution y.
Si S(y, v) = 0, alors y est un polynôme de degré 1, entièrement déterminé par
N −v0
y(t0 ) = v0 et y(tN ) = vN : y(t) = v0 + vtN −t0 (t − t0 ). Alors les conditions de
compatiblité sont

(vj − v0 )(tN − t0 ) = (vN − v0 )(tj − t0 ), ∀j.

5.2. Montrer que, pour N ≥ 1, la fonctionnelle y → S(y, v) est une fonctionnelle


α−convexe sur H 2 (0, 1). On pourra remarquer que

X−1
1 i=N
S(y, v) = J(y, v0 , vN ) + (y(ti ) − vi )2
2 i=1
la somme étant vide si N = 1. On utilisera alors les questions 3.1., 3.2..
On sait alors que J(y, v0 , vN ) = J(y − y(v0 , vN ), 0) ≥ α||y − y(v0 , vN )||2H 2 , ce qui
implique la coercivité de S dans H 2 . L’α−convexité s’en déduit.

5.3. En déduire que (D) admet une solution unique ỹ, pour laquelle on donnera les
conditions nécessaires d’optimalité. On remarquera, pour obtenir ces équations, qu’il
n’est pas licite de supposer ỹ ∈ H 4 (0, 1), mais on démontrera en utilisant des fonctions
test adéquates que l’on pourra prendre ỹ ∈ H 4 (]ti , ti+1 [) pour i ≤ N − 1.
Le fait qu’il y a une solution unique provient de l’α−convexité. La condition
d’Euler s’écrit
Z 1
w(tj )(y(tj ) − vj ) = 0∀w ∈ H 2 .
X
y”w”dt +
0 j

On en déduit, prenant w ∈ C0∞ (]ti , ti+1 [), que y (4) est nulle dans D 0 (]ti , ti+1 [), ainsi
y ∈ H 4 (]tj , tj+1 [).

5.4. Démontrer que ỹ est une fonction spline cubique de classe C 2 sur [0, 1]. On
l’appelle spline d’ajustement.
Comme y est dans H 2 , y est de classe C 1 sur [0, 1] par inclusion d’espaces de
Sobolev. Ceci se démontre car y0 (x) − y0 (z) = xz y”(t)dt donc |y0 (x) − y0 (z)|| ≤ (|x − z|) 2 ||y||H 2 . Cette
R 1

simple inégalité ne suffit pas. On montre d’abord que, pour f de classe C 2 , on a l’inégalité |f 0 (x) − f 0 (z)| ≤
1 1
(|x − z|) 2 ||f ”||, ainsi on en déduit |f 0 (x)| ≤ |f 0 (z)| + (|x − z|) 2 ||f ”||2 , donc en intégrant en z sur [0, 1] on
trouve |f 0 (x)| ≤ ||f 0 ||2 + 43 ||f ”||2 . On voit donc que si yn est une suite de fonctions de classe C 2 convergeant
vers y au sens H 2 , alors |yn
0 (x) − y 0 (x)| vérifie le critère de Cauchy, donc la suite y 0 (x) converge pour tout
m n
x, uniformément en x, vers une fonction continue notée g(x). On montre ainsi que, de même, la suite yn (x)
Rx 0 (s)ds on
converge uniformément. Soit y la limite uniforme de yn . Alors de l’égalité yn (x) − yn (a) = yn
Rx a
déduit que y(x) − y(a) = g(t)dt, donc y0 = g.
a
De plus, grâce à l’équation d’Euler, en effectuant l’intégration par parties sur
]ti , ti+1 [ et sur ]ti−1 , ti [, on trouve

Z ti+1
y”w”dt = y”(ti+1 −0)w0 (ti+1 )+w0 (ti )(y”(ti −0)−y”(ti +0))−w0 (ti−1 )y”(ti−1 −0)
ti−1
8.1. PROBLÈME DES SPLINES: TEXTE DU PROBLÈME DE 1999 119

en ayant utilisé w ∈ H 2 donc w0 continue, le −0 ou +0 étant une notation indiquant


la limite de la dérivée seconde du polynôme de degré 3 représentant y dans chaque
intervalle, pris dans l’intervalle considérée. Dire que l’équation d’Euler est vraie pour
toute fonction w dans H 2 implique que y”(ti −0) = y”(ti +0) pour tout i, 1 ≤ i ≤ N −1
et y”(0) = y”(1) = 0. On en conclut que y” est affine par morceaux admettant la même
limite à droite et à gauche en chaque point intérieur; elle est donc continue, donc y
est de classe C 2 .
Attention: sa valeur en un point tj n’est pas vj . En effet, ce qui provient de
l’équation d’Euler est la relation y(ti ) = vi + (y 000 (ti − 0) − y 000 (ti + 0)).

5.5. Que se passe-t-il si on étudie le problème


2
inf 12 01 ( ddt2y )2 dt +
Pj=N
(y(tj ) − vj )2
R
0 j=0
(D )
y ∈ H 2 (0, 1)
Réponse: on change la spline d’ajustement car on change la relation en y(ti ) =
vi + 21 (y 000 (ti − 0) − y 000 (ti + 0)).

6. Spline d’interpolation.

6.1 Montrer que (E) admet une solution, lorsque N ≥ 1. Donner les conditions
d’optimalité. On note ȳ une solution de l’équation d’Euler.
Attention: on ne peut pas dire que J0 est infini à l’infini dans H 2 car toute fonction
de la forme ya,b (x) = ax + b vérifie J0 (y) = 0 et pourtant ||y||2H 2 = a2 + a + 2b, et il
suffit de prendre b = 0 et a infini pour avoir y tend vers l’infini. On trouve aussi que
pour tout y, J0 (y + ya,b ) = J0 (y).
Lorsque N ≥ 1, on considère z(x) = y(x) − v0 − (v1 − v0 )x. Lorsque y est dans
l’espace des contraintes, cette fonction est dans H02 . Elle vérifie les contraintes z(ti ) =
vi − v0 − (v1 − v0 )ti . On voit que

Z x Z 1 Z x Z 1
0
z(t) = (x − t)z”(t)dt − x (1t )z”(t)dt, z (t) = tz”(t)dt − (1 − t)z”(t)dt
0 0 0 x

√1 ||z”||L2 x(1 − x)( x + (1 − x)) et |z 0 (x)| ≤
p
ce qui donne les majorations |z(x)| ≤ 3
3 3
√1 ||z”||L2 (x 2
+ (1 − x) 2 ). Ainsi, intégrant sur (0, 1) le carré de ces fonctions pour
3
trouver la norme H 2 , on trouve
1 2 1
||z||H 2 ≤ ( + + 1) 2 ||z”||L2 .
45 3

6.2. En supposant ȳ ∈ H 4 (]ti , ti+1 [), trouver les équations différentielles vérifiées par
ȳ. Donner les conditions aux limites aux points ti .

Ainsi, soit K0 = {y, y(0) = v0 , y(1) = v1 }. On a l’inégalité, pour tout y ∈ K0 ,
61

6 5
||y − y0 ||2H 2 ≤ J0 (y), ce qui permet d’en déduire l’existence et l’unicité d’un
minimum, puisque l’on a une fonctionnelle convexe sur un convexe. Ensuite, les
équations
R1
sur ȳ sont bien ȳ (4) = 0 sur ]tI , ti+1 [. Comme l’équation d’Euler est
2
0 y”w”dt = 0 pour w ∈ H , w(ti ) = 0∀i, on trouve que ȳ”(0) = 0, ȳ”(1) = 0 et
120 CHAPTER 8. PROBLÈMES D’EXAMENS

ȳ”(ti + 0) − ȳ”(ti − 0) = 0 puisque l’on peut prendre une fonction w quelconque telle
que w(ti0 ) = 0, w0 (ti0 ) = 1, et w à support compact dans ]ti0 −1 , ti0 +1 [ pour i0 6= 0, N .
Ainsi les conditions aux limites sont ȳ(ti ) = vi , ȳ” continue. On a répondu à la
question suivante.

6.3. Démontrer que la solution est unique* et que c’est une spline cubique de classe
C 2.

6.4. Ecrire les conditions d’optimalité avec multiplicateurs de Lagrange, et retrouver


les résultats précédents.
On trouve que
N −1
J00 (ȳ) = ȳ (4) − y”(1)δ10 + y”(0)δ00 + i=1 (y”(ti + 0) − y”(ti − 0))δt0 i
P
PN −1 000
+ i=1 (y (ti + 0) − y 000 (ti − 0))δti − y 000 (1)δ1 + y 000 (0)δ0

Il existe donc N + 1 valeurs λi telles que

N −1
ȳ (4) − y”(1)δ10 + y”(0)δ00 + i=1 (y”(ti + 0) − y”(ti − 0))δt0 i
P
PN −1 000
+ i=1 (y (ti + 0) − y (ti − 0))δti − y 000 (1)δ1 + y 000 (0)δ0 + i λi δti = 0
000 P

ce qui redonne les conditions d’optimalité.

6.5. Comparer S(ỹ, v) et J0 (ȳ). En déduire une comparaison des deux types d’approximation.
On voit que S(ȳ, v) = J0 (ȳ), donc, comme le minimum de S est atteint en y = ỹ,
on a S(ỹ, v) ≤ J0 (ȳ). On se place dans le cas N ≥ 1. Alors, si S(ỹ, v) = J0 (ỹ), on en
déduit, ∀y, S(y, v) ≥ J0 (ỹ) et donc ỹ = ȳ. Donc si ỹ 6= ȳ, alors S(ỹ, v) < J0 (ȳ).

6.6. *Dans le cas N = 2, t1 = 12 , vérifier que, pour t ≤ 1


2

1 1 1 t3 1
ỹ(t) = v0 − 1 (v0 +v2 −2v1 )+t[v1 −v0 − 1 (v0 +v2 −2v1 )]+ 1 (v0 +v2 −2v1 )
6 + 24 8 6 + 24 3 6 + 24

1
et pour t ≥ 2

ỹ(t) = v0 − (2 + 12 ) 6+1 1 (v0 + v2 − 2v1 )


24
1 1 1 2
+t[v1 − v0 − 8 6+ 1 (v0 + v2 − 2v1 )] + 1
6+ 24
(v0 + v2 − 2v1 ) t2
24
3 1
− t3 1
6+ 24
(v0 + v2 − 2v1 ).
1
De même, vérifier que, pour t ≤ 2

3
ȳ(t) = v0 + t[v2 − v0 − (v2 + v0 − 2v1 )] + 2t3 (v0 + v2 − 2v1 )
2
1
et pour t ≥ 2 que

ȳ(t) = v0 + 12 (v0 + v2 − 2v1 ) + (v1 − v0 − (4 + 21 )(v0 + v2 − 2v1 ))t


+6t2 (v0 + v2 − 2v1 ) − 2t3 (v0 + v2 − 2v1 ).
8.2. TEXTE DU PROBLÈME 2000 121

8.2 Texte du problème 2000


Dans ce sujet, on considère le système suivant d’équations aux dérivées partielles
(
−∆y + y 3 = u dans Ω
(8.2.1)
y = 0 sur ∂Ω
où Ω est un ouvert bornéR régulier de IR3 .
1 1
On note ||y||H 1 (Ω) = ( Ω |∇y(x)|2 dx) 2 et ||y||H 1 (Ω) = ( Ω |∇y(x)|2 dx+ Ω |y(x)|2 dx) 2 .
R R
0
On suppose que u ∈ L2 (Ω).
On rappelle que, pour tout p entier inférieur à 6, il existe une constante cp telle
que
||y||Lp (Ω) ≤ cp ||y||H 1 (Ω)
et que on a l’inégalité de Poincaré pour y ∈ H01 (Ω):

||y||H 1 (Ω) ≤ C||y||H 1 (Ω) .


0

Les questions marquées d’une sont facultatives car plus difficiles, elles donnent
droit à un bonus.
0) Généralités et fonctions homogènes
On suppose que J(y) est une application d’un espace de Hilbert V dans IR, telle
que

J(y) = J2 (y) + J1 (y) + Jλ (y)


où λ est un réel positif et où on a, pour tout p ∈ 1, 2, λ, l’égalité d’homogénéité:

Jp (ky) = kp J(y).
On suppose que J est de classe C 2 et on considère sa dérivée J 0 et sa dérivée
seconde J”. Montrer les égalités:

∀y ∈ V, (Jp0 (y), y) = pJp (y), (J”p (y), y, y) = p(p − 1)Jp (y).


On constate que Jp ((k + )y) = Jp (ky + y) = Jp (ky) + (Jp0 (ky), y) + o(). D’autre
part, Jp ((k + )y) = (k + )p Jp (y) = kp Jp (y) + pkp−1 Jp (y) + o(), donc finalement
(Jp0 (ky), y) = pkp−1 Jp (y). Il suffit de prendre k = 1 pour obtenir la première égalité.
De plus, Jp (k(y + w)) = Jp (ky + kw) = Jp (ky) + k(Jp0 (ky), w) + o(w), donc
(Jp (ky), w) = kp−1 (Jp0 (y), w). De cette dernière égalité, on déduit que Jp0 est ho-
0

mogène de degré p − 1 donc (J”p (y)y, w) = (p − 1)(Jp0 (y), w). Il suffit de prendre
w = y et d’appliquer le résultat précédent.
1) a) Montrer que, si y ∈ H01 (Ω) est solution de (8.2.1) au sens des distributions,
alors on a

Z Z Z
∀φ ∈ C0∞ (Ω), L(y, φ) = ∇y(x)∇φ(x)dx + y 3 φ(x)dx = u(x)φ(x)dx. (8.2.2)
Ω Ω Ω

Ceci provient du calcul de la formulation variationnelle associée à l’équation. Dans


tous lesRcas, on multiplie par une fonction φ et on utilise la formule d’intégration par
parties Ω (−∆yφ)dx = Ω ∇y∇φ − ∂Ω ∂n yφdσ. Lorsque φ ∈ C0∞ (Ω), le terme de bord
R R

vaut 0, et on obtient l’égalité ci-dessus.


122 CHAPTER 8. PROBLÈMES D’EXAMENS

b) Démontrer que cette égalité est vraie pour φ ∈ C ∞ (IR3 ), ainsi que pour
φ ∈ H01 (Ω).
Lorsque φ est dans H01 (Ω), c’est la limite d’une suite de fonctions de C0∞ (Ω),
φn et onRa L(y, φn ) = Ω uφn dx. La limite lorsque φn tend vers φ dans H01 (Ω)
R
notée
de Ω uφn est Ω uφdx car c’est une limite dans L2 , et de même dans H 1 (Ω). Un
R

détail cependant: comme y ∈ H01 (Ω), on a l’inégalité


Z Z
1
3
| y (φn − φm )dx| ≤ ( y 6 (x)dx) 2 ||φn − φm ||L2 .
Ω Ω

Cette inégalité assure la convergence de ce terme car y est dans L6 .


Pour φ dans C ∞ (IR3 ), l’égalité est fausse (contrairement à l’énoncé) car ∂n y n’est
pas nul.
c) Montrer que, si y ∈ H01 (Ω) est solution de (8.2.2) pour tout φ ∈ H01 (Ω), alors
y est solution de (8.2.1). R
On a, au sens des distributions, Ω ∇y∇φ =< ∆y, φ >. Pour le démontrer, on
peut par exemple prendre une suite R
de fonctions yn deR
C0∞ (Ω) qui converge vers y.
Alors, comme φ|∂Ω = 0, on a Ω ∇yn ∇φ tend vers Ω ∇y∇φ, et donc l’égalité est
vraie. Ainsi on trouve
Z
3
< −∆y + y , φ >= uφdx, ∀φ ∈ H01 (Ω).

On en déduit −∆y + = u. Comme y ∈ H01 (Ω), y = 0 sur le bord.


y3
2) En utilisant la question 0), trouver∗ p et Jp (y) fonction de classe C 2 sur
H01 (Ω) de sorte que (Jp0 (y), z) =R Ω (y(x))3 z(x)dx. On vérifie que (Jp0 (y),
R
y) = pJp (y),
ce Rqui nous donnerait pJp (y) = R Ω (y(x))4 dx. On en déduit p = 4 car Ω (ky(x))4 dx =
R

k4 Ω (y(x))4 dx, donc J4 (y) = 41 Ω (y(x))4 dx.


3) On introduit la fonctionnelle

1 1
Z Z Z
Φ(y) = |∇y(x)|2 dx − y(x)u(x)dx + (y(x))4 dx.
2 Ω Ω 4 Ω

a) Montrer que Φ est une application α−convexe continue de H01 (Ω) dans IR, et
qu’elle possède un minimum unique, noté y(u).
0 (y), v) = 3 alors (Φ0 (y)− Φ0 (z), y − z) =
R
On calcule (Φ Ω [∇y∇v + y v]dx. On trouve
3 3 2 + (y − z)2 (y 2 +
R R
Ω [(∇y − ∇z).(∇y − ∇z) + (y − z )(y − z)]dx = Ω [|∇(y − z)|
yz + z )]dx. On trouveR alors, sachant que la norme sur H0 est (∇φ)2 , la relation
2 1
R

(Φ0 (y)−Φ0 (z), y −z) ≥ Ω (∇y −∇z)2 dx = ||y −z||2H 1 , donc l’application est α−convexe
0
continue de H01 (Ω) dans IR (la continuité est une conséquence de l’inégalité y 4 ≤
R
1 R 1
( y 6 ) 2 ( Ry 2 ) 2 ≤ (c6 )3 ||y||4H 1 ). On utilise l’inégalité de Poincaré, d’où la continuité
R

du terme uydx. L’existence du minimum et l’unicité est alors une conséquence d’un
théorème du cours.
b) Donner l’équation d’Euler associée à y(u). En effectuant un choix adéquat
de φ dans l’égalité L(y(u), φ) = 0, démontrer qu’il existe une constante c1 , telle que

||y(u)||H 1 (Ω) ≤ c1 ||u||L2 (Ω) .


0

+ (y(u))3 w − uw)dx = 0. On prend


R
L’équation d’Euler est alors ∀w, Ω (∇y(u)∇w
2 + (y(u))4 = uy(u)dx. On en déduit, utilisant l’inégalité
R R R
w = y(u) donc Ω (∇y(u))
de Cauchy-Schwartz, et (y(u))4 dx ≥ 0:
R
8.3. TEXTE DU PROBLÈME 2000-2001 123

1√
Z Z Z
1 1
||y(u)||2H 1 (Ω) ≤ ( u2 dx) 2 ( (y(u))2 dx) 2 ≤ ( u2 dx) 2 C||y(u)||H 1 (Ω) ,
0 0
Ω Ω Ω

d’où on déduit l’inégalité



||y(u)||H 1 (Ω) ≤ C||u||L2 (Ω) .
0

c) Calculer, pour tout y les expressions

(Φ0 (y), y), (Φ”(y), y, y).


le résultat de la question 0). Alors (Φ0 (y), y) = 2 + y 4 )dx,
R
On applique Ω ((∇y)
(Φ”(y)y, y) = Ω ((∇y)2 + 3y 4 )dx.
R

4) Montrer∗ que la solution unique de


1
Z
Infy,w ( (w(x) + (y(x))3 )2 dx)
2 Ω

sous la contrainte −∆y = u + w, y ∈ H 1 (Ω), w ∈ L2 (Ω) est le couple (y(u), −(y(u))3 ).


1
R0
On remarque que ce couple vérifie 2 Ω (w + y 3 )2 dx = 0. On a donc l’existence d’un
minimum. D’autre part, si on a un autre point de minimum, alors w + y 3 , qui est
dans L2 , est nul donc w = −y 3 et la contrainte s’écrit −∆y + y 3 = u, dont la solution
unique est y(u).
On note que l’on s’est donc ramené à la résolution d’un laplacien et ensuite d’une
minimisation sur w.
5) On considère u et v dans L2 (Ω). On désigne par y(u) et y(v) les deux solutions
précédentes associées. On note

m(x) = (y(u)(x))2 + y(u)(x)y(v)(x) + (y(v)(x))2


et z(x) = y(u)(x) − y(v)(x). Montrer que m(x) ≥ 0.
Montrer que z est solution H01 de l’équation

−∆z(x) + m(x)z(x) = u(x) − v(x).


En multipliant Rcette équation par z+ (x) = max(0, z(x)) et en intégrant sur Ω, (on
admettra l’égalité Ω ∇z(x)∇z+ (x)dx = Ω |∇z+ |2 dx), montrer∗ que si v − u ≤ 0 sur
R

Ω, alors z(x) ≤ 0.
On intègre l’égalité (−∆z(x) + m(x)z(x))z + (x) = (u(x) − v(x))z+R(x). On vérifie
2 + m(x)z(x)z (x)dx =
R R R
que ∇z + | + Ω (u − v)z R+
dx. D’autre part, m(x)zR+ zdx =
2 2
R
m(x)(z + ) dx et m ≥ 0 donc nécessairement de (u−v)z+ dx ≤ 0 on déduit mz+ =
2
R
0 et (∇z+ ) dx = 0 donc z+ = 0. On en déduit que max(z, 0) = 0 donc z ≤ 0.

8.3 Texte du problème 2000-2001


Avertissement
Cet examen se compose de deux parties totalement indépendantes, et n’est pas
fait pour être fini. Une première partie concerne les conditions aux limites et une
formulation lagrangienne de l’équation des ondes pour des cordes vibrantes. Une
124 CHAPTER 8. PROBLÈMES D’EXAMENS

deuxième partie étudie un système électrique et introduit des contraintes de type


isopérimétrique.
Toute égalité énoncée dans le texte peut être utilisée même si elle n’a pas été
établie.

8.4 Partie I
1) Résultat général
On considère une fonction de C 2 (IR4 ) dans IR, notée L(p1 , p2 , q1 , q2 ). On notera
parfois p ou ~p le vecteur de composantes (p1 , p2 ) (de même pour q).
On introduit une fonction ~u(x, t) = (u1 (x, t), u2 (x, t)) une fonction de classe C 2 (IR2 )
dans IR2 . On la notera aussi u (omettant le vecteur). On veut minimiser
Z T Z a
I(u) = L(∂t ~u, ∂x ~u)dxdt
0 0
On note que p1 = ∂t u1 , p2 = ∂t u2 ...
a) Etablir les équations d’Euler en tout point (x, t) ∈]0, a[×]0, T [ pour une solution
u0 de

inf I(u)
(on ne cherche pas à préciser les conditions aux limites sur le bord du rectangle Ω
dans IR2 ).
On considère w ∈ C0∞ ([0, a] × [0, T ]). Alors on trouve

Z T Z a
I(~u + w)
~ − I(~u) = (L(∂t ~u + ∂t w,
~ ∂x ~u + w)
~ − L(∂t ~u, ∂x ~u))dxdt
0 0

En effectuant un développement limité en  → 0, on trouve que la limite du taux


d’accroissement est
Z T Z a
[∂p L(∂t ~u, ∂x ~u).∂t w
~ + ∂q L(∂t ~u, ∂x ~u).∂x w]dtdx.
~
0 0
En effectuant une intégration par parties en t pour le premier terme, et une intégration
par parties en x pour le deuxième terme, on trouve

Z T Z a d d d d
0
(I (u), w) = − [w1 [ (∂p1 L) + (∂q1 L)] + w2 [ (∂p2 L) + (∂q L)]]dtdx
0 0 dt dx dt dx 2
et la condition d’Euler conduit aux deux équations
(
d d
dt (∂p1 L) + dx (∂q1 L) =0
d d
dt (∂p2 L) + dx (∂q2 L) = 0.

b) Soit u0 une solution des équations d’Euler précédentes. Montrer que


d Ra
dt ( 0 [L(∂t u0 , ∂x u0 ) − ∂t u0 ∂p L(∂t u0 , ∂x u0 )](y, t)dy)
=
∂t u0 ∂q L(∂t u0 , ∂x u0 )(a, t) − ∂t u0 ∂q L(∂t u0 , ∂x u0 )(0, t).
8.4. PARTIE I 125

(on pourra pour cela dériver la fonction composée ∂t (L(∂t u0 , ∂x u0 )) et une autre ex-
pression)
On dérive la fonction composée. On trouve ∂t (L(∂t ~u0 , ∂x ~u0 ) = ∂t22 ~u0 · ∂p L +
2 ~
∂tx u0 ∂q L.
En utilisant l’équation d’Euler, on trouve

d Ra
dt ( 0 [L(∂t ~
u0 ∂x ~u0 )
− ∂t~u0 · ∂p L(∂t ~u0 , ∂x ~u0 )](y, t)dy)
=
Ra 2 2 2 d
0 [∂t2 ~
u0 · ∂p L + ∂tx ~u0 ∂q L − ∂t2 ~u0 ∂p L − ∂t ~u0 dt (∂p L(∂t ~u0 , ∂x ~u0 ))]dy
=
Ra 2 d
0 [∂tx ~
u0 ∂q L + ∂t ~u0 dx (∂q L(∂t ~u0 , ∂x ~u0 ))]dy

On reconnait dans le crochet la dérivée par rapport à x de la fonction ∂t ~u0 ∂q L, ce qui


donne le résultat demandé en intégrant en y.
c) On considère les trois problèmes

inf I(u)
inf I(u) inf I(u)
u(x, 0) = u0 (x)
u(x, 0) = u0 (x) u(x, 0) = u0 (x)
(P1 ) (P2 ) (P3 ) u(x, T ) = uf (x) .
u(x, T ) = uf (x) u(x, T ) = uf (x)
u(0, t) = 0
u(0, t) = 0
u(a, t) = 0

Ecrire les équations d’Euler et les conditions aux limites en x = 0 et x = a pour


chacun de ces problèmes.
Pour cela, l’équation d’Euler est celle obtenue ci-dessus et on ne se préoccupera que
des conditions aux limites. Pour le problème (P1 ), on trouve w(x, 0) = w(x, T ) = 0,
ainsi quand on reprend l’égalité ci-dessus ayant abouti à (I 0 (u), w), on trouve
Z T Z T
0
(I (u), w) = ∂q L · w(a,
~ t)dt − ∂q L · w(0,
~ t)dt.
0 0
Comme cette quantité doit être nulle pour tout w, ~ on en déduit ∂q L(∂t ~u0 (a, t), ∂x ~u0 (a, t)) =
0 et ∂q L(∂t ~u0 (0, t), ∂x ~u0 (0, t)) = 0. Ce sont les deux conditions aux limites que l’on
doit ajouter à ~u0 (x, 0) = ~u0 (x) et ~u0 (x, T ) = ~uf (x).
Pour le problème (P2 ) on a la condition aux limites supplémentaire ∂q L(∂t ~u0 (a, t), ∂x ~u0 (a, t)) =
0 par l’équation d’Euler.
Pour le problème (P3 ), il n’y a aucune condition supplémentaire.
Montrer, pour la solution uj0 de Pj , pour tout j, la relation
Z a
[L(∂t uj0 , ∂x uj0 ) − ∂t uj0 ∂p L(∂t uj0 , ∂x uj0 )](y, t)dy = Cj
0
où Cj est une constante indépendante du temps.
On remplace les relations supplémentaires obtenues dans le second membre du b).
Alors on trouve, pour le problème (P1 ), que ce second membre est nul car les deux
termes ∂q L sont nuls en x = 0 et x = a. Pour le problème (P2 ), on sait que le terme
∂q L est nul en a et comme ~u(0, t) = 0 on trouve que ∂t ~u0 (0, t) = 0. Enfin, pour le
problème (P3 ), il vient, d’après ~u(0, t) = ~u(a, t) = 0 que le terme ∂t ~u0 (0, t) et le terme
∂t ~u0 (a, t) sont nuls, d’où le résultat.
2) Application à l’équation des ondes dans les cordes vibrantes
126 CHAPTER 8. PROBLÈMES D’EXAMENS

a) Etablissement de l’équation
On étudie les petits déplacements d’une corde autour de sa position d’équilibre
(OA), O(0,0,0), A(a, 0,0).
La position d’un point de la courbe est (x, u1 (x, t), u2 (x, t)) = (x, u(x, t)).
La densité de la corde est ρ0 , et cette corde est soumise à la tension T~0 , de module
constant T0 , dirigée suivant le vecteur tangent unitaire τ .
Ecrire le bilan des forces et la relation fondamentale de la dynamique pour un
segment [x, x + ∆x] en négligeant tous les termes d’ordre au moins 2 en u. En faisant
tendre ∆x vers 0, en déduire l’équation

∂ 2 ~u ∂ 2 ~u
ρ0 = T0 .
∂t2 ∂x2
laissé en exercice (voir méthodes mathématiques pour la physique, de L. Schwartz)
b) Etablir la relation, pour ~u0 solution de l’équation précédente

dE d
Z a 1 ∂~u ∂~u
= (ρ0 ( )2 + T0 ( )2 )(y, t)dy = ∂t ~u∂x ~u(a, t) − ∂t~u∂x ~u(0, t).
dt dt 0 2 ∂t ∂x

il suffit de multiplier par ∂t ~u et de remarquer que l’on a

1 ∂~u 2
∂t ( (ρ0 ( )2 ) = T0 ∂t ~u0 ∂x22 ~u0 = T0 ∂x (∂t ~u0 ∂x ~u0 ) − T0 ∂tx (~u0 )∂x ~u0
2 ∂t
et on intègre sur [0, a], remarquant que le dernier terme est la dérivée par rapport à t
de 12 T0 (~u0 )2 .
Donner les solutions L(p, q) de l’égalité

1 ∂L
(ρ0 p2 + T0 q 2 ) = L(p, q) − p (p, q).
2 ∂p
(on dérivera cette égalité par rapport à p1 et p2 ).
En dérivant par rapport à p, on trouve ρ0 p = −p∂p22 L, ce qui donne ρ0 = −∂p22 L.
Ainsi L = − 21 ρ0 p2 +C(q)p+D(q). On remplace dans l’équation et on trouve − 21 ρ0 p2 +
C(q)p + D(q) + ρ0 p2 − pC(q) = 12 (ρ0 p2 + T0 q 2 ), donc C(q) est indeterminé et D(q) =
1 2
2 T0 q .
c) Montrer que l’équation des cordes vibrantes est le système des équations d’Euler
pour le Lagrangien L(p, q) = 21 T0 q 2 − 12 ρ0 p2 . Peut-on appliquer la théorie classique de
minimisation?
On applique le résultat du 1, a), car ∂p L = −ρ0 p, ∂q L = T0 q.
Déduire de 1) que
• lorsque les deux extrémités de la corde sont fixées, les conditions en 0 et a sont
les conditions de Dirichlet homogènes u = 0
• lorsqu’une extrémité de la corde est libre, la condition à cette extrémité s’écrit
∂~u
∂x = 0, qui est la condition de Neumann. En déduire que l’énergie E est conservée.
C’est la traduction des résultats de 1).

8.5 Partie II
On cherche à minimiser la valeur moyenne de la tension J:
8.5. PARTIE II 127

1
Z T
J(v0 ) = v0 (t)dt
T 0
sous les conditions v0 (0) = 0, v0 (T ) = V (c’est à dire un système dans lequel on établit
une tension V en un temps T )
et sous la contrainte d’énergie dissipée par effet Joule constante:
Z T
K= Ri2 (t)dt
0
où le courant électrique est produit par la mise sous tension v0 (t) d’un condensateur
C et d’une résistance R disposés en parallèle (même tension).
a) Peut-on résoudre ce problème en considérant une perturbation εw(t) de la ten-
sion v0 (t)? Justifier.
b) On se donne ε1 et ε2 , et on perturbe la solution cherchée par ε1 w1 (t) + ε2 w2 (t).
Ecrire les conditions d’optimalité.
Montrer qu’il existe un réel λ tel que ces conditions d’optimalité correspondent aux
conditions d’optimalité du lagrangien augmenté J + λK, K étant considéré comme
une fonction de v(t). On pourra supposer à cet effet w2 fixé. On admettra pour la
suite ce résultat si il n’a pas été démontré.
c) On considère λ ∈ IR. Déterminer v0 qui réalise le minimum de J(v)+λK(v), v(0) =
0, v(T ) = 0.
d) Déterminer λ de sorte que le v0 trouvé au c) conduise à i0 (t) tel que 0T R(i0 (t))2 =
R

K. Calculer la solution v0 (t) et interpréter. En particulier, pour K, V et R, C donnés,


identifier les temps T pour lesquels on peut trouver v0 (t).
Calculer la valeur maximum de J en fonction de K, V, R, C.
128 CHAPTER 8. PROBLÈMES D’EXAMENS
Bibliography

[1] J.C. Culioli: Optimisation: Cours à l’Ecole des Mines publié aux éditions Ellipses
(1994)

[2] P. Faurre: Optimisation Cours à l’X

[3] B. Larrouturou et P.L. Lions: Cours d’optimisation et d’Analyse Numérique.

[4] J. Cea: Lectures on optimization-theory and algorithms: Tata institute of fun-


damental research, Bombay, 1978.

[5] H. Sagan: Boundary and Eigenvalue Problems in Mathematical Physics John


Wiley and Sons, 1961.

[6] V. M. Tichomirov: Fundamental Principles of the Theory of Extremal Problems:


John Wiley and Sons, 1982, 1986.

[7] P. G. Ciarlet: Introduction à l’analyse numérique matricielle et à l’optimisation


Mathématiques Appliquées pour la maitrise, Masson, 1982.

129

Vous aimerez peut-être aussi