0% ont trouvé ce document utile (0 vote)

32 vues258 pages

Modmsv

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

32 vues258 pages

Modmsv

Transféré par

kantoniaina RABEMANANJARA

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Modélisation

B. Maury
.
2
Avertissement

Ce document a été réalisé en accompagnement d’un cours d’une cinquantaine d’heures

donné à l’École Normale Supérieure au printemps 2016. Il s’agit d’une première version, écrite
au fil des cours, qui présente sans aucun doute de multiples imperfections ou coquilles.

Les modèles particuliers abordés reflètent de façon évidente les activités de recherche passées
et présentes de l’auteur, mais nous espérons que leur étude peut permettre d’acquérir des
connaissances et principes généraux qui pourront être mis en œuvre de façon féconde dans
d’autres contextes.

La structure, si tant est que l’on puisse parler de structure, est en revanche volontaire est
assumée.

La partie IV regroupe des éléments théoriques classiques qui sont utilisés dans le reste de
l’ouvrage.

La partie III présente différentes méthodologies 1 liées à la résolution numérique d’Équations

aux Dérivées Partielles ou de problèmes d’optimisation avec et sans contraintes. .

La partie II traite, de façon plus ou moins formalisée selon le sujet, de notions générales en
modélisation mathématique, et d’interprétations de concepts théoriques dans un contexte de
modélisation.

La partie I développe un certain nombre de modèles, essentiellement autour des phénomènes

de transport.

Au delà de ce regroupement en quatre parties, les sections ne sont pas ordonnées autrement
qu’alphabétiquement.

1. Différences finies et éléments finis, qui pourraient être complétés dans l’avenir par une section sur les
méthodes de volumes finis

3
4
Table des matières

I Modèles 11

1 Conservation, transport, et diffusion 11

1.1 Vecteur flux, équation de conservation . . . . . . . . . . . . . . . . . . . . . . 11

1.2 Transport . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3 Diffusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.4 Transport - diffusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.5 Advection diffusive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2 Fluides 22

2.1 Tenseur des contraintes, équations générales du mouvement d’un fluide . . . . 22

2.2 Fluides parfaits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.3 Fluides newtoniens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.4 Cadre mathématique pour le problème de Darcy . . . . . . . . . . . . . . . . 31

2.5 Cadre mathématique pour les équations de Stokes . . . . . . . . . . . . . . . 32

2.6 Ecoulement de Poiseuille, notion de résistance . . . . . . . . . . . . . . . . . . 34

3 Piétons - Micro - ordre 1 en temps - approche granulaire 37

3.1 Modèle monodimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.2 Modèle en dimension 2 (disques rigides) . . . . . . . . . . . . . . . . . . . . . 39

4 Réseaux résistifs 44

4.1 Cadre formel, problème de Laplace discret . . . . . . . . . . . . . . . . . . . . 44

4.2 Squelette métrique associé à un réseau résistif . . . . . . . . . . . . . . . . . . 48

4.3 Cadre stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.4 Modèle de flânage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.5 Plongement dans l’espace euclidien . . . . . . . . . . . . . . . . . . . . . . . . 53

4.6 Premier pas vers le transport branché . . . . . . . . . . . . . . . . . . . . . . 54

4.7 L’arbre bronchique humain comme réseau résistif . . . . . . . . . . . . . . . . 55

5
4.8 Réseaux infinis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.9 Réseaux dynamiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

5 Trafic routier ou piéton – macro – 1d – ordre 1 en temps 60

5.1 Modèle d’évolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

5.2 Solutions faibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.3 Résolution numérique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

6 Trafic routier ou piéton – micro – 1d – ordre 1 en temps 65

6.1 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

6.2 Stabilité, propagation des perturbations . . . . . . . . . . . . . . . . . . . . . 66

6.3 Cas périodique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

6.4 Extensions, développements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

7 Trafic routier ou piéton – micro – 1d – ordre 2 en temps 77

7.1 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

7.2 Stabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

7.3 Extensions, développements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

II Notions, développements transverses 84

8 Analyse fonctionnelle et modélisation 85

8.1 Espaces de Sobolev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

8.2 Traces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

9 Diffusion et hétérogénéité 92

9.1 Considérations générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

9.2 Chimiotaxie, équations de Keller-Segel . . . . . . . . . . . . . . . . . . . . . . 95

9.3 Équation de Fisher KPP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

9.4 Équations d’Allen-Cahn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

9.5 Motifs de Turing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

9.6 Croissance Dendritique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6
10 Entropie 101

10.1 Entropie d’une variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . 101

10.2 Entropie continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

11 Flots de gradient dans l’espace de Wasserstein 106

12 Graphes 110

12.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

12.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

13 Convergence faible et compacité 112

14 Problème adjoint 115

15 Transport optimal (cas discret) 118

15.1 Problème d’affectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

15.2 Problème de Monge Kantorovich discret . . . . . . . . . . . . . . . . . . . . . 118

15.3 Formulation duale du problème de MK discret . . . . . . . . . . . . . . . . . 121

15.4 Existence d’une solution au problème dual . . . . . . . . . . . . . . . . . . . . 123

15.5 Exemples d’applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

15.6 Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

15.7 Métrique induite sur l’ensemble des mesures atomiques . . . . . . . . . . . . . 126

15.8 Approche de Benamou-Brenier . . . . . . . . . . . . . . . . . . . . . . . . . . 127

15.9 Étude de W1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

15.10Complétion de l’espace de Wasserstein discret . . . . . . . . . . . . . . . . . . 129

15.11Régularisation entropique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

15.12Calcul effectif par Régularisation entropique . . . . . . . . . . . . . . . . . . . 136

15.13Calcul effectif par l’algorithme des enchères . . . . . . . . . . . . . . . . . . . 138

III Aspects numériques 143

16 Différences finies 144

7
16.1 La méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

16.2 Consistance, stabilité, convergence . . . . . . . . . . . . . . . . . . . . . . . . 145

16.3 Analyse des principaux schémas numériques . . . . . . . . . . . . . . . . . . . 149

16.4 Symboles discret et continu des opérateurs différentiels . . . . . . . . . . . . . 151

16.5 Interprétation probabiliste de schémas explicites . . . . . . . . . . . . . . . . 156

16.6 Extensions, développements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

17 Éléments finis 162

17.1 La méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

17.2 Estimation d’erreur pour la méthode des Éléments Finis . . . . . . . . . . . . 167

17.3 Estimation de valeurs propres . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

17.4 Extension à des conditions aux limites plus générales . . . . . . . . . . . . . . 174

17.5 Méthode des domaines fictifs . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

17.6 Éléments finis et réseaux résistifs . . . . . . . . . . . . . . . . . . . . . . . . . 176

18 Résolution des systèmes linéaires 179

18.1 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

18.2 Méthodes directes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

18.3 Méthodes itératives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

18.4 Méthodes rapides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

18.5 Préconditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

IV Aspects théoriques 190

19 Éléments d’Analyse Fonctionnelle 191

19.1 Autour du théorème de Hahn-Banach . . . . . . . . . . . . . . . . . . . . . . 191

19.2 Autour du théorème de Banach-Steinhaus . . . . . . . . . . . . . . . . . . . . 192

20 Espaces de Hilbert, analyse convexe 196

20.1 Définitions, principales propriétés . . . . . . . . . . . . . . . . . . . . . . . . . 196

20.2 Convergence faible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

8
20.3 Somme Hilbertiennes, bases Hilbertiennes . . . . . . . . . . . . . . . . . . . . 205

20.4 Minimisation de fonctionnelles convexes . . . . . . . . . . . . . . . . . . . . . 206

20.5 Opérateurs maximaux monotones . . . . . . . . . . . . . . . . . . . . . . . . . 209

21 Équations différentielles ordinaires 211

21.1 Lemme(s) de Gronwall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

21.2 Théorème de Cauchy Lipschitz . . . . . . . . . . . . . . . . . . . . . . . . . . 212

21.3 Comportement des solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

21.4 Dépendance par rapport aux conditions initiales . . . . . . . . . . . . . . . . 214

21.5 Points fixes, stabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

21.6 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

22 Espaces de Sobolev 218

22.1 Rappels sur l’espace L2 (Ω) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

22.2 Définitions, propriétés générales . . . . . . . . . . . . . . . . . . . . . . . . . . 219

22.3 Traces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222

22.4 Injections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227

22.5 Inégalités de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

22.6 Problèmes aux limites elliptiques . . . . . . . . . . . . . . . . . . . . . . . . . 230

22.7 Régularité des solutions faibles . . . . . . . . . . . . . . . . . . . . . . . . . . 231

22.8 Espaces de Sobolev et transformation de Fourier . . . . . . . . . . . . . . . . 234

22.9 Approche Hdiv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

22.10Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236

23 Optimisation sous contrainte 238

23.1 Conditions nécessaires d’optimalité . . . . . . . . . . . . . . . . . . . . . . . . 238

23.2 Contraintes non linéaires d’égalité . . . . . . . . . . . . . . . . . . . . . . . . 239

23.3 Contraintes unilatérales (ou d’inégalité) . . . . . . . . . . . . . . . . . . . . . 241

23.4 Point-selle, théorème de Kuhn et Tucker . . . . . . . . . . . . . . . . . . . . . 245

23.5 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248

23.6 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249

9
A Compléments théoriques 252

A.1 Calcul différentiel, formules d’intégration par parties . . . . . . . . . . . . . . 252

A.2 Cercles de Gerchgorin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255

A.3 Chaines de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256

A.4 Spectre du Laplacien discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257

10
Première partie

Modèles
1 Conservation, transport, et diffusion

1.1 Vecteur flux, équation de conservation

On s’intéresse ici à la description de la distribution d’une substance dans l’espace au cours

du temps, décrite par sa densité ρ(x, t).

Definition 1.1. (Vecteur flux)

Soit x un point du domaine occupé par la substane, n un vecteur unitaire, et Dε (n) un
disque (ou un segment s’il s’agit de la dimension 2) centré en x, d’aire ε (de longueur ε en
dimension 2), et normal à n. On note J(ε, n) la quantité de substance qui traverse Dε par
unité de temps, comptée positivement dans le sens n. S’il existe un vecteur J tel que, pour
tout n, la quantité J(ε, n)/ε tende vers une limite quand ε tend vers 0, et que cette limite
s’écrive J · n, on appelle J = J(x) le vecteur flux en x.

Cette définition formelle, à la base de toutes les équations aux dérivées partielles qui
expriment la conservation d’une certaine quantité, n’a en fait pas un sens très clair. En
premier lieu, pour tous les phénomènes réels impliquant des particules 2 , elle n’a de sens que
si le diamètre du disque n’est pas trop petit vis à vis des tailles caractéristiques du phénomène
√
microscopique étudié 3 . La notion n’a en particulier par de sens si ε (≈ diamètre du disque
Dε (n)) est de l’ordre de la distance interparticulaire, ou plus petit. Par ailleurs, l’expression
par unité de temps sous-entend que l’on fait le bilan sur un intervalle de temps petit, mais
suffisamment grand pour laisser passer un nombre significatif d’entités. Pour que cette notion
ait un sens, il faut par ailleurs que ε et le temps d’intégration ne soient pas trop grands. Si
en divisant par exemple ε par deux, on trouve une valeur significativement différente, c’est
que la fenêtre d’observation est trop grande. De façon générale, cette notion n’aura de sens
que pour des plages de tailles et temps caractéristiques adaptées au problème considéré. Ces
plages peuvent être très étroites dans le cas par exemple du trafic routier ou piétons ; le
rapport entre l’échelle macroscopique (taille caractéristique du domaine étudié, tronçon de
route ou couloir dans un bâtiment), et l’échelle microscopique (taille des entités considérées,
et / ou des distances entre elles) n’est pas très grand, de l’ordre de 102 dans certains cas. La
situation est évidemment plus favorable pour des systèmes de particules du type gaz, avec
une échelle macroscopique de l’ordre du mètre, et microscopique de l’ordre de 10−10 m (taille
des molécules) ou 5 × 10−9 m (distance entre molécules).

Remarque 1.2. On peut se demander quelle est la nature de l’objet mathématique qui ré-
sulterait de l’application à la lettre de la définition 1.1, dans le cas où l’on a un nombre fini
de particules, de masses mi et vitesses ui (t), i = 1,. . .,N . En dimension 1, considérons le cas
d’une particule de masse m parcourant la trajectoire t 7→ X(t), et donc animée d’une vitesse
3. L’aire ε tend vers 0, mais pas trop . . .
3. Particules dans un sens très large : il peut s’agir de particules physiques de type molécules, ou d’entités
de taille plus importante comme des cellules, des voitures pour les équations du trafic routier, ou des piétons.

11
V (t) = Ẋ(t). On peut approcher cette particule par une particule de taille finie, de densité
uniforme m/ε sur ]X(t), X(t) + ε[. Le flux est alors défini en (x, t) par
m
Jε (x, t) = V 1 .
ε ]X(t),X(t)+ε[
A t fixé, Jε converge donc (au sens des mesures, ou au sens des distributions) vers mV δX(t) .
Si l’on se fixe un intervalle en temps, on peut aussi voir J comme une mesure en espace-temps,
qui converge vers une mesure singulière supportée par la trajectoire, avec
Z T
hJ , ϕi = mϕ(X(t), t) dt,
0

pour ϕ ∈ Cc∞ ([0, T ], R), où, si l’on introduit l’abscisse

√ curviligne sur la trajectoire Σ, comme
une mesure singulière de densité linéique mV / 1 + V 2 . En dimension supérieure, on pourra
de la même manière identifier le vecteur flux à une mesure vectorielle singulière suportée par
la trajectoire, avec une même expression pour la densité linéique (où V est maintenant un
vecteur de Rd ). Le vecteur flux pour une collection de particules peut ainsi se voir comme une
somme de mesure singulières portées par les trajectoires dans l’espace-temps.
Remarque 1.3. On peut, d’une certain manière, rendre statique le problème d’évolution en
le considérant comme un problème posé sur l’espace-temps. Toute entité viellit à la vitesse de
1 (sans unité : il s’agit de secondes par seconde). Une solution de l’équation de conservation
peut alors se voir comme une densité ρ(x, t) telle que le champ F = (ρ × 1, J) est à divergence
nulle en espace temps :
∇t,x · F = ∂t ρ + ∇x · J = 0.
Nous privilégierons néanmoins dans ce qui suit l’approche consistant à distinguer la variable
de temps, de telle sorte que ∇ · représentera bien la divergence vis-à-vis de la variable d’es-
pace.

Équation de conservation. On considère une substance qui se propage selon le vecteur

flux J. On écrit que la dérivée en temps de la quantité de substance Nω contenue dans un
sous-domaine ω immobile est égal au bilan instantané des flux à travers la frontière.
Z Z Z
dNω d
= ρ(x, t) dx = − J ·n = − ∇ · J.
dt dt ω ∂ω ω

Cette identité étant vérifiée pour tout ω, on en déduit l’équation

∂ρ
+ ∇ · J = 0. (1.1)
∂t

Terme source. On peut intégrer à ce modèle des termes-source (ou termes-puits si l’on
enlève de la matière), en considérant une quantité f de matière injectée par unité de temps
et par unité de volume. Le bilan instantané de matière sur un volume ω s’écrit alors
Z Z Z
d
ρ=− J ·n+ f,
dt ω ∂ω ω

ce qui conduit à l’équation

∂ρ
+ ∇ · J = f.
∂t

12
1.2 Transport

Modèle 1.4. (Équation de continuité)

On considère une substance décrite par sa densité ρ(x, t), et convectée par un champ de
vitesse u. Le vecteur flux s’écrit J = ρu, et l’équation correspondante est
∂ρ
+ ∇ · (ρu) = f.
∂t

Cette équation est parfois appelée équation de transport conservatif.

Remarque 1.5. Dans le cas où le champ convectant est à divergence nulle, l’équation s’écrit
∂ρ
+ u · ∇ρ = 0,
∂t
c’est cette dernière équation qui est le plus couramment appelé équation de transport. On
prendra garde cependant au fait qu’elle correspond (dans cas où le champ n’est pas à divergence
nulle) au transport d’une quantité non extensive. Elle n’exprime ainsi pas le transport d’une
quantité de matière, mais d’une variable de type intensif, comme un signal, une caractéristique
intrinsèque d’entité transportée, un label, une information, typiquement des variables qui ne
se somment pas.

Flot d’un champ de vecteur et équation de transport conservative . On peut vérifier

que cette équation exprime au niveau macroscopique et eulérien le transport effectif d’une
mesure par le flot associé à un champ de vecteurs.

On considère un champ de vecteur régulier ut (x) dans Rd , et le flot associé Xt (x, s), défini
par 
 ∂Xt (x, s)

= ut (Xt (x, s))
∂t (1.2)

 Xs (x, s) = x.
Pour t fixé, le flot
x ∈ Rd 7−→ Xt (x, 0) ∈ Rd
transporte une mesure donnée ρ0 vers une nouvelle mesure notée ρt . De façon plus générale
ρt est la mesure image de ρs par l’application Xt ( · , s).

Pour toute fonction régulière ϕ ∈ D(Rd ) = Cc∞ (Rd ), on a en particulier

Z Z
ϕ(y)ρt (y) dy = ϕ(Xt (x, s))ρs (x) dx.
Rd Rd

En dérivant cette identité par rapport au temps t, puis en prenant s = t, on obtient

Z Z
ϕ(y)∂t ρt (y) dy = ∇ϕ(Xt (x, s)) · ut (Xt (x, s)) ρs (x) dx
Rd Rd
Z Z
= ∇ϕ(x) · ut (x) ρs (x) dx = − ϕ(x)∇ · (ut (x) ρt (x)) dx,
Rd Rd
d’où Z
ϕ(x) (∂t ρt (x)) + ∇ · (ut (x) ρt (x))) dx = 0.
Rd

13
Cette identité étant valable pour tout instant t, pour tout fonction test ϕ, on en déduit
formellement l’équation de transport conservatif (ou équation de continuité)

∂t ρt + ∇ · (ut ρt ) = 0.

Dans le cas régulier, toute solution de l’équation de transport non conservative (ou conser-
vative avec un champ à divergence nulle) est constante le long des caractéristiques :

Proposition 1.6. Soit ρt une solution régulière de l’équation

∂t ρt + ut · ∇ρt = 0,

avec ut régulier (continu, et Lipschitzien par rapport à la variable d’espace). Alors ρt est
constant le long des caractéristiques définies par (1.2).

Démonstration. On a
d d
ρt (Xt (x, s)) = ∂t ρt + Xt (x, s) · ∇ρt = ∂t ρt + ut · ∇ρt = 0.
dt dt

On en déduit directement, toujours dans le cas régulier, l’expression de la solution de

l’équation de transport conservative :

Proposition 1.7. Soit ρt une solution de l’équation

∂t ρt + ∇ · (ρt ut ) = 0,

avec ut régulier (continu et Lipschitz par rapport à la variable d’espace). Alors ρτ vérifie
Z τ
ρτ (Xτ (x, s)) = ρs (x) exp − ∇ · ut (Xt (x, s)) dt .
s

Noter que l’on peut ainsi exprimer ρτ à partir d’une donnée initiale en renversant le flot :
Z τ
ρτ (y) = ρ0 (X0 (y, τ )) exp − ∇ · ut (Xt (y, 0)) dt .
0

Remarque 1.8. En termes de modélisation, on peut voir l’équation de transport de diffé-

rentes manières, qui conditionnent le sens que l’on peut souhaiter donner aux solutions. La
première consiste à se donner un champ de vitesse, et une densité initiale, et à étudier le
transport de la densité par le champ. C’est sous cette forme-là que le problème est classique-
ment étudié d’un point de vue théorique (voir plus loin). Cette situation correspondrait par
exemple à l’écoulement d’un fluide qui remplit un certain domaine. On injecte alors dans ce
fluide un traceur passif, c’est à dire une substance dont on peut suivre le mouvement, mais
qui n’a pas d’incidence sur ce dernier. La densité considérée est alors celle du traceur pas-
sif. Dans ce premier cas le champ est bien défini indépendamment de la matière (traceur)
qu’il transporte. On a toujours une solution particulière, d’un intérêt limité, qui exprime le
transport d’une quantité nulle de traceur par le champ de vitesse sous-jacent.

14
Une deuxième vision correspondrait à des particules qui évoluent dans le vide (ou dans
l’air, dont on pourra négliger les effets dans certains régimes), qui éventuellement intéra-
gissent entre elles, sont soumises à l’action de forces extérieures, etc. . .. Si l’on connait le
champ de vitesse, on souhaite écrire le transport de la matière par le champ de vitesse. Mais
ce dernier n’est de façon évidente défini que là où il y a de la matière, il n’est pas donné a
priori en tout point de l’espace. D’un point de vue mathématique, le problème est très dif-
férent. Les questions typiques que l’on peut se poser sont les suivantes : étant donnée une
famille de mesures (ρt ), existe-t-il un champ de vitesse qui transporte ρt ? Est-il ρt -presque
partout unique ? C’est la version mathématique du problème de l’expérimentateur qui cherche
à estimer des vitesses à partir d’observations en termes de positions (de particules, cellules,
individus dans une foules, voitures, voire planètes). Dans ce contexte, les champs de vitesses
n’ont en général aucune raison de présenter la moindre régularité d’un point de vue Eulérien.
C’est précisément en prenant en compte des interactions entre particules que l’on peut espérer
obtenir une certaine régularité, et obtenir des équations aux dérivées partielles (eulériennes,
donc) sur lesquelles on pourra espérer dire des choses.

C’est la version mathématique du problème de l’expérimentateur qui cherche à estimer

des vitesses à partir d’observations en termes de position. Cette vision joue un rôle très
important dans le cadre du transport optimal, nous proposons ci-dessous une définition de
solutions adaptée à ce type de situation.

Solutions faibles de l’équation de transport. Il est important de pouvoir définir des

solutions de cette équation pour des densités et des champs moins réguliers.

Definition 1.9. Soit t 7→ ρt une famille de mesures bornées, et ut un champ de vecteurs

ρt -mesurables tel que Z Z T
|ut | dρt dt < +∞.
0 Rd

On dit que le couple (ρt , ut ) est solution faible sur ]0, T [ de l’équation de transport si
Z T Z
(∂t ϕ + ut · ∇ϕ) dρt dt = 0
0 Rd

pour tout ϕ ∈ Cc∞ (Rd ×]0, T [).

Exemple 1.1. L’équation ci-dessus exprime de façon Eulerienne et macroscopique le transport

de particules. Considérons une particule de masse m dont la trajectoire est t 7→ x(t), de vitesse
u(t) = ẋ(t). On peut représenter ce mouvement de façon Eulérienne en considérans la mesure
ρt = mδx(t) , et le “champ” de vitesse ut = u(t) (cette vitesse n’est définie qu’en x(t), elle n’a
pas de sens ailleurs puisque la mesure est supportée en ce point). On a
Z T Z Z T
(∂t ϕ + ut · ∇ϕ) dρt dt = (∂t ϕ(x(t), t) + u(t) · ∇ϕ(x(t), t)) dt
0 Rd 0
Z T d
= ϕ(x(t), t) dt = ϕ(x(T ), T ) − ϕ(x(0), 0) = 0.
0 dt
Remarque 1.10. On prendra garde au fait suivant : la formulation faible suggère qu’il suffit
de se donner un champ de vitesse presque partout pour que la notion de solution soit définie

15
sans ambiguı̈té. Mais cette impression n’est justifiée que pour des mesures qui sont absolument
continues par rapport à la mesure de Lebesgue, car l’intégrale impliquée dans la formulation
faible demande que ut soit définie ρt - presque partout. Prenons par exemple le champ ut sur
R identiquement égal à un, sauf en 0 où le champ prend la valeur 0. Cette dernière précision
peut sembler incongrue car {0} est de mesure nulle (relativement à la mesure de Lebesgue),
mais la difficulté est que rien dans l’équation n’interdit l’apparition de mesures singulières,
qui chargeraient le point 0 en question. On pourra ainsi vérifier que, pour la condition initiale
ρ0 = 1]−1,0[ , l’équation admet une infinité de solutions, parmi lesquelles on retrouve bien le
transport à vitesse constante de la densité initiale

ρt = 1]−1+t,t[ ,

mais aussi
ρt = 1]−1+t,0[ + tδ0 ∀t ∈ [0, 1[ , ρt = δ0 ∀t ≥ 1,
et, en fait, une infinité de solutions intermédiaires : lors du passage en 0, on peut choisir de
laisser passer une fraction arbitraire de masse vers les x positifs, et d’en conserver en 0 le
reste (qui va s’accumer pour former une mesure singulière).

Exercice 1.1. Dans l’esprit de la remarque précédente, montrer que la mesure

δ0 sur ] − ∞, 0[
ρt =
θδ−V t + (1 − θ)δV t sur ]0, +∞[

est solution de l’équation de transport pour le champ de vitesse −V sur ] − ∞, 0[, V sur
]0, +∞[, et 0 en 0, avec V > 0, quelle que soit la valeur de θ ∈ [0, 1]. Peut-on construire un
tel exemple d’indétermination avec le champ de vitesse opposé ? (on pourra se reporter aux
notions introduites dans la section 20.5, page 209).

Modèles structurés en âge

L’équation de transport prend une forme particulière lorsque la variable d’espace elle-
même correspond en fait à un temps. Ce cadre est naturel lorsque l’on suit une densité de
population par tranche d’âge. La forme discrète de cette description correspond à la pyramide
des âges, utilisée par les démographes. La version continue est basée sur la définition d’une
densité ρ(a, t), qui quantifie le nombre de personne à l’âge a. Plus précisément, ρ(a, t) da
correspond au nombre de personnes entre les âge a et a + da.

On obtient typiquement des systèmes de la forme suivante (comme dans la remarque 1.3,
la vitesse correspond à un vieilissement d’une unité de temps par unité de temps) :

∂t ρ + ∂a ρ = −µ(a, t)a,
Z +∞
ρ(0, t) = β(a, t)ρ(a, t) da,
0

où µ(a, t) correspond au taux de disparition à l’âge a, et β(a, t) un taux de fécondité à

l’âge a. La dépendance en temps de ces valeurs permet de prendre en compte des facteurs
exogènes, du type épidémie momentanée, ou guerre (augmentation de µ(a, t)), ou par exemple
la mise en place d’une politique nataliste (augmentation de β(a, t)). La seconde équation

16
donne l’impression que l’on fixe le nombre de personnes d’âge 0. Ce terme doit plutôt être
interprété comme un terme de flux : de nouvelles personnes (les nouveaux-nés) rentrent dans
le circuit, et la valeur ρ(0, t) doit être lue comme un flux ρ(0, t) × 1 (où 1 est une “vitesse” en
secondes par seconde), que l’on exprime comme résultant du processus de reproduction.

Aspects théoriques

Malgré sa simplicité apparente, et la trivialité du phénomène qu’elle formalise, l’équation

de transport pose des problèmes théoriques extrêmement délicats dès que le champ de vitesse
n’est pas régulier. On pourra se reporter à l’article historique de Di Perna & Lions 4 , qui
établit le caractère bien posé de l’équation de transport (existence et unicité d’une solution
pour une condition initiale donnée) dans le cas d’un champ de vitesse W 1,1 , et de divergence
uniformément bornée. .

Voir aussi Ambrosio 5 pour une présentation détaillées des différentes approches.

1.3 Diffusion

Modèle 1.11. (Loi de Fick)

On dit qu’un phénomène de propagation suit la loi de Fick s’il existe un paramètre positif D
tel que
J = −D∇ρ.

Remarque 1.12. D’un point de vue qualitatif, cette loi exprime le fait que la substance
a tendance à aller des zones à forte densité vers les zones à faible densité. On peut donc
s’attendre à ce qu’un tel phénomène tende à uniformiser les densités. On se reportera à la
section 9 pour des exemples de phénomènes de nature (au moins partiellement) diffusive, qui
conduisent néanmoins à des répartitions non homogènes de matière dans l’espace.

Équation de la chaleur. On considère une substance qui diffuse dans un milieu selon la loi
de Fick (modèle 1.11). L’équation de conservation (1.1) s’écrit ici

∂ρ
− ∇ · D∇ρ = 0,
∂t
ou, dans le cas où D est uniforme,
∂ρ
− D△ρ = 0. (1.3)
∂t
4. R.J. Di Perna & P.L. Lions,
Ordinary differential equations, transport theory and Sobolev spaces, Invent. math. 98, 511-547 (1989),
[Link]
5. L. Ambrosio, transparents d’un cours donné à Benasque en 2005
[Link]

17
Noyau de la chaleur. On se place sur l’espace Rd tout entier. Pour tout y ∈ Rd , la fonction

|x − y|2
1 −
K(x, t) = e 4Dt , (1.4)
d/2
(4πDt)

est solution de l’équation de la chaleur (1.3), de telle sorte que, pour toute fonction u0
suffisamment régulière,

Z |x − y|2
1 −
u(x, t) = e 4Dt u0 (y) dy,
(4πDt)d/2 Rd

est la solution de l’équation de la chaleur pour la donnée initiale u(x, 0) = u0 (x).

Diffusion non isotrope. Dans le cas où le milieu n’est pas isotrope (i.e. la diffusion est
plus importante dans certaines direction), on peut introduire une matrice de diffusion définie
positive D qui conduit a une équation formellement analogue. Ce phénomène traduit la
non-isotropie du milieu considéré : lorsque la diffusion se fait plus aisément dans certaines
directions, la matrice D ne sera pas scalaire. Cette situation est courante dans le cas de
milieux fibreux, comme le sont par exemple les muscles dans le corps humain.

Conditions aux limites. On suppose que le phénomène de diffusion prend place dans une
zone délimitée de l’espace. On note Ω cette zone, et l’on suppose que Ω est un ouvert borné.
Il est alors licite de prescrire deux types de condition sur la frontière de Ω.
(i) Conditions de Dirichlet : la valeur de la densité est imposée au bord du domaine.
(ii) Conditions de Neumann : on prescrit le flux J · n à travers la frontière du domaine Ω,
c’est-à-dire, sous l’hypothèse de flux régi par la loi de Fick, la dérivée normale de la
densité, ou plus précisément −D∂ρ/∂n.
Il est possible de panacher ces deux conditions, c’est-à-dire d’imposer la valeur de ρ sur une
partie de la frontière, et la valeur de la dérivée normale sur son complémentaire.

Notons qu’un troisième type de conditions aux limites peut être envisagé, qui implique à
la fois la valeur de la fonction et sa dérivée normale, il s’agit des

(iii) Conditions de Robin (ou Fourier) : on prescrit une combinaison linéaire (à coef-
ficient positifs) de la valeur et de la dérivée normale.

Précisons d’où peuvent venir ces dernières conditions en prenant l’exemple de la diffusion
de l’oxygène dans le sang au travers de la paroi alvéolaire. On assimile un alvéole à une sphère
remplie d’air, au sein duquel l’oxygène diffuse selon la loi de Fick avec un certain paramètre
de diffusivité D. La paroi alvéolaire sépare l’alvéole des capillaires dans lesquels circulent le
sang, dont les globules rouges vont capter l’oxygène. Au sein de cette paroi, l’oxygène diffuse
également et comme elle est très fine, il est licite de négliger au premier ordre la diffusion
dans la direction transverse. Si l’on note uext la concentration en oxygène dans le sang, on
peut écrire que le flux d’oxygène au travers de la paroi est proportionnel à la différence de
valeurs de part et d’autre, ce qui conduit à écrire

Flux alvéole vers sang = β(u − uext ),

18
où u est la valeur de la concentration dans l’alvéole au voisinage de la paroi alvéolaire, d’où
la condition en tout point de la frontière
∂u ∂u
−D = β(u − uext ) , i.e. βu + D = βuext .
∂n ∂n
Noter que cette condition présente l’avantage de contenir d’une certaine manière toutes les
autres, puisque l’on retrouve des conditions de Neumann en faisant tendre β vers 0, et des
conditions de Dirichlet 6 en faisant tendre β vers +∞.

1.4 Transport - diffusion

Lorsque les deux phénomènes évoqués précédemment coexistent, on parle de transport-

diffusion, ou convection-diffusion.

On peut décomposer le vecteur flux en ses deux composantes

J = Ju + JD = uρ − D∇ρ,

ce qui conduit à ’équation

∂ρ
+ ∇ · (uρ) − ∇ · D∇ρ = 0.
∂t
Remarque 1.13. Dans le cas où le champ de vitesse dérive d’un potentiel, on obtient une
équation d’un type particulier (équation dite de Fokker-Planck), qui peut s’interpréter comme
exprimant un processus de pure diffusion (voir section 9, ou section 1.5 ci-après).

Definition 1.14. (Nombre de Péclet)

Le nombre de Péclet est défini par
UL
,
Pe =
D
où L représente la taille caractérisque du domaine considéré, U l’ordre de grandeur du module
de u, et D le coefficient de diffusion.

Lorsque le nombre de Péclet est petit devant 1, cela signifie que les phénomènes de diffusion
sont prépondérants devant les phénomènes de convection. Concrètement, cela signifie que
le terme de convection dans l’équation peut être supprimé sans que le champ solution soit
modifié de façon significative. Pour Pe >> 1, c’est au contraire la convection qui domine. Dans
cette dernière situation, on prendra garde au fait que la suppression du terme de diffusion
change profondément la nature de l’équation. Plus précisément, si l’on considère l’équation
de convection-diffusion avec des conditions de Dirichlet (valeur de ρ imposée au bord), on
peut voir apparaı̂tre lorsque a tend vers 0 le phénomène dit de couche limite. Dans le cas
limite D = 0, sur une partie de la frontière où la vitesse est sortante, l’équation ne “voit” pas
la condition limite, puisque qu’il n’est pas licite de prescrire la valeur de ρ en un tel point.
On aura en général pour des nombres de Péclet grands apparition de très forts gradients de
ρ au voisinage de ces zones.
6. Cette technique est couramment utilisée numériquement pour imposer, dans le cadre des méthodes
d’éléments finis, des conditions de Dirichlet sans changer la structure de la matrice : il s’agit de la méthode de
pénalisation frontière.

19
Adimensionnement des équations de transport diffusion.
Le nombre de Péclet peut être introduit de la façon suivante : on considère une substance qui
se propage par advection et diffusion (champ u et paramètre a), dans un domaine de taille
caractéristique L. On note note U l’ordre de grandeur du champ advectant, et T = L/U un
temps caractéristique (temps mis par une particule pour être déplacée par advection d’une
longueur caractéristique). Écrire l’équation en variables adimensionnées consiste à introduire
les variables de temps et d’espaces (sans dimension) t⋆ = t/T et x⋆ = x/L. On note par
ailleurs u⋆ = u/U . Dans ces nouvelles variables, l’équation s’écrit
∂ρ 1 ⋆
⋆
+ ∇⋆ · (u⋆ ρ) − ∆ ρ = 0,
∂t Pe
Exemple 1.2. (Couche limite)
On considère l’équation de convection-diffusion stationnaire (la dérivée partielle par rapport
au temps est égale à 0) sur l’intervalle ]0, L[, avec une vitesse constante égale à 1, et des
conditions aux limites ρ(0, t) = 1, ρ(L, t) = 0 :
∂x ρ − a∂xx ρ = 0.
La fonction ρ ne dépendant plus du temps, on note ρ′ et ρ′′ les dérivées en x. On déduit de
l’équation de convection diffusion stationnaire que ln |ρ′ | est affine de pente 1/a, d’où, après
prise en compte des conditions aux limites,
x−L
1−e a
ρ(x) = L .
1 − e− a
On vérifie que cette fonction, qui prend la valeur 0 en x = L, tend uniformément vers 1 sur
tout intervalle du type [0, L − η], avec η > 0.

1.5 Advection diffusive

L’équation d’advection diffusion peut aussi s’obtenir dans certains contextes à partir d’un
processus de diffusion pure.

Considérons par exmple un processus de diffusion dans Rd sous une hypothèse de symétrie
radiale : ρ̃(x, t) = ρ̃(r, t). L’équation sur ρ̃ s’écrit
D
∂t ρ̃ − D∆ρ̃ = 0 , soit ∂t ρ̃ − ∂ r d−1 ∂r ρ̃ = 0.
d−1 r
r
Plus généralement, on peut considérer un processus de diffusion radial dans un espace où la
mesure de la sphère de rayon r est donné. Notant ω(r) cette mesure, on obtient la forme
générale
D
∂t ρ̃ − ∂r (ω(r)∂r ρ̃) = 0.
ω(r)
Notons 7 maintenant ρ la densité linéique de masse à distance r de l’origine, ρ = ω(r)ρ̃ (de
telle sorte que ρ(r) dr est la quantité totale de matière contenue entre les sphères de rayons
r et r + dr). Cette nouvelle quantité vérifie l’équation

ω′
∂t ρ − D∂rr ρ + D∂r ρ = 0.
ω
7. Approche suggérée par B. Merlet.

20
On obtient ainsi une équation d’advection diffusion avec une vitesse centrifuge V (r) égale
à Dω ′ /ω. Cette advection centrifuge de nature purement diffusive est liée au fait que, dans
cette formulation sur la variable ρ de densité par unité de distance à l’origine, la diffusion est
décalée vers les r croissants, puisqu’il y a plus de place lorsque l’on s’éloigne de l’origine (le
volume de la couronne entre r et r + dr est plus grand que celui entre r − dr et r. Dans le
cas de Rd , pour d ≥ 2, on a V = D(d − 1)/r.

21
2 Fluides

2.1 Tenseur des contraintes, équations générales du mouvement d’un fluide

Definition 2.1. (Tenseur des contraintes)

On considère ici un fluide occupant un certain domaine de l’espace, x un point de ce domaine,
n un vecteur unité, et Dε (n) un disque (ou un segment en dimension 2 d’espace, voire un
point 8 en dimension 1) centré en x, d’aire ε (longueur ε en dimension 2), orthogonal à n.
On note Fε (n) la force exercée sur Dε (n) par le fluide situé du côté de n. Si Fε (n)/ε tend
vers F (n) quand ε tend vers 0, et si la correspondance n 7−→ F (n) est linéaire, on appelle
tenseur 9 des contraintes en x le tenseur σ qui représente cette correspondance linéaire.

F (n) = σ · n.

Le mouvement d’un fluide qui admet partout un tel tenseur peut être formalisé par une
équation très générale. On note ρ = ρ(x, t) la densité locale (masse par unité de volume),
par u la vitesse 10 , et par f une force en volume agissant sur le fluide (typiquement la gravité
f = ρ g). On considère un système matériel ω(t), c’est à dire à ensemble de particules que l’on
suit dans leur mouvement 11 . Le principe fondamental de la dynamique (ou loi de Newton)
exprime que la dérivée en temps de la quantité de mouvement pour ce système est égal à la
somme des forces extérieures :
Z
d
ρu = somme des forces extérieures. (2.1)
dt ω(t)
R
Le membre de droite est la somme de la contribution des forces en volume ω f , et le bilan
des forces exercées sur ω par le fluide à l’extérieur de ω, qui s’écrit, d’après la définition 2.1,
Z Z
σ·n = ∇ · σ.
∂ω ω

8. Dans ce cas extrême, mais très utile en pratique (la dimension 1, très pauvre pour les fluides incompres-
sibles, permet d’étudier de façon fine les modèles de fluides compressibles), il n’y a évidemment pas lieu de
faire tendre la mesure vers 0.
9. On pourra remplacer ici le terme de tenseur par matrice, et considérer que σ · n, qui représente la
contraction de deux tenseurs, correspond à un simple produit matrice vecteur, que l’on verra noté σn dans
certains documents.
10. Précisons que le fait de considérer qu’une telle vitesse puisse être définie en tout point est une hypothèse
très forte. Par ailleurs, comme dans le cas de la définition du vecteur flux (voir définition 1.1, page 11),
parler de vitesse véritablement ponctuelle n’a pas de sens autre qu’abstrait puisque, pour les fluides réels (en
particulier pour les gaz) à une échelle inférieure à la taille intermoléculaire, la matière ne peut être vue comme
un continuum : la plupart des “points” sont en fait dans le vide, et cela n’a pas de sens de définit une vitesse,
dans ce contexte, en l’absence de matière. L’hypothèse sous-jacente est qu’il existe une échelle mésoscopique
telle que l’on puisse définir à chaque instant une vitesse moyenne sur des volumes élémentaires représentatifs
à cette échelle.
11. Si on se donne un sous-domaine ω(0) comme position initiale du système matériel, on a

ω(t) = {Xt (x) , x ∈ ω(0)},

où t 7→ Xt (x) est la trajectoire de la particule située en x à t = 0, i.e.

∂Xt
(x) = u(Xt (x), t) , X0 (x) = x.
∂t

22
Le membre de gauche de 2.1 s’écrit donc (voir équation (A.12), page 254)
Z Z Z
d ∂(ρu)
ρu = + ρu(u · n),
dt ω(t) ω(t) ∂t ∂ω(t)

et le dernier terme peut s’écrire comme une intégrale en volume

Z Z
ρu(u · n) = ∇ · (ρu ⊗ u) ,
∂ω(t) ω(t)

où u ⊗ u représente la matrice symétrique (ui uj )i,j . Comme le système matériel est arbitraire
(en particulier aussi petit qu’on veut), on en déduit l’équation générique suivante :

Modèle 2.2. (Équation d’évolution générale pour un fluide inertiel)

On considère un fluide en mouvement de densité ρ(x, t), de vitesse u(x, t), soumis à une
force en volume f . On suppose l’existence, en tout point (x, t) du domaine de l’espace-temps
occupé par le fluide, d’un tenseur des contraintes σ(x, t). La conservation locale de la quantité
de mouvement s’écrit
∂
(ρu) + ∇ · (ρu ⊗ u) − ∇ · σ = f. (2.2)
∂t
La conservation de la masse s’écrit par ailleurs
∂ρ
+ ∇ · (ρu) = 0.
∂t

Modèle 2.3. (Équilibre des forces pour un fluide non inertiel)

Quand l’inertie est négligeable, la loi de Newton est remplacée par une relation d’équilibre
instantané des forces, qui s’écrit
−∇ · σ = f.

Remarque 2.4. On peut légitimement se demander s’il est acceptable d’écrire des dérivées en
espace et en temps de quantités scalaires ou vectorielles dont on n’a pas précisé les régularités.
Le notion de solution faible de telles équation permet de donner un sens à ce qui précède,
même dans le cas de champs peu régulier. Montrons en particulier que l’équation générale
écrite ci-dessus (nous ne garderons ici que la partie inertielle) peut être interprétée comme
généralisant la loi fondamentale de la dynamique pour des points matériels, si on lui donne
un sens pour des distributions de matière ρ singulières. On se place en dimension 1 pour
simplifier, on considère t 7→ ρt une courbe de mesures positives de même masse (par exemple
des mesures de probabilité), on note ut le champ de vitesse au temps t, donné comme fonction
ρt -mesurable, et g un champ de force par unité de masse. On dira que (ρt , ut ) est solution
faible de
∂t (ρt ut ) + ∂x (ρt u2t ) = ρt g
sur ]0, T [ si
Z T Z Z T Z Z T Z
2
− ∂t ϕut dρt − ∂x ϕ (ut ) dρt = gdρt ,
0 R 0 R 0 R
pour toute fonction ϕ régulière à support compact sur ]0, T [×R. Prenons maintenant le cas
d’une particule de masse m, soumise à l’action d’une force mg, et dont la trajectoire est x(t).
L’expression du principe fondamental de la dynamique pour cette particule est mẍ = f . On
représente cette particule de façon Eulerienne par une mesure ρt = mδx(t) , et l’on note u(t)
sa vitesse. La masse étant concentrée, il est en effet naturel de voir le “champ” de vitesse

23
(qui est une fonction ρt -mesurable) comme un simple scalaire fonction du temps. Écrivons la
formulation faible ci-dessus appliquée à ρt , u(t). On obtient
Z T Z T
− m ∂t ϕ(x(t), t) ut − ∂x ϕ(x(t), t) u(t)2
0 0
 
Z T Z T
 
=− ∂
m u(t)  t ϕ(x(t), t) ut + ∂x ϕ(x(t), t) ut  =
 mgϕ(x(t), t).
0 | {z } 0
dϕ(x(t),t)/dt

En intégrant par parties l’intégrale contenant le dϕ(x(t), t)/dt, on obtient

Z T
d(mu(t))
− mg ϕ(x(t), t) dt,
0 dt
valable pour toute fonction test, d’où mẍ = mg. On généralise immédiatement cette démarche
au cas de plusieurs particules sans croisement de trajectoire. On peut aller au-delà en vérifiant
par exemple que la collision de deux particules peut-être représentée de façon Eulérienne
par une solution faible de l’équation (dite d’Euler sans pression) ci-dessus. En prenant par
exemple un forçage extérieur nul, et
1 1
ρt = δx1 (t) + δx2 (t) , x1 (t) = (−1 + t)− , x2 (t) = (1 − t)+ ,
2 2
avec le champ de vitesse correspondant (vitesses opposées jusqu’au temps 1, nulle ensuite).
Mais l’équation elle même ne fait qu’exprimer la quantité de mouvement, sans considération
énérgétique. On peut en particulier vérifier que toute loi de collision qui préserve la quantité
de mouvement (les particules repartent avec des vitesses opposées) est solution de l’équation
ci-dessus.

L’essentiel de la démarche de modélisation des milieux continus fluides consiste à exprimer

le tenseur des contraintes. On distingue deux grandes classes de fluides, les fluides dits parfaits,
pour lesquels le tenseur des contraintes est diagonal, et les autres fluides, dits réels, qui
présentent une tendance à résister aux déformations. On s’intéressera en particulier ici aux
fluides réels newtoniens incompressibles.

2.2 Fluides parfaits

Un fluide parfait est caractérisé par le fait que, si l’on reprend la définition du tenseur
des contraintes, la force exercée sur le disque infinitésimal Dε (n) est dirigée suivant n, et son
intensité ne dépend pas de l’orientation.

Definition 2.5. (Fluide parfait)

Un fluide est dit parfait s’il admet un tenseur des contraintes diagonal, i.e. il existe un champ
scalaire p, appelé champ de pression tel que

σ(x) = −p Id,

où Id est le tenseur identité.

24
Pour un tel fluide, on a
−∇ · σ = ∇ · (p Id) = ∇p,
ce qui conduit à l’équation d’Euler
∂
(ρu) + ∇ · (ρu ⊗ u) + ∇p = f.
∂t

Fluide parfait incompressible

Dans le cas d’un fluide homogène (ρ est uniforme) et incompressible (le champ de vitesse
est à divergence nulle), on a
∇ · (ρu ⊗ u) = ρ (u · ∇) u,
où (u · ∇) u est tel que
d
X ∂ui
((u · ∇) u)i = uj .
j=1
∂xj

Modèle 2.6. (Équation d’Euler incompressible)

On considère un fluide en mouvement de densité ρ(x, t), de vitesse u(x, t), soumis à une force
en volume f . On suppose le fluide parfait (on note p la presison), homogène, et incompressible.
Le triplet (ρ, u, p) vérifie alors les Équation d’Euler incompressibles

∂u
ρ + ρ (u · ∇) u + ∇p = f
∂t (2.3)
∇·u = 0

L’apparente simplicité de cette équation, obtenue en faisant des hypothèses très fortes sur
le fluide, est trompeuse. Un fait particulièrement troublant la concernant est lié au paradoxe
de Scheffer-Schnirelman 12 : on peut construire une solution du système ci-dessus, sans forçage
(f = 0), non nulle, à support compact en espace temps.

Dans le cas d’un écoulement incompressible stationnaire, on peut montrer formellement

la conservation d’une certaine quantité (appelée pression dynamique) le long des lignes de
courant.

Proposition 2.7. (“Théorème” de Bernoulli)

On considère l’écoulement stationnaire d’un fluide parfait homogène incompressible, soumis
à l’action d’une force qui dérive d’un potentiel f = −∇Φ. On suppose les champs de vitesse
et de pression réguliers (continûment différentiables). La quantité
ρ 2
|u| + p + Φ
2
se conserve le long des lignes de courant.
12. On pourra se reporter à la description de cette construction dans :
C. Villani, Paradoxe de Scheffer-Schnirelman revu sous l’angle de l’intégration convexe [d’après C. De Lellis
et L. Székelyhidi], Séminaire Bourbaki, Novembre 2008, 61ème année, 2008-2009, no 1001.
[Link]

25
Démonstration. On a
d d
! !
X X 1X X |u|2
((u · ∇) u) · u = ui uj ∂j ui = uj ∂j |ui |2 = u·∇ .
i=1 j=1
2 j i
2

On a donc, en prenant le produire scalaire avec u de la première ligne de (2.3), sans le terme
de dérivée en temps (supposé nul),

ρ 2
u·∇ |u| + p + Φ = 0,
2
d’où la propriété annoncée.

Fluide parfait barotrope

Une autre manière de fermer 13 les équations d’Euler est de supposer un lien univoque
entre la densité et la pression. On obtient alors le

Modèle 2.8. (Équations d’Euler barotropes)

On considère un fluide en mouvement de densité ρ(x, t), de vitesse u(x, t), soumis à une
force en volume f . On suppose le fluide parfait (on note p la pression). Le système d’Euler
barotrope s’écrit comme suit
∂ρ
+ ∇ · (ρu) = 0,
∂t
∂ (2.4)
(ρu) + ∇ · (ρu ⊗ u) + ∇p = f
∂t
p = p(ρ).

Équations de l’acoustique

Le modèle précedent permet d’obtenir formellement l’équation des ondes, ce qui permet
de modéliser la propagation du son dans un fluide compressible.

On se propose ici de montrer formellement comment l’on peut passer des équations d’Euler
pour un gaz compressible à l’équation des ondes qui va modéliser la propagation d’ondes au
sein de ce milieu. Le point de départ est donc le système d’Euler

∂t ρ + ∇ · (ρu) = 0,

∂
(ρu) + ∇ · (ρu ⊗ u) + ∇p = 0,
∂t
13. Il peut être très délicat de montrer rigoureusement existence et unicité d’une solution aux équations
obtenues, mais cette approche permet d’avoir autant d’équations (d + 2) que d’inconnues (d pour la vitesse,
1 pour la densité, 1 pour la pression), de telle sorte que le modèle obtenu puisse être considéré comme un
problème, c’est à dire un système d’équations pour lequel on peut espérer obtenir, sous certaines hypothèses,
des résultats théoriques. On peut qualifier ce problème de posé, en attente d’être bien posé (expression que
l’on réserve aux problèmes pour lesquels on a au moins un résultat d’existence et d’unicité, conditionné à
d’éventuelles conditions sur l’état initial et le forçage).

26
avec p = p(ρ). On considère que les différentes variables restent au voisinage de valeurs de
références ρ0 , p0 , et u0 = 0 pour la vitesse, et l’on garde les notations ρ, p et u pour désigner
les (petites) variations au voisinage de ces valeurs. On suppose en outre (on peut montrer
que cette hypothèses est réaliste dans un grand nombre de situations) le régime barotrope,
c’est à dire que la pression est supposée ne dépendre que de la densité : p = p(ρ). On notera
β = p′ (ρ0 ). On réécrit les équations ci-dessus en ne conservant que les termes d’ordre 1 dans
les petites variations :
∂t ρ + ρ0 ∇ · u = 0,
ρ0 ∂t u + ∇p = 0.
On a
∇p = p′ (ρ)∇ρ ≈ p′ (ρ0 )∇ρ = β∇ρ,
ce qui permet d’éliminer la pression dans la seconde équation. Si l’on prend maintenant la
divergence de la seconde équation, la dérivée partielle par rapport au temps de la première ,
et que l’on fait la différence, on obtient

∂tt ρ − β∆ρ = 0,

avec β = p′ (ρ0 ), c’est-à-dire une équation des ondes sur la (petite variation de la) densité.
On aura donc propagation d’ondes au sein du fluide, à la célérité c, avec c2 = β. Dans le cas
d’un gaz comme l’air, supposé parfait, de coefficient isentropique γ = 1.4, on a
γ
p ρ p0
= et donc β = p′ (ρ0 ) = γ .
p0 ρ0 ρ0

On obtient dans des conditions normales (p0 = 105 Pa, ρ0 = 1.2 kg m−3 ),
r
γp0
c= ≈ 341 ms−1 .
ρ0

2.3 Fluides newtoniens

Les fluides dits réels présentent une certaine résistance à la déformation. Pour quantifier
cette déformation, on considère une particule de fluide évoluant au voisinage d’une trajectoire
t 7→ x(t). La vitesse au voisinage de x s’écrit

u(y, t) ≈ u(x, t) + ∇u(x, t) · (y − x)

 
 ∇u − t ∇u ∇u + t ∇u 
= u(x, t) +  +  · (y − x).
| {z } 
| 2
{z } | 2
{z }

Translation
Rotation Déformation

Le mouvement d’un segment matériel xy peut ainsi être décomposé en 3 contributions : un

mouvement de translation à la vitesse locale, un mouvement de rotation (partie antisymé-
trique du gradient du champ de vitesse), et une dernière contribution qui correspond aux
déformations locales (partie symétrique du gradient du champ de vitesse) On se reportera à
la figure 2.1 pour une illustration (en dimension 2 d’espace) de ces trois contributions.

27
+

Figure 2.1 – Décomposition locale d’un champ de vitesse

Definition 2.9. (Tenseur des taux de déformation)

On considère un fluide évoluant selon le champ de vitesse u. Le tenseur des taux de défor-
mations est défini par
∇u + t ∇u
D= .
2

Le modèle le plus simple de fluide réel (nous nous limiterons ici au cas incompressible) est
obtenu en considérant que le tenseur des contraintes est, à la contribution diagonale associée
à la pression près, proportionnel au tenseur des taux de déformation :

Definition 2.10. (Fluide (incompressible) newtonien)

Un fluide incompressible est dit newtonien s’il existe un paramètre positif µ, appelé viscosité,
tel que le tenseur des contraintes s’écrive

σ = 2µD − p Id = µ ∇u + t ∇u − p Id,

où p = p(x, t) est un champ scalaire (pression).

On considère maintenant un fluide incompressible newtonien et homogène (ρ est uni-

forme). Comme ρ est constant, il peut être sorti de la dérivée en temps. Par ailleurs, comme
d
X ∂ui
∇·u = = 0,
i=1
∂xi

on a !
d
X ∂uj
∇ · (u ⊗ u) = ∇ · (ui uj )i,j = ui .
i=1
∂xi
1≤j≤d

28
Cette quantité exprime la dérivée de la vitesse dans sa propre direction, on la note (u · ∇) u (on
peut comprendre cette notation en considérant le bloc u · ∇ comme un opérateur différentiel
scalaire u1 ∂1 + · · · + ud ∂d qui s’applique composante par composante au vecteur u lui même).

Modèle 2.11. (Équations de Navier-Stokes incompressible)

L’écoulement d’un fluide newtonien, incompressible et homogène, soumis à l’action d’une
force en volume f , suit les équations de Navier-Stokes

 ∂u
 ρ + (u · ∇) u − µ∆u + ∇p = f
∂t


∇ · u = 0.

Forme adimensionnelle des équations de Navier-stokes

Soit U l’ordre de grandeur de la vitesse pour l’écoulement considéré, L la dimension ca-

ractéristique du phénomène étudié, et T = L/U le temps caractéristique associé. On introduit
les variables adimensionnées
u x t
u⋆ = , x⋆ = , t⋆ = .
U L T
En notant ∇⋆ (resp. ∆⋆ ) le gradient (resp. le Laplacien) relativement à la variable d’espace
adimensionnée, on obtient
∂u⋆ µ
+ (u⋆ · ∇⋆ ) u⋆ − ∆⋆ u⋆ + ∇⋆ p⋆ = f ⋆ ,
∂t⋆ ρU L

où p⋆ = p/(ρU 2 ) est la pression adimensionnée, et f ⋆ = f L/(ρU 2 ) le terme de forçage

adimensionné.

Definition 2.12. Le nombre Re = ρU L/µ est appelé nombre de Reynolds. Il quantifie l’im-
portance relative des effets inertiels par rapport aux effets visqueux.

Quand ce nombre (sans dimension) est petit devant 1, on peut considérer que les effets
inertiels sont négligeables, de telle sorte que la loi de Newton est remplacée par un équilibre
des forces instantané

Modèle 2.13. (Équations de Stokes incompressibles)

Un fluide newtonien et incompressible, soumis à une force en volume f , dans un régime
d’écoulement où les effets visqueux peuvent être négligés , suit les équations de Stokes incom-
pressibles (
−µ∆u + ∇p = f
(2.5)
∇·u = 0
Remarque 2.14. L’absence de dérivée en temps dans ce système s’explique simplement par
la disparition des termes d’inertie, mais on évitera de parler d’équation statique, elle exprime
plutôt un équilibre instantané des forces à chaque instant, en tout point du fluide. Ce fluide
est bien en mouvement, et dans le cas d’un fluide à surface libre, le domaine lui même sera
déformé par ce mouvement, malgré l’absence de dérivée en temps.

29
Si l’on considère la situation où le fluide remplit un domain délimité par des murs phy-
siques imperméables, on considère en général 14 que le fluide accroche à la paroi, ce qui
s’exprime sous la forme de conditions de Dirichlet homogènes u = 0 sur la frontière ∂Ω.

Écoulements en milieu poreux

Les écoulements en milieu poreux tiennent une place un peu particulière dans les modèles
fluides, du fait qu’il mettent en jeu deux phases : l’une est constituée par un fluide visqueux
incompressible, et l’autre est une matrice 15 rigide et fixe (typiquement un amas tridimen-
sionnels de grains rigides), au travers de laquelle le fluide est susceptible de s’écouler. Même
si le fluide est peu visqueux, le fait que l’écoulement du fluide se fasse à une échelle très petite
(au travers des pores du milieu) permet dans un grand nombre de situations de négliger les
effets inertiels : le nombre de Reynolds local est très petit (voir définition 2.12). On a alors
une relation de proportionalité entre flux de fluide et gradient de pression. Plus précisément,
Darcy a mis en évidence (voir figure 2.2) que le flux d’eau s’écoulant au travers d’un milieu
poreux (grains de sable) dépendait linéairement de la différence de pression entre l’entrée et
la sortie du domaine. L’écriture locale de cette relation conduit à

Modèle 2.15. (Loi de Darcy en milieu isotrope)

On considère l’écoulement d’un fluide visqueux dans un milieu poreux saturé 16 .

On dit que cet écoulement suit la Loi de Darcy s’il existe k, appelé perméabilité du milieu,
tel que
u = −k∇p,
où µ est la viscosité du fluide, p la pression au sein du fluide, et u est la vitesse moyenne
locale.

Remarque 2.16. La notion de vitesse moyenne évoquée ci-dessus correspond en fait à un

flux (volumique) par unité de surface. Cette quantité, en m3 s−1 par m2 , est effectivement
homogène à une vitesse, mais on prendra garde au fait que son module peut être très différent
de la vitesse effective des particules fluides en mouvement. En particulier, dans le cas d’une
porosité (fraction de vide au sein du milieu) très faible, les vitesses effectives des particules
seront très supérieures à cette vitesse, appelée vitesse de Darcy.

14. Cette hypothèse peut être invalidée dans certaines circonstances. Il est parfois plus pertinent d’utiliser
les conditions dites de Navier, qui préservent la condition de non pénértration du fluide dans la paroi, mais
autorisent une vitesse tangentielle non nulle.
15. Au sens bien sûr bassement matériel du terme : il s’agit de décrire une phase solide et immobile quels
que soient les efforts exercés sur elle par le fluide.
16. On dit que le mieu est saturé si l’espace libre est entièrement occupé par le fluide visqueux. La proportion
d’espace libre est appelée porosité, notée Φ en général. Une valeur typique de Φ est 0.64, qui correspond au
Maximal Random Packing pour des sphères de même taille (cas monodisperse), distribuée “aléatoirement”. Le
sens de aléatoirement ci-dessus est loin d’être trivial, on pourra pour plus de détails se reporter à :
S. Torquato, T. M. Truskett, P. G. Debenedetti, Is Random Close Packing of Spheres Well Defined ?, PRL
Vol. 84, No 10, [Link]
16. L’étude des milieux non saturé n’est pas abordée ici. Précisons simplement que l’abandon de l’hypothèse
de saturation conduit à des problèmes extrêmement complexes du fait que, l’écoulement fluide au niveau des
pores se faisant à petite échelle, les effets de tension surfacique (conditionnés par la nature du fluide, des
surfaces solides, et potentiellement du gaz environnant) ne sont en général pas négligeables.

30
Figure 2.2 – Description de l’expérience de Darcy (1856)

On obtient une équation pour le mouvement en écrivant simplement la conservation du

volume. Noter que, comme pour le modèle de Stokes, cette équation traduit un équilibre
instantané des forces.

Modèle 2.17. (Écoulement en milieu poreux)

L’écoulement en milieu poreux saturé d’un fluide visqueux incompressible est régi par

(
u + k∇p = U
(2.6)
∇·u = 0
où p est la pression au sein du fluide, u la vitesse de Darcy (voir remarque 2.16) , k = K/µ
la perméabilité, et µ la viscosité du fluide. Nous avons noté U la force en volume exercée sur
le fluide (c’est plus précisément U/k qui est homogène à une force par unité de volume).

2.4 Cadre mathématique pour le problème de Darcy

Nous considérons un milieu poreux dont les bords sont “ouverts” (le fluide peut sortir du
domaine ou y rentrer), et la pression au niveau du bord est imposée. On cherche un champ
de vitesse u et un champ de pression p définis sur Ω tels que


 u + ∇p = U dans Ω,

∇·u = 0 dans Ω, (2.7)



p = 0 sur Γ,

31
où U est un champ de force donné. On se place sur l’espace en vitesses V = L2 (Ω)2 . On pose
Λ = H01 (Ω), et l’on introduit l’application B de V dans Λ′ = H −1 qui à v ∈ V associe la
forme linéaire Bv définie par Z
hBv , qi = v · ∇q.
Ω
On définit alors K = ker B, et le problème de minimisation sous contrainte s’écrit
 Z
2 2 H01 (Ω)

 u ∈ K = v ∈ L (Ω) , v · ∇q = 0 ∀q ∈ ,


Ω
Z Z (2.8)
 1
|v|2 −

 J(u) = inf J(v),
 avec J(v) = v · f.
v∈K 2 Ω Ω

Proposition 2.18. Soit Ω un domaine borné de frontière Lipschitz, et U ∈ L2 (Ω)d . Le

problème de minimisation (2.8) ci-dessus admet une solution unique u ∈ K, et il existe un
unique p ∈ V = H01 (Ω) tel que
u + ∇p = U p.p.

Démonstration. Le problème (2.8) consiste à minimiser une fonctionnelle quadratique sur un

sous-espace K fermé (K s’exprime comme le noyau d’une application linéaire continue). Il
admet donc une solution unique u ∈ K.

Il reste à vérifier que le problème de point-selle associé est bien posé. En effet, l’application
B est surjective, car son adjoint B ⋆ : q 7−→ ∇q est tel que
|B ⋆ q| = |∇q|L2 (Ω) ≥ α |q|H 1 (Ω) ,
0

d’après l’inégalité de Poincaré 22.43, page 228, ce qui assure bien la surjectivité de B selon la
proposition 19.23, page 195. D’après la proposition 23.7, page 239, on a donc existence d’un
multiplicateur de Lagrange p tel que u + ∇p = U , qui est unique du fait du caractère injectif
du gradient sur H01 (Ω).

2.5 Cadre mathématique pour les équations de Stokes

On cherche un champ de vitesse u et un champ de pression p définis sur Ω (les régularités

de ces champs seront précisées par la suite) tels que
(
−△u + ∇p = f,
(2.9)
∇ · u = 0,
où f est un champ de force donné. On impose des conditions de Dirichlet homogènes sur la
vitesses. La première des deux équations ci-dessus exprime l’équilibre des forces en chaque
point du fluide, et la seconde exprime l’incompressibilité du fluide.

Nous allons maintenant préciser comment ce problème rentre le cadre de ce qui a été vu
précédemment, en repartant du point de départ usuel qui est le problème de minimisation
sous contrainte, puis en reconstruisant le problème de Stokes tel qu’énoncé ci-dessus à partir
de la formulation point-selle.

On introduit les espaces

V = H01 (Ω)2 , K = {u ∈ V , ∇ · u = 0 p.p.} ,

32
On considère le problème de minimisation sous contrainte

 u ∈ K,
(2.10)
 J(u) = inf J(v),
v∈K

où J est la fonctionnelle Z Z

1
J(v) = |∇v|2 − f ·v
2 Ω Ω

Proposition 2.19. La fonctionnelle J admet un unique minimiseur sur K.

Démonstration. L’application v 7→ ∇ · v étant linéaire continue (de V dans L2 (Ω)), l’ensemble

K est un sous-espace vectoriel fermé de V . De plus la fonctionnelle J est du type
1
J(v) = a(v, v) − hϕ , vi,
2
où a( · , · ) est une forme bilinéaire symétrique continue et coercive sur V , et ϕ ∈ V ′ . Le
théorème de Lax-Milgram assure l’existence et l’unicité d’un minimiseur.

En vue d’écrire ce problème sous la forme d’une recherche de point-selle, nous introduisons
maintenant l’espace Z
Λ = L20 (Ω) = p ∈ L2 (Ω) , p=0 ,
Ω
et l’opérateur
B : v ∈ V 7−→ Bv = −∇ · v.
L’espace K peut s’écrire
Z
K= v∈V , − q∇ · v = 0 ∀q ∈ Λ ,
Ω

ce qui conduit au Lagrangien

Z Z Z
1 2
L(v, q) = |∇v| − f ·v − q∇ · v.
2 Ω Ω Ω

Le caractère bien posé de la formulation point-selle est assuré par la

Proposition 2.20. Soit Ω un domaine borné de frontière Γ Lipschitz, et f ∈ L2 (Ω)N . Le
Lagrangien L défini ci-dessus admet un unique point-selle (u, p) ∈ V × Λ, où u est la solution
du problème de minimisation sous contrainte (2.10). De façon équivalente, il existe un unique
couple (u, p) ∈ H01 (Ω)N × L20 (Ω) tel que
Z Z Z
∇u : ∇v − p∇ · v = f ·v ∀v ∈ H01 (Ω)N (2.11)
Ω Ω Ω
Z
q∇ · u = 0 ∀q ∈ L20 (Ω). (2.12)
Ω

Démonstration. Malgré l’analogie formelle avec le problème de Darcy (l’opérateur B est

l’opérateur de divergence dans les deux cas), la démonstration est plus délicate (voir par
exemple [4]). L’existence et l’unicité d’un point-selle est une conséquence de la surjectivité de
l’opérateur de divergence B, qui est assurée par le lemme 2.21 ci-après.

33
Lemme 2.21. Soit Ω un domaine connexe, borné, de frontière Γ Lipschitzienne, et soit q
dans L20 (Ω). Il existe v ∈ H01 (Ω) tel que ∇ · v = q.

Démonstration. On se reportera à [4, lemme 3.2] pour la démonstration de ce résultat. No-

ter que le théorème de l’application ouverte assure l’existence d’une constante C telle que
l’antécédent v peut être choisi tel que kvkH 1 ≤ C kqkL2 .

Remarque 2.22. Comme il a été précisé, établir l’existence et l’unicité d’une solution pour
le problème de Stokes en formulation vitesse-pression est plus délicat que pour le problème de
Darcy. Cette différence peut se préciser ainsi : dans le cas de Darcy, la démonstration repose
sur une inégalité qui assure l’injectivité de B ⋆ et le caractère fermé de son image. L’opérateur
B ⋆ va de H01 (Ω) dans L2 (Ω)2 , et l’inégalité est conséquence directe de l’inégalité de Poincaré

kqkL2 (Ω) ≤ C k∇qkL2 (Ω)N ∀q ∈ H01 (Ω),

qui est vérifiée dès que Ω est borné dans une direction (voir proposition 22.43, page 228).
Dans le cas de Stokes, la surjectivité de l’opérateur B peut être établie comme conséquence
directe d’une inégalité à première vue très similaire, l’opérateur B ⋆ étant toujours dans un
certain sens l’opérateur de gradient, mais vu cette fois comme un opérateur de L2 (Ω) dans
H −1 (Ω) = (H01 (Ω)N )′ . Cette inégalité peut s’écrire

kqkL2 (Ω) ≤ C k∇qkH −1 (Ω) ∀q ∈ L20 (Ω),

où ∇q représente la forme linéaire sur H01 (Ω)N définie par

Z
Z q∇ · v
Ω
v 7−→ q∇ · v , k∇qkH −1 (Ω) = sup .
Ω v∈H01 (Ω) kvkH 1 (Ω)N
0

2.6 Ecoulement de Poiseuille, notion de résistance

On s’intéresse ici à l’écoulement d’un fluide visqueux incompressible dans un conduit

cylindrique à section circulaire.
(
−µ∆u + ∇p = 0
∇ · u = 0,

Le domaine est défini par

n o
Ω = (x, y) ∈ R2 , r 2 := x2 + y 2 < a2 × (0, L).

On considère que le fluide adhère (u = 0) aux parois latérales. Le problème admet une solution
exacte qui peut s’écrire en coordonnées cylindriques :
!
r2 µU
u(x, y, z) = U 1− 2 ~ez , p(x, y, z) = −4 (z − z0 ), (2.13)
a a2

où U est la vitesse maximale (au centre). La pression est uniforme sur chaque section droite
du tuyau,. Cela conduit à une relation linéaire entre le flux Q est le saut de pression :

34
x
z

y
Pout
U

Figure 2.3 – Écoulement de Poiseuille

a2 π a4
Q = Uπ = (Pin − Pout ). (2.14)
2 8 µL
Cette relation s’appelle la Loi de Poiseuille, et s’écrit en général 17
Pin − Pout = RQ, (2.15)
avec
8µ L
R= . (2.16)
π a4
La résistance visqueuse s’exprime en Pa s m−3 , Les forces de viscosité dissipent l’énergie au
taux 18 Z
P = µ |∇u|2 .
Ω
Un calcul direct permet d’établir que P = RQ2 (on reconnaitrait un équivalent fluide de la
loi de Joule), où Q est le flux défini précédemment.

On peut définir de façon générale la résistance d’un domaine Ω ∈ Rd , dont la frontière Γ

se décompose en trois composantes
Γ = Γin ∪ Γout ∪ Γw ,
Le Pressure Drop Problem s’écrit de la façon suivante


 −µ∆u + ∇p = 0 in Ω,






 ∇·u = 0 in Ω,

u = 0 on Γw , (2.17)






 µ∇u · n − p n = −Pin n on Γin ,



µ∇u · n − p n = −Pout n on Γout .
17. Noter l’analogie entre cette loi et la loi d’Ohm
U = RI,
où I est le courant électrique au travers d’un conducteur, U la différence de potentiel , et R la résistance
(électrique) du conducteur.
18. L’expression devrait être Z
µ 2
∇u + t ∇u ,
2 Ω
mais on peut montrer dans ce contexte, de fait que la vitesse s’annule au bord du domaine et est constante
selon sa propre direction (bords libres), que les deux expressions sont équivalentes.

35
Les conditions en Γout et Γin sont appelées conditions de sortie libre, bien qu’elles concernent
également l’entrée de fluide (dans le cadre linéaire, il n’y a pas lieu de distinguer l’entrée de
la sortie). Elles expriment l’hypothèse que les deux composantes (amont Γin et aval Γout )
sont placées toutes deux en contact avec un milieu pression fixée, qui équilibre la contrainte
normale.

On peut définir la résistance du domaine :

Definition 2.23. (Résistance d’un domaine (Stokes))

Soit u le champ de vitesse solution de (2.17). Le flux Q est défini comme
Z Z
Q=− u·n = u · n. (2.18)
Γin Γout

Par linéarité des équations de Stokes, ce flux dépend linéairement su saut de pression Pin −
Pout , et la résistance R = R(Ω) entre Γin et Γout est définie par

Pin − Pout = RQ. (2.19)

On peut définir cette résistance de façon varationnelle, comme le minimum de l’énergie

dissipée parmi les vitesses qui réalisent un flux unitaire au travers du domaine :

Proposition 2.24. On définit

Z
K = v ∈ H 1 (Ω)d , v|Γw = 0 , ∇ · v = 0 , v · n = −1 .
Γin

La résistance (définition 2.23) s’exprime alors

Z
R = inf µ |∇u|2 .
v∈K Ω

36
3 Piétons - Micro - ordre 1 en temps - approche granulaire

On s’intéresse ici à la modélisation microscopique (les agents sont individualisés) de mou-

vements de foules d’un type particulier : on considère que chaque personne tend à suivre sa
vitesse souhaitée (vitesse qu’elle souhaiterait avoir si elle était seule), et que la vitesse effective
de la collection d’individus est la vitesse globale la plus proche (au sens des moindres carrés)
de la vitesse souhaitée globale.

3.1 Modèle monodimensionnel

On considère N individus assujettis à se déplacer en ligne droite (comme dans un couloir

étroit). Les positions sont notées q1 , . . ., qN , initialement ordonnées conformément à l’indexa-
tion, et l’on considérera que les personnes sont identifiées à des disques rigides de rayon r (ou
ici à des segment de longueur 2r). On considèrera comme admissibles les configurations de
n o
K = q = (q1 , q2 , . . . , qN ) ∈ RN , qi+1 − qi ≥ 2r , i = 1, . . . , N − 1 .

On suppose qu’une vitesse souhaitée Ui est attachée à chaque individu, et que la vitesse
effective de la population est la plus proche (pour la norme euclidienne) de la vitesse globale
souhaitée, parmi les vitesses admissibles. L’ensemble des vitesses admissibles est défini par 19
n o
Cq = v = (v1 , . . . , vN ) ∈ RN , qi+1 − qi − 2r = 0 =⇒ vi+1 − vi ≥ 0 .

Le problème s’écrit donc

dq
= u , u = PCq U.
dt

Formulation point-selle

Le problème de projection qui définit la vitesse instantanée consiste à minimiser la fonc-

tionnelle
1
J(v) = |v − U |2 , (3.1)
2
sur l’ensemble Cq des configurations admissibles. Cet ensemble est une intersection de demi-
espaces affines, il s’agit donc bien d’un convexe fermé, l’existence et l’unicité d’un minimiseur
est alors immédiate.

Le critère d’admissibilité consiste en la vérification d’une série de contraintes affines. On

peut rassembler ces contraintes sous forme matricelle, en introduisant la matrice B donc une
ligne est du type
(0, . . . , 0, 1, −1, 0, . . . , 0),
où les éléments non nuls correspondent à deux indices successifs i et i + 1, où i est tel que
qi+1 − qi − 2r = 0 (contact entre i et i + 1). On peut ainsi écrire
n o
Cq = v ∈ RN , Bv ≤ 0 . (3.2)
19. On écrit simplement que, lorsque 2 individus sont en contact, la distance ne peut pas diminuer.

37
Proposition 3.1. Le problème consistant à minimiser la fonctionnelle J (définie par (3.5))
sur Cq (défini par (3.2)) est équivalent à la formulation point-selle suivante

u + B ⋆ p = U,
Bu ≤ 0,
(3.3)
p ≥ 0,
Bu · p = 0.

Plus précisément, u étant la solution du problème de minimisationsous contrainte, il existe

un unique p tel que le système ci-dessus soit vérifié. Réciproquement, si le couple (u, p) vérifie
ce système, alors u est bien la solution du problème de minimisation sous contrainte.

Démonstration. Les contraintes étant affines, elles sont automatiquement qualifiées (défini-
tion 23.21, page 244). La proposition 23.22 assure donc l’existence d’un vecteur p de multipli-
cateurs de Lagrange tel que le système (3.6) ci-dessus soit vérifié. Réciproquement, si (u, p)
est solution du système, le théorème 23.29, page 248 assure que ce couple est point-selle du
Lagrangien
1
L(v, q) = |v − U |2 + q · Bv,
2
et donc que u minimise la fonctionnelle quadratique sous la contrainte Bu ≤ 0 (d’après la
proposition 23.28, page 247).

Si l’on considère une rangée de personnes 1, . . ., N saturée, i.e. chaque individu est en
contact avec ses voisins la matrice des contraintes s’écrit
 
1 −1 0 . . . ...

 0 1 −1 . . . ... 

B=
 .. .. 

 0 0 . . ... 
0 0 ... 1 −1

Cette matrice exprime une version discrète de −∂x (opposé de la divergence en dimension
1), et B ⋆ correspond à ∂x (gradient). Dans le cas où toutes les contraintes sont saturées (par
exemple si l’on suppose que les vitesses souhaitées sont décroissantes : les personnes devant
ont tendance à aller moins vite que les personnes derrière), on aura Bu = 0, ce qui implique

BB ⋆ p = BU.

La matrice BB ⋆ , d’ordre N −1, est exactement la matrice du Laplacien discret en dimension 1

avec conditions de Dirichlet aux extrémités (matrice donnée par (A.13), page 257). Le champ
des pressions entre individus apparaı̂t donc comme solution d’un problème de Poisson discret,
avec un terme source qui quantifie, à partir de l’information sur les vitesses souhaitées, la
tendance à violer la contrainte de non chevauchement. On retrouve bien, conformément à
l’intuition, que si BU est positif (vitesse souhaitée décroissante), toutes les pressions seront
non nulles.

Remarque 3.2. Les remarques précedentes (sur le fait que B encode l’opposé d’une di-
vergence discrète) renforcent l’analogie formelle entre le problème (3.6) et le problème de

38
Darcy, telle qu’elle apparaı̂t pour modéliser les écoulements en milieux poreux (équation (2.6),
page 31, ou sous forme plus abstraite dans le cadre des réseaux résistifs (équation (4.1),
page 45).
Remarque 3.3. Cette formulation permet de comprendre, dans un contexte très simplifié,
les phénomènes d’accumulation de pression au sein d’une foule présentant des tendances
concentrantes (ce qui se traduit ici par une divergence de la vitesse discrète négative, i.e. BU
localement positif ). Si l’on considère par exemple le cas de N/2 personnes souhaitant aller vers
la droite, et N/2 personnes, sur leur droite, souhaitant aller vers la gauche, BU est la version
discrète d’une masse de Dirac au point de contact entre les deux populations, et le champ de
pression est de type affine par morceaux (fonction chapeau), avec une pression maximale au
point de jonction. Toute choses égales par ailleurs, la pression maximale tend vers +∞ quand
le nombre d’individu tend vers +∞, dans ce contexte de “mêlée” monodimensionnelle. Notons
aussi que le le caractère sphère dure du modèle considéré conduit à des effets non locaux,
avec propagation de l’information à vitesse infinie au sein du réseau de personnes. Dans
l’exemple ci-dessus, le chagement de vitesse souhaitée d’un individu particulier va changer
instantanément les vitesses réelles de tous les individus.

3.2 Modèle en dimension 2 (disques rigides)

On représente comme précédemment les individus par des disques de rayon r, on introduit
le vecteurs des positions :
q = (q1 , q2 , . . . , qN ) ∈ R2N .
L’ensemble des configurations admissibles est défini par
n o
K = q ∈ R2N , Dij = |qj − qi | − 2r ≥ 0 ∀i 6= j .

On se donne comme une collection de vitesses souhaitées

U = (U1 , . . . , UN ).
L’hypothèse la plus simple consiste à supposer que chaque Ui ne dépend que de la position
de l’individu i (qui n’adapte donc pas sa stratégie aux positions de ses voisins), dans ce cas
on aura Ui = U0 (qi ), où U0 est un champ de vitesse commun à tous les individus. On peut
considérer des modèles plus complexes en écrivant plus généralement U = U (q), qui exprime
que la vitesse souhaitée d’un individu dépend de sa propre position, mais aussi potentiellement
des positions des autres individus (possibilité de modéliser des stratégies individuelles).

Notons Gij = ∇Dij (q) le gradient de la fonction distance de i à j. Le cône des vitesses
admissibles associé à une configuration q est alors
Cq = {v , Dij (q) = |qj − qi | − 2r = 0 ⇒ Gij · v ≥ 0} . (3.4)
Noter que Gij ∈ R2N n’a que 4 composantes non nulles, correspondant aux positions des
individus i et j. Le modèle d’évolution exprime simplement le fait que la vitesse effective de
la population est la plus proche au sens des moindres carrés de la vitesse souhaitée :
q̇ = PCq U (q),
où PCq est la projection pour la norme euclidienne sur le convexe fermé Cq , définie de façon
unique (proposition 20.7, page 197) et stable (proposition 20.10).

39
r
r
−eij qi eij
Dij
qj

Figure 3.1 – Notations.

Formulation point-selle

Comme dans la situation précédente, le problème de projection qui définit la vitesse

instantanée consiste à minimiser la fonctionnelle
1
J(v) = |v − U |2 , (3.5)
2
sur l’ensemble Cq des configurations admissibles, qui peut s’écrire sous forme matricielle
n o
Cq = v ∈ RN , Bv ≤ 0 ,

où chaque ligne de la matrice B exprime une contrainte de non chevauchement entre deux
disques en contact dans la configuration courante. Plus précisément, pour 2 entités i et j en
contact, on définit le vecteur unitaire centre à centre (voir figure 3.1)
qj − qi
eij = .
|qj − qi |

Le gradient de la distance entre i et j, vue comme fonction de l’ensemble des degrés de liberté,
s’écrit
Gij = (0, . . . , 0, −eij , 0, . . . , 0, eij , 0, . . . , 0) ∈ R2N .

Proposition 3.4. Le problème consistant à minimiser la fonctionnelle J (définie par (3.5))

sur Cq (défini par (3.4)) est équivalent à la formulation point-selle (3.6), qui peut s’exprimer
sous la forme suivante X
u− pij Gij = U,
i∼j

−Gij · u ≤ 0 ∀i ∼ j, (3.6)
p ≥ 0,
Gij · u > 0 =⇒ pij = 0.

Démonstration. La démonstration est parfaitement analogue à celle de la proposition 3.1.

On s’intéresse maintenant aux propriétés de la matrice BB ⋆ , identifée précédemment à

(l’opposé d’un) opérateur de Laplace discret dans le cas de la dimension 1.

40
j

i k

Figure 3.2 – Stencil non structuré

Figure 3.3 – Réseaux primal (gauche) et dual (droite)

Considérons une configuration q ∈ K (voir figure 3.2), et la matrice associée B, dont

chaque ligne exprime une contrainte du type

−Gij · u ≤ 0,

où Gij est le gradient de la distance Dij = |qj − qi | − ri − rj par rapport à q = (q1 , . . . , qN ).
L’opérateur discret B ⋆ a été identifié dans le cas de la dimension 1 à un gradient discret.
Considérons dans le cas présent une collection p de multiplicateurs de Lagrange. L’opération
−B ⋆ réalise l’action de ces forces d’interaction sur le réseau primal de degré de liberté associés
aux centres des particules. dans le cas d’une configuration structurée, (par exemple réseau
cartésien, ou réseau triangulaire comme représenté sur la figure 3.4) un champ de pression p
uniforme est de gradient discret nul sur les points intérieurs au réseau 20 . Cependant, dans le
cas général, (quand l’arrangement des disques ne présente pas de symétrie particulière), cette
propriété est invalidée. Par exemple dans le cas de la figure 3.2 on vérifiera immédiatement
que la somme des vecteurs unitaires pointant vers l’intérieur de chacun des deux grains en
gras n’est pas nulle. Le cas bidimensionnel non structuré présente une autre particularité.
Considérer le cluster représenté sur la figure 3.4. Le nombre de disques est 14, donc le nombre
20. On retrouve ici la version discrète d’annulation du gradient d’une fonction constante. Plus précisément,
pour comprendre la présence d’une résultante non nulle au bord, on peut penser, dans le cas continu, au gradient
faible d’une fonction caractéristique d’un domaine borné. Son gradient est effectivement nul à l’intérieur, nul à
l’intérieur de l’extérieur, mais il s’identifie globalement à une distribution vectorielle de simple couche supportée
par la frontière de l’ensemble.

41
de degrés de liberté primaux est 28, et le nombre de contacts (nombre de degrés de liberté
duaux) est 29. En conséquence, le noyau de B ⋆ ∈ M29,28 (R) est non trivial : il existe un
champ de pression non identiquement nul (mais nul au bord d’une certaine manière, selon la
remarque ci-dessus), induisant une force non nulle sur les grains 21 . Une conséquence de ces
comportements pathologiques est que l’opérateur discret BB ⋆ , que l’on pourrait être tenté
de considérer comme un Laplacien discret défini sur le graphe dual du réseau de disques
(représenté à droite de la figure 3.3) ne vérifie pas le principe du maximum : il peut exister
des champs de pression p tels que BB ⋆ ≥ 0 (i.e. les pressions contribuent à l’augmentation
de toutes les distances entre centre), alors que certaines composantes de p sont strictement
négatives.

Figure 3.4 – Situation hyperstatique (28 degrés de liberté pour 29 contraintes)

L’opérateur discret BB ⋆ peut se décrire comme suit : considérant un champ de pressions

p = (pkℓ ), où (k, ℓ) parcours l’ensemble des contacts actifs, le vecteur BB ⋆ p est un vecteur
qui vit lui même sur le graphe dual (comme les pressions), et la valeur correspondant aux
disques i et j est X
pkℓ Gij · Gkℓ .
(k,ℓ)∼(i,j)

Par analogie avec la méthode des différences finies, il est tentant de parler de stencil associé
à cet opérateur. Ce stencil est représenté sur la figure 3.2. La non vérification du principe
du maximum est due au fait que, lorsque l’on considère 3 particules i, j, et k, il peut arriver
que l’on ait
eij · ekj > 0,
où eij est le vecteur unitaire (qj − qi )/ | qj − qi |. Des exemples de tels vecteurs sont repré-
sentés sur la figure 3.2 en gras. Cette propriété est générique pour des collections de disques
congestionnées. Certains éléments extra diagonaux de la matrice BB ⋆ sont alors strictement
positifs, et ainsi la matrice BB ⋆ n’est pas une M -matrice 22 . Le réseau résisif associé à cet
21. On peut illustrer cette propriété de la façon suivante : si l’on considère par exemple deux disques rigides,
statiques, en contact (éventuellement collés entre eux) posés sur un support parfaitement glissant, on sait
que la force d’interaction entre eux est nulle. Ça n’est plus vrai pour la configuration de la figure 3.4 : il est
possible que les forces d’interactions soient non nulles. On peut en revanche montrer (grâce au théorème de
Hahn Banach) que ces forces ne peuvent pas être toutes positives
22. Une M -matrice est une matrice carrée dont tous les mineurs principaux sont strictement positifs, et
dont tous les éléments extra-diagonaux sont négatifs (au sens large). Tous les éléments de l’inverse d’une telle
matrice sont positifs, de telle sorte que Ap = b, avec b ≥ 0, implique p ≥ 0.

42
opérateur possède donc des résistances négatives : on retrouve la situation de certaines ma-
trices résultant de la discrétisation du Laplacien par éléments fini, sur un maillage contenant
des triangles amblygone 23 (voir section 17.6, page 176).

23. Terme désignant un triangle qui a un angle obtus, peu utilisé depuis quelques siècles, mais quand même
plus élégant que obtusangle.

43
4 Réseaux résistifs

On s’intéresse ici à la propagation d’une quantité au travers d’un réseau, en supposant

que le flux au travers de chaque arête est proportionnel à la différence de potentiels définis à
ses extrémités (sommets, ou points de bifurcation du réseau).

Dans le cas de l’écoulement d’un fluide visqueux, c’est la pression aux nœuds qui jouera le
rôle du potentiel, dont la différence induit un flux selon la loi de Poiseuille (équation (2.15),
page 35). Pour un réseau électrique, c’est le potentiel électrique aux extrémités de chaque
arête qui induira le passage d’un courant électrique quantifié par son intensité. On peut aussi
imaginer des compartiments séparés par des interfaces faiblement perméables à une certaine
substance qui diffuse. Dans l’hypothèse de pressions partielles uniformes dans chaque com-
partiment, et de flux au travers des interface proportionnels aux sauts de pression partielle,
on aura aussi une représentation naturelle du phénomène de diffusion sous forme de réseau
résistif, où les pressions partielles jouent le rôle du potentiel électrique.

Dans tous les cas, on écrira le bilan de matière au sein du réseau (loi de Kirchhof, ou loi
des nœuds). Nous ferons par la suite la distinction entre des points internes, en lesquels la loi
de Krichhof s’applique, et les autres, au travers desquels le réseau est susceptible d’échanger
de la matière avec l’extérieur.

4.1 Cadre formel, problème de Laplace discret

Definition 4.1. (Réseau résistif )

Un réseau résistif fini est défini comme un triplet N = (V, E, r), où V est un ensemble fini
de côté (Vertices), E ⊂ V × V un ensemble d’arrêtes (Edges) supposé symétrique 24 :
(x, y) ∈ E =⇒ (y, x) ∈ E,
et r ∈ RE+ est le champ des résistances, défini sur E (avec r(x, y) = r(y, x) pour tout
(x, y) ∈ E). On notera N = (V, E, r, o, Γ) un réseau dans lequel on distingue une racine
o parmi les sommets, et une frontière Γ, sous-ensemble non vide de V \ {o}. L’ensemble
V \ ({o} ∪ Γ) des sommets intérieurs est noté V̊ , il correspond aux sommets (ou nœuds) en
lesquels on imposera la conservation de la matière, alors que de la matière peut entrer ou
sortir du domaine par les points de Γ, ou par la racine o.

Un champ de pressions sur le réseau est une collection de réels associés aux sommets
(p ∈ RV ), et les flux sont définis sur les arêtes (u ∈ RE ). Les flux sont antisymétriques :
u(x, y) = −u(y, x).

Pour une arête e = (x, y) du réseau, la loi de Poiseuille s’écrit

p(x) − p(y) = r(x, y)u(x, y) = r(e)u(e).
Si l’on note maintenant j(x) le flux de matière injectée dans le réseau au travers du nœud x
la loi de Kirchhof (ou loi des nœuds) s’écrit
X
u(x, y) = j(x),
y∼x

24. On considèrera cependant que, dans les sommes sur l’ensemble des arêtes, on ne compte qu’une fois
chaque paire de points connectés.

44
où y ∼ x signifie que y est relié à x (i.e. (x, y) ∈ E).

On note d l’opérateur de divergence discrète (il s’agit en fait de l’opposé formel de la

divergence)
d : u ∈ RE 7−→ du ∈ RV
X
du(x) =− u(x, y).
y∼x

Nous nous intéresserons dans la suite à des flux conservatifs, i.e. tels que du(x) = 0 pour
tout sommet x dans V̊ = V \ ({o} ∪ Γ). On défini l’adjoint formel 25 d⋆ (équivalent discret de
l’opérateur de gradient) comme
d : p ∈ RV 7−→ d⋆ p ∈ RE
d⋆ p(e) = p(y) − p(x).
Remarque 4.2. On établit immédiatement un équivalent discret du théorème de la divergence
Z Z
∇·v = v · n.
Ω ∂Ω
On a en effet, pour tout e = (x, y) ∈ E, u(x, y) + u(y, x) = 0, d’où, en sommant sur toutes
les arêtes, et en écrivant la somme sur les sommets :
X
du(x) = 0,
x
qui exprime simplement le bilan de matière sur l’ensemble du réseau. On peut l’écrire
X X
du(x) + du(x) = 0.
x∈V̊ x∈{o}∪Γ

Le premier terme est le pendant discret de (l’opposé de) l’intégrale de la divergence dans le
domaine, et le second terme est la somme pour tous les points du bord des flux qui sortent
par ces points, i.e. l’équivalent discret de l’intégrale sur la frontière de u · n.

L’écriture de la loi de Poiseuille en chaque arête, et de la loi de Kirchhoff’s en chaque

nœud conduit à un problème de type Darcy

(
u + cd⋆ p = 0 sur E
(4.1)
du = 0 sur V̊ .
où c (conductance) est 1/r, i.e. c(e) = 1/r(e) pour tout e ∈ E. On s’intéresse au problème
consistant à calculer les pressions et les flux sur l’ensemble du réseau, quand les pressions sont
prescrites en o et sur Γ. Après élimination de la vitesse, on obtient un problème de Poisson
discret pour la pression, avec conditions de Dirichlet :


 dcd⋆ p(x) = 0 ∀x ∈ V̊ ,

p(o) = 0 (4.2)



p(x) = P (x) ∀x ∈ Γ,
où P est une collection de pressions prescrites sur la frontière Γ.
25. On a X XX X
q(x)dv(x) = q(x)v(y, x) = v(e) (q(y) − q(x)) .
| {z }
x x y e
d⋆ q(e)

45
Proposition 4.3. On suppose le réseau N connexe. Le problème (4.2) est alors bien posé.

Démonstration. On définit H comme l’ensemble des champs de RV nuls en o, et H0 le sous-

espace des champs nuls sur Γ. Comme dans le cas continu (début de la section 17), on
peut écrire une formulation variationnelle en considérant q ∈ H0 , en multipliant la première
équation de (4.2) par q(x), et en sommant sur les x, pour obtenir (en utilisant q(y) = 0 pour
tout y ∈ H0 )
X X X
q(x) c(x, y)(p(x) − p(y)) = c(e)(p(y) − p(x))(q(y) − q(x)) = 0
x y∼x e

On reconnait les conditions d’optimalité pour la fonctionnelle

1X
q 7−→ J(q) = a(q, q) = c(e)(q(y) − q(x))2 ,
2 e

minimisée sur l’espace affine HP ⊂ H des champs qui valent P sur Γ. Cette fonctionnelle J
est une forme quadratique définie positive dès que le réseau est connexe, car les champs qui
annulent J sont constants sur le réseau, et nuls en o.

On remarquera que X
a(p, p) = c(e) |p(y) − p(x)|2 ,
e

est le taux d’énergie effectivement dissipée au sein du réseau : la solution de (4.2) est, parmi
les champs de pression qui vérifient les conditions aux limites, celui qui induit une puissance
dissipée minimale.

Remarque 4.4. Noter que, dans le problème d’optimisation intervenant dans la preuve pré-
cédente, on n’impose pas la loi des nœuds sur les flux associés à la pression p. La conservation
au niveau des points interieurs est conséquence du caractère minimisant de p.

Definition 4.5. (Résistance équivalent d’un réseau)

Soit N = (V, E, r, o, Γ) un réseau (selon la Def. 4.1). On impose un champ de pression
uniforme P ≡ 1 sur Γ. On note p la solution du problème de Dirichlet (4.2), et par u = −cd⋆ p
le flux associé. Le flux global Q est obtenu en sommant les flux au travers de Γ, ou de façon
équivalent en considérant le flux qui sort par la racine o :
X
Q=− u(o, x) = du(o). (4.3)
x∼o

La résistance équivalente de N est définie comme R(N ) = 1/Q = 1/du(o). Par linéarité, le
flux associé à une pression uniforme P sur Γ vérifie P − 0 = RQ.

Proposition 4.6. (Loi de Joule pour un réseau)

Soit N = (V, E, r, o, Γ) un réseau, et p la solution du problème (4.2) associée à une pression
uniforme P . Le taux d’énergie dissipée dans le réseau s’écrit

P = RQ2 ,

où Q = du(o) est le flux de Γ à o.

46
Démonstration. C’est une conséquence de la formule de Green discrète (sommation par par-
ties). L’énergie dissipée s’écrit
X
P = c(x, y)(p(x) − p(y))2
E
X X X X
= p(x) c(x, y)(p(x) − p(y)) + p(x) c(x, y)(p(x) − p(y)) (4.4)
x∈V̊ y∼x x∈{o}∪Γ y∼x
| {z }
=dcd⋆ p(x)=0
X X
= P dcd⋆ p(x) = −P du(x) = P du(o) = Rdu(o)2 ,
x∈Γ x∈Γ

ce qui termine la preuve.

Remarque 4.7. Précisons les similarités et différences entre ce cadre discret et le cadre
continu (équations de Darcy (2.6), page 31). La formle de Green utilisée précédemment
X X X
c(x, y)(p(x) − p(y))(q(x) − q(y)) = q(x) c(x, y)(p(x) − p(y)),
E x∈V y∼x

est analogue à la même formule dans un domain continu sans bord (par exemple pour l’espace
entier, ou un domaine périodique). De fait, la notion de frontière pour un réseau est arbitraire,
et nous n’avons d’ailleurs fait aucune hypothèse sur les sommets de Γ. En particulier, il
peuvent être situés au sein même du réseau, avoir un nombre arbitraire de voisins, etc . . .Nous
avons obtenu une sorte de terme de bord en décomposant l’ensemble des sommets entre V̊
et {o} ∪ Γ, et la formule obtenue n’a pas véritablement d’équivalent continu. En effet, la
transposition du cadre discret conduit à considérer le problème
−∆p = 0 in Ω \ X
où Ω est un domaine sans frontière, et X une collection finie (xi ) de points de Ω, avec une
valeur de pressions pi prescrite en xi , de telle sorte que
X
−∆p = ui δxi
i

où ui est le flux rentrant e, xi . On a alors formellement

Z X
|∇p|2 = ui pi ,
Ω i

qui serait l’équivalent discret de (4.4). Le problème est que cette expression n’a pas de sens,
car les points ont une capacité nulle en dimension d ≥ 2 (voir exercice 22.1, page 223).

Pour obtenir
R
une formule de Green avec termes de bords qui contiendraient un équivalent
discret de Γ ∂p/∂n), on doit introduire un ensemble d’ “arêtes frontières” E Γ , i.e. l’ensemble
des Γ arêtes qui contiennent un point de Γ On a alors
X X X
c(x, y)(p(x) − p(y))(q(x) − q(y)) = q(x) c(x, y)(p(x) − p(y))
E x∈V̊ y∼x
| {z }
=dcd⋆ p(x)
X X
+ q(x) c(x, y)(p(x) − p(y))
x∈{o}∪Γ y∼x
X X
= q(x)dcd⋆ p(x) − c(x, y)q(x)d⋆ p(e),
x∈V̊ e=(x,y)∈E Γ

47
qui est maintenant l’équivalent discret de
Z Z Z
∂p
k∇p · ∇q = − q∇ · k∇p + k .
Ω Ω Γ ∂n

4.2 Squelette métrique associé à un réseau résistif

Dans le contexte de circulation de flux étudié dans la section précédente, il est naturel
d’associer à un réseau N = (V, E, r) l’espace métrique défini de la façon suivante. En premier
lieu, on métrise V (relativement à E et r) en considérant que la longueur l’une arête e =
(x, y) ∈ E (donc la distance de x à y) est r(e). Pour deux points du réseaux non directement
connectés, on définit la distance entre eux comme la longueur du plus court chemin qui les
relie. On peut donner un peu de “corps” à cet espace métrique en considérant maintenant
chaque arête (x, y) comme un segment plein, ensemble de points définis de façon abstraite 26
comme
[e] = [x, y] = {(1 − θ)x + θy , θ ∈ [0, 1]} .
On dira que la distance d’un tel point à x (resp. y) est θ r (resp. (1 − θ)r). Ce choix définit
de façon immédiate une métrique sur la réunion des segments. On notera N le nouvel espace
métrique ainsi défini.

Si l’on considère maintenant un champ de pression de RV , on peut définir de façon cano-

nique un champ de pression p sur N affine par morceaux (sur chaque arête), et un champ de
flux u constant par morceaux. Si u = −cd⋆ p (sur N ), on a immédiatement, sur chaque arête
1
u(s) ≡ u(e) = − (p(y) − p(x)) = −∂s p.
r(e)
Avec des notations évidentes, on peut écrire le taux d’énergie dissipée sous une forme intégrale
X XZ XZ 2
Z
2
r(e)u(e) = 2
u(e) ds = |∂s p| ds = |∂s p|2 ds.
e e e e e N

On retrouve de cette manière l’expression classique de la semie-norme de Sobolev. On prendra

garde au fait que l’abscisse curviligne (tout comme la variable d’espace qui intervient dans la
dérivée) est homogène ici à une résistance.

4.3 Cadre stochastique

Soit un réseau N = (V, E, r) (voir définition 4.1), on considère la marche aléatoire sur V
associée aux probabilités de transitions πxy , définies par

c(x, y) X
πxy = , C(x) = c(x, y) , (4.5)
C(x) y∼x

26. Cette démarche peut en effet être menée dans un cadre assez abstrait : chaque segment de notre espace
métrique sera de fait isométrique à un segment de longueur r(e) dans Rd , mais il n’est pas nécessaire de plonger
le réseau dans l’espace euclidien pour définir le nouvel espace, pour lequel les points de bifurcation restent
des points abstraits, indépendamment de toute structure affine. On pourrait d’ailleurs décider de dédoubler
certaines arêtes, qui se retrouveraient confondues dans une réprésentation plate et rectiligne du réseau, mais
en restant différente pour N (la distance entre leurs milieux serait par exemple r).

48
où c(x, y) = 1/r(x, y) est la conductance de l’arête (x, y). La chaı̂ne de Markov associée est
irréductible dès que le réseau est connexe, ce que nous supposerons ici. Elle admet donc une
unique mesure stationnaire (voir théorème A.8, page 257), que l’on identifie immédiatement
comme C(x) (on normalise les résistances de départ de façon à ce que C soit effectivement
de masse totale égale à 1).

On considère maintenant un réseau N = (V, E, r, o, Γ) et la donnée d’un champ de pres-

sions (P (x))x∈Γ sur la frontière, et P (o) = 0. On définit p ∈ RV comme suit : considérant un
sommet x ∈ V , on note i la variable aléatoire correspondant à l’instant où la marche aléatoire
issue de x atteint Γ ou o :

X0 = x , X1 , . . . , Xi ∈ Γ ∪ {o} ,

avec Xj ∈/ Γ ∪ {o} pour 0 < j < i. La valeur de P en Xi (qui est nulle si Xi = o) est
une variable aléatoire, dont on note p(x) l’espérance. On peut établir le lien suivant avec le
problème de Dirichlet (4.2).

Proposition 4.8. Le champ p ∈ RV défini précédemment est la solution du problème (4.2).

Démonstration. Remarquons en premier lieu que les conditions de Dirichlet sont automa-
tiquement vérifiées par la probabilité p (quand x ∈ Γ ∪ {o}, l’indice i est 0, et la variable
aléatoire considérée est en fait déterministe). Considérons maintenant x ∈ V̊ . On a
X
p(x) = πxy p(y),
y∼x

qui peut s’écrire (d’après (4.5))

X
C(x)p(x) − c(x, y)p(y) = 0,
y∼x

de telle sorte que p est harmonique. Il s’agit donc nécessairement de l’unique solution du
problème de Dirichlet (4.2).

Remarque 4.9. La matrice de transition P associée à la marche aléatoire définie précédem-

ment est reliée au Laplacien discret de la façon suivante :

c(x, y)
P = (pxy )x,y∈V , pxy = for (x, y) ∈ E,
C(x)

avec pxy = 0 quand x et y ne sont pas connectés (i.e. (x, y) ∈

/ E). En notant C la matrice
diagonale dont les entrées sont les C(x), on a la relation

−∆ = dcd⋆ = C (Id −P ) .

Cette propriété peut être utilisée pour obtenir une expression stochastique de la résistance
entre o et Γ. On considère le cas P ≡ 1. Le champ p défini précédemment est alors la
probabilité de fuite par Γ : pour x ∈ V , p(x) est la probabilité que la marche aléatoire issue
de x atteigne Γ avant o.

49
Proposition 4.10. On considère une marche aléatoire sur N = (V, E, r, o, Γ) issue de o,
avec des probabilités de transition données par (4.5). On a
1
= C(o) pesc , (4.6)
R
où pesc est la probabilité que la marche atteigne Γ avant de revenir en o, et R est la résistance
du réseau entre o et Γ (voir Def. 4.5).

Démonstration. Soit p la solution du problème (4.2), avec P ≡ 1 sur Γ. Du fait du choix

particulier de P , pour tout x ∈ V , p(x) (défini précédemment comme une espérance), est la
probabilité, partant de x, d’atteindre Γ avant o Par définition 4.5, la résistance R est 1/d(o).
Par ailleurs on a
X 1 X 1 1 1
pesc = πox p(x) = c(o, x)(p(x) − p(o)) = du(o) = ,
x∼o C(o) x∼o C(o) C(o) R
qui donne le résultat.

On considère la marche aléatoire sur un réseau N = (V, E, r), dont les probabilités de
transition sont définies par (4.5). Partant d’une loi de probabilité p0 sur la position initiale,
on note pn la loi que suit la position de la particule à l’étape n, définie par
X
pn+1 (x) = πyx pn (y).
y∼x

Proposition 4.11. Pour toute fonction ϕ de R+ dans R convexe, la fonctionnelle

X p(x)
S : p 7−→ ϕ C(x)
x∈V
C(x)

est décroissante le long de la trajectoire discrète, i.e. S(pn+1 ) ≤ S(pn ).

Démonstration. On a !
n+1
X pn+1 (x)
S(p )= ϕ C(x).
x∈V
C(x)
Chaque terme de la somme s’écrit

! !
pn+1 (x) X c(x, y) pn (y) X c(x, y) pn (y)
ϕ C(x) = ϕ C(x) ≤ ϕ C(x)
C(x) y∼x C(x) C(y) y∼x C(x) C(y)
car ϕ est convexe.

On a donc finalement
X pn (y) X X pn (y)
n+1
XX pn (y)
S(p )≤ c(x, y)ϕ = c(x, y) = C(y),
x∈V y∼x C(y) y C(y) x∼y y C(y)
ce qui termine la preuve.
Corollaire 4.12. En prenant ϕ(a) = a log a, on obtient en particulier la décroissance de l’en-
tropie relative (ou divergence de Kullback-Leibler) de p relativement à la mesure stationnaire
C :
X ρ(x) ρ(x) X ρ(x)
S(p) = log C(x) = ρ(x) log .
x∈V
C(x) C(x) x∈V
C(x)

50
Plan de transport

Etant donnée une distribution de probabilité p0 définie sur les sommets d’un réseau résistif
N = (V, E, r), ce qui précède revient à définir un plan de transport vers une nouvelle mesure
discrète p1 . En effet, avec des notations naturelles, le plan γ ∈ RV+×V défini par

c(y, x) X
γyx = πyx p0 (y) , πyx = , C(y) = c(y, x) , c(x, y) = r(x, y)−1
C(y) x

transporte p0 vers p1 (on a γ = (γyx ) ∈ Πp0 ,p1 avec les notations du début de la section 15,
page 118).

Équation de la chaleur sur un réseau

On peut établir une équation d’évolution sur le réseau, en définissant de façon différente
la marche aléatoire : on considère que, pour τ ∈]0, 1], on reste sur place avec une probabilité
1 − τ , et l’on se déplace avec probabilité τ , le déplacement se fait alors selon la loi définie
par (4.5). On note pnτ la loi d’un point évoluant suivant ces principes, on a
X
pn+1
τ (x) = (1 − τ )pnτ (x) + τ πyx pnτ (y),
y∼x

d’où
pn+1
τ (x) − pnτ (x) X
= −pnτ (x) + πyx pnτ (y),
τ y∼x

soit, en faisant tendre formellement le pas de temps τ vers 0,

dp X
(x) = −p(x) + πyx p(y) = −(Id −t K)p.
dt y∼x

On obtient une structure plus familière en considérant la variable ρ(x) exprimant la densité
de p relativement à la mesure stationnaire C (cette mesure stationnaire est de façon évidente
la même pour la marche aléatoire initiale, et pour cette nouvelle version alourdie), i.e. ρ(x) =
p(x)/C(x). En divisant l’équation précédente par C(x) on obtient

dρ X
(x) + ρ(x) − π(x, y)ρ(y),
dt y∼x

qui peut s’écrire matriciellement

dρ
+ (Id −K)ρ = 0. (4.7)
dt
Noter que l’on retrouve une matrice symétrique en multipliant l’équation précédente par la
matrice diagonale C associée canoniquement à la mesure stationnaire.

51
4.4 Modèle de flânage

On cherche à modéliser le mouvement d’un individu, ou d’une collection d’individus,

dans un lieu d’exposition. On considère le lieu constitué de travées, sur les côtés desquels
se trouvent des stands, chaque travée reliant deux nœuds. Chaque nœud corresponds dans
l’évolution du promeneur à un point de bifurcation : il va poursuivre son cheminement en
emprutant l’une des travées accessibles. On associe à un tel lieu d’exposition un graphe non
orienté (V, E), où V est l’ensemble des sommets (nœuds du réseau), et E l’ensemble des côtés
(travées), sous ensemble symétrique de V × V .

Évolution pilotée par l’intérêt. On considère chaque travée affectée d’un score, qui quan-
tifie l’intérêt du promeneur pour la travée en question. On suppose que le promeneur arrivé au
noeud x est capable d’estimer, par vision directe, le score associé aux différentes arêtes issues
de x. On définit une marche aléatoire sur le réseau en affectant aux différentes possibilités
des probabilités proportionnelles au score, ce qui conduit à la définir la matrice de transition
suivante (on écrit a ∼ b si (a, b) ∈ E)

s(x, y)
X si y∼x
s(x, z)
K(x, y) = z∼x

0 si (x, y) ∈
/E

On se retrouve donc dans le cadre de la section 4.3, où les conductances sont ici remplacées par
des scores, mesurant l’intérêt relatif des différentes travées pour le flâneur. Ce modèle est de
façon évidente loin d’être satisfaisant, en particulier le flâneur ainsi modélisé est d’une certaine
manière sans mémoire : il est susceptible de revenir sur ces pas, pour revisiter la travée qu’il
vient de quitter. Nous décrivons ci-dessous quelques extensions possibles du modèle, de façon
à le rendre plus réaliste (au prix d’un éloignement du cadre formel décrit dans la section 4.3).

Extensions.

Le parcours effectif d’une personne dans un tel contexte peut difficilement se concevoir
comme un processus purement Markovien, tel que décrit ci-dessus. Il est raisonnable d’intégrer
des ingrédients supplémentaires dans le modèle d’évolution, notamment :

1. La probabilité de retourner sur ses pas en arrivant à un point de bifurcation, sauf

situation particulière, est très faible.
2. La trajectoire d’un individu a une certain persistence : lorsque l’on arrive à un point
de bifurcation, il y a une tendance à continuer tout droit. On peut penser que cette
tendance s’amenuise lorsque le nombre de pas dans la même direction devient grand.
3. Les travées qui ont déjà été visitées sont moins attractives.

Une heuristique simple pour gérer ces différents points est la suivante :

On se donne une matrice de scores à l’instant n : S n = (s(x, y)) ∈ RE + . Partant d’un point
x, on récupère les scores de la ligne correspondant à x : (s(x, y)). Venant de z, on multiplie le
score s(x, z) par un facteur d’inhibition fback ∈ [0, 1[. On note ns le nombre de pas effectués

52
sans avoir changé de direction. On prend en compte la persistence en multipliant le score de
(x, ys ) par un facteur du type
fs = 1 + k exp (−ns /Ns ) ,
où Ns est une longueur typique de trajectoire rectiligne avant changement de direction. On
calcule ensuite les probabilités de transition en normalisant les scores. Si le sommet suivant
est y, on multiplie le score s(x, y) par un facteur d’inhibition fm ∈ [0, 1[ qui prend en compte
la réduction de l’intérêt que l’on accorde à une travée déjà visitée.

4.5 Plongement dans l’espace euclidien

On considère un réseau N = (V, E, Γ) (la racine n’est plus ici distinguée comme un point
particulier de la frontière) plongé dans l’espace euclidien Rd , c’est à dire que chaque sommet
de V est associé à un point x de Rd , et les côtés sont associés aux sommets entre ces points. On
suppose que la correspondance Sommet 7→ Point est injective, et on suppose que les segments
ne se croisent pas 27 . Nous simplifierons les notations en ne faisant pas de distinction entre les
sommets du réseau abstrait et les points de Rd associés. On considère une collection de flux
u ∈ RE supposée obéir à la loi de Kirchhof sur les sommets intérieurs. On note ~e la mesure
vectorielle associée à l’arête e. Plus précisément, pour tout
y−x
e = (x, y) ∈ Rd × Rd , ne =
|y − x|
on définit la distribution vectorielle (ou mesure vectorielle) ~e comme
Z
ϕ ∈ Cc∞ (Rd )d 7−→ h~e , ϕi = ϕ · n.
e
Proposition 4.13. La mesure vectorielle G définie par
X
G= u(e) ~e (4.8)
e∈E

vérifie l’équation de conservation (dans D ′ )

X
∇·G = − du(x)δx ,
x∈Γ

où la divergence d’une mesure vectorielle est la distribution d’ordre 1 définie par
h∇ · G , ϕi = −hG , ∇ϕi ∀ϕ ∈ D(Rd ).

Démonstration. Pour tout ϕ ∈ Cc∞ , on a

X X Z y
h∇ · G , ϕi = −hG , ∇ϕi = − u(e)h~e , ∇ϕi = − u(e) ne · ∇ϕ
e∈E e∈E x

X Z y X X X
=− u(e) ∂ϕ/∂s ds = − u(e) (ϕ(y) − ϕ(x)) = ϕ(x) u(x, y)
e∈E x e∈E x∈V y∼x
X X
=− du(x)ϕ(x) = − du(x)hδx , ϕi,
x∈V x∈Γ
d’où la propriété annoncée.
27. Si d = 2, le graphe est alors qualifiée de planaire.

53
Remarque 4.14. Dans le cas où Γ se décompose en Γ0 (entrée) et Γ1 (sortie), qui portent
respectivement les mesures (positives, de même masse) µ0 et µ1 , considérées comme des flux,
et auxquelles on associe les mesures atomiques (on garde la même notation)
X X
µ0 = µ0 (x)δx , µ1 = µ1 (x)δx ,
x∈Γ0 x∈Γ1

on peut alors écrire

∇ · G = µ0 − µ1 .

4.6 Premier pas vers le transport branché

Le cadre introduit dans la section précédente permet de formaliser une classe très générale
de problèmes, qui n’ont été considérés que récemment, et qui suscitent de fait un grand
nombre de questions encore ouvertes 28 . On considère deux mesures atomiques µ0 et µ1
sur Rd , de supports finis (et disjoints, pour simplifier), de même masse totale (par exemple
1), et l’on note Λµ0 ,µ1 l’ensemble des réseaux (V, E, Γ) plongés dans Rd (les sommets sont
identifiés à des points de Rd , et les arêtes à des segments 29 reliant ces points), tels que
supp(µ0 ) ∪ supp(µ1 ) = Γ. Pour tout N ∈ Λµ0 ,µ1 , tout champ de flux u ∈ RE , on note Gu
la mesure vectorielle associée à u (on considérera que la notation u encode non seulement le
champ des valeurs des flux, mais aussi le réseau N sur lequel ils sont définis) selon (4.8) (voir
section 4.5). On dira que u est admissible, ce qu’on écrira u ∈ Πµ0 ,µ1 , si

∇ · Gu = µ0 − µ1 , (4.9)

au sens de la proposition 4.13.

Remarque 4.15. Il est tentant de dire que u transporte µ0 , vers µ1 . On prendra cependant
garde au fait que ce transport est très différent de celui définit dans le cadre du transport
optimal (voir section 15). On ne se préoccupe notamment pas ici de savoir “qui va où” : si
l’on considère par exemple une bifurcation de mélange (deux arêtes rentrantes 1 et 2 et une
arête sortante), suivie (sur l’arête sortante) par une bifurcation de séparation (deux arêtes
sortantes 1′ et 2′ ), la seule connaissance de u ne donne pas d’information sur la proportion
dans 1′ de matière venant de 1. On verra cependant que, la recherche de réseaux optimaux
dans un sens assez général aura tendance à faire disparaı̂tre cette ambiguité (le réseau évoqué
précédemment comporte un cycle, alors que les réseaux optimaux n’en contiendront pas).
Par ailleurs, µ0 et µ1 doivent ici être vus comme des flux (quantité de matière par unité de
temps) plus que comme des masses statiques. On peut évidemment passer de l’un à l’autre en
intégrant l’équation (4.9) sur un temps unitaire, mais le problème se pose bien ici nativement
en termes de flux.

Dans le contexte précédemment défini, on définit le coût associé à u de la façon suivante

X
u ∈ Πµ,ν 7−→ C(u) = |u(e)|α |e| ,
e

28. Pour une présentation générale du domaine, voir par exemple :

M. Bernot, V. Caselles, J.-M. Morel, Optimal Transportation Networks, Lecture Notes in Mathematics 1955,
Springer Verlag Berlin Heidelberg 2009.
29. En toute généralité, il serait naturel d’identifier les arêtes à des courbes rectifiables, mais on se limitera
ici à des segments.

54
où α est un nombre positif ou nul, et |e| est la longueur de l’arête e.

Le contexte physique d’intensité électrique ou d’écoulement fluide suggère un choix α =

2, qui correspondrait à la situation suivante : on considère des sources électriques, et des
puits, il s’agit de faire passer une intensité prescrite entre ces puits et ces sources au travers
d’un réseau de fils électrique de caractéristique donnée (résistivité prescrite, donc résistance
proportionnelle à la longueur), en minimisant la puissance dissipée. Ce problème est dégénéré,
comme on peut s’en convaincre en considérant le cas de deux masses de Dirac. En reliant les
électrodes ponctuelles par des fils 30 en nombre croissant (en parallèle), on fait diminuer la
résistance, et donc la puissance dissipée, l’infimum est ainsi nul, et n’est pas atteint 31 . Le
problème pour α = 2 (on plus généralement α > 1), peut devenir consistant si l’on rajoute
des contraintes, par exemple sur la longueur totale du fil, ou si l’on interdit les cycles, mais
cette démarche n’a pas été poursuivie à notre connaissance.

Les problèmes de transport branché tels qu’on les conçoit généralement portent sur le
cas d’une puissance inférieure à 1, qui exprime une diminution du coût de transport par
mutualisation de l’usage des segments (on peut penser à un réseau routier). Le cas α = 0
correspond au problème dit de Steiner, qui consiste à trouver un réseau reliant tous les
points, en minimisant la longueur totale du réseau. Le cas α = 1 correspond essentiellement
au problème de Monge, pour le coût associé à la distance euclidienne (qui correspond à la
distance W1 ). Le cas général α ∈]0, 1[ correspond à un domaine des mathématiques à part
entière 32 .

4.7 L’arbre bronchique humain comme réseau résistif

Comme modèle simplifié d’arbre bronchique, on considère un arbre régulier à N géné-

rations : une première arête (qui correspond à la trachée) se sépare en deux branches-filles,
et ainsi de suite pour chacune des nouvelles branches, jusqu’à atteindre la génération N ned.
la première correspond à la génération 0, de telle sorte que l’arbre comporte en fait N + 1
niveaux, et 2N feuilles. À titre d’ullistration, la figure 4.1 (gauche) représente un arbre à 4
generations. On suppose ici l’arbre symétrique, ce qui signifie que la résistance est uniforme
sur chaque génération.

La résistance globale de la génération k est r n = rn /2n , de telle sorte que la résistance

globale vaut
N N
X X rn
R= rn = . (4.10)
n=0 n=0
2n

Plus précisément, si l’on considère que les bronches d’une même génération n ont la même
30. Le fait que les fils, selon nos hypothèses, doivent être rectilignes, ne pose pas de problème, on peut
construire un faisceau de fils distincts, en considérant des trajets affines par morceau.
31. On peut faire un lien avec le fait que la diffusion dans un domaine continu, par exemple d’une source
ponctuelle à un puit ponctuel, tend à uniformiser les flux, ce qui correspond d’une certaine manière à une
infinité de fils conducteurs en parallèle.
32. Voir : M. Bernot, V. Caselles, J.-M. Morel, Optimal Transportation Networks, Models and Theory,
Lecture Notes in Mathematics.

55
r0 r 0 = r0

r1 r1 r 1 = r1 /2

r2 r 2 = r2 /4

r3 r 3 = r3 /8

r4 r 4 = r4 /16

Figure 4.1 – Regular dyadic tree

longueur ℓn et le même diamètre dn , la loi de Poiseuille (2.16), précisé l’expression (4.10) :

N
X 1 ℓn
R=C . (4.11)
n=0
2n d4n

Si l’on suppose que l’arbre est de plus géométrique, i.e. les dimensions des bronches évoluent
géométriquement au fil des générations (paramètre d’homothétie λ d’une génération à la
suivante), on a
N
X 1 1
R = r0 . (4.12)
k=0
2k λ3k

Remarque 4.16. Remarquer que cette serie diverge dès que λ est inférieur à 2−1/3 . Selon
les données expérimentales, λ est estiùé autour de 0.85 > 2−1/3 (≈ 0.79), de telle sorte que
le poumon “réel” semble se situer dans la zone de convergence. ). Mais, pour la même raison,
la série des volumes (d’ordre 2k λ3k pour la génération k) diverge, de telle telle sorte que le
poumon infini extrapolé remplit (très largement, d’une certaine manière, du fait de l’inagalité
stricte) l’espace euclidien.

Exercice 4.1. (Inspiré de Mauroy et al. 33 )

On s’intéresse à la résistance équivalente d’un réseau dyadique de tuyaux, du type de celui
constitué par l’arbre bronchique humain. On suppose que cet arbre est composé de N + 1
générations (la première correspondant à la trachée). Si l’on suppose que tous ces tuyaux ont
la même forme (identiques à une homothétie près), la résistance à l’écoulement d’un tuyau
élémentaire, selon la loi de Poiseuille, est proportionnelle à l’inverse de son volume. On
suppose que tous les tuyaux d’une génération p ont le même volume up . Sous ces hypothèses,
la résistance equivalente R et le volume V ont les expressions qui sont données ci-dessous.

On définit, pour tout u = (u0 , . . . , uN ), up > 0 pour tout p ≤ N ,

N N
X 1 X
R(u) = pu
, V (u) = 2p up .
p=0
2 p p=0

33. B. Mauroy, M. Filoche, E. R. Weibel, [Link], An optimal bronchial tree may be dangerous, Nature,
427, 633-636, 12 February 2004.

56
On note U =]0, +∞[N +1 , et l’on s’intéresse à la minimisation de la fonction R(u) sur l’en-
semble
K = {u = (u0 , u1 , . . . , uN ) ∈ U , V (u) ≤ M }
où M > 0 est donné (volume maximal : volume de la cage thoracique).

a) Montrer que l’infimum de R sur K est strictement positif, et qu’il est atteint en un point
u ∈ K unique.

b) Écrire la condition d’optimalité associée au problème de minimisation de R sur K, et

préciser pourquoi, nécessairement, V(u) = M. Calculer u.

4.8 Réseaux infinis

Nous donnons ici quelques éléments sur l’étude de réseaux infinis, en prolongement direct
de ce qui a été vu précédement. On considère un réseau N = (V, E, r, o), où V est un ensemble
dénombrable de sommets, et o un sommet particulier. On supposera que le degré (nombre
de voisins) des sommets est uniformément majoré, et que le réseau est connexe. On notera la
disparition de Γ dans la définition ci-dessus : l’un des problèmes essentiels dans ce contexte
est précisément de déterminer si l’infini (dans un sens à préciser) est susceptible de jouer le
rôle de cette frontière Γ. On définit l’espace d’énergie
( )
X 2
V
H= q ∈ R , q(o) = 0 , c(x, y) |q(y) − q(x)| < +∞ ,
e

qui est un espace de Hilbert pour la norme associée canoniquement à la condition d’apparte-
nance, et
H0 = D,
adhérence des champs à support fini dans H.

On peut définir la résistance R ∈]0, +∞] de ce réseau (sous entendu : entre o et l’infini)
comme la limite quand N tend vers +∞ de RN , resistance du sous-réseau des points à dis-
tance 34 au plus N de o (avec ΓN défini comme l’ensemble des sommets à distance exactement
N de o).

On énoncera simplement un résultat fondamental 35 établissant un lien entre les espaces

fonctionnels ci-dessus, la résistance globale du réseau, et le comportement de la marche aléa-
toire associée canoniquement au réseau.

Théorème 4.17. Les trois assertions suivantes sont équivalentes :

(i) H/H0 = {0} ;

(ii) R = +∞ ;
(iii) La marche aléatoire dont les probabilités de transition sont définies par (4.5) est ré-
currente.
34. Il s’agit ici de la distance canonique définie sur le graphe, telle que deux points connectés sont à distance
1.
35. Pour la démonstration, voir par exemple :
P. M. Soardi, Potential Theory on Infinite Networks, Springer-Verlag Berlin and Heidelberg 1994.

57
On notera que l’équivalence entre (i) et (ii) est une généralisation de la proposition 8.1,
page 88, qui se limitait au cas d’un réseau linéaire infini dans une direction.

4.9 Réseaux dynamiques

Des chercheurs japonais 36 ont récemment mis en évidence la capacité de certaines moisis-
sures à constituer des réseaux de transport de nourriture qui présentent à la fois une certaine
forme d’optimalité globale et une grande robustesse (vis-à-vis par exemple de la disparition
brusque d’une branche). Ils ont proposé un modèle dynamique d’évolution d’un réseau exis-
tant basé sur les principes suivants. Le point de départ est un réseau résistif, qui réalise le
transport d’un flux entre des points-sources et des points-puits, que l’on définit comme Γ0
et Γ1 , sous-ensemble de l’ensemble des sommets V . On note µi ∈ RΓi , i = 0, 1, les flux
correspondants (tous deux identifiés à des mesures positives).

La loi des nœuds est vérifiée en tout point intérieur au réseau, et le flux au travers d’un
côté est régi par une loi de type Ohm (ou Poiseuille)

D
u(x, y) = (p(x) − p(y)),
L
où L est la longueur de l’arête, et D une mesure de sa conductivité 37 . Pour un réseau donné,
avec sa collection de conductivités Dij , et une collection de flux d’entrée et de sortie prescrits,
on peut calculer les pressions et flux au travers des arêtes en résolvant un problème de Darcy
discret avec condition de flux imposé


 u + cd⋆ p = 0 sur E,


du = 0 sur V̊ ,
(4.13)



du = −µ0 sur Γ0

du = µ1 sur Γ1

Noter que, avec des notations évidentes, on peut regrouper les trois dernières équations en

du = −µ0 + µ1 sur Γ.

On peut éliminer les flux pour se ramener à un problème de Poisson sur la pression

dcd⋆ p(x) = µ0 − µ1 sur V.

Remarque 4.18. On notera l’absence de conditions aux limites dans le problème ci-dessus.
On peut retrouver une analogie avec un problème aux limites sous forme standard en dis-
tinguant les points intérieurs des points sur Γ0 et Γ1 . On écrira alors que la fonction est
harmonique sur les points intérieurs, et vérifient sur les bords des conditions de type Neu-
man :
du(x) = −dcd⋆ p(x) = −µ0 sur Γ0 ,
36. A. Tero, S. Takagi, T. Saigusa, K. Ito, D. P. Bebber, M. D. Fricker, K. Yumiki, R. Kobayashi, T.
Nakagaki, Rules for Biologically Inspired Adaptive Network Design, SCIENCE, Vol. 327, 2010.
[Link]
37. Pour un écoulement fluide au travers de tuyaux à section circulaire, D représenterait le diamètre à la
puissance 4, voir l’équation (2.16), page 35.

58
mais comme on le voit, dans le cadre discret, ce choix ne fait que compliquer l’écriture. En
fait, dans le contexte discret, la frontière étant un sous ensemble de points de même nature
que les points intérieurs, on peut considérer que les conditions aux limites de Neuman n’ont
lieu d’être considérées, puisque tout problème à flux imposé sur la “frontière” peut s’écrire
comme un problème de Poisson sur le domaine entier (les termes de flux passent dans le
second membre du problème de Poisson).

Remarque 4.19. Comme dans le cas du problème de Neuman dans un domain euclidien, la
pression est définie à une constante additive près.

On choisit alors de faire évoluer les conductivités en favorisant les arêtes les plus actives :
dDxy
= G(|u(x, y)|) − Dxy ,
dt
où G( · ) est une fonction croissante, nulle en 0. Les auteurs considèrent par exemple des
fonctions du type
qγ
G(q) = .
1 + aq γ

59
5 Trafic routier ou piéton – macro – 1d – ordre 1 en temps

Cette section donne, sous une forme très préliminaire, quelques éléments de modélisation
du trafic routier ou piétons selon une description macroscopique (densité linéique diffuse).

5.1 Modèle d’évolution

On considère l’évolution d’une population de piétons ou de véhicules sur une voie rec-
tiligne, population représentée par une densité linéique ρ(x, t). On considère que la vitesse
des entités est fonction de la densité : v = v(ρ). La manière la plus simple de prendre
en compte le fait que la vitesse est d’autant plus faible que la densité est importante est
v(ρ) = U (1 − ρ/ρmax ). La conservation de la masse s’écrit alors (voir section 1)

∂ρ ∂
+ (ρv(ρ)) = 0,
∂t ∂x
qui a la forme d’une équation de conservation que l’on peut écrire sous forme générale
∂ρ ∂
+ f (ρ) = 0, (5.1)
∂t ∂x
où f est le flux.

Propagations des perturbations

Si l’on considère une solution stationnaire ρe de l’équation, et une solution perturbée

ρe + ρ̃, on obtient formellement une équation de transport sur la perturbation :

∂t ρ̃ + f ′ (ρe )∂x ρ̃ = 0 (5.2)

qui exprime que les perturbations sont transportées à la vitesse f ′ (ρe ).

Supposons que ρ(x, t) est une solution régulière de cette équation. On appelle courbes
caractéristiques une courbe t 7−→ x(t) telle que

ẋ(t) = f ′ (ρ(x(t), t).

On vérifie immédiatement que ρ est constant le long de telles courbes :

d
ρ(x(t), t) = ∂t ρ(x(t), t) + ẋ(t)∂x ρ(x(t), t) = ∂t ρ(x(t), t) + f ′ (ρ(x(t), t)∂x ρ(x(t), t) = 0.
dt
Comme ρ est constant le long de la trajectoire, la vitesse elle-même est constante : les tra-
jectoires sont des droites
t 7−→ x + tf ′ (ρ0 (x)).
Si l’on se donne une densité initiale ρ0 , on peut ainsi construire la solution associée en repor-
tant la valeur de densité initiale le long des caractéristiques. Cette démarche n’est évidemment
possible que tant que les caractéristiques ne se croisent pas.

60
Pour une densité initiale donnée, supposée lisse (continûment différentiable), on peut
considérer le flot associé aux caractéristiques

Φt : x 7−→ x + f ′ (ρ(x0 , 0))t.

Si l’on suppose que la fonction f est C 2 , on peut calculer le jabobien de la transformation

J(t, x) = 1 + t f ′′ (ρ0 (x)) ρ′0 (x).

Ce Jacobien reste > 0 (la transformation est un difféomorphisme, i.e. les trajectoires ne se
croisent pas) pour tout t si f ′′ (ρ0 (x)) ρ′0 (x) ≥ 0. Si en revanche cette dernière quantité est
négative, alors l’application ne sera régulière que pour
1
t<− .
f ′′ (ρ0 (x)) ρ′0 (x)

Le temps de vie de la solution lisse sera donc

1
T =
max |(f ′′ (ρ0 (x)) ρ′0 (x))− |

(inverse du max de la partie négative de f ′′ (ρ0 (x)) ρ′0 (x)).

Si l’on considère le flux indiqué précédemment f (ρ) = U ρ(1 − ρ/ρmax ), on a f ′′ (ρ) =

−2U/ρmax < 0. On aura donc existence de solution lisse si ρ0 est décroissante, et croisement
de caractéristique en temps fini si en revanche ρ0 est croissante.

Remarque 5.1. On prendra garde au fait que, bien que l’on ait considéré le Jacobien de
l’application Φt , ce qui suggère un transport de mesure, n’est aucunement associée à un quel-
conque transport conservatif de masse.

Lien avec le modèle microscopique. On peut faire un lien formel avec le modèle micro-
scopique présenté dans la section 6, en notant que la densité linéique (nombre de véhicules
ou de piétons par mètre) est l’inverse de la distance entre les personnes : ρ = 1/d. Si l’on
reprend la fonction ϕ qui définit la vitesse comme fonction de la distance, on a

1 ′ 1 1 1
f (ρ) = ρv(ρ) = ρϕ , f (ρ) = ϕ − ϕ′ .
ρ ρ ρ ρ

qui, exprimée en distance locale ue = 1/ρe , donne

f ′ (ρ) = ϕ(ue ) − ue ϕ′ (ue ).

Si l’on s’intéresse à l’évolution d’une perturbation autour d’une densité uniforme ρe , l’équa-
tion (5.2), exprime un transport à la vitesse f ′ (ρe ). On retrouve au niveau macroscopique
la vitesse de propagation vers l’amont −ue ϕ′ (ue ) trouvée dans la section 6. La vitesse ma-
croscopique contient nativement le terme de vitesse des entités ϕ(ue ), puisqu’il s’agit d’une
description Eulérienne (la variable est exprimée dans le référentiel fixe du laboratoire, selon
l’expression consacrée), par opposition à la description macroscopique qui est nativement
Lagrangienne (les variables sont afférentes aux entités en mouvement).

61
Remarque 5.2. Il est immédiat dans le cadre microscopique Lagrangien de prendre en
compte des comportements différents selon les entités. C’est beaucoup plus délicat dans le
cadre macroscopique Eulérien que nosu considérons ici. Prendre en compte une telle différen-
tiation nécessiterait de faire dépendre dépendre la fonction flux d’un label a qui fait référence
à une entité particulière. Le système s’écrit alors
∂t ρ + ∂x fa (ρ) = 0,
où a(x, t) permet de suivre les entités, i.e. obéit à une équation de transport non conservatif
(c’est une quantité intensive, du type information, qui est propagée) :
∂t a + u ∂x a = 0.
Remarque 5.3. Dans le même esprit que la remarque précédente, si l’on souhaite prendre
en compte un retard (dans l’esprit de la question 6.4, page 75 pour le modèle microscopique),
il est important de modéliser le fait que la relaxation d’une distance subjective (sur laquelle
l’entité base sa vitesse) vers la distance réelle est un processus essentiellement Lagrangien. Si
l’on appelle (ρ̃(x, t) la densité subjective de l’entité située en x au temps t, on écrira
∂t ρ + ∂x (ρv(ρ̃)) = 0
1
∂t ρ̃ + v(ρ̃) ∂x ρ̃ = (ρ − ρ̃) .
τ

5.2 Solutions faibles

Les considérations précédentes indiquent qu’il ne peut, en général, exister de solution lisse
globale. Pour donner un sens aux solutions non lisses qui semblent naı̂tre spontanément, on
définit la notion de solution faible :
Definition 5.4. On dit que ρ(x, t) est une solution faible de (5.1) (sur R×]T1 , T2 [) si, pour
toute fonction ϕ régulière à support compact dans R×]T1 , T2 [, on a
Z Z T2 Z Z T2
∂t ϕ ρ(x, t) dx dt + ∂x ϕ f (ρ(x, t)) dx dt = 0.
R T1 R T1

On peut intégrer une condition initiale à cette définition. Dans le cas T1 = 0, T2 = T , on

écrira
Z Z T Z Z T Z
∂t ϕ ρ(x, t) dx dt + ∂x ϕ f (ρ(x, t)) dx dt + ϕ(x, 0) ρ0 (x) dx dt = 0
R 0 R 0 R

pour toute fonction ϕ régulière à support compact dans R × [0, T [

On vérifie immédiatement que toute solution régulière est solution faible. Mais cette dé-
finition peut s’appliquer à des solutions qui ne sont pas régulières. Considérons par exemple
deux densités qui réalisent le même flux : F = f (ρ− ) = f (ρ+ ). La densité
ρ = ρ− 1]−∞,0[ + ρ+ 1]0,+∞[
est solution faible stationnaire de (5.1), de même que la densité obtenue en intervertissant ρ−
et ρ+ . On peut construire des solutions non stationnaires de la façon suivante : on se donne
deux densités ρL et ρR , et l’on cherche une solution ρ constante de part et d’autre d’un point
de discontinuité s(t) variable en temps. On vérifie qu’une telle densité est solution faible dès
que s vérifie une condition dite de Rankine-Hugoniot, comme l’exprime la

62
Proposition 5.5. (Relation de Rankine-Hugoniot)
Soient ρL et ρR deux valeurs entre 0 et ρmax , et f ( · ) une fonction flux continue. La densité

ρ = ρL 1]−∞,s(t)[ + ρR 1]s(t),+∞[

est solution faible de (5.1) si et seulement si la discontinuité s progresse à la vitesse constante

f (ρL ) − f (ρR )
ṡ = . (5.3)
ρL − ρR

Démonstration. On utilise la définition d’une solution faible, en écrivant la première intégrale

double Z Z Z Z Z !
+∞ +∞ s(t) +∞
∂t ϕ ρ = ρL ∂t ϕ + ρR ∂t ϕ ,
R 0 0 −∞ s(t)
avec
Z Z ! Z Z !
s(t) d s(t) +∞ d +∞
∂t ϕ = ϕ − ṡ(t)ϕ(s(t), t) , ∂t ϕ = ϕ + ṡ(t)ϕ(s(t), t).
−∞ dt −∞ s(t) dt s(t)

La seconde intégrale double (avec la dérivée en espace sur la fonction test s’écrit
Z Z Z Z Z ! Z
+∞ +∞ s(t) +∞ +∞
∂x ϕ f (ρ(x, t)) = f (ρL ) ∂x ϕ + f (ρR ) ∂x ϕ = ϕ(s(t), t))(f (ρL )−f (ρR )).
R 0 0 −∞ s(t) 0

On obtient donc finalement

Z +∞
ϕ(s(t), t)) (−ṡ(t)(ρL − ρR ) + f (ρL ) − f (ρR )) ,
0

qui est identiquement nul pour toute fonction test ϕ si et seulement si la condition (5.3) est
identiquement vérifiée.

Remarque 5.6. On peut retrouver la relation (5.3) en écrivant simplement un bilan de masse
au voisinage de la discontinuité.

On peut vérifier que, sous sa forme faible, l’équation n’est pas bien posée, au sens où
elle admet en général plusieurs solutions. La théorie complète de telles équation dépasse le
cadre de ce cours sous sa forme actuelle, disons simplement ici qu’il est possible d’imposer
à la solution considérer de vérifier un critère supplémentaire, dit d’entropie, qui permet de
sélectionner la solution physique 38 parmi les nombreuses possibles. Ce critère n’est pertinent
que pour discriminer des solutions qui présentent des discontinuités, on peut montrer que
ces solutions acceptables sont telles que, lorsque la solution présente une discontinuité, les
courbes caractéristiques doivent arriver vers la discontinuité, et non pas en partir.
38. Ce type de critère a été élaboré dans le cadre de la dynamique des gaz. Précisons que, dans le cadre du
transport d’entités vivantes, sa légitimité est moins nette

63
5.3 Résolution numérique

On se place sur l’intervalle ]0, L[ avec des conditions périodiques. La méthode des volumes
finis est basée sur une représentation de la densité par une fonction constante par morceaux
sur des cellules disjointes qui recouvrent le domaine spatial. Nous considérons ici des cellules
associées à à une subdivision uniforme de l’intervalle, de pas ∆x. On introduit de la même
manière une discrétisation en temps 0 < ∆t < 2∆t < · · · < N ∆t = T . On note ρni la valeur
de la densité approchée sur la cellule i, sur l’intervalle de temps ]n∆t, (n + 1)∆t[. Le schéma
résulte de l’intégration de l’équation de conservation sur la cellule Ci et l’intervalle de temps
[tn , tn+1 ] :
Z Z Z tn+1
n+1 n
ρ(x, t ) dx − ρ(x, t ) dx + f (ρ(xi+1/2 , t) − f (ρ(xi+1/2 , t) = 0,
Ci Ci tn

qui conduit à une classe générale de schémas que l’on note

∆t
ρn+1
i − ρni + fi+1/2 − fi−1/2 = 0.
∆x
La stratégie numérique repose sur la définition des flux discrets fi+1/2 et fi−1/2 . Nous nous
limiterons ici à des schéma explicites, basé sur la définition du flux discret comme fonctions
des densités de part et d’autre de l’interface :

fi+1/2 = F (ρni , ρni+1 ).

64
6 Trafic routier ou piéton – micro – 1d – ordre 1 en temps

6.1 Le modèle

Le modèle dit Follow the Leader 39 est basé sur les principes suivants : on considère n + 1
véhicules se déplaçant sur une route rectiligne (ou piétons se déplaçant sur une même file),
et l’on repère leurs positions respectives au temps t par

x1 (t) < x2 (t) < · · · < xn+1 (t). (6.1)

On considère dans un premier temps que la vitesse du véhicule i ne dépend que de la

distance au véhicule précédent, c’est-a-dire xi+1 − xi (on ne prend pas en compte la taille de
l’entité). Le système s’écrit alors

ẋi = ϕ(xi+1 − xi ) 1 ≤ i ≤ n. (6.2)

Il est naturel de prendre pour ϕ une fonction qui s’annule en 0, qui prend la valeur U de
la vitesse maximale autorisée quand la distance tend vers l’infini. On pourra considérer par
exemple la fonction
ϕ(u) = U (1 − exp(−u/us )),
où us est une distance caractéristique de sécurité (distance observée pour des véhicules roulant
approximativement aux 2/3 de la vitesse autorisée, pour le cas de voitures sur l’autoroute).
Cette quantité conditionne la raideur (stiffness en anglais) du modèle.

Remarque 6.1. La taille des entités peut être prise en compte en modifiant la fonction :

ϕ(u) = U (1 − exp(−(u − um )/us )).

Noter que cette modification ne change pas la nature du modèle. En dimension 1, il est en effet
équivalent de travailler sur des entités ponctuelles interagissant en fonction de leurs distances,
ou des entités de tailles non nulles (en considérant alors les distances d’objet à objet). Cette
prise en compte devient en revanche importante dès que l’on s’intéresse au positionnement
des entités sur un voie réelle, par exemple si l’on s’intéresse à la possibilité que l’information
remonte une file plus vite qu’elle n’avance, où si l’on souhaite faire le lien avec un modèle
macroscopique (pour lequel on aura une densité maximale 1/um ).

Proposition 6.2. On se donne des positions initiales vérifiant la relation d’ordre (6.1). On
suppose que la vitesse V (t) (et donc la trajectoire) de l’entité de tête (n + 1) est une fonction
continue du temps, donnée, à valeur dans [0, U ]. On se donne une fonction de comportement
ϕ Lipshitzienne nulle en 0 (prolongée par 0 en deça), et prenant ses valeurs dans l’intervalle
[0, U ]. Le système (6.2) admet une unique solution maximale, qui est globale.
39. C’est sous cette dénomination qu’il est présenté dans :
B. Argall, E. Cheleshkin, J. M. Greenberg, C. Hinde and P.-J. Lin, A rigorous treatment of a follow-
the-leader traffic model with traffic lights present, SIAM J. Appl. Math., 63(1), pp. 149–168 , 2002,
[Link]
Cette dénomination est cependant partiellement impropre dans le cas qui nous intéresse : chaque entité suit de
fait l’entité qui la précéde, mais la présence de cette dernière est plus une gêne (qui conduit à une diminution
de la vitesse) qu’une incitation positive.

65
Démonstration. Il s’agit d’une application du théorème de Cauchy-Lipschitz 21.9. Cette so-
lution est globale car la vitesse est bornée (proposition 21.12).

Il est essentiel de vérifier la viabilité de la solution de l’équation différentielle ci-dessus

(nous n’avons pas exclu les cas de distances nulles, voire négatives, entre entités. On peut
vérifier que les distances restent strictement positives.

Proposition 6.3. On se place dans les hypothèses de la proposition précédente. Les distances
restent strictement positives.

Démonstration. On note L = kϕ′ k∞ . Tant que xn+1 − xn > 0, on a

ẋn = ϕ(xn+1 − xn ) ≤ L(xn+1 − xn ),

d’où, si l’on note un = xn+1 − xn ,

u̇n ≥ −ηun + V (t) ≥ −ηun ,

d’où un ≥ un (0)e−Lt .

Remarque 6.4. Le caractère Lipschtiz de ϕ est essentiel pour éviter les accidents. Si l’on
prend par exemple une fonction ϕ qui se comporte comme uα au voisinage de 0, avec α ∈]0, 1[,
considérant deux véhicules successifs, le premier étant arrêté, on obtient l’équation u̇ = −uα ,
qui conduit à
1/1−α
u(t) = u(0)1−α − (1 − α)t .
On a alors “accident”, c’est à dire annulation des distances en temps fini. Noter que le théo-
rème de Cauchy Lipschitz ne s’applique ici que sur l’ouvert ]0, +∞[, la solution maximale
n’est alors pas globale.

6.2 Stabilité, propagation des perturbations

Supposons que le véhicule de tête en xn+1 se maintient à une vitesse constante V < U .
On vérifie immédiatement que si tous les véhicules sont à distance ue du précédent, avec
V = ϕ(ue ), autrement dit
V
ue = −us ln 1 − ,
U
ils vont tous à la vitesse V du véhicule de tête. On peut se demander ce qui va se passer en
cas de perturbation, par exemple si le véhicule de tête freine brusquement, puis reprend sa
vitesse de croisière V .

Remarque 6.5. Si l’on note V = {1, 2, . . . , n}, on peut définir un ensemble A d’arêtes :

(1, 2) , . . . , (n − 1, n),

tel que (i, j) ∈ A si et seulement si le comportement de i est directement influencé par le

comportement de j. Pour le modèle considéré, le graphe est de façon évidente acyclique (voir
def. 12.3).

66
v

um us

Figure 6.1 – Vitesse fonction de la distance

On introduit les variables de distances entre véhicules :

ui = xi+1 − xi , i = 1, . . . n.

Le système s’écrit, pour ces nouvelles variables

u̇i = ϕ(ui+1 ) − ϕ(ui ) , i = 1, . . . n , ou u̇ = F (u).

et u = (ue , . . . , ue ) est point d’équilibre du système.

Proposition 6.6. Le point d’équilibre défini ci-dessus est asymptotiquement stable.

Démonstration. Le linéarisé au point d’équilibre s’écrit

 
−1 1 0 · 0

 0 −1 1 · · 

′  
∇F = ϕ (ue )  · · · · 0 .
 
 · · · −1 1 
0 · · 0 −1

On a donc une unique valeur propre −ϕ′ (ue ) < 0, donc stabilité asymptotique avec un temps
caractéristique de retour à l’équilibre 40 égal à 1/ϕ′ (ue ).

40. Nous verrons que dans le cas présent d’un gradient non diagonalisable, le temps effectif caractéristique
de retour à l’équilibre peut être significativement plus grand que 1/ϕ′ (ue ), ou plus précisément que le temps
de retour effectif à l’équilibre n’est pas uniforme vis-à-vis du nombre n de véhicules, alors que 1/ϕ′ (ue ) n’en
dépend pas.

67
Propagation des perturbations vers l’amont

Équation de transport. On peut établir un lien informel entre le comportement du système

au voisinage de l’équilibre et une équation de transport. Cette approche va nous permettre
d’estimer la vitesse de propagation de l’information le long du train de véhicule, une approche
plus rigoureuse pour estimer cette vitesse est décrite plus loin.

Considérons une perturbation de l’état d’équilibre correspondant à des entités équidis-

tance de ue , qui avancent à la vitesse ve = ϕ(ue ). En se plaçant dans le référentiel qui suit le
train, à la vitesse ue , on peut décrire les petites évolutions du modèle en considérant que les
distances sont du type ue + wi , où wi est une petite variation de la distance entre xi et xi+1 ,
que l’on considère comme une variable attachée au milieu du segment (qui est fixe dans le
référentiel mobile). On a
wi+1 − wi
ẇi = ϕ(ue + wi+1 ) − ϕ(ue + wi ) ≈ ϕ′ (ue )(wi+1 − wi ) = ue ϕ′ (ue ) .
ue
Les wi étant définis en des points distants de ue , on peut interpréter le dernier quotient
comme une dérivée en espace d’une fonction w(x), pour laquelle obtient ainsi formellement
l’équation
∂w ∂w
− ue ϕ′ (ue ) = 0.
∂t ∂x
il s’agit d’une équation de transport à la célérité c = −ue ϕ′ (ue ). On a donc une remontée à
vitesse constante vers l’arrière du train. Cette vitesse est estimée dans le référentiel qui avance
à la vitesse ϕ( ue ). On aura effectivement propagation vers l’arrière 41 (pour l’observateur
extérieur) si
ϕ(ue )
ue ϕ′ (ue ) > ϕ(ue ) ⇐⇒ ϕ′ (ue ) > .
ue
Sous cette dernière forme, il apparaı̂t que le critère se ramène à une comparaison entre les
pentes de la corde et de la tangente au point considéré (ue , ϕ(ue )). On note que, pour un même
flux, c’est à dire pour une même corde (le flux d’entités par unité de temps est ϕ(ue )/ue ),
on a deux régimes de fonctionnement possibles (voir figure 6.1), l’un dense à faible vitesse
(régime fluvial), et l’autre dilué à grande vitesse (régime torrentiel). On a de façon évidente
propagation de l’information vers l’arrière pour le cas dense. Dans le cas dilué, pour un
même flux, la vitesse de propagation est inférieure à la vitesse des véhicules, de sorte qu’une
perturbation suit le sens du mouvement pour un observateur extérieur.

Analyse spectrale. Cette propagation vers l’amont décrite informellement ci-dessus peut-
être étayée par une étude plus approfondie du système tangent au voisinage du point d’équi-
libre :
u̇ = M u,
où M est la matrice du gradient de F au point d’équilibre

On garde la notation u pour désigner le vecteur inconnu, mais les ui correspondent main-
tenant à des variations autour du point d’équilibre, qui évoluent au voisinage de 0 (et non
pas de ue ).
41. Dans le cas du trafic routier, si l’on est dans cette situation, toute perturbation est susceptible de se
propager vers l’arrière et de créer potentiellement un bouchon.

68
La solution du problème ci-dessus s’écrit

u(t) = etM u0 ,

où u0 est une perturbation initiale. La matrice M s’écrit

M = β (− Id +N )

avec β = ϕ′ (ue ), et N une matrice nilpotente

   
0 1 0 · 0 0 0 1 · 0

 0 0 1 · · 


 0 0 0 · · 

2
 , . . . , N n = 0.
   
N = · · · · 0 , N = · · · · 1
   
 · · · 0 1   · · · 0 0 
0 · · 0 0 0 · · 0 0
L’exponentielle s’écrit donc
!
tM −βt (βt)2 2 (βt)3 3 (βt)n−1 n−1
e =e Id +βtN + N + N + ··· + N .
2! 3! (n − 1)!

Montrons que la forme particulière de cette matrice rend compte d’une propagation des
perturbations vers les index de vehicules décroissants. On considère pour cela une perturbation
du véhicule de tête, qui induit une perturbation du véhicule immédiatement derrière celui-
ci. Cette perturbation est donc colinéaire à u0 = en , où ei est le i−ème vecteur de la base
canonique de Rn . On a

N en = en−1 , N 2 en = en−2 , . . . , N n−1 en = e1 .

Le comportement général de la solution du système linéarisé peut donc se traduire en termes

de perturbations pour chacun des véhicules de la file, avec, pour le véhicule k, un facteur
(βt)n−k −βt
e , k = 1, . . . , n.
(n − k)!
Dans les premiers instants, cette fonction va avoir un maximum glissant qui correspond au
véhicule couramment affecté par la perturbation. On peut par exemple calculer pour quel
temps deux véhicules successifs sont affectés de la même manière (ce qui correspond au
passage de l’information entre k + 1 et k) :

(βt)n−k−1 −βt (βt)n−k −βt

e = e ⇔ t = (n − k)/β.
(n − k − 1)! (n − k)!
La distance entre les véhicules étant de l’ordre de ue , cela traduit une propagation de l’infor-
mation vers l’amont du train de véhicule à la célérité

c = −βue = −ue ϕ′ (ue ).

On peut retrouver ce résultat en recherchant à quel moment la perturbation ressentie par

l’entité n − k est maximale. On a
(βt)k β k tk−1
pk (t) = e−βt , p′k (t) = e−βk (−βt + k)
k! k!
qui s’annule pour t = k/β.

69
Question 6.1. Montrer que (le maximum
√ de) l’intensité de la perturbation ressentie par l’entité
n − k varie pour k grand comme 1/ 2πk.
Exercice 6.2. Montrer que la prise en compte de la taille des véhicules (en considérant que la
fonction ϕ est nulle en dessous d’une longueur minimale us , et concave sur [us , +∞[) permet
de mettre en évidence la possibilité que des ondes d’information remontent le courant vers
l’amont plus vite que la vitesse des véhicules-mêmes.

Remarque 6.7. Pour appréhender ce qui se passe lorsque le nombre de véhicules est im-
portant, on considère une file de véhicule infinie dans une direction : une infinité de véhicule
suit un véhicule de tête dont la vitesse est fixée. La perturbation au temps t correspond à la
loi de Poisson de paramètre βt :

(βt)k
p(t) = (pk (t))k∈N , pk = e−βt
k!
On a donc kp(t)k1 = 1 : la “masse” totale de la perturbation reste constante, on n’a donc pas,
pour cette norme, stabilité asymptotique.

On a en revanche décroissance vers 0 des normes p, avec p > 1, jusqu’à p = ∞. On

a convergence vers 0 dans ℓ∞ faible-⋆ (contre toute suite de ℓ1 ), on n’a en revanche pas
convergence faible-⋆ vers 0 dans ℓ1 vu comme sous espace de (ℓ∞ )′ (qui correspondrait pour
des mesures sur un espace euclidien à la convergence étroite). La non-convergence de la suite
(comme de toute suite extraite) n’est pas en contradiction avec la compacité de la boule unité
de (ℓ∞ )′ pour la topologie faible-⋆, du fait de la non séparabilité de ℓ∞ (on pourra se reporter
à la section 13, page 112, pour plus de détail). Cette convergence est une version discrète
de la convergence étroite pour les mesures, on retrouve ici la situation typique d’une famille
de mesures de probabilité qui part vers l’infini (ou se concentre sur le bord d’un ouvert), ce
qui assure la convergence vers 0 au sens des mesures (i.e. contre les fonctions continues qui
s’annulent au bord), sans que l’on ait convergence étroite.

6.3 Cas périodique

On se place dans un cadre périodique : route de type périphérique sans entrée ni sortie,
ou couloir circulaire, représenté par un domaine périodique de longueur L. Le véhicule n voit
le véhicule 1, et les équations s’écrivent simplement

ẋi = ϕ(xi+1 − xi ) , i = 1, . . . , n (n + 1 ≡ 1),

ou, exprimé sur les variables de distance ui = xi+1 − xi (avec la convention un = x1 − xn )

u̇i = ϕ(ui+1 ) − ϕ(ui ) , i = 1, . . . n (n + 1 ≡ 1), (6.3)

que l’on peut écrire globalement u̇ = F (u).

Remarque 6.8. Comme dans le cas linéaire, on peut définir un graphe orienté (V, A)
(voir définition 12.1, page 110), avec V = {1, 2, . . . , n}, et la règle (i, j) ∈ A si et seule-
ment si le comportement de i est directement influencé par le comportement de j : A =
{(1, 2) , . . . , (n − 1, n) , (n, 1)}. Ce graphe contient de façon évidente un cycle 42 .

70
Si la fonction ϕ est strictement croissante, le système en distance admet un unique point
d’équilibre ueq = (ue , . . . , ue ), avec ue = L/n.
Proposition 6.9. On suppose que ϕ est une fonction C 1 strictement croissante sur [0, +∞[.
Le point d’équilibre ueq = (ue , . . . , ue ), ue = L/n, solution stationnaire de (6.3) est alors
asymptotiquement stable.

Démonstration. On écrit le gradient de F au point d’équilibre ueq :

 
−1 1 0 · 0

 0 −1 1 · · 

′
 = ϕ′ (ue )Aper = ϕ′ (ue ) (− Id +C) .
 
∇F (ueq ) = ϕ (ue )  · · · · 0
 
 · · · −1 1 
1 · · 0 −1
où C est une matrice circulante, matrice de permutation particulière qui réalise le shift à
droite périodique. Cette dernière vérifie C n = Id et la famille (C k )0≤k≤n−1 est libre, son
polynôme caractéristique est donc X n − 1, et ses valeurs propres sont ainsi les racines n-ièmes
de l’unité. Les valeurs propres de Aper sont donc

2ikπ
µk = −1 + exp , k = 1, . . . , n.
n
Toutes les valeurs propres sont donc de partie réelle ≤ 0, ce qui suggère une certaine stabilité
du système. Mais pour k = 0, on trouve µ0 = 0, de telle sorte qu’il est a priori impossible
de trancher quant à la stabilité de la solution. On peut néanmoins établir cette stabilité en
remarquant que l’espace propre associé est Re, où e est le vecteur dont tous les éléments sont
égaux à 1. Or, du fait que, par construction, la somme des ui est constante (égale à la longueur
L), les perturbations admissibles sont de moyenne nulle, et donc orthogonale à e. On vérifie
immédiatement que e⊥ est stable par Aper , on peut donc se ramener à une étude spectrale sur
e⊥ , dans lequel toutes les valeurs propres ont une parties réelle strictement négative 43 .

Temps caractéristique de relaxation. La partie réelle de plus petit module est ϕ′ (ue )(1 −
cos (2π/n)), qui est proche de ϕ′ (ue )2π 2 /n2 , ce qui donne un temps caractéristique de
1 n2
τ= .
2π 2 ϕ′ (ue )
42. Ce cyle est le plus petit, et il est unique au sens suivant : les autres cycles ne sont que des duplications
de ce cycle simple (on peut “tourner” un nombre quelconque de fois).
43. On peut se ramener à une démarche
Pn−1 plus habituelle en éliminant une variable redondante,Pn−1dans les ui , par
exemple en écrivant que un = L− i=1 ui . La dernière équation s’écrit alors un−1 = ϕ(L− i=1 ui )−ϕ(un−1 ),
et le gradient s’écrit  
−1 1 0 · 0
 0 −1 1 · · 
∇F (ueq ) = ϕ′ (ue )  ·
 
· · · 0 
 · · · −1 1 
−1 −1 · −1 −1
Le polynôme caractéristique Pn−1 de cette matrice vérifie (en développant par rapport à la première colonne)
Pn−1 = −λPn−2 + (−1)n , d’où

Pn−1 = (−1)n+1 1 + λ + · · · + λn−1 .
Les valeurs propres sont donc bien les racines n-èmes non triviales de l’unité.

71
Cette relaxation se produit selon un vecteur propre de basse fréquence en espace.

Corollaire 6.10. Dans le cas où la fonction ϕ est nulle sur [0, ℓ], puis strictement croissante,
sur [ℓ, +∞[, on a de même unicité d’un point d’équilibre, qui correspond à un mouvement
effectif des véhicules si L est suffisamment grand (plus précisément si L > nℓ), sinon à un
paquet d’entités immobilisées. Si ϕ n’est pas strictement croissante, on n’a pas forcément
unicité du point d’équilibre. En particulier, si l’on suppose (ce qui est raisonnable) que ϕ est
plate au delà d’une certaine valeur u+ de la distance (correspondant à la visibilité), on peut
avoir de multiples points d’équilibre dès que L > nu+ .

Proposition 6.11. On considère n entités avançant sur un chemin circulaire et fermé, on

suppose l’évolution régie par

ẋi = ϕ(xi+1 − xi ) , i = 1, . . . , n (n + 1 ≡ 1),

où ϕ est une fonction croissante. On note ui = xi+1 − xi , et l’on considère une solution du
système (6.3). Pour toute fonction g convexe, la quantité
X
S(u(t)) = g(ui )
i

est décroissante.

Démonstration. Les distances vérifient

u̇i = ϕ(ui+1 ) − ϕ(ui ) , i = 1, . . . , N.

On a donc
!
d X X X
g(ui ) = g′ (ui )u̇i = g′ (ui ) (ϕ(ui+1 ) − ϕ(ui ))
dt i i i
X
= ϕ(ui ) g (ui−1 ) − g′ (ui ) .
′

Supposons g strictement convexe. La fonction g′ étant alors strictement croissante, on peut

effectuer le changement de variable βi = g′ (ui ). La quantité ci-dessus s’exprime donc
X
ϕ ◦ (g′ )−1 (βi ) (βi−1 − βi ) ,
i

où ϕ ◦ (g′ )−1 est une fonction croissante, qui s’écrit donc comme la dérivée d’une fonction
convexe : ϕ ◦ (g′ )−1 (β) = ψ ′ (β). Comme ψ est convexe, on a

ψ(βi ) + ψ ′ (βi )(βi−1 − βi ) ≤ ψ(βi−1 ),

de telle sorte que !

d X X
g(ui ) ≤ (ψ(βi−1 ) − ψ(βi )) = 0.
dt i i

Si g n’est pas strictement convexe, on applique la démarche à g(u) + εu2 , et on fait tendre ε
vers 0.

72
Remarque 6.12. Dans le cas d’une route de longueur 1, on peut interpréter u = (ui ) comme
une mesure de probabilité sur un ensemble à N éléments. Prenant g(x) = x log x dans ce qui
précède, on a alors décroissance de l’entropie (selon la définition 10.1, page 101)
X
S(u) = ui log ui .
i

Remarque 6.13. Considérons le cas d’un g strictement convexe (par exemple g(u) = u log u).
Si la fonction ϕ est strictement croissante sur l’intervalle de valeurs couvert par les ui , alors
la décroissance de l’entropie est stricte, tant que l’on n’a pas l’état stationnaire u1 = u2 =
· · · = uN = L/N . On converge alors nécéssairement vers l’unique état stationnaire. Si en
revanche ϕ n’est pas strictement croissante, la propriété de convergence peut être invalidée
(l’état équi-réparti n’est pas asymptotiquement stable). C’est le cas par exemple si, au delà
d’une certaine distance, l’entité va à la vitesse maximale, de telle sorte que la fonction ϕ est
constante au delà d’une certaine valeur. Si la route circulaire est assez grande, on peut avoir
une distribution non régulière d’entités progressant toutes à la vitesse maximale. D’un point
de vue macroscopique, cette situation correspond à une onde progressive que l’on observe en
effet lorsque la fonction flux (ici la densité multipliée par la vitesse) est affine sur certaines
plages de densité.
Corollaire 6.14. Dans le cas où la fonction ϕ est nulle sur [0, ℓ], puis strictement croissante,
sur [ℓ, +∞[, on a la propriété suivante : si les valeurs initiales des distances sont > ℓ, alors
la solution est telle que les ui sont minorés par ℓ + η, avec η > 0.

Démonstration. On peut choisir g(u) = 1/(u−ℓ), qui est convexe pour u > ℓ. La décroissance
de l’entropie exclut que l’un des u puisse tendre vers ℓ. Plus précisément, on a
X X
g(ui ) ≤ S0 = g(u0i ),

d’où, pour tout i,

u − ℓ > 1/S0 ,
ce qui conclut la démonstration.

Propagation des perturbations. L’étude de l’exponentielle de la matrice du système li-

néarisé, dans le cas non périodique, avait mis en évidence une propagation des perturbations
vers l’amont à la célérité −ue ϕ′ (ue ). Plus précisément, nous nous étions intéressés à la propa-
gation d’une perturbation ponctuelle (affectant seulement le véhicule de tête). On se propose
ici de quantifier ce phénomène de propagation dans le cas périodique. Le système linéarisé
s’écrit
du
= ϕ′ (ue ) (− Id +C) u.
dt
La matrice est diagonalisable, d’éléments propres

′ 2ikπ 2ikπm
µk = ϕ (ue ) −1 + exp , wk = exp .
n n m

Les parties réelles des valeurs propres,

′ 2kπ
Re(µk ) = −ϕ (ue ) 1 − cos ≤ 0,
n

73
quantifient l’amortissement exponentiel selon les différents modes. La propagation en espace
est encodée par la partie imaginaire. La partie correspondante de la solution s’écrit
  

ϕ′ (ue )n

2kπ 2ikπm  2ikπ  2kπ 
exp ϕ′ (ue ) sin
  
t exp = exp  m + sin t ,
n n  n  2πk n 
| {z }
=−ck

où m indexe les n entités impliquées. Cette expression correspond donc à une propagation
(sur la suite des indices) à vitesse constante ck . On retrouve pour k/n petit une célérité de
l’ordre de −ϕ′ (ue ) (en s−1 , ou entités par seconde), ou, si l’on prend en compte le fait que les
entités sont séparées de ue , d’une vitesse effective de −ue ϕ′ (ue ) (en ms−1 ).

6.4 Extensions, développements

Individus de profils différents . Il est peu réaliste de considérer que tous les individus
ont le même comportement. Si l’on reprend le modèle initial sur route rectiligne, avec un
véhicule de tête qui va à vitesse constante ve = ϕn+1 (ue ), et que l’on se donne des courbes de
comportement ϕi toutes strictement croissantes (pour u ≥ um ), on aura existence et unicité
d’un point d’équilibre en distances dès que la vitesse de tête est atteignable par chacun des
suivants, i.e.
ve < max ϕi (u) ∀i.
u

uie
On écrit la distance qui réalise ve = ϕi (uie ).
Le vecteur u1e , . . ., une est alors point d’équilibre.
L’étude de stabilité de ce point d’équilibre conduit à une matrice du type
 
−β1 β2 0 · 0

 0 −β2 β3 · · 

 , βi = ϕ′i (uie )
 
∇F =  · · · · 0 i = 1, . . . , n. (6.4)
 
 · · · −βn−1 βn 
0 · · 0 −βn

La situation est assez troublante, car, si l’on peut espérer que le phénomène de propagation de
l’information vers l’amont soit préservé pour ce système perturbé, la structure du problème
est complètement différente. Les βi n’ont aucune raison d’être identiques, on peut considérer
que, même s’ils peuvent être voisins, ils sont génériquement 44 différents deux à deux. Mais
alors la matrice est diagonalisable, et l’étude du comportement de la solution du système
linéarisé etA upert , est complètement différente. Cette étude est à mener avec précaution, car
les matrices diagonalisables de ce type ne sont pas loin d’une matrice qui ne l’est pas, ce qui
peut conduire à un comportement singulier. Pour s’en convaincre, considérons la famille de
matrices Aε associées à
β ε = (β1ε , . . . , βnε ),
où les βiε tendent tous vers le même β limite, que l’on prendra égal à 1 pour simplifier. On
vérifie immédiatement que les vecteurs propres uεi normalisés associés convergent (à sous suite
44. Cette notion de généricité est très utilisée oralement, elle est à manier avec précaution. Elle signifie ici
en substance que, au voisinage d’une situation considérée, l’ensemble des cas pour lesquels la propriété (dite
générique) n’est pas vérifiée est de mesure nulle.

74
extraite près) vers un vecteur propre de la matrice A = − Id +N , qui n’a qu’une droite propre
(selon le premier vecteur de base). Tous les vecteurs propres tendent donc à avoir la même
direction. La diagonalisation effective d’une telle matrice (pour ε petit mais non nul) risque
d’être extrêmement instable, on peut par exemple s’attendre à ce que la plupart des méthodes
numériques d’estimation de valeurs propres ne fonctionnent pas. On peut se convaincre de
la difficulté du problème, tout en vérifiant que l’on aura bien propagation vers l’amont, en
considérant le cas de 2 entités libres (donc de deux distances, i.e. 3 entités, celle de tête ayant
une vitesse imposée). On définit
!
−1 1 + ε
A .
0 −1 − ε

Cette matrice est évidemment diagonalisable pour ε 6= 0, avec une matrice de passage
!
1 1+ε
A ε .
0 − 1+ε

Si l’on considère maintenant la solution du problème d’évolution linéaire, avec une perturba-
tion sur les distance de tête, on obtient (on n’indique pas la dépendance de P vis à vis de ε
pour alléger les notations)
! ! ! !
tAε 0 −1 tAε −1 0 1+ε e−t −t
1+ε
ε (1 − e
−tε)
e = PP e PP = P =e ,
1 1 ε e−t(1+ε) e−tε

et l’on retrouve bien par développement limité une évolution de la seconde distance (première
composante) en te−t (au premier ordre en ε), comme pour la matrice limite non diagonalisable.
Noter que l’on est passé par l’intermédiaire de matrices très mal conditionnées 45 : dans une
situation où les calculs ne pourraient pas être faits analytiquement, il serait périlleux de suivre
cette démarche en cherchant à diagonaliser de façon approchée les matrices de type de celle
définie par (6.4), pour des βi proches les uns des autres.

Question 6.3. Intégrer au modèle le fait que l’on ne réagit pas instantanément à une variation
de distance.
Question 6.4. Proposer un modèle macroscopique intégrant le fait que l’on définit sa vitesse
avec un certain retard. On pourra introduire une distance subjective wi pour chaque individu,
et considérer qu’on a relaxation de cette distance vers la vraie distance instantanée, avec un
temps caractéristique τ .

Stratégie dépendant de la vitesse. On se propose ici de baser le modèle sur un principe

différent : on considère que chaque entité a une vitesse qu’elle souhaiterait avoir si elle était
seule. A chaque instant elle estime la distance à l’entité précédente, ainsi que sa vitesse. A
la vitesse estimée elle associe une distance D(v) (qui correspondrait à la distance qui permet
d’éviter une collision avec quelqu’un qui avance à la vitesse v, en cas d’arrêt brusque). Si
sa distance effective est supérieure à cette distance, elle va à sa vitesse souhaitée, sinon, la
45. Voir section 18.1, page 179 : les matrices sont de norme contrôlée mais, du fait que les vecteurs propres
sont quasiment colinéaires, leurs inverses ont une norme qui tend vers +∞ quand les βi tendent à se confondre.

75
vitesse souhaitée est significativement réduite (jusqu’à ce que la distance effective redevienne
de l’ordre de D(v)). Une telle démarche conduit par exemple au modèle suivant :
−1
xi+1 − xi − D(vi+1 )
vi = ẋi = Ui 1 + exp − .
us
Ce modèle est considérablement plus compliqué que les précédents, car la vitesse de chaque
entité dépend de la vitesse des autres de façon non linéaire, ni l’unicité ni même l’existence
d’une collections de vitesses réalisant l’ensemble des relations ne sont garanties. Plus précisé-
ment, la difficulté du propblème est conditionnée par le type du graphe des dépendances (voir
remarques 6.5 et 6.8). Dans le cas d’un graphe acyclique (entités sur une route rectiligne),
on fixe la vitesse de l’entité de tête, et les vitesses sont déterminées de façon unique en des-
cendant la hiérarchie. Dans le cas où l’on a des cycles en revanche, comme dans le cas d’une
route circulaire, le problème est plus délicat, il peut exister plusieurs collections de vitesses
qui vérifient le système.

76
7 Trafic routier ou piéton – micro – 1d – ordre 2 en temps

7.1 Le modèle

On s’intéresse ici à un modèle de trafic routier (ou piéton) microscopique (les entités sont
suivies individuellement) d’ordre 2 en temps. On note xi = xi (t) la position de la i-ème entité
au temps t, qui évolue sur R (on considérera par la suite le cas périodique). Le modèle s’écrit
1
ẍi = (ϕ(xi+1 − xi ) − ẋi ), (7.1)
τ
où τ est un temps caractéristique d’accession à une vitesse souhaitée. Pour des voitures, τ
représente le temps caractéristiques mis par le conducteur pour accéder à la vitesse qu’il
souhaite. Ce temps peut dépendre du type de véhicule, du comportement du conducteur,
on pourrait même considérer (au prix néanmoins d’un changement profond sur la nature du
modèle) qu’il dépend du signe de ϕ(xi+1 − xi ) − ẋi (on peut avoir une voiture au moteur
poussif, mais qui possède de bons freins). Nous supposerons que ce temps τ est constant. La
fonction u 7→ ϕ(u) représente la vitesse que souhaite avoir un véhicule à la distance u du
véhicule qui le précède. Si l’on ne prend pas en compte la taille des véhicules, on choisira une
fonction croissante qui s’annule en 0, qui tend vers une valeur limite U quand u tend vers
+∞. Un exemple d’une telle fonction est

u 7−→ U (1 − exp (−u/us )) , (7.2)

où us représente l’ordre de grandeur de la distance considérée par le conducteur comme étant
de sécurité (pour un vitesse égale à 1−1/e ≈ 0.6 fois la vitesse maximale. Pour un conducteur
agressif peu scrupuleux des distances de sécurité, us sera donc petit. Nous supposerons pour
simplifier les conducteurs tous identiques, ce qui conduit bien au modèle (7.1), avec une
fonction ϕ qui ne dépend pas de i.

Solutions globales et accidents

Si l’on suppose la fonction ϕ Lipschitzienne, son prolongement par 0 sur ] − ∞, 0] reste

Lipschitzien, et le théorème de Cauchy-Lipschitz appliqué au système

ẋi = vi
1 (7.3)
v̇i = (ϕ(xi+1 − xi ) − vi ),
τ
assure l’existence d’une unique solution maximale, qui est globale d’après la proposition 21.12,
page 214. De façon évidente les solutions pour lesquelles les distances sont nulles voire né-
gatives sont à considérer avec une attention particulière. S’il advient que l’une des distances
s’annule, cela traduit une collision, et le modèle que nous avons écrit, même s’il est défini
mathématiquement, n’a plus de sens. Vérifions que des accidents sont susceptibles de se pro-
duire. On considère pour simplifier un véhicule derrière un véhicule à l’arrêt en 0. La position
du véhicule en mouvement, notée x, vérifie
1
ẍ = (ϕ(−x) − ẋ) ,
τ

77
avec condition initiales en position et vitesse. On s’intéresse à ce qui se passe au voisinage de
l’origine, on a alors ϕ(−x) ≈ −ϕ′ (0) x. Notant ϕ′ (0) = 1/η, on obtient
1 1
ẍ + ẋ + x = 0.
τ τη
Les racines de l’équations caractéristique sont
s !
1 4τ
λ= −1 ± 1−
2τ η

On aura donc amortissement non oscillant pour τ /η < 1/4. Dans le cas contraire, x va at-
teindre 0 (à vitesse non nulle), on ne peut donc pas exclure dans ce cas l’occurrence d’accident
(et donc la durée de vie finie de la solution en tant que trajectoire viable).

7.2 Stabilité

On peut se demander dans un premier temps si le modèle ci-dessus permet de reproduire

des régimes stationnaires stables. Nous nous concentrerons ici sur le cas périodique (route
circulaire du type périphérique, circuit de formule 1). Pour cela considérons la situation de N
entités sur une route circulaire, équidistants (distance ue = L/N ). La configuration où tous
les véhiculent roulent à la même vitesse V = ϕ(ue ), correspond au régime stationnaire.

Pour étudier la stabilité de cette situation, on travaille sur les variables de distance ui =
xi+1 − xi . Le modèle s’écrit pour cette nouvelle variable
1
üi = (ϕ(ui+1 ) − ϕ(ui ) − u̇i ), (7.4)
τ
pour lequel le vecteur (ue , ue , . . . , ue ) est point fixe. On peut écrire ce modèle (u̇, v̇) = Ψ(u, v),
avec v = u̇.

La stabilité du point d’équilibre est conditionnée par les propriétés de la matrice

 
  −1 1 0 · 0
0 Id 
 0 −1 1 · · 

   
∇Ψ|y=yf = 1 1  , avec Aper =  · · · · 0 
ϕ′ (ue )Aper − Id 
 0 · −1 1


τ τ ·
1 0 · 0 −1

La matrice Aper est somme de − Id et d’une matrice circulante C. Cette dernière vérifie
C n = Id, son polynôme caractéristique est donc X n − 1, et ses valeurs propres sont ainsi les
racines n-ièmes de l’unité. Les valeurs propres de Aper sont donc

2ikπ
µk = −1 + exp , k = 1, . . . , n.
n
le problème aux valeurs propres pour la matrice globale s’écrit donc

ϕ′ (ue )

λ ϕ′ (ue )

1
v = λu , Au − v = λv =⇒ λ2 + − A u=0
τ τ τ τ

78

Pour tout couple propre uk , µk = −1 + exp 2ikπ n de Aper , on aura donc deux valeurs
propres pour la matrice globale, qui sont les racines de
λ ϕ′ (ue )
λ2 + − µk = 0,
τ τ
c’est à dire s !
1 2ikπ
λ±
k = −1 ± 1− 4ϕ′ (ue )τ 1 − exp
2τ N
Notons α = 4ϕ′ (ue )τ . Le lieu des λ±
k est donc l’ensemble image du cercle unité par la trans-
formation (bivaluée) dans le plan complexe
q
z 7−→ −1 ± 1 − α(1 − z) /2τ .

Le point essentiel est de déterminer si les valeurs propres sont toutes de parties réelles posi-
tives. On se ramène donc à la question suivante : la racine carrée du cercle centré (sur l’axe
réel) en 1 − α et de rayon α appartient-elle au demi-espace Re(z) ≤ 1 ?

On peut préciser la réponse à cette question :

Lemme 7.1. La racine carrée du cercle centré (sur l’axe réel) en 1−α et de rayon α intersecte
le demi espace Re(z) > 1 si et seulement si α > 2.

Démonstration. Une première approche consiste à poser le problème à l’envers, en remar-

quant 46 qu’il y aura des point de l’ensemble recherché qui sont à droite de la droite Re(z) = 1
dès que le carré de cette droite intersecte le cercle Cα en d’autres points que 1. Le carré de
cette droite est une parabole, lieu des z = (1 + iy)2 = 1 − y 2 + 2iy pour y décrivant R. Le
rayon de courbure en 1 de cette parabole est 2, il est donc plus petit que le rayon α du cercle
dès que α > 2.

On peut essayer de se faire une idée plus précise du lieu des valeurs propres : l’ensemble
que l’on cherche à décrire est l’ensemble des x̄ + iȳ tels que
x̄2 − ȳ 2 = x , 2x̄ȳ = y
où x + iy décrit le cercle d’équation (x − 1 + α)2 + y 2 = α2 . Il s’agit donc d’une courbe
quartique d’équation
2
x̄2 − ȳ 2 − 1 + α + 4x̄2 ȳ 2 = α2 ,
qui contient le point z = 1.

On pose X = x̄2 , Y = ȳ 2 , pour obtenir

(X − Y − 1 + α)2 + 4XY = α2 , soit Ψ(X, Y ) = 0.
La dérivée de Ψ par à X, qui est 2(X + Y − 1 + α) est non nulle en (1, 0). On peut donc
d’après le théorème des fonctions implicites, exprimer X fonction de Y au voisinage de ce
point, et estimer la dérivée de cette courbe
dX 2−α
= ,
dY |(1,0) α
qui est > 0 (ie. les abscisses dépassent strictement 1) dès que α > 2.
46. Astuce suggérée par S. Di Marino

79
2,5 2,5

0 0

-2,5 -2,5
-5

-2,5

2,5

-5

-2,5

2,5

5
Figure 7.1 – Cercles (gauche) et quartiques associées (droite), pour α = 0.3 , 0.5 , 1 , 2 , 6.

Remarque 7.2. Pour α entre 0 et 2, le lieu des valeurs propres est une quartique dans la
bande x ∈ [−1, 1], tangente en 1 à la droite y = 1. Noter que, bien que le comportement soit
stable, on a des valeurs propres de partie réelle certes négative mais petite en valeur absolue.
Ces valeurs propres correspondent à des racines n−èmes proches de 1, donc des modes de très
basses fréquences (oscillations en espace dont la période est le l’ordre de la longueur totale
du chemin).

Remarque 7.3. Pour α = 1/2, le lieu des valeurs propres est une lemniscate de Bernoulli
(voir figure 7.1), qui correspond à la transition vers la connexité du lieu des valeurs propres.
Pour α = 1, la quartique est le cercle unité (en fait deux copies du cercle unité confondues).
Pour la valeur critique α = 2 on a une forme de stade allongée verticalement, avec une
courbure nulle en 1 ; pour α > 2, la courbe délimite un ensemble qui n’est plus convexe.

Mode le plus instable

On peut pousser l’analyse ci-dessus en cherchant à identifier le mode le plus instable. A

partir de
(X − Y − 1 + α)2 + 4XY = α2
on obtient
dX X +Y +1−α
=− .
dY X +Y −1+α
La variable X est donc maximale pour Y = −X − 1 + α. En réinjectant dans l’équation de
la courbe, on obtient
α2
X= .
4(α − 1)
Pour estimer l’angle correspondant au mode le plus instable, on se ramène à la variable x :

x − 1 + α = X − Y − 1 + α = 2X.

L’angle est donc

2X α
θ = arccos = arccos .
α 2(α − 1)

80
1

0,75

0,5

0,25

2,5

3,5

4,5

5
Figure 7.2 – Angle θ (mode le plus instable) fonction de α.

Pour α grand, on tend donc vers un angle de π/3, ce qui correspond à la N/6-ième racine
N-ième de l’unité (on suppose N divisible par 6, sinon le mode le plus instable est le plus
proche de celui-là). Le vecteur propre de la matrice Aper associé à la k-ième racine est

uk = e2iπkn/N ,
n

soit, avec k = N/6, une oscillation de période 6 en n. Le mode le plus instable est donc
un mode de petite période (relativement au nombre total de véhicules, supposé grand), qui
affecte typiquement des groupes de 6 entités consécutives, avec alternances de sous paquets
de 3 en compression, décompression, etc . . ..

On peut aussi estimer cet angle au voisinage de l’apparition de l’instabilité (α = 2+ ), en

écrivant ε = α − 2, on a

α 1 + ε/2 ε √ √
θ = arccos arccos = arccos 1 − + o(ε) ∼ ε = α − 2.
2(α − 1) 1−ε 2

On aura donc pour α − 2 petit un angle θ petit, ce qui correspond à des basses fréquences
en espace, mais la croissance de θ vis-à-vis de α − 2 est très raide : le mode le plus instable
correspond très vite à une mode de haute fréquence (oscillation qui implique localement un
nombre faible d’entités). Si l’on prend par exemple α = 2.3, on a un angle autour de π/6, qui
correspond à une perturbation qui affecte localement 12 entités (voir figure 7.2). La plage sur
laquelle les modes les plus instables sont de basse fréquence est donc extrêmement étroite : il
peut être délicat de les observer en pratique 47 .

Remarque 7.4. Le paramètre α qui conditionne la stabilité s’écrit

α = 4ϕ′ (ue )τ,

qui est bien un nombre sans dimension : ϕ associe à une distance une vitesse, sa dérivée
est donc l’inverse d’un temps η. C’est le temps caractéristique associé au modèle d’ordre un
en temps (voir proposition 6.6, page 67). La condition d’instabilité s’écrit donc τ /η > 1/2.
Le temps τ quantifie la réactivité de l’entité. Dans le cas du trafic routier, cette réactivité
englobe la réactivité du véhicule. On pourra se faire une idée de ce temps caractéristique en
47. La plage de valeurs sur laquelle on a des basses fréquence, i.e. le voisinage immédiat de 2+ , est d’une
amplitude inférieure à la précision que l’on peut espérer avoir sur l’estimation des paramètres τ et η = ϕ′ (ue ).

81
imaginant l’expérience suivante : le véhicule nous précédant pile brusquement, quel temps
allons nous mettre pour ralentir significativement notre vitesse (i.e. réduction au 2/3, pour
fixer les idées) ? Ce temps 48 est de l’ordre de quelques seconde, disons 5 ou 6. La condition
indique que l’on aura donc un système plus stable dans le cas d’une bonne réactivité (τ petit).
Le temps η qui intervient dans le modèle de comportement est moins directement accessible à
l’intuition, puisqu’il apparaı̂t en fait comme l’inverse d’une variation en vitesse relativement
à la distance. Dans l’hypothèse raisonnable d’une fonction ϕ concave, défini par exemple
par (7.2), on a
U
ϕ′ (ue ) = exp(−ue /us ).
us
Dans les cas “dilués” (ue grand devant us ), η sera très petit, et le système sera stable. La
situation intéressante pour un trafic dense, i.e. exp(−ue /us ) ≈ 1. Le temps η s’écrit alors
us /U , où U est la vitesse maximale autorisée, et us la distance “typique entre véhicule”, plus
précisément la distance inter-véhicules correspondant à une vitesse de 1 − 1/e ≈ 0.6 fois
la vitesse maximale. Sur autoroute, on peut prendre une centaine de mètres comme ordre
de grandeur, ce qui donne un η de l’ordre de 2 ou 3. On vérifie ainsi immédiatement que
la valeur critique 1/2 correspond à l’ordre de grandeur de τ /η : il peut être très délicat en
pratique de savoir si l’on est dans une situation stable ou instable.

Exercice 7.1. On trouve dans les ouvrages de sécurité routière les ordres de grandeur suivant
pour la distance totale (temps de réaction + freinage effectif) d’arrêt en fonction de la vitesse :

Vitesse (en km h−1 ) 30 50 70 90 120

Distance (en m) 14 28 46 68 108

En supposant que chaque conducteur adapte sa distance à sa vitesse en considérant qu’il

doit pouvoir éviter la collision en cas d’arrêt brusque du véhicule devant lui, estimer le para-
mètre η en fonction du régime d’écoulement (densité ou distance inter-véhicule), et préciser
la condition que doit vérifier le temps τ (qu’on peut considérer encoder le temps de réaction
effectif du conducteur et de son véhicule) pour que l’on ait stabilité asymptotique du régime
stationnaire.
Exercice 7.2. On considère un modèle de piéton dans un couloir circulaire, avec une fonction
ϕ basée sur les mesures décrites dans la section ??, plus précisément la figure ??, page ??.
Ces données permettent de reconstruire la fonction ϕ qui décrit le comportement des piétons,
et donc, à une densité L/n donnée (ou de façon équivalente une distance moyenne entre
personnes), on peut estimer le ϕ′ (ue ) = 1/η. Le paramètre τ du modèle décrit dans cette
section, qui encode des effets purement instationnaires, n’est pas accessible à partir de ces
données. Evaluer la stabilité du système en fonction du régime considéré, et du paramètre τ
du modèle.
48. Cette démarche nous met face à un défaut manifeste du modèle. Si l’on renverse l’expérience en considé-
rant une situation où le véhicule devant nous “disparaı̂t” (par exemple un tracteur qui se range sur le bord de
la route pour nous laisser passer), le temps mis pour atteindre la vitesse maximale va être beaucoup plus long
que ces quelques secondes, à moins d’avoir un véhicule extrêmement puissant. On sent qu’il faudrait un τ pour
l’accélération, et un autre pour la décélération. Une telle démarche pourrait s’envisager, mais précisons que la
nature du modèle change considérablement, puisque le modèle n’est plus Lipschitz (il est quand même continu
car le “switch” se produit précisément quand la différence entre la vitesse souhaitée et la vitesse effective change
de signe, et donc s’annule).

82
7.3 Extensions, développements

Modèle macroscopique associé. Comme dans le cas du modèle d’ordre 1, on peut dériver
formellement une équation aux dérivées partielles pour les perturbations de distances au
voisinage d’un point d’équilibre. On a
1
üi = (ϕ(ui+1 ) − ϕ(ui ) − u̇i ) .
τ
La situation ui ≡ ue est point d’équilibre du système 49 . On considère une perturbation de
cette situation, les distances sont de type ue + ui , où ui est maintenant une (petite) variation
de ue . On obtient

1 ′ 1 ui+1 − ui
üi = ϕ (ue )(ui+1 − ui ) − u̇ = ue ϕ′ (ue ) − u̇
τ τ ue
Si l’on considère que les ui sont les valeurs d’une fonction lisse u aux points équidistants de
ue , on obtient formellement
1
∂tt u + (∂t u − c∂x u) = 0,
τ
′
avec c = ue ϕ (ue ).
Exercice 7.3. Montrer que le modèle macroscopique obtenu précédemment présente un com-
portement génériquement instable. Préciser ce qui est le plus discutable dans le développe-
ment asymptotique formel ayant conduit au modèle, et qui peut expliquer que le régime stable
observé pour le modèle microscopique ait complètement disparu au niveau macroscopique.
Exercice 7.4. Proposer un modèle qui prenne en compte à la fois l’inertie de l’entité en
mouvement (comme cela a été fait dans cette section), et le fait que les conducteurs ou
piétons mettent un certain temps à réagir. On pourra introduire (comme dans l’exercice 6.3)
une distance subjective wi pour chaque individu, et considérer qu’on a relaxation de cette
distance vers la vraie distance instantanée, avec un temps caractéristique τ ′ .

49. On pourra considérer le cas périodique, avec ue = L/n, ou la situation d’entités sur une voie rectigne,
derrière une entité de tête à vitesse fixée égale à ve = ϕ(ue ).

83
Deuxième partie

Notions, développements transverses

84
8 Analyse fonctionnelle et modélisation

Nous rassemblons ici quelques interprétations en termes de modélisation de notions théo-

riques en analyse fonctionnelle.

8.1 Espaces de Sobolev

Système masses-ressort en dimension 1

On considère un ensemble de N + 1 masses alignées sur l’axe des x, reliées par des ressorts
de même raideur kN et même longueur au repos ℓN . On impose x0 = 0 et xN = 1 (la chaı̂ne
est accrochée à ses extrémités). On note (xi ) la configuration de référence 50 , avec xi = i/N .
La position de la masse i est notée xi + ui . L’énergie potentielle élastique du système est
−1
1 NX
EN = kN | xi+1 − xi + ui+1 − ui − ℓN | 2 .
2 i=0

Si l’on choisit ℓN de telle sorte que la configuration de référence soit d’énergie nulle, i.e.
ℓN = 1/N , on obtient
−1
1 NX
EN = kN | ui+1 − ui | 2 ,
2 i=0
que l’on peut aussi écrire
−1
1 NX ui+1 − ui 2
EN = ℓN (kN ℓN ) .
2 i=0 ℓN

En choisissant kN = K/ℓN , on reconnait une somme de Riemann, qui converge donc lorsque
N tend vers +∞ (en supposant que ui est la valeur en xi d’un champ de déplacement
continûement différentiable x 7−→ u(x)), vers
Z 1
K 2
u′ (x) dx,
2 0

ce qui permet d’interpréter le carré de la semi-norme H 1 comme l’énergie potentielle méca-

nique d’un système élatisque obtenu comme limite du système discret de masses reliées par
des ressorts, avec une raideur qui tend vers l’infini comme le nombre de masses.

On peut retrouver la norme H 1 complète (avec la partie L2 ) en considérant que chacune

des masses du système discret est accrochée au point de référence xi par un ressort de longueur
au repos nulle, et de raideur kN0 . Le surplus d’énergie discrète est alors

−1
1 NX
0
EN = k0 |ui |2
2 i=1 N

50. Cette configuration minimise l’énergie potentielle dans le cas où la longueur au repos est inférieure à
1/ℓN .

85
qui tend vers
K0
Z 1
0
E = u(x)2 dx,
2 0
0 = K0 ℓ .
si l’on prend kN N

Noter que la raideur des ressorts “externes” tend vers 0, alors que celle des ressorts internes
tend vers +∞.

Les fonctions de H 1 sont continues en dimension 1. Si un champ de déplacement u

présente une discontinuité, alors pour le système discret associé l’un des ui+1 − ui va tendre
vers une valeurs non nulle. Or l’énergie d’un ressort du système discret est KN |ui+1 − ui |2 ,
qui tend alors vers l’infini quand N tend vers l’infini.

Système masses-ressort en dimension ≥ 2

En dimension 2, on peut concevoir un ensemble de (N + 1)2 masses disposées aux nœuds

d’un réseau cartésien. L’extension directe de ce qui précède consiste à considérer des déplace-
ments de masses dans le plan du réseau, donc des déplacements vectoriels (ce qui est possible,
et conduirait à une norme du type de celle que l’on tuilise en elasticité pour les déplacements).
Pour rester sur un champ scalaire, on considère plutôt ici des déplacements verticaux (dans
la direction transverse au plan du réseau), et l’on suppose que les masses sont reliées (entre
voisines) par des ressorts de longueur au repos nulle, et de raideur kN . Les masses sur le bord
sont supposés fixées. Si l’on note ui,j le déplacement vertical, l’énergie du ressort entre (i, j)
et (i + 1, j) s’écrit
kN 2
ℓN + |ui+1,j − ui,j |2 .
2
L’énergie totale du système s’écrit comme
X X 1
kN 2ℓ2N + |ui+1,j − ui,j |2 + |ui,j+1 − ui,j |2
0≤i≤N −1 0≤j≤N −1
2
!
2 2
X X 1 ui+1,j − ui,j ui,j+1 − ui,j
= KN + kN ℓ2N +
0≤i≤N −1 0≤j≤N −1
2 ℓN ℓN
qui approche, si l’on prend kN = k (indépendant de N )
Z
k
k+ |∇u|2 ,
2 Ω

où ui,j est la valeur du champ u (supposé continûment différentiable) au point (iℓN , jℓN ).
Le k dans l’expression précedente correspond à l’énergie du réseau non déformé (qui est non
nulle du fait que les longueurs aus repos ont été prises égales à 0). On trouve donc ici une
interprétation mécanique de la semie-norme de Sobolev en dimension 2.

Réseaux résistif

On peut également interpréter la semi-norme de Sobolev comme la version continue d’une

énergie dissipée au sein d’un réseau résistif (circuit électrique ou réseau de conduits pour un
fluide visqueux). Cette approche est décrite dans la section 4.2, page 48.

86
On peut (voir section 22.3 ci-après) donner un sens à la partie L2 de la norme en considé-
rant que les points du réseau sont reliés directement à des points extérieurs portés au potentiel
nul (ou pression nulle dans la cas d’un fluide).

8.2 Traces

La démarche de définition d’une trace dans un sens assez général peut se formaliser de
la façon suivante, pour des fonctions définies sur un domaine de l’espace euclidien (voir plus
bas pour une généralisation à d’autres situations).

On considère un domaine Ω de Rd , et un espace vectoriel de (classes de) fonctions sur Ω

noté H, muni d’une norme k · k qui en fait un espace de Banach. On suppose que H contient
l’espace D(Ω) des fonctions continues à support compact sur Ω. On note H0 l’adhérence de
D(Ω) dans H.

Deux types de questions se posent de façon naturelle :

1. L’espace quotient (voir proposition 19.8, page 192) H/H0 est-il trivial ou pas ? Ques-
tion accompagnée d’une question subsidiaire dans le cas où l’espace quotient est trivial :
pourquoi est-il trivial ? (nous préciserons le sens de cette interrogation plus loin).
2. Si cet espace (défini sans ambiguı̈té, mais de façon abstraite) n’est pas trivial, peut-on
le décrire ? L’identifier à un espace de fonctions définies sur ∂Ω ?

Considérons tout de suite une autre situation, sorte de problème-jouet, qui nous permettra
de préciser rapidement le sens et l’enjeu des questions précédentes. On considère maintenant
que H est un sous-espace vectoriel de RN , muni d’une norme qui en fait un espace de Banach.
On note maintenant D le sous-espace des suites nulles au delà d’un certain rang. Pour H = ℓp ,
avec p ∈ [1, +∞[, l’espace quotient est trivial. Pour ℓ∞ , la situation est déjà plus riche,
l’espace quotient contient en premier lieu les classes (distinctes) des suites constantes (ces
classes s’identifient aux suites qui admettent une limite finie en +∞). On peut en fait vérifier
que l’espace quotient n’est pas séparable, alors que H0 l’est dans ce cas : toute la richesse de
l’espace est en fait “au bord” (comportement en n 7−→ +∞).

Considérons maintenant, pour (αn ) ∈]0, +∞[N donné, l’espace

n X o
H = u = (un ) ∈ RN , u0 = 0 , αn |un+1 − un |2 < +∞ , (8.1)

muni de la norme naturelle associée à sa définition. Il s’agit d’un espace de Banach, et même
d’un espace de Hilbert (isométrique à l’espace modèle ℓ2 ).

Supposons en premier lieu que αn ≡ 1. On peut alors vérifier (voir proposition 8.1 ci-
dessous) que D est dense dans H, donc que l’espace quotient est trivial : il n’y a “rien”
en l’infini. Noter que H = H0 ne signifie aucunement que toutes les suites seraient d’une
certaine manière nulles en +∞, c’est même plutôt le contraire : par exemple la suite un =
1+ 1/2+ · · ·+ 1/n, qui tend vers +∞, est dans H. On peut construire aussi très simplement 51
des suites qui tendent vers n’importe quelle valeur réelle en +∞. Symétriquement, dans
51. On peut même avec un peu plus de travail construire des suites dans H dont l’ensemble des valeurs
d’adhérences est R tout entier : c’est vraiment n’importe quoi.

87
ce contexte, il est tentant de dire que par exemple la suite triviale identiquement nulle ne
converge pas vers 0, c’est à dire que, au vu de la norme définie sur les suites, il n’est pas licite
de parler de sa valeur en +∞ comme étant 0, puisqu’elle peut être approchée arbitrairement
près par des suites qui ont un comportement très différent en +∞.

Les remarques ci-dessus donnent une première réponse informelle au pourquoi ? de la pre-
mière question au début de cette section : l’espace quotient est trivial parcequ’il est impossible
de définir la limite d’une suite de H en +∞.

On peut montrer a contrario que, si la suite des αn croı̂t suffisamment vite, l’espace
quotient est non trivial. On a plus précisément :
Proposition 8.1. Soit H l’espace défini par (8.1), et H0 l’adhérence de D (sous espace des
suites nulle au delà d’un certain rang). On a
X 1 X 1
< +∞ =⇒ H/H0 ≃ R , = +∞ =⇒ H/H0 ≃ {0}.
αn αn

qui tend vers 0 quand p et q tendent vers +∞ : la suite est de Cauchy, donc converge vers
une valeur réelle. On note ϕ la forme linéaire qui à une suite de H associe sa limite. On a
!1/2
X 1 X 1/2 1
|un | = | un − un−1 + un−1 − · · · − u0 + u0 | ≤ √ αn |un+1 − un |2 ≤ kukH .
αn α
Il s’agit donc bien d’une forme linéaire continue, de norme ≤ 1.

Cherchons maintenant à identifier l’orthogonal de H0 . Tout suite h dans cet orthogonal

est telle que la quantité αn (hn+1 − hn ) est constante (h est harmonique au sens discret). On
note q cette constante, on a
n n
X X 1 q
hn = (hk − hk−1 ) = q −→ ,
k=1 k=1
αk−1 α

de telle sorte que h est entièrement déterminée par sa limite quand n tend vers ∞.

Considérons maintenant la situation où la série des 1/αn diverge, et montrons que toute
suite u de H peut être approchée par une suite de D, ce qui assurera la trivialité de H/H0
(absence de trace). Pour u ∈ H donné, on construit uN de la façon suivante : uN n est égal à
un pour n ≤ N , et uN
n décroı̂t (ou croı̂t si un est négatif) vers 0 entre N et un indice M >N
N
que nous fixerons ultérieurement. La suite u ainsi construite est dans D On impose
αn (uN N
n+1 − un ) = q

constant pour n entre N et M − 1. On a donc

M −1
X 1
uN = uN N N N N N
N = uN − uN +1 + · · · − uM −1 + uM −1 − uM = q = qrN M .
n=N
αn

88
On a donc
M −1
X 1
αn (uN N 2 2
n+1 − un ) = q rN M = (uN )
2
.
n=N
rN M
Par divergence de la série, 1/rN M peut être rendu arbitrairement petite, on choisit par
exemple M = M (N ) tel que (uN )2 /rN M < 1/N . On a ainsi convergence de uN vers u
pour la norme de H.

Comme suggéré précédemment, on peut avoir trivialité de l’espace quotient pour des
P
raisons différentes. Considérons par exemple, sous l’hypothèse 1/αn < ∞, l’espace
n X X o
H = u = (un ) ∈ RN , u0 = 0 , u2n + αn |un+1 − un |2 < +∞ . (8.2)

L’espace D des fonctions nulles au delà d’un certain rang est dense dans H, l’espace quotient
H/H0 est donc trivial. La situation est pourtant très différente du cas d’absence de trace de la
proposition précédente : ici, on peut définir d’une certain manière une trace (les suites de H
sont de Cauchy d’après la partie différentielle de la norme), mais cette trace est nécessairement
nulle.

Interprétation en termes de modélisation

Les espaces de suites définis ci-dessus peuvent s’interpréter de la façon suivante : on

considère une infinité de fils électriques, de résistances r1 , . . ., rn , . . ., mis bout à bout. On
note αn = 1/rn la conductivité du fil n. Pour faciler la représentation mentale d’un fil global
qui possède bien 2 bouts (en 0 et en +∞), on pourra imaginer que les longueurs des fils
forment une série convergente, et que l’on peut ainsi identifier la chaı̂ne à un fil de longueur
finie, que l’on peut plonger dans l’espace euclidien.
r1 r2 r3 r4

Figure 8.1 – Réseau linéaire semi-infini

On note un et un+1 les potentiels électriques aux extrémités du n-ième fil, on a par
hypothèse un potentiel nul à l’extrémité 0. La question qui se pose est de savoir s’il cela a
un sens d’imposer un potentiel non nul U à l’extrémité ∞. Pour le fil tronqué à N bouts, on
s’intéresse à la minimisation de
N N
X X 1
αn |un − un−1 |2 = |un − un−1 |2 ,
n=1 n=1
rn

avec valeurs imposées 0 et U aux extrémités. Le minimum est atteint en une collection u de
potentiels unique, tels que
qn = αn (un − un−1 ) = q

89
est constant. Cette quantité q correspond à l’intensité électrique qui traverse le fil, et la somme
ci-dessus vaut
N N N
X 1 X X
|un − un−1 |2 = rn |qn |2 = rn |q|2 ,
n=1
r n n=1 n=1
| {z }
=RN

qui exprime la puissance dissipée (effet Joule). L’appartenance à l’espace H exprime le fait
que le courant électrique généré par les potentiels (un ) induit une puissance dissipée finie. On
prendra garde au fait que H contient des potentiels non harmoniques, i,e. tels que les intensités
peuvent varier d’un segment à l’autre : la loi des nœuds n’est pas vérifiée, de l’intensité
peut rentrer ou sortir du domaine par les points de jonction, mais sans induire de puissance
dissipée supplémentaire (voir ci-après une situation qui pénalise énérgétiquement ces fuites).
Le cas correspondant à αn ≡ 1 exploré précédemment correspond ici plus généralement à
P P
R = rn = 1/αn = +∞ : la résistance globale du fil “infini” est infinie, ce qui signifie
qu’il est impossible de faire passer une intensité non nulle dans le fil en dissipant une quantité
finie d’énergie. Si l’on reprend le fil tronqué précédemment, il apparaı̂t que, quel que soit
le potentiel U imposé en sortie, l’intensité tend vers 0 quand N tend vers +∞. on a aussi
convergence simple vers 0 de toutes les potentiels ponctuels. Pour le fil infini, la conséquence
est que l’on peut imposer n’importe quel potentiel à l’extrémité +∞ sans qu’il se passe quoi
que ce soit. L’extrémité ∞ est isolante : le potentiel imposé n’est pas vu par le système. Cette
situation correspond au cas d’un espace-quotient trivial (pas de trace), avec valeur au bord
quelconque.

La situation qui correspondrait au cas alternatif d’un espace quotient trivial par nullité
forcée des champs au bord peut être construite comme suit : on considère maintenant un fil
P P
infini de résistance globale finie, en supposant rn = 1/αn < +∞. On a alors H/H0 6= {0},
cet espace s’identifie à R, ce qui signifie que cela a un sens d’imposer un potentiel non nul en
∞ (il s’agit en fait d’un problème de Dirichlet discret). Considérons maintenant que chaque
point de jonction soit lui même relié à la terre (potentiel nul) par un fil de résistance unitaire.
La puissance dissipée par effet Joule dans l’un de ces fils transverses est αn (un − 0)2 . L’espace
d’énergie du problème (ensemble des potentiels qui induisent une puissance dissipée finie) est
maintenant défini par l’équation (8.2). On retrouve la situation l’un espace quotient nul, mais
pour une raison bien différente : le potentiel en ∞ est nécessairement nul. Plus précisément,
imposer un potentiel non nul induirait une puissance dissipée infinie.

Remarque 8.2. Cette construction peut se faire dans un cadre mécanique, en considérant
un système mécanique constitué d’une infinité de ressorts. Les potentiels sont alors remplacés
par des déplacements, les intensités par des forces, et les conductances αn par des constantes
de raideur. Un tel système mécanique sans trace est alors localement infiniment mou (on
peut déplacer le “point” du bord infiniment facilement, ou alors (dans le cas où l’on attache
les points de jonction, simplement reliés entre eux dans le premier cas, à un support fixe)
infiniment raide (il est impossible de déplacer le point au bord avec une énergie finie).

Nous avons abordé la première des deux questions initiales, qui portait sur la possibilité
de stucturer de façon non triviale le comportement des fonctions (ou des suites) au bord
du domaine. Comme le suggère l’exemple des suites, c’est une certaine rigidité de la norme
lorsque l’on s’approche du bord qui conduit au fait que l’espace quotient n’est pas trivial.
Dans le cadre de la proposition 8.1, c’est dans le cas où les αn croissent suffisamment (donc
rigidifient la suite en pénalisant l’écart entre valeurs successives) que l’on peut identifier un

90
espace de trace non trivial. La seconde étape consiste à décrire cet espace quotient non trivial,
par exemple en l’identifiant à un espace de fonctions qui vivent sur la frontière du domaine.
Nous allons voir que c’est maintenant une certaine forme de rigidité transverse de la norme
qui va conditionner le comportement des objets au bord du domaine.

Dans le cas des suites, la situation est évidemment assez pauvre, puisqu’il n’y a qu’un
point à l’infini, on ne peut donc trouver que R ou {0}. On peut néanmoins se faire une
première idée de cette notion de rigidité transverse en considérant un réseau de fils électrique
en forme d’échelle semie-infinie (voir figure 8.2), et en définissant l’espace de potentiels aux
nœuds de ce réseaux qui correpondent à une puissance dissipée finie. On note αn = 1/rn , et
l’on définit

X 2 X 2
H= u= (u1n , u2n ) , u10 = u20 , α′n u2n − u1n < +∞ , αn uin+1 − uin < +∞ , i = 1 , 2

r1 r2 r3 r4

r2′ r3′

r1 r2 r3 r4

Figure 8.2 – Réseau semi-infini

On suppose que la série des inverses des αn converge (ce qui revient à dire ici que la
résistance de chacun des “rails” est finie). Pour tout u dans H, les suites (u1n ) et (u2n ) sont
de Cauchy, donc convergent vers des valeurs U1 et U2 . Si les α′n sont nuls (résistances rn′
infinies), les deux rails sont indépendants, et l’on a un espace de trace H/H0 qui s’identifie à
R2 . Maintenant considérons par exemple que les α′n sont minorés (les résistances tranverses
sont majorées). Alors les deux suites de Cauchy précédentes sont nécessairement adjacentes,
et les limites sont donc les mêmes. On peut donc avoir H/H0 de dimension 1 ou 2, selon la
rigidité transverse induite par les conductances α′n . Si l’espace est de dimension finie comme
ici, le problème se ramène à déterminer sa dimension, et éventuellement à identifier une norme
naturelle sur cet espace.

Dans le cas de fonctions définies sur un domaine euclidien, ce qui joue le rôle des deux
“bouts”est une variété (le bord de Ω), ou par exemple les directions vers l’infini si Ω est l’espace
entier. Les deux valeurs aux bouts sont remplacées par une fonction qui vit sur cette variété.
On pourra alors retrouver le cas H/H0 trivial sous deux formes : la situation d’une trace
indéfinie (on peut avoir essentiellement n’importe quelle fonction au bord), ou la situation
de fonction nécessairement nulle. Cette propriété dépendra de la rigidité de la norme quand
on s’approche du bord. Pour le cas H/H0 6= {0}, selon l’importance de la rigidité transverse,
on pourra retrouver le cas où la fonction est nécessairement constante, ou des cas extrêmes
pour lequel la fonction ne présente par de régularité particulière, mais aussi des situations
intermédiaires dans lesquels la rigidité transverse impose une certaine régularité aux traces,
qui s’exprime par exemple dans le cas où H est l’espace de Sobolev H 1 (Ω), sous la forme
d’une régularité Sobolev fractionnaire H 1/2 en l’occurrence, pour un bord régulier.

91
9 Diffusion et hétérogénéité

9.1 Considérations générales

Une substance qui diffuse à tendance à se répartir uniformément dans l’espace disponible.
Cette tendance est exprimée par exemple par la convergence (uniforme) vers 0 du noyau
de la chaleur (équation (1.4), page 18) quand t tend vers +∞. Dans le cas d’un domaine
borné, une solution de l’équation de la chaleur, interprétée comme une courbe de densités de
probabilité, voit son entropie 52 diminuer au cours du temps (voir (10.4)). Au niveau discret
la suite de densités de probabilité associée au processus de diffusion associé à un réseau
résistif voit de la même manière son entropie relative par rapport à la mesure stationnaire
décroitre (voir section 4.3). Ce type de processus ne conduit ainsi pas spontanément à la
création de “formes” non triviales, mais au au contraire à un étalement de la matière vers une
situation d’homogénéité maximale. Sans rentrer dans des considérations philosophiques qui
dépasseraient le cadre de cet ouvrage et les compétences de son auteur, il est même surprenant
que le monde qui nous entoure, dont chaque sous-système fermé obéit au second principe de la
thermodynamique, puissent être aussi hétérogène et empli de formes (patterns) non triviales,
à différentes échelles. Nous nous proposons ici d’explorer quelques mécanismes impliquant un
processus de diffusion couplé avec un ou plusieurs autres ingrédients, et qui conduisent de
façon transitoire ou asymptotique à des distributions hétérogènes de matière, par opposition
à l’étalement vers la distribution uniforme associé au processus de diffusion seul.

Le plus simple de ces mécanismes est basé sur l’ajout d’un terme de transport concentrant
au terme de diffusion dans l’équation de la chaleur, encodant une tendance à se diriger
dans une certaine direction. Considérons l’exemple d’un champ de vitesse u qui dérive d’un
potentiel Ψ, l’équation de transport diffusion associée s’écrit
∂ρ
− D∆ρ + ∇ · (ρu) = 0, u = −∇Ψ.
∂t
Si Ψ est par exemple strictement convexe coercive, elle admet un minimum unique sur Rd ,
et ce point de minimum est un attracteur global du système dynamique associé : toutes
les trajectoires ẋ = −∇Ψ(x) convergent vers ce même point. L’équation ci-dessus, appelée
équation de Fokker-Planck, ajoute au transport de la diffusion, et ρ, que l’on peut voir comme
une densité de probabilité, aura tendance à se concentrer autour de ce point de minimum
d’autant plus que le coefficient de diffusion est faible. Dans le cas d’un potentiel quadratique
Ψ = |x|2 , la densité limite sera une Gaussienne centrée en 0, de variance proportionnelle à D.

Cette équation est parfois utilisée pour modéliser le mouvement de particules ayant ten-
dance à diffuser tout en ayant la faculté de se mouvoir préférentiellement dans la direction du
gradient d’une certaine quantité (chimiotaxie). Dans ce contexte on écrira plutôt u = ∇Ψ, où
Ψ est par exemple une concentration en oxygène, et ρ une densité de bactéries dans un fluide.
On peut penser aussi à une foule décrite de façon macroscopique par une densité, composée
d’individus “agités” qui ont tendance à se diriger dans la direction d’un (ou plusieurs) point(s)
d’intérêt commun(s).

Noter que cette équation qui semble coupler diffusion et transport peut s’interpréter dans
certains contextes comme une équation de diffusion pure, dans un milieu hétérogène. Le
52. Dans le cas plus général d’une équation de diffusion et transport par un gradient, vers l’entropie relative
par rapport à la mesure stationnaire (définie par (10.3)).

92
processus de diffusion associé à un réseau résistif décrit dans la section 4.3 est d’ailleurs
l’équivalent discret de cette équation de Fokker Planck, le transport préférentiel selon certaines
directions étant encodé par les variations locales de conductances, qui biaisent la marche
aléatoire dans un sens ou dans l’autre. Le caractère essentiellement diffusif du phénomène
sous-jacent à cette équation est aussi d’une certaine manière attesté (voir section 10.2) par
la propriété de décroissance de l’entropie relative par rapport à la mesure stationnaire. Cette
mesure stationnaire est la (à constante multiplicative près) solution de l’équation stationnaire,
on retrouve son expression en remarquant que

ρ
−D∆ρ − ∇ · (ρ∇Ψ) = −∇ · ρ∇ (D log ρ + Ψ) = −∇ · ρ∇ D log ,
η

avec η = Ce−Ψ/D (mesure de Gibbs), qui est donc nul pour ρ = η.

Remarque 9.1. Plus précisément, l’évolution peut être interprétée comme un flot de gradient
pour cette fonctionnelle d’entropie relative si l’on se passe dans le cadre adapté de la métrique
de Wasserstein (voir section 11). Noter que cette analogie peut s’étendre au niveau discret
(équation (4.7), page 51) grâce à l’introduction récente d’une métrique de type Wasserstein
sur l’espace des mesures portées par les sommets d’un réseau résistif 53 .

Le cadre précédent s’appuie sur une composante exogène (le potentiel Ψ). Nous explorons
maintenant la possibilité de modéliser un phénomène d’agrégation en boucle fermée, en consi-
dérant des entités qui manifestent une tendance à se regrouper. Au niveau macroscopique,
une écriture brutale de le principe, par exemple en considérant que le flux J (définition 1.1,
page 11) est proportionel au gradient de ρ, ne conduit pas à un modèle pertinent, puisqu’il
s’agit de l’équation de la chaleur rétrograde, qui est mal posée selon tous les cadres formels
utilisables dans un contexte de modélisation. On obtient une situation plus riche et exploitable
(et considérée comme représentant assez fidèlement certains phénomènes expérimentaux) en
introduisant une quantité intermédiaire S, qui correspond à la concentration d’un chimio-
attractant émis par les entités elle-mêmes, est dont le mouvement diffusif est complété par un
biais dans la direction du gradient de cette nouvelle quantité. On obtient ainsi les équations
de Kelle-Segel, développées dans la section 9.2 ci-après.

Une autre approche permet de reproduire des distributions non uniforme de matière,
elle consiste à prendre en compte des mécanismes de réaction non linéaires afférents à la
population considérée, voire à plusieurs populations coexistantes. L’équation de ce type la
plus simple (en termes de modélisation tout du moins) est l’équation de Fisher KPP,

∂ρ
− D∆ρ = kρ(1 − ρ/ρmax ),
∂t
qui conduit génériquement à l’apparition d’une zone pleine (ρ ≈ 1) qui remplit progressive-
ment l’espace, séparée d’une zone vide (ρ ≈ 0) par une interface plus ou moins diffuse suivant
la valeur du coefficient de diffusion. Ce modèle est présenté dans la section 9.3.

Une situation plus riche est obtenue lorsque l’on considère un terme source possédant 2
états d’équilibre stables, séparés par un état intermédiaire instable. Même si cette équation
53. Voir : J. Maas, Gradient flows of the relative entropy for finite Markov chains, Journal of Functional
Analysis, 261(8), Pages 2250-2292 (2011).
[Link]

93
est en général motivée par la modélisation de phénomènes de séparation de phase, on peut
penser à une population ayant tendance à diffuser et à croitre (avec un terme de limitation
logistique) lorsque la densité dépasse une certaine valeur critique. En dessous de cette valeur,
la population tend à s’éteindre, et au dessus à croitre vers une valeur maximale (comme pour
l’équation de Fisher KPP). L’équation avec diffusion s’écrit
∂ρ
− D∆ρ = ρ(1 − ρ)(ρ − a),
∂t
elle modélise une compétition entre les deux états stables (0 et 1), compétition équilibrée si a =
1/2, de sorte que, selon la distribution initiale, l’évolution peut conduire à la dispartion d’un
des deux états, ou un coexistence entre les deux états. Si a est plus proche de 0 par exemple,
le bassin d’attraction de 1 s’en trouve agrandi, et on peut vérifier que l’on a convergence vers
l’état uniforme 1. Ce modèle est présenté dans la section 9.4.

Un autre point de vue a été apporté par Turing au début des années 50. Il a mis en évi-
dence (par des arguments de stabilité linéaire) le fait que, si l’on considère deux populations
réagissant entre elles de façons adaptée, un état d’équilibre au départ stable si l’on considère
simplement le système différentiel représentant les interactions mutuelles, pouvait être désta-
bilisé, paradoxalement, par la prise en compte de mécanismes de diffusion de chacune des
espèces en jeu, sous réserve que les coefficients de diffusion respectifs soient significativement
différents. La section 9.5 détaille l’étude de stabilité permettant de mettre en évidence ce
phénomène.

Les mécanismes évoqués ci-dessus conduisent à des formes variables, mais pour l’essentiel
régulières, la situation la plus riche de ce point de vue correspondant aux instabilités de
Turing, qui peuvent conduire à des distributions de motifs (textures) de type tâches ou rayure
De tels modèles sont utilisés pour expliquer l’apparition de motis sur le pelage de certains
animaux comme des félins (tigres ou léopards) ou des poissons 54 .

L’apparition spontanée de motifs plus irréguliers persistants nécessite de faire appel à de

nouveaux ingrédients, tout en gardant une place centrale à la diffusion. Précisons tout de suite
que l’apparition spontanée de motifs en dendrites, ou en filament, ne peut reposer que sur des
modèles moins bien posés que ceux considérés précédemment, et que l’analyse mathématique
en est en général plus délicate. On retrouvera sous différentes formes un principe d’évolution
très général, une sorte d’inverse de la loi de Fick à la base du processus de diffusion, qui
consiste à renforcer l’hétérogénétité en faisant grandir ce qui est déjà grand, et diminuer ce
qui est petit.

L’un des mécanismes conduisant à l’apparition de dendrites est connu sous le terme DLA
(Diffusion Limited Aggregation). On peut décrire ce mécanisme très informellement de la
façon suivante : on considère une première particule (on pourra se représenter ces particules
commes des entités de taille finie) fixe. On considère une seconde particule qui se déplace de
façon aléatoire (mouvement brownien ou marche aléatoire dans le cas discret) à partir d’une
position initiale lointaine. Lorsque cette particule rencontre la première, elle se colle à elle. On
fait ensuite partir une troisième particule, qui se collera à l’amas déjà formé dès le premier
contact. Le mécanisme de croissance associé à ce principe présente la particularité suivante :
si l’amas courant est de forme irrégulière, i.e. si son contour présente des creux et des bosses,
54. Voir par exemple : K. J. Painter, P. K. Maini, and H. G. Othmer, Stripe forma-
tion in juvenile Pomacanthus explained by a generalized Turing mechanism with chemotaxis,
[Link]

94
la particule suivante a plus de chance de le rencontrer au niveau d’une bosse que d’un creux.
Le mécanisme tend donc à renforcer les irrégularités, à toute échelle.

Une déclinaison déterministe de ce principe, sous la forme d’un système d’équations aux
dérivées partielles, est présentée dans la section 9.6.

9.2 Chimiotaxie, équations de Keller-Segel

On note ρ(x, t) la densité locale d’une population d’entités mobiles (dans un fluide ou un
substrat considéré lui-même comme immobile), animées d’une vitesse dirigée vers les zones
les plus riches en une certaine substance (appelée chemo-attractant), dont on notera c la
densité. Si l’on suppose que la vitesse est proportionnelle au gradient de S, que les entités
sont également l’objet d’un processus de diffusion, et enfin que le chimio-attractant diffuse
lui même au sein du milieu, on obtient le système

∂t ρ − D∆ρ + ∇ · (βρ∇S) = 0
∂t S − DS ∆S = 0.

Dans le cas (que l’on rencontre en pratique pour certaines bactéries) où la substance
c est émise par l’entité elle-même 55 , on obtient, en rajoutant un terme de disparition du
chimio-attractant, le système dit de Keller-Segel

∂t ρ − D∆ρ + ∇ · (βρ∇S) = 0
∂t S − DS ∆S = kρ − γS.

On suppose que le flux (diffusif en l’occurrence) de chimio-attractant au travers de la

frontière est nul :
∂S
DS = 0,
∂n
ainsi que celui de ρ. Ce flux s’écrit a priori

−D∂ρ/∂n + βρ∇S · n,

mais, du fait de la condition de Neuman sur S, ce flux est purement diffusif, ce qui conduit
là aussi à une condition de Neumann homogène
∂ρ
D = 0.
∂n
Remarque 9.2. Noter que, dans le cas extrêmes ou cette attraction entre congénères ne
passerait pas par l’intermédiaire d’une substance émise et ressentie, on aurait une vitesse
chemotactique du type u = β∇ρ, ce qui conduirait à phénomène d’anti-diffusion, et à une
équation de la chaleur rétrograde :

∂t ρ+βD∆ρ = 0
55. On peut penser à la phéromone émise par les fourmis, qui leur permet de choisir préférentiellement les
parcours déjà empruntés par leurs congénères.

95
qui est mal posée. Le système de Keller Segel, en prenant en compte de façon plus souple cette
attraction entre entités, traduit une tendance à la concentration qui pose de fait des problèmes
en termes de régularité de la solution, tout en permettant du fait du retard, que des solutions
régilières puissent exister, au moins localement en temps. On peut en particulier montrer 56
que, sous certaines conditions, le système conduit à l’apparition (en temps fini) de points de
concentration (masses de Dirac).

Si l’on suppose que la diffusion du chimio-attractant de concentration c est quasi instan-

tanée par rapport aux autres phénomènes (i.e. si Dc est grand), on peut remplacer, ce qui est
souvent fait en pratique, la seconde équation par une équation statique

γS − DS ∆S = kρ.

On obtient alorsle système de Keller -Segel dit parabolique-elliptique (par opposition au sys-
tème de départ, appelé parabolique-parabolique.

Conservation. On peut vérifier la conservation de ρ sur l’ensemble du domaine (ce qui n’est
pas une surprise, puisque les équations expriment précisément cette conservation sur tous les
sous domaines) en intégrant l’équation en ρ :
Z Z
d
ρ+ (−D∂ρ/∂n + βρ∂S/∂n) = 0.
dt Ω Γ| {z }
=0

Pour S, on a l’équation de bilan

Z Z Z Z
d
S+ (−DS ∂S/∂n) = k ρ−γ S,
dt Ω Γ| {z } Ω Ω
=0

qui exprime la variation de la quantité totale de chimio-attractant comme le bilan entre la

création et la disparition naturelle.
Exercice 9.1. Proposer des modifications au modèle de Keller-Segel, fondées sur le prise en
compte de phénomènes réalistes, qui pourraient empêcher (ou au moins retarder) le phéno-
mène de concentration.

9.3 Équation de Fisher KPP

Pour désigner les facteurs qui sont de nature à limiter la croissance d’un population,
comme la prédation, la limitation des ressources en nourriture, on utilise le terme d’effets
logistiques. Dans le contexte des équations différentielles ordinaires, lorsque l’on décrit une
population par sa seule taille, la manière la plus simple de les prendre en compte est de
considérer un terme de croissance du type ρ(1 − ρ), qui exprime que le taux de croissance
tend vers 0 lorsque ρ tend vers une valeur limite ici fixée à 1.
56. A. Blanchet, J. Dolbeault, B. Perthame, Two-dimensional Keller-Segel model : optimal critical mass
and qualitative properties of the solutions,
Electronic Journal of Differential Equations 2006, (2006) 1–32,
[Link]

96
Si l’on s’intéresse maintenant à une espèce distribuée non uniformément dans l’espace,
soumise à un processus de diffusion, on aboutit à l’équation dite de Fisher KPP :
∂ρ
− D∆ρ = kρ(1 − ρ/ρmax ),
∂t
où k correspond à un taux de reproduction à faible densité, et ρmax est la capacité du milieu.

Pour ce modèle, l’équation différentielle associée présente deux états d’équilibre (en 0 et
en ρmax ). Le premier est instable, le second est stable. La concentration aura donc tendance
à tendre partout vers la valeur 1 correspondant à l’état stable.

Fisher KPP en dimension 1.

Il peut être intéressant de s’interroger sur la possible existence de solutions de type onde
progressive, en dimension 1, pour l’équation de Fisher KPP
∂ρ
− D∆ρ = kρ(1 − ρ/ρm ).
∂t
Le second membre a été modifié par souci d’homogénéité, ρm est la densité maximale, dite
capacité du milieu, et k est un taux de reproduction (homogène à l’inverse d’un temps) sous
conditions optimales (à densité faible). On cherche une solution de la forme
ρ(x, t) = U (x − ct) , c > 0 , avec U ≥ 0,
de l’équation
∂ρ
− D∂xx ρ = kρ(1 − ρ/ρm ).
∂t
On a
−cU ′ − DU ′′ = kU (1 − U/Um ),
d’où, en écrivant u = U , v = U ′ ,
u′ = v (9.1)
1
v′ = (−ku(1 − u/um ) − cv) . (9.2)
D
Ce système u = F (u) admet deux point d’équilibre, (0, 0) et (um , 0). Le gradient s’écrit
 
0 1
∇F =  k c .
(2u/um − 1) −
D D
Les racines du polynôme caractéristique s’écrivent
√
−c ± c2 − 4kD
λ= en (0, 0),
2D
√
−c ± c2 + 4kD
λ= en (um , 0),
2D
Le point (um , 0) est donc instable (l’une des deux valeurs propres est réelle positive), alors
que le point (0, 0) est stable. On a des trajectoires issues de (1, 0) (pour x = −∞) qui vont
converger exponentiellement vers le point stable (0, √0). Mais seules les trajectoires telles que
u reste positif nous intéressent ici. Or, si c < 2 kD, les valeurs propres ont une partie
imaginaire non nulle, de telle sorte que les trajectoires vont s’enrouler
√ autour de l’origine, et
u prendra des valeurs négatives. On a donc nécessairement c ≥ 2 kD.

97
9.4 Équations d’Allen-Cahn

On considère ici une équation de réaction diffusion avec un terme source correspondant à
deux états stables, par exemple en 0 et en 1, et un état instable pour une valeur a entre 0 et
1. Il s’agit de l’équation dite d’Allen Cahn, qui s’écrit
∂ρ
− D∆ρ = ρ(1 − ρ)(ρ − a).
∂t
Dans ce cas, si a = 1/2 (situation équilibrée entre les deux états stables), on peut avoir
convergence vers une situation où co-existent les deux valeurs 0 et 1.

9.5 Motifs de Turing

Nous nous intéressons ici à des systèmes d’espèces en interaction, selon un système diffé-
rentiel
du
= f (u, v) (9.3)
dt
dv
= g(u, v). (9.4)
dt
On suppose que ce système admet un point d’équilibre stable, que l’on fixe en (0, 0) (quitte
à changer les fonctions f et g). On note F le champ définissant le système, et
! !
∂u f (0, 0) ∂v f (0, 0) a b
∇F (0, 0) = = .
∂u g(0, 0) ∂v g(0, 0) c d

La stabilité du point d’équilibre se traduit par

a + d < 0 , ad − bc > 0.

L’idée de Turing 57 a été de recherche la possibilité (a priori paradoxale) que rajouter de la

diffusion en espace à un tel système pouvait déstabiliser le processus d’évolution. On s’intéresse
donc au problème
∂u
− ∆u = f (u, v) (9.5)
∂t
∂v
− D∆v = g(u, v), (9.6)
∂t
dans un domaine Ω, avec des conditions de Neuman homogènes.

On s’intéressera en particulier à la version linéarisée de ce problème :

∂u
− ∆u = au + bv (9.7)
∂t
∂v
− D∆v = cu + dv. (9.8)
∂t
57. A. M. Turing, The Chemical Basis of Morphogenesis, Philosophical Transactions of the Royal Society
of London. Series B, Biological Sciences, Vol. 237, No. 641. (Aug. 14, 1952), pp. 37-72
[Link]

98
On s’intéressera au cas où la seconde espèce diffuse mieux que la première, i.e. D > 1. On
introduit la base Hilbertienne (wk ) des fonctions propres du Laplacien avec conditions de
Neuman :
−∆wk = λk wk .
En décomposant chacune des fonctions sur cette base :
X X
u= uk (t)wk (x) , v = vk (t)wk (x),

et en prenant le produit scalaire avec l’une des fonction wk , on obtient, du fait du caractère
orthogonal de cette base,

u̇k = auk + bvk − λk (9.9)

v̇k = cuk + dvk − Dλk . (9.10)

qui peut s’écrire !!

1 0
Ẏ = A − λk Y.
0 D
L’étude de stabilité du mode wk passe donc par la recherche des valeurs propres de la matrice
ci-dessus, somme de A et de la matrice diagonale multipliée par −λk . On note que la trace
de cette matrice,
a + d − (1 + D)λk ,
reste négative. On aura donc un mode instable lorsque le déterminant est négatif (valeurs
propres de signes opposés) :

ad − bc −λk (Da + d) + Dλ2k .

| {z }
>0

Pour les grandes valeurs propres, le déterminant reste positif. mais pour des valeurs propres
“petites” (en un sens à préciser), il est possible que ce déterminant devienne négatif si a > 0
et D est plus grand que 1. Noter que l’on a forcément d < 0 (pour que la trace non perturbée
soit négative), et, du fait que le déterminant non perturbé est positif, i.e. ad − bc > 0, b et
c doivent être de signes opposés. On peut alors avoir une plage de valeurs propres associés à
des modes instables, qui peuvent expliquer l’apparition de “motifs”.

Exemple. Un des exemples les plus simples est le suivant

∂u
− ∆u = u2 v − u (9.11)
∂t
∂v
− D∆v = r(1 − u2 v), (9.12)
∂t
où r et D sont des paramètres. On a un point fixe (1, 1), avec une matrice du problème
linéarisé qui s’écrit ! !
−1 + 2uv u2 1 1
= .
−2ruv −ru2 ) −2r −r
Pour r > 1, on a donc bien une trace (1 − r) négative, et un déterminant (= r) positif, donc
possibilité d’instabilités.

99
9.6 Croissance Dendritique

On considère 58 une population d’entités (de type bactéries) soumises à un processus de

diffusion non linéaire (paramètre m > 1 dans l’équation ci-dessous) lorsqu’elle est sous forme
active (densité ρ). L’entité passe sous forme passive (densité ρ) selon le taux µ. La forme
active croı̂t selon un taux qui dépend linéairement de la présence d’un nutriment, dont la
concentration est notée S, qui diffuse lui même (linéairement) dans le susbtrat.

∂ρ
− D∆ρm+1 = κρS − µρ
∂t
∂S
− DS ∆S = −κρS
∂t
∂ρ
= µρ
∂t
On notera que la variable ρ ne fait que stocker la quantité de ρ désactivé, elle n’est en fait
utilisée que pour des raisons de représentation graphique : c’est la quantité totale d’entités
ρ + ρ qui présente des motifs en dentrites.

58. Voir : S. Kitsunezaki, Interface Dynamics for Bacterial Colony Formation, J. Phys. Soc. Japan 66 (1997),
1544–1550. [Link]

100
10 Entropie

10.1 Entropie d’une variable aléatoire discrète

On considère une variable aléatoire discrète qui prend ses valeurs dans un ensemble de
cardinal N . La loi de cette variable est décrite par
X
p = (p1 , p2 , . . . , pN ) , pi ≥ 0 , pi = 1.

Definition 10.1. On définit 59 l’entropie de la loi discrète p comme

X
S(p) = pi log(pi )

Dans ce contexte l’entropie est toujours négative, égale à 0 si et seulement si la variable

est déterministe, et la valeur dans le cas uniforme pi ≡ 1/N est

S(pu ) = − log N.

Montrons que cette valeur est un minimum. Pour toute fonction ϕ convexe, on a

1 X 1 X
ϕ pi ≤ ϕ(pi ),
N N

d’où (avec ϕ(a) = a log a),

S(p) ≥ N ϕ(1/N ) = − log N.

L’entropie est donc minimale pour la loi uniforme, et seulement celle-là, et nulle dans
les cas déterministe. Elle quantifie en effet l’information que la connaissance de la loi de
probabilité donne sur le système.

Remarque 10.2. On peut vérifier que cette entropie tend à diminuer pour un processus
d’évolution de type diffusif 60 . Considérons par exemple une marche aléatoire sur un ensemble
à N points, avec passages équiprobables aux points suivants et précédents, et périodicité.
Notons ρn la loi de la position du point au temps n. A l’étape suivante, on a
1 n+1
ρn+1
i = ρi−1 + ρn+1
i+1 .
2
On a alors
X X 1
1X
n+1
S(ρ )= g(ρn+1
i ) = g ρni−1 + ρni+1 ≤ g ρni−1 + g ρni+1 = S(ρn ),
2 2

pour toute fonction g convexe (en particulier g(x) = x log x).

59. Dans ce contexte de théorie de l’information, on définit en général l’entropie comme l’opposé de cette
quantité. Ce choix correspond à l’entropie thermodynamique, qui augmente toujours pour un système fermé,
ce qui exprime le fait que le système évolue spontanément vers un état de désordre. On fait ici le choix de
l’entropie mathématique, son opposé, qui aura tendance à décroı̂tre pour les systèmes fermés.
60. L’exemple proposé ici est un cas particulier d’une propriété plus générale de décroissance de l’entropie
relative à la mesure stationnaire pour processus de markov diffusif, voir proposition 4.11.

101
Interprétation en termes de quantité d’information.
Dans le cas N = 2k , et si l’on choisit le logarithme de base 2, on a Smin = −k, qui correspond
au nombre de questions binaires qu’il faut poser pour localiser de façon sûre une valeur de
x qui a été tirée selon la loi uniforme (avec une stratégie de dichotomie : est-elle dans la
première moitié ? dans le premier quart de la première moitié ? etc ...). Dans le cas d’une
probablité non uniforme, cette interprétation en terme de bits d’information est plus délicate.
Considérons l’exemple de la distribution

1 1 1
p= , ,..., .
2 2(N − 1) 2(N − 1)

La variable a une chance sur deux de se trouver en première position, avec probablité uniforme
sur le reste si ça n’est pas le cas. L’entropie de cette loi est
1 X 1 1 1 1 1 k
− + log = − − − log(N − 1) ≈ −1 −
2 2(N − 1) 2(N − 1) 2 2 2 2

si N = 2k . Estimons maintenant le nombre de questions qu’il faut poser un moyenne pour

localiser une variable suivant cette loi. On peut considérer un grand nombre de tirage de cette
variable, avec à chaque fois la nécessité de la localiser en posant le minumum de questions
binaires. La premiere question sera : est-elle en 1 ? cette question aura une réponse positive
en moyennne une fois sur deux. Quand la réponse est négative, il faudra en gros k questions
supplémentaires (dichotomie) pour la localiser. On a donc en moyenne

1 1 k
+ (1 + k) = 1 +
2 2 2
qui correspond bien à l’opposé de l’entropie telle qu’on l’a définie.

Mesure de Gibbs. Un problème classique consiste à traduire sous forme de mesure de

probabilité la connaissance marginale apportée par une information. Supposons par exemple
que les états du système correspondent à des points de l’espace x1 , . . ., xN , et que l’on
connaisse l’espérance β d’une certaine fonction f selon la loi p. On notera pour simplifier Ei
la valeur de f en xi , et Ē l’espérance. On s’intéresse alors au problème consistant à minimiser
l’entropie S(p) sous les contraintes
N
X N
X
pi = 1 , pi Ei = Ē, (10.1)
i=1 i=1

avec Ē ∈] min Ei , max Ei [. Notons que si Ē est égal à l’une des bornes de l’intervalle, par
exemple max Ei , alors p est concentré sur les indices qui réalisent ce maximum. S’il n’y en a
qu’un, alors l’ensemble admissible est un singleton : le Dirac en ce point. S’il y en a plusieurs,
le minimum de l’entropie sera la distribution uniforme sur le sous ensemble d’indices qui
réalise le maximum. Bien entendu, si γ est à l’extérieur de l’intervalle fermé, alors l’ensemble
admissible est vide.

Proposition 10.3. On suppose Ē ∈] min Ei , max Ei [ et N ≥ 3. L’entropie p = (p1 , . . . , pN ) 7−→

S(p) admet un minimum unique sur RN + , sous les contraintes (10.1) de la forme

1
pi = exp (−βEi ) .
Z

102
Démonstration. Le minimum est atteint car la fonction est continue et l’ensemble admissible
compact. L’unicité du minimiseur découle de la stricte convexité de la fonctionnelle. Si le
minimiseur est atteint en un point de ]0, +∞[N , alors on a

1 + log pi + λ1 + λ2 Ei = 0,

de telle sorte que pi est de la forme

1
pi = exp(−βEi ).
Z
On peut démontrer de deux manières que le minimum est bien de cette forme, ou bien
en montrant que le minimum est bien atteint sur ]0, +∞[N (démonstration 1), ou alors en
montrant qu’il existe bien un (pi ) de cette forme qui vérifie les contraintes, et en concluant par
le théorème de Kuhn et Tucker. La deuxième démonstration est plus directe, mais la première
utilise une démarche de calcul des variations praticable dans de nombreuses situations, nous
développons donc ici ces deux approches.

Démonstration 1 : Supposons que le minimum ne soit pas dans ]0, +∞[N , que par exemple
p1 = 0. S’il existe 2 indices i1 et i2 à poids > 0 (donc nécessairement < 1) associés à des
valeurs de Ei distinctes, on considère une variation de p du type

h = εδ1 + ε1 δi1 + ε2 δi2 ,

avec ε > 0. Les conditions pour que h soit admissible s’écrivent

ε1 + ε2 = −ε , Ei1 ε1 + Ei2 ε2 = −εβ1 .

Pour ε positif suffisament petit, il existe donc un unique couple (ε1 , ε2 ) tel que p + h soit dans
K. Comme la dérivée de x 7→ x log x est −∞ en 0, la variation effectuée dominue strictement
l’entropie globale au voisinage de p, qui ne saurait donc être un minimiseur.

Si maintenant p charge un unique indice i (ou plusieurs indices associés à la même valeur
de l’énergie), alors nécessairement il existe deux indices i1 et i2 tels que

0 < Ei1 < Ei < Ei2 ,

car Ē est dans l’intérieur de l’enveloppe convexe des Ei . (On a par ailleurs supposé que les
Ei étaient positifs, ce qui ne nuit pas à la généralité du fait que l’on peut rajouter une même
constante arbitraire aux Ei et à Ē sans changer la condition.) On considère alors une variation

h = −εδi + ε1 δi1 + ε2 δi2 ,

avec ε > 0. Les conditions pour que cette variation soit admissible s’écrivent

ε1 + ε2 = ε , Ei1 ε1 + Ei2 ε2 = εEi .

La valeur de ε > 0 étant fixée, le système ci-dessus admet une unique solution (ε1 , ε2 ), avec
ε1 , ε2 > 0, du fait que Ei /E2 < 1 < Ei /E1 . La variation est donc admissible, et conduit pour
les mêmes raisons que précédemment à une diminution stricte de l’entropie.

Démonstration 2 : Considérons la fonction

P
exp(−βEi )Ei
g : β 7−→ .
exp(−βEi )

103
On a X X X 2
− exp(−βEi )Ei2 exp(−βEi ) + exp(−βEi )Ei
g′ (β) = X 2
exp(−βEi )Ei

qui est strictement négatif d’après l’inégalité de Cauchy-Schwarz (si les Ei ne sont pas tous
égaux, ce qui est le cas). La fonction g tend par ailleurs vers max Ei en −∞, et vers min Ei en
+∞. L’équation g(β) = γ ∈] min Ei , max Ei [ admet donc une solution unique. Le coefficient
Z de normalisation est alors déterminé par
X −1
Z= exp(−βEi ) .

Comme la fonction est convexe et le domaine convexe, la vérification des conditions de Kuhn et
Tucker assurent que le p ainsi déterminé est bien le minimiseur de S sur l’ensemble admissible
(Théorème 23.29, page 248).

10.2 Entropie continue

Soit maintenant Ω un domaine de Rd , et ρ une densité de probabilité définie sur Ω. On

définit dans le même esprit son entropie par
Z
S(ρ) = ρ log ρ dx.
Ω

On peut voir cette quantité comme une quantification de l’information que l’on a sur la
position d’une variable aléatoire qui suit la loi associée à cette densité. Lorsque l’on a la
densité uniforme ρ ≡ 1/ |Ω| (absence complète d’information), on a
Z
1 1
S(ρ) = log dx = − log |Ω|.
Ω |Ω| |Ω|

Conformément à l’intuition, cette valeur correspond à un minimum. En effet, pour toute fonc-
tion ϕ convexe, pour toute fonction g mesurable, l’inégalité de Jensen exprime que l’espérance
par rapport à une mesure de proba µ de ϕ ◦ g est supérieure à ϕ de l’espérance de g(x), i.e.
Z Z
ϕ g(x) dµ(x) ≤ ϕ ◦ g(x) dµ(x).
Ω Ω

On applique cette inégalité avec dµ = dx/ |Ω| (probabilité uniforme), ϕ(a) = a log a, et
g(x) = ρ(x) pour obtenir
Z
dx 1 1
S(ρ) = |Ω| ρ log ρ ≥ |Ω| log = − log |Ω|,
Ω |Ω| |Ω| |Ω|

avec inégalité stricte dès que ρ n’est pas la mesure uniforme p.p.

Considérons maintenant l’équation de la chaleur dans le domaine Ω, avec condition aux

limites de Neuman homogène (de façon à garder une masse 1 constante). On a
Z Z Z Z
d ∂ρ 1 ∂ρ
S(ρ) = (1 + log ρ) = (1 + log ρ)∆ρ = − ∇ρ · ∇ρ + (1 + log ρ) ≤ 0.
dt Ω ∂t Ω Ω ρ Γ ∂n

104
On trouve bien que l’entropie estRdécroissante. On notera qu’il en aurait été de même pour
n’importe quelle fonction S(ρ) = ϕ(ρ), avec ϕ convexe.

On considère l’équation d’évolution exprimant conjointement la diffusion et le transport

par un champ de vecteur qui est l’opposé du gradient d’un potentiel Ψ :
∂ρ
− D∆ρ + ∇ · (ρu) = 0, u = −∇Ψ, (10.2)
∂t
dans un domaine Ω borné, avec des conditions de bord qui assurent la conservation globale
de la masse :
∂ρ/∂n = 0 , u · n = −∂Ψ/∂n = 0.
On peut l’écrire

∂ρ ∂ρ ∇ρ 1 ∂ρ ρ
0= − ∇ · (D∇ρ + ρ∇Ψ) = − D∇ · ρ + ∇Ψ = − D∇ · ρ ∇ log ,
∂t ∂t ρ D ∂t π

avec π = e−Ψ/D .

On obtient immédiatement que ρ = βπ est formellement solution stationnaire de l’équa-

tion. Si l’on se place dans le cas de condition de Neuman homogènes, avec un champ de
vitesse tangent à la frontière, i.e. u · n = 0, on a conservation de la masse totale, et βπ est
bien solution stationnaire.

Vérifions que ρ tend bien vers cette mesure stationnaire en étudiant l’évolution de l’en-
tropie relative de ρ par rapport à π :
Z
ρ
S(ρ) = ρ log . (10.3)
π
On a
Z Z
d ρ
S(ρ) = (1 + log ρ − log π) ∂t ρ = D (1 + log(ρ/π)) ∇ · ρ ∇ log
dt π
Z 2 Z
ρ ρ
= −D ρ ∇ log +D (1 + log(ρ/π)) ρ ∇ log · n.
π ∂Ω π
Le terme de bord fait apparaı̂tre ∂ρ/∂n et ∂π/∂n, qui sont tous les deux nuls. On obtient
donc Z 2
d ρ
S(ρ) = −D ρ ∇ log ≤ 0, (10.4)
dt π
qui exprime la décroissance de l’entropie relative, décroissance stricte tant que ρ n’est pas
proportionnel à la mesure stationnaire π.

105
11 Flots de gradient dans l’espace de Wasserstein

Cette section, très incomplète en l’état, décrit formellement la manière dont on peut inter-
préter certaines équations aux dérivées partielles comme des flots de gradient dans l’espace de
Wasserstein. On se reportera à [7, 8] pour des développements plus approfondis des notions
esquissées ici.

Le cadre mathématique usuel en modélisation est basé sur une vision eulérienne des
choses : lorsque l’on considère une variation autour d’une fonction u, on a ajoute une per-
turbation v à u, et la mesure de l’éloignement est basé sur une mesure de cet ajout. Ainsi le
gradient d’une fonctionnelle Ψ définie sur L2 (Ω) est le champ w qui vérifie
Z
Ψ(u + εv) = Ψ(u) + ε wv + o(ε).
Ω

Faire varier u consiste donc à ajouter en chaque point x de Ω la quantité εv.

Cette approche très naturelle est pourtant biaisée : considérons sur l’intervalle I =]0, 1[
une fonction ρ qui prend alternativement les valeurs 0 et 1 selon que l’on soit sur un sous-
intervalle de type ]2k/2N, (2k+1)/2N ou ](2k+1)/2N, (2k+2)/2N . Si l’on se place dans L2 (I)
(mais une démarche analogue pourrait être faire pour n’importe quelle distance “eulérienne”,
c’est à dire une distance basée sur la différence
√ des fonctions), la distance entre ρ et 1 − ρ est
égale à la norme de ρ multipliée par 2. Elle reste donc de l’ordre de la norme de ρ même
quand N tend vers +∞. Or il est tentant de considérer les deux fonctions ρ et 1 − ρ comme
proches, selon deux points de vue. En premier lieu, leurs moyennes locales se rapprochent.
Si l’on considère ces fonctions comme des images monodimensionnelles en niveau de gris (0
pour blanc, 1 pour noir), il est manifeste que toutes deux tendent (quand N tend vers +∞)
vers une image uniformément grise. Cette propriété peut se modéliser grâce à la notion de
convergence faible, ou convergence au sens des mesures : ρ et 1 − ρ tendent toutes deux vers
la même mesure uniforme 1/2. Une seconde manière de qualifier leur proximité, que nous
allons développer dans ce qui suit, est la suivante : considérant ρ et 1 − ρ comme des densités
de matière sur l’intervalle ]0, 1[, on peut se demander s’il est coûteux de transporter l’une
sur l’autre. Plus précisément, si l’on considère que le coût pour transporter une unité de
matière d’un point x à un point y vaut une valeur prescrite c(|y − x|) (fonction monotone de
|y − x|, qui vaut 0 en 0), alors le coût total pour transporter ρ vers 1 − ρ est de façon évidente
c(1/2N )/2, qui tend bien vers 0 quand N tend vers +∞. Nous privilégierons par la suite le
coût quadratique c(α) = α2 , et nous définirons la distance associée comme la racine de ce
coût, dont on peut vérifier qu’il s’agit effectivement d’une distance.

Pour définir la notion de flot gradient suivant cette approche, il nous faut définir ce que
nous entendons par variation autour d’une densité donnée. Les développements qui suivent
sont purement formels, en particulier nous supposons que tous les champs utilisés sont régu-
liers, et l’on pourra voir les mesures elles-mêmes comme des fonctions régulières. On se place
dans Rd , on considère une densité ρ donnée (positive) et un champ de vitesse w. Pour tout
ε > 0 on considère l’application (ou transport)

T ε : x 7−→ x + εw(x).

Pour ε assez petit (si w est lisse comme nous l’avons supposé), il s’agit d’une bijection régu-
lière, est l’on peut définir ce que l’on appellera la mesure image, notée ν = T♯ε ρ, comme la

106
mesure qui vérifie Z Z
f (T ε (x))ρ(x) dx = f (y)ν(y) dy,

pour toute fonction f régulière. La formule usuelle de changement de variable donne la valeur
de la densité transportée en fonction du Jacobien de la tranformation :
ρ(x)
T ε ♯ ρ(x + εw) = .
|i + ε∇w|
Noter que, quand ε est petit (et si w est raisonnablement régulier), le jacobien de i + ε∇w
s’écrit 1 + ε∇ · w + o(ε).

On notera que les variations considérées préservent la masse totale. De fait, cette approche
conduit naturellement à considérer des familles de densités de masse totale fixée (la théorie
est en général présentée pour des mesures de probabilité, donc de masse 1, mais la masse
totale peut avoir une autre valeur).

Considérons maintenant une fonctionnelle Ψ dépendant de ρ. On appellera gradient 61 de

Ψ en ρ un champ de vecteur v vérifiant
Z
ε
Ψ(T ♯ ρ) = Ψ(ρ) + ε v · wρ(x) dx + o(ε).

On écrira alors v = ∇W Ψ(ρ), et l’on parlera de gradient au sens de Wasserstein, ou W-

gradient.

La notion de flot gradient s’en déduit instantanément : on appellera flot gradient associé
à Ψ une trajectoire de densités t 7→ ρ( · , t) vérifiant l’équation de transport

∂t ρ + ∇ · (ρu) = 0,

où à chaque instant u = −∇W Ψ(ρ).

Flot potentiel. Considérons la situation où la fonctionnelle Ψ est donnée sous la forme
Z
Ψ(ρ) = ϕ(x)ρ(x) dx.

On a
Z Z Z
ε ε
Ψ(T ♯ ρ) = ϕ(y)(T ♯ ρ)(y) dy = ϕ(x + εw(x))ρ(x) dx = Ψ(ρ) + ε ∇ϕ · wρ(x) dx,

de telle sorte que le gradient au sens où nous l’entendons maintenant s’identifie à ∇ϕ. Le flot
gradient associé correspond donc au transport par une vitesse −∇ϕ :

∂t ρ − ∇ · (ρ∇ϕ) = 0.
61. On définit plus généralement la notion de sous-différentiel, qui correspond à l’ensemble des vecteurs v
tels que Z
Ψ(ρ) + ε v · wρ(x) dx ≤ Ψ(T ε ♯ ρ) + o(ε),

pour des variations élémentaires du type T ε ♯ ρ = i + εw. Cette notion permet de gérer des situations, non
régulières, très courantes en pratique, où l’on ne peut pas définir le gradient au sens standard. La notion de
flot gradient qui en résulte est basée sur l’appartenance du champ de vitesse u à l’opposé du sous-différentiel
∂Ψ défini ci-dessus.

107
Considérons par exemple (pour d = 1) un potentiel ϕ(x) = x2 . Le champ de vitesse
associé s’écrit u = −2x, donc les trajectoires sont des courbes t 7→ x(t) = x0 e−2t . Le flot
gradient au sens de Wasserstein aura donc tendance à concentrer la masse au voisinage de
l’origine (on converge vers une masse de Dirac 62 ). On peut vérifier aisément, sous réserve que
l’on admette l’extension des ces notions aux cas de mesures non régulières, que si l’on prend
comme condition initiale pour ρ une combinaison de masses de Dirac en différents points x01 ,
. . ., x0N ∈ Rd , le W-flot gradient associé sera la somme des masses de Dirac affectées aux
point xi (t), qui correspondent aux flots-gradient au sens usuel (euclidien)

dxi
= −∇ϕ(xi (t)) , xi (0) = x0i .
dt
Ce flot gradient est donc une généralisation macroscopique des flots gradients ponctuels dans
l’espace euclidien.

Remarque 11.1. Noter que le flot gradient “eulérien” (dans L2 ) se comporte R

de façon très
différente. Dans le cas en dimension 1 évoqué ci-dessus, pour la fonctionnelle x2 ρ(x) dx, on
a Z Z
Ψ(ρ + εµ) = ϕ(x)(ρ + εµ) dx = Ψ(ρ) + ε x2 µ(x) dx.

Le gradient au sens L2 est donc la fonction ϕ(x) = x2 elle-même. Le flot-gradient associé

conduit donc à la trajectoire t 7→ ρ(x, t), avec ρ(x, t) = ρ0 (x) − x2 t, qui n’a rien à voir avec
le flot gradient euclidien associé à ϕ

Fonctionnelle d’énergie. Considérons maintenant le cas d’une fonctionnelle Ψ sous la forme

suivante Z
Ψ(ρ) = ϕ(ρ(x)) dx.

Cherchons à expliciter le W-gradient de la fonctionnelle (on suppose ici que les densités ne
s’annulent pas) :
Z
Ψ(T ε ♯ ρ) = ϕ(T ε ♯ ρ)(y) dy
ϕ(T ε ♯ ρ)(y) ε
Z
= T ♯ ρ(y) dy
T ε ♯ ρ(y)
ϕ(T ε ♯ ρ)(x + εw)
Z
= ρ(x) dx.
T ε ♯ ρ(x + εw)

Or la densité T ε ♯ ρ(x + εw) s’exprime à l’aide du Jacobien de la transformation

ρ(x)
T ε ♯ ρ(x + εw) = = ρ(x)(1 − ε∇ · w + o(ε)).
|i + ε∇w|
62. De façon plus générale, pour une fonction régulière ϕ, le flot gradient aura tendance à concentrer la
masse en des minimum locaux de la fonction, chacun concentrant la masse initialement présente dans son
bassin d’attraction.

108
On obtient donc
Z
ε ρ(x)(1 − ε∇ · w + o(ε))
Ψ(T ♯ ρ) = ρ(x) dx
ρ(1 − ε∇ · w + o(ε)))
Z

= ϕ(ρ) − ερ∇ · wϕ′ (ρ) + o(ε) (1 + ε∇ · w + o(ε)) dx
Z

= Ψ(ρ) + ε ϕ(ρ) − ρϕ′ (ρ) ∇ · w dx + o(ε)
Z

= Ψ(ρ) + ε w · ∇ ρϕ′ (ρ) − ϕ(ρ) dx + o(ε)
Z

= Ψ(ρ) + ε w · ρ∇ϕ′ (ρ) + ϕ′ (ρ)∇ρ − ϕ′ (ρ)∇ρ + o(ε)
Z
= Ψ(ρ) + ε w · ∇ϕ′ (ρ)ρ dx + o(ε),

ce qui permet de conclure que le W-gradient est ∇ϕ′ (ρ).

Si l’on prend pour ϕ la fonction ρ 7→ ρ ln ρ, on obtient

∇ρ
u = −∇ϕ′ (ρ) = − ,
ρ
R
de telle sorte que le flot gradient associé à Ψ = ρ ln ρ vérifie l’équation de transport

∇ρ
∂t ρ − ∇ · ρ = ∂t ρ − ∆ρ = 0,
ρ
c’est à dire l’équation de la chaleur.

109
12 Graphes

12.1 Définitions

Definition 12.1. (Graphe orienté)

Un graphe orienté est défini par la donnée d’un ensemble V de sommets, et d’un ensemble
d’arcs dans V × V .

Dans la définitions ci-dessus, les arcs sont orientés au sens où xy est différents de yx. Les
deux peuvents être des arcs du graphe orienté, ou l’un des deux, ou aucun.
Definition 12.2. (Cycle)
On appelle cycle de (V, E) un n-uplet de sommets x1 , x2 ,. . .,xn (avec n ≥ 2) tel que

(x1 , x2 ) ∈ A , (x2 , x3 ) ∈ E , . . . (xn−1 , xn ) ∈ E , (xn , x1 ).

Definition 12.3. (Graphe orienté acyclique)

On dit que le graphe orienté (V, E) est acyclique s’il ne contient aucun cycle (Def. 12.2).
Théorème 12.4. Soit (V, E) un graphe orienté acyclique fini. Il existe une numérotation des
sommets compatible avec l’ordre partiel défini par le graphe, i.e.

∃ϕ ∈ NV , injective , (x, y) ∈ E =⇒ ϕ(x) < ϕ(y).

12.2 Exemples

L’ensemble des utilisateurs (actifs ou non) de Twitter peut-être vu, à un instant donné,
comme un graphe orienté, si l’on considère que tout “follower” pointe vers la personne qu’il
suit.

Dans le même ordre d’idée, si l’on considère une foule à un instant donné, on peut voir
chaque individu comme le sommet d’un graphe, qui pointe vers les personnes qui sont dans
son cône de vision, et qui (si l’on s’en tient aux comportements sociaux, en excluant les
contacts physiques) sont donc susceptibles d’influencer son comportement.

Si l’on considère un système d’équations différentielles exprimant l’évolution de concentra-

tions d’espèces chimiques du fait des réactions entre les espèces, il est naturel de considérer
le graphe dont les points sont les différentes espèces. Pour chaque espèce, on pointe vers les
autres espèces (dont éventuellement elle-même) qui interviennent dans le seoncd membre de
l’équation correspondante.

Une chaı̂ne alimentaire peut aussi être considéré comme un graphe dont les points sont
les espèces, chaque espèce pointant vers ses prédateurs.

On considère un système d’équations, impliquant n inconnues. On associe à ce système un

graphe, considérant que chaque inconnue i pointe vers les inconnues qui apparaissent dans les
équations impliquant i. Si le graphe est acyclique, on peut résoudre le système facilement en
commençant par les éléments maximaux et en descendant la hiérarchie. Si le graphe contient

110
des cycles, on cherchera à transformer les équations (typiquement par élimination) de façon
à obtenir un graphe acyclique.

Si l’on considère maintenant un schéma de type (pour fixer les idées) différences finies.
On considère le graphe dont les nœuds sont les valeurs des inconnues aux pas de temps
successifs, chaque nœud poitant vers le nœuds correspondant aux valeurs intervenant pour
le calcul de la quantité concernée dans le schéma. Un schéma explicite sera typiquement
acyclique, alors qu’un schéma implicite contiendra des cycles.

De façon générale, lorsque l’on s’intéresse à une collection d’agents (au sens le plus gé-
néral), il est fécond de considérer le graphe d’influence associé, chaque agent pointant vers
les agents qui l’influencent. Les modèles résultant d’une situation acyclique sont en général
beaucoup plus simples à modéliser. Les éléments maximaux décident de ce qu’il font sans être
influencés (d’un point de vue mathématique, il faudra donc décider de leur comportement, qui
ne peut pas être donné par le modèle), et les effets se propagent dans la hiérarchie du réseau.
Dans le cas où des cycles sont présents, la situaiton peut être beaucoup plus compliquée,
générant en particulier des situations de non unicité. Cette situation se produira typiquement
lorsque l’on s’intéresse à l’évolution d’une quantité afférente à chaque entité, qui dépend de
l’évolution de la valeur instantanée de cette même quantité. Par exemple, dans le cas de
foules, si l’on considère que chaque individu décide de sa vitesse en fonction de la position
des personnes vers lesquels il pointe (i.e. qu’il voit), le problème pourra être bien posé même
dans le cas cyclique. En revanche, si l’on considère que la vitesse d’une personne dépend
aussi de la vitesse des gens qu’il voit, la présence de cycle va considérablement compliquer le
problème, puisque le modèle n’est plus strictement causal. On pourra penser à l’exemple d’un
cycle simple : deux personnes se font face, chacun souhaitant aller tout droit, en cherchant à
décider de sa vitesse en fonction de la vitesse de l’autre.

Dans le contexte des schémas numérique pour les équations d’évolution, la présence de
cycle dans les schémas implicite) nécessitera la résolution de systèmes linéaires (pour lesquels
il faudra vérifier que la matrice associées est bien inversible). Dans le cas non linéaire, la
présence de cycles peut invalider le caractère bien posé (en termes d’unicité, voire d’existence)
du système à résoudre pour faire progresser l’algorithme de discrétisation en temps.

De façon générale, on pourra prendre en compte les paramètres du système, ou du modèle,

comme des flèches pointant vers l’extérieur du graphe, vers un point abstrait qui représente
l’ensemble des paramètres, que l’on peut voir comme un contrôle que l’on exerce sur le sys-
tème. Dans le cas d’un graphe acyclique, une telle flèche ne permet, de façon évidente, de
contrôler que les éléments qui sont inférieurs au point de départ de cette flèche dans la hié-
rarchie.

111
13 Convergence faible et compacité

Soient E et F deux e.v.n., et Ψ une forme bilinaire continue sur E × F . On peut associer
naturellement à Ψ une application (linéaire et continue) de F dans E ′ :

y ∈ F 7−→ T y ∈ E ′ , hT y , xi = Ψ(x, y) ∀x ∈ E. (13.1)

Proposition 13.1. Soient E et F deux e.v.n. Si E est séparable 63 , alors de toute suite (yn )
bornée dans F on peut extraire une suite (yn′ ) qui converge au sens suivant :
⋆
∃ϕ ∈ E ′ , T yn′ −⇀ ϕ,

où T est définie par (13.1). Autrement dit, il existe ϕ ∈ E ′ telle que

ψ(x, yn′ ) −→ hϕ , xi ∀x ∈ E.

Démonstration. La suite extraire est construite par le procédé d’extraction diagonal de Cantor
(voir preuve du théorème 20.32, page 204 dans le cas Hilbertien).

On notera l’importance de la séparabilité de E dans la démonstration ci-dessus. Par

ailleurs, le procédé construit une limite qui n’est pas un élément de F , mais une forme
linéaire sur E ′ , qui n’est pas nécessairement dans l’image de T .

La proposition précédente est très générale, et d’ailleurs très vide dans certains cas
(prendre par exemple Ψ identiquement nulle, ou bien E de dimension finie alors que F est
de dimension infinie). La propriété devient pertinente quand l’espace E et la forme Ψ sont
suffisamment “riches” pour que la dualité soit séparante, c’est à dire (on privilégie ici l’espace
E) que
Ψ(x, y) = 0 ∀x =⇒ y = 0.
Cette propriété assure l’injectivité de l’application T définie ci-dessus.

La richesse de l’espace F peut être formalisée par la condition symétrique de dualité

séparante :
Ψ(x, y) = 0 ∀y =⇒ x = 0.
Si cette seconde condition est vérifiée, alors l’image de T est dense dans E ′ pour la topologie
faible-⋆ sur E ′ (i.e. en dualité avec E ′ ). Dans le cas où E est réflexif, on aura bien densité
de T (F ) dans E ′ . On prendra garde au fait que, si E n’est pas réflexif, on peut avoir E
et F en dualité séparante sans que T (F ) ne soit dense dans E ′ . Considérer par exemple
E = ℓ∞ , F = ℓ1 , et Ψ la dualité canonique entre ces deux espaces. Elle est évidemment
(doublement) séparante, mais T (ℓ1 ) n’est pas dense dans ℓ∞ : la forme linéaire qui à une
suite de ℓ∞ convergente associe sa limite, prolongée sur ℓ∞ (par le théorème de Hahn-Banach
analytique 19.1, page 191), est à distance au moins 1 de T (ℓ1 ).

Corollaire 13.2. Soit E un e.v.n. séparable. De toute suite bornée dans E ′ on peut extraire
une sous-suite bornée qui converge pour la topologie faible-⋆.
63. Il admet une famille dénombrable dense.

112
On fera bien la distinction entre le corollaire précédent et le théorème de Banach-Alaoglu-
Bourbaki, qui établit la compacité de la boule unité de E ′ pour la topologie faible-⋆, sans
hypothèse de séparabilité. Dans le cas où E n’est pas séparable, on a bien compacité, mais
la topologie n’est pas métrisable, de telle sorte que la compacité ne peut pas se traduire en
termes de suites extraites convergentes 64 . Ainsi la boule unité de ℓ1 est bien compacte pour
σ(ℓ∞ , ℓ1 ), mais on ne peut par exemple extraire aucune sous suite convergente (faible-⋆) de
la suite (en ).

Corollaire 13.3. Soit E un espace de Banach dont le dual est séparable. De toute suite bornée
dans E on peut extraire une sous-suite qui converge 65 dans E ′′ pour la topologie σ(E ′ , E ′′ ).
Si E est réflexif, la sous-suite converge faiblement dans E.

Dans le cas Hilbertien on peut supprimer la condition de séparabilité.

Corollaire 13.4. Soit H un espace de Hilbert. De toute suite bornée dans H on peut extraire
une sous-suite qui converge faiblement dans H

Démonstration. Il suffit de se placer dans l’adhérence V de l’espace vectoriel engendré par

les termes de la suite, qui est séparable par construction. On vérifie ensuite que l’on a bien
convergence faible sur H = V + V ⊥ de la suite extraite.

Espaces fonctionnels, mesures

On considère Ω un domaine de Rd (qui peut être l’espace tout entier).

Le corollaire 13.3 permet d’extraire d’une suite bornée une sous-suite faiblement conver-
gente dès que l’espace considéré est réflexif, donc en particulier dans les espaces Lp (Ω) pour
1 < p < +∞, ainsi que dans les espaces de Sobolev W m,p (Ω), pour tout m ∈ N, tout
p ∈]1, +∞[.

Pour les espaces non réflexifs (comme L1 (Ω) ou L∞ (Ω), ou les espaces de Sobolev associés),
la propriété est fausse en général, comme l’illustrent les exemples suivants.

Dans L1 (R) : la suite fn = 1]n,n+1[ est sur la sphère unité. Si une sous-suite converge
faiblement vers f , alors f s’annule contre toute fonction régulière à support compact, elle est
donc nécessairement nulle. Mais par ailleurs h1 , fn i est identiquement égale à 1, on doit donc
avoir h1 , f i = 1, ce qui est impossible.

Dans L∞ , les choses sont un peu plus délicates, car le dual de cet espace n’est pas clai-
rement identifié 66 . En particulier, le fait que l’on puisse (ou pas) extraire une sous-suite
convergente de la suite définie précédemment n’est pas aisé à trancher. On peut néanmoins
construire un contre-exemple analogue, en considérant par exemple la forme linéaire sur
L∞ (R) qui à une fonction convergente en +∞ associe sa limite, prolongée par le théorème de
Hahn-banach analytique en ϕ ∈ (L∞ (Ω))′ . On considère alors la suite fn = 1]n,+∞[. Si elle

64. Autant dire qu’elle n’est pas commode à utiliser.

65. Plus précisément son image par la surjection canonique de E dans E ′′ .
66. Montrer que le dual de L∞ contient des formes qui ne peuvent pas se représenter par des fonctions de L1
nécessite l’utilisation du théorème de Hahn-Banach analytique 19.1, page 191, donc indirectement de l’axiome
du choix.

113
converge faiblement vers f , alors nécessairement f est nulle presque partout, donc tend vers
0 en +∞, or on doit avoir hϕ , f i = 1, ce qui est absurde.

Convergence faible dans les cas non réflexifs. L’espace L∞ (Ω) s’identifie au dual de
L1 (Ω), qui est séparable, on peut donc, d’une suite bornée dans L∞ extraire une sous-suite
qui convergence (faible-⋆) vers une limite de L∞ .

L’espace L1 (Ω), dont le dual L∞ n’est pas séparable, peut être mis en dualité avec des
espaces de fonctions continues (munis de la norme ∞) : espace Cc des fonctions continues à
support compact, espace C0 qui tendent vers 0 au bord de Ω, et l’espace Cb des fonctions
bornées sur Ω. Noter que ces trois espaces s’identifient si l’on se place sur un compact. Dans le
cas d’un domaine ouvert considéré ici, les 2 premiers espaces sont séparables, mais le troisième
ne l’est pas. D’une suite bornée dans L1 on pourra donc extraire une sous-suite qui converge
vaguement (contre les fonctions de Cc ) ou faiblement (contre les fonctions de C0 ), mais la
limite est définie comme une forme linéaire sur ces espaces, elle ne s’identifie pas forcément
à une fonction de L1 : il s’agit en toute généralité d’une mesure bornée. Par exemple la
suite fn = n1]0,1/n[ converge faiblement vers la masse de Dirac en 0. En l’occurrence, cette
convergence est aussi étroite, mais on prendra garde au fait que l’on ne peut en général,
d’une suite bornée de L1 , extraire une sous-suite qui converge étroitement (du fait de la non
séparabilité de Cb (Ω)). Ainsi la suite fn = n1]n,n+1/n[ converge vaguement ou faiblement vers
0, il n’en existe aucune sous-suite qui convergerait étroitement.
Exercice 13.1. On considère l’espace E des fonctions continues sur Rd qui convergent vers
une valeur finie lorsque |x| tend vers +∞. Montrer qu’il s’agit d’un espace complet (pour la
norme ∞) séparable, et énoncer une propriété de compacité séquentielle faible-⋆ pour L1 (Rd )
mis en dualité avec E. Que peut on dire de la suite fn = n1]n,n+1/n[ définie précédemment ?
Proposer une généralisation de cette approche à des fonctions pour lesquelles la limite en +∞
dépend de la direction x/ |x|. (On pourra commencer par le cas d = 1, avec simplement 2
limites différentes en +∞ et −∞.)

114
14 Problème adjoint

Principe général.

On s’intéresse à un fonctionnelle qui dépend d’une variable de contrôle u par l’intermé-

diaire d’une variable d’état y, univoquement associée à u, i.e.

J(u) = G(yu ),

où yu est reliée à u par une relation implicite

Φ(yu , u) = 0.

Les variables d’état y et de contrôle u vivent dans des espaces qui peuvent être de dimension
infinie (il peut s’agir par exemple de fonctions de [0, T ] dans Rd , comme on le verra plus loin).

On écrit la contrainte (lien entre u et y) de façon duale

hΦ(yu , u), pi = 0,

pour tout p dans un espace en dualité séparante avec l’espace dans lequel vit Φ(yu , u) (de
façon à ce que l’identité ci-dessus implique Φ(yu , u) = 0). On introduit le Lagrangien

L(y, u, p) = G(y) + hΦ(y , u), pi,

qui est défini pour des couples (y, u) qui peuvent être indépendants (i.e. qui ne vérifient pas le
lien Φ(yu , u) = 0). Pour tout y associé à u, le Lagrangien prend la valeur de la fonctionnelle,
i.e.
J(u) = G(yu ) = L(yu , u, p),
quel que soit p. On a alors

Du J = Dy L ◦ Du yu + (Du Φ)⋆ p, (14.1)

avec
Dy L = Dy G + (Dy Φ)⋆ p. (14.2)
L’idée est alors de construire un p particulier qui annule Dy L, et donc le premier terme
de (14.1). Il n’est donc pas nécessaire de connaı̂tre la différentielle de yu par rapport à u : on
obtient
DJ = (Du Φ)⋆ p,
où p a été construit de façon à annuler Dy L (expression donnée par (14.2)).

Contrainte statique linéaire. On considère ici le cas y ∈ Rn , u ∈ Rm , et l’on cherche à

minimiser
1
J(u) = |Cyu − z̄|2 ,
2
où yu est défini par
Ayu = Bu,

115
avec A ∈ Mn (R), B ∈ Mn,m (R), C ∈ Mp,n (R), z̄ ∈ Rp .

Le Lagrangien est défini par

1
(y, u, p) ∈ Rn × Rm × Rn 7−→ |Cy − z̄|2 + (Bu − Ay) · p.
2
On a dans ce cas
∇J = Du L = B T p
pour p solution du problème adjoint

AT p = C T (Cy − z̄) .

Problème adjoint dans le cas d’une EDO.

On considère l’équation différentielle suivante, dans Rn ,

(
ẏ = f (y, u, t)
(14.3)
y(0) = y0
où u est un paramètre de contrôle qui vit dans l’espace U = Rm . On s’intéresse à la dépendence
d’une fonction de y (et éventuellement de u lui même) vis-à-vis de la variable de contrôle u.

Démarche générale. On s’intéresse dans un premier temps au cas où la fonctionnelle mesure
l’écart entre l’état final et un point cible donné :
1
J(u) = |yu (T ) − ȳT |2 .
2
L’objectif est de calculer la différentielle de J.

On introduit le Lagrangien
Z T
1
L(y, u, p) = |y(T ) − ȳT |2 + (f (y, u, t) − ẏ(t)) · p(t) dt,
2 0

où p est une fonction définie sur [0, T ].

Lorsque y est associé à u par (14.3), on le note yu . On a, pour tout u et tout p,

J(u) = L(yu , u, p).

On prend la différentielle de cette identité :

DuJ = Dy L ◦ Du yu + Du L.

L’approche consiste à trouver un p particulier qui annule Dy L (et donc le premier terme), de
telle sorte qu’il ne sera pas nécessaire d’expliciter Du yu . La différentielle de J se réduira alors
au second terme, qui s’écrira en fonction du p particulier

116
On a Z
T ∂f
hDu L , δui = (y, u, t)δu · p,
0 ∂u
où ∂f /∂u est linéaire de Rm dans Rn . On peut identifier Du L à un vecteur de Rm :
Z T ⋆
∂f
Du L = (y, u, t) p.
0 ∂u

Pour la différentielle par rapport à y, on réécrit tout d’abord le Lagrangien en intégrant

par partie le second terme :
Z T
1
L(y, u, p) = |y(T ) − ȳT |2 + (f (y, u, t) · p(t) + y(t) · ṗ(t)) dt − y(T ) · p(T ) + y(0) · p(0).
2 0

On a donc
Z T
∂f
hDy L , δyi = (y(T ) − ȳT ) · δy + ṗ + (y, u, t)p(t) · δy − δy(T ) · p(T ).
0 ∂y
On introduit maintenant le problème adjoint, à valeur finale prescrite :

∂f

 −ṗ = (y, u, t)p(t)
∂y (14.4)


p(T ) = y(T ) − ȳT .

Pour un tel p, Dy L = 0, et donc

Z T ⋆
∂f
DuJ = Dy L ◦ Du yu + Du L = Du L = (y, u, t) p,
0 ∂u
où p est solution de (14.4).

Fonctionnelle plus générale. On considère maintenant le cas

Z T
J(u) = F (y, u, t) dt.
0

Une démarche analogue conduit à

Z T
hDJ , δui = g(t)δu(t) dt,
0

ce qui permet d’identifier le gradient de J comme la fonction t 7→ g(t) donnée par

∂F ∂f
g= (y, u, t) (y, u, t) p(t),
∂u ∂u
où p est solution du problème adjoint

∂f ∂F

 −ṗ = (y, u, t) p(t) + (y, u, t)
∂y ∂y (14.5)


p(T ) = 0.

117
15 Transport optimal (cas discret)

15.1 Problème d’affectation

Le problème d’affectation se formule comme suit :

Problème 15.1. On considère 2 ensembles de même cardinal N ∈ N, tous deux identifiés à

{1, . . . , N }, et l’on se donne une collection de coûts cij ∈ R. Le problème consiste à trouver
une bijection ϕ qui minimise la quantité
N
X
ciϕ(i) .
i=1

Le problème ci-dessus ne présente pas d’intérêt théorique particulier : l’ensemble des

bijections (groupe symétrique SN ) est fini, le problème admet bien (au moins) une solution.
Mais la recherche effective de ce minimum peut extrêmement laborieuse, car le cardinal de
l’ensemble des candidats croı̂t comme N !.

15.2 Problème de Monge Kantorovich discret

Nous allons considérer une version relaxée de ce problème, qui peut se formuler intuitive-
ment de la façon suivante, dans un contexte de transport : on considère le premier ensemble
comme contenant des positions dans un certain espace (il n’est pas nécessaire de préciser
lequel ici), et le second ensemble aussi comme une collection de positions dans un espace
(éventuellement le même, mais pas forcément). On note cij ce que celà coûte de transporter
une quantité de matière unitaire de xi vers yj . Le problème précédent consistant à considérer
que l’on avait une même quantité de matière en chaque point (par exemple 1/N ), et que l’on
cherchait à transporter cette matière vers le second ensemble en envoyant toute la matière de
chaque point vers une destination unique. Nous allons considérer maintenant qu’il est pos-
sible de distribuer la matière venant d’un point vers plusieurs destination. Cette relaxation
du problème permet de lever la contrainte d’avoir le même nombre de points au départ et à
l’arrivée. Dans ce qui suit on notera γij la quantité de matière allant de i vers j. On appellera
γ = (γij ) un plan de transport.

Problème 15.2. (Monge Kantorovich discret)

On considère 2 ensembles 67 finis X et Y , de cardinaux respectifs N et M ∈ N et l’on se
donne une collection de coûts cij ∈ R. On considère deux mesures de probabilités discrètes µ
P
et ν sur X et Y , respectivement (µi est la masse portée par i, avec µi = 1, de même pour
ν). On supposera tous les poids strictement positifs 68 . On cherche à minimiser le coût total
X
C(γ) = cij γij ,
i,j

67. Il n’y a pas lieu de préciser ici les points d’arrivée et points de départ. Nous nous intéresserons plus loin
au transport entre points d’un espace euclidien, mais ici on peut tout aussi bien effectuer un transport d’une
essoreuse vers le concept de néant chez Sartre.
68. On peut toujours se ramener à cette situation en supprimant de X et / ou Y les points non chargés.

118
sous la contrainte que γ transporte µ vers ν, i.e.
X X
γij ≥ 0 , γij = µi ∀i , γij = νj ∀j, (15.1)
j i

ce que l’on écrira γ ∈ Π(µ, ν), ou simplement γ ∈ Π quand il n’y a pas d’ambiguı̈té.
Remarque 15.1. On peut formuler ce problème en termes probabilistes, en considérant γ
comme une loi de probabilité sur l’espace produit X × Y , dont les mesures images par les
projections sur X et Y sont respectivement µ et ν. Parmi de telles lois , on cherche celle(s)
qui minimise(nt) l’espérance de la “fonction” c = (cij ) sur X × Y .
Remarque 15.2. L’ensemble admissible est non vide, il contient en particulier le plan cor-
respondant à une loi de probabilité sur X × Y pour deux variables indépendantes, qui s’écrit

γij = µi νj .

On verra que c’est le plan qui minimise l’entropie de la loi γ (voir définition 10.1, page 101).
Proposition 15.3. Le problème 15.2 admet un minimiseur.

Démonstration. Les γij sont positifs, et chacun d’eux est majoré par le max des µi , l’ensemble
Π est donc borné, il est évidemment fermé donc compact : la fonction continue (car linéaire)
C( · ) admet donc un minimiseur sur Π.

Remarque 15.4. Dans le cas d’un coût du type cij = ai + bj , le problème est fortement
dégénéré, puisque tout transport de µ vers ν réalise le même coût. Inversement, pour deux
ensembles de même cardinal N , avec µ et ν lois uniformes sur X et Y , si l’on se donne
une bijection ϕ de Sn , on peut construire une famille de coûts telle que le plan associé à
la bijection 69 soit l’unique minimiseur, en prenant par exemple ciϕ(i) = −1, et cij = 0 si
j 6= ϕ(i).
Question 15.1. ( ? ?)
Étant donnée une collection de coût (cij ), existe-t-il des ensembles X et Y de points de Rd
tels que cij = |yj − xi | ? (on pourra aussi considérer cij = |yj − xi |p , cij = ψ(|yj − xi |) avec ψ
croissante et nulle en 0.)
Question 15.2. ( ?)
Le problème 15.2 admet-il une solution unique “en général”? (on s’attachera à exprimer
précisément ce que l’on entend par unicité générique.)

Lien avec le problème d’affectation. Dans le cas où les cardinaux sont les mêmes, et
les mesures équidistribuées, on peut préciser le lien entre le modèle relaxé basé sur les plans
de transports et le problème d’affectation. Pour simplifier les notations, on considère ici la
situation où chaque point porte une masse unitaire, de telle sorte que la masse totale des
mesures considérées est égale au nombre de points.
Proposition 15.5. On se place dans le cas N = M (même nombre de points de part et
d’autre, et µi = νj ≡ 1), et l’on note ΠS l’ensemble des plans de transports associés à une
affectation, i.e. γij = δiϕ(i) , où ϕ est une permutation du groupe symétrique. L’ensemble Π
des plans de transport admissibles est l’enveloppe convexe de ΠS .
69. C’est à dire : γiϕ(i) = 1/N , et γij = 0 si j 6= ϕ(i).

119
Démonstration. Il s’agit d’une conséquence du théorème de Krein-Milman en dimension finie,
qui assure que tout convexe compact d’un espace affine de dimension finie est l’enveloppe
convexe de ses points extrêmaux 70 . Tout point de SN est de façon évidente extrémal pour
Π. Réciproquement, considérons un plan générique (i.e. qui n’est pas associé à une bijection)
γ. On considère dans un premier temps les indices i pour lesquels γij est nul pour tous les
indices j sauf un (qui vaut donc 1). Cette sous-famille des points de départ est en bijection
avec les points d’arrivées j correspondants, pour lesquels, symétriquement, γij est nul pour
tous les i sauf 1. On note I (resp. J) l’ensemble des indices non concernés dans l’espace
de départ (resp. d’arrivée). Les ensemble I et J sont de même cardinal, et non vides par
hypothèse. Avec des notations évidentes, la restriction du plan γ à XI × YJ est diffuse, au
sens que pour tout i, γij ∈]0, 1[ pour au moins 2 indices j ∈ J, et pour tout j ∈ J, on a
γij ∈]0, 1[ pour au moins 2 indices i ∈ I. On part d’un indice i0 ∈ I, et l’on choisit j0 tel
que γi0 j0 > 0. On choisit ensuite i1 6= i0 tel que γi1 j0 > 0, puis j1 6= j0 tel que γi1 j1 > 0. On
construit ainsi une suite d’indices
i0 , j0 , i1 , . . . , in−1 , in ,
que l’on peut voir comme un chemin dans le graphe sur I ∪ J associé au plan γ, chemin qui
ne contient pas d’aller-retour. L’ensemble des indices étant fini, il existe forcément un n tel
que in correspond à un indice iℓ 6= in−1 déjà visité. On considère alors la variation
n−1
X
h= πik ,jk − πik+1 ,jk ,
k=ℓ

avec in = iℓ , et où πi,j est l’élément de RN M qui vaut 1 sur la composante (i, j), et qui est
nul pour les autres couples. Pour η suffisamment petit, γ ± ηh est positif, et par construction
γ ± ηh vérife les contraintes de marginales, les deux perturbations sont donc dans Πµ,ν , et
γ est moyenne non triviale de ces deux plans de transport, il ne s’agit donc pas d’un point
extrémal.

Les seuls points extrêmaux correspondent donc aux permutations.

Proposition 15.6. On se place comme précédemment dans la situation de mesures équidis-

tribuées sur des ensembles de même cardinal. Le problème de Monge Kantorovich discret 15.2
admet au moins une solution dans SN , i.e. une solution optimale du type permutation.

Démonstration. D’après la proposition 15.3, le problème 15.2 admet un minimiseur γ. D’après

la proposition 15.5, ce minimiseur s’écrit comme combinaison convexe de plans associés à des
permutations ϕ1 , . . ., ϕK : X
γ= θk γ k
(on ne garde dans la somme ci-dessus que les termes non triviaux, de telle sorte que θk > 0
pour tout k). Le coût étant linéaire, on a
X
C(γ) = θk C(γ k ).

Comme chaque C(γ k ) est supérieur ou égal à C(γ), et que θ k > 0 pour tout k, la combinaison
convexe ci-dessus implique que C(γ k ) est égal à C(γ) pour tout k. Chaque permutation
impliquée dans la combinaison réalise donc le minimum.

70. On dit que γ ∈ Π ⊂ Rd est point extrêmal de Π si γ = (γ 1 +γ 2 )/2, avec γ 1 , γ 2 ∈ Π, implique γ 1 = γ 2 = γ.

120
15.3 Formulation duale du problème de MK discret

La formulation duale du problème 15.2 est basée sur l’expression duale des contraintes de
marginales :
 
X N
X X
γij = µi ∀i ⇐⇒ p i  µi − γij  = 0 ∀p ∈ RN ,
j i=1 j

et l’on exprime de même les contraintes de destination à l’aide de q ∈ RM . On introduit donc

(conformément à la définition 23.27, page 246) le Lagrangien
  !
X N
X X M
X X
(γ, p, q) ∈ V × Λ 7−→ cij γij + pi µi − γij  + q j νj − γij , (15.2)
i,j i=1 j j=1 i

avec V = RN +
M et Λ = RN × RM . Noter que cette définition du Lagrangien correspond

à un choix qui est fait (et qui peut sembler arbitraire) de dualiser les contraintes d’égalité
(correspondant aux contraintes de marginales), mais pas les contraintes de positivité.

Le problème primal (voir definition 23.24, page 246) est le problème consistant à minimiser
la fonctionnelle
X
cij γij si γ∈Π
F (γ) = sup L(γ, p, q) = i,j
p,q
+∞ sinon

Minimiser cette fonctionnelle revient bien à résoudre le problème de minimisation sous contrainte 15.2.

Le problème dual (voir toujours la définition 23.24, page 246) consiste à maximiser la
fonctionnelle duale G(p, q) = inf γ L(γ, p, q). Cette fonctionnelle s’exprime (on ordonne diffé-
remment les sommes dans l’expression de L(γ, p, q)) :
 
X N
X M
X
G(p, q) = inf  (cij − pi − qj ) γij + p i µi + q j νj 
γ∈V
i,j i=1 j=1
 
N
X M
X X
= p i µi + qj νj + inf  (cij − pi − qj ) γij  .
γ∈V
i=1 j=1 i,j

Comme γ parcourt V = RN M
+ , l’infimum ci-dessus vaut −∞ à moins que l’on ait pi + pj ≤ cij
pour tous i, j, et 0 dans ce dernier cas. On a donc
N
X M
X
p i µi + q j νj si pi + qj ≤ cij ∀ i , j,
G(p, q) = inf L(γ, p, q) = i=1 j=1
γ∈V
−∞ sinon .

On écrira p ⊕ q ≤ c la contrainte d’inégalité sur les pi et qj . Le problème dual (il est immédiat
que l’ensemble des p, q, vérifiant la contrainte est non vide) s’écrit donc

sup (p · µ + q · ν) .
p⊕q≤c

121
Figure 15.1 – Interprétation géométrique des potentiels de Kantorovich pour la distance 1.

Il s’agit de montrer que le Lagrangien défini ci-dessus admet un point selle ou, de façon
équivalente (voir proposition 23.26, page 246), que le problème dual admet une solution, et
que sa valeur maximale est la valeur minimale du problème initial. La remarque suivante
permet de se ramener à la construction de vecteurs de multiplicateurs de Lagrange vérifiant
une propriété très simple.

Remarque 15.7. Soit γ un plan de transport entre µ et ν. Si (p, q) vérife p ⊕ q ≤ c, avec

égalité sur le support de γ, i.e.

γij > 0 =⇒ pi + qj = cij ,

alors (γ, p, q) est point-selle pour le Lagrangien L (défini par (15.2)). En effet, (p, q) vérifie
alors la contrainte du problème dual, et on a
X X X X
G(p, q) = µi p i + µj q j = γij (pi + qj ) = γij cij = F (γ).
i j ij ij

Comme on a G(p̃, q̃) ≤ F (γ̃), cela implique que (p, q) (resp. γ) est solution du problème dual
(resp. primal).

Remarque 15.8. Dans le cas où X et Y sont des collections d’un même nombre N de points
de Rd , et que cij = |yj − xi |, la remarque précédente peut s’interpréter géométriquement : pour
trouver un minimiseur du coût, il suffit 71 de trouver 2N cercles (ou sphères pour d ≥ 3) Σxi et
Σyj centrés en les points xi et yj , respectivement, de telle sorte qu’il existe une bijection ϕ telle
que Σxi est tangent à Σyϕ(i) , et que les autres couples de cercles (Σxi , Σyj ) ne se chevauchent pas
strictement. Selon cette vision du problème dual, les pi (resp. qj ) sont les rayons des cercles
Σxi (resp. Σyj ). La figure 15.1 donne un exemple d’une telle construction, pour d = 2 et N = 5.

71. Il s’agit essentiellement d’une interprétation géométrique des potentiels de Kantorovich, il n’est pas clair
que ce nouveau problème soit plus facile à résoudre que le problème de minimisation initial.

122
15.4 Existence d’une solution au problème dual

Bien qu’il soit d’usage, en programmation linéaire, de conserver la contrainte de positivité

du γ sous forme “essentielle” (l’espace primal intègre cette contrainte, sans expression duale),
la construction d’un nouveau Lagrangien qui dualise ces contraintes permet ici (dans le cas
de la dimension infinie) de montrer rapidement l’existence d’un point-selle.

L’approche consiste simplement, comme dans la définition 23.27, page 246, à ajouter un
P
terme du type − µij γij au Lagrangien défini précédemment :
X
L̃ : (γ, p, q, µ) ∈ RN M × RN × RM × RN
+
M
7−→ L̃(γ, p, q, µ) = L(γ, p, q) − µij γij .

Proposition 15.9. Le Lagrangien L( · , · , · ) admet un point selle (γ, p, q) ou, de façon équi-
valente,
G(p, q) = max G(p̃, q̃) = min F (γ̃) = F (γ).
p̃⊕q̃≤c γ̃∈Π

D’après la proposition 23.22, page 244 (en notant que les contraintes d’égalité affines
peuvent se traiter comme deux contraintes d’inégalité affines 72 , pour lesquelles la question
de qualification ne se pose pas comme le précise la définition 23.21), il existe p , q, et µ ≥ 0
tels que
cij − pi − qj − µij = 0,
avec µij = 0 dès que γij > 0 (contrainte non activée). Le couple (p, q) vérifie donc la contrainte
d’inégalité, avec égalité sur le support de γ, ce qui implique (voir remarque 15.7) que (γ, p, q)
est point-selle du Lagrangien.

L’existence d’un point-selle peut aussi être obtenue, de façon plus laborieuse, à partir de
la régularisée entropique du problème de minimisation (voir section 15.11, page 132).

15.5 Exemples d’applications

Sous sa forme la plus générale, le problème est entièrement déterminé par les mesures
d’arrivée et de départ, et les coûts cij . Dans un grand nombre de situations, X et Y sont des
ensembles de points de l’espace euclidien, et cij est une certaine mesure de la distance entre
eux.

Ainsi, la version discrète du problème de Monge correspond à la donnée d’une mesure

de départ µ supportée par N points (xi ), du plan, la mesure d’arrivée ν est supportée par
M points (yj ), et les coût sont donnés par cij = |yj − xi |. Le problème envisagé par Monge
concernait des déblais et des remblais, on peut étendre ce cadre est des lieux de production
et de distribution : N boulangeries produisent des quantités de pain journalières µ1 , . . ., µN ,
destinées à M dépôts de pains qui distribuent respectivement ν1 , . . ., νM . Si l’on suppose que
le coût de transport d’une quantité de pain peut être calculée en multipliant la quantité par
un coût unitaire 73 , et que ce coût unitaire est lui même proportionnel à la distance entre
72. On n’a bien sûr alors aucun information sur le signe du multiplicateur de Lagrange (ici pi ou qj ), dont
le signes final dépendra de laquelle des deux contraintes est réellement activée.
73. Cette hypothèse qui est assez discutable, et donc problématique puisque toute l’approche est basée sur
cette hypothèse.

123
point de départ et point d’arrivé (on peut penser au coût de l’essence), minimiser le coût
total correspond au problème considéré précédemment.

Une généralisation immédiate de ce problème consiste à considérer des coûts du type cij =
|yj − xi |p , le cas p = 2 jouant un rôle extrêmement important dans de multiples domaines.
Une “application” dans le cas quadratique est la suivante : on considère deux systèmes de N
points du plan, que l’on cherche à connecter deux à deux par des ressorts de longueur au
repos nulle. Minimiser l’énergie élastique (quadratique en les positions) revient à choisir les
couples que l’on va connecter.
Exercice 15.3. (Matching) Montrer que, dans le cas où X et Y sont des points d’un espace
euclidien, et dans le cas quadratique cij = |yj − xi |2 , minimiser le coût global revient à
maximiser la somme des γij xi · yj . Considérer la situation où X correspond à un ensemble
d’agents, représenté par un vecteur de nombres réels (par exemple entre 0 et 1 pour fixer
les idées) correspondant à l’intérêt que chacun porte aux caractéristiques d’un produit, l’en-
semble Y (vecteurs de même type) représentant l’ensemble des produits offerts au “marché”
X. Interpréter alors le problème de transport optimal de X vers Y au vu de la remarque
précédente.

Interprétation des qj comme prix. Dans un esprit proche de ce qui précéde, on considère
un ensemble d’agents X, et l’on suppose que chaque agent est doté d’un capital µj . L’ensemble
des biens 74 est noté Y , et la quantité de chaque bien (mesurée dans la même unité que les
µj ) vaut νj . On note uij l’utilité que représente le bien j pour l’agent i, de telle sorte que
ηuij mesure en quelque sorte la satisfaction apportée à i s’il consacre une partie η de son
capital à l’acquisition du bien j. Maximiser la satisfaction globale correspond à un problème
de type Monge-Kantorovich discret
X
max γij uij .
γ∈Π
ij

Ce contexte conduit à une interprétation limpide des potentiels de Kantorovich, ou multipli-

cateurs de Lagrange associés aux contraintes de marginale. On considère que le bien j a un
prix qj , et que les utilités sont exprimées dans une unité telle que uij − qj quantifie l’attrait
effectif de j pour i (qui diminue bien sûr lorsque le prix augmente). On a alors une interpré-
tation très claire de la remarque 15.7, qui dans le contexte présent exprime que le problème
de maximisation est équivalent à la recherche d’un système de prix pour les différents biens,
et d’un plan décrivant le comportement effectifs des agents, de façon à ce que chaque agent
n’ait aucun intérêt à changer son choix. Supposons plus précisemment que l’on connaisse un
plan de marché γ (qui encode l’ensemble des choix des agents) et un système de prix q tel
que, pour tout i, pour tout j dans le support de γ (c’est à dire que i achète une quantité non
nulle de j), on ait
uij − qj = max(uik − qk ),
k

ce qui signifie simplement que, le système de prix étant ce qu’il est, l’agent i perd tout intérêt
pour les biens qui ne correspondent pas à son choix courant, il est content, ou tout du moins,
en l’état actuel du reste de l’univers, il ne peut pas augmenter sa satisfaction en changeant ses
choix. Si l’on pose pi = maxk uik − qk , on dispose d’un plan de transport, et d’un couple (p, q)
74. Les biens sont considérés ici comme des quantités sécables, et pas comme des biens discrets tels que
l’achat ou le non achat se représenterait de façon binaire.

124
qui vérifie p ⊕ q ≥ u avec égalité sur le support de γ, on a donc une solution du problème.
Les qj , associés au contraintes sur les produits, s’interprètent donc comme des prix, et les pi ,
de la forme uij − qj , à une certaine forme de satisfaction effective des différents agents.
Exercice 15.4. a) Dans le cas du coût ℓ1 (i.e. cij = |yj − xi |), donner des exemples de situations
pour lesquels on n’a pas unicité du minimiseur.

b) Même question pour le coût quadratique cij = |yj − xi |2 .

15.6 Interpolation

On note A(Rd ), ou simplement A, l’ensemble des mesures atomiques sur Rd à support

fini, c’est à dire l’ensemble des µ de la forme
N
X N
X
µ= µi δxi , µi > 0 , µi = 1 , µi ≥ 0.
i=1 i=1

Si l’on se donne deux mesures ρ0 et ρ1 de A, l’existence d’un plan de transport optimal de ρ0

vers ρ1 permet de définir une notion d’interpolée entre ces deux mesures. Précisons qu’il existe
une première manière canonique, eulérienne en quelque sorte, d’interpoler les deux mesures,
en définissant simplement
ρ̃t = (1 − t)ρ0 + tρ1 .
Pour tout t ∈ [0, 1], ρ̃t est une mesure de probabilité, et la courbe t 7→ ρt relie les deux
mesures dans un certain sens, ce qui assure à peu de frais la convexité de l’espace des mesures
(de probabilité) atomiques. Le support de ρt est la réunion des deux supports, pour t ∈]0, 1[.

Si l’on considère maintenant 2 points x0 et x1 de Rd , on peut construire, de façon tout

aussi canonique, un segment reliant ces points par interpolation affine : xt = (1 − t)x0 + tx1 .
On peut définir pour les mesures une notion d’interpolation par déplacement plus respectueuse
de ce second point de vue (Lagrangien en quelque sorte). Cette notion a été introduite par
R. McCann 75 en 1997, et on parle parfois d’interpolation au sens de McCann.

Cette notion est particulièrement féconde dans un contexte où l’on a unicité d’un plan
de transport optimal (dans un sens qui peut dépendre du contexte), mais elle est basée sur
la possibilité d’associer à tout plan de tranport admissible une interpolée canonique. C’est
ce choix que nous faisons de définir ci-dessous une notion, non pas d’interpolée entre deux
mesures, mais d’interpolée associée à un plan de transport.

Definition 15.10. Soient ρ0 et ρ1 deux mesures de A, et γ ∈ Πρ0 ,ρ1 un plan de transport

entre ρ0 et ρ1 . On associe à γ l’interpolée par déplacement définie de la façon suivante :
X
ργt = γij δ(1−t)xi +tyj .
ij

On parle dans la litérature de l’interpolée entre deux mesures en privilégiant la construc-

tion associée au plan de transport optimal entre les deux mesures (lorsque celui-ci est unique).
75. Robert J. McCann, A Convexity Principle for Interacting Gases, Advances in Mathematics 128, 153
179 (1997),
[Link]

125
L’ensemble des mesures de probabilités atomiques sur Rd reste convexe pour cette nouvel
acception de l’interpolation : pour tout plan de transport, la courbe t 7→ ργt associée reste
dans A, on parlera de convexité par déplacement (displacement convexity).

Noter en revanche que, si l’on se restreint à l’ensemble A(K) des mesures supportées dans
un compact K donné, on perd la convexité de A(K) dès que K n’est plus convexe.
Remarque 15.11. Si Ψ est une fonction strictement convexe de Rd dans R, et ρt la courbe
d’interpolation associée à un transport γ entre deux mesures atomiques ρ0 et ρ1 distinctes, la
fonction Z
t 7→ hρt , Ψi = Ψ(x) dρt
Rd
est strictement convexe. Noter que la même fonction définie à partir de l’interpolée eulérienne
ρ̃t est simplement l’interpolée affine entre les deux valeurs extrêmes, elle est donc convexe,
mais aussi concave, quelles que soient les proprités de convexité de la fonction Ψ.

15.7 Métrique induite sur l’ensemble des mesures atomiques

On note comme précédemment A = A(Rd ) l’ensemble des mesures de probabilités ato-

miques sur Rd à support fini, c’est à dire l’ensemble des µ de la forme
N
X N
X
µ= µi δxi , µi > 0 , µi = 1.
i=1 i=1

L’entier N n’est pas fixé, mais on ne considère ici que des sommes finies. Pour p ≥ 1 fixé, µ
et ν dans Ad , on note
!1/p
X
Wp (µ, ν) = inf γij |yj − xi |p ,
γ∈Π(µ,ν)

où l’infimum correspond au problème de MK discret 15.2, pour lequel l’existence d’un plan
minimisant est établie dans 15.3. On se propose de montrer que Wp est une distance sur Ad .
Théorème 15.12. La fonction Wp ( · , · ) définie ci-dessus sur A × A est une distance.

Démonstration. On a de façon évidente Wp (µ, ν) = 0 si et seulement si µ = ν, et la distance

est symétrique par construction (le problème de recherche d’un plan de coût minimal est
symétrique par rapport aux mesures). Pour l’inégalité triangulaire, on considère trois mesures
µ1 , µ2 , et µ3 de A. On note γ 12 et γ 23 des plans qui réalisent la distance de 1 vers 2 et de 2
vers 3, respectivement. On note γ 123 le “plan à trois” défini de la façon suivante 76
1 12 23
γi123
1 i2 i3
= γ γ .
µ2i2 i1 i2 i2 i3

On note γ 13 le plan défini de façon naturelle par

X
γi131 i3 = γi123
1 i2 i3
.
i2

76. On peut voir γ 123 comme la loi d’une variable aléatoire sur Rd × Rd × Rd dont les projections ont pour
lois respectives µ1 , µ2 et µ3 .

126
On a  1/p  1/p
X p X p
Wp (µ1 , µ3 ) ≤  γi131 i3 x3i3 − x1i1  = γi1 i2 i3 x3i3 − x1i1 
i1 i3 i1 i2 i3
 1/p  1/p
X p X p
≤ γi123
1 i2 i3
x2i2 − x1i1  + γi123
1 i2 i3
x3i3 − x2i2 
i1 i2 i3 i1 i2 i3

d’après l’inégalité de Hölder, d’où finalement

 1/p  1/p
X p X p
Wp (µ1 , µ3 ) ≤  γi121 i2 x2i2 − x1i1  + γ 23 i2 i3 x3i3 − x2i2  = Wp (µ2 , µ3 )+Wp (µ1 , µ2 ),
i1 i2 i2 i3

ce qui termine la preuve.

Exercice 15.5. Montrer que l’espace A défini ci-dessus n’est pas complet, même si l’on
contraint les supports des mesures à demeurer dans un compact de Rd . Identifier des sous-
ensembles stricts de Ad qui sont complets pour la même métrique.
Exercice 15.6. On considère l’espace AN des mesures atomiques de Rd à N points (non
nécessairement distincts), avec équidistribution de masse sur les N points. Identifier l’espace
métrique AN muni de la distance précédemment définie.

15.8 Approche de Benamou-Brenier

Cette section présente les principes d’une formulation alternative du problème de Monge
Kantorovich proposée par Benamou et Brenier à la fin du siècle dernier 77 . Cette approche
s’est révélée extrêmement féconde sur le plan de la résolution numérique de tels problèmes,
mais aussi sur le plan abstrait. Soient x0 et x1 deux points de Rd . Pour toute vitesse v(t)
régulière donnée sur l’intervalle [0, 1] telle que la trajectoire associée xt relie x0 et x1 , la
longueur ℓ de la courbe vérifie
Z 1 2 Z 1
|x1 − x0 |2 ≤ ℓ2 = |v(s)| ds ≤ |v(s)|2 ds.
0 0

Par ailleurs, si l’on prend la vitesse constante égale à (x1 − x0 ), on a égalité entre les deux
extrémités de la chaine précédente d’inégalités. On a donc
Z 1
|x1 − x0 |2 = minR |v(s)|2 ds.
x1 =x0 + v 0

On peut généraliser cette approche à deux mesures atomiques supportées par des nuages
de points (xi ) et (yj ), en considérant pour chaque couple (xi , yj ) une vitesse vij sur [0, 1]
susceptible de les relier. On notera W l’ensemble des vitesses admissibles correspondant à
cette condition. Le problème de transport optimal avec coût quadratique s’écrit alors
 
XZ 1
2
min  γij |vij (s)| ds
v∈W,γ∈Π 0
ij

77. J.D. Benamou, Y. Brenier, A computational fluid mechanics solution to the Monge-Kantorovich mass
transfer problem, Numerische Mathematik January 2000, Volume 84, Issue 3, pp 375-393,
[Link]

127
On peut écrire différemment ce problème en utilisant la notion de solution faible de l’équation
de transport. On se ramène ainsi à la recherche d’un champ de vitesse vt qui est ρt -mesurable
pour tout t ∈ [0, 1], qui transporte ρ0 vers ρ1 , i.e. (ρt , vt ) est solution faible sur Rd × [0, 1] de
l’équation de transport
∂t ρt + ∇ · (ρt vt ) = 0,
avec données initiales et finales ρ0 et ρ1 , et qui minimise la quantité
Z 1Z
|vt |2 dρt .
0 Rd

Cette approche se généralise à des mesures quelconques sur Rd .

15.9 Étude de W1

Dans le cas p = 1, la distance peut s’exprimer de façon particulière, qui exprime un

premier lien entre ce type de métrique et la convergence faible des mesures. On note comme
précédemment A l’ensemble des mesures de probabilités atomiques sur Rd à support fini,
c’est à dire l’ensemble des µ de la forme
N
X N
X
µ= µi δxi , µi > 0 , µi = 1.
i=1 i=1

Proposition 15.13. (Distance W1 sur les mesures atomiques.)

Pour toutes mesures µ et ν de A(Rd ) (mesures atomiques à support fini), on a
 
X X X
W1 (µ, ν) = inf γij |yj − xi | = max  µi ϕ(xi ) − νj ϕ(yj ) ,
γ∈Π(µ,ν)
ij ϕ∈Lip1 i j

où Lip1 est l’ensemble des fonctions 1-Lipschitziennes.

Démonstration. On note γij un plan optimal entre µ et ν. On a, pour toute fonction 1-

Lipschitzienne,
X X X X
µi ϕ(xi ) − νj ϕ(yj ) = γij (ϕ(xi ) − ϕ(yj )) ≤ γij |yj − xi | = W1 (µ, ν). (15.3)
i j i,j i,j

Réciproquement, considérons une solution (p, q) du problème dual :

X X
p i µi + qj νj = W1 (µ, ν) avec pi + qj ≤ cij , pi + qj = cij sur supp(γ).
i j

On a, pour tout i, pi ≤ cij − qj pour tout j, avec égalité pour au moins un indice j, donc

pi = min(cij − qj ).
j

Considérons maintenant la fonction

ϕ : x 7−→ inf (|yj − x| − qj ) .

128
Cette fonction est 1-Lipschitzienne comme infimum de fonctions 1-Lipschitziennes 78 . Par
ailleurs ϕ prend les valeurs du potentiel de Kantorovitch sur le support de µ :

ϕ(xi ) = inf (|yj − xi | − qj ) = pi .

Enfin, on a
ϕ(yj ) = inf (|yk − yj | − qj ) ≤ −qj ,
k

donc −ϕ(yj ) ≥ qj . Pour cette fonction ϕ particulière, on a donc

X X X X
µi ϕ(xi ) − νj ϕ(yj ) ≥ µi p i + νj qj = W1 (µ, ν).
i j i j

On a donc, d’après (15.3),

 
X X
sup  µi ϕ(xi ) − νj ϕ(yj ) = max ( · ) = W1 (µ, ν).
ϕ∈Lip1 i j ϕ∈Lip1

15.10 Complétion de l’espace de Wasserstein discret

On définit maintenant A = A(K) comme l’ensemble des mesures de probabilités ato-

miques supportées dans un compact K de Rd , c’est à dire l’ensemble des µ de la forme
N
X N
X
µ= µi δxi , µi > 0 , µi = 1 , x1 , . . . , xN ∈ K,
i=1 i=1

avec toujours N ∈ N non fixé (il dépend de µ, et n’est pas borné). Pour p ≥ 1 fixé, µ et ν
dans A, on note comme précédemment
!1/p
X p
Wp (µ, ν) = inf γij |yj − xi | .
γ∈Π(µ,ν)

Proposition 15.14. Le complété de A pour la distance Wp s’identifie à l’espace P(K) des

mesures de probabilité sur K.

Démonstration. Le complété abstrait de A est l’espace des suites de Cauchy pour Wp quo-
tienté par la relation d’équivalence

(µn ) ∼ (ν n ) ⇐⇒ Wp (µn , ν n ) −→ 0.
78. On a ϕ(x) = inf j ϕj (x). Pour tous x, y, on a ϕ(x) = ϕj (x) pour un certain j, d’où

ϕ(y) = inf ϕk (y) ≤ ϕj (y) ≤ ϕj (x) + |y − x| = ϕ(x) + |y − x| ,

et ainsi ϕ(y) − ϕ(x) ≤ |y − x|. On a de la même manière ϕ(x) − ϕ(y) ≤ |y − x|.

129
De toute suite (µn ) de Cauchy dans A (en fait, pour toute suite de A), on peut extraire une
sous-suite qui converge faiblement 79 dans P(K). Montrons que la limite ne dépend pas du
représentant dans la classe d’équivalence. Soient µn et ν n deux suites adjacentes (µ ∼ ν), et
ϕ une fonction Lipschtzienne sur K. On a (en notant γ n un plan optimal de µn vers ν n )
X X XX
hν n − µn , ϕi = νjn ϕ(yjn ) − µni ϕ(xni ) = n
γij ϕ(yjn ) − ϕ(xni )
j i j i

 1/p
XX XX p
n
≤L γij yjn − xni ≤ L  n
γij yjn − xni 
j i j i

= Wp (µn , ν n ) −→ 0 quand n → +∞. (15.4)

On a bien sûr la même inégalité pour hν m − µn , ϕi, d’où la convergence de hν n − µn , ϕi vers
0. Par densité des fonctions Lipschitziennes dans les fonctions continues (K est compact), les
mesures limites sont donc les mêmes.

Montrons que toute mesure de probabilité µ ∈ P(K) peut être approchée faiblement par
une telle suite. On suppose dans un premier temps que K est un (hyper-)cube. Pour n ∈ N,
on décompose K de façon régulière en nd petits cubes (Cin ), de centres xni . On associe à µ
une mesure atomique portée par les xni , en prenant pour masse µni la µ-mesure de Cin (si
µ charge les faces entre les cubes, on choisit arbitrairement d’associer la masse d’une face à
l’une des cellules adjacentes). Par construction, le p-coût entre µn et µm (avec n ≤ m) est de
l’ordre de 1/np : la suite est donc bien de Cauchy. Si K n’est pas un cube, on suit le même
procédé avec un cube contenant K, en projetant sur K les centres des cellules qui seraient à
l’extérieur.

Remarque 15.15. Toute mesure µ de P(K) est ainsi limite (pour Wp ) d’une suite (µk )
d’éléments de A(K). En appliquant la chaı̂ne d’inégalités (15.4) à µk et µℓ , et en faisant
tendre ℓ vers l’infini, on montre par ailleurs, en suivant un raisonnement analogue à ce qui
précède, que
hϕ , µ − µk i −→ 0
pour toute fonction ϕ continue sur K.

Proposition 15.16. La métrique Wp induite sur P(K) par la complétion décrite précédem-
ment métrise la topologie de la convergence faible sur P(K), i.e.

µn ⇀ µ ⇐⇒ Wp (µn , µ) −→ 0.

Démonstration. On montre dans un premier temps que l’équivalence est vérifiée pour p = 1.
On considère une suite µn ∈ P(K) qui converge vers µ pour W1 . On approche les µn et µ par
des suites (µkn ) et µk de A. Pour toute fonction 1-Lipschitzienne ϕ, on a, pour tout n,
D E
hµn − µ , ϕi = lim µkn − µk , ϕ ≤ W1 (µkn , µk )
k

79. Comme K est compact, il n’y a pas lieu de distinguer ici la convergence étroite (contre les fonctions
continues bornées), la convergence vague (contre les fonctions continues à support compact), ou convergence
faible (contre l’adhérence de ces dernières pour la norme uniforme).

130
d’après la remarque 15.15 et la proposition 15.13. Par convergence de W1 (µkn , µk ) vers W1 (µn , µ),
on a donc
hµn − µ , ϕi ≤ W1 (µn , µ).
On a la même inégalité en prenant −ϕ, donc

|hµn − µ , ϕi| ≤ W1 (µn , µ).

On a donc convergence vers 0 de hµn − µ , ϕi, pour toute fonction ϕ 1-Lipschtizienne, donc
pour toute fonction Lipschitienne par linéarité, donc pour toute fonction continue par densité
des fonctions Lipchitziennes dans les fonctions continues sur le compact K, d’où la conver-
gence faible de µn vers µ.

Réciproquement, on considère une suite (µn ) qui converge faiblement vers µ. On a

W1 (µn , µ) = lim W1 (µkn , µk )

k
D E
On fixe n. Pour tout k, la distance W1 (µkn , µk ) est réalisée faiblement sous la forme µkn − µk , ϕk ,
pour une fonction ϕk qui est 1-Lipschitzienne. Quitte à supposer que toutes ces fonctions
valent 0 en un point fixé de K (on peut leur rajouter une constante arbitraire du fait que
µkn et µk ont même masse), on en extrait une sous-suite qui converge uniformément vers
une fonction ϕ continue (théorème d’Arzelà-Ascoli). On a donc (pour la suite extraite, pour
laquelle on conserve l’indice k par commodité d’écriture)
D E D E D E
lim W1 (µkn , µk ) = lim µkn − µk , ϕk = lim µkn − µk , ϕ + µkn − µk , (ϕk − ϕ
k k k

= hµn − µ , ϕi,
qui tend vers 0 quand n tend vers +∞.

On en déduit la propriété pour p > 1 en notant que, pour toute mesure atomique (γ
ci-dessous désigne le plan optimal pour le p-coût)
X X p
Wp (µ, ν)p = γij |yj − xi |p ≥ γij |yj − xi | ≥ W1 (µ, ν)p .

On a donc finalement, pour toute mesure de probabilité atomique, et donc pour toute mesure
de P(K) (les suites de Cauchy sont les mêmes dans Wp et W1 du fait même des inégalités
démontrées dans le cas atomique),

W1 (µ, ν) ≤ Wp (µ, ν) ≤ C 1/p W1 (µ, ν)1/p .

Exercice 15.7. Décrire, dans A(K), le cercle dont le centre est un Dirac centré à l’origine, et
de rayon 1. On considérera que K est une boule fermée de Rd centrée en l’origine.

131
15.11 Régularisation entropique

On propose ici une démonstration alternative de l’existence d’un point-selle, plus labo-
rieuse, mais qui permet d’étudier une méthode effectivement utilisée en pratique. Cette mé-
thode est basée sur la régularisée entropique de la fonctionnelle C(γ), définie par
X X
γ ∈ RN
+
M
7−→ Cε (γ) = cij γij + ε γij log γij = C(γ) + εS(γ), (15.5)
i,j i,j

où S est l’entropie de la probabilité γ sur RN × RM (voir définition 10.1, page 101).

Lemme 15.17. On suppose que µ et ν chargent tous les points de X et Y , respectivement. La

fonctionnelle Cε définie par (15.5) admet un minimiseur γ ε unique sur Π (défini par (15.1)),
ε > 0 pour tous i, j).
avec γij

Démonstration. La fonction Cε est continue sur le compact Π, elle admet un minimiseur γ ε ,

qui est unique par convexité de Π et stricte convexité de Cε .

Montrons que ce minimiseur a pour support X × Y , c’est à dire que tous les γij sont
strictement positifs. Cette propriété vient du fait que la fonction choisie, x log x, a une dérivée
qui vaut −∞ en 0, de telle sorte qu’il est très défavorable, en termes de minimisation, de
s’approcher de cette limite. Pour utiliser ce fait et montrer qu’un tel point ne peut pas être
minimiseur, il faut simplement vérifier que l’on peut faire de petites variations admissibles 80 .

Supposons par exemple que γ11 soit nul. Comme µ1 > 0, il existe un j tel que γ1j > 0,
et de la même manière un i tel que γi1 > 0. On perturbe alors γ de la façon suivante : on
rajoute ε à γ11 , on enlève ε à γi1 , on enlève ε à γ1j > 0, et pour compenser le gain de i et la
perte de j, on rajoute ε à γij . Pour ε suffisamment petit (< min(γi1 , γ1j )), cette perturbation
est admissible. Elle affecte linéairement la partie linéaire de la fonctionnelle, et linéairement
au premier ordre les termes d’entropies sur les liens 1 → j et i → 1. Pour le terme d’entropie
correspondant à 1 → 1, on a une variation négative qui domine les variations linéaires au
voisinage de 0, du fait que la dérivée en 0 de x log x est −∞. Si γij était initialement non
nul, la variation correspondante est linéaire, s’il était nul, on renforce la variation négative
surlinéaire.

Lemme 15.18. Le Lagrangien associé au problème de minimisation régularisé :

  !
X N
X X M
X X
Lε : (γ, p, q) ∈ V × Λ 7−→ cij γij + εS(γ) + pi µi − γij  + q j νj − γij ,
i,j i=1 j j=1 i

admet un point-selle (γ ε , pε , q ε ), où γ ε est le minimiseur du lemme 15.17.

80. Cela pourrait ne pas être le cas comme l’illustre l’exemple suivant. Un problème classique consiste à
minimiser l’entropie de la densité d’une loi de probabilité en imposant son espérance. Si l’espérance est prise
égale à la valeur maximale que peut prendre la variable aléatoire, la densité va nécessairement charger cette
valeur uniquement, et pourra donc prendre la valeur 0 sur les autres valeurs possibles.

132
Démonstration. La fonctionnelle Cε réalise son minimum sur l’ouvert ]0, +∞[N M , sous les
contraintes de marginales, en γ ε . Comme les contraintes sont affines on a, d’après la pro-
position 23.5, page 238, existence de multiplicateurs de Lagrange (pε , q ε ) ∈ RN × RM tels
que
ε
cij + ε(1 + log γij ) − pεi − qjε = 0. (15.6)
On applique alors le corollaire 23.30 du théorème 23.29, page 248, qui assure que (γ ε , pε , q ε )
est point-selle du Lagrangien Lε .

Lemme 15.19. Le problème dual associé au Lagrangien Lε admet un maximum unique

(pε , q ε ) tel que la moyenne de pε est nulle.

Démonstration. La fonctionnelle duale est définie par

 
N
X M
X X
Gε (p, q) = p i µi + qj νj + inf  (cij − pi − qj + ε log γij ) γij  . (15.7)
γ∈V
i=1 j=1 i,j

La fonctionnelle de γ ci-dessus est strictement convexe, et admet un minimiseur caractérisé

par
cij −pi −qj
γij = e−1 e− ε ,
ce qui donne
N
X M
X X cij −pi −qj
Gε (p, q) = p i µi + qj νj − εe−1 e− ε . (15.8)
i=1 j=1 i,j

Montrons que la matrice Hessienne de Gε est semi-définie négative, et de noyau la droite

engendrée par (1, −1) ∈ RN × RM (ajouter un élément de cette droite à (p, q) revient à
ajouter une constante aux éléments de p, et enlever cette même constante aux éléments de q).
P
On considère pour cela la matrice Hessienne de (p, q) 7−→ epi +qj (on prend momentanément
ε = 1 pour alléger l’écriture). Cette matrice H peut se décrire par blocs : 2 blocs diagonaux
du type   !
X X
pi qj  qj pi
Dp = diag e e , Dq = diag e e ,
j i i j

et un bloc extra-diagonal supérieur B = (epi +qj )ij (le bloc inférieur est t B). On a
!
p X X X X X
(p, q) · H = epi p2i eqj + eqj q2j epi + 2 pi q j epi +qj .
q i j j i ij

On a 2pi q j ≥ −p2i − q 2j , avec inégalité stricte dès que q j 6= −pi . Si l’on prend (p, q) non nul
dans l’orthogonal de (1, −1), on aura nécessairement q j 6= −pi pour au moins l’un des couples
(i, j), d’où !
p
(p, q) · H > 0.
q
La Hessienne de Gε (qui est essentiellement l’opposé de la matrice H) est donc définie négative,
Gε admet donc un maximiseur unique dans l’orthogonal du noyau. Elle admet par suite un
maximiseur unique tel que la moyenne des pi est nullle, c’est ce minimiseur particulier que
nous noterons (pε , q ε ) dans la suite.

133
Lemme 15.20. La suite des (pε , q ε ) construite ci-dessus est bornée.

Démonstration. On note δij le vecteur de RN × RM dont tous les éléments sont nuls, sauf le
i-ème sur RN , et le j-ième sur RM , et C le cône convexe engendré par les δij :
nX o
C= γij δij , γij ≥ 0 .

On a (µ, ν) ∈ C. Plus précisément, (µ, ν) peut s’écrire comme une combinaison des δij dont
tous les coefficients sont strictement positifs (prendre par exemple pour γij le transport qui
distribue chaque masse µi selon la loi ν).

D’autre part, d’après (15.6), il existe une constante C telle que pε ⊕ q ε ≤ C.

Enfin, comme (pε , q ε ) maximise la fonctionnelle duale Gε définie par (15.8), on a (on écrit
simplement Gε (pε , q ε ) ≥ Gε (0, 0)) :
X cij −pi −qj X cij
(pε , q ε ) · (µ, ν) ≥ (pε , q ε ) · (µ, ν) − εe−1 e− ε ≥ −εe−1 e− ε ≥ β,
i,j i,j

uniformément en ε (on peut supposer les cij positifs car le problème ne minimisation ne
change pas si l’on rajoute une même constante à tous les cij ).

Supposons maintenant que (pε , q ε ) ne soit pas bornée, on peut extraire une sous-suite telle
que la suite normalisée (pε , q ε )/ |(pε , q ε )| converge vers un (p, q) de norme 1, avec la moyenne
des pi égale à 0. Comme pε ⊕ q ε ≤ c, on a à la limite (p, q) · δij ≤ 0 pour tous i, j, donc (p, q)
est dans C ◦ , cône polaire de C. On a aussi d’après ce qui précède (p, q) · (µ, ν) ≥ 0. Comme
(µ, ν) est dans C, on a nécessairement (p, q) · (µ, ν) = 0. Mais (voir début de la preuve), (µ, ν)
s’écrit comme une combinaison de δij à coefficients > 0, on a donc
X X
0 = (p, q) · (µ, ν) = γij δij · (p, q) = γij (pi + qj ).
ij ij

Comme (p, q) est dans le polaire de C, il s’agit d’une somme de termes négatifs, qui sont donc
tous nuls. Comme les γij sont tous non nuls, on a finalement pi + qj = 0 quels que soient i et
j. Les pi sont donc tous identiques, donc (comme leur somme est nulle) tous nuls, de même
pour les qj , ce qui est absurde puisque (p, q) est de norme 1.

Proposition 15.21. Le minimiseur γ ε construit au lemme 15.17 converge (à sous-suite ex-
traite près) vers un minimiseur γ 0 de C( · ), et toute valeur d’adhérence de la suite est mini-
miseur. Les multiplicateurs de Lagrange (pε , q ε ) convergent eux mêmes (à sous-suite extraite
près) vers un couple (p0 , q 0 ), et (γ 0 , p0 , q 0 ) est point-selle du Lagrangien L.

Démonstration. La suite (γ ε ), est bornée, on peut donc en extraire une sous-suite qui converge
dans le fermé Π vers γ 0 , et l’on a
C(γ ε ) + εS(γ ε ) ≤ C(γ) + εS(γ) ∀γ ∈ Π,
d’où, par passage à la limite, C(γ 0 ) ≤ C(γ) pour tout γ ∈ Π. De plus, (pε , q ε ) étant borné,
on a convergence à sous-suite extraite près vers (pε , q ε ). En passant à la limite dans (15.6),
on obtient p0 ⊕ q 0 ≤ c, avec
0
γij > 0 =⇒ pi + qj = γij ,
d’où la conclusion (voir remarque 15.7).

134
Remarque 15.22. Si, faisant fi des bons usages, on fait tendre ε vers +∞, on a convergence
vers le minimiseur de l’entropie sous les contraintes de marginale, le coût n’intervient plus.
Le minimiseur s’écrit
γij = Cepi +qj = Cepi eqj ,
où C est une constante de normalisation (γ est une loi de probabilité sur X × Y ) . Du fait
de l’écriture tensorielle ci-dessus, on peut voir γ comme une loi sur X × Y pour un couple
de variables aléatoires indépendantes.
Remarque 15.23. Noter que notion d’entropie permet de retrouver une certaine forme d’uni-
cité dans le cas d’un problème de départ qui admet des solutions multiples : on peut choisir de
privilégier parmi toutes les solutions celle qui minimise l’entropie, dont on peut montrer que
c’est la limite des solutions aux problèmes régularisés quand ε tend vers 0 (voir proposition
ci-dessous). Noter aussi que cette manière de sélectionner une solution n’est pas forcément
légitime dans certains contextes. Lorsque les cardinaux sont les mêmes, et les mesures uni-
formes, on peut s’intéresser au contraire aux solutions du type bijection, qui sont celles qui
maximisent au contraire l’entropie mathématique (i.e. qui minimisent l’entropie physique).
Proposition 15.24. On se donne deux mesures (µi ), et (νj ), une collection de coûts (cij ),
on note γ une solution du problème de MK discret 15.2, i.e. γ minimise
X
C(γ) = γij cij ,
ij

sur Πµ,ν (défini par (15.1)), et γ ε le minimiseur du problème régularisé (voir lemme 15.17),
qui minimise X X
Cε (γ) = γij cij + ε γij log γij ,
ij ij

sur Πµ,ν . Alors γε converge vers γ, plan qui minimise l’entropie parmi tous les minimiseurs
admissibles de C( · ).

Démonstration. On note Copt la valeur du minimum de C sur Π. On ne change rien à un

problème de minimisation en multipliant la fonctionnelle par une constante > 0 quelconque,
et en rajoutant une constante arbitraire. On peut donc définir γ ε comme le minimiseur sur
Π d’une nouvelle fonctionnelle (on garde la notation Cε par commodité)
1
Cε (γ) = (C(γ) − Copt ) + S(γ)
ε
L’ensemble admissible Π étant compact, on peut extraire de (γε ) une sous-suite qui converge
vers un élément γ 0 de Π. Du fait que C(γ ε ) ≥ Copt , que γ ε minimise C ε , on a la chaı̂ne
d’inégalité suivante
S(γ ε ) ≤ Cε (γ ε ) ≤ Cε (γ) = S(γ),
où γ est le minimiseur de l’entropie parmi les minimiseurs du coût, qui est bien unique par
stricte convexité de l’entropie sur l’ensemble convexe des minimiseurs du coût. On a donc à
la limite S(γ 0 ) ≤ S(γ). Par ailleurs, d’après l’inégalité Cε (γ ε ) ≤ S(γ) ci-dessus, la quantité
1
(C(γ) − Copt ) + S(γ)
ε
est bornée, avec S(γ) minoré, et C(γ ε ) − Copt ≥ 0. On a donc

C(γ ε ) −→ Copt ,

135
d’où C(γ 0 ) = Copt . Le plan limite γ 0 est donc minimiseur du coût, et il minimise l’entropie
parmi ses confrères, γ 0 est donc bien le minimiseur de l’entropie parmi les minimiseurs du
coût. On en conclut la convergence de toute la suite γ ε vers γ.

15.12 Calcul effectif par Régularisation entropique

On considère deux mesures µ et ν supportées par des ensembles X et Y finis, de cardinaux

respectifs N et M . Pour une matrice de coûts c = cij donnée, on cherche à approcher une
solution du problème 15.2, qui consiste à minimiser le coût
X
C(γ) = cij γij ,
i,j

sur l’ensemble Π des plans de transport admissibles (voir equation (15.1)), i.e. dont les mar-
ginales sont µ et ν.

Une méthode consiste à chercher un minimiseur pour la régularisée entropique de C,

définie par X X
Cε (γ) = cij γij + ε γij log γij = C(γ) + εS(γ).
i,j i,j

On a
γij cij = −εγij e−cij /ε ,
de telle sorte que !
X γij
Cε (γ) = ε γij log , avec ηij = e−cij /ε .
i,j
ηij

Le coût régularisé est donc (au facteur ε près) l’entropie relative de γ (vu comme une loi
de probabilité sur X × Y ) vis-à-vis de la loi 81 η. Cette entropie relative est aussi appelée
divergence de Kullback-Leibler, et notée en conséquence KL(γ|η). Les conditions d’optimalité
s’écrivent
1 + log (γij /ηij ) + pi + qj = 0.
Un plan γ est optimal si et seulement si (la condition est suffisante d’après le théorème 23.29,
page 248) il peut se mettre sous la forme

γij = ai bj ηij , ai > 0 , bj > 0, (15.9)

tout en vérifiant bien sûr les conditions de marginales :

X X
ai bj ηij = µi , bj ai ηij = νj . (15.10)
j i

L’approche itérative proposée ci-dessous s’appuie sur le caractère explicite de la minimisa-

tion de l’entropie relative lorsque l’on ne considère que l’une des deux contraintes (marginale
81. La densité η n’est pas nécéssairement de masse 1, mais la renormaliser conduit à rajouter une constante
à Cε , ce qui ne change pas le problème de recherche d’un minimiseur.

136
sur X ou sur Y ). Considérons un plan γ̄, et le problème consistant à minimiser l’entropie
relative de γ relativement à γ̄, sous la contrainte de marginale sur X :
!!  
X γij  X 
inf γij log , Πµ = γ ∈ RN
+
M
, γij = µi ∀i .
γ∈Πµ γ̄ij 
j


Du fait de la présence du log, les contraintes γij ≥ 0 ne sont pas activées (voir démonstration
du lemme 15.17), et l’on a des multiplicateurs de Lagrange p1 , . . ., pN , tels que

γij = γ̄ij e−pi ∀i , j.

On en déduit à l’aide des contraintes l’expression explicite

µi
γij = γ̄ij P .
j γ̄ij

Le problème de minimisation d’une fonctionnelle du même type avec contrainte de marginale

sur Y peut évidemment se traiter de la même manière.

Algorithme 15.25. On construit de façon itérative γ 0 = η, γ 1/2 , γ 1 , . . ., γ k , γ k+1/2 , γ k+1 ,

. . .de la façon suivante :

k+1/2 k µi k+1/2 k
γij = γij P k γ = arg min KL(γ|γ )
j γij Πµ

k+1 k+1/2 νj
γij = γij P k+1/2
γ k+1 = arg min KL(γ|γ k+1/2 ) .
Πν
i γij

On peut voir cet algorithme de “projections” 82 alternées comme un algorithme de point

fixe sur le problème en ai , bj donné par les équations (15.9)-(15.10). En effet, si l’on prend
pour a0 et b0 des vecteurs qui ne contiennent que des 1, et qu’on pose
0
γij = a0i b0j ηij , γij
k
= aki bkj ηij

une étape de l’algorithme précédent peut s’écrire

!
k+1/2 k µi µi µi
γij = γij P k = aki bkj ηij P k bk η
= bkj P k ηij ,
j γij a
j i j ij j bj ηij
| {z }
ak+1
i

!
k+1 k+1/2 νj νj νj
γij = γij P k+1/2
= ak+1
i bkj ηij P k+1 k
= ak+1
i P k+1 ηij .
i γij i ai bj ηij j ai ηij
| {z }
bk+1
j

L’algorithme se ramène finalement au calcul des a1 , b1 , . . ., ak , bk , . . ., selon la procédure

µi νj
ak+1
i =P k
, bk+1
j = P k+1 .
j bj ηij i ai ηij
82. Il ne s’agit pas à strictement parler de projection, car la divergence de Kulback-Leibler n’est pas une
distance.

137
Remarquons en premier lieu que, si l’algorithme en (ak , bk ) converge vers (a, b), alors le
plan limite γij = ai bj ηij vérifie (15.9)-(15.10), c’est donc le minimiseur recherché.

Convergence de l’algorithme 83 .

Implémentation effective en Python de l’approche par régularisation entropique.

Il est naturel de stocker la collection des coûts sous la forme d’une matrice (format c =
[Link]((N,N))). On peut calculer le plan initial η en écrivant simplement eta = [Link](-
cc/eps).

15.13 Calcul effectif par l’algorithme des enchères

On considère ici deux ensembles X et Y de même cardinal N , et l’on s’intéresse au pro-

P
blème de maximisation de uiϕ(i) . La quantité uij désigne ici l’utilité d’un agent i (acheteur
potentiel) pour le produit j. On cherche ainsi à maximiser la satisfaction globale de la popu-
lation X en trouvant une stratégie d’affectation adaptée à la distribution des utilités.

Remarquons en premier lieu que si l’on trouve une bijection ϕ ∈ SN et un système de

prix (qj ) tels que
uiϕ(i) − qϕ(i) = max (uij − qj ) , (15.11)
j

on a, en notant pi = uiϕ(i) − qϕ(i) , un couple (p, q) et un transport γ (associé à ϕ) tel que

pi ≥ uij − qj ∀i , j,

avec égalité sur le support de γ, et donc (d’après la remarque 15.7) que le plan γ ϕ associé à
ϕ est optimal.

Algorithme 15.26. (Algorithme des enchères)

On se donne q 0 , ϕ0 . Si, à l’étape n, la collection de prix q n et la bijection ϕn vérifient (15.11),
c’est terminé. Dans le cas contraire, on sélectionne un i⋆ pour lequel la relation est invalidée,
i.e. tel que
ui⋆ ϕn (i⋆ ) − qϕn (i⋆ ) < max (ui⋆ j − qj ) .
j

On note j ⋆ un indice qui réalise le max ci-dessus 84 :

uij ⋆ − qj ⋆ = max (ui⋆ j − qj ) .

On attribue alors j ⋆ à i⋆ , et ϕn (i⋆ ) à (ϕn )−1 (j ⋆ ), i.e.

ϕn+1 (i⋆ ) = j ⋆ , ϕn+1 (ϕn )−1 (j ⋆ ) = ϕn (i⋆ )

ou, exprimé différemment,

ϕn+1 = ϕn ◦ τi⋆ ,(ϕn )−1 (j ⋆ ) ,

83. Thèse de Julie Champion, page 53.

[Link]
84. L’agent i⋆ préfèrerait l’objet j ⋆ qui, en l’état courant des prix, lui apporterait plus de satisfaction (=
utilité - prix) que ϕn (i⋆ ).

138
où τi1 ,i2 est la transposition qui échange i1 et i2 . On augmente enfin le prix de j ⋆ d’une
quantité qui ramène l’attrait de j ⋆ pour i⋆ au niveau du second produit le plus attractif :

qjn+1
⋆ = qjn⋆ + max (ui⋆ j − qj ) − max⋆ (ui⋆ j − qj ) .
j j6=j

Cet algorithme est susceptible de patiner dans certains cas, lorsque plusieurs produit
réalisent le maximum d’attrait pour un agent (le prix reste alors stationnaire).

On utilise en pratique une version modifiée de l’algorithme, qui visent à trouver une
bijection ϕ et une gamme de prix (q) tels que chaque agent i soit ε-satisfait, c’est à dire que

uiϕ(i) − qϕ(i) ≥ max (uij − qj ) − ε. (15.12)

Algorithme 15.27. (Algorithme des enchères modifié)

On se donne q 0 , ϕ0 . Si, à l’étape n, la collection de prix q n et la bijection ϕn vérifient (15.12),
on s’arrête. Dans le cas contraire, on sélectionne un i⋆ pour lequel la relation est invalidée,
i.e. tel que
ui⋆ ϕn (i⋆ ) − qϕn (i⋆ ) < max (ui⋆ j − qj ) − ε.
j

On note j⋆ un indice qui réalise le max ci-dessus

uij ⋆ − qj ⋆ = max (ui⋆ j − qj ) .

On attribue alors j ⋆ à i⋆ , et ϕn (i⋆ ) à (ϕn )−1 (j ⋆ ), i.e.

ϕn+1 (i⋆ ) = j ⋆ , ϕn+1 (ϕn )−1 (j ⋆ ) = ϕn (i⋆ ).

On augmente enfin le prix de j ⋆ du montant maximum qui préserve son ε-satisfaction :

qjn+1
⋆ = qjn⋆ + max (ui⋆ j − qj ) − max⋆ (ui⋆ j − qj ) + ε ≥ qjn⋆ + ε.
j j6=j

Remarque 15.28. Noter que, dans cette ε-version de l’algorithme, le bien j ⋆ choisi par i⋆
après une étape n’est pas forcément son meilleur choix (après augmentation du prix de j ⋆ ),
mais l’agent est tout de même ε-satisfait avec son j ⋆ , et a augmenté les chances de le garder
en proposant un prix supérieur (ce qui tendra à écarter les autres agents de ce choix). Les
prix des autres produits ne pouvant que croı̂tre, la seule chose qui pourrait lui faire renoncer
à j ⋆ est qu’un autre agent s’en empare.

Cet algorithme, contrairement au précédent, assure une croissance stricte d’un prix à
chaque étape. Par ailleurs, lorsqu’un produit est choisi au cours des itérations, il est susceptible
de changer ensuite de propriétaire, mais il fera toujours par construction l’ε-bonheur de ce
dernier. La non convergence de l’algorithme ne peut donc se produire que si certains produits
ne sont jamais considérés. Mais le prix de tels produits resterait alors constant, les autres
augmentant strictement, de telle sorte qu’ils finissent à terme par devenir compétitifs, même
si leur utilité brute était très faible :

Proposition 15.29. L’algorithme 15.27 converge après un nombre fini d’itérations.

139
Démonstration. Considérons un scénario dans lequel l’algorithme continuerait indéfiniment.
D’après la remarque ci-dessus, cela signifie qu’un sous ensemble non vide Y1 de biens ne fait
jamais l’objet d’un choix. On note Y3 l’ensemble des biens qui sont considérés une infinité de
fois, et par Y2 l’ensemble des biens visités un nombre fini de fois. On se place au-delà de la
dernière itération qui a vu un bien de Y2 pris en compte. Les prix des biens de Y3 tendent
vers +∞, donc, pour tout i, tout j dans Y3 , la quantité uij − qj tend vers −∞, donc les biens
de Y3 deviennent uniformément moins compétitifs que les biens de Y1 , ce qui est absurde.

Montrons que cet algorithme conduit, à convergence, à une approximation d’ordre ε (plus
précisément inférieure à N ε) de l’utilité maximale. Rappelons que l’on considère ici un pro-
blème de MK renversé, dans le cas de deux ensembles de même cardinal N , et des mesures
uniformes (de masse totale N ). On cherche en effet ici à maximiser l’utilité globale
X
U (γ) = γij uij ,

sur Π. Le problème dual consiste à minimiser

X X
pi + qj

sous les contraintes pi + qj ≥ uij . Si l’on note F la fonction correspondant au problème

primal (définie maintenant à partir du lagrangien comme un inf en (p, q)), et G la fonction
duale (définie comme un sup en γ), on a une situation renversée par rapport au lemme 23.23,
page 245, i.e.
2
F (γ) ≤ G(p, q) ∀γ ∈ (R+ )N , (p, q) ∈ RN × RN .
Du fait de l’existence d’un point selle démontré au début de cette section (proposition 15.9),
on a bien sûr
sup F (γ) = max F (γ) = inf G(p, q) = min G(p, q).

Proposition 15.30. Pout tout ε > 0, on considère une bijection ϕ de SN et un système de

prix (qj ) qui vérifient 85
uiϕ(i) − qϕ(i) ≥ max(uij − qj ) − ε.
j

Alors l’utilité associée à la bijection ϕ approche l’utilité maximale à N ε près, i.e.

U (γ S ) ≥ max Uγ − N ε.
Π

Démonstration. On définit
pi = uiϕ(i) − qϕ(i) .
On a par hypothèse
pi ≥ uij − qj − ε
de telle sorte que le couple (p + ε, q) est admissible. On a donc
X X X
max F = min G ≤ G(p + ε, q) = (pi + ε) + qj = pi + qϕ(i) + N ε
i

85. On écrit exactement ici que (ϕ, q) est un point d’arrêt de l’algorithme des enchères modifié.

140
X
= uiϕ(i) + N ε. ≤ max F + N ε.
i

On a donc F (γ ϕ ) ≥ max F − N ε.

Implémentation effective en Python de l’algorithme des enchères.

On définit en premier lieu une matrice d’utilités (uij ). Pour le cas du transport optimal
(problème d’affectation), on se donne par exemple deux familles de points de R2 , et l’on
définit
uij = − |yj − xi |p .
La matrice correspondante est initialisée en Python par uu = [Link]((N,N)). On définit
le vecteur des prix comme q = [Link]((1,N)). On peut construire alors la matrice mm
correspondant à uij − qj de la façon suivante :

e = [Link]((N,1))
qq = [Link](e,q)
mm = uu-qq

Pour une telle matrice, la commande jjmax = [Link](mm,axis=1) permet de calculer

un tableau d’indices correspondant, pour chaque ligne, à la colonne qui réalise le maximum
des valeurs. Si l’on dispose d’un vecteur, par exemple la ligne de mm correspondan au i⋆
sélectionné, on peut récupérer les indices correspondant aux deux plus grands éléments par
la commande

[next_to_jstar,jstar] = [Link](mm[istar,:])[-2:]

On encodera l’affectation courante par un tableau d’entiers, initialisé par exemple à phi =
range(N).

Remarque 15.31. On prendra garde au fait que, à chaque itération, l’agent i⋆ choisit le (ou
un) bien j ⋆ qui maximise sa satisfaction, mais qu’il en augmente ensuite le prix (pour en
écarter les autres) d’un montant qui le rend très exactement ε− satisfait, mais pas mieux.
On aura toujours (mathématiquement), du fait de l’augmentation du prix,

ui⋆ ϕn+1 (i⋆ ) − qvarphin+1 (i⋆ ) = max (ui⋆ j − qj ) − ε,

où i⋆ , rappelons-le, est l’agent actif à l’itération n. Si l’on compte à l’itération suivante n + 1
le nombre de gens ε-satisfaits 86 , en comptant le nombre d’indices i tels que

uiϕn (i) − qϕn (i) ≥ max (uij − qj ) − ε,

en effectuant un test du type ...>= - eps, il est possible que la propriété pour i⋆ soit fausse,
alors qu’elle devrait être vraie, du fait des erreurs d’arrondis. Même si la réalité mathématique
86. Il est naturel d’arrêter l’algorithme lorsque ce nombre vaut le nombre total d’agents.

141
est a = b, il est possible qu’informatiquement la propriété a >= b soit fausse (au zéro machine
près, c’est à dire autour de 10−14 ). On pourra contourner cette difficulté en incrémentant le
prix d’une quantité légèrement inférieure à ε, par exemple 0.99 ε. De façon générale, on se
gardera d’effectuer sur des nombres réels des tests d’égalité, ou d’inégalité large ou stricte
lorsque les cas d’égalités sont sensibles 87 .

87. Dans le cas présent il est assez aisé d’identifier la difficulté, puisque en gros une fois sur deux le test sera
négatif alors qu’il devrait être positif. Dans d’autres situations, l’égalité n’est pas générique, de telle sorte que,
pour des tests portant sur des nombres d’ordre un, on a de l’ordre d’une chance sur 1014 de tomber sur un cas
ambigu de quasi-égalité. C’est alors évidemment beaucoup plus vicieux, puisque le problème risque de ne se
poser qu’après un très grand nombre de tests de l’algorithme.

142
Troisième partie

Aspects numériques

143
16 Différences finies

16.1 La méthode

La méthode dite des différences finies, destinée à construire des approximations de solu-
tions d’équations aux dérivées partielles, est basée sur une discrétisation naturelle des dérivées
partielles, à partir de la simple expression

f (x + ε) − f (x)
f ′ (x) = + o(ε).
ε

Considérons par exemple l’équation de la chaleur sur l’intervalle I =]0, 1[, avec condi-
tions de Dirichlet aux extrémités de l’intervalle, sur l’intervalle de temps [0, T ] :

∂t u − D∂xx u = 0 , u(0, · ) = u0 ( · ) donné.

On introduit une discrétisation uniforme de l’intervalle I, de pas ∆x = 1/J :

0 = x0 , x1 = ∆x , . . . , xj = j∆x , . . . , xJ−1 = (J − 1)∆x , xJ = J∆x, (16.1)

et de même pour l’intervalle en temps (de pas ∆t = T /N )

0 = t0 , t1 = ∆t , tn = n∆t , tN = N ∆t = T.

On cherche alors à construire des nombres unj qui ont vocation à approcher les valeurs de
u(j∆t, n∆x). On définit tout d’abord les u0j par interpolation de la condition initiale sur le
maillage, le cœur de l’approche consiste alors à écrire des relations entre les unj qui permettent
de construire sans ambiguı̈té toutes les valeurs à partir des u0j .

Une approche naturelle consiste par exemple à écrire

un+1
j − unj unj−1 − 2unj + unj+1
−D = 0 ∀j = 1, . . . , J − 1, (16.2)
∆t (∆x)2

ce qui peut s’écrire matriciellement, avec des notations évidentes

D∆t
un+1 = Id + A un ,
∆x

où A est la matrice du Laplacien discret (avec condition de Dirichlet) définie par (A.13).
On parle d’un schéma explicite, car la discrétisation de l’opérateur de dérivée en espace est
basée sur des valeurs déjà calculées. De fait, l’expression ci-dessus permet de calculer les un+1
j
directement, sans résolution d’un système linéaire.

Le schéma implicite, dont nous verrons qu’il présente de meilleures propriétés de stabilité,
s’écrit
un+1
j − unj un+1
j−1 − 2uj
n+1
+ un+1
j+1
−D = 0 ∀j = 1, . . . , J − 1, (16.3)
∆t (∆x)2
qui peut s’écrire, avec les même notations que précédemment.

144
Remarque 16.1. On peut associer un graphe orienté à chacun des schémas numériques
introduits ci-dessus (voir figure 16.1). Le graphe associé au schéma explicite est acyclique,
ce qui exprime le fait que les calculs peuvent être faits explicitement en partant des valeurs
correspondants aux points maximaux du graphe (condition initiale). Le graphe associé au
schéma implicite contient des cycles, ce qui exclut la possibilité de calculer directement les
valeurs inconnues. Ce schéma fait en effet intervenir un système linéaire qu’il s’agira de
résoudre (de façon exacte ou approchée). Noter que, si l’on connait l’inverse de la matrice
impliquée dans le schéma, il devient de fait explicite, avec un graphe de dépendance représenté
en bas de la figure 16.1 (chaque point de l’étape n + 1 est alors relié à chaque point de l’étape
n, ce qui exprime le caractère non local de l’inverse du Laplacien discret).

Considérons maintenant l’équation de transport à vitesse constante V > 0 sur I =]0, 1[,
avec conditions périodiques
∂t u + V ∂x u = 0.
On considère la discrétisation en espace (16.1), en identifiant maintenant le point 0 et le point
J. Le schéma dit décentré amont s’écrit
un+1
j − unj unj − unj−1
+V = 0 ∀j = 1, . . . , J (avec 0 ≡ J), (16.4)
∆t ∆x
le décentré aval est obtenu en discrétisant la dérivée en espace à l’aide de unj+1 −unj . Le schéma
centré est basé sur les valeurs de part et d’autre du point considéré : (unj+1 − unj−1 )/2. On
peut aussi considérer des versions implicites de ces différents schéma.

Comme nous le verrons plus loin, ces approches ont des propriétés très différentes en
termes de stabilité. On peut en particulier vérifier que le schéma explicite centré est complè-
tement inutilisable en pratique, car instable : il produit génériquement des densitées négatives,
et la densité maximale augmente au fil des itérations.

16.2 Consistance, stabilité, convergence

On considère ici une équation aux dérivées partielles d’ordre 1 en temps :

∂t u + L(u) = f.
où L est un opérateur différentiel en espace (typiquement opérateur de transport, ou de
diffusion, ou la somme des deux, pour ce qui nous intéresse ici).

Un schéma numérique à deux niveaux consiste en la donnée de relations entre les valeurs
(un )j et (un+1 )j , qui permet de calculer de façon univoque les secondes à partir des premières :
Fj (un+1 , un , ∆t, ∆x) = 0 (16.5)
où l’index j parcours l’ensemble des degrés de liberté en espace. Nous ne considérerons ici
que des schémas linéaires, qui peuvent s’écrire de façon matricielle 88
un+1 = Aun . (16.6)

88. La matrice A n’est pas nécessairement donnée explicitement ; dans le cas des schémas implicite, cette
matrice ne sera d’ailleurs jamais construite (on se contentera en pratique de résoudre des systèmes linéaires
pour différents membres de droite).

145
tn+1 tn+1

tn tn

j−1 j j+1 j−1 j j+1

tn+1

j−1 j j+1

Figure 16.1 – Graphes de dépendance associés aux schéma explicite (gauche) et implicite
(droite) pour l’équation de la chaleur.

Dans tous les exemples donnés ci-dessus, le schéma est obtenu en remplaçant les dérivées
par des expressions faisant intervenir les variables discrètes et les pas de temps et d’espace.
Le lien entre l’équation et le schéma peut se préciser grâce à la notion de consistance :

Definition 16.2. (Consistance)

On considère un schéma de discrétisation (16.5) pour une équation aux dérivées partielles.
Soit u une solution exacte, régulière, de l’équation. Pour une discrétisation donnée, on note
ũ l’interpolée de la solution exacte aux points de discrétisation, i.e.

ũnj = u(j∆x, n∆t).

Si
Fj (ũn+1 , ũn , ∆t, ∆x) = O((∆x)q ) + O((∆t)r ),
uniformément en j et n, on dit que le schéma est consistant, d’ordre q en espace, et r en
temps 89 .

Remarque 16.3. Pour lever le flou sur la régularité requise, précisons la démarche l’éla-
boration d’un schéma de consistance : on considère une solution exacte de l’équation, on lui
“applique le schéma”. Plus précisément, on applique la relation F ( · ) à son interpolée, et on
89. Une petite ambiguı̈té réside dans le fait que l’on peut multiplier l’ensemble des relations d’un schéma par
des puissances de ∆t et ∆x sans changer les dépendances, tout en affectant l’ordre obtenu dans la définition de
la consistance. Nous nous placerons toujours dans le cas où le schéma est de type (16.4) ou (16.3), c’est à dire
que, si l’on injecte dans le schéma (comme on l’a fait dans la définition de consistance un fonction régulière
en espace temps qui n’est pas la solution exacte, on trouve une quantité finie (ni nulle ni infinie) lorsque ∆x
et ∆t tendent vers 0 .

146
fait des développements de Taylor-Lagrange de façon à faire apparaı̂tre l’équation vérifiée par
u, et des restes impliquant ∆t, ∆x, et des dérivées en espace et en temps de la solution exacte.
Ce sont ces dérivées qui vont fixer la régularité requise pour u. Noter que cette définition est
d’une certaine manière formelle, elle est afférente au schéma lui-même, on pourrait imaginer
un schéma d’ordre très élevé qui discrétise une équation considérée dans un contexte où les
solution ne sont jamais aussi régulières qu’il le faudrait pour que les développements soient
licites. Cela ne remet pas en question l’ordre du schéma en temps que schéma, en revanche
la consistance d’ordre élevé ne permettra pas de montrer une convergence effective de la mé-
thode globale d’approximation d’une solution. Concrètement, les solutions moins régulières
seront approchées avec une précision moindre. La consistance correspond ainsi à un ordre de
précision indépassable 90 .

Nous aurons besoin pour comparer la solution approachée à la solution exacte de définir
une distance. Une première étape consiste à construire à partir de la “solution approchée” (qui
pour l’instant n’est qu’une collection de valeurs ponctuelles aux points de la discrétisation en
espace-temps) une fonction définie partout (ou au moins presque partout). On associe ainsi
à une collection un de valeurs aux points de discrétisation xj la fonction constante, égale à
unj sur l’intervalle ]xj − ∆x/2, xj + ∆x/2[. On notera ūn cette fonction.

On peut alors exprimer la norme kūn kp en fonction des valeur discrètes, par exemple pour
p = 1, 2, +∞,
 1/2
X X 2
kūn k1 = ∆x unj , kūn k2 = ∆x unj  , kūn k∞ = max unj .
j
j j

Noter que toutes les normes p sont dominées par la norme ∞ (uniformément par rapport au
nombre de points de discrétisation), et que la consistance a été définie par une majoration
uniforme.

Definition 16.4. (Stabilité)

On considère un schéma de discrétisation d’une EDP sur un intervalle de temps [0, T ]. Un
schéma numérique est dit (inconditionnellement) stable (pour la norme p) s’il existe une
constante C telle que

kūn kp ≤ K ū0 ∀n = 1, . . . , N = T /∆t,

pour toute donnée initiale discrète ū0 . On parlera de stabilité conditionnelle si la propriété
ci-dessus est conditionnée à la vérification d’une relation liant ∆t et ∆x.

Remarque 16.5. Il est sous-entendu dans la définition précédente que, dans le cas de sta-
bilité conditionnelle, la condition imposée sur ∆t et ∆x doit autoriser un “chemin” du couple
vers 0, c’est à dire que l’on peut construire une suite du couple (∆t, ∆x) de pas de temps et
d’espace vérifiant la condition de stabilité, et telle que (∆t, ∆x) tende vers (0, 0).

A une solution exacte de l’équation considérée, on associe maintenant une collection de

fonctions constantes par moceaux : ũn est la fonction constante par morceaux qui prend la
valeur u(xj , tn ) sur ]xj − ∆x/2, xj + ∆x/2[.
90. Sous réserve que les développements de Taylor aient été effectués de façon optimale.

147
Le théorème suivant établit qu’un schéma consistant et stable est convergent, à l’ordre de
consistance.

Théorème 16.6. (Lax)

On considère une équations aux dérivées partielles linéaire. On note (un ) les valeurs appro-
chées obtenues par application d’un schéma numérique consistant à l’ordre q en espace et r
en temps vis à vis de cette équation, et stable (pour la norme p). Soit u( · , · ) une solution de
l’équation associée à une condition initiale u0 , définie sur [0, L] × [0, T ]. On suppose que u a
la régularité en temps et en espace requise pour que l’estimation de consistance soit effective.

On note (ūn ) la famille de fonctions constantes par morceaux obtenues par application du
schéma numérique, avec ū0 = ũ0 , et en = ũn − ūn . On a convergence de la méthode numérique
au sens suivant
lim sup ken kp = 0.
∆t,Dx→0 n

On a plus précisément
sup ken kp ≤ C ((∆x)q + (∆t)r ) .
n

Démonstration. Le schéma s’écrit un+1 = Aun . Comme il est consistant, la solution exacte
le vérifie approximativement :

ũn+1 = Aũn + ∆tεn kεn k ≤ C ((∆x)q + (∆t)r )

(la consistance porte une estimation uniforme de valeurs ponctuelles, elle implique donc bien
la même majoration pour toute norme de type Lp ). On obtient donc, en faisant la différence,
en+1 = Aen − ∆tεn , d’où
n
X
en = An e0 − ∆t An−k εk−1 ≤ CK ((∆x)q + (∆t)r )
k=1

Stabilité L2

La stabilité L2 peut parfois s’établir par une localisation du spectre des matrices impli-
quées dans le schéma. Mais il existe une méthode très générale qui permet de contourner
l’analyse spectrale de la matrice. Cette approche est basée sur la transformée de Fourier, que
l’on présente pour simplifier sur l’intervalle ]0, 1[ avec conditions périodiques. À une collection
de valeurs (unj )j on associe comme précédemment une fonction ūn constante par morceaux
sur les intervalles centrés en

0 , ∆x , 2∆x , . . . , J∆x = 1,

(avec identification du dernier point au premier). Cette fonction de L2 peut s’écrire comme
la somme de sa série de Fourier
X Z 1
n n n
ū (x) = û (k) exp(2iπkx) p.p. avec û (k) = exp(−2iπkx)ūn (x) dx,
k∈Z 0

148
et la formule de Plancherel s’écrit
Z 1 X
kūn kL2 = |ūn (x)|2 dx = |ûn (k)|2 .
0 k∈Z

Maintenant, pour x = j∆x, on a unj = ūn (x),

X
unj+1 = exp(2iπkx)ûn (k) exp(2iπk∆x),
k∈Z

Et une expression similaire pour unj−1 . Considérons par exemple le schéma explicite (16.2)
pour l’équation de la chaleur, en remplaçant dans le schéma les variables discrète par les
expressions impliquant la série de Fourier. On obtient une combinaison infinie des exp(2iπkx),
qui sont orthogonaux dans L2 . On peut donc écrire que chaque coefficient est nul, i.e. pour
tout k on a

n+1 n D∆t
û (k) = û (k) 1 + (exp(2iπk∆x) − 2 + exp(−2iπk∆x))
(∆x)2

D∆t D∆t
n
= û (k) 1 + 2
(exp(iπk∆x) − exp(−iπk∆x))2 = 1 − 4 sin (πk∆x)2 ûn (k).
(∆x) (∆x)2
| {z }
A(k)
On a appelle A(k) le coefficient d’amplification . On a de façon évidente stabilité dès que
|A(k)| ≤ 1 ∀k,
ce qui conduit ici à la condition de stabilité
D∆t 1
2
≤ .
(∆x) 2
Cette condition est suffisante, et l’on énoncera en général le résultat de stabilité conditionnelle
associé.
Remarque 16.7. Noter que la condition |A(k)| ≤ 1 n’est pas nécessaire à strictement parler.
Certes, si l’un des coefficient est de module strictement plus grand que 1 et éloigné de 1
uniformément par rapport au pas de temps, on peut trouver une condition initiale (qui excite
le mode correspondant) qui soit telle que le schéma ne soit pas stable. Mais il pourrait arriver
que le coefficient d’amplification soit majoré par une quantité du type 1 + c∆t, auquel cas on
peut avoir stabilité, du fait que
(1 + c∆t)n = (1 + cT /N )n ≤ (1 + cT /N )N ≤ ecT .
Dans le cas considéré ici, une telle majoration n’est pas possible lorsque la condition sur le
pas de temps est violé, à cause du facteur du type sin(2πk∆x)2 /(∆x)2 , qui est bien majoré
pour k petit, mais d’ordre 1/(∆x)2 pour k ≈ 1/(4∆x).

16.3 Analyse des principaux schémas numériques

Équation de transport

Proposition 16.8. Le schéma décentré amont est consistant (d’ordre 1 en temps et 1 en

espace) et stable (en norme L∞ et en norme L2 ), donc convergent pour ces deux normes,
sous la condition CFL
∆x
∆t ≤ .
V

149
Démonstration. On vérifie immédiatement la consistance du schéma. Montrons la stabilité
L∞ (conditionnelle). On a

V ∆t n V ∆t V ∆t n
un+1 = unj − (uj − unj−1 ) = unj 1 − + u .
j
∆x ∆x ∆x j−1
Il s’agit d’une combinaison barycentrique des valeurs précédentes dès que V ∆t/∆x ≤ 1, c’est
à dire que l’on a la condition dite CFL :
∆x
∆t ≤ .
V
Sous cette condition, on a stabilité L∞ .

Pour la stabilité L2 , on utilise l’approche décrite précédemment, on a

V ∆t
ûn+1 (k) = ûn (k) 1 − (1 − exp(−2iπk∆x))
∆x
qui est bien de module inférieur à 1 pour tout k sous la même condition CFL ∆t ≤ ∆x/V .

Le schéma de transport centré est très particulier 91 bizarrement stable pour la norme L2 ,
mais instable pour la norme L∞ .
Proposition 16.9. Le schéma centré pour l’équation de transport
un+1
j − unj unj+1 − unj−1
+V =0 (16.7)
∆t 2∆x
est instable en norme L∞ , mais stable en norme L2 sous la condition ∆t = O((∆x)2 ).

Démonstration. Le schéma s’écrit

un+1
j = unj − λunj+1 + λunj−1

avec λ = V ∆t/(2∆x). On n’a donc pas stabilité L∞ . L’étude de stabilité L2 conduit à

ûn+1 (k) = ûn (k)(1 − λ exp(2iπk∆x) + λ exp(−2iπk∆x)) = ûn (k) (1 − 2i λ sin (2πk∆x))

Le coefficient d’amplification est donc de module inférieur à 1 + 2λ2 = 1 + V 2 ∆t2 /2(∆x)2 .

Sous une condition du type ∆t = O((∆x)2 ), le coefficient est donc inférieur à 1 + c∆t, d’où
la stabilité L2 (voir remarque 16.7).

Équation de la chaleur

Proposition 16.10. Le schéma explicite est consistant (d’ordre 1 en temps et 2 en espace)

et stable (en norme L∞ et en norme L2 ), donc convergent pour ces deux normes, sous la
condition
(∆x)2
∆t ≤ .
2D
91. Il est souvent indiqué comme inconditionnellement instable dans la litérature, et de fait peut utilisé en
pratique pour l’équation de transport simple.

150
Démonstration. Le schéma explicite pour l’équation de la chaleur s’écrit

2D∆t D∆t n D∆t n
un+1 = unj 1− + uj−1 + u ,
j
(∆x)2 (∆x)2 (∆x)2 j+1

qui est bien une combinaison barycentrique des veleurs précédentes sous la condition ∆t ≤
(∆x)2 /2D.

Pour la stabilité L2 , on écrit

n+1 n D∆t
û (k) = û (k) 1 + (exp(2iπk∆x) − 2 + exp(−2iπk∆x))
(∆x)2

D∆t 4D∆t
n
= û (k) 1 + 2
(exp(iπk∆x) − exp(−iπk∆x))2 = ûn (k) 1 − sin (πk∆x)2
(∆x) (∆x)2
qui est bien de module ≤ 1 sous la même condition sur le pas de temps.

Proposition 16.11. Le schéma implicite est consistant (d’ordre 1 en temps et 2 en espace)

et inconditionnellement stable en norme L2 et en norme L∞ , donc convergent pour ces deux
normes.

Démonstration. Stabilité L∞ : on a, pour tout j,

un+1
j + λ(un+1
j − un+1 n+1
j−1 ) + λ(uj − un+1 n
j−1 ) = uj .

On en déduit que le plus petit un+1

j est supérieur à unj , donc supérieur au plus petit des un+1
ℓ ,
n+1 n+1
et que le plus grand uj est de la même manière inférieur au plus grand uℓ (principe du
maximum), d’où la stabilité L∞ .

Pour la stabilité L2 , on a
−1
4D∆t
ûn+1 (k) = ûn (k) 1 + sin (πk∆x)2 ,
(∆x)2

d’où l’inconditionnelle stabilité L2 .

Exercice 16.1. Étudier (consistance et stabilité L2 ) le θ-schéma pour l’équation de la chaleur

un+1
j − unj −un+1 n+1
j−1 + 2uj − un+1
j+1 −unj−1 + 2unj − unj+1
+ θD + (1 − θ)D =0 (16.8)
∆t (∆x)2 (∆x)2

en fonction de la valeur de θ. Montrer en particulier que le schéma est inconditionnellement

stable pour tout θ ∈ [1/2, 1].

16.4 Symboles discret et continu des opérateurs différentiels

Considérons une équation d’évolution du type

∂t u + Lu = 0,

151
sur l’intervalle ]0, 1[ périodique, où L est un opérateur différentiel linéaire (combinaison li-
néaire de dérivées partielles en espace de u). On écrit la solution sous la forme de sa série de
Fourier X
u(x, t) = ût (k) exp (2iπkx) ,
Z
avec, pour chaque coefficient de Fourier, l’équation différentielle
d
ût (k) + L̂(k)u(k) = 0,
dt
où L̂(k) est le symbole de l’opérateur L. Pour l’équation de la chaleur, on a par exemple
Lu = −D∂xx u , L̂(k) = D(2π)2 k2 ,
et pour le transport
Lu = V ∂x u , L̂(k) = 2iπkV.
Si l’on discrétise en temps (par un schéma d’Euler explicite) l’équation différentielle sur ût (k),
on obtient
ûn+1 (k) = ûn (k) 1 − ∆tL̂(k) .

Il apparaı̂t qu’un tel schéma est génériquement instable pour les modes grands (L̂(k) est
un polynôme en k). La seule possibilité pour qu’un tel schéma soit stable est que L̂(k) soit
de degré zéro, donc constant, c’est à dire que l’opérateur ne soit en fait pas un opérateur
différentiel. Pour la méthode des différences finies, on peut espérer avoir stabilité dans les cas
non triviaux car la discrétisation en espace fait disparaı̂tre les hautes fréquences. Par exemple,
dans le cas de la chaleur L = −D∂xx , ce qui joue le rôle du symbole de l’opérateur est
D D
(exp(2iπk∆x) − 2 + exp(−2iπk∆x)) = 4 sin (πk∆x)2
(∆x)2 (∆x)2
qui est bien équivalent à 4π 2 k2 , symbole de l’opérateur −D∂xx , quand ∆x tend vers 0 (on
retrouve la notion de consistance dans le domaine spectral). En revanche le symbole discret
n’est pas un polynôme, ou plutôt c’est un polynôme en exp(2iπk∆x) et exp(−2iπk∆x). Il
est donc uniformément borné par rapport au mode k, et l’on peut espérer avoir stabilité dès
que 1 − ∆tL̂(k) est dans le disque unité pour tout k (cette condition n’est pas nécessaire à
strictement parler, voir remarque 16.7, mais la plupart des schémas stables explicites ren-
contrés vérifieront de fait cette condition). Pour l’équation de la chaleur, le symbole est réel,
avec 0 ≤ L̂(k) ≤ 4D/(∆x)2 , on a donc stabilité sous condition sur le pas de temps, comme
vu précédemment (voir figure 16.2).

Pour le transport, la situation est la suivante : le symbole de l’opérateur continu est imagi-
naire pur, il vaut 2iπk, de telle sorte que 1 − ∆t L̂(k) > 1 pour tout k 6= 0. Une discrétisation
en espace appropriée (schéma décentré amont en l’occurrence) permet de “tordre” le symbole
de façon à se ramener dans le disque unité, ce qui assure la stabilité sous condition sur le pas
de temps. Plus précisément, pour le schéma décentré amont, le symbole discret est
V
Λ(k) = (1 − exp(−2iπk∆x))
∆x
qui est bien équivalent au symbole continu, à k fixé, quand ∆x tend vers 0. Mais il n’est pas
imaginaire pur, il fait un angle 2πk∆x avec le symbole continu, de telle sorte que
|1 − ∆tΛ(k)| ≤ 1 dès que ∆t ≤ V /∆x.

152
Symbole continu

Symbole discret
Symbole discret Symbole continu

Figure 16.2 – Image des symboles discrets (ronds noirs) et continus (ronds blancs) pour
l’équation de la chaleur (gauche) et l’équation de transport (droite)

Cette stabilisation par discrétisation s’accompagne d’un phénomène dit de diffusion nu-
mérique, qui apparaı̂t clairement au niveau spectral. Le symbôle de l’opérateur continu, 2iπk,
est imaginaire pur, ce qui reflète le transport sans déformation des modes associés à toutes
les fréquences : la solution de
d
ût (k) = −L̂(k) ût (k) = −2iπkV ût (k)
dt
est bien de module constant. Par discrétisation en espace, chaque mode 2iπkV est remplacé
par un mode tourné V (1 − exp(−2iπk∆x)) /∆x, qui stabilise l’évolution, mais qui n’est plus
imaginaire pur, on a une partie réelle non triviale
V
Re(Λ) = (1 − cos(2πk∆x)) .
∆x
Le pendant discrétisé en espace de l’équation différentielle ci-dessus est
d V
ût (k) = −Λ(k) ût (k) = − (1 − exp(−2iπk∆x)) ût (k),
dt ∆x
qui correspond à une décroissance exponentielle vers 0 pour les modes non triviaux : tous les
modes oscillants sont amortis.

Dans le processus d’évolution des modes de Fourier de la solution discrète, celà conduit
au fait que les coefficients d’amplification A(k) = (1 − ∆tΛ(k)) sont de module strictement
inférieur à un, ce qui entraine une diminution des poids des modes correspondants. Cet
amortissement des poids, d’autant plus important que la fréquence est élevée, induit une
régularisation de la solution discrète au fil des itérations (alors que l’équation de transport
n’est pas elle-même régularisante).

On peut quantifier plus précisément ce phénomène de diffusion numérique, ainsi que la

manière dont la discrétisation en espace modifie la vitesse de transport des modes de Fourier

153
de haute fréquence. Pour le problème continu, on a
d
ût (k) = −L̂(k) ût (k) = −2iπkV ût (k).
dt
Pour le mode k, i.e. exp(2iπkx), l’évolution du coefficient est donnée par ût (k) = exp(−2iπkV t),
d’où, pour la fonction elle-même

exp(2iπkV t) exp(2iπkx) = exp(2iπk(x − V t)),

qui correspond bien à un transport à vitesse V . Pour le problème discrétisé en espace, on a

d V
ût (k) = −Λ(k) ût (k) = − (1 − exp(−2iπk∆x)) ût (k)
dt ∆x
V V
=− exp(−iπk∆x) (exp(iπk∆x) − exp(−iπk∆x)) = −2i exp(−iπk∆x) sin(πk∆x).
∆x ∆x
La solution selon ce mode k s’écrira donc

exp(−Λ(k)t) exp(2iπkx).

La partie réelle de −Λ(k)t, qui vaut

V
Re(−Λ(k)) = −2 sin(πk∆x)2 < 0,
∆x
correspond à l’amortissement parasite (phénomène de diffusion numérique). Noter que cet
amortissement est asymptotiquement nul si l’on fait tendre ∆x, à k fixé, vers 0, ce qui reflète
le caractère non diffusif de l’équation de départ. La partie imaginaire de −Λ(k) encode la
propagation dans l’espace du mode considéré :
V V
Im(−Λ(k)) = −2 cos(πk∆x) sin(πk∆x) = − sin(2πk∆x).
∆x ∆x
La partie de la solution associée à ce mode imaginaire s’écrit en effet
  

V 


 V 

exp −i sin(2πk∆x)t exp(2iπkx) = exp 2iπk x − sin(2πk∆x)t ,
∆x  
| 2πk∆x{z }

=x−Vk t

qui correspond, pour le mode k, à une propagation à vitesse constante

V
Vk = sin(2πk∆x).
2πk∆x
On retrouve bien la vitesse V lorsque, à k fixé, ∆x tend vers 0 (ce qui traduit un nouvelle fois,
dans le domaine spectral, la consistance du schéma vis-à-vis de l’équation), mais la vitesse
est réduite pour les hautes fréquences (phénomène de dispersion numérique).

Remarque 16.12. Noter que cette étude de l’évolution des modes de Fourier est analogue à
l’étude de la propagation des perturbations pour le modèle de trafic routier ou piéton linéarisé
autour de la solution d’équilibre, dans le cas d’une route périodique.

154
Remarque 16.13. (Supériorité des schémas implicites)
Il semble intuitif qu’un schéma implicite possède de meilleures propriétés de stabilité qu’un
schéma explicite. Le cadre présenté ci-dessus permet de formaliser cette tendance. Nous li-
miterons le cadre de cette remarque à des opérateurs différentiels nativement stabilisant dans
L2 , c’est à dire ceux dont le symbole reste dans le demi plan complexe Re(z) ≥ 0 (ce qui est
bien le cas pour les opérateurs de diffusion et de transport). On a en effet, pour le mode k,
d
ût (k) = −L̂(k) ût (k),
dt
et donc décroissance du (module du) coefficient correspondant au mode k dès que Re(L̂(k)) ≥
0. Pour le problème semi-discrétisé en temps, l’approche explicite s’écrit

ûn+1 (k) = 1 − ∆tL̂(k) ûn (k)

d’où, comme on l’a vu précédemment, une instabilité inconditionnelle sauf dans les cas tri-
viaux. Le schéma implicite s’écrit
−1
ûn+1 (k) = 1 + ∆tL̂(k) ûn (k),

avec 1 + ∆tL̂(k) à l’extérieur du disque unité, donc stabilité inconditionnelle.

Pour le problème discrétisé en espace par différences finies, on peut énoncer les faits
suivants. Si la discrétisation en espace préserve la propriété de positivité de la partie réelle
du symbole, i.e. Re(Λ(k)) ≥ 0, le schéma explicite (discrétisé en espace temps, exprimé sur
les modes de Fourier) s’écrit

ûn+1 (k) = (1 − ∆tΛ(k)) ûn (k),

et l’on a au mieux une stabilité conditionnelle 92 . Toujours sous l’hypothèse Re(Λ(k)) ≥ 0,

le schéma implicite
ûn+1 (k) = (1 + ∆tΛ(k))−1 ûn (k),
assure la décroissance des coefficients de tous les modes, donc stabilité sans condition sur le
pas de temps.

Les choses sont un peu plus troubles pour un schéma qui ne vérifierait pas la propriété de
symbole à partie réelle positive. Disons que, dans ce cas, l’implicitation ne suffit pas en général
pour stabiliser le schéma. Considérons par exemple le schéma décentré aval pour l’équation
de transport ; le schéma explicite s’écrit
V
ûn+1 (k) = (1 − ∆tΛ(k)) ûn (k) , Λ(k) = (exp(2iπk∆x) − 1) ,
∆x
on a cette fois instabilité inconditionnelle : le symbole discret pointe dans la mauvais direc-
tion (vers les parties réelles positives), la situation est donc désespérée. Le schéma implicite
s’écrirait
ûn+1 (k) = (1 + ∆tΛ(k))−1 ûn (k)
92. Stabilité conditionnelle avec décroissance de la norme L2 si l’on peut assurer que (1 − ∆tΛ(k)) reste dans
le disque unité pour tout k, ou éventuellement stabilité conditionnelle avec condition renforcée, et perte de la
propriété de décroissance de la norme L2 , dans le cas où (1 − ∆tΛ(k)) sort du disque unité tout en restant
dans le demi-espace Re(z) ≤ 1 (comme pour le schéma centré explicite, voir proposition 16.7.

155
Ici, pour les pas de temps grands, on peut espérer avoir stabilité, mais pour ∆t tendant vers
0 on aura toujours apparition de coefficients d’amplification de module > 1. Le fait que le
schéma soit stable pour de grands pas de temps n’est évidemment d’aucun intérêt, puisqu’il
exclut toute convergence du schéma (voir remarque 16.5).

16.5 Interprétation probabiliste de schémas explicites

Certains schémas de discrétisation par différences finies peuvent s’interpréter de façon

probabliste. L’équation de la chaleur pouvant exprimer un processus de diffusion, il n’est pas
surprenant que sa discrétisation puisse être interprétée comme une marche aléatoire. C’est
plus inattendu pour l’équation de transport, dont la discrétisation conduit à un phénomène
de diffusion numérique, dont on propose ici une interprétation stochastique.

Schéma explicite pour la chaleur. On se place dans le cadre périodique, avec x0 = 0

identifié à xJ = 1. Le schéma (16.2), page 144, peut s’écrire

D∆t D∆t n D∆t n
un+1 = 1− unj + uj−1 + u ∀j = 0, . . . , J − 1,
j
(∆x)2 (∆x)2 (∆x)2 j+1
(avec la convention naturelle 0 ≡ J et −1 ≡ J − 1). Considérons un = (unj )0≤j≤J−1 comme
une mesure discrète de probabilité, le schéma s’écrit
un+1 = t P un ,
avec 93  
1 − 2λ λ 0 · · λ
 

 λ 1 − 2λ λ 0 · · 

 
 
t
 0 λ · · · 
P =



 · · · · · 
 
 

 · · 1 − 2λ 

λ · · 0 λ 1 − 2λ
Pour λ ≤ 1/2 (condition de stabilité L∞ ),
la matrice P est une matrice stochastique : tous
ses éléments sont positifs ou nuls, et la somme des éléments de chaque ligne vaut 1). On peut
interpréter les éléments de la ligne i comme des probablités de transition partant de i. La
marche aléatoire sous-jacente est définie comme suit : partant de i la probabilité de rester sur
place est 1 − 2λ, et la probabilité résiduelle 2λ se partage équitablement entre i − 1 et i + 1
(en tenant compte de la périodicité). Cette chaine de Markov est irréductible et réversible, et
la mesure stationnaire associée est la mesure discrète uniforme, qui minimise l’entropie (voir
section 10, page 101).

Schéma explicite pour le transport. On se place dans le cadre périodique, avec x0 = 0

identifié à xJ = 1. Le schéma (16.4), page 145, peut s’écrire
un+1 = t P un ,
93. nous écrivons t P bien que la matrice soit symétrique, car c’est bien t P qui interviendra dans les cas non
symétriques.

156
avec  
1−λ 0 0 · · λ
 

 λ 1−λ 0 0 · · 

 
 
t
 0 λ · · · 
P =



 · · · · · 
 
 

 · · 1−λ 

0 · · 0 λ 1−λ
La matrice P est stochastique pour λV ∆t/∆x ≤ 1 (condition CFL). La marche aléatoire
sous-jacente est définie comme suit : partant de i la probabilité de rester sur place est 1 − λ,
et la probabilité d’avancer d’une case est λ, avec λ = V ∆t/∆x.

Cas général. De façon générale, considèrons une équation de conservation, du type

∂t u + L(u) = 0

où L est un opérateur différentiel linéaire exprimant une conservation, i.e. de la forme ∂x F (u),
où F est lui-même un opérateur différentiel linéaire (d’ordre 0 dans le cas du transport simple).

On considère maintenant un schéma de discrétisation par différences finies, du type (ex-

plicite)
un+1 = (Id +∆t A) un ,
où A est une discrétisation consistante de l’opérateur ∂x (F (u)). Si le schéma respecte la
propriété de conservation, i.e. la somme des unj se conserve 94 , alors 95 la somme des éléments
d’une colonne de A vaut 0 : le schéma se met sous la forme

un+1 = t P un ,
où P est une matrice stochastique.

Dans les cas considérés précédemment, la matrice Id +∆tA = t P est en fait bistochastique,
les sommes des éléments d’une ligne valent également 1. Cette propriété reflète simplement
une propriété commune aux deux équations considérées, qui admettent (dans le cas pério-
dique) toute fonction constante comme solution stationnaire. Le pendant stochastique de
cette propriété est que la mesure stationnaire associée à la chaı̂ne de Markov représentée par
la matrice P est la mesure uniforme.

Plans de transport

Les matrices t P associés aux schémas explicites rappelés ci-dessus peuvent (sous condition
CFL assurant le principe du maximum), comme toute transposée de matrice stochastique
s’interpréter comme des plans de transports entre mesures discrètes portées par un ensemble
94. Cette condition est vérifiée par tous les schémas consistants usuels, même si la consistance n’implique
pas, à strictement parler, la préservation exacte de cette propriété de conservation.
95. Toute matrice réelle qui laisse inchangée la somme des éléments de tout vecteur est la transposée d’une
matrice stochastique, il suffit d’écrire la condition sur chaque vecteur de base.

157
de cardinal J. Le fait que la matrice soit bistochastique dans les cas considérés permet aussi
de les voir comme un transport particulier entre la mesure uniforme sur un ensemble XJ à J
points vers elle même. Ou, pour rester dans un cadre probabiliste, comme la loi d’une variable
aléatoire dans XJ × XJ , dont les projections respectives suivent la loi uniforme.
Exercice 16.2. (Diffusion numérique, point de vue du transport optimal)
On considère le plan de transport associé au schéma explicite décentré amont pour l’équation
de transport à vitesse constante. On fixe le pas d’espace ∆x. Estimer le coût quadratique de
transport associé à ce plan, et préciser son comportement lorsque le pas de temps tend vers
0.

16.6 Extensions, développements

Exercice 16.3. On considère le schéma décentré amont appliqué à l’équation de transport à

vitesse constante, en domaine (monodimensionnel) périodique. On considère une condition
initiale positive, de masse 1, on peut ainsi voir la collections des valeurs au temps tn comme
la loi d’une variable aléatoire discrète. Montrer que, pour une CFL strictement supérieure à
1, l’entropie est décroissante, i.e.
S(un+1 ) < S(un ),
dès que un n’est pas la loi uniforme. En déduire le comportement du schéma, pour ∆x et ∆t
fixés, lorsque le nombre de pas de temps tend vers l’infini.

Équation des ondes.

S’il est possible d’utiliser des schémas à 3 niveaux pour les équations d’ordre 1 en temps
comme celles vues précédemment (cela peut permettre d’augmenter l’ordre de précision en
temps), cela devient indispensable pour des équations qui sont nativement d’ordre 2 en temps,
comme l’équation des ondes
∂tt u − c2 ∂x xu = 0.
Un schéma couramment utilisé est le schéma de Crank-Nicholson, i.e.
un+1
j − 2unj + ujn−1 2
−un+1 n+1
j−1 + 2uj − un+1
j+1 2
−unj−1 + 2unj − unj+1
+ θc + (1 − θ)c = 0 (16.9)
(∆t)2 (∆x)2 (∆x)2
avec θ = 1/2, qui peut s’écrire matriciellement
!
c2 (∆t)2 n+1 n n−1 c2 (∆t)2 n
Id + A u = 2u − u − Au ,
2(∆x)2 2(∆x)2
où A est la matrice du Laplacien discret.

Implémentation effective

Les schémas explicites ne nécessitent en général pas l’assemblage de la matrice. On pourra

utiliser avantangeusement les opérateurs de shift à droite SR et shift à gauche SR définis, dans
un cadre périodique, par

SR (u1 , u2 , . . . uJ ) = (uJ , u1 , . . . , uJ−1 ) , SL (u1 , u2 , . . . uJ ) = (u2 , u3 , . . . , uJ , u1 ).

158
En Python, les opérateurs de shift peuvent être implémentées simplement de la façon sui-
vante :

uuL = [Link](uu,-1)
uuR = [Link](uu,1)

Transport. Le schéma décentré amont (la vitesse d’advection est choisie positive) s’écrit
ainsi, avec des notations évidentes

V ∆t n
un+1 = un − (u − SR un ) ,
∆x
et le schéma centré :
V ∆t
un+1 = un − (SL un − SR un ) .
2∆x

Diffusion.

Le schéma explicite pour l’équation de la chaleur peut être implémenté (cas périodique)
en utilisant les opérateurs de shift :

D∆t
un+1 = un + (SR un − 2un + SL un ) ,
(∆x)2

qui se programme simplement en Python à l’aide de la méthode [Link] évoquée précédem-

ment.

Si l’on s’intéresse à des conditions de Dirichlet homogènes, le plus simple est de définir un
vecteur de taille J + 1 (qui contient les valeurs aux extrémités, qui ne sont pas des degrés de
libertés), d’initialiser les valeurs extrémales (qui ne seront pas modifiées par le schéma) aux
valeurs imposées, et d’incrémenter le sous-vecteur qui correspond effectivement aux degrés de
liberté.

Construction des matrices. Pour les schémas implicites, il est naturel 96 d’assembler la
matrice intervenant dans le schéma. Il est essentiel de stocker les matrices sous forme creuse,
pour limiter le temps de calcul. Le package scipy permet de stocker les matrices sous cette
forme, et propose des méthodes de résolution optimisées pour ce type de matrices.

import [Link] as ssp

import [Link] as sla
96. Cet assemblage n’est pas nécessaire à strictement parler. On peut être amené à utiliser, pour résoudre
le système linéaire, des méthodes dites itératives (voir section 18, page 179), basées sur des produits matrice-
vecteur successifs. Si l’on programme soi-même l’une de ces méthodes itératives, on peut choisir d’effectuer
ces produits matrice-vecteur à la volée, sans préassembler la matrice. Cette approche permet d’éconimiser de
l’espace mémoire dans le cas où la matrice contient très peu l’élements différents, ce qui est le cas des matrices
résultant de la discrétisation d’opérateurs différentiels invariants par translation, sur un maillage régulier.

159
La manière la plus simple d’assembler les matrices résultant d’une discrétisation par diffé-
rences finie est de passer par la commande [Link], qui prend en argument des un tableau
de vecteurs correspondant aux diagonales non nulles, suivies des indices correspondant aux
diagonales (0 pour la diagonale, indices positifs pour la partie triangulaire supérieure, et né-
gatifs de l’autre côté). On pourra par exemple assembler la matrice associée au schéma de
transport implicite, i.e.
 
1 β 0 · · −β
 
 −β 1 β 0 · · 
 
 

 0 −β · · · 

A=



 · · · · · 
 
 
 ·
 −β 1 β 

β · · 0 −β 1

avec β = ∆tV /(2∆x), de la façon suivante

beta = 0.5*V*dt/dx
ones = [Link](J)
aux = [ones,beta*ones[:-1],-beta*ones[:-1],-beta*ones[0],beta*ones[0]]
Adv1d = [Link](aux,[0,1,-1,(J-1),-(J-1)],format=’csr’)

Le calcul du nouveau champ à partir du précédent peut alors se faire à l’aide de la fonction
spsolve du package [Link] :

uu =[Link](Adv1d,uu)

N.B. Le format csr 97 spécifié lors de l’assemblage permet une utilisation optimale de
solve.

Assemblage des matrices du Laplacien en dimension d ≥ 2.

En dimension 1 la matrice du Laplacien discret avec conditions de Dirichlet (valeur im-

posée à 0 aux extrémités) s’écrit

 
2 −1 0 · · 0
 
 −1 2 −1 0 · · 
 
 
 0 −1

· · · 

A1 = 



 · · · · · 
 
 
 ·
 · 2 −1 

0 · · 0 −1 2
97. Voir [Link]

160
En dimension 2 d’espace, le Laplacien discret agit sur les valeurs au point (i∆x, j∆x) de la
discrétisation comme suit

4ui,j − ui−1,j − ui+1,j − ui,j−1 − ui,j+1 .

On peut vérifier que la matrice associée peut s’écrire

A2 = A1 ⊗ I1 + I1 ⊗ A1 ,

où I1 est la matrice identité d’ordre le nombre de point dans chaque direction, et ⊕ est le
produit de Kronecker défini de la façon suivante : si A ∈ Mpq et Brs sont deux matrices, la
matrice C = A ⊗ B est de taille (pr, qs) a une structure (p, q) par blocs, chaque bloc étant de
taille (r, s), égale au produit de aij par la matrice B. On obtient de façon analogue la matrice
du Laplacien 2d pour des conditions aux limites de Neuman, ou des conditions périodiques.

En Python, si A et B sont des matrices creuses, ce produit de Kronecker s’écrit

C = [Link](A,B)

Exercice 16.4. Généraliser la construction décrite ci-dessus au cas de la dimension 3.

Exercice 16.5. Proposer une extension de l’approche dans le cas de conditions aux limites
panachées, par exemple, sur le carré unité, le cas de conditions de Neuman homogènes le
bord [y = 0], et Dirichlet homogène partout ailleurs.

Résolution de grands systèmes linéaires. La résolution de problmème d’évolution par un

schéma implicite conduit à la résolution de multiples systèmes linéaires impliquant la même
matrice, pour des seconds membres différents (voir remarque 18.7, page 181, dans le cas de
la factorisaiton de Cholesky). On peut alors avoir intérêt à pratiquer une pré-factorisation de
la matrice, qui va pouvoir ensuite être utilisée pour tous les systèmes.

L’implémentation en Python prend la forme suivante : on convertit tout d’abord la ma-

trice au format approprié, dit csc, par A=[Link](), puis on factorise la matrice par fA =
[Link](A).

La résolution du système s’écrit ensuite comme un simple appel de fonction (comme si fA

était l’inverse de la matrice A) :

uu = fA(rhs)

161
17 Éléments finis

17.1 La méthode

On considère le problème de Poisson dans le domaine le domaine Ω =]0, 1[×]0, 1[.

(
−∆u = f dans Ω
(17.1)
u = 0 sur Γ

Formulation variationnelle. On obtient 98 la formulation variationnelle de ce problème en

multipliant la première équation par une fonction test v régulière qui s’annule sur la partie
du bord où la température est imposée. On obtient après intégration par parties
Z Z Z
∂u
∇u · ∇v − v = fv
Ω Γ ∂n
d’où (les termes de bord s’annulent sur Γ du fait de la nullité de v)
Z Z
∇u · ∇v = f v.
Ω

Cette démarche d’élaboration de la formulation variationnelle n’est pas à proprement parler

mathématique : ni l’espace dans lequel est censé vivre la solution, ni le sens que l’on peut
donner à l’équation de départ, n’ont été précisés. C’est cette formulation variationnelle qui
va permettre justement de donner un cadre théorique précis au modèle.

Cadre théorique. Ce problème se met donc sous la forme

a(u, v) = hϕ , vi ∀v ∈ V,
où a( · , · ) est une forme bilinéaire symétrique sur un espace de Hilbert V , et ϕ une forme
linéaire continue sur ce même espace. L’espace V est l’espace de Sobolev H01 (Ω) (voir sec-
tion 22) des fonction de L2 dont les dérivées partielles sont aussi dans L2 , et qui sont nulles 99
sur Γ :

Dans le cas où la forme bilinéaire a( · , · ) est coercive, c’est à dire (voir définition 20.20)
s’il existe α > 0 tel que a(v, v) ≥ α |v|2 pour tout v dans V , le théorème de Lax Milgram
(théorème 20.25) assure l’existence et l’unicité d’une solution dans V .

Cette solution peut être caractérisée comme unique minimiseur de la fonctionnelle

Z Z
1 1 2
J(v) = a(v, v) − hϕ , vi = |∇v| − f v.
2 2 Ω Ω

98. Cette démarche en elle-même n’est pas mathématique, elle consiste précisément à faire rentrer le pro-
blème dans un cadre mathématique. Pour le mathématicien, non seulement le problème (17.1) n’est pas
encore bien posé (il n’est pas sous une forme qui permette l’utilisation directe d’un théorème), mais d’une
certaine manière il n’est même pas posé (l’espace dans lequel est supposé vivre l’inconnue n’est pas précisé, ni
le sens que peuvent avoir les conditions aux limites). Ces remarques peuvent laisser croire que l’obtention de
la formulation variationnelle se fait hors de toute règle. Il faut cependant garder à l’esprit qu’un retour (par-
faitement mathématisé celui-là) vers l’équation sera nécessaire pour garantir le lien entre le problème initial
et la formulation variationnelle.
99. Le sens que l’on peut donner à l’expression u|Γ = 0 est précisé dans la section 22.3, page 222.

162
Le point essentiel pour pouvoir utiliser le théorème de Lax-Milgram est la coercivité de la
forme bilinéaire, dont nous verrons qu’elle peut être mise à mal pour des matériaux dégénérés
(pour le problème de conduction de la chaleur considéré ici, la dégénérescence se produit
lorsque la conductivité tend localement vers 0) . Ici, la coercivité de la forme bilinéaire est
assurée d’uneR
part par l’hypothèse k ≥ η > 0, et d’autre part par le fait que l’on peut choisir
la quantité ( |∇u|2 )1/2 comme norme sur l’espace V , grâce à l’un des corollaires de l’inégalité
de Poincaré (voir proposition 22.43, page 22.43).

Retour à l’équation de départ. La formulation variationnelle ayant été construite de façon

informelle, il est important de préciser en quel sens le problème mis sous forme variationnelle
correspond bien au problème initial. Cette étape peut être très délicate dans certains cas (la
difficulté dépendant de la régularité de la frontière du domaine, et des conditions aux limites
considérées). Le premier pas consiste à établir à partir de la formulation variationnelle que
la solution est en fait plus régulière 100 que la régularité naturelle H 1 (qui intervient dans le
cadre de l’utilisation du théorème de Lax-Milgram). La solution u est dite solution faible de

−∆u = f,

avec f ∈ L2 (Ω). Dans le cas où k est supposé régulier (C 1 ), la solution appartient en effet à
un espace de fonctions plus régulières, l’espace H 2 (Ω) (voir définition 22.20, et la section 22.7
pour l’énoncé des théorèmes de régularité), de telle sorte que ∆u est défini comme fonction
de L2 (Ω), et que l’on peut écrire

−∆u = f p.p. sur Ω.

Précisons que l’appartenance à H 2 (Ω) ainsi que l’écriture de l’équation ci-dessus utilisent
uniquement la formulation variationnelle pour des fonctions tests à support compact dans Ω
(qui sont en particulier nulles au bord).

Les conditions aux limites de Dirichlet sur le bord du domain sont contenues dans l’ap-
partenance de u à l’espace V

Discrétisation en espace. L’approximation de la solution u du problème de départ est

basée sur l’introduction d’espaces Vh de fonctions, de dimension finie. Dans le cadre de la
méthode des éléments finis dits P 1 (pour polynôme de degré 1), on se donne une suite de
triangulations Th (voir définition 17.14, page 171, pour une définition précise de ce que nous
entendons par triangulation), où h est un petit paramètre destiné à tendre vers 0, qui mesure
la finesse de la triangulation. On définit alors Vh comme l’espace des fonctions continues, qui
vérifient la condition aux limites, et dont la restriction à chaque triangle de Th est affine :
n o
Vh = vh ∈ V , vh|K est affine sur tout K ∈ Th .

Le problème discret s’écrit


 Trouver uh ∈ Vh tel que

Z Z (17.2)

 ∇uh · ∇vh = f vh ∀vh ∈ Vh .
Ω Ω

100. Précisons que ce résultat de régularité interviendra de façon essentielle dans l’analyse d’erreur de la
méthode de discrétisation.

163
Formulation matricielle. On numérote i = 1, 2, . . ., Nh les nœuds de la triangulation qui
correspondent à des degrés de liberté (c’est à dire les sommets de Th qui n’appartiennent pas
à Γ). La solution recherchée uh peut s’écrire
Nh
X
uh = uj wj ,
j=1

de telle sorte que (17.2) se ramène au système matriciel (on garde la notation uh pour
désigner le vecteur (u1 , . . . , uNh )
Auh = bh ,
où A est une matrice carrée d’ordre Nh , et bh ∈ RNh :
Z Z
A = (aij ) = ∇wi · ∇wj , bh = f wi .
Ω Ω i

On peut vérifier que, dans le cas d’un maillage cartésien régulier (cellules carrées coupée en
2 triangles), la matrice obtenue est, à constante multiplicative près, la matrice du Laplacien
discret que l’on obtient par une discrétisation dans le cadre de la méthode des différences
finies. La mise en œuvre de la présente méthode ne nécessite en revanche aucune hypothèse
sur le maillage.

Implantation sur Freefem++ . Le logiciel Freefem++ permet de calculer uh en quelques

lignes. Précisons que l’assemblage de la matrice et la résolution des systèmes sont gérés
par le logiciel sans que l’utilisateur ait à intervenir (si ce n’est pour préciser éventuellement
le choix de telle ou telle méthode de résolution). D’autre part, les conditions de Dirichlet
non homogènes (conditions u = 1 sur Γ3 ) ne nécessitent pas l’introduction explicite d’un
relèvement de cette condition au bord.

int np=50;
mesh Th=square(np,np);

fespace Vh(Th,P1);
Vh u,tu ;
func k = 1+0.5*sin(y*4*pi) ;
func f = 1 ;
plot(Th,wait=1);

problem Poisson(u,tu)=
int2d(Th)(k*(dx(u)*dx(tu)+dy(u)*dy(tu)))
-int2d(Th)(f*v)
+on(1,2,3,4,u=0);
Poisson ; plot(u, wait=1);

Estimation d’erreur. L’estimation d’erreur, détaillée dans la section 17.2, se base sur 2
ingrédients.

164
1) En premier lieu, il s’agit d’établir une inégalité d’approximation du type

inf |vh − u| ≤ ε(h, u),

vh ∈Vh

où u est la solution exacte du problème initial, et ε(h, u) tend vers 0 quand le paramètre
de discrétisation h tend lui-même vers 0. Pour le cas des éléments finis d’ordre 1 que nous
avons considérés ici, ε est du type Ch kukH 2 , où H 2 désigne l’espace de Sobolev des fonctions
de L2 dont toutes les dérivées secondes sont de carré intégrable. Noter que la régularité de
la solution donnée par le théorème d’existence et d’unicité est simplement H 1 . Il sera donc
nécessaire de montrer que la solution est plus régulière que cela.

2) Le fait que l’estimation d’approximation précédente puisse conduire à une estimation

d’erreur sur la solution effectivement calculée (qui a priori n’est pas la meilleure approximation
de u par un élément de Vh ) se base sur le lemme de Céa (voir section 17.2), qui utilise encore
une fois la coercivité de la forme bilinéaire a( · , · ), et s’exprime ici

ku − uh k ≤ C inf |vh − u| ,
vh ∈Vh

où C est une nouvelle constante qui dépend des propriétés de la forme bilinéaire. Nous verrons
que dans le cas de matériaux inhomogènes cette constante est susceptible d’être très grande,
ce qui suggère une dégradation de la précision numérique. La démonstration de ces propriétés
fait l’objet de la section 17.2.

Ces propriétés assurent ici que, si l’on considère (Th ) une famille régulière de triangulations
de Ω (voir définition 17.17), Vh l’espace d’approximation associé défini précédemment, alors
il existe une constante C > 0 telle que

|u − uh |Ω,1 ≤ Ch |f |Ω,0 .

C’est une application directe de la proposition 22.55, page 233 (ou plus précisément de la
proposition 22.57 qui s’applique au cas d’un polyèdre convexe), du théorème d’approxima-
tion 17.18, et du lemme de Céa 17.3.
Remarque 17.1. On prendra garde au fait que le lemme de Céa est non local (l’estimation
de l’erreur par l’erreur d’approximation est globale). En particulier, si la solution a la régu-
larité H 2 sauf au voisinage d’un point (par exemple un coin rentrant), on n’a pas forcément
approximation d’ordre 1, même loin du point problématique : la singularité est susceptible de
polluer l’ensemble de l’approximation.

Autres conditions aux limites

Conditions de Neuman. On considère la situation (rencontrée dans les exemples du cha-

pitre I) où la dérivée normale est imposée sur une partie de la frontière. Notons ΓN cette
partie, et ΓD la composante restante, sur laquelle on choisit d’imposer une condition de Di-
richlet homogène. Pour fixer les idées, on considère que Ω est le carré unité, et que ΓN est le
bord inférieur. On se donne une donnée g ∈ L2 (ΓN ) sur le bord 101 . Le problème considéré
101. La question de la régularité de g est un peu délicate. On pourra considérer dans un premier temps
g ∈ L2 (Γ), ce qui permet d’obtenir un problème bien posé. En revanche si l’on souhaite démontrer la régularité
H 2 de la solution, il est nécessaire de prendre une donnée plus régulière, en l’occurrence H 1/2 (Γ).

165
est maintenant (avec k ≡ 1) 

 −∆u = f in Ω



u = 0 sur ΓD (17.3)

∂u 


 = g sur ΓN
∂n
On obtient la formulation variationnelle en multipliant par une fonction-test v nulle ΓD en
intégrant par parties, et en remplaçant 102 ∂u/∂n par g :
Z Z Z
∇u · ∇v = fv + gv.
Ω Ω ΓN

Ce problème se ramène donc à la recherche de u ∈ V tel que

a(u, v) = hϕ , vi ∀v ∈ V,
avec 103 n o
V = u ∈ H 1 (Ω) , u|ΓD = 0 .
L’espace V est sous-espace fermé de H 1 (Ω), c’est donc bien un espace de Hilbert, et a( · , · )
est une forme bilinéaire continue symétrique. L’intégrale en volume dans le second membre
est bien une forme linéaire continue, et
Z
gv ≤ |g|L2 (ΓN ) |v|L2 (ΓN ) ≤ C |g|L2 (ΓN ) kvkH 1 (Ω) ,
ΓN

par continuité de l’application trace, et donc ϕ ∈ V ′ . Il reste à établir la coercivité de a, ce

que permet le corrolaire 22.47, page 230, de l’inégalité de Poincaré généralisée :
Z Z Z
1
| ∇u|2 ≥ u2 + | ∇u|2 .
Ω 1 + C2 Ω Ω

Le problème admet donc une unique solution u ∈ V .

Remarque 17.2. On peut choisir de munir V d’une autre norme. Ici, l’inégalité de Poincaré
généralisée assure que la semi-norme |u|1 est en fait une norme équivalent à la norme H 1
(avec la partie L2 ). On peut donc choisir de munir V de cette norme, et par suite la forme
est bien sûr coercive, avec une constante de coercivité égale à 1. Dans ce cas l’existence et
l’unicité sont directement données par le théorème de Riez-Fréchet.

Retour à l’équation de départ. Il s’agit de montrer en premier lieu que la solution est
H 2 , de façon à donner un sens à ∆u comme fonction 104 . Cette régularité est assurée sous
102. Il est essentiel de faire disparaı̂tre toute trace de ∂u/∂n, car cette quantité n’est pas définie pour des
fonctions de H 1 . Or la forme bilinéaire impose que l’on se place dans H 1 pour utiliser le théorème de Lax-
Milgram.
103. En toute rigueur la condition de Dirichlet sur ΓD devrait s’écrire en utilisant l’opérateur de trace γ0 .
Nous utiserons pourtant dans la suite la notation u|ΓD pour désigner la trace de u sur ΓD .
104. Il existe une autre manière (que nous ne privilégierons pas ici) de donner un sens à l’équation de Poisson
sans l’aide d’aucun théorème de régularité (voir section 22.9, page 235). La formulation variationnelle assure
que ∇u admet une divergence faible L2 . On peut donc donner un sens à ∆u comme la divergence faible de
∇u, en gardant à l’esprit qu’il s’agit d’une notation globale, et qu’en particulier les dérivées secondes ne sont
pas nécessairement définies comme des fonctions de L2 . On peut pousser la démarche jusqu’à donner un sens
à ∂u/∂n comme la trace normale du champ de vecteur ∇u ∈ H(div) (voir remarque 22.68), page 235). Cette
trace est alors définie dans un sens faible, ce qui interdit par exemple l’écriture ∂n u = g p.p.

166
certaines hypothèses, en particulier ici dans le cas de conditions mixtes dans le cas où le
raccord entre les différentes composantes se fait à angle droit (voir remarque 22.58, page 233).
Nous supposerons ici que la donnée g a été choisie de telle sorte que cette régularité H 2 soit
vérifiée.

Cet exemple va nous permettre de faire la distinction entre condition essentielle (condi-
tions de Dirichlet), et condition naturelle (de Neuman en l’occurence, mais il pourrait s’agir
des conditions de Robin). Dans le premier cas, la condition au bord est dans la définition de
l’espace sur lequel on travaille : on a u(x) = 0 presque partout sur ΓD par appartenance de
u à V . Les conditions de Neuman ont en revanche disparu en tant que telles du problème
sous sa forme variationnelle, il est important de vérifier qu’elles sont bien vérifiées dans un
certain sens par la solution. On utilise pour cela la régularité H 2 de la solution. On considère
alors la formulation variationnelle pour des fonctions-test régulières qui s’annulent sur ΓD ,
mais pas forcément sur ΓN . On utilise alors la formule de Green (voir proposition 22.37), ce
qu’autorise la régularité H 2 de la solution u, pour obtenir
Z Z Z Z
∂u
(−∆u) v + v− gv = f v.
Ω ΓN ∂n ΓN Ω

Comme l’équation de Poisson est vérifiée presque partout, il reste

Z
∂u
− g v = 0.
ΓN ∂n
La fonction v pouvant être choisie arbitrairement, on en déduit ∂n u = g presque partout sur
ΓN .

Discrétisation en espace. La discrétisation en espace ne change pas significativement du

cas Dirichlet homogène, si ce n’est que les points du maillage situés sur ΓN correspondent
maintenant à des degrés de liberté, et que le second membre contient des termes provenant
d’intégrales surfaciques impliquant les fonctions-test associées à ces nouveaux degrés de li-
berté : Z Z
bh = f vh + gwi .
Ω ΓN i

17.2 Estimation d’erreur pour la méthode des Éléments Finis

Principes abstraits

Soit V un espace de Hilbert, et a( · , · ) une forme bilinéaire symétrique coercive sur V , de

constante de coercivité α et de constante de continuité kak, et f ∈ V ′ . On note u l’élément
de V qui minimise la fonctionnelle
1
v ∈ V 7−→ J(v) = a(v, v) − hϕ , vi.
2
Dans le cadre de la discrétisation en espace qui sera présentée dans les sections suivantes, on
utilisera la notation Vh pour représenter un espace d’approximation de dimension finie, h étant
un paramètre associé au maillage sur lequel cette discrétisation s’effectue. Dans la proposition
abstraite qui suit, à la base de la méthode des éléments finis, Vh désigne simplement un sous-
espace fermé de V .

167
Proposition 17.3. (Lemme de Céa (cas symétrique))
Soit a( · , · ) une forme bilinéaire symétrique coercive sur V , de constante de coercivité α
et de constante de continuité kak, et ϕ ∈ V ′ . On note u l’élément de V qui minimise la
fonctionnelle
1
v ∈ V 7−→ J(v) = a(v, v) − hϕ , vi.
2
Soit Vh un sous-espace fermé de V . On note uh l’élément de Vh qui minimise J sur Vh . alors
s
kak
|uh − u| ≤ inf |vh − u| .
α vh ∈Vh

Démonstration. On écrit les formulations variationnelles associées aux problèmes de minimi-

sation sur V et sur Vh , respectivement,

a(u, v) = hϕ , vi ∀v ∈ H,

a(uh , vh ) = hϕ , vh i ∀vh ∈ Vh .
On a donc
a(uh − u, vh ) = 0 ∀vh ∈ Vh ,
ce qui exprime que uh minimise la fonctionnelle v 7→ a(vh − u, vh − u) sur Vh . On a donc, en
utilisant la coercivité et la continuité de a( · , · ),

α |uh − u|2 ≤ a(uh − u, uh − u) ≤ inf a(vh − u, vh − u) ≤ kak inf |vh − u|2 ,

vh ∈Vh vh ∈Vh

d’où l’inégalité annoncée.

La propriété demeure (avec une constante dégradée) pour une forme non symétrique,
comme l’exprime le lemme de Céa général :
Proposition 17.4. (Lemme de Céa)
Soit a( · , · ) une forme bilinéaire (non nécessairement symétrique) coercive sur V , de
constante de coercivité α et de constante de continuité kak, et ϕ ∈ V ′ . Soit Vh un sous-
espace de V . On note u et uh les élements de V et Vh , respectivement, qui vérifient

a(u, v) = hϕ , vi ∀v ∈ V,

a(uh , vh ) = hϕ , vh i ∀vh ∈ Vh .
Alors
kak
|uh − u| ≤ inf |vh − u| .
α vh ∈Vh

Démonstration. On utilise comme précédemment

a(uh − u, vh ) = 0 ∀vh ∈ Vh ,

dont on déduit que a(uh − u, uh − u) = a(uh − u, vh − u), pour tout vh ∈ Vh , d’où

α |uh − u|2 ≤ a(uh − u, uh − u) ≤ |a(uh − u, vh − u)| ≤ kak |u − uh | inf |vh − u| ,

vh ∈Vh

d’où l’on déduit l’inégalité en prenant l’infimum en vh .

168
Approximation sur un simplexe

Dans la suite K désigne un simplexe de RN non dégénéré (i.e. de volume non nul). On
désignera par K̂ le simplexe de référence, défini par
n o
K̂ = (x1 , . . . , xN ) ∈ RN
+ , x1 + · · · + xN ≤ 1 .

On se placera dans ce qui suit en dimension 2 d’espace, où K̂ est le triangle de référence
n o
K̂ = (x1 , x2 ) ∈ R2+ , x1 + x2 ≤ 1 .

Notation 17.5. Pour toute fonction w définie sur K (ou sur tout autre domaine), on notera
(lorsque ces quantités sont définies)
 1/2
X
|w|0,K = kwkL2 (K) , |w|1,K = k∇wkL2 (K)2 , |w|2,K = D 2 w = |∂ij u|2  .
L2 (K)N 2
i,j

Notation 17.6. On note P k (K) l’espace des fonctions polynômiales sur K, de degré total
inférieur ou égal à k. Ainsi P 1 (K) désigne l’espace des fonctions affines sur K, de dimension
N + 1, et P 0 (K) la droite des fonctions constantes.

Le cœur théorique de la méthode des éléments finis repose sur une estimation de stabilité
sur le simplexe de référence, qui sera étendue à un simplexe quelconque par simple changement
de variable affine. On considère ici des polynôme d’ordre 1 (éléments finis dits P 1 ), on renvoie
à la fin de la section pour le cas général.
Lemme 17.7. Soit IK un opérateur linéaire continu de H 2 (K) dans H 1 (K) On suppose que
IK laisse invariant tous les éléments de P 1 . Alors il existe une constante C telle que

|v − IK v|1,K ≤ C |v|2,K ∀v ∈ H 2 (K).

Démonstration. On raisonne par l’absurde, en supposant l’existence d’une suite (vn ) telle que

|vn − IK vn |1,K > nC |vn |2,K .

On choisit de prendre vn dans l’orthogonal de P 1 (ce qui est possible, quitte à corriger par un
polynôme de degré 1, ce qui ne change aucun des membres), et de norme 1 dans H 2 . Cette
suite est bornée dans H 2 , on peut donc en extraire une sous-suite qui converge faiblement
vers u ∈ H 2 . Cette sous-suite (toujours notée vn ) converge fortement dans H 1 par injection
compacte, et donc fortement en fait dans H 2 car, |vn |2,K tendant vers 0, elle y est de Cauchy.
Elle converge donc fortement vers u. Toutes les dérivées à l’ordre 2 de u sont nulles : il s’agit
donc d’un polynôme de degré au plus 1. Comme elle est dans l’orthogonal de P 1 , on a donc
u = 0, ce qui absurde car u est de norme 1 dans H 2 .

Definition 17.8. (Opérateur d’interpolation)

On définit l’opérateur d’interpolation IK comme l’application de C(K) (ensemble des appli-
cations continues de K dans R) dans P 1 (K) qui à u ∈ C(K) associe la fonction IK u affine
sur K qui prend la valeur u(x) en chaque sommet x de K. On définit de même IK 0 l’appli-

cation de L1 dans P 0 (K) qui à une fonction associe la fonction constante sur K, de même
valeur moyenne.

169
hK

ρK

Figure 17.1 – Définition de h et ρ pour un triangle

Notation 17.9. On note hK la longueur de la plus longue arête de K, et ρK le diamètre de la

plus grande sphère contenue dans K (voir figure 17.1). On a ainsi hK /ρK ≥ 1. On notera h̃
et ρ̃ les quantités associées au simplexe de référence.

Lemme 17.10. Soit Φ l’application affine qui envoie K̂ dans K (noter que l’on peut choisir
Φ linéaire si l’on suppose que 0 est un sommet de chacun des simplexes) :

x̂ 7−→ x = Φ(x̂) = B x̂ + b

On a
1 1
k∇Φk = t
∇Φ = kBk ≤ hK , ∇Φ−1 = t
∇Φ−1 = B −1 ≤ ĥ.
ρ̂ ρK

Démonstration. Soit ξ̃ ∈ RN de norme ρ̃. Il existe x̃1 et x̃2 dans K̃ tels que ξ̃ = x̃2 − x̃1 . On
a donc
B ξ̃ = B x̃2 − B x̃1 = Φx̃2 − Φx̃1 = x2 − x1 ,
qui est de norme inférieure à hK par définition. On en déduit la première inégalité. La seconde
se montre de la même manière en considérant ξ = x2 − x1 de norme ρK .

Le cœur des estimations repose sur une formule de changement de variable entre K̂ et K,
ou plus précisément sur la manière dont le passage de K̂ à K (ou l’inverse) est susceptible
de modifier les valeurs des dérivées partielle d’une fonction poussée par Φ (ou Φ−1 ). Pour
alléger les notations, on notera simplement h pour hK , et ρ pour ρK , en considérant que ces
quantités pour le triangle de références sont des constantes.
Lemme 17.11. Soit u une fonction régulière définie sur le triangle non dégénéré K (de
diamètre h et de diamètre intérieur ρ̂, et û définie sur K̂ par

û(x̂) = u ◦ Φ.

Soit α = (α1 , α2 ) un multi-indice, avec |α| = α1 + α2 = s ∈ N. On a

∂ s û X ∂su ∂su 1 X ∂ s û
≤ Chs , ≤C .
∂ α x̂ |α|=s
∂αx ∂αx ρs |α|=s ∂ α x̂

Démonstration. Soit u une fonction régulière définie sur K. On a

∂ û ∂Φ
= ∇u · = (∇Φ)T ∇u · êi ,
∂ x̂i ∂ x̂i

170
de telle sorte que ∇û(x̂) = (∇Φ)T ∇u(x). On a donc

∂ û X ∂su
≤ Ch
∂ x̂i |α|=s
∂xi

L’estimation sur les dérivées d’ordre plus élevées, ainsi que les estimations inverses (à partir
de u(x) = û ◦ Φ−1 , se démontrent de la même manière.

Théorème 17.12. On suppose N = 1, 2, ou 3, de telle sorte que H 2 (K) s’injecte de façon

continue dans C 0 (K). Il existe une constante C universelle telle que, pour tout triangle K du
plan, non dégénéré, on a

h2
|IK u − u|1,K ≤ C |u|2,K ∀u ∈ H 2 (K)
ρ
|IK u − u|0,K ≤ Ch2 |u|2,K ∀u ∈ H 2 (K)
0
IK u−u ≤ Ch |u|1,K ∀u ∈ H 1 (K)
0,K

Démonstration. Ces estimations se démontrent à partir de l’estimation de stabilité (proposi-

tion 17.7) appliquée au simplexe de référence. On transporte |IK u − u|21,K sur le triangle de
2 2
référence, ce qui fait apparaı̂tre IK\
u−u = IK̂ û − û 1,K̂
multiplié par le jacobien de Φ,
1,K̂
ainsi que par le facteur 1/ρ2 . On utilise alors l’estimation de stabilité sur K̂, qui fait appa-
raı̂tre |û|22,K̂ . On fait subir à cet intégrale le sort inverse, en se ramenant sur K, ce qui fait
apparaı̂tre l’inverse du Jacobien, et le facteur h4 (à constante multiplicative indépendante
de K près). La racine carrée de l’inagalité obtenue donne la première inégalité, les autres se
démontrent de la même manière.

Remarque 17.13. La démonstration précédente met clairement en évidence la source des

puissances de h et ρ dans l’estimation. Le 1 du dénominateur ρ vient du 1 de la semi norme
du membre de gauche, et le 2 du numérateur vient de 2 de la semi-norme du membre de
droite. Une telle estimation sera utilisable dans une optique d’estimation si la puissance du
numérateur est strictement supérieur à celle du dénominateur (pour des triangles réguliers,
h et ρ sont de même taille). On retrouve un principe extrêmement général en théorie de
l’approximation : quand tout se passe bien (i.e. au mieux), l’ordre de l’erreur est la différence
entre l’ordre de dérivation que l’on contrôle pour la fonction approchée, moins l’ordre de
dérivation que l’on cherche à approcher. On retrouvera par exemple ce principe dans un cadre
standard pour une fonction de C m , dont on cherche à approcher la dérivée k-ième par une
méthode de type différences finies avec un pas h (il est possible que la convergence soit plus
lente que n’importe quelle puissance de h). Pour k = m on a bien convergence ponctuelle,
mais sans ordre. Dans le cas m > k l’erreur commise (ici en norme sup) en général sera
d’ordre m − k.

Approximation sur un domaine

Definition 17.14. (Triangulation)

Soit Ω un domaine polygonal du plan. On appelle triangulation de Ω une famille Th de

171
triangles non dégénérés deux à deux disjoints telle que
[
Ω= K,
K∈Th
′
et telle que, pour tous K, K ′ de Th , l’intersection K ∪ K est vide, ou réduite à un sommet
commun des triangles, ou réduite à un côté commun des triangles. Les sommets des triangles
de Th sont appelés les nœuds de la triangulation.
Definition 17.15. (Opérateur d’interpolation)
Soit Ω un domaine polygonal du plan, et Th une triangulation de Ω. On définit l’opérateur
d’interpolation Ih comme l’application de C(Ω) (ensemble des applications continues de Ω
dans R) qui à u ∈ C(Ω) associe la fonction uh affine sur chaque K ∈ Th qui prend la valeur
u(x) en chaque sommet x de Th .
Remarque 17.16. Le paramètre h joue un rôle un peu ambigu dans ce contexte : il désigne
à la fois l’indice d’un membre d’une famille de triangulations (c’est donc le label d’une trian-
gulation), et ce qu’il est convenu d’appeler le diamètre de la triangulation , c’est à dire le sup
de hK pour K ∈ Th , qui est un nombre réel. C’est évidemment un abus de notation, puisque
deux triangulations peuvent avoir le même diamètre sans être identiques. Nous conservons
néammoins cet usage, qui permet d’alléger les notations.
Definition 17.17. (Famille régulière de triangulations)
Soit Ω un domaine polygonal. On appelle famille régulière de triangulations une famille (Th )
telle que

(i) il existe une constante σ telle que suph supK∈Th (hK /ρK ) ≤ σ,

(ii) le diamètre de Th tend vers 0, c’est-à-dire que supK∈Th hK −→ 0.

Théorème 17.18. Soit Ω un domaine polygonal, et (Th ) une famille régulière de triangula-
tions de Ω. Pour tout u ∈ H 2 (Ω), on a
|u − Ih u|1,Ω ≤ Cσh |u|2,Ω , |u − Iu |0,Ω ≤ Ch2 |u|2,Ω

Démonstration. On a
Z X Z X
2
|u − Ih u| = |u − Ih u|2 ≤ C 2 h4 |u|22,K ≤ C 2 h2 |u|22,Ω .
Ω K∈Th K K∈Th

On raisonne de la même manière pour estimer |u − Ih u|1,Ω .

Convergence de la méthode pour le problème de Poisson

Proposition 17.19. Soit Ω un domaine polyédrique convexe, et (Th )h une famille régulière
de triangulations de Ω. On note Vh l’ensemble des fonctions de H01 (Ω) dont la restriction à
chaque triangle de Th est affine. Pour f ∈ L2 (Ω), on note u ∈ H01 (Ω) la solution faible de
−△u = f,
et uh la solution du problème discrétisé
Z Z
∇uh · ∇vh = f vh ∀vh ∈ Vh .
Ω Ω

172
Il existe une constante C > 0 telle que

|u − uh |Ω,1 ≤ Ch |f |Ω,0 .

17.3 Estimation de valeurs propres

R
On s’intéresse ici à l’approximation des valeurs propres d’une forme bilinéaire du type
∇u · ∇v.
Théorème 17.20. On se place dans le cadre du théorème ??, page ??. On introduit une
suite d’espaces d’approximation (Vh ) de V , et l’on note (uih , λih ) les solutions du problème aux
valeurs propres sur Vh :
a(uih , v) = λih (uih , v),
où ( · , · ) est le produit scalaire sur H.

On a alors, pour tout i, convergence de λih vers λi quand h tend vers 0.

Démonstration. On note Nh la dimension de Vh . Notons tout d’abord que le principe du

min-max
λi = min max R(w) , λih = min max R(w)
W ∈E i w∈W \{0} W ∈Ehi w∈W \{0}

où E i (respectivement Ehi désigne l’ensemble des sous-espaces vectoriels de V (resp. Vh ) de

dimension i, implique λi ≤ λih pour tout i ≤ Nh . s Notons Πh la projection de V sur Vh
pour le produit scalaire associé à a( · , · ), et Wi l’espace vectoriel engendré par les i premiers
vecteurs propres de a( · , · ). Pour tout u ∈ Wi , on a
i
X
u= β k uk ,
k=1

et ainsi
i i
!1/2 i
!1/2
X X 2 X
kΠh u − ukV = k
β (Πh uk − uk ) ≤ β k
kΠh uk − uk k2V
k=1 k=1 k=1

i
!1/2
X
= |u| kΠh uk − uk k2V .
k=1
On a donc
|Πh u − u|V
lim sup =0
h→0 u∈Wi |u|
Par ailleurs, on a a(Πh u, Πh u) ≤ a(u, u), pour tout u ∈ V . Le principe du min-max permet
pour finir d’écrire que
λih ≤ max R(w),
w∈Wh \{0}

pour tout Wh de dimension i. Prenant Wh = Πh (Wi ), il vient

a(Πh u, Πh u) a(u, u) |u|2

λih ≤ max ≤ max ≤ λ i max .
u∈Wi \{0} |Πh u|2 u∈Wi \{0} |Πh u|2 u∈Wi \{0} |Πh u|2

173
Mais, d’après ce qui précède, on a

|Πh u| = |u| + O(|Πh u − u|) = |u| + O(kΠh u − ukV ) = |u| (1 + o(h))

d’où l’on déduit, pour tout i, la convergence de λih vers λi quand h tend vers 0.

17.4 Extension à des conditions aux limites plus générales

La méthode des éléments finis permet la prise en compte de conditions aux limites non
standards de façon naturelle, sous réserve que le problème sous jacent possède une structure
variationnelle.

Obstacle de conductivité infinie

On considère comme précédemment un domaine Ω du plan, et ω un sous-domaine forte-

ment inclus dans Ω, c’est-à-dire que ω ⊂ Ω. Le problème que nous allons considérer mainte-
nant est issu du modèle physique suivant. On considère une plaque conductrice de la chaleur,
dont on suppose que les bords sont à température nulle, et l’on suppose qu’une partie de
cette plaque (qui correspondra au sous-domaine ω) a une conductivité infinie, de telle sorte
que la température y est uniforme. On suppose qu’on chauffe la plaque sur la partie où la
température est finie. On cherche ainsi un champ de température solution de l’équation de la
chaleur, dans ω ⊂ Ω, tel que la température est constante sur la frontière de ω, et tel que le
flux de chaleur à travers cette frontière est nul.

On se donne donc f une fonction de L2 (Ω \ ω), et l’on s’intéresse au problème suivant :



 −△u = f dans Ω \ ω





 u = 0 sur ∂Ω
u = U sur ∂ω (17.4)



 Z


 ∂u
 = 0,
∂ω ∂n
où U est une constante réelle dont la valeur est inconnue.

On introduit l’espace
n o
HC1 (Ω \ ω) = u ∈ H 1 (Ω \ ω) , u = 0 sur ∂Ω , u = cste sur ∂ω .

L’approche variationnelle directe est basée sur la fonctionnelle

HC1 (Ω \ ω) −→ R
Z Z
1
v 7−→ J(v) = |∇v|2 − f v,
2 Ω\ω Ω\ω

Le problème 17.5 consiste donc à minimiser J sur HC1 (Ω \ ω). On notera que la condition de
flux nul a disparu. Il s’agit en fait d’une condition dite “naturelle”, qui dérive du problème de
minimisation, comme le précise la proposition suivante.

174
Proposition 17.21. Soit u ∈ HC1 (Ω \ ω) la fonction qui minimise la fonctionnelle J sur
HC1 (Ω \ ω). Alors u est solution du problème (17.4).

Démonstration. On note U la valeur de u sur la frontière de ω, et l’on construit un relèvement

Ũ de U , de régularité C 2 , à support compact dans Ω. La fonction u − Ũ est dans H01 (Ω \ ω),
et c’est la solution faible de l’équation
−△w = f + △Ũ ,
avec conditions de Dirichlet homogènes. C’est donc un élément de H 2 (Ω \ ω), et par suite u
lui-même a une régularité H 2 . On considère maintenant des fonctions-test dans H01 (Ω \ ω).
Par intégration par parties, on obtient −△u = f dans Ω \ ω. Pour retrouver la condition de
flux nul à travers l’interface, on prend maintenant une fonction test non nulle sur ∂ω, qui
prend par exemple la valeur 1. On utilise de nouveau la formule de Green pour obtenir
Z Z Z
∂u
− v△u + v= f v,
Ω\ω ∂ω ∂n
d’où Z
∂u
= 0,
∂ω ∂n
ce qui termine la preuve.

17.5 Méthode des domaines fictifs

On considère un problème (de type Poisson pour fixer les idées) posé sur un domaine
de géométrie complexe. L’approche consiste à plonger le problème dans un domaine plus
grand, de géométrie plus simple (par exemple un parallélogramme). Cette stratégie permet
d’évoter la génération de maillage adapté au domain initial, et de se limiter typiquement à
des maillages cartésiens du domaine recouvrant.

Considérons par exemple un domaine du type Ω \ ω de R2 , où Ω est le carré unité, et

ω une collection de sous-domaines de Ω. On considérera pour simplifier le cas où ω est un
disque fortement inclus dans Ω.

On se donne f dans L2 (Ω \ ω), et l’on s’intéresse au problème suivant :

(
−△u = f dans Ω \ ω
(17.5)
u = 0 sur ∂Ω ∪ ∂ω.
Ce problème admet une formulation variationnelle qui rentre dans le cadre du théorème de Lax
Milgram sur l’espace de Hilbert H01 (Ω \ ω), et cette formulation conduit à une discrétisation
en espace de type EF basée sur un maillage du domaine d’intérêt Ω \ ω.

La présente approche consiste à se placer sur l’espace V = H01 (Ω), et à traiter comme
une contrainte le fait d’être nul sur ω. On notera K ⊂ V le sous-espace des fonctions qui
s’annulent presque partout sur ω. On peut écrire le problème sous la forme d’un problème de
minimisation, de la fonctionnelle
Z Z
1
J : v 7−→ |∇v|2 − f v,
2 Ω Ω
sur K.

175
vj
i
hj
hi

Figure 17.2 – Assemblage de la matrice élémentaire

Pénalisation

Cette approche consiste à relaxer la contrainte en considérant le problème de minimisation

sur V tout entier, mais en introduisant un terme supplémentaire dans la fonctionnelle, qui
pénalise le fait de ne pas vérifier la contrainte. On peut par exemple considérer

Z Z Z
1 2 1 2
Jε : v −
7 → |∇v| + v − f v.
2 Ω 2ε ω Ω

17.6 Éléments finis et réseaux résistifs

Soit Th une triangulation d’un domaine Ω, et A la matrice résultant de la discrétisation

par éléments finis P 1 de la forme blinéaire
Z
a(u, v) = ∇u · ∇v.
Ω

Pour i et j voisins, l’intégrale de ∇wi · ∇wj résulte de deux contributions (les deux tri-
angles qui contiennent i et j). L’une quelconque de ces contributions (voir figure 17.2) s’écrit
Z
1
∇wi · ∇wj = aire(K) hi · hj .
K |hi | |hj |2
2

On note D = vi ∧ vj . L’aire du triangle vaut D/2. Par ailleurs, la hauteur |hi | du triangle
peut s’exprimer
v⊥ vi ∧ vj
|hi | = vj · i = .
|vi | |vi |
On a donc
Z
1 D vi · vj 1 vi · vj
∇wi · ∇wj = aire(K) hi · hj 2 2 = 2 |v | |v | |hi | |hj | 2 2 = 2D .
K |hi | |hj | i j |hi | |hj |

176
L’intégrale sur l’ensemble du domaine est ainsi la somme de deux contributions de ce type,
correspondant aux deux triangles partageant à la fois i et j. On note cij l’opposé de cette
valeur. En écrivant que la fonction constante égale à 1 est somme des fonctions de base sur
l’ensemble du maillage, on obtient
Z Z X
0= ∇wi · ∇1 = |∇wi |2 − cij .
Ω Ω j∼i

La matrice du Laplacien discrétisé est donc la matrice dont les termes extra-diagonaux sont
P
les −cij , et les éléments diagonaux les Ci = cij . On se trouve donc en présence d’une
matrice associée à un réseau résistif (voir section 4), dont les sommets sont les sommets du
maillages, les arêtes les côté de ce même maillage, et les résistances sont les inverses des
quantités cij définie ci-dessus. Une solution du problème discret sans second membre peut
donc s’interpréter comme un champ de pression sur le réseaux, harmonique sur les points
intérieurs.

On prendra cependant garde au fait que les cij ne sont pas nécessairement positifs. Il ne le
sont de façon sûre que si tous les angles de tous les triangles sont aigus. Dans le cas contraire,
l’analogie doit être considérée avec précaution, certaines résistances du réseau associé pouvant
être négatives. L’une des conséquence de cette négativité de certaines résistances est que la
méthode ne vérifie plus forcément le principe du maximum discret. En effet, on a pour tout
champ harmonique
1 X
p(i) = cij p(j),
C(i) j∼j
mais cette combinaison peut n’être plus barycentrique dans le cas où certains angles sont
obtus.

On notera en rechanche que cette invalidation du principe du maximum ne remet pas en

cause les propriétés de convergence de la méthode (section 17.2).

Equation de conservation continue associée à la solution discrète

On peut associer à la solution discrète d’un problème de laplace discrétisé par éléments
fini une mesure vectorielle vérifiant une équation de conservation stationnaire (au sens des
distribution).

Nous considérons pour fixer les idées le cas de conditions aux limites de Dirichlet non
homogènes. L e problème consiste à trouver dans l’espace Vh des fonctions continues affines par
morceaux une fonction qui prend des valeurs prescrites sur le bord, et qui vérifie la formulation
variationnelle discrète (on note p l’inconnue pour expliciter le lien avec la section 4)
Z
∇p · ∇q = 0 ∀v ∈ Vh0 ,
Ω
oùVh0 est l’espace des fonctions discrètes qui s’annulent au bord. Pour tout point x de la
triangulation situé sur le bord du domaine, on note µ(x) la mesure atomique associée au flux
discret lui même associé au champ de pression défini sur le réseau résistif N = (V, E, r, Γ)
correspondant au maillage éléments finis, selon les principes décrit ci-dessus. Plus précisément,
on note, pour tout x ∈ Γ, on note
X X X
µ(x) = du(x) δx , du(x) = u(y, x) = c(x, y)(p(y) − p(x)).
x∈Γ y∼x y∼x

177
On note G la mesure vectorielle associée aux flux discrets sur le maillage, selon la démarche
décrite dans la section 4.5. On a alors, au sens des discributions, (voir proposition 4.13,
page 53)
∇ · G = µ.
Noter que cette propriété de conservation formelle ne nécessite pas d’hypothèse sur la positi-
vité des résistances. On gardera cependant à l’esprit que, dans le cas où le maillage présente
des angles obtus, le réseau résistif associé ne correspond pas forcément à la situation physique
de résistances positives 105 .

105. Un tel réseau serait irréalisable en pratique, qu’il s’agisse d’un circuit électrique, on d’un réseaux de
tuyaux au travers duquel s’écoule un fluide visqueux.

178
18 Résolution des systèmes linéaires

18.1 Conditionnement

La notion de conditionnement d’une matrice (on parle aussi de conditionnement d’un

système linéaire) joue un rôle très important dans l’étude de la résolution de systèmes linéaires.
Nous verrons plus loin que ce conditionnement intervient notamment de façon essentielle dans
le vitesse de convergence de méthodes de résolution itératives.

Le conditionnement d’une matrice apparaı̂t de façon naturelle lorsque l’on cherche à esti-
mer la stabilité de la résolution d’un système linéaire par rapport aux données, indépendam-
ment de la méthode numérique utilisée effectivement pour résoudre le système. Considérons
une matrice A ∈ Mn (R) inversible, un second membre b ∈ Rn , et le système linéaire

Au = b.

Le conditionnement quantifie la confiance que l’on peut avoir dans la solution (exacte) de
ce système en fonction de la confiance que l’on a dans les données (en l’occurrence le second
membre b), qui sont susceptibles d’être entachées d’erreurs de mesure, d’erreurs liées au
stockage sur ordinateur avec une précision finie. Dans ce qui suit nous considérons la norme
matricielle kAk2 , notée simplement kAk, subordonnée à la norme euclidienne sur Rn . On
considère ainsi une perturbation δb du second membre, et l’on cherche à estimer la variation
δu induite sur la solution :
A(u + δu) = b + δb.
On a donc δu = A−1 δb, d’où |δu| ≤ A−1 |δb|. D’autre part b = Au implique |b| ≤ kAk |δb|,
d’où finalement
|δu| |δb|
≤ A−1 kAk .
|u| |b|
Definition 18.1. (Conditionnement)
Soit A une matrice inversible. On appelle nombre de conditionnement de A le réel

κ = A−1 kAk.

La quantité κ mesure donc le rapport entre l’erreur relative maximale sur la solution et
l’erreur relative sur les données. Cette quantité sans dimension est toujours supérieure ou
égale à 1 (1 = kIdk = AA−1 ≤ κ). Pour κ ≫ 1, le problème est très instable par rapport
aux données.

Remarque 18.2. On peut aussi se demander quel est l’effet sur la solution d’une perturbation
de la matrice elle-même :
(A + δA)(u + δu) = b.
On obtient au premier ordre (on néglige le terme en δAδu) une formule analogue à la pré-
cedente, qui fait intervenir le κ comme un majorant du facteur d’amplification de l’erreur
relative :
|δu| kδAk
≤ A−1 kAk .
|u| kAk

179
Conditionnement des matrices s.d.p. Dans le cas où A est symétrique définie positive,
de valeurs propres
0 < λ1 ≤ λ2 ≤ · · · ≤ λn ,
le conditionnement s’écrit κ = λn /λ1 .
Exemple 18.1. Considérons la matrice du Laplacien discret donnée dans la section A.4, dont
les valeurs propres sont connues. Le conditionnement de cette matrice est donc

(N −1)π
sin2 2N
κ = λN −1 /λ1 = π
∼ 4N 2 quand N → +∞.
sin2 2N

Definition 18.3. Soit A = (aij ) une matrice. On dit que A est une matrice-bande s’il
existe ℓ tel que aij = 0 dès que |j − i| > ℓ. Bien sûr cette notion n’a d’intérêt que si ℓ est
significativement plus petit que n.

18.2 Méthodes directes

On s’intéresse dans cette section à la résolution d’un système linéaire Au = b bien posé
(matrice A inversible).

Décomposition LU . La décomposition LU est basée sur la méthode du pivot de Gauss.

Elle consiste à effectuer une factorisation dite LU de la matrice (L pour low, U pour low :

A = LU

, où L (resp. U ) est une matrice triangulaire inférieure (resp. supérieure), et L ne contient
que des 1 sur la diagonale. Une fois que cette décomposition est réalisée, la solution s’obtient
par résolution de 2 systèmes triangulaires.

Il peut être intéressant de choisir le pivot à chaque étape (pour éviter par exemple d’in-
verser des nombres trop petits). Il s’agit alors de la décomposition avec permutation :

A = P LU,

où P est une matrice de permutation (les éléments sont des 0 ou des 1, et chaque ligne et
chaque colonne contient exactement un 1.

Méthode de Cholesky. La méthode de Cholesky est une forme particulière de décom-

position LU tirant partie du caractère symétrique d’une matrice. Cette méthode consiste à
décomposer une matrice symétrique définie positive en un produit de 2 matrices triangulaires
transposées l’une de l’autre.

Algorithme 18.4. (Cholesky)

Soit A = (aij ) une matrice symétrique définie positive de Mn (R). Alors la matrice triangu-
laire inférieure L = (bij )j≤i définie par
√
b11 = a11 , b21 = a21 /b11 , . . . , bn1 = an1 /b11 ,

180
et, pour j = 2, . . . , n,
j−1
X
v
u j−1
aij − bjk bik
u X k=1
bjj = ajj −
t 2
bjk , bij = , i = j + 1, . . . , n,
k=1
bjj

est telle que A = L tL.

Le système Au = b est alors résolu par la résolution successive des deux systèmes trian-
gulaires
Lw = b , tLu = w.
Proposition 18.5. La décomposition d’une matrice A s.d.p. de taille n × n par la méthode
de Cholesky nécessite n extractions de racines, et un équivalent de n3 /6 divisions ou multi-
plications.

La résolution du système linéaire Au = b par cette méthode nécessite en outre, pour la

résolution des deux systèmes triangulaires, l’équivalent de n2 opérations élémentaires (multi-
plications ou divisions).

Démonstration: Le nombre d’extraction de racines est bien égal à n. Pour le nombre de

multiplications/divisions, on cherche directement un équivalent. La première étape n’est donc
pas prise en compte. Le gros du coût est dans le calcul de chacun des éléments extradiagonaux
bij , au nombre de n−j pour j fixé, qui nécessite (on ne garde que l’essentiel) j mutiplications.
La complexité est donc en X
(n − j)j,
j
R
qui est un O(n3 ), avec le coefficient 1/6 (penser à x(1 − x) = 1/6).

La résolution d’un système triangulaire consiste à effectuer, pour tout j = 1, . . . , n, j

multiplications et une division. On a donc une complexité en n2 /2 pour chacun des systèmes
triangulaires.

Remarque 18.6. La complexité réelle est en général très inférieure (tout du moins si l’écri-
ture du programme informatique est adaptée à la situation), notamment dans le cas des
matrices-bande (voir définition 18.3 ci-dessus), ce qui est souvent le cas des matrices résul-
tants de la discrétisation par éléments finis d’un opérateur elliptique. Dans ce cas, on peut
montrer que la matrice L associée possède la même structure de matrice bande. En consé-
quence, pour j allant de 2 à n, le nombre d’éléments extradiagonaux bij chute de n − j à
ℓ, tout comme le nombre d’opérations nécessaire. La complexité descend donc à nℓ2 . Noter
que la résolution des 2 systèmes triangulaires, dont la complexité chute à nℓ, reste d’un coût
négligeable par rapport à la factorisation (au moins dans de la cas d’un seul système, voir à
ce sujet la remarque 18.7). Dans le cas du Laplacien discret en dimension 1, la largeur de
bande est 2, d’où une complexité de l’ordre de n, le nombre de points (nous ne précisons pas
la constante, car la petite largeur de bande rend significatives des opérations dont nous avions
√ √
négligé le nombre). En dimension 2, pour un problème scalaire sur un maillage n × n, la
√
matrice est de taille n, et de largeur de bande n, d’où une compléxité en n2 /6.
Remarque 18.7. Cette méthode peut être particulièrement performante lorsque l’on souhaite
résoudre un grand nombre de fois un système 106 impliquant une matrice donnée A (pour des

181
λ1 λ2 ... λn
−1 1
1 − ρλn 1 − ρλ1

Figure 18.1 – Spectre de Id −ρA

seconds membres distincts). Notons M ce nombre de systèmes à résoudre. la complexité totale

est de n3 /6+M n2 , de telle sorte que dans la situation extrême où n devient négligeable devant
M , on a une complexité asymptotique de la méthode en n2 (coût unitaire d’une résolution de
système).

18.3 Méthodes itératives

Algorithme 18.8. Soit A une matrice symétrique définie positive de Mn (R). L’algorithme
du gradient à pas fixe est basé sur la construction suivante : on se donne ρ > 0, un vecteur
initial u0 ∈ Rn , et l’on construit

uk+1 = uk − ρ(Auk − b).

Proposition 18.9. L’algorithme du gradient à pas fixe converge dès que ρ ∈]0, 2/λn [, où λn
est la plus grande valeur propre de A

Démonstration: On note ek = uk − u l’erreur, qui vérifie ek+1 = (Id −ρA)ek . Cette erreur
converge dès que les valeurs propres de Id −ρA sont de module strictement inférieur à 1.
L’opération A 7→ Id −ρA renverse le spectre de A comme illustré sur la figure 18.1. Les
valeurs propres de la nouvelle matrice sont donc de module strictement inférieur à 1 si et
seulement si 1 − ρλn > −1, c’est à dire 0 < ρ < 2/λn .

Remarque 18.10. Bien que la notion de choix optimal pour ρ soit sujette à caution, on
notera que le choix
ρ = 2/(λ1 + λn )
minimise le rayon spectral de Id −ρA. Pour ce choix, le rapport géométrique de convergence
est 1 − 2λ1 /(λ1 + λn ), donc de l’ordre de 1 − 2κ−1 pour κ grand. La convergence sera donc
d’autant plus lente que le conditionnement κ est grand.
106. Cette situation se rencontre par exemple dans le cadre de la discrétisation en temps d’un problème
d’évolution par une méthode implicite, qui se ramène à chaque pas de temps à la résolution d’un système pour
une même matrice mais des seconds membres différents.

182
Méthode du gradient à pas optimal

La méthode du gradient à pas optimal est basée sur un calcul explicite du pas ρ de
l’algorithme
n de gradient ci-dessus,
o de façon à minimiser la valeur de la fonctionnelle J sur la
k k
droite u − ρ(Au − b) , ρ ∈ R . Un simple calcul permet d’exprimer ce ρ optimal à chaque
itération :
Algorithme 18.11. Soit A une matrice symétrique définie positive de Mn (R). L’algorithme
du gradient à pas optimal est basé sur la construction suivante : on se donne un vecteur initial
u0 ∈ Rn , et l’on construit
2
b − Auk
uk+1 = uk − ρk (Auk − b) , ρk = 2 , avec |v|2A = (Av, v) .
|b − Auk |A
Remarque 18.12. Noter que ρk est minoré et majoré, pour toute matrice s.d.p. A donnée.

Méthode du gradient conjugué

La méthode du gradient conjugué permet d’approcher numériquement la solution de pro-

blèmes du type Ax = b, où A est une matrice symétrique définie positive. Nous verrons qu’en
fait il s’agit d’une méthode exacte (qui converge en un nombre d’itérations fini égal à la
dimension de l’espace), mais elle est dans la pratique utilisée comme un algorithme itératif.
Algorithme 18.13. Soit A une matrice symétrique définie positive de Mn (R). L’algorithme
du gradient conjugué est basé sur la constrution itérative suivante, à partir d’un vecteur initial
u0 ∈ Rn . On définit tout d’abord le résidu initial correspondant r0 = b − Au0 , et l’on pose
p0 = r0 ,

|rk |2
αk =
(Apk , pk )
uk+1 = uk + αk pk
rk+1 = rk − αk Apk
βk+1 = |rk+1 |2 / |rk |2
pk+1 = rk+1 + βk+1 pk .

Proposition 18.14. Les suites (rk ), (pk ) construites selon l’algorithme du gradient conju-
gué 18.13 vérifient les propriétés suivantes :

(rk , pi ) = (rk , ri ) = 0 ∀i ≤ k − 1 , (pk , Api ) = 0 ∀i ≤ k − 1 , |rk+1 |A−1 ≤ |rk |A−1 ,

|rk |A−1 = min |b − Au|A−1 , Fk = u0 + vect(p0 , . . . , pk−1 ).

Démonstration: On démontre ces propriétés par récurrence. On a

(rk+1 , rk ) = |rk |2 − αk (rk , Apk ) = |rk |2 − αk (pk − βk pk−1 , Apk ) = |rk |2 − αk (pk −, Apk ) = 0.

Pour tout i ≤ k − 1, on a

(rk+1 , ri ) = (rk − αk Apk , ri ) = −αk (Apk , ri ).

183
Comme ri = pi − βi pi−1 , le produit scalaire est nul du fait que les directions pj sont deux à
deux conjuguées pour j ≤ k (hypothèse de récurrence).

On a de même (rk+1 , pi ) = 0 pour tout i ≤ k, car pi s’exprime en fonctions des rj , pour

j ≤ i.

Pour la conjugaison des directions de descente, on a

(pk+1 , Apk ) = (rk+1 + βk+1 pk , (rk − rk+1 )/αk ),

ce qui donne (on utilise (rk+1 , rk ) = (pk , rk+1 ) = 0)

1
(pk+1 , Apk ) = − |rk+1 |2 + βk+1 (pk , rk ) = 0
αk

car (pk , rk ) = |rk |2 , et βk+1 = |rk+1 |2 / |rk |2 .

Proposition 18.15. Soit A une matrice symétrique définie positive, et (uk ) une suite d’itérés
produite par l’algorithme du gradient conjugué 18.13. On note | · |A la norme associée à la
matrice A, et κ = λn /λ1 le conditionnement de A. On a
√ !k
κ−1
|uk − u|A ≤ 4 |u0 − u|A √ .
κ+1

Corollaire 18.16. La norme de l’erreur vérifie

√ !k
κ−1
|uk − u| ≤ 4κ |u0 − u| √ .
κ+1

Remarque 18.17. Pour de grands nombres de conditionnement, on a une convergence géo-

√
métrique de rapport voisin de 1 − 2/ κ. On remarquera que ce taux est bien meilleur que
celui trouvé pour la méthode de gradient à pas fixe (égal à 1 − 2/κ, voir remarque 18.10).
√
Remarque 18.18. La convergence étant géométrique de rapport 1−2/ κ, le nombre d’itéra-
√
tions à réaliser pour être sûr d’avoir une précision donnée ε est de l’ordre de kε = κ ln(1/ε),
contre κ ln(1/ε) pour le gradient à pas fixe. Le gain potentiel en termes de temps de calcul est
donc considérable. Pour la résolution du Laplacien en dimension 1, avec N = 100 points, le
conditionnement est de l’ordre de 104 (voir exemple 18.1, page 180), et le calcul par gradient
conjugué va 100 fois plus vite que le calcul par gradient simple.

Le comportement effectif du gradient conjugué dépend très sensiblement de la matrice bien

sûr, mais aussi du second membre considéré. La figure 18.2 représente le logarithme de l’erreur
au cours des itérations, pour la matrice du Laplacien discret d’ordre 100, pour un second
membre obtenu comme N réalisations indépendantes d’une variable aléatoire de loi uniforme
sur [0, 1] (figure de gauche), puis pour un second membre dont tous les éléments sont égaux à
1 (figure de droite). Dans le premier cas, sur la première moitié du parcours, la convergence
est géométrique de rapport 1 − 0.014. Le conditionnement de la matrice est de l’ordre de 104 ,
ce qui donne un ordre théorique de 1 − 0.02, proche de l’ordre effectif. Noter qu’en revanche
après l’itération 50 la convergence est beaucoup plus rapide. Ce phénomène est encore plus

184
1.0 4

0.5
3

0.0
2

−0.5
1

−1.0

0
−1.5

−1
−2.0

−2
−2.5

−3.0 −3
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100

Figure 18.2 – Log du résidu au cours des itérations

net pour un second membre ”non quelconque”, puisqu’on obtient la précision machine après
50 itérations. Par ailleurs, si la pente pour les premières itérations correspond à peu près à
la pente théorique, la convergence ne cesse d’accélérer. Ce phénomène reflète l’importance de
la régularité du second membre, ou plus précisément le poids respectif des modes propres du
Laplacien discret dans le second membre. Un cas simple permet d’appréhender ce phénomène,
qui est très peu abordé dans la litérature : considérons un second membre combinaison d’un
(petit) nombre p des premiers modes du Laplacien discret. L’algorithme évoluant dans l’espace
de Kylov engendré par le second membre, tout se passe exactement comme si l’on résolvait un
système de taille p, et la vitesse de convergence peut-être estimée à l’aide de conditionnement
de la sous matrice correspondante, qui peut être très inférieur au conditionnement de la
matrice globale. On aura par ailleurs une convergence à précision machine en un nobre d’étape
au plus égal à la dimension spectrale du second membre. Dans le cas plus général où le second
membre est l’interpolée d’une fonction régulière, cette régularité s’exprime dans le faible poids
des hautes fréquences dans le représentation modale de la fonction, et la surconvergence peut
s’expliquer par la quasi absence de modes de hautes fréquences.

18.4 Méthodes rapides

Le terme de méthode rapide fait référence à des algorithmes particuliers permettant de li-
miter le nombre d’opérations élémentaires pour réaliser (sans approximation) un calcul donné.

L’exemple le plus simple est le calcul d’une puissance entière d’un nombre réel (ou entier).
Calculer x à la puissance 8 requiert a priori 7 multiplications. Mais on peut aussi calculer x2 ,
multiplier le résultat par lui-même, et encore une fois le résultat par lui-même, pour calculer
le même nombre en 3 multiplications.

Dans le même esprit, le calcul de la valeur d’un polynôme

a0 + a1 X + · · · + an X n

en un point x peut s’écrire

(. . . ((an x + an−1 )x + an−2 ) + · · · + a1 )x + a0 ,

ce qui permet de limiter le nombre de multiplications à n (algorithme de Horner).

185
Tranformée de Fourier rapide (dimension 1). Pour ce qui concerne la résolution de
problèmes du type de ceux rencontrés, nous nous contentons de donner ici le principe 107
d’une méthode permettant de résoudre rapidement (dans un sens que nous préciserons) des
systèmes linéaires du type de ceux résultants de la discrétisation du Laplacien sur un maillage
cartésien. Il s’agit de la méthode de transformée de Fourier rapide (Fast Fourier Transform).
En dimension 1, la discrétisation en espace du problème de Poisson avec condition de Dirichlet
homogène
−u′′ = f , u(0) = u(1) = 0,
conduit à un système linéaire du type

Au = b,

où A est à une constante multiplicative près (1/h = N en l’occurrence) la matrice du Laplacien
discret (voir (A.13), page 257). Cette matrice est symétrique, donc diagonalisable dans une
base orthogonale de vecteurs propres. On peut expliciter les éléments propres de cette matrice
(voir section A.4), ce qui permet d’écrire

kπ
A = P DP t , D = diag 4 sin2 ,
2N k=1,...,N −1

et
 
π 2π 3π (N −1)π
sin N sin N sin N · · sin N
 
 
2π 4π 6π

 sin N sin N sin N · · · 

 
r  3π 6π

2 
 sin N sin N · · · 

P =  
N


 · · · · · 
 
 · · · 
 
 
(N −1)π (N −2)(N −1)π (N −1)2 π
sin N · · · sin N sin N

La résolution du problème Au = b se ramène donc (on utilise P = P t = P −1 ) au calcul

de u = P D −1 P b. Il s’agit donc de 2 produits matrice-vecteur et de la multiplication par une
matrice diagonale. Le cœur de la méthode réside dans la manière d’effectuer le produit P b (
et de la même manière P c avec c = D−1 P b). On introduit le vecteur b̃ = R2N construit de la
façon suivante

b̃ = b̃0 , . . . , b̃2N −1 = (0, b1 , b2 , . . . , bN −1 , 0, −bN −1 , −bN −2 , . . . , −b1 ).

On a
s !
N −1 N −1 N −1

N X klπ 1 X 2klπ X 2k(2N − ℓ)π
(P b)k = sin bℓ = sin bℓ − sin bℓ
2 ℓ=1
N 2 ℓ=1
2N ℓ=1
2N

−1 −1 −1
1 2N i 2N i 2N

X 2klπ X 2iklπ X
= sin b̃ℓ = exp − b̃ℓ = ω kℓ b̃ℓ ,
2 ℓ=0 2N 2 ℓ=0 2N 2 ℓ=0 2N

107. De nombreuses améliorations sont possibles, qui permettent d’accélérer encore le calcul, mais l’approche
basique que nous présentons ici donne l’ordre de grandeur de la complexité, c’est à dire du nombre d’opérations
nécessaire à la résolution du problème.

186
avec
2iπ
ω2N = exp − .
2N
p
Le k-ième coefficient de P b (au facteur N/2 près) est donc le k-ième coefficient de ce que
l’on appelle la transformée de Fourier discrète (d’ordre 2N , avec indexation de 0 à 2N − 1)
du vecteur b̃. On note F cette transformée de Fourier discrète, de telle sorte que
s
N
(P b)k = F2N (b̃) .
2 k

La somme ci-dessus peut se décomposer de la façon suivante (on sépare les termes impairs
et les termes pairs) :
2N
X −1 N
X −1 N
X −1 N
X −1 N
X −1
kℓ 2ℓk (2ℓ+1)k ℓk k ℓk
ω2N b̃ℓ = ω2N b̃2ℓ + ω2N b̃2ℓ+1 = ωN b̃2ℓ + ω2N ωN b̃2ℓ+1
ℓ=0 ℓ=0 ℓ=0 ℓ=0 ℓ=0

−k
= FN (b̃0 )k + ω2N FN (b̃1 )k .
où b0 (resp. b1 ) est le vecteur des termes pairs (resp. impairs) de b̃. Précisons que si k est plus
grand que N (c’est a priori inutile ici, mais c’est utile pour la suite), on obtient
−k
FN (b̃0 )k−N + ω2N FN (b̃1 )k−N .

Supposons que l’on sache calculer tous les termes des deux transformées ci-dessus (vecteurs
de taille N ). On doit effectuer de l’ordre de N multiplications complexes (on néglige ici les
constantes multiplicatives). Si N est une puissance de 2, on peut ainsi récursivement calculer
les TFD aux différentes échelles, le coût du passage d’une étape à l’autre étant à chaque fois
de l’ordre de 2N . Le nombre d’étape étant de l’ordre de log2 N , le coût total est de l’ordre
de N log2 N .

Le lecteur avide de curiosités pourra se reporter à la section ?? pour une présentation de

ces principes dans le cadre de la transformée de Fourier sur l’espace Z2 des entiers dyadiques.

Tranformée de Fourier rapide (dimension 2). On considère maintenant le problème

de Poisson en dimension 2 sur un maillage cartésien du carré unité, avec N + 1 points dans
chaque direction, y compris les points au bord, donc au total (N − 1)2 degrés de liberté. On
note uij la valeur de la solution approchée au point (ih, jh) (avec h = 1/N ). Le système
résultant de la discrétisation par éléments finis du problème s’écrit

Au = b,

où A ∈ M(N −1)2 (R) peut s’écrire par blocs (avec B ∈ MN −1 (R))
   
C − Id 0 · · 0 4 −1 0 · · 0
   
 − Id C − Id 0 · 0   −1 4 −1 0 · 0 
   
   

 0 − Id C − Id ·  
 0 −1 4

−1 · 

A=

, C=
 
,

 · · · · ·   · · · · · 
   
   
 ·
 · − Id 

 ·
 · −1 

0 · · 0 − Id C 0 · · 0 −1 4

187
ui

j (i, j)
uj

Figure 18.3 – Maillage cartésien

et u est le vecteur des inconnues

u = (u11 , u21 , . . . , uN −1,1 , u1,2 , . . . , uN −1,N −1 )T

On introduit les vecteurs colonne ui correspondant aux inconnues sur la ligne verticale
x = ih, et les vecteurs ligne uj , correspondant aux inconnues sur la ligne horizontale y = jh
(voir figure 18.3), ce qui permet d’écrire le vecteur u sous la forme d’une matrice (u1 , . . . , uN −1
(on a une écriture analogue en lignes).

On introduit maintenant la matrice du Laplacien discret (voir (A.13) que l’on note ici Λ.
2
On a (en utilisant une indexation (i, j) pour représenter les vecteurs de R(N −1) )

(Au)i,j = (Λui )j + Λuj . (18.1)
i

On cherche à réécrire le système de façon plus ramassée en écrivant le vecteur des inconnues
sous forme de matrice (deux écriture sont possibles, en colonnes et en lignes)
 
u1

 u2 

U = (u1 , . . . , uN −1 ) = 
 .. ,

 . 
uN −1
on écrit de la même manière le second membre sous la forme d’une matrice B, et l’on remarque
 
Λu1

 Λu2 

ΛU = (Λu1 , . . . , ΛuN −1 ) , U Λ = (ΛT U T )T = 
 .. .

 . 
ΛuN −1

Le système (Au)i,j = Bi,j peut donc s’écrire, d’après (18.1), sous la forme suivante :

ΛU + U Λ = B.

Or on a vu que la matrice Λ est diagonalisable (avec une matrice de passage orthogonale et

symétrique : Λ = P DP . On a donc (en multipliant à gauche et à droite par P , et en utilisant
P 2 = Id)
DP U P + P U P D = P BP.

188
On introduit la matrice W = P U P . On s’est finalement ramené au calcul de B ′ = P BP , de
la résolution d’un problème du type
1
DW + W D = B ′ ⇐⇒ Wij = B′ ,
λi + λj ij

où les λi sont connus (voir section A.4), et finalement de U = P W P . En dehors de l’étape
centrale, pour laquelle on a une formule explicite, il s’agit donc d’effectuer des produits
matrice-vecteur du type P X ou XP . Le premier produit consiste en le calcul de la transformée
de Fourier discrète (donc potentiellement rapide) des vecteurs colonnes de X, et le second
XP = (P X T )T la TFD des vecteurs lignes de X. Dans les deux cas le calcul par FFT donne
une complexité de l’ordre de N × N log2 N . On a donc finalement un nombre d’opérations de
l’ordre de m log2 m, où m = (N − 1)2 est le nombre d’inconnues.

18.5 Préconditionnement

Les sections précédentes mettent en évidence l’importance du conditionnement dans la

rapidité de résolutions des systèmes linéaires, lorsque l’on utilise des méthodes itératives (les
plus utilisées dans le cas de grand systèmes linéaires). Il peut être très efficace de remplacer
le système Au = b par un système dit préconditionné

C −1 Au = C −1 b.

On pourra améliorer très significativement la vitesse de convergence des méthodes si l’on est
capable de trouver une matrice C spectralement proche de 1, de telle sorte que le condition-
nement de C −1 A est très inférieur à celui de A. Pour que cette approche soit efficace, il faut
bien sûr que la matrice C soit plus facile à inverser que A.

Un très grand nombre de stratégies sont possibles, parmi lesquelles

1. Préconditionnement diagonal. On prend pour C la matrice diagonale constituée des

éléments diagonaux de A. L’inversion de C est alors immédiate, mais l’on vérifie ai-
sément que cette approche est sans intérêt dans certaines situations, par exemple si
A est la matrice du Laplacien discrétisé sur maillage cartésien (C est alors propor-
tionnelle à l’identité, de telle sorte que l’on ne change pas le conditionnement de la
matrice. En revanche, cette approche peut être féconde dans le cas de maillage très
irréguliers, en particuliers lorsque la matrice à inverser est du type αM + A, où M est
la matrice de masse. Cette approche simpliste peut aussi être efficace dans le cas où
la matrice A résulte de la discrétisation par élements finis d’une formulation pénalisée
d’un problème sous contrainte.
2. Décomposition incomplète. Dans ce cas, C est construit en effectuant de façon incom-
plète la décomposition (par exemple de Cholesky) de la matrice A.

189
Quatrième partie

Aspects théoriques

190
19 Éléments d’Analyse Fonctionnelle

19.1 Autour du théorème de Hahn-Banach

Théorème 19.1. (Th. de Hahn-Banach (prolongement))

Soit E un espace vectoriel normé, G un sous-espace vectoriel de E, et g une forme linéaire
sur G, continue. Alors g se prolonge en une forme linéaire continue sur E.

Théorème 19.2. (Th. de Hahn Banach (séparation))

Soit E un espace vectoriel normé, X et Y deux convexes de E, non vides, disjoints, avec X
fermé et Y compact. Alors il existe un hyperplan fermé qui sépare X et Y au sens strict, i.e.
il existe ϕ ∈ E ′ , α ∈ R et ε > 0 tels que

hϕ , xi ≤ α < α + ε ≤ hϕ , xi ∀x ∈ X , y ∈ Y.

Proposition 19.3. Soit X un espace vectoriel, et ϕ, ϕ1 , . . ., ϕn des formes linéaires sur X,

telles que
∩ ker ϕi ⊂ ker ϕ.
Alors ϕ est combinaison linéaire des ϕi .

Démonstration. On considère l’application T qui à x ∈ X associe (ϕ(x), ϕ1 (x), . . . , ϕn (x))

dans Rn+1 . Par hypothèse, (1, 0, . . . , 0) n’est pas dans l’image de T , on peut donc séparer ce
point de ce convexe fermé par un hyperplan : il existe λ, λ1 , . . ., λn tels que

n
X
λ ≤ α < λϕ(x) + λi ϕi (x) ∀x ∈ X.
i=1

Le membre de droite, linéaire en X et minoré, est nécessairement nul, on a donc

n
X
λϕ(x) + λi ϕi (x) = 0,
i=1

avec λ < 0, d’où le résultat.

Remarque 19.4. Le résultat précédent généralise une propriété bien connue sur les matrices.
Soit B une matrice réelle n × m, dont les lignes sont les ui ∈ Rm , i = 1,. . ., n. Soit u un
vecteur orthogonal à tout vecteur orthogonal aux ui . La proposition précédente (on associe
aux vecteurs une forme linéaire basée sur le produit scalaire usuel sur l’espace Euclidien Rm )
assure que u est combinaison linéaire des ui , ce qui exprime

(ker B)⊥ ⊂ ImB T .

On a bien sûr égalité entre ces deux espace (l’inclusion inverse est immédiate).

191
19.2 Autour du théorème de Banach-Steinhaus

Definition 19.5. On appelle espace de Banach tout espace vectoriel normé complet.
Definition 19.6. Soient E et F deux espaces vectoriels normés. On note L(E, F ) l’espace
des applications linéaires continues de E dans F . C’est un espace vectoriel normé pour la
norme
kT ukF
kT kL(E,F ) = sup = sup kT ukF .
u6=0 kukE u∈BE

Cet espace est complet dès que F est complet. Lorsque F = E, on notera simplement L(E).
Definition 19.7. (Adjoint)
Soient E et F deux espaces vectoriels normés, et T ∈ L(E, F ). On définit l’adjoint de T
comme l’opérateur T ⋆ de F ′ dans E ′ qui à ϕ ∈ F ′ associe

T ⋆ ϕ : u 7−→ hT ⋆ ϕ , ui = hϕ , T ui.

On vérifie immédiatement que T ⋆ ∈ L( F ′ , E ′ ), avec kT ⋆ k = kT k.

Proposition 19.8. Soit E un espace de Banach, et K un sous-espace vectoriel fermé de E.
Pour tout x̃ ∈ E/K, on définit

kx̃kE/K = inf kyk = inf kx − hk.

y∈x̃ h∈K

L’espace E/K est complet pour la norme k · kE/K .

Lemme 19.9. (Baire)
Soit X un espace métrique complet, et (Xn )n∈N une suite de fermés de X. On suppose que

Int (Xn ) = ∅ ∀n ∈ N.

On a alors !
+∞
[
Int Xn = ∅.
n=0

Théorème 19.10. (Banach-Steinhaus)

Soient E et F deux espaces vectoriels normés, avec E complet, et (Ta )a∈A une famille
d’opérateurs de L(E, F ). On suppose

sup kTa xkF < +∞ ∀x ∈ E. (19.1)

a∈A

On a alors
sup kTa kL(E,F ) < +∞.
a∈A

Exercice 19.1. Montrer qu’un espace de Banach est de dimension soit finie soit non dénom-
brable.
Corollaire 19.11. Soient E et F deux espaces de Banach et (Tn )n∈N une suite d’opérateurs
de L(E, F ) telle que, pour tout x ∈ E, Tn x converge vers un élément de F , que l’on note T x.
La suite (Tn ) est alors nécessairement bornée dans L(E, F ). De plus, l’opérateur limite T est
dans L(E, F ), et sa norme vérifie

kT kL(E,F ) ≤ lim inf kTn kL(E,F ) .

n→+∞

192
Remarque 19.12. La dernière inégalité du corollaire précédent peut être stricte. Considérer
par exemple E = ℓ2 et la suite des formes linéaires

Tk : x = (xn )n∈N 7−→ xk ∈ R.

Cette suite converge ponctuellement vers la forme linéaire nulle. Cet exemple permet d’autre
part de vérifier que l’on n’a pas en général convergence de Tk vers T pour la norme d’opérateur.

Remarque 19.13. On prendra garde au fait que l’hypothèse (19.1) du théorème de Banach-
Steinaus, (tout comme l’hypothèse de convergence de Tn x du corollaire ci-dessus), doit être
vérifiée pour tout x de E, et non pas seulement sur un sous-ensemble dense.

Théorème 19.14. (Application ouverte)

Soient E et F deux espaces de Banach et soit T ∈ L(E, F ) surjectif. Alors il existe une
constante c telle
BF (0, c) ⊂ T (BE ) .

On en déduit le

Corollaire 19.15. Soient E et F deux espaces de Banach. et soit T ∈ L(E, F ) bijectif .

Alors T −1 est continu de F dans E.

Dans le cas où T n’est pas surjectif, on peut appliquer ce qui précède à l’application T̃ ,
bijection canoniquement associée à T comme le précise le corollaire ci -dessous.

Corollaire 19.16. Soient E et F deux espaces de Banach, et T ∈ L(E, F ). On suppose

que l’image de T est fermée. L’application T̃ définie de E/ ker T dans T (V ) par T̃ x̃ = T x est
une bijection bicontinue. En particulier, il existe une constante α telle que

kũkE/ ker T = inf ku − hk ≤ α kT uk .

h∈ker T

Remarque 19.17. Dans le cas où E est un espace de Hilbert, l’infimum est atteint pour h
égal à la projection de u sur ker T , l’inégalité ci-dessus devient

P(ker T )◦ u ≤ α kT uk .

Proposition 19.18. Soient E et F deux espaces de Banach, et T ∈ L(E, F ). L’image de

T est fermée si et seulement s’il existe α > 0 tel que

∀y ∈ T (E) , ∃x ∈ E , kxk ≤ α kyk , y = T x. (19.2)

Démonstration. La condition nécessaire est une conséquence directe du corollaire précédent.

En effet, si l’on note α la constante de continuité de l’aplication T̃ −1 , on a

∀y ∈ T (E) , T̃ −1 y ≤ α kyk .
E/ ker T

Soit z un élément de la classe T̃ −1 y, on a

T̃ −1 y = kz − Pker T zk ,
E/ ker T

193
d’où la propriété avec x = z − Pker T z.

Réciproquement, si un tel α existe, alors pour tout suite (xn ) telle que T xn → y, on
peut construite une suite bornée x′n avec T xn = T x′n , dont on peut extraire une sous-suite
faiblement convergence (toujours notée (x′n )) vers x ∈ E. La proposition 20.31 assure alors
la convergence faible de T x′n vers T x, d’où y = T x ∈ T (E).

Remarque 19.19. On déduit immédiatement de ce qui précède que l’image d’un sous-espace
fermé par une application linéaire injective à image fermée est fermée (comme image réci-
proque d’un fermé par l’application réciproque, qui est continue).

Definition 19.20. (Polaire d’un ensemble)

Soit E un espace de Banach et K un sous-espace vectoriel de E. On appelle polaire de K
l’ensemble
K ◦ = ϕ ∈ E ′ , hϕ , ui = 0 ∀u ∈ K .

Les propriétés qui suivent sont essentielles pour établir les résultats afférents à l’existence
et l’unicité de point-selle On se reportera à Brezis [2] pour un exposé plus complet des
propriétés de l’opérateur adjoint.

Proposition 19.21. Soient E et F deux espaces de Banach, et T ∈ L(E, F ). On a

ImT ⋆ ⊂ (ker T )◦ .

Dans le cas où E est un espace de Hilbert (et plus généralement dans le cas où E est réflexif ),
on a l’identité
ImT ⋆ = (ker T )◦ .

Démonstration: Soit ϕ ∈ T ⋆ ( F ′ ), donc de la forme T ⋆ λ. On a, pour tout u ∈ ker T ,

hϕ , ui = hT ⋆ λ , ui = hλ , T ui = 0,

d’où T ⋆ ( F ′ ) ⊂ (ker T )◦ . Comme (ker T )◦ est fermé, cela entraı̂ne T ⋆ ( F ′ ) ⊂ (ker T )◦ .

Montrons que cette inclusion ne peut être stricte dans le cas Hilbertien. Supposons qu’elle
le soit. Il existe alors ϕ0 ∈ (ker T )◦ non élément de l’adhérence de T ⋆ ( F ′ ). Le théorème de
Hahn-Banach permet de séparer strictement ϕ0 du convexe fermé T ⋆ ( F ′ ) : il existe 108 h ∈ V
et α ∈ R tels que
(T ⋆ λ, h) ≤ α < hϕ0 , hi ∀λ ∈ F ′ .
Comme F ′ est un espace vectoriel, l’ensemble des valeurs prises par (T ⋆ λ, h) est soit {0} soit
R tout entier. D’après l’inégalité précédente, c’est nécessairement {0}. On a donc hλ , T hi = 0
pour tout λ ∈ F ′ d’où h ∈ ker T , mais alors hϕ0 , hi = 0, ce qui est en contradiction avec
l’inégalité ci-dessus. On a donc bien identité entre les deux ensembles.

Proposition 19.22. Soient E et F deux espaces de Banach, et T ∈ L(E, F ). Les assertions

suivantes sont équivalentes :
(i) ImT est fermée.
108. C’est ici qu’intervient l’hypothèse de réflexivité de E, dans le fait que la forme linéaire sur E ′ est de la
forme ϕ 7→ hϕ , hi

194
(ii) ImT ⋆ est fermée.
(iii) Il existe C > 0 tel que

∀z ∈ ImT , ∃u ∈ E , z = T u , kuk ≤ C kzk ,

ou, de façon équivalente

kũkE/ ker T ≤ C kT uk .

(iv) Il existe β > 0 tel que

hλ , T ui
sup ≥ β kλk F ′ / ker T ⋆ .
u∈E kuk
Proposition 19.23. Soient E et F deux espaces de Banach, et T ∈ L(E, F ). Les assertions
suivantes sont équivalentes.
(i) T est surjectif.
(ii) Il existe α > 0 tel que
kµk ≤ α kT ⋆ µk ∀µ ∈ F ′ .

(iii) Il existe β > 0 tel que

|hλ , T ui|
sup ≥β ∀λ ∈ F ′ .
u∈E |u| kλk

195
20 Espaces de Hilbert, analyse convexe

20.1 Définitions, principales propriétés

Definition 20.1. (Produit scalaire)

Soit H un espace vectoriel sur R. On appelle produit scalaire une forme bilinéaire (u, v) de
H × H dans R, symétrique, définie et positive :

(u, v) = (v, u) , (u, u) ≥ 0 ∀u ∈ H , et (u, u) = 0 ⇐⇒ u = 0.

Un produit scalaire définit sur H une structure d’espace vectoriel normé pour la norme
u 7−→ |u| = (u, u)1/2 .
Definition 20.2. (Espace de Hilbert)
On appelle espace de Hilbert un espace vectoriel muni d’un produit scalaire, et qui est complet
pour la norme associée.
Exemple 20.1. Tout espace de dimension finie munie d’un produit scalaire est un espace
de Hilbert (espace Euclidien). En dimension infinie, l’exemple le plus simple d’espace de
Hilbert de dimension infinie est l’espace ℓ2 des suites de carré intégrable. On peut définir par
extension une infinité de nouveaux espaces dits “à poids” en introduisant, pour γ = (γn ) une
suite quelconque de réels strictement positifs,
n X o
ℓ2γ = (un ) ∈ RN , γn |un |2 < +∞ .

Proposition 20.3. (Inégalité de Cauchy-Schwarz)

Tout produit scalaire vérifie l’inégalité de Cauchy-Schwarz

|(u, v)| ≤ (u, u)1/2 (v, v)1/2 ∀u, v ∈ H.

Démonstration: On écrit que (u + tv, u + tv) est positif, pour tout t ∈ R, notamment pour
t = −(u, v)/ |v|2 qui réalise le minimum.

Proposition 20.4. (Identité du parallélogramme)

Toute norme issue d’un produit scalaire vérifie l’identité du parallélogramme
2 2
u+v u−v 1
+ = (|u|2 + |v|2 ).
2 2 2
Proposition 20.5. Tout sous-espace vectoriel fermé d’un espace de Hilbert est un espace de
Hilbert (pour le même produit scalaire).

Démonstration. La propriété découle simplement du fait que la restriction d’un produit sca-
laire à un sous-espace est un produit scalaire, et qu’un sous-espace fermé d’un espace complet
est complet.

Notation: Soit H un espace de Hilbert. On appelle boule unité fermée de H l’ensemble

BH = {u ∈ H , |u| ≤ 1} .

196
Definition 20.6. (Séparabilité)
On dit qu’un espace de Hilbert H est séparable s’il existe un sous-ensemble de H dénombrable
et dense dans H.
Théorème 20.7. ( Projection sur un convexe fermé)
Soit H un espace de Hilbert et K un convexe fermé non vide de H. Pour tout z ∈ H, il
existe un unique u ∈ K (appelée projection de z sur K) tel que

|z − u| = min |z − v| = dist(z, K).

v∈K

La projection u est caractérisée par la propriété

(
u∈K
(20.1)
(z − u, v − u) ≤ 0 ∀v ∈ K.

On notera u = PK z.

Démonstration: On considère une suite minimisante (un )

un ∈ K , |z − un | −→ d = dist(z, K).

Pour p, q ∈ N, on applique l’identité du parallélogramme à up − z et uq − z :

2 2
up + uq up − uq 1
−z + = (|up − z|2 + |uq − z|2 ).
2 2 2
Comme K est convexe (up + uq )/2 ∈ K,
2
up + uq
−z ≥ d2 .
2
On a donc
2
up − uq
≤ d2 − d2 + εp + εq = εp + εq ,
2
avec εn = |un − z|2 −d2 −→ 0. La suite un est donc de Cauchy dans H complet, donc converge
vers u ∈ H. Comme K est fermé, u ∈ K, et par continuité de la norme, |u − z| = dist(z, K).

On écrit ensuite simplement que pour tout v ∈ K, l’inégalité |z − w|2 ≥ |z − u|2 est
vérifiée pour tout w du segment [u, v] (qu’on écrit w = u + t(v − u), t ∈ [0, 1]).

La démonstration du théorème précédent suggère que toute suite minimisante (un ) tend
nécessairement vers le minimiseur. L’exercice suivant précise cette propriété, en explicitant
la vitesse de convergence de la suite des minimiseurs en fonction de la vitesse de convergence
de |un − z| vers |u − z|.
Exercice 20.1. Soit H un espace de Hilbert, K un convexe fermé non vide de H, z ∈ H. On
note u la projection de z sur K. Montrer que

|v − u| ≤ |v − z| ∀v ∈ K.

Exercice 20.2. Soit H un espace de Hilbert, K un convexe fermé non vide de H, z ∈ H. On

note u la projection de z sur K. Pour tout v ∈ K, note dv = |v − z|, et ε = dv − d. Estimer
|v − u| en fonction de dv et ε.

197
Exercice 20.3. Soit H = ℓ2 et K l’ensemble des suites à termes positifs ou nuls. Exprimer la
projection d’un élément z = (zn ) sur K.

Remarque 20.8. Si K est un sous-espace affine fermé de H, alors la caractérisation (20.1)

prend la forme (
u∈K
(20.2)
(z − u, v − u) = 0 ∀v ∈ K,
et si K est un sous-espace vectoriel de H, on a
(
u∈K
(20.3)
(z − u, v) = 0 ∀v ∈ K.

Remarque 20.9. On prendra garde que la projection sur un sous-espace vectoriel n’est en
général pas définie, car en dimension infinie les sous-espaces vectoriel peuvent ne pas être
fermés (considérer par exemple le sous-espace de ℓ2 des suites nulles au delà d’un certain
rang).

On peut vérifier que l’application de projection PK définie par le théorème précédent est
1-lipschitzienne

Proposition 20.10. Sous les hypothèses du théorème précédent, on a, pour tous f , g ∈ H,

|PK f − PK g| ≤ |f − g|

Démonstration. On utilise la caractérisation de la projection (20.1) :

(f − PK f, PK g − PK f ) ≤ 0,
(g − PK g, PK f − PK g) ≤ 0.

En additionnant, il vient,

|PK f − PK g|2 ≤ (f − g, PK f − PK g) ≤ |f − g| |PK f − PK g| ,

d’où l’inégalité annoncée.

Remarque 20.11. Ne pas confondre le résultat précédent avec le caractère 1-lipschitzien de

la fonction distance à un ensemble quelconque, dans tout espace vectoriel normé.

La proposition ci-dessus exprime la stabilité de la projection par rapport à l’élément

projeté. On peut se demander si cette projection est stable par rapport à l’ensemble sur
lequel on projette. C’est l’objet de l’exercice suivant :
Exercice 20.4. Soit H un espace de Hilbert, et z un élément de H fixé. Pour tout couple
(K, K ′ ) de convexes fermés bornés, on définit leur distance de Hausdorff par
!
′ ′ ′
dH (K, K ) = max sup d(v, K ), sup d(v , K) .
v∈K v′ ∈K ′

On note u = PK z, u′ = PK ′ z. Majorer |u − u′ | en fonction de dH (K, K ′ ).

198
Proposition 20.12. Soit H un espace de Hilbert et K un sous-espace vectoriel fermé de H.
Tout u de H s’écrit
u = PK u + PK ⊥ u.

Démonstration: On vérifie immédiatement que u−PK u vérifie les identités qui caractérisent
la projection de u sur K ⊥ .

Proposition 20.13. (Caractérisation de la densité)

Soit H un espace de Hilbert et K un sous-espace de H tel que l’implication suivante soit
vérifiée :
(h, w) = 0 ∀w ∈ K =⇒ h = 0.
Alors K est dense dans H

Démonstration: Si K n’est pas dense dans H, alors il existe u ∈ H, u ∈

/ K. On pose
h = u − PK u. On a (h, w) = 0 pour tout w ∈ K, et h 6= 0 car u ∈
/ K.

Théorème 20.14. (Hahn-Banach)

Soit H un espace de Hilbert, K ⊂ H un convexe fermé, et z un point de H qui n’appartient
pas à K. Alors il existe un hyperplan fermé qui sépare K et z au sens strict, c’est-à-dire qu’il
existe h et x0 dans H tels que

(x − x0 , h) ≤ 0 < (z − x0 , h) ∀x ∈ K.

Démonstration: On introduit la projection u = PK z de z sur K, on définit x0 comme

(z + u)/2, et h = z − u. Pour tout x ∈ K, on a

(x − x0 , h) = (x − u, z − u) + (u − x0 , h)
| {z } | {z }
≤0 =−|h|2 /2≤0

et on a par ailleurs (z − x0 , h) = |h|2 /2 > 0.

Exercice 20.5. (Lemme des noyaux)

Soient u, u1 , . . ., un , des éléments d’un espace de Hilbert H. Montrer l’équivalence suivante
\ X
u⊥
i ⊂ u⊥ ⇐⇒ ∃λ1 , . . . , λn , u = λi u i .

Definition 20.15. (Orthogonal d’un ensemble)

Soit H un espace de Hilbert et K un sous-ensemble de H. On appelle orthogonal de K
l’ensemble
K ⊥ = {v ∈ V , (v, u) = 0 ∀u ∈ K} .
On vérifie immédiatement que c’est un sous-espace vectoriel fermé.

Proposition 20.16. Soit H un espace de Hilbert et K un sous-espace vectoriel fermé de H.

On a
K ⊥⊥ = K.

Tout espace de Hilbert peut s’identifier à son dual, comme l’exprime le théorème suivant.

199
Théorème 20.17. (Riesz-Fréchet)
Soit ϕ ∈ H ′ (dual topologique de H). Il existe f ∈ H unique tel que

hϕ , ui = (f, u) ∀u ∈ H. (20.4)

De plus, on a |f | = kϕkH ′ .

Démonstration: Si ϕ est la forme nulle, le résultat est immédiat. Dans le cas contraire,
on introduit K le noyau de ϕ. C’est un hyperplan fermé de H. On construit ensuite un h ∈
SH ∩K ⊥ . Pour celà on considère z ∈
/ K. D’après la caractérisation (20.3), on a (z−PK z, v) = 0
pour tout v ∈ K. Le vecteur
z − PK z
h=
|z − PK z|
convient donc. Pour finir on remarque que tout v ∈ H peut s’écrire

hϕ , vi hϕ , vi
v= h+ v− h = λh + w,
hϕ , hi hϕ , hi
avec w ∈ K. On a donc, pour tout v ∈ H (on prend le produit scalaire de l’identité précédente
avec h),
hϕ , vi = hϕ , hi (v, h)
d’où l’identité (20.4) avec f = hϕ , hi h. L’unicité d’un tel f est immédiate.

On prendra garde au fait que cette identification dépend du produit scalaire choisi.

L’identification entre H et son espace dual permet d’étendre immédiatement la caracté-

risation de la densité 20.13 à un sous-espace du dual :
Proposition 20.18. (Caractérisation de la densité dans le dual)
Soit H un espace de Hilbert et K un sous-espace de H ′ tel que l’implication suivante soit
vérifiée :
hϕ , hi = 0 ∀ϕ ∈ K =⇒ h = 0.
Alors K est dense dans H ′ .
Proposition 20.19. (Continuité d’une forme bilinéaire)
Soit a : H × H −→ R une forme bilinéaire. Alors a( · , · ) est continue si et seulement s’il
existe une constante kak telle que

|a(u, v)| ≤ kak |u| |v| ∀u, v ∈ H.

Démonstration. On suppose a continue. La continuité en 0 assure l’existence d’un r tel que

|a(u, v)| ≤ 1 sur B(0, r) × B(0, r). On a donc, pour tous u, v, non nuls

u v 1
a r ,r ≤ 1 =⇒ |a(u, v)| ≤ |u| |v| .
|u| |v| r2
Réciproquement, le développement

a(u + h, v + k) = a(u, v) + a(h, v) + a(u, k) + a(h, k)

assure la continuité en tout (u, v) ∈ H × H.

200
Definition 20.20. (Coercivité d’une forme bilinéaire)
Soit a : H × H −→ R une forme bilinéaire. On dit que a est coercive s’il existe α > 0 tel
que
a(u, u) ≥ α |u|2 ∀u ∈ H.

Remarque 20.21. En dimension finie, et dans le cas où la forme est symétrique (a(u, v) =
a(v, u)), on retrouve la notion de forme symétrique définie positive. Le plus grand coefficient
α est alors la plus petite valeur propre de la matrice associée, et la plus petite constante kak
de la continuité sa plus grande valeur propre.

Exercice 20.6. Soit α = (αn ) une suite bornée de réels, et

+∞
X
2 2
a : (u, v) ∈ ℓ × ℓ 7−→ αn un vn .
n=0

A quelle condition sur α la forme bilinéaire a( · , · ) est-elle coercive ?

Remarque 20.22. On verra qu’il existe une définition plus générale de la coercivité (pour
des fonctionnelles quelconques, voir théorème 20.44), équivalente à la définition ci-dessus
dans le cas particulier des formes bilinéaires.

Proposition 20.23. Soit H un espace de Hilbert, et a une forme bilinéaire et continue sur
l’espace produit H × H. Pour tout u ∈ H, on note Au l’élément de H qui s’identifie à la
forme linéaire a(u, · ) :
(Au, v) = a(u, v) ∀v ∈ H.
L’application u 7−→ Au est linéaire et continue. De plus si a( · , · ) est coercive, alors l’appli-
cation A est une bijection.

Démonstration: L’application A est évidemment linéaire, et

|Au| = sup (Au, v) = sup a(u, v) ≤ C |u| ,

|v|=1 |v|=1

où kak est la constante de continuité de a.

Si a est coercive, on a (Au, u) = a(u, u) ≥ α |u|2 , et donc |Au| ≥ α |u| pour tout u dans
H. On vérifie que l’image est fermée en considérant une suite (Aun ) qui converge vers un
élément de l’image w. Comme (Aun ) converge, elle est de Cauchy, donc (un ) est également
de Cauchy d’après l’inégalité précédemment démontrée. Elle converge donc vers u ∈ H qui
vérifie Au = w par continuité de A. On a de plus, pour tout g ∈ H,

(g, Au) = 0 ∀u ∈ H =⇒ (g, Ag) = a(g, g) = 0

qui entraı̂ne g = 0 par coercivité de a. L’image de A est donc fermée et dense dans H : c’est
l’espace H lui-même. L’injectivité est une conséquence immédiate de la coercivité.

Remarque 20.24. On peut choisir de définir A comme un opérateur de H dans H ′ , en

écrivant alors hAu , vi = a(u, v) pour tout v ∈ H. Les résultats précédents s’étendent bien
entendu à cette situation.

201
On verra que l’opérateur A est bicontinu (i.e. son inverse est lui-même continu), mais
cette propriété n’est pas utile pour démontrer le point essentiel de cette section, conséquence
directe de la proposition qui précède :
Théorème 20.25. (Lax-Milgram)
Soit H un espace de Hilbert, et a une forme bilinéaire continue et coercive sur H × H. Pour
tout ϕ ∈ H ′ , il existe un u ∈ H unique tel que
a(u, v) = hϕ , vi ∀v ∈ H. (20.5)
Si a est symétrique, u est l’unique élément de H qui réalise le minimum de la fonctionnelle
1
v 7−→ J(v) = a(v, v) − hϕ , vi.
2

Démonstration. D’après le théorème de représentation de Riesz-Fréchet, il existe un unique

f ∈ H tel que
(f, v) = hϕ , vi ∀v ∈ H.
On introduit l’opérateur A associé à a( · , · ), qui est bijectif (voir proposition 20.23). Il existe
donc une unique solution u à l’équation Au = f .

On suppose maintenant a( · , · ) symétrique. On note toujours u la solution du problème

variationnel (20.6). Pour tout h ∈ H, l’application
t 7−→ ψ(t) = J(u + th) − J(u)
est convexe, nulle en 0, de dérivée nulle en 0. Elle est donc positive, et ainsi J(u + h) ≥ J(u)
pour tout h ∈ H.

De la même manière, si w minimise J, on écrit que la dérivée de la fonction J(w+th)−J(w)

est nulle en 0, ce qui est exactement la formulation variationnelle (20.6).
Corollaire 20.26. Soit H un espace de Hilbert, K ⊂ H un sous-espace affine fermé, K 0
l’espace vectoriel sous-jacent. et a une forme bilinéaire continue sur H × H, coercive sur K 0 .
Pour tout ϕ ∈ H ′ , il existe un u ∈ K unique tel que
a(u, v) = hϕ , vi ∀v ∈ K 0 . (20.6)
Si a est symétrique, u est l’unique élément de K qui réalise le minimum de la fonctionnelle
1
v 7−→ J(v) = a(v, v) − hϕ , vi.
2

Démonstration: On écrit simplement K = U + K 0 , et l’on cherche la solution sous la forme

u = U + ũ, pour se ramener au problème
a(ũ, v) = hϕ , vi − a(U, v) ∀v ∈ K 0 ,
qui rentre dans le cadre du théorème de Lax-Milgram. Le principe de minimisation s’en
déduit, du fait que
1
J(U + h, U + h) = J(U, U ) + a(h, h) + a(U, h) − hϕ , U i − hϕ , hi
2
1
= a(h, h) − (hϕ , hi − a(U, h)) + constante
2

202
L’identification établie ci-dessus permet de donner un sens à la notion de différentielle
d’une application à valeurs dans R en tant qu’élément de l’espace de Hilbert :
Definition 20.27. (Différentiabilité)
Soit J une application de H dans R, et u ∈ H. On dit que J est différentiable en u s’il existe
ϕ ∈ H ′ tel que l’on ait, pour h au voisinage de 0,

J(u + h) = J(u) + hϕ , hi + |h| ε(h),

où ε : H −→ H est telle que ε(h) −→ 0 quand h −→ 0. Si un tel ϕ existe, on peut l’identifier
à un élément de H que l’on note J ′ (u). On dira que J est différentiable si elle admet une
différentielle en tout point, et que J est C 1 si l’application u 7−→ J ′ (u) est continue.

20.2 Convergence faible

Comme précédemment H désigne un espace de Hilbert réel muni du produit scalaire (., .)
et de la norme | |.
Definition 20.28. (Convergence faible)
Soit (un ) une suite d’éléments de H. On dit que (un ) converge faiblement vers u dans H, et
on note un ⇀ u, si
(un , v) → (u, v) ∀v ∈ H,
ou de façon équivalente, si

< ϕ, un >−→< ϕ, u > ∀ϕ ∈ H ′ .

Proposition 20.29. Soit (un ) une suite d’un espace de Hilbert H. Si un ⇀ u, alors (un ) est
bornée et |u| ≤ lim inf |un |.

Démonstration: C’est une conséquence directe du corollaire 19.11 au théorème de Banach-

Steinhaus.

Proposition 20.30. Si un ⇀ u et |un | → |u|, alors la suite un converge fortement vers u.

Démonstration: On écrit

|un − u|2 = |un |2 − 2(un , u) + |u|2 .

On a (un , u) → |u|2 d’où |un − u|2 → 0.

Proposition 20.31. Soient E et F deux espaces de Hilbert, et T ∈ L (E, F ). Alors

un ⇀ u =⇒ T un ⇀ T u.

Démonstration: On écrit simplement que, pour tout z ∈ F ,

(T un , z) = (un , T ⋆ z) −→ (u, T ⋆ z) = (T u, z),

qui exprime la convergence faible de T un vers T u.

203
Le résultat fondamental de cette section est le suivant.

Théorème 20.32. Soit (un ) une suite bornée dans un espace de Hilbert H. Alors on peut
extraire une sous-suite convergeant faiblement vers u dans H.

Démonstration: On raisonne d’abord dans le cas où H est séparable. Il existe donc une
famille dénombrable {xk }k∈N dense dans H. On se propose de suivre le procédé d’extraction
diagonale de Cantor.

1. Comme (un , x1 ) est bornée dans R on peut extraire une suite uj1 (n) telle que (uj1 (n) , x1 )
converge.
2. Comme (uj1 (n) , x2 ) est bornée dans R on peut extraire de uj1 (n) une suite uj1 ◦j2 (n)
telle que (uj1 ◦j2 (n) , x2 ) converge.
3. Par récurrence, on construit une suite de sous-suites emboitées uj1 ◦j2 ◦···◦jk (n) telle que
(uj1 ◦j2 ◦···◦jk (n) , xk ) converge, pour tout k.
4. On utilise à présent le procédé d’extraction diagonale : on pose ϕ(k) = j1 ◦j2 ◦· · ·◦jk (k)
(de telle sorte que ϕ est strictement croissante), et on considère uϕ(n) . Pour tout k, on
remarque que uϕ(n) , à partir du rang k, est aussi une suite extraite de (uj1 ◦j2 ◦···◦jk (n) ),
de telle sorte que (uϕ(n) , xk ) converge lorsque n → +∞.
5. On utilise ensuite la densité des xk . Pour tout x ∈ H, on montre que (uϕ(n) , x) est une
suite de Cauchy : soit ε > 0, il existe (xk ) tel que |x − xk | < ε. Comme (uϕ(n) , xk ) est
de Cauchy, il existe un N au-delà duquel (uϕ(p) , xk ) − (uϕ(q) , xk ) < ε. Pour tous p, q
supérieurs à N , on a donc

(uϕ(p) , x) − (uϕ(q) , x) ≤ (uϕ(p) , x) − (uϕ(p) , xk ) + (uϕ(p) , xk ) − (uϕ(q) , xk )

+ (uϕ(q) , xk ) − (uϕ(q) , x)
≤ M ε + ε + M ε = (1 + 2M )ε,

où M est un majorant de |un |.

On a donc démontré que, pour tout x ∈ H, (uϕ(n) , x) converge vers un élément de H
que l’on note h(x). L’application x 7→ h(x) ∈ R est linéaire, et on a pour tout x ∈ H

|h(x)| = lim (uϕ(n) , x) ≤ M |x| ,

n→∞

d’où h continue 109 sur H. D’après le théorème de Riesz-Fréchet, cette forme s’identifie
à un élément u de H. On a donc convergence faible de la suite extraite vers u.

Dans le cas où le Hilbert n’est pas séparable, on se place dans l’adhérence de l’espace
vectoriel engendré par les termes de la suite, qui est un espace de Hilbert séparable (pour le
même produit scalaire) par construction. La convergence faible vers un u de ce sous-espace
entraı̂ne la convergence faible dans H.
109. Remarquer qu’il n’est pas nécessaire ici d’utiliser le théorème de Banach–Steinhaus, du fait de l’hypothèse
(un ) bornée.

204
20.3 Somme Hilbertiennes, bases Hilbertiennes

Definition 20.33. (Somme Hilbertienne)

Soit (En )n∈N une suite de sous-espaces fermés d’un espace de Hilbert H. On dit que H est
somme Hibertienne des En si
(i) Les En sont deux à deux orthogonaux, c’est-à-dire

(u, v) = 0 ∀u ∈ En , ∀v ∈ Em ∀m, n ∈ N , m 6= n.

(ii) L’espace vectoriel engendré par les En est dense dans H.

Théorème 20.34. On suppose H somme Hilbertienne des En . Pour u ∈ H, on note un =
PEn u. On a
∞
X ∞
X
u= un et |u|2 = |un |2 .
i=1 i=1

Réciproquement, si l’on considère une suite (un ) avec un ∈ En pour tout n, et telle que |un |2
P
P P
converge, alors la série un converge, et sa limite u = un est telle que un = PEn u.

Démonstration. On considère l’opérateur

k
X
Sk = PEn .
n=1

On a Sk ∈ L (H), et Sk u vérifie (les En sont orthogonaux deux à deux)

k
X
2
|Sk u| = |un |2 .
n=1

D’autre part on a, pour tout n

(u, un ) = |un |2 ,
d’où, en sommant de 1 à k,
(u, Sk u) = |Sk u|2 .
On a donc |Sk u| ≤ |u|. On désigne par E l’espace vectoriel engendré par les En . Pour tout
ε > 0, tout u dans H, il existe un v ∈ E tel que |v − u| < ε. Pour k assez grand, on a Sk v = v,
et ainsi
|Sk u − u| ≤ |Sk (u − v)| + |v − u| ≤ 2ε.
on a donc bien convergence de Sk u vers u.

D’autre part l’égalité, pour tout k

k
X
|Sk u|2 = |un |2 ,
n=1

entraı̂ne, à la limite,
+∞
X
|u|2 = |un |2 .
n=1
Pk
Pour la réciproque, on utilise le caractère de Cauchy de la suite n=1 un , et la continuité des
opérateurs de projection.

205
Le théorème précédent permet d’introduire la notion de base Hilbertienne :
Definition 20.35. (Bases hilbertiennes)
Soit (en )n∈N une famille de vecteurs d’un espace de Hilbert H. On dit que (en ) est une base
Hilbertienne si
(i) |en | = 1 pour tout n ∈ N, et (em , en ) = 0 pour tous m, n, avec m 6= n.
(ii) L’espace vectoriel engendré par les (en ) est dense dans H.
Théorème 20.36. Tout espace de Hilbert séparable admet une base Hilbertienne.

Démonstration. Soit H un espace de Hilbert séparable 110 . On considère (fn )n∈N une famille
dense dans H. On note Fk l’espace vectoriel engendré par les k premiers vecteurs. L’espace
vectoriel engendré par les Fk est dense dans H. On peut construire la base Hilbertienne de
la façon suivante : si f1 est non nul, on prend f1 / |f1 | comme premier vecteur. Une base
orthonormale sur Fk étant construite, on complète par une base orthonormale sur Fk+1 si
nécessaire (si fk+1 ∈
/ Fk ). Sinon, on passe au rang suivant.

20.4 Minimisation de fonctionnelles convexes

Commençons par définir un certain nombre de notions générales afférentes aux applica-
tions à valeurs dans R ∪ {+∞}.
Definition 20.37. (Domaine)
Soit E un ensemble et J une application de E dans R ∪ {+∞}. On appelle domaine de J
l’ensemble
D(J) = {x ∈ E , J(x) < +∞} .
Definition 20.38. (Semi-continuité inférieure)
Soit E un espace topologique, et J une application de E dans R ∪ {+∞}. On dit que J est
semi-continue inférieurement (s.c.i. en abrégé) si, pour tout λ ∈ R, l’ensemble
Eλ = {x ∈ E , J(x) ≤ λ}
est fermé.
Definition 20.39. (Convexité)
Soit E un espace vectoriel, et J une application de E dans R ∪ {+∞}. On dit que J est
convexe si
J(θx + (1 − θ)y) ≤ θJ(x) + (1 − θ)J(y) ∀x, y ∈ E ∀θ ∈]0, 1[,
ou, de façon équivalente, si l’ensemble (appelé épigraphe de J)
epi J = {(x, λ) ∈ E × R , J(x) ≤ λ} ,
est convexe.

On dit que J est strictement convexe si

J(θx + (1 − θ)y) < θJ(x) + (1 − θ)J(y) ∀x, y ∈ E ∀θ ∈]0, 1[.
110. C’est à dire qu’il existe un ensemble dénombrable et dense. C’est le cas pour l’essentiel des espace de
Hilbert que l’on rencontre dans la “nature”, en particulier pour les espaces fonctionnels de type L2 (Ω) ou
H m (Ω).

206
Definition 20.40. (Coercivité)
Soit E un vectoriel normé, et J une application de E dans R ∪ {+∞}. On dit que J est
coercive si
lim J(x) = +∞.
kxk→+∞

Théorème 20.41. (Banach-Saks)

Soit (xn )n∈N une suite de H faiblement convergente vers un élément x de H. Alors il existe
une suite extraite yn = xϕ(n) telle que la suite des moyennes de Césaro
n
1X
σn = yk
n k=1
converge fortement vers x.

Démonstration. Quitte à remplacer la suite xn par xn − x, on peut supposer sans perte de

généralité que xn ⇀ 0. On construit maintenant la suite yn de la façon suivante :

1. On prend y1 = x1 .
2. Comme xn converge faiblement vers 0, il existe un indice ϕ(2) tel que
1
(y1 , xϕ(2) ) = |(y1 , y2 )| ≤
.
2
3. Par récurrence, on construit à partir des termes déjà construits y1 , y2 , . . ., yn−1 , le
n−ième terme yn tel que
1
|(yi , yn )| ≤ ∀i = 1, 2, . . . , n − 1.
n
On pose
n
1X
σn = yk .
n k=1
Montrons que σn tend (fortement) vers 0. On développe
n X n
1 X
|σn |2 = (yi , yj ),
n2 i=1 j=1

ce qui donne
n n k−1
! n
!
2 1 X 2
X X 1 2
X k−1
|σn | ≤ |yi | + 2 |(yℓ , yk )| ≤ 2 nM + 2
n2 i=1 k=1 ℓ=1
n k=1
k
1 2
M2 + 2
≤ nM + 2n = ,
n2 n
et donc σn → 0.

Ce théorème a plusieurs conséquences importantes, dont la première est le

Théorème 20.42. Soit K ⊂ H un ensemble convexe fermé de H. Soit (xn )n∈N une suite
d’éléments de K qui converge faiblement vers x. Alors x ∈ K. On dit que K est faiblement
séquentiellement fermé.

Démonstration: Le résultat est une conséquence directe du théorème 20.41.

207
Exercice 20.7. Montrer que le résultat est faux en général si l’on supprime l’hypothèse de
convexité (donner par exemple une suite dans la sphère unité de ℓ2 qui converge faiblement
vers 0).

Une autre conséquence importante du théorème 20.41 est le

Théorème 20.43. Soit J : H −→ R une fonction convexe continue s.c.i, J 6≡ +∞. Pour
toute suite (xn )n∈N de H telle que xn ⇀ x, on a

J(x) ≤ lim inf J(xn ).

(On dit que J est faiblement séquentiellement s.c.i.)

Démonstration: Soit L := lim inf J(xn ) (a priori, −∞ ≤ L ≤ +∞). Soit yn une suite
extraite telle que l’on ait
J(yn ) −→ L,
et telle que
n
1X
σn = yn −→ x.
n i=1
par semi–continuité inférieure de J, on a J(x) ≤ lim inf J(σn ). D’autre part, J étant convexe
n
1X
J(σn ) ≤ J(yn ) → L.
n i=1

On a donc bien J(x) ≤ L.

Ce théorème va nous permettre d’établir le résultat principal de minimisation :

Théorème 20.44. Soit J : H −→ R une fonction convexe s.c.i., J 6≡ +∞. On suppose que
J est coercive, c’est-à-dire que
lim J(x) = +∞.
|x|→+∞

Alors il existe u ∈ H tel que

J(u) = min J(v).
v∈H
Plus généralement, si K ⊂ H est un convexe fermé, il existe u ∈ K tel que

J(u) = min J(v).

v∈K

Enfin, si J est strictement convexe, alors ces minima sont uniques.

Démonstration: Soit (xn )n∈N une suite minimisante : xn ∈ K et

J(xn ) → M := inf J.
K

Comme J est coercive, xn est bornée. Il existe donc une suite extraite yn telle que yn ⇀ x.
Comme K est un convexe fermé, x ∈ K, et

J(x) ≤ lim inf J(xn ) = M.

Mais comme J(x) > M par définition de M , on a J(x) = M .

208
On remarquera que, pour le résultat concernant K, il suffit que J soit définie sur K. La
coercivité signifie que, ou bien K est borné, ou bien

lim J(x) = +∞.

|x|→+∞,x∈K

Definition 20.45. (Sous-différentiel)

Soit H un espace de Hilbert, et Ψ une fonctionnelle convexe de H dans R∪{+∞}. On définit
le sous-différentiel de Ψ en u ∈ H comme l’ensemble

∂Ψ(u) = {w ∈ H , Ψ(u) + (w, h) ≤ Ψ(u + h) ∀h ∈ H} .

20.5 Opérateurs maximaux monotones

Definition 20.46. (Opérateurs maximaux monotones)

Soit H un espace de Hilbert, et A une application de H dans 2H (ensemble des parties de A).
On appelle D(A) le domaine de A, i.e. l’ensemble des x tels que Ax 6= ∅. On dit que A est
monotone si
∀x , x′ ∈ D(A) , ∀y ∈ Ax , y ′ ∈ Ax′ , (y ′ − y, x′ − x) ≥ 0.
On dit que A est maximal monotone si

A ⊂ A′ et A′ monotone =⇒ A′ = A.

(par A ⊂ A′ ) on entend Ax ⊂ A′ x pour tout x ∈ H.

Exercice 20.8. Montrer qu’une fonction f continue croissante de R dans R est maximale
monotone.

Si f est simplement croissante, construire l’unique fonction maximale monotone qui

contient f .

Que se passe-t-il pour une fonction qui tend vers +∞ quand x tend vers a− , a ∈ R ?

On s’intéresse à des problèmes d’évolution de type

du
+ Au ∋ 0 , u(0) = u0 . (20.7)
dt
Théorème 20.47. (Voir [3])
Soit H un espace de Hilbert et A un opérateur maximal monotone. Pour tout u0 ∈ D(A),
l’équation (20.7) admet une solution u de [0, +∞[ dans D(A), au sens suivant
1. u est Lipschitzienne ;
2. L’équation (20.7) est vérifiée presque partout sur ]0, +∞[ ;
3. La condition initiale est vérifiée (u étant continue, la condition u(0) = u0 a bien un
sens).
Une telle solution est unique. Elle est de plus dérivable à droite, et l’on a, pour tout
t ∈ [0, +∞[,
du
= −A◦ u,
dt
où A◦ u est l’élément de Au de norme minimale.

209
Ce théorème assure l’existence et l’unicité de solution à des équations d’évolution qui ne
rentrent pas dans le cadre du théorème de Cauchy-Lipchitz.
Exemple 20.2. On considère l’opérateur

{−1} si x < 0,
ϕ : x ∈ R 7−→ [−1, 1] si x = 0,
{1} si x > 0,

Pour toute valeur initiale x0 , la solution unique rejoint 0 à vitesse constante de module 1,
puis y stationne.

Noter que si l’on prend l’opposé de cet opérateur, on perd l’unicité : partant de 0, on peut
aller vers la droite ou la gauche.

On considère les éléments de Ax comme des vitesses de trajectoires issues de x (noter

que, d’après l’équation (20.7), un élément de Ax est effectivement homogène à une vitesse).
Le caractère maximal monotone implique que des particules issues de deux points distincts
ne se croisent jamais :

Proposition 20.48. Soit A un opérateur maximal monotone sur H. On a

x1 6= x2 , u1 ∈ Ax1 , u2 ∈ Ax2 =⇒ x1 + tu1 6= x2 + tu2 ∀t ≥ 0.

210
21 Équations différentielles ordinaires

21.1 Lemme(s) de Gronwall

Proposition 21.1. Soit ϕ et g deux fonctions continues sur l’intervalle [0, T ], toutes deux
positives sur cet intervalle. On suppose qu’il existe une constante C ≥ 0 telle que
Z t
ϕ(t) ≤ C + g(s)ϕ(s) ds ∀t ∈ [0, T ].
0

On a alors Z
t
ϕ(t) ≤ C exp g(s) ds ∀t ∈ [0, T ].
0

R
Démonstration: On suppose tout d’abord C > 0. La fonction z(t) = C + 0t g(s)ϕ(s) est
dérivable et de dérivée z ′ = gϕ ≤ gz. On a donc (on sait que z par définition ne s’annule pas)

z′
Z t Z t
≤ g =⇒ ϕ ≤ z(t) ≤ z(0) exp g(s) ds = C exp g(s) ds .
z 0 0

Le cas C = 0 est obtenu par passage à la limite.

On peut affaiblir les hypothèses ci-dessus : pour ϕ ∈ L∞ et g ∈ L1 , positives presque

partout, la conclusion est la même.

Dans le cas où g ≡ M = constante, on a ϕ(t) ≤ C exp (M t).

La proposition suivante permet d’obtenir, pour les systèmes dynamiques tels que ceux
étudiés au chapitre I, des estimations de meilleure qualité (sans le facteur à croissance expo-
nentielle).
Proposition 21.2. Soit ϕ et g deux fonctions continues sur l’intervalle [0, T ], toutes deux
positives sur cet intervalle. On suppose qu’il existe une constante C > 0 telle que
Z t q
ϕ(t) ≤ C + 2 g(s) ϕ(s) ds ∀t ∈ [0, T ].
0

On a alors √ Z 2
t
ϕ(t) ≤ C+ g(s) ds ∀t ∈ [0, T ].
0

Démonstration. La démonstration est analogue à la précédente, en considérant maintenant

la fonction Z t q
z(t) = C + 2 g(s) ϕ(s).
0

Théorème 21.3. (Point fixe de Picard)

Soit X un espace métrique complet, et T une application de X dans X strictement contrac-
tante, c’est à dire telle qu’il existe k ∈]0, 1[ tel que

d(T (y), T (x)) ≤ kd(y, x).

211
Alors T admet un unique point fixe, c’est à dire qu’il existe x ∈ X tel que T (x) = x.

Il suffit de supposer qu’il existe p tel que T p = T ◦ T · · · ◦ T soit strictement contractante.

Démonstration. On prend x0 ∈ X et l’on construit la suite x1 = T (x0 ), x2 = T (x1 ), ...

On a
d(xn+1 , xn ) ≤ kd(xn , xn−1 ) ≤ · · · ≤ kn d(x1 , x0 ).
La suite (xn ) est donc de Cauchy dans X, et donc converge vers x ∈ X, qui vérifie, par
passage à la limite dans la relation de récurrence, x = T (x). Ce point fixe est unique, car s’il
en existait un autre x′ on aurait

d(x, x′ ) = d(T (x), T (x′ )) ≤ kd(x, x′ ) < d(x, x′ ),

ce qui est absurde.

Si maintenant on suppose que T p est strictement contractante, alors T p admet un point fixe
x. Par suite T (x) est aussi point fixe de T p , il s’identifie donc à x par unicité. On a donc bien
T (x) = x.

21.2 Théorème de Cauchy Lipschitz

Soit E un espace de Banach Étant donnés un ouvert U de E, x0 ∈ U , un intervalle ouvert

I de R contenant 0, une fonction f de U × I dans E, le problème de Cauchy consiste à trouver
t ∈ I 7−→ x(t) ∈ U vérifiant
(
ẋ(t) = f (x, t),
(21.1)
f (t0 ) = x0 .
Definition 21.4. (Cylindre de sécurité)
On appelle cylindre de sécurité pour (x0 , t0 ) un ensemble Bf (x0 , r) × [t0 − η, t0 − η] tel que
toute solution x(t) du problème de Cauchy sur [t0 − η, t0 + η] soit contenue dans Bf (x0 , r),
et tel que kf k est borné par une constante M sur le cylindre, avec r ≤ ηM .

Definition 21.5. (Caractère Lipschitz local)

On dit que f : U × I 7→ E est localement Lipschitzienne par rapport à la première variable si
en tout point (y, t) ∈ U × I, il existe r > 0, η > 0 et une constante k > 0 tels que

kf (y2 , s) − f (y1 , s)k ≤ k ky2 − y1 k ∀y1 , y2 ∈ Bf (y, r) , s ∈ [t − η, t + η].

Proposition 21.6. On suppose que f est continue sur U × I et localement lipschitzienne par
rapport à la première variable. Alors f admet un cylindre de sécurité en tout point (x0 , t0 ) ⊂
U × I.

Démonstration: Montrons l’existence d’un cylindre de sécurité en (x0 , 0). La fonction f est
Lipschitzienne par rapport à la première variable sur un ensemble du type Bf (x0 , r) × [−τ, τ ].
Elle est donc notamment bornée par M > 0. On choisit η = min(τ, r/M ). Toute solution est
telle que Z t
kx(t) − x0 k = f (x(s), s) ds ≤ M t ≤ M η ≤ r,
0
ce qui assure que Bf (x0 , r) × [−η, η] est un cylindre de sécurité.

212
Remarque 21.7. Si E est un espace vectoriel de dimension finie, il suffit de supposer la
continuité par rapport au couple (x, t), qui assure l’uniforme continuité (et donc le caractère
borné) sur tout compact Bf (x0 , r) × [t0 − τ, t0 − τ ], d’où l’existence d’un cylindre de sécurité.
Definition 21.8. (Solution maximale)
On appelle solution maximale du problème de Cauchy (21.1) une fonction t 7→ x(t) ∈ E
définie sur un intervalle J ⊂ I, solution de (21.1), et qui ne peut pas être prolongée sur
un intervalle de temps plus grand, ce que l’on peut exprimer de la manière suivante : si
t 7→ y(t) ∈ U est solution de (21.1) sur J ′ , et s’identifie à x sur J ∩ J ′ , alors nécessairement
J ′ ⊂ J.
Théorème 21.9. (Cauchy-Lipschitz)
On considère une donnée de Cauchy (x0 , t0 ) ∈ U × I (avec U ouvert du Banach E et I ⊂ R
intervalle ouvert, et on suppose que la fonction f , définie de U × I dans E, est continue sur
U × I et localement Lipschitzienne par rapport à la première variable. Alors le problème de
Cauchy (21.1) admet une unique solution maximale définie sur J ⊂ I.

Démonstration. La fonction f est Lipschitzienne sur un voisinage de (x0 , t0 ), et la proposi-

tion 21.6 assure l’existence d’un cylindre de sécurité Bf (x0 , r) × [t0 − η, t0 + η] construit dans
ce voisinage, de telle sorte que ηM ≤ r, où M majore la norme de f sur ce cylindre. On
introduit l’espace X des applications continues sur [η, η] à valeurs dans Bf (x0 , r), muni de la
norme de la convergence uniforme, et pour tout x ∈ X, on définit T x par
Z t
T x(t) = x0 + f (x(s), s) ds.
t0
On a kT x(t) − x0 k ≤ M η ≤ r, et ainsi T est une application de X dans lui-même, et une
solution du problème de Cauchy définie sur [η, η] est exactement un point fixe de T .
Montrons qu’il existe n ∈ N tel que T n soit strictement contractante. Soient y, z ∈ X. On
note yn = T n y (de même pour z). On a
Z t
kz1 (t) − y1 (t)k = (f (z(s), s) − f (y(s), s) ≤ kt kz − yk∞ .
t0
De même
k 2 t2
Z t Z t
2
kz1 (t) − z2 (t)k = (f (z1 (s), s) − f (y1 (s), s) ≤ k s ds kz − yk∞ = kz − yk∞ .
t0 t0 2
On montre ainsi par récurrence que
k n tn kn ηn
kzn (t) − zn (t)k ≤ kz − yk∞ d’où kzn − zn k∞ ≤ kz − yk∞
n! n!
de telle sorte que T n est contractante pour n suffisamment grand. D’après le théorème 21.3,
l’application T admet un unique point fixe, et l’on en déduit l’existence d’une solution au
problème de Cauchy définie sur [t0 − η, t0 + η], et unique solution sur cet intervalle.
Soit maintenant J la réunion des intervalles sur lesquels le problème de Cauchy associé à
(x0 , t0 ) admet une solution. On considère deux solutions x1 et x2 du problème de Cauchy,
définies sur J1 et J2 , et l’on introduit l’ensemble
K = { t ∈ J1 ∩ J2 , x1 (t) = x2 (t)} .
Il est non vide car 0 ∈ K, c’est un fermé par continuité de x1 et x2 comme fonctions de J1 ∩ J2
dans E. Par unicité locale de la solution établie précédemment, c’est également un ouvert. Il
s’agit donc de l’intervalle J1 ∩ J2 tout entier. On en déduit ainsi l’existence et l’unicité d’une
solution maximale.

213
21.3 Comportement des solutions

Proposition 21.10. (Sortie des compacts)

On se place dans le cadre du théorème 21.9, et l’on note x la solution maximale, définie sur
J =]τ − , τ + [. Si J est strictement inclus dans I =]T − , T + [, par exemple si τ + < T + , alors x
sort de tout compact de U lorsque t tend vers τ + , i.e.
∀K compact ⊂ U , ∃η , x(t) ∈
/K ∀t > τ + − η,
avec un comportement analogue au voisinage de τ − .

Démonstration: Si la propriété n’est pas vérifiée, il existe un compact K ⊂ U et une suite

(tn ) (croissante) tendant vers τ + tels que x(tn ) ∈ K pour tout n. On peut extraire une sous-
suite (que l’on note toujours (tn )) qui converge vers un éléments x∞ de K. On peut placer
un cylindre de sécurité Bf (x∞ , r) × [τ + − η, τ + + η] sur lequel f est majoré par M , avec
r ≤ ηM , et sur lequel elle est Lipschitzienne. Pour n assez grand, x(tn ) est dans Bf (x∞ , r),
et τ + − tn < η/2. On peut alors reproduire la démonstration de construction d’une solution
locale proposée pour le théorème de Cauchy-Lipschitz, qui permet de construire une solution
au problème de Cauchy associé aux données (x(tn ), tn ) et définie sur [tn , tn +η]. Cette solution
s’identifie à x jusqu’à τ + , mais la prolonge strictement au delà de τ + , ce qui est absurde.

21.4 Dépendance par rapport aux conditions initiales

Proposition 21.11. Soit U un ouvert de l’espace de Banach E, I un intervalle de R, et f

une fonction continue de U × I dans R, Lispschitzienne par rapport à la première variable.
Pour x0 , y0 donnés dans U , on note x et y les solutions au problèmes de Cauchy associées à
ces conditions initiales au temps t0 ∈ I. Alors sur leur intervalle de définition, on a
ky(t) − x(t)k ≤ ek(t−t0 ) ky0 − x0 k .

Démonstration: On a
Z t Z t
ky(t) − x(t)k = y0 − x0 + (f (y(s), s) − f (x(s), s)) ≤ ky0 − x0 k + k ky(s) − x(s)k
t0 t0
Le lemme de Gronwall 21.1 assure l’inégalité anoncée.

On se place ici dans l’espace euclidien RN .

Proposition 21.12. Soit f : RN × I −→ R vérifiant les hypothèses du théorème de Cauchy
Lipschitz. On suppose qu’il existe deux constantes A et B telles que
|f (x, t)| ≤ A |x| + B sur RN × I.
Alors toute solution au problème de Cauchy est définie sur I tout entier.

Démonstration: D’après la proposition 21.10, les solutions maximales ne sont définies sur
un sous-intervalle strict que si |x| tend vers +∞. Or (on considère ici t > t0 pour simplifier)
Z t
kx(t)k ≤ kx0 k + B(t − t0 ) + A kx(s)k
t0
D’après le lemme de Gronwall 21.1 appliqué à ϕ(t) = kx(t0 + t)k , on ne peut donc avoir
divergence de |x| vers +∞ en temps fini.

214
21.5 Points fixes, stabilité

Definition 21.13. (Stabilité, stabilité asymptotique)

Soit t 7→ x(t) une solution du problème de Cauchy (21.1) associé à (x0 , t0 ), que l’on suppose
définie sur [t0 , +∞[. On dit que la solution x est
(i) stable si pour tout ε > 0, il existe η > 0 tel que, pour tout y0 tel que ky0 − x0 k < η, la
trajectoire t 7→ y(t) associée à la condition initiale y0 reste à distance de x(t) inférieure
à ε ;
(ii) asymptotiquement stable si (i) est vérifié, et que de plus ky(t) − x(t)k tend vers 0
quand t tend vers +∞.
Remarque 21.14. On s’intéressera souvent au cas de systèmes autonomes, i.e. tels que f
ne dépend pas du temps, et pour des trajectoires stationnaires correspondant à des x0 qui
annulent f . Dans ce cas on parle de point d’équilibre stable (ou asymptotiquement stable)
selon la la terminologie introduite ci-dessus, avec une trajectoire stationnaire x(t) ≡ x0 .

Le théorème suivant donne une condition suffisante de stabilité asymptotique, ainsi qu’une
condition suffisante de non stabilité, pour un point d’équilibre dans le cas autonome dans RN .
Théorème 21.15. On se place dans RN . Soit x0 un point fixe de l’équation ẋ = f (x). On
suppose f continûment différentiable dans un voisinage de x0 , et l’on introduit le gradient
!
∂fi
∇f =
∂xj 1≤i,j≤N

1. Si toutes les valeurs propres de ∇f sont de parties réelles strictement négatives, alors
le point x0 est asymptotiquement stable.
2. Si l’une (au moins) des valeurs propres a une partie réelle strictement positive, alors
x0 n’est pas stable.
Exemple 21.1. Dans le cas où les parties réelles des valeurs propres sont nulles, tous les cas
peuvent se produire, comme l’illustre la situation suivante. On considère le flot dans R2 associé
à !
−x2 + α |x|2 x1
f (x) =
x1 + α |x|2 x2
Notons en premier lieu que pour tout α réel, le gradient de f a des valeurs propres imaginaires
pures (i et −i). Dans le cas α = 0, le point fixe x0 = 0 est stable (mais non asymptotiquement
stable). Pour α > 0, le point est instable, et pour α < 0, le point est asymptotiquement stable.
Proposition 21.16. Soit ϕ une fonction C 1 de RN dans R. On note W = {x , ϕ(x) ≤ 0},
et l’on considère une fonction f définie sur U × R, qui vérifie les hypothèses du théorème de
Cauchy Lipschitz, avec W ⊂ U . Si

∇ϕ · f (x, t) < 0 ∀t , x ∈ ϕ−1 (0),

alors les trajectoires à droite (vers les temps positifs) du problème de Cauchy-Lipschitz asso-
ciées aux données (x0 , t0 ) avec x0 ∈ W sont dans W .
Corollaire 21.17. Dans les hypothèses de la proposition précédentes, si l’on suppose de plus
W compact, la solution est définie sur tout [t0 , +∞[.

215
Definition 21.18. (Fonction de Lyapunov)
On considère un point d’équilibre de l’équation autonome ẋ = f (x) dans RN , c’est-à-dire un
point x0 tel que f (x0 ) = 0. On appelle fonction de Lyapunov pour x0 une fonction ϕ continue
sur un voisinage V de x0 , continûment différentiable sur V \ {x0 }, et telle que
1. x0 est un minimum strict de ϕ sur V ,
2. ∇ϕ(x) · f (x) ≤ 0 pour tout x ∈ V \ {x0 },
Proposition 21.19. Si le point fixe x0 admet une fonctionnelle de Lyapunov, alors il est
stable. Si la fonctionnelle peut être choisie de telle sorte que l’inégalité (ii) est stricte (pour
x 6= x0 ), alors x0 est asymptotiquement stable.

Démonstration: Soit ε > 0, suffisamment petit pour que B(x0 , ε) soit dans V . Le minimum
de ϕ sur la sphère est atteint, il est donc strictement plus grand que la valeur en x0 . On
choisit β compris strictement entre ces deux valeurs, et l’on introduit
W = ϕ−1 (] − ∞, β[) ∩ B(x0 , ε).
C’est un ouvert qui contient x0 , il contient donc une boule B(x0 , η). Pour toute condition
initiale dans cette boule, la trajectoire reste dans B(x0 , ε), car ϕ(x(t)) est décroissant, donc
reste inférieur à β, donc ne peut s’approcher de la frontière de B(x0 , ε).

On suppose maintenant l’inégalité est stricte. On considère une trajectoire t 7→ y(t) issue
de y(0) ∈ B(x0 , η). Comme ϕ(y(t)) est décroissante, elle converge vers une limite ℓ. Si ℓ est
le minimum de ϕ sur V , alors toute valeur d’adhérence x de la trajectoire vérifie ϕ(x) = ℓ,
d’où x = x0 , et on a convergence de la trajectoire (qui est incluse dans le compact B(x0 , ε))
vers x0 . Si la limite est strictement supérieure à ce minimum, on considère l’ensemble
A = ϕ−1 ([β, +∞[) ∩ B(x0 , ε).
Cet ensemble est compact car fermé borné. La fonction
x 7−→ ∇ϕ(x) · f (x)
y atteint donc son maximum, qui est strictement négatif d’après l’hypothèse :
∇ϕ(x) · f (x) ≤ α < 0 ∀x ∈ A.
La trajectoire considérée étant incluse dans A, on a
d
ϕ(y(t)) = ∇ϕ(y(t)) · f (y(t)) ≤ α < 0,
dt
d’où l’on déduit que ϕ(y(t)) tend vers −∞, ce qui est absurde.

21.6 Compléments

Definition 21.20. (Flot d’une équation différentielle)

On considère l’équation différentielle (21.1), sous les hypothèses du théorème (21.9). On ap-
pelle flot de l’équation différentielle l’application Φ qui au triplet (x0 , t0 ; t) associe la solution
au temps t du problème de Cauchy pour la donnée (x0 , t0 ). Cette application vérifie donc

 ∂Φ
 (x0 , t0 ; t) = f (Φ(x0 , t0 ; t), t),
∂t (21.2)

 Φ(x , t ; t )
0 0 0 = x0 .

216
Cette application est définie sur
[
{(x0 , t0 )} × I(x0 ,t0 )
(x0 ,t0 )∈U ×I

où I(x0 ,t0 ) est l’intervalle de définition de la solution maximale associée à la donnée de Cauchy
(x0 , t0 ).

Proposition 21.21. On se place dans le cadre de la définition précédente, en supposant de

plus que la fonction f est globalement Lipschitizienne par rapport à la première variable sur
U × I, de constante de Lipschitz k. Alors

kΦ(y0 , t0 ; t) − Φ(x0 , t0 ; t)k ≤ ek(t−t0 ) ky0 − x0 k .

Démonstration. C’est une application directe de la proposition (21.11).

217
22 Espaces de Sobolev

22.1 Rappels sur l’espace L2 (Ω)

On désigne par Ω un ouvert de RN muni de la mesure de Lebesgue dx.

Definition 22.1. On définit l’espace L2 (Ω) comme

Z
L2 (Ω) = f : Ω → R , f mesurable, |f (x)|2 dx < +∞ .
Ω
R 1/2
On le munit de la norme kf k2 = Ω |f |2 . On notera L2 (Ω)N l’espace des champs de
vecteurs dont chaque composante appartient à L2 (Ω).

Proposition 22.2. L’espace L2 (Ω) est un espace de Hilbert pour le produit scalaire
Z
(u, v) = u(x)v(x) dx,
Ω

comme pour tout produit du type

Z
(u, v)k = k(x)u(x)v(x) dx,
Ω

où k est une fonction mesurable telle que 0 < m ≤ k(x) ≤ M presque partout.

Démonstration: Le fait que cette forme bilinéaire soit bien définie sur L2 × L2 est consé-
quence directe de l’inégalité de Cauchy-Schwarz. Il s’agit alors de montrer que L2 est bien
complet pour la norme associée. Pour cela on considère une suite de Cauchy, on montre par
un argument de convergence monotone que la suite converge presque partout vers une limite,
que la limite appartient bien à L2 , et que l’on a bien convergence pour la norme L2 vers cette
limite. On trouvera une démonstration détaillée dans [2], page 57.

Definition 22.3. (Suite régularisante)

On appelle suite régularisante une suite (ρn ) de fontions C ∞ de RN dans R telle que, pour
tout n ∈ N, Z
supp(ρn ) ⊂ B(0, 1/n) , ρn = 1 , ρn (x) ≥ 0 ∀x ∈ RN .
R

Proposition 22.4. Soit f ∈ L2 (RN ). On définit la fonction ρn ⋆ f par

Z
(ρn ⋆ f )(x) = ρn (x − y)f (y) dy.
RN

Alors la fonction ρn ⋆ f est dans C ∞ (RN ) ∩ L2 (RN ). On a

ρn ⋆ f −→ f dans L2 (RN ).

Remarque 22.5. Toute fonction f de L2 (Ω) peut être prolongée par 0 à RN tout entier.
On peut donc appliquer ce qui précède. Les propriétés de convergence énoncées ci-dessus
s’appliquent ainsi à la restriction de ρn ⋆ f à Ω.

218
Definition 22.6. On note D(Ω) l’espace des fonctions C ∞ à support compact dans Ω. On
vérifie que cet espace est non vide en considérant une boule ouverte B(a, r) dont l’adhérence
est dans Ω, et la fonction
!
1
ϕ(x) = exp si x ∈ B(a, r) , ϕ(x) = 0 si x ∈
/ B(a, r).
|x − a|2 − r 2
Proposition 22.7. L’espace D(Ω) est dense dans L2 (Ω).
Remarque 22.8. L’appartenance à L2 n’exige aucune régularité en espace (aucune ”corrél-
ation spatiale” n’est exigée). En particulier, si l’on considère une partition de Ω sous la forme
Ω = Ω1 ∪ Ω2 , Ω1 ∩ Ω2 = ∅, où les Ωi sont des ouverts tels que ∂Ω1 ∩ ∂Ω2 est de mesure nulle,
pour toutes fonctions fi ∈ L2 (Ωi ), la fonction f dont la restriction à Ωi est fi est dans L2 (Ω).
Nous verrons qu’une telle construction par morceaux d’une fonction est en général impossible
pour les espaces de Sobolev.

22.2 Définitions, propriétés générales

Definition 22.9. (Gradient)

Soit ϕ une fonction C 1 de Ω dans R. On appelle gradient de ϕ la fonction de Ω dans RN
définie par  
∂ϕ
 ∂x 
 1 
 
 .. 
∇ϕ =  . .
 
 
 ∂ϕ 
∂xN
Definition 22.10. On définit l’espace de Sobolev H 1 (Ω) comme l’ensemble des fonctions u
dans L2 (Ω) telles qu’il existe v = (v1 , . . . , vN ) ∈ (L2 (Ω))N vérifiant
Z Z
∂ϕ
u =− ϕ vi ∀ϕ ∈ D(Ω) , ∀i = 1, . . . , N.
Ω ∂xi Ω
On notera alors v = ∇u.

La fonction ∇u de R dans RN est ainsi définie comme l’unique fonction vectorielle à

composantes dans L2 (Ω) telle que l’identité entre vecteurs de RN
Z Z
u∇ϕ = − ϕ∇u
Ω Ω
soit vérifiée pour tout ϕ ∈ D(Ω).

On notera H 1 (Ω)N l’espace des champs de vecteurs dont chaque composante appartient
à H 1 (Ω). Le gradient ∇u est alors une matrice dont la ligne i est le gradient de la i-ème
composante de u.
Proposition 22.11. L’espace H 1 (Ω) muni de la norme k · k définie par
Z Z
kvk2 = u2 + |∇u|2
Ω Ω

est un espace de Hilbert séparable 111 . .

111. Il contient un sous-ensemble dénombrable et dense

219
Démonstration: On construit pour cela une isométrie entre H 1 (Ω) et un sous-espace fermé
de L2 (Ω) × L2 (Ω)N . Voir [2, Prop. IX.1].

Notation: On désignera par |u|0,Ω la norme L2 de u sur Ω (nous omettrons Ω quand il n’y
a pas d’ambigüité), et par |u|1,Ω la semi norme H 1 :
Z
|u|21,Ω = |∇u|2 ,
Ω

de telle sorte que

kuk2H 1 = |u|20,Ω + |u|21,Ω .

Proposition 22.12. Si u ∈ C 1 (Ω) ∩ L2 (Ω) et ∇u ∈ (L2 (Ω))N , alors u ∈ H 1 (Ω), et le

gradient de u au sens classique (définition 22.9) s’identifie au gradient au sens de Sobolev
(définition 22.10).
Proposition 22.13. Soit u ∈ H 1 (Ω) telle que ∇u = 0 presque partout sur Ω. Alors u est
constante sur chaque composante connexe de Ω.

En dimension 1, une fonction peut s’écrire comme intégrale de sa dérivée, comme le précise
la proposition suivante.
Proposition 22.14. Soit I un intervalle de R. Toute fonction u ∈ H 1 (I) admet un repré-
sentant continu ũ, qui vérifie
Z y
ũ(x) = u(x) p.p. sur I , ũ(y) − ũ(x) = u′ (t) dt.
x

Cette fonction continue sur I est prolongeable par continuité aux extrémités de I.

Démonstration: Voir Brezis [2, Th. VIII.2].

Proposition 22.15. Soit u une fonction de L2 (Ω). Les assertions suivantes sont équiva-
lentes :
(i) u ∈ H 1 (Ω).
(ii) Il existe une constante C telle que
Z
u∇ϕ ≤ C kϕkL2 ∀ϕ ∈ D(Ω).
Ω

(iii) Il existe une constante C telle que, pour tout ω ⊂⊂ Ω, pour tout h tel que |h| <
dist(ω, Ωc ),
kτh u − ukL2 (ω) ≤ C |h| .

Démonstration: (i) =⇒ (ii) est une conséquence immédiate de la définition.

(ii) =⇒ (i) Pour i entre 1 et N , on considère la forme linéaire définie sur Cc∞ ⊂ L2 (Ω)
Z
ϕ 7−→ v∂xi ϕ.
Ω

220
Cette forme linéaire est continue pour la norme L2 par hypothèse. Elle se prolonge donc par
densité de Cc∞ (Ω) en une forme linéaire continue sur L2 (Ω). Le théorème de représentation
de Riesz-Fréchet assure donc l’existence de wi ∈ L2 (Ω) tel que
Z Z
v∂xi ϕ = − wi ϕ,
Ω Ω

d’où u ∈ H 1 avec ∇u = (w1 , . . . , wN ).

(i) =⇒ (iii) Soit ω ⊂⊂ Ω, et h < dist(ω, Ωc ). On considère dans un premier temps une
fonction u régulière (u ∈ D(Ω)). On a
Z 1
u(x + h) = u(x) + ∇u(x + th) · h dt,
0

d’où Z 1
|u(x + h) − u(x)|2 ≤ |h|2 |∇u(x + th)|2 ,
0
et donc
Z Z Z 1 Z 1Z
|τh u − u(x)|2 ≤ |h|2 |∇u(x + th)|2 ≤ |h|2 |∇u(x + th)|2 .
ω ω 0 0 ω

On choisit maintenant ω ′ fortement inclus dans Ω, qui contient tous les translatés de ω par
th, pour t ∈ [0, 1]. On a Z
kτh u − ukL2 ≤ |h| |∇u|2 .
ω′
On conclut en utilisant la propriété de densité 22.17.

(iii) =⇒ (ii) Soit ϕ ∈ Cc∞ (Ω), et ω ⊂⊂ Ω qui contient le support de ϕ. Pour tout h tel
que h < dist(ω, Ωc ), on a
Z
(τh u − u)ϕ ≤ C kϕkL2 (ω) |h| ≤ C kϕkL2 (Ω) |h| .
ω

D’autre part,
Z Z Z
(u(x + h) − u(x))ϕ(x) = (u(x + h) − u(x))ϕ(x) = u(y)(ϕ(y − h) − ϕ(y)).
ω Ω Ω

La majoration (iii) implique donc

Z
ϕ(y − h) − ϕ(y)
u(y) ≤ C kϕkL2 .
Ω |h|

On conclut en prenant h de la forme t~ei et en faisant tendre t vers 0.

Proposition 22.16. L’espace D(RN ) est dense dans H 1 (RN ).

Notation: On dit que ω est fortement inclus dans Ω si ω est compact et inclus dans Ω. On
note ω ⊂⊂ Ω.

221
Proposition 22.17. Pour tout ω ⊂⊂ Ω, tout u ∈ H 1 (Ω), il existe une suite (un ) dans D(Ω)
telle que
un −→ u dans L2 (Ω) , ∇un −→ ∇u dans L2 (ω)N .
Corollaire 22.18. Soit (ωn ) une suite de domaines fortements inclus dans Ω, et u ∈ H 1 (Ω).
Il existe une suite (un ) dans D(Ω) telle que

kun − ukL2 (Ω) −→ 0 , k∇un − ∇ukL2 (ωn )N −→ 0.

Definition 22.19. On définit H01 (Ω) comme l’adhérence de D(Ω) dans H 1 (Ω).

Noter que, d’après la proposition 22.17, on a H01 (RN ) = H 1 (RN )

Par rapport à H01 , l’espace H 1 peut se décrire comme l’ensemble des fonctions L2 de
gradient L2 qui peuvent “prendre des valeurs non nulles sur le bord”. Cette expression ne
pourra se voir donner un cadre mathématique précis qu’après que l’on aura défini la notion
de régularité du bord (voir, section 22.3, la définition de l’opérateur trace sur le bord γ0 ).
On peut néammoins dès maintenant donner un sens abstrait à la notion de valeur au bord,
sans faire aucune hypothèse sur la géométrie de Ω. Par analogie avec l’espace des traces des
fonctions de H 1 dans le cas d’un bord régulier (voir définition 22.31), nous noterons H̃ 1/2
l’espace abstrait correspondant.
Definition 22.20. On définit l’espace H 2 (Ω) comme l’ensemble des fonctions de H 1 (Ω)
dont toutes les dérivées partielles par rapport à l’une des composantes sont elles-mêmes dans
H 1 (Ω). C’est un espace de Hilbert muni de la norme
2 2
X ∂u X ∂2u
kuk2H 2 (Ω) = |u|20 + + = |u|20,Ω + |u|21,Ω + |u|22,Ω .
i
∂xi 0 i,j
∂xi ∂xj 0

On peut définir de façon analogue les espaces H m (Ω) pour m = 3, 4, . . ., mais nous
n’utiliserons ici que m ≤ 2.
Definition 22.21. (Espace Hloc m)
m (Ω)
Soit m un entier positif (on utilisera le cas m = 2 dans la suite). On définit l’espace Hloc
comme l’espace vectoriel des (classes de) fonctions de Ω dans R dont la restriction à ω est
dans H m (ω), pour tout ω fortement inclus dans Ω. De façon équivalente, c’est l’ensemble des
fonctions u de Ω dans R telles que θu est dans H m (Ω) pour tout θ dans D(Ω).
m permet de parler de ses dérivées m-ièmes
Noter que l’appartenance d’une fonction à Hloc
comme de fonctions (mesurables) définies sur Ω. On donne ainsi un sens à des expressions
du type ∂ m u/∂xm 2
i = g presque partout dans Ω, où g est une fonction de Lloc .

22.3 Traces

En élasticité, le problème le plus couramment rencontré consiste à trouver le champ de

déplacement d’un solide déformable soumis à certaines sollicitations sur son bord (déplace-
ment imposé). Ces sollicitations au bord ne peuvent avoir un sens que si l’on est capable de
parler d’un champ de déplacement sur le bord du domaine. Lorsque l’on considère des fonc-
tions régulières (au moins continues sur Ω), on peut parler simplement de la restriction de la

222
fonction à ∂Ω. Dans le contexte présent, nous avons vu que les fonctions de H 1 (Ω) ne sont
pas nécessairement continues, et ne sont définies a priori que comme des classes de fonctions
(à un ensemble de mesure nulle près). La frontière d’un ouvert régulier étant de mesure nulle,
la notion de restriction n’a pas de sens. Nous allons montrer ici qu’il est possible de donner un
sens précis à cette notion de trace, dès que les fonctions que l’on considère ont une régularité
suffisante en espace.

Definition 22.22. (Espace des traces abstrait)

On définit l’espace H̃ 1/2 comme l’espace quotient H 1 (Ω)/H01 (Ω). C’est un espace vectoriel
normé pour la norme quotient

kũkH 1 /H 1 = inf kvkH 1 = inf ku − hkH 1 .

0 v∈ũ h∈H01

Noter que, d’après la définition de H01 , on a aussi kũkH 1 /H 1 = inf h∈D(Ω) ku − hkH 1 .
0

Remarque 22.23. On a H01 (RN )

= H 1 (RN )
(d’après la proposition 22.16), et l’on peut
avoir H0 (Ω) = H (Ω) même si Ω est strictement inclus dans RN (de telle sorte que D(Ω)
1 1

soit strictement inclus dans D(RN )). L’espace quotient défini précédemment est alors l’espace
trivial {0}. C’est le cas par exemple de R2 privé d’un point, ou de R3 privé d’un point ou
d’une droite (voir l’exercice 22.1 ci-après sur la notion de capacité).

Exercice 22.1. (Impossibilité de définir la valeur ponctuelle d’un champ)

Soient Ω et ω deux domaines réguliers, avec ω ⊂ Ω. On définit la capacité de ω vis-à-vis de
Ω (on dira simplement capacité s’il n’y a pas d’ambigüité) la quantité
Z
Cω = inf |∇u|2 , v|ω ≡ 1 sur ω , v ∈ D(Ω) .
Ω

1) Calculer la capacité CrR d’une boule de rayon r vis-à-vis d’une boule de rayon R, dans
Rn pour n = 1, n = 2, et n = 3.

2) Préciser la limite de cette capacité lorsque le rayon intérieur r tend vers 0, à R > 0
fixé.

3) En déduire qu’en dimension 2 ou 3 la notion de valeur ponctuelle d’un champ de H 1 (Ω)

n’a pas de signification. On pourra montrer par exemple que le sous-espace des fonctions
régulières qui prennent la valeur 1 en un point intérieur à Ω est dense dans H 1 (Ω).

Proposition 22.24. Soit u ∈ H01 (Ω). On définit ũ comme la fonction qui vaut u(x) pour
tout x ∈ Ω, et qui prend la valeur 0 à l’extérieur de Ω. Alors ũ ∈ H 1 (RN ).

Démonstration: Tout d’abord remarquons que ũ est dans L2 (RN ). Par définition de H01 , u
est limite d’une suite (un ) de fonctions C ∞ à support compact dans Ω. Pour tout ϕ ∈ D(RN ),
on a
Z Z Z
ũ∇ϕ = u∇ϕ = lim un ∇ϕ
RN Ω n→+∞ Ω
Z Z Z
= − lim ϕ∇un = − ϕ∇u = − ϕv.
n→+∞ Ω Ω RN

où v est le champ de vecteurs qui vaut ∇u dans Ω, et 0 à l’extérieur de Ω.

223
Qρh

x′
ρ

xN = ϕ(x′ )
h

Figure 22.1 – Régularité de la frontière

Dans cette section nous précisons les propriétés qui vont nous permettre de définir des
valeurs au bord pour des fonctions appartenant aux espaces de Sobolev introduits précédem-
ment. On se reportera à [6] ou [2] pour les démonstrations détaillées.

On définit le cylindre Qρh de RN par

n o
Qρh = x ∈ RN , x = (x′ , xN ) = (x1 , . . . , xN ) , x′ < ρ , −h < xN < h .

Dans la définition qui suit, “X” représente une régularité fonctionnelle du type C o , Lipschitz,
C k , etc...
Definition 22.25. Soit Ω un ouvert de RN . On dit que la frontière de Ω est de classe X si
en tout point a ∈ ∂Ω, il existe un système de coordonnées et ρ, h > 0, tels qu’il existe une
application n o
ϕ : x′ ∈ RN −1 , x′ < ρ −→ R
de classe X telle que

(i) ∀x′ , |x′ | < ρ ⇒ |ϕ(x′ )| < h,

(ii) ϕ(0) = 0,

(iii) Qρh ∩ ∂Ω coı̈ncide avec le graphe de ϕ,

(iv) U ∩ Ω = {(x′ , xN ) , |x′ | ≤ ρ , ϕ(x′ ) < xN < h}.

Definition 22.26. (vecteur normal)

Soit Ω un ouvert de classe C 1 , a un point de Γ = ∂Ω. On note ϕ l’application définie ci-dessus.
On appelle vecteur normal à Γ au point a le vecteur
(∇ϕ, −1)
n= .
|(∇ϕ, −1)|
Noter que l’on peut définir presque partout un tel vecteur sur une frontière supposée seulement
Lipschitzienne.

224
On note D(Ω) l’ensemble des restrictions des fonctions de D(RN ) à Ω.

Proposition 22.27. Soit Ω un ouvert de frontière Γ Lipschitzienne et bornée. Il existe un

opérateur de prolongement
P : H 1 (Ω) −→ H 1 (RN ),
linéaire continu, tel que, pour tout u ∈ H 1 (Ω), la restriction de P u à Ω s’identifie à u.

Démonstration: Voir Brezis [2, Th. IX.7] dans le cas d’un ouvert C 1 . L’ingrédient principal
de la démonstration est le prolongement par réflexion dont nous indiquons ici le principe dans
le cas N = 1. On considère u ∈ H 1 (]0, 1[), et l’on construit ũ comme la fonction qui s’identifie
à u sur ]0, 1[, et telle que ũ(x) = u(−x) sur ] − 1, 0[. La fonction ũ est dans L2 (] − 1, 1[), et sa
dérivée ũ′ est définie presque partout sur ] − 1, 1[ (avec ũ′ (−x) = −u′ (x) pour x > 0. Nous
allons montrer que cette fonction ũ′ est bien la dérivée de u au sens de Sobolev sur ] − 1, 1[.
Pour toute fonction-test ϕ ∈ D(] − 1, 1[), si l’on note ϕ̃(x) = ϕ(−x), on a
Z 1 Z 0 Z 1 Z 1 Z 1 Z 1
′ ′ ′ ′ ′
uϕ = uϕ + uϕ = − uϕ̃ + uϕ = u(ϕ − ϕ̃)′ .
−1 −1 0 0 0 0

Notons ψ = ϕ − ϕ̃. On ne peut pas utiliser l’appartenance de u à H 1 (]0, 1[) car ψ n’est pas à
support compact dans ]0, 1[. On se ramène à une fonction à support compact en introduisant,
pour ε > 0, la fonction x 7−→ ηε (x) = η(x/ε), où η est une fonction C ∞ sur R+ , nulle sur
[0, 1/2] et sur [1, +∞[. La fonction ψε = ηε ψ est dans D(]0, 1[). On a d’une part
Z 1 Z 1 Z 1 Z 1
uψε′ = − ψε u′ −→ − ψu′ = − ϕũ′ ,
0 0 0 −1

et d’autre part Z Z Z
1 1 1
uψε′ = ηε ψ ′ u + ηε′ ψu.
0 0 0
Le second terme se majore (en utilisant ψ(x) = O(x) et |ηε′ | ≤ C/ε),
Z Z Z
1 ε 1 ε √
ηε′ ψu = ηε′ ψu ≤ Cε |u| ≤ C ε.
0 0 ε 0
R1 R1
d’où 0 uψε′ −→ 0 ψ ′ u,

On a donc ũ ∈ H 1 (] − 1, 1[).

Proposition 22.28. Soit Ω un ouvert de frontière Γ Lipschitzienne. Alors D(Ω) est dense
dans H 1 (Ω).

Proposition 22.29. Soit Ω un ouvert de frontière Γ Lipschitzienne et bornée. L’application

γ0 : ϕ ∈ D(Ω) 7−→ ϕ|Γ ,

se prolonge par continuité en une application linéaire de H 1 (Ω) dans L2 (Γ).

Démonstration: On se limite ici à une démonstration dans le cas du demi espace RN −1 ×R+
(pour lequel le résultat est vrai malgré le caractère non borné), et l’on se reportera à [2] pour

225
une démonstration plus complète. On peut se limiter à des fonctions régulières nulles pour
xN ≥ 1. Pour une telle fonction, on a
Z 0
′
ϕ(x , 0) = ∂N ϕ,
1

d’où Z Z Z 2 Z Z
0
ϕ(x′ , 0)2 = ∂N ϕ ≤ |∂N ϕ|2 ≤ |∇u|2 .
RN−1 RN 1 RN RN

Remarque 22.30. On notera que seul le contrôle sur la dérivée dans la direction verticale
(normale à la frontière) a été utilisé dans la démonstration précédente. La rigidité transverse
(selon RN −1 dans le cas précédent) va conditionner la régularité de la trace (dont on peut
montrer qu’elle est strictement plus régulière que L2 ).

Definition 22.31. (Espace H 1/2 (Γ))

On note H 1/2 (Γ) ⊂ L2 (Γ) l’image de l’application γ0 : H 1 (Ω) 7−→ L2 (Γ) définie ci-dessus.
C’est un espace de Banach pour la norme

kgkH 1/2 (Γ) = inf kvkH 1 (Ω) .

γ0 v=g

Remarque 22.32. L’espace H 1/2 peut se définir sur l’espace entier par la transformée de
Fourier (voir définition ??), puis par cartes locales sur une variété régulière. Il est essentiel
de garder à l’esprit que l’inclusion de H 1/2 est stricte. En particulier, l’appartenance à H 1/2
exclut les discontinuités franches (voir remarque 22.32, page 226).

Proposition 22.33. L’espace H01 (Ω) est constitué des fonctions de H 1 (Ω) dont la trace sur
∂Ω est nulle.

Démonstration: Voir Raviart [6].

Definition 22.34. (Dérivée normale)

Soit Ω un domaine de frontière Lipschitzienne. On note n le vecteur normal à Γ dirigé vers
l’extérieur de Ω. Ce vecteur est défini presque partout. Pour toute fonction ϕ ∈ D(Ω), on
appelle dérivée normale de ϕ en un point de Γ la quantité
∂ϕ
= ∇ϕ · n.
∂n
Definition 22.35. Soit Ω un ouvert borné de frontière Γ lipschitzienne. On définit γ1 comme
l’application de H 2 (Ω) dans L2 (Γ) qui à u ∈ H 2 (Ω) associe ∇u · n, où la trace de chaque
composante de ∇u est définie comme précédemment. On notera
∂u
γ1 u = .
∂n

Noter que l’on n’utilise pas ici la densité de D(Ω) dans H 2 (Ω) (qui, de fait, n’est pas
exigée).

226
Proposition 22.36. (Première formule de Green)
Soit Ω un ouvert borné de frontière Γ Lipschitzienne. Pour tous u et v dans H 1 (Ω), on a
Z Z Z
v∇u = − u∇v + uvn.
Ω Ω Γ

Proposition 22.37. (Deuxième formule de Green)

Soit Ω un ouvert borné de frontière Γ lipschitzienne. Pour tout u dans H 2 (Ω) et tout v dans
H 1 (Ω), on a Z Z Z
∂u
− v△u = ∇u · ∇v − v.
Ω Ω Γ ∂n

Proposition 22.38. Soit Ω un ouvert borné de frontière Γ lipschitzienne. On suppose que Ω

se décompose de la façon suivante [
Ω= Ωi ,
i=1,...,p

où les Ωi sont des ouverts de frontière lipschitzienne, inclus dans Ω, deux à deux disjoints.
On note Γij = Ωi ∩ Ωj . Soit u une fonction définie sur Ω, dont la restriction ui à Ωi est dans
H 1 (Ωi ) pour tout i = 1, . . . , p. On suppose que pour tous i, j tels que Γij 6= ∅ les traces de ui
et uj sur Γij s’identifient. Alors u est dans H 1 (Ω).

Démonstration: On note v la fonction de L2 (Ω) qui s’identifie à ∇u sur chacun des Ωr .

Pour tout ϕ ∈ D(RN ), on a (en utilisant la proposition 22.36 sur chacun des Ωr ),
Z p Z
X
vϕ = vϕ
Ω i=1 Ωi
Xp Z XZ
= − u∇ϕ + uϕ(ni + nj ),
i=1 Ωi i,j Γij

où ni (resp. nj ) est la normale à Γij sortante au domaine Ωi (resp. Ωj ), de telle sorte que
ni + nj = 0. On a donc bien u ∈ H 1 (Ω) avec ∇u = v.

Remarque 22.39. On prendra garde au fait que (on reprend les notation du théorème précé-
dent), même si u est dans H 2 (Ωi ) pour tout i, le raccord des traces sur les interfaces ne suffit
pas pour assurer l’appartenance de u à H 2 (Ω). Cette remarque est à la base des difficultés que
l’on peut avoir à approcher une fonction sur un maillage qui ne respecte pas la géométrie.

Proposition 22.40. On se replace dans le cadre des notations de la proposition précédente.

Soit u une fonction définie sur Ω, dont la restriction ui à Ωi est dans H 2 (Ωi ) pour tout
i = 1, . . . , R. On suppose que pour tous i, j tels que Γij 6= ∅ les traces de ui et uj sur Γij
s’identifient. On suppose d’autre part le raccord des dérivées normales : ∂ui /∂n = ∂uj /∂n
sur Γij . Alors u est dans H 2 (Ω).

22.4 Injections

Théorème 22.41. Soit Ω un domaine borné de frontière Lipschitzienne. Alors, pour tout
entier m > N/2, H m (Ω) s’injecte de façon continue dans C 0 (Ω). En particulier les fonctions
de H 2 (Ω) sont continues pour les dimensions physiques N = 1, 2, ou 3.

227
On retrouve notamment le fait déjà énoncé que les fonctions de H 1 (I), où I est un inter-
valle réel, sont continues. En revanche, le théorème ne s’applique pas à H 1 (Ω) en dimension
2. Il existe effectivement des fonctions de H 1 (R2 ) qui ne sont pas continues.

On notera également qu’une fonction de H 2 (Ω) est continue sur Ω, sans hypothèse de
régularité, car tout x ∈ Ω est dans une boule incluse dans Ω. En l’absence de régularité du
bord, il est en revanche possible que l’on n’ait pas kuk∞ ≤ C kukH 2 .

Théorème 22.42. (Rellich)

Soit Ω un domaine borné de frontière Lipschitzienne. Alors l’injection de H 1 (Ω) dans L2 (Ω)
est compacte. L’injection de H01 (Ω) dans L2 (Ω) est compacte pour tout Ω borné (sans hypo-
thèse de régularité). De même, l’injection de H m+1 (Ω) dans H m (Ω) est compacte.

Démonstration: On se reportera à la section consacrée à la transformée de Fourier (voir

théorème 22.64) pour une démonstration de ce théorème. On peut également démontrer la
compacité de l’injection en utilisant le point (iii) de la caractérisation 22.15 de H 1 (Ω), et le
théorème de Riesz-Fréchet-Kolmogorov qui donne un critère suffisant de relative compacité
pour des familles de fonctions de L2 (Ω) (voir Brezis [2, Th. IV.25 & Cor. IV.26]).

Exercice 22.2. Montrer que l’injection de H 1 (Ω) dans L2 (Ω) n’est jamais compacte quand Ω
n’est pas borné.

22.5 Inégalités de Poincaré

Proposition 22.43. (Inégalité de Poincaré)

Soit Ω un domaine de RN borné dans une direction, c’est-à-dire tel que
n o
Ω ⊂ x ∈ RN , ξ · x ∈]a, b[ .

Alors il existe une constante C > 0 telle que

Z 1/2 Z 1/2
|u|2 ≤C |∇u|2 ∀u ∈ H01 (Ω).
Ω Ω

Démonstration: On note toujours u le prolongement par 0 de u sur RN tout entier. Quitte

à effectuer une translation et une rotation du système de coordonnées, on suppose que la
bande qui contient Ω se met sous la forme
n o
x = (x1 , . . . , xN ) = (x′ , xN ) ∈ RN , xN ∈]0, L[ .

On suppose dans un premier temps u régulière. Pour tout x = (x′ , xN ) ∈ Ω, on a

Z xN Z xN
u(x′ , xN ) = u(x′ , 0) + ∂N u = ∂N u,
0 0

d’où, d’aprés l’inégalité de Cauchy-Schwarz,

Z L
′ 2
u(x , xN ) ≤ L |∇u|2 .
0

228
On a donc
Z Z Z L Z L
2
u ≤ L |∇u|2
Ω RN−1 0 0
Z Z L Z
≤ L2 |∇u|2 = |∇u|2 .
RN−1 0 Ω

On conclut en utilisant la densité des fonctions régulières.

Remarque 22.44. On appelle constante de Poincaré du domaine Ω le plus petit réel CΩ tel
que l’inégalité ci-dessus est vérifiée. On a
Z
|∇u|2
1
= inf ZΩ .
CΩ2 u6=0
|u|2
Ω

On peut ainsi montrer 1/CΩ2 = λ1 , où λ1 est la plus petite valeur propre du Laplacien avec
conditions de Dirichlet, c’est-à-dire le plus petit réel tel qu’il existe u ∈ H01 (Ω) non nul
vérifiant 112
−△u = λu.
La proposition précédente assure λ1 ≥ 1/L2 , pour tout domaine Ω inclus dans une bande
d’épaisseur L.

Corollaire 22.45. Soit Ω un domaine de RN borné dans une direction. Alors la forme
bilinéaire Z
(u, v) 7−→ ∇u · ∇v
Ω

est un produit scalaire sur H01 (Ω), qui induit une norme équivalente à la norme de départ.

L’inégalité de Poincaré énoncée ci-dessus est un cas particulier d’une inégalité plus géné-
rale :

Proposition 22.46. (Inégalité de Poincaré généralisée)

Soit Ω un domaine régulier, borné, et connexe, et T une application linéaire continue de
H 1 (Ω) dans un espace de Hilbert M . On suppose que l’image par T d’une fonction constante
non nulle est elle-même non nulle. Alors il existe une constante C telle que

|u|0 ≤ C (|T u|M + |∇u|0 ) ∀u ∈ H 1 (Ω).

Démonstration: On raisonne par l’absurde. Si la propriété est fausse, alors pour tout n on
peut construire un ∈ H 1 (Ω) tel que

kun kL2 > n (|T un |M + |∇un |0 ) ∀u ∈ H 1 (Ω).

112. L’opérateur de Laplace −△, qui fait intervenir des dérivées secondes, n’est a priori défini pour des
fonctions de H 1 qu’au sens des distributions. On verra par la suite que ces dérivées secondes du minimiseur
u peuvent en fait être définies dans le cadre de ce chapitre, c’est-à-dire en tant que fonctions de L2 (Ω) (ou
tout du moins L2loc sans hypothèse sur le domaine), de telle sorte que l’on pourra écrire −△u = λu presque
partout.

229
On peut choisir un tel que kun k = 1. La suite un étant bornée dans H 1 , on peut en extraire une
sous-suite (que nous noterons toujours (un )) qui converge fortement dans L2 (Ω) (l’injection
de H 1 (Ω) dans L2 (Ω) étant compacte), vers u ∈ L2 (Ω)). Comme la suite (∇un ) tend vers
0 dans L2 , elle est de Cauchy, et par suite (un ) est de Cauchy dans H 1 . Elle converge donc
dans H 1 vers une limite, qui est nécessairement la limite u dans L2 . Comme T un tend vers
0, on a nécessairement T u = 0. D’autre part, comme (∇un ) → 0, on a ∇u = 0, et ainsi u
est constante sur Ω (voir proposition 22.13, page 220). Comme T u = 0, cette constante est
nulle, ce qui est absurde car kuk = lim kun k = 1

La démonstration ci-dessus permet d’établir directement la propriété suivante :

Corollaire 22.47. Soit Ω un domaine régulier, borné, et connexe, et V un sous-espace fermé

de H 1 (Ω) qui ne contient aucune fonction constante autre que 0. Alors il existe C > 0 tel que

|u|0 ≤ C |∇u|0 ∀u ∈ V.

Remarque 22.48. Ce corollaire s’appliquera notamment au cas où V est un espace de fonc-
tions qui s’annulent sur une partie de la frontière de mesure non nulle. Sur un tel espace,
|u|1 est une norme équivalent à la norme H 1 .

22.6 Problèmes aux limites elliptiques

Nous présentons dans cette section des résultats classiques d’existence et d’unicité de
solutions pour le problème de Poisson.

Conditions aux limites de Dirichlet.

On s’intéresse ici à des problèmes du type

(
−△u = f dans Ω
(22.1)
u = 0 sur ∂Ω,

où f est une fonction de L2 (Ω) donnée. On parlera du problème de Poisson dans le domaine
Ω.

Definition 22.49. (Solution faible)

On appellera solution faible de (22.1) une fonction de H01 (Ω) telle que
Z Z
∇u · ∇v = fv ∀v H01 (Ω). (22.2)
Ω Ω

Proposition 22.50. (Principe de Dirichlet)

On suppose Ω borné dans une direction. Soit f ∈ L2 (Ω). Alors le problème 22.1 admet une
unique solution faible : il existe un unique u ∈ H01 (Ω) solution de la formulation variation-
nelle (22.2). C’est l’unique élément de H01 (Ω) qui minimise la fonctionnelle
Z Z
1
v 7−→ |∇v|2 − f v.
2 Ω

230
Démonstration: C’est une application directe du théorème de Lax-Milgram, avec
Z Z
a(u, v) = ∇u · ∇v , hϕ , vi = f v.
Ω Ω

Noter que la forme bilinéaire a( · , · ) est bien coercive grâce à l’inégalité de Poincaré (propo-
sition 22.43, page 228).

Conditions aux limites de Neumann.

On considère maintenant des conditions au bord de type Neumann. Comme ces conditions
ne font intervenir que les dérivées, comme l’opérateur de Laplacien lui-même, le problème
de Poisson avec de telles conditions est évidemment mal posé (si l’on ajoute une fonction
constante, qui est bien dans H 1 (Ω) dès que Ω est borné, à n’importe quelle solution, on
obtient bien une autre solution). On verra à la fin de cette section que ce problème est
pourtant bien posé dans un certain espace, sous réserve que f vérifie une certaine condition.
Dans un premier temps, nous utilisons un moyen élémentaire de contourner ce problème,
qui consiste à rajouter au Laplacien un terme d’ordre 0. On s’intéressera donc au problème
suivant 
 u − △u = f dans Ω

∂u (22.3)

 = 0 sur ∂Ω,
∂n
où f est donnée.

Definition 22.51. On appellera solution classique (dans le cas où f est au moins continue)
une fonction de C 2 (Ω) qui vérifie le système ci-dessus, et solution faible une fonction de
H 1 (Ω) telle que Z Z Z
uv + ∇u · ∇v = fv ∀v H 1 (Ω). (22.4)
Ω Ω Ω

L’existence et l’unicité d’une solution faible est immédiate sans qu’il soit nécessaire de
faire des hypothèses sur le domaine, comme le précise la proposition ci-dessous. Il est en
revanche délicat de préciser en quel sens une solution faible est solution de (22.3), car la
dérivée normale n’est en général pas définie sur le bord.

Proposition 22.52. Soit f ∈ L2 (Ω). Alors le problème 22.3 admet une unique solution
faible. Cette solution faible est l’élément de H01 (Ω) qui minimise la fonctionnelle
Z Z Z
1 2 1 2
v−
7 → |v| + |∇v| − f v.
2 Ω 2 Ω

Démonstration: C’est de nouveau une application directe du théorème de Lax-Milgram

dans H = H 1 (Ω).

22.7 Régularité des solutions faibles

Nous abordons maintenant le problème de régularité des solutions faibles construites pré-
cédemment. Il s’agit notamment de déterminer si l’équation de départ est vérifiée comme

231
identité entre fonctions mesurables (auquel cas il est licite de préciser presque partout), ou
dans un sens plus faible. On considère ainsi des équations aux dérivées partielles du type

−△u = f , u − △u = f ou − ∇k · ∇u = f,
P
où △ est le Laplacien △ = ∂ 2 /∂x2i , k est un champ scalaire régulier tel que 0 < m ≤
k(x) ≤ M < +∞.
Proposition 22.53. Soit Ω un domaine de RN et u ∈ H 1 (Ω). On suppose qu’il existe
f ∈ L2 (Ω) tel que Z Z
∇u · ∇ϕ = f ϕ ∀ϕ ∈ D(Ω).
Ω Ω
Alors u est dans H2loc (Ω) et vérifie

−△u = f p.p.

Démonstration: On suppose dans un premier temps que Ω est l’espace RN tout entier.
Comme D(Ω) est alors dense dans H 1 (Ω), la formulation variationnelle est vérifiée pour
toute fonction test de H 1 (Ω), en particulier les fonctions-test particulières que nous allons
construire à partir de u. Pour h ∈ RN , on introduit
1
Dh u = (τh u − u) ,
|h|
et l’on écrit la formulation variationnelle avec v = D−h Dh u. Il vient
Z Z
1
∇u · ∇v = ∇u · (τh ∇u − 2∇u + τ−h ∇u) .
RN |h|2 RN

On peut écrire
Z Z
∇u · (−∇u + τ−h ∇u) = τh ∇u · (−τh ∇u + ∇u) ,
RN RN

d’où finalement
Z
|Dh ∇u|2 ≤ kf kL2 kD−h Dh ukL2 ≤ kf kL2 k∇Dh ukL2 = kf kL2 kDh ∇ukL2 ,
RN

d’après la proposition 22.15 ((i) ⇒ (iii)). On a donc

kDh ∇ukL2 ≤ kf kL2

pour tout h ∈ RN . On a donc kDh ∂i ukL2 uniformément borné, et donc, toujours d’après la
proposition 22.15, ∂i u ∈ H 1 (RN ) pour tout i = 1, . . . , N .

Dans le cas général on considère une fonction θ ∈ D(Ω). On a

∇(θu) · ∇ϕ = ∇u · ∇(θϕ) + ∇θ · ∇(uϕ) − 2ϕ∇u · ∇ϕ,

et ainsi la fonction θu ∈ H 1 (RN ) vérifie

Z Z Z Z Z
∇ (θu) · ∇ϕ = θf ϕ − 2 ϕ∇u · ∇θ − ϕu△θ = gϕ ∀ϕ ∈ D(Ω).
RN RN RN RN RN

avec g ∈ L2 (RN ). La fonction θu est donc dans H 2 (RN ) d’après ce qui précède. On a donc
2 (Ω).
bien u ∈ Hloc

232
Proposition 22.54. On suppose Ω borné dans une direction. Soit f un élément de L2 (Ω). La
2 (Ω)
solution faible u ∈ H01 (Ω) de (22.2)) avec conditions de Dirichlet homogènes est dans Hloc
et vérifie
−△u = f p.p.

Démonstration: C’est une application directe de la proposition 22.53.

2 à l’appartenance à H 2 (Ω) est loin d’être immédiat. Nous

Le passage de la régularité Hloc
nous bornerons ici à énoncer des résultats de régularité dans un certain nombre de situations.
Proposition 22.55. Soit Ω un domaine de classe C 2 , borné dans une direction, et de fron-
tière Γ bornée. Pour tout f dans L2 (Ω), la solution faible de −△u = f avec conditions aux
limites de Dirichlet homogènes appartient à H 2 , et il existe une constante C (qui dépend du
domaine Ω) telle que
kukH 2 ≤ C kf kL2 .

Démonstration: L’appartenance à Hloc 2 (Ω) est assurée par la proposition 22.53. On se re-

portera à Brezis [2, Th. IX.25] pour une étude détaillée de la régularité près du bord. La
démonstration, très technique, utilise des changements de variables permettant de se ramener
au cas d’une frontière hyperplane. Pour ce dernier cas, la régularité jusqu’au bord est démon-
trée selon une méthode de translation analogue à celle utilisée dans la proposition 22.53, les
translations étant effectuées parallèlement au bord considéré.

Proposition 22.56. Les conclusions du théorème ci-dessus sont valides si l’on suppose le
domaine polyédrique et convexe.
Proposition 22.57. Les conclusions du théorème ci-dessus s’appliquent à l’équation

−∇ · k∇u = f,

où k est une fonction C 1 de la variable d’espace sur Ω, minorée par une constante
Remarque 22.58. Le cas de conditions aux limites panachées (Dirichlet sur une partie du
bord, Neumann sur une autre) et très délicat. Nous admettrons que le passage d’un type de
condition à l’autre ne pose pas de problème lorsque les deux composantes de la frontière se
rencontrent à angle droit. On trouvera dans Costabel 113 une analyse détaillée de la régularité
dans ce type de situation, en fonction de l’angle du raccord entre les composantes.

Remarque 22.59. Si l’on considère le problème

u − △u = f,

avec conditions aux limites de Dirichlet, tout ce qui a été dit précédemment reste valable, sans
que l’on ait besoin de l’hypothèse que Ω soit borné dans une direction pour assurer l’existence
et l’unicité d’une solution faible.
Proposition 22.60. Soit Ω un domaine de frontière C 2 et bornée, et f un élément de L2 (Ω).
La solution de (22.4) appartient à H 2 , et sa dérivée normale est nulle sur Γ = ∂Ω.
113. M. Costabel, M. Dauge, Edge singularities for elliptic boundary value problems, Journées équations aux
dérivées partielles, 1992, pp. 1–12.
[Link]

233
22.8 Espaces de Sobolev et transformation de Fourier

On peut définir les espaces de Sobolev l’aide de la transformée de Fourier. Cette approche
est particulièrement adaptée aux problèmes posés sur l’espace tout entier, ou en géométrie
périodique, ce qui la place un peu en marge de cet ouvrage dont l’un des objectifs est pré-
cisément la prise en compte de géométries complexes en domaines bornés. Nous indiquons
néammoins ici certains éléments de cette approche, qui permet notamment de bien com-
prendre le théorème de Rellich, qui est à la base de l’analyse de la méthode des éléments
finis.
Definition 22.61. Soit u ∈ L2 (RN ). On définit sa transformée de Fourier comme la fonction
définie par Z
1
ũ(ξ) = e−iξ · x u(x) dx.
(2π)−n/2 RN
Théorème 22.62. L’application u 7−→ ũ est une isométrie de L2 (RN ) sur lui-même.

On peut définir l’espace H 1 (RN ) à l’aide de la transformée de Fourier, ce que nous pré-
sentons ici comme un thérorème si l’on prend la définition 22.10, page 219 comme référence.
Théorème 22.63. L’espace H 1 (RN ) est l’ensemble des fonctions u de L2 (RN ) telles que
1/2
1 + |ξ|2 ũ ∈ L2 (RN ).

Nous démontrons à présent le théorème de Rellich 22.42 déjà énoncé à la page 228.
Théorème 22.64. Soit Ω un domaine borné de frontière lipschitzienne. L’injection de H 1 (Ω)
dans L2 (Ω) est compacte.

Démonstration: On considère une suite (un ) bornée dans H 1 (Ω). On note P l’opérateur de
prolongement de la proposition 22.27, page 225. On choisit P de telle sorte que P v soit nul à
l’extérieur d’un borné K, pour tout v ∈ H 1 (Ω). On conserve la notation (un ) pour désigner
l’image par P de la suite initiale. D’après le théorème 20.32, page 204, on peut en extraire une
sous-suite qui converge faiblement dans H 1 (RN ). On notera toujours (un ) cette sous-suite.
Quitte à translater la suite, on suppose que la limite faible est 0. On écrit à présent, pour
tout M ≥ 0
Z Z Z Z
1
kun k2L2 = kũn k2L2 = |ũn |2 + |ũn |2 ≤ |ũn |2 + 1 + |ξ|2 |ũn |2 .
|ξ|<M |ξ|>M |ξ|<M 1 + M2 |ξ|>M

Le second terme tend vers 0 quand M tend vers +∞. Il suffit donc de montrer que, pour M
fixé, le premier terme tend vers 0. On a, pour tout ξ,
Z Z
1 −iξ · x 1
ũn (ξ) = e un (x) dx = χK e−iξ · x un (x) dx,
(2π)−n/2 RN (2π)−n/2 RN

où χK est la fonction caractéristique de K (de telle sorte que χK e−iξ · x est dans L2 (R)),
Cette quantité tend donc vers 0 quand n tend vers +∞ d’après la convergence faible de un
vers 0 dans L2 . Comme par ailleurs |ũn (ξ)|2 est majoré par une constante, le théorème de
convergence dominée assure donc la convergence de |ũn (ξ)|2 vers 0 dans L1 (B(0, M )). On a
donc bien convergence vers 0 de kun kL2 .

234
22.9 Approche Hdiv

Nous décrivons ici une approche qui permet de donner un sens aux équations de type
problème de Poisson comme identité entre fonctions de L2 sans passer par la régularité H 2 .

Proposition 22.65. Soit Ω un domaine quelconque, et v ∈ L2 (Ω)N . On a l’équivalence

suivante :
Z Z Z
2
∃C , v · ∇ϕ ≤ C kϕkL2 (Ω) ∀ϕ ∈ D(Ω) ⇐⇒ ∃q ∈ L (Ω) tel que v · ∇ϕ = − qϕ.
Ω Ω Ω

On dit alors que v admet une divergence faible dans L2 (Ω), et l’on écrit ∇ · v = q.

Démonstration: La condition suffisante est conséquence immédiate de l’inégalité de Cauchy-

Schwarz. Pour la condition nécessaire, on considère la forme linéaire
Z
ϕ 7−→ v · ∇ϕ
Ω

définie sur D(Ω). Comme elle est continue pour la norme L2 (Ω) d’après l’hypothèse, cette
forme se prolonge par densité en une forme linéaire continue sur L2 (Ω). Comme il s’agit d’un
espace de Hilbert, cette forme admet un représentant q ∈ L2 (Ω).

Definition 22.66. (Espace Hdiv )

On notera Hdiv l’ensemble des champs de vecteurs u ∈ L2 (Ω)N qui admettent une divergence
faible L2 au sens de la proposition précédente.

Proposition 22.67. L’espace Hdiv est un espace de Hilbert pour le produit scalaire
Z Z
(u, v)Hdiv = u·v + (∇ · u) (∇ · v) .
Ω Ω

Démonstration: On considère une suite de Cauchy (un ) dans Hdiv . On a un → u ∈ L2 , et

∇ · un → q ∈ L2 . On a
Z Z Z Z
u · ∇ϕ = lim un · ∇ϕ = − lim ϕ ∇ · un = − ϕ q,
Ω Ω Ω Ω

d’où l’on déduit que u est dans Hdiv , avec ∇ · u = q. On vérifie immédiatement la convergence
de un vers u pour la norme de Hdiv .

Remarque 22.68. On peut identifier la trace normale d’un champ de Hdiv à un élément du
dual topologique de H 1/2 . On considère Ω un ouvert de frontière Γ Lipschitzienne et bornée.
L’application qui à u ∈ D(Ω) associe la restriction à Γ de la quantité ∇u · n peut être identifiée
à un élément du dual de H 1 (Ω) grâce au fait que, pour toute fonction ϕ ∈ D(Ω),
Z Z Z
ϕu · n = ϕ∇ · u + u · ∇ϕ.
Γ Ω Ω
R
L’application ϕ 7→ Γ ϕu · n se prolonge donc par continuité en une forme linéaire continue
sur H 1 (Ω), que nous noterons ψu . Vérifions que < ψu , v > ne dépend que de la valeur de
v sur le bord. Il suffit pour cela de vérifier que H01 est dans le noyau de Ψu . Considérons

235
donc v ∈ H01 (Ω). D’après la proposition 22.33, v s’écrit comme limite de fonctions vn dans
D(Ω). On note ωn le support de vn . En admettant que la propriété de densité 22.18, page 222,
s’étend à Hdiv c’est-à-dire qu’il existe un ∈ D(Ω)N tel que

kun − ukL2 (Ω) → 0 , k∇ · un − ∇ · ukL2 (ωn ) → 0,

on obtient hΨu , vi = 0. La forme linéaire s’annule donc sur H01 , et par suite elle peut être
vue comme une forme linéaire sur l’espace quotient H 1 /H01 que nous avons défini comme
H̃ 1/2 . Comme H̃ 1/2 s’identifie à H 1/2 dans le cas d’une frontière Lipschitz (par l’isométrie
ṽ ∈ H̃ 1/2 7→ γv), on a bien donné un sens à u · n sur Γ en tant qu’élement du dual de H 1/2 (Γ).
On écrira ainsi
u · n|Γ ∈ H −1/2 (Γ),
en prenant bien garde au fait qu’il s’agit d’une identification faite selon le procédé ci-dessus.
Il est en particulier illicite d’écrire “presque partout” à côté d’une égalité identifiant deux
élements de cet espace.

Considérons maintenant la formulation variationnelle

Z Z
∇u · ∇v = fv ∀v ∈ D(Ω).
Ω Ω

Cela implique que ∇v possède une divergence faible L2 . Si l’on décide de désigner par △
l’opérateur ∇ · ∇, à valeurs dans L2 (Ω), défini sur l’ensemble des champs de H 1 (Ω) dont le
gradient admet une divergence L2 , alors on peut écrire

−△u = f p.p.

D’après la remarque qui précède, on peut aussi donner un sens à la trace normale du gradient
∂u/∂n, non pas en tant que fonction, mais en temps que forme linéaire sur l’espace H 1/2 (Γ)
des traces des fonctions de H 1 .

22.10 Exercices

Exercice 22.3. On définit Ω et ω comme les boules de Rd , centrées en 0, de rayons respectifs

R et r < R.

On définit la capacité de ω (sous-entendu : vis-à-vis de Ω), comme

Z
Cω = inf |∇v|2 , v ∈ H01 (Ω) , v = 1 p.p. sur ω
Ω

1) Montrer que l’infimum est atteint en un point unique, et que la fonction u qui réalise le
minimum est solution (sur Ω \ ω) du problème aux limites

−∆u = 0 dans Ω \ ω,
u = 0 sur ∂Ω,
u = 1 sur ∂ω.

236
2) Montrer que la fonction qui réalise l’infimum ne dépend que du rayon ρ (distance à l’ori-
gine).

3) On rappelle que le Laplacien d’une fonction radiale en dimension d’espace d ≥ 1 s’écrit

∂ 2 v (d − 1) ∂v
∆v(ρ) = + .
∂ρ2 ρ ∂ρ

Expliciter le minimiseur (solution du problème de Dirichlet ci-dessus) pour les dimensions

d’espace d = 1, 2 et 3, et en déduire dans chacun de ces cas la valeur de la capacité comme
fonction de R et r.

4) Dans quel sens peut on dire qu’un point est de capacité nulle pour les dimensions 2 et 3 ?

5) (Cette dernière question vise à préciser le fait qu’il est impossible de donner un sens à la
valeur ponctuelle d’une fonction de H 1 (Rd ) dès que d ≥ 2.)
Montrer que, pour d = 2 et d = 3, l’ensemble des fonctions C ∞ à support compact dans Rd
privé d’un point est dense dans H 1 (Rd ).

237
23 Optimisation sous contrainte

23.1 Conditions nécessaires d’optimalité

Definition 23.1. (Différentielle d’une fonctionnelle)

Soit E un espace vectoriel normé, et J une fonctionnelle continue d’un ouvert U de E dans
R. On dit que J est différentiable en x ∈ U s’il existe DJx ∈ E ′ telle que

J(x + h) = J(x) + hDJx , hi + o(h).

On appelle DJx la différentielle de J en x.

Definition 23.2. (Gradient d’une fonctionnelle)
Soit H un espace de Hilbert, et J une fonctionnelle continue d’un ouvert U de H dans R,
différentiable en u ∈ U . On appelle gradient de J en u le vecteur de H qui s’identifie à DFu
par le théorème de Riez-Fréchet. Ce gradient, noté ∇J(u), est défini par

J(u + h) = J(u) + (∇J, h) + o(h).

Proposition 23.3. Soit U un ouvert d’un espace de Hilbert H, et J une fonctionnelle diffé-
rentiable. Si u est un minimum local de J sur U , alors ∇J(u) = 0.

Démonstration. Pour tout h ∈ H, u + εh est dans U pour ε suffisamment petit, on a donc

J(u + εh) ≥ J(u),

pour ε petit, d’où ∇J(u) · h = 0.

Proposition 23.4. Soit U un ouvert convexe d’un espace de Hilbert, et J une fonctionnelle
différentiable et convexe. Si ∇J(u) = 0, alors u est un minimum global de J sur U . Si la
fonctionnelle est strictement convexe, ce minimiseur est unique.

Démonstration. Pour tout v ∈ U , on a

J(v) ≥ J(u) + (∇J(u), v − u) = J(u).

L’essentiel de ce qui suit est consacré à la notion de multiplicateur de Lagrange, variable

auxilliaire permettant de prendre en compte une contrainte dans un problème de minimi-
sation. Le cœur de l’approche repose sur l’utilisation de variations autour d’un minimiseur.
Dans le cas sans contrainte vu prédédemment, toutes les directions étaient permises, ce qui a
permis de conclure à l’annulation de la différentielle. Dans le cas contraint, seules les variations
qui ne font pas sortir de l’ensemble sont autorisées.
Proposition 23.5. Soit J une fonctionnelle C 1 sur un ouvert U de V = Rd . On suppose
que J admet un minimum local sur U ∩ K en u, avec

K = u0 + ker B , B ∈ MN d (R).

Il existe alors λ ∈ RN tel que

∇J(u) + B ⋆ λ = 0.

238
Démonstration. Pour tout v ∈ ker B de norme ≤ 1, tout ε assez petit, on a

J(u + εv) ≥ J(u).

Pour v fixé, on a donc

J(u) + ε∇J(u) · v + o(ε) ≥ J(u),
d’où l’on déduit que ∇J(u) · v = 0. On a donc ∇J(u) ∈ K ⊥ = (ker B)⊥ = im B ⋆ , d’où le
résultat

Remarque 23.6. La proposition précédente s’applique immédiatement au cas où V est un

espace de Hilbert, qui peut être de dimension infinie, il suffit de remplacer la matrice B
exprimant les contraintes (qui se trouverait avoir une infinité de colonnes) par une application
qui envoie V dans RN :
B : v 7−→ (hϕi , vi)i ,
où les ϕi sont éléments de V ′ . L’image de B étant fermée, on a (ker B)⊥ = im B ⋆ , d’où
l’existence du vecteur λ de multiplicateurs de Lagrange.

Si maintenant B, envoie V linéairement et continûment dans Λ, espace de Hilbert de

dimension infinie, alors on a seulement (voir proposition 19.21, page 194)

(ker B)⊥ = im B ⋆ .

Si l’image de B est fermée (ce qui est équivalent au fait que l’image de B ⋆ soit fermée d’après
la proposition 19.22, page 194), on aura bien existence d’un λ ∈ Λ comme dans la proposition
ci-dessus (on identifie Λ à son dual) :

Proposition 23.7. Soit J une fonctionnelle C 1 sur un ouvert U d’un espace de Hilbert V .
On considère
K = u0 + ker B,
avec B ∈ L (V, Λ) à image fermée. Si u est un minimiseur local de J sur U ∩ K, alors il
existe λ ∈ Λ tel que

∇J(u) + B ⋆ λ = 0
Bu = Bu0 .

Remarque 23.8. Dans le cas où l’image de B n’est pas fermée, il est possible qu’un tel λ
n’existe pas. On pourra en revanche toujours trouver une suite (λε ) telle que

∇J(u) + B ⋆ λε = o(1).

23.2 Contraintes non linéaires d’égalité

On s’intéresse à la minimisation d’une fonctionnelle J sur un ouvert U de Rd , sur un

sous-ensemble défini par N contraintes :
n o
K= v ∈ Rd , ϕi (v) = 0 , i = 1, . . . , N .

239
Proposition 23.9. (Muliplicateurs de Lagrange, contraintes d’égalité)
Soit J : U ⊂ Rd −→ R une fonctionnelle C 1 sur l’ouvert U . Soit u un point de U ∩ K
en lequel J réalise un minimum local de J sur U ∩ K. On suppose que les gradients des
fonctionnelles ϕi forment une famille libre. Il existe alors λ1 , . . ., λN , tels que
N
X
∇J(u) + λi ∇ϕi (u) = 0.
i=1

Démonstration. Le point clé consiste à montrer que tout vecteur h orthogonal à tous les
∇ϕi (u), est une direction admissible en u, c’est à dire qu’il existe η(t) défini dans un voisinage
de 0, avec η(0) = 0, tel que u + η(t) ∈ K, et que la tangente en 0 soit h, c’est à dire que
η̇(0) = h. Si cette propriété est vraie, alors on peut écrire pour tout h orthogonal aux ∇ϕi (u),
et η une trajectoire associée selon les considérations précédentes,

J(u + η(t)) ≥ J(u)

pour tout t dans un voisinage de 0, d’où

∇J · η̇(0) = ∇J · h = 0.

Le gradient de J est ainsi orthogonal à l’orthogonal de vect(∇ϕi (u))i , ce qui termine la preuve.

Montrons maintenant que tout vecteur h orthogonal à tous les ∇ϕi (u), est une direction
admissible en u.

On note gi = ∇ϕi (u), et

V = vect(g1 , . . . , gN )⊥ .
Comme les vecteurs gi forment une famille libre, V est de dimension d − N . On considère une
base (h1 , . . . , hd−N ) de V , on note

x = (x1 , . . . , xd−N ) ∈ Rd−N , y = (y1 , . . . , yN ) ∈ RN

et l’on définit γ l’application

γ : (x, y) ∈ Rd 7−→ γ(x, y) = u + x1 h1 + . . . xd−N hd−N + y1 g1 + . . . yN gN .

On notera γk l’application qui ne dépend que de xk et des yi , les autres xj étant fixés à 0.
Pour construire une courbe dans K qui passe par u, dont la tangente en u est hk , on considère
l’application
(xk , y1 , y2 , . . . , yN ) 7−→ ϕ ◦ γk (xk , y1 , . . . , yN ),
où l’on note ϕ(v) le vecteur de dimension N dont les composantes sont les ϕi (v). Comme
u ∈ K, l’application ϕ ◦ γk est nulle en 0. Montrons que l’on peut utiliser le théorème
des fonctions implicites pour construire une courbe (y1 , . . . , yN ) = y = y(xk ) au voisinage de
(xk , y) = 0 qui annule ϕ◦γk , ce qui assurera l’appartenance de γk (xk , y) à K . La différentielle
de la iième composante de ϕ ◦ γk par rapport à yj est

∂(ϕi ◦ γk )
= ∇ϕi (xk , y) · gj = ∇ϕi (xk , y) · ∇ϕj (0, 0).
∂yj

240
Notons G la matrice dont les colonnes sont les gradients des ϕj en γk (0, 0) = u. Le gradient
de l’application ϕ ◦ γk est ainsi GT G, qui est inversible puisque les gi forment une famille
libre.

On a par ailleurs
∂(ϕi ◦ γk ) ∂(ϕ ◦ γk )
= ∇ϕi (xk , y) · hk , d’où |(0,0) = GT hk .
∂xk ∂xk

On peut donc construire une courbe y = y(t) dans un voisinage de 0 telle que

ϕ ◦ γk (t, y(t)) = 0

c’est à dire que la courbe est dans K. La dérivée de y en 0 s’écrit, d’après le théorème des
fonctions implicites,
∂(ϕ ◦ γk ) T −1 T
ẏ(0) = − (∇(ϕ ◦ γk ))−1 = G G G hk
∂xk
qui est nul car hk est orthogonal à tous les gi . On a donc
d
γk (t, y(y))|t=0 = hk + ẏ1 (0)g1 + · · · + ẏN (0)gN = hk ,
dt
ce qui termine la démonstration.

Remarque 23.10. La condition d’indépendance des gradients est essentielle dans la proposi-
tion précédente. On pourra par exemple considérer, dans R2 , ϕ1 (x, y) = y et ϕ1 (x, y) = y−x2 .
L’ensemble K est réduit au point (0, 0), et n’importe quelle fonctionnelle dont le gradient en
(0, 0) n’est pas colinéaire à (0, 1) invalide la proposition.

23.3 Contraintes unilatérales (ou d’inégalité)

H désigne dans la suite un espace de Hilbert.

Definition 23.11. (Cône)

On appelle cône de sommet s ∈ H une partie C de H telle que

u − s ∈ C =⇒ λ(u − s) ∈ C ∀λ > 0,

Lorsque le sommet est l’origine 0, on omettra de le préciser. Un cône convexe fermé C (de
sommet 0), est donc un ensemble convexe fermé tel que R+ C ⊂ C.

Definition 23.12. (Polaire d’un ensemble)

Soit K une partie de H, on définit le polaire de K comme

K ◦ = {v ∈ H , (v, u) ≤ 0 ∀u ∈ K} .

Noter que dans le cas où K est un sous-espace vectoriel de H, l’ensemble K ◦ est simple-
ment l’orthogonal de K. Cette définition est donc une généralisation de la définition 19.20,
page 194.

241
Proposition 23.13. Pour tout K ⊂ H, K ◦ est un cône convexe fermé.

Definition 23.14. (Enveloppe conique)

Soit K ⊂ H. On appelle enveloppe convexe conique (on dira simplement enveloppe conique)
de K le plus petit cône convexe qui contient K. On la note co(K) C’est l’intersection des
cônes convexes qui contiennent K. On appelle enveloppe conique fermée le plus petit cône
convexe fermé qui contient K. On notera cet ensemble co(K).

Proposition 23.15. Soit K ⊂ H une partie de H. On a

K ◦ = (co(K))◦ = (co(K))◦ .

Proposition 23.16. Soit K ∈ H une partie quelconque de H, K ◦ son polaire, et K ◦◦ =

(K ◦ )◦ son bipolaire. Alors K ◦◦ est l’enveloppe convexe fermée conique de K. En particulier,
si K est un cône convexe fermé (de sommet 0), alors K ◦◦ = K.

Démonstration. L’inclusion K ⊂ K ◦◦ est immédiate : tout v dans K a un produit scalaire

négatif contre tout élément de K ◦ , il est donc dans K ◦◦ . Comme K ◦◦ est un cône convexe
fermé, l’inclusion demeure par passage à l’enveloppe convexe fermé conique.

On appelle C l’enveloppe convexe fermée conique de K. Si l’inclusion est stricte, il existe

z ∈ K ◦◦ qui n’appartient pas à C. On peut alors, d’après 114 le théorème de Hahn-Banach 19.2,
page 191, séparer le convexe fermé C de {z} : il existe h tel que

(h, v) ≤ α < (h, z) ∀v ∈ C.

Comme v décrit un cône de sommet 0, (h, v) est forcément négatif ou nul pour tout v (s’il
prenait une valeur strictement positive, le sup serait +∞, ce qui est exclut par la majoration
ci-dessus). On a donc h ∈ C ◦ . Par ailleurs le maximum de (h, v) est 0, et donc α ≥ 0, d’où
(h, z) > 0 ce qui est absurde car h ∈ C ◦ et z ∈ C ◦◦ .

On s’intéressera en particulier à des ensembles de la forme

( n
)
X
C= λi gi , λi ≥ 0 ∀i = 1, . . . , n , (23.1)
i=1

où les gi sont des points d’un espace de Hilbert H. L’ensemble défini précédemment est
de façon évidente un cône convexe. S’il est immédiat que l’espace vectoriel engendré par
une famille finie de vecteurs est fermée, il est un peu plus délicat de démontrer une telle
propriété de fermeture pour le cône (convexe) engendré par une telle famille. C’est l’objet de
la proposition suivante :

Proposition 23.17. Le cône convexe C défini par (23.1) est fermé.

114. Pour le lecteur qui s’inquièterait légitimement du fait que l’on doive utiliser l’axiome du choix (au cœur
du “grand” théorème de Hahn-Banach) pour donner un sens par exemple à la pression ressentie par les passagers
du métro aux heures de pointe, précisons que nous n’avons en fait besoin ici que d’un propriété de séparation
d’un convexe fermé et d’un point, dans un espace de Hilbert. Une telle propriété se montre immédiatement à
l’aide de la projection du point sur le convexe fermé.

242
Démonstration. Supposons dans un premier temps que les gi forment une famille libre. On
se place dans l’espace vectoriel W engendré par les gi , et l’on note G l’application (linéaire
continue) qui à un vecteur de cet espace associe le vecteur des coefficients dans la base des gi .
P
On considère une suite v k = λki gi qui converge vers v ∈ W . Alors Gv k converge vers Gv,
i.e. le vecteur λk converge vers un vecteur λ de R, dont toutes les composantes sont positives
ou nulle par continuité, on a donc bien v ∈ C.

Si maintenant la famille est liée, on raisonne par récurrence sur le nombre de vecteurs
gi . Supposons que tout cône convexe engendré par n vecteurs est fermé, et considérons une
famille de n + 1 vecteurs. Il existe µ1 , . . ., µn+1 , non tous nuls, tels que
n+1
X
µi gi = 0. (23.2)
i=1

On considère une suite dans K qui converge vers v ∈ H :

n+1
X
λki gi −→ v.
i=1

Si l’une des suites (λki )k est bornée, par exemple (λk1 )k , on peut en extraire une sous-suite qui
converge vers λ1 ∈ R+ , et par suite
n+1
X n+1
X
v = lim λki gi = λ1 g1 + lim λki gi .
i=1 i=2

D’après l’hypothèse de récurrence, la limite ci-dessus est dans le cône convexe engendré par
les (gi )2≤i≤n+1 , et par suite v est dans le cône convexe engendré par les (gi )1≤i≤n+1 . Si l’une
des suites est bornée, on montre ainsi que la limite est dans K. Il reste a étudier le cas où
toutes les suites sont non bornées. Quitte à extraire une sous-suite, on peut supposer que
toutes ces suites (de termes positifs ou nuls) tendent vers +∞.

On reprend maintenant la combinaison non triviale (23.2), en supposant (quitte à prendre

la combinaison opposée), que l’un des coefficients est strictement négatif. On considère alors,
pour tout k, le plus grand β k > 0 tel que λki + β k µi ≥ 0 pour tout 1 ≤ i ≤ n + 1. L’inégalité
est en fait une égalité pour au moins l’un des indices. Au moins l’un des indices i0 réalise
l’égalité une infinité de fois, on extrait la sous-suite correspondante (sans changer les indices
pour alléger les notations). La limite v s’écrit donc comme
X
v = lim (λki + β k µi )gi
i6=i0

qui est dans le cône convexe engendré par les n vecteurs (gi )i6=i0 (d’après l’hypothèse de
récurrence), donc dans C.

On déduit de ce caractère fermé une propriété essentielle

Proposition 23.18. (Lemme de Farkas)

Soient (gi )I une famille finie de vecteurs d’un espace de Hilbert H, et

K = {h ∈ H , gi · h ≤ 0 ∀i ∈ I.}

243
L’ensemble des vecteurs qui ont un produit scalaire négatif avec tous les éléments de K est
( )
X
◦
K = λi gi , λi ≥ 0 ∀i .
i∈I

Démonstration. L’ensemble K est de façon évidente le cône polaire de

( )
X
C= λi gi , λi ≥ 0 ∀i ,
i∈I

qui, comme cône convexe fermé (d’après la proposition 23.17), s’identifie à son bipolaire
(proposition 23.16). On a donc
K ◦ = C ◦◦ = C.

Remarque 23.19. On peut voir ce lemme de Farkas comme une version unilatérale de la
proposition 19.3, page 191, qui est elle-même une généralisation de la propriété (ker B)⊥ =
ImB ⋆ pour les matrices. Cette proposition assure que si un vecteur g est orthogonal à tout
vecteur h lui-même orthogonal à des vecteurs g1 , . . ., gn , alors g est combinaison linéaire
des gi . Le présent lemme de Farkas est en fait une stricte généralisation (dans le contexte
Hilbertien) de cette proposition, puisqu’il suffit de dédoubler la famille des gi (en rajoutant
−gi ) pour que C soit en fait le sous-espace orthogonal à vect(gi ).
Exercice 23.1. Énoncer et démontrer une version non hilbertienne du lemme de Farkas. On
pourra considérer un e.v.n. E, g1 , . . ., gn des éléments de E, et définir K comme l’ensemble
des f ∈ E ′ négatives contre tout gi .

Contraintes d’inégalité.

On s’intéresse ici à la minimisation de fonctionnelles sur des ensembles du type

K = { v ∈ H , ϕi (v) ≤ 0 , i = 1, . . . , N } (23.3)
Definition 23.20. (Contraintes actives)
On dit que la contrainte i est active en u ∈ H dès que ϕ(u) = 0. On note Iu l’ensemble des i
tels que la contrainte i est active en u.
Definition 23.21. (Qualification des contraintes)
Soit u ∈ H, et Iu l’ensemble des contraintes actives en u. On dit que les contraintes [ϕi ≤ 0]
sont qualifiées en u ∈ H s’il existe un vecteur h ∈ H tel que
∇ϕi (u) · h < 0
ou simplement ∇ϕi (u) · h ≤ 0 si ϕi est affine, pour tout i ∈ Iu .
Proposition 23.22. Soit J une fonctionnelle C 1 sur H, et u un minimiseur local de J sur
K (défini par (23.3)). On suppose que les contraintes sont qualifiées en u. Il existe alors λ1 ,
λ2 , . . ., λN ≥ 0 tels que
N
X
∇J(u) + λi ∇ϕi = 0 ,
i=1
avec ϕ(u) · λ = 0 (ce qui implique que λi = 0 dès que la contrainte i n’est pas saturée).

244
Démonstration. Soit h vérifiant ∇ϕi (u) · h < 0 pour toute contrainte i active en u (avec
éventuellement égalité pour une contrainte affine). Pour t > 0 suffisamment petit, on a u+th ∈
K, et donc
J(u + th) ≥ J(u) ∀t ∈ [0, t⋆ [,
d’où
J(u) + t∇J(u) · h + o(t) ≥ ∇J(u),
et donc nécessairement
∇J(u) · h ≥ 0.
Pour tout h tel que l’on ait simplement l’inégalité au sens large ∇ϕi (u) · h ≤ 0, on a la même
propriété. En effet, considérons un h⋆ pour lequel on a les inégalités strictes, on préserve les
inégalités strictes pour (1 − ε)h + εh⋆ , d’où

∇J(u) · ((1 − ε)h + εh⋆ ) ≥ 0,

et donc ∇J(u) · h ≥ 0 par passage à la limite ε → 0.

Le vecteur −∇J est donc dans C ◦◦ , polaire de

C ◦ = {h ∈ H , ∇ϕi · h ≤ 0}

qui s’identifie à  
X 
C= λi ∇ϕi (u) , λi ≥ 0
 
i∈Iu

d’après le lemme de Farkas (proposition 23.18). Il existe donc des λi positifs ou nuls tels que
X
∇J(u) + λi ∇ϕi (u) = 0.
i∈Iu

On obtient une somme sur tous les i en complétant par des multiplicateurs de Lagrange nuls
sur les contraintes non actives.

23.4 Point-selle, théorème de Kuhn et Tucker

Lemme 23.23. Soient V et Λ deux ensembles, et L( · , · ) une application de V × Λ dans R.

On définit

G(q) = inf L(v, q) ∈ [−∞, +∞[ , F (v) = sup L(v, q) ∈] − ∞, +∞]. (23.4)
v∈V q∈Λ

On a alors
G(q) ≤ F (v) ∀q ∈ Λ , v ∈ V.

Démonstration. On écrit simplement, pour tout q ∈ Λ, tout v ∈ V ,

G(q) ≤ L(v, q) ≤ F (v).

245
Definition 23.24. Dans le contexte, et avec les notations, du lemme précédent, on appellera

- problème primal le problème de minimisation de F sur V , et

- problème dual le problème de maximisation de G sur Λ.

Definition 23.25. (Point-selle)

Soient V et Λ deux ensembles, et L( · , · ) une application de V × Λ dans R. On dit que (u, p)
est un point selle de L (sur V × Λ) si

L(u, q) ≤ L(u, p) ≤ L(v, p) ∀q ∈ Λ , v ∈ V.

Proposition 23.26. Soient V et Λ deux ensembles, L( · , · ) une application de V × Λ dans

R, et G et F définies par (23.4). Les deux assertions suivantes sont équivalentes :

(i) L( · , · ) admet un point-selle (u, p) (Def. 23.25)

(ii) Le sup de G est atteint en un point p ∈ Λ, l’inf de F est atteint en un point u ∈ V , et
ces deux quantités sont égales.

Démonstration. (i) =⇒ (ii) On note m = L(u, p) la valeur de L au point-selle. On a F (u) ≥

L(u, q) pour tout q, en particulier F (u) ≥ L(u, p) = m. Par ailleurs F (u) = supq L(u, q) ≤
L(u, p) = m. Donc F (u) = m. On a maintenant F (v) ≥ L(v, q) pour tout q, en particulier
F (v) ≥ L(v, p) ≥ L(u, p) = m d’après la seconde inégalité du point-selle. L’infimum de F est
donc bien atteint, en u, avec F (u) = m. On montre de façon symétrique que le supremum de
G est atteint, en p, avec G(p) = m.

(ii) =⇒ (i) On suppose maintenant

sup G = G(p) = m = F (u) = inf F.

On a m = G(p) ≤ L(u, p) ≤ F (u) = m, d’où L(u, p) = m. On a par ailleurs, pour tout q ∈ Λ,

L(u, q) ≤ F (u) = m, et pour tout v ∈ V , L(v, p) ≥ G(p) = m.

Le lien entre les problèmes de minimisation sous contraintes et la notion de point-selle

passe par la définition d’une fonctionnelle appelée Lagrangien :

Definition 23.27. (Lagrangien)

Soit J une fonctionnelle d’un ensemble X dans R, et K un ensemble défini par Nu contraintes
d’inégalité et Ne contraintes d’égalité :

K = {v ∈ X , ϕi (v) ≤ 0 , ψj (v) = 0 ∀i , j , 1 ≤ i ≤ Nu , 1 ≤ j ≤ Ne }

Le Lagrangien associé au problème de minimisation de J sur K est défini par

Nu
X Ne
X
(u, p, q) ∈ X × RN
+ ×R
u Ne
7−→ L(u, p, q) = J(u) + pi ϕi (u) + qj ψj (u). (23.5)
i=1 j=1

246
Conformément à la définition 23.25, on dira que (u, p, q) ∈ X × RN
+ ×R
u Ne est point-selle

du Lagrangien défini par (23.5) si

L(u, p̃, q̃) ≤ L(u, p, q) ≤ L(ũ, p, q) ∀p̃ ∈ RN

+ , q̃ ∈ R
u Ne
, ũ ∈ X.

Proposition 23.28. On considère une fonctionnelle d’un ensemble X dans R, et l’on suppose
que le Lagrangien associé au problème de minimisation de J sur

K = {v ∈ X , ϕi (v) ≤ 0 , ψj (v) = 0 ∀i , j , 1 ≤ i ≤ Nu , 1 ≤ j ≤ Ne }

admet un point-selle (u, p, q) ∈ X × RN Ne

+ × R , c’est à dire que
u

Nu
X Ne
X Nu
X Ne
X Ne
X Ne
X
J(u)+ p̃i ϕi (u)+ q̃j ψj (u) ≤ J(u)+ pi ϕi (u)+ qj ψj (u) ≤ J(ũ)+ pi ϕi (ũ)+ qj ψj (ũ)
i=1 j=1 i=1 j=1 i=1 j=1

∀p̃ ∈ RN
+ , q̃ ∈ R
u Ne
, ũ ∈ X.
Alors u minimise J sur K, et l’on a pi ϕi (u) = 0 pour tout i.

Si X est un ouvert d’un espace de Hilbert, et que les fonctions J, ϕ1 , . . ., ψNe sont
dérivables, alors on a de plus
Nu
X Ne
X
∇J(u) + pi ∇ϕi (u) + qj ∇ψj (u) = 0.
i=1 j=1

P
Démonstration. D’après la première inégalité du point-selle, la quantité q̃j ψj (u) est bornée
sur RNe , on a donc nécessairement ψj (u) = 0 pour tout j. De la même manière, la quantité
P
p̃i ϕi (u) est bornée sur RN+ , on a donc nécessairement ϕi (u) ≤ 0 pour tout i. On montre
u

ainsi u ∈ K. On a par ailleurs (en utilisant encore cette première inégalité avec p̃ = 0 et
P
q̃j = qj ) 0 ≤ pi ϕi (u). Comme il s’agit d’une somme de termes négatifs ou nuls, tous les
termes sont nuls : pi ϕi (u) = 0, et ainsi pi = 0 dès que ϕi (u) < 0 (la contrainte n’est pas
activée). On utilise maintenant la seconde inégalité :
Nu
X Ne
X Nu
X Ne
X
J(u) = J(u) + pi ϕi (u) + qj ψj (u) ≤ J(ũ) + pi ϕi (ũ) + qj ψj (ũ)
i=1 j=1 i=1 j=1

qui est en particulier inférieur à J(ũ) pour tout ũ ∈ K.

Si X est un ouvert d’un espace de Hilbert et si les fonctions impliquées dans le problème
(fonctionnelle à minimiser et fonctions définissant les contraintes) sont régulières, alors la
fonctionnelle
Nu
X Ne
X
v 7−→ ∇J(v) + pi ∇ϕi (v) + qj ∇ψj (v)
i=1 j=1

est régulière, et le fait que u la minimise implique que son gradient soit nul en u (proposi-
tion 23.3), ce qui conclut la démonstration.

247
Théorème 23.29. (Kuhn et Tucker)
On considère un ouvert convexe U de Rd , J convexe différentiable sur U , et l’ensemble
admissible
K = {v , ϕi (u) ≤ 0 , 1 ≤ i ≤ N } .
On suppose les ϕi différentiables et convexes sur U .

On suppose de plus qu’il existe (u, p) ∈ (U ∩ K) × RN

+ tel que

N
X
u ∈ U ∩ K , p · ϕ(u) = 0 , ∇J(u) + pi ∇ϕi (u) = 0. (23.6)
i=1

Le couple (u, p) est alors point-selle du Lagrangien

L(v, q) = J(v) + q · ϕ(v)
sur U × RN
+ et u minimise ainsi J sur U ∩ K.

Démonstration. De la dernière condition de (23.6) on déduit que u minimise la fonctionnelle

(convexe)
v 7−→ J(v) + p · ϕ(v),
sur le convexe U (voir proposition 23.4). Comme cette fonctionnelle est convexe, on en déduit
la seconde inégalité du point-selle. On a par ailleurs, comme les ϕi (u) sont négatifs,
J(u) + q · ϕ(u) ≤ J(u)
pour tout q ∈ RN + . Mais on a aussi J(u) = J(u)+p · ϕ(u) par hypothèse (deuxième de (23.6)),
d’où la première inégalité du point-selle.

Corollaire 23.30. Le théorème précédent s’applique au cas de contraintes d’égalité affines.

Démonstration. Il suffit d’écrire chaque contrainte d’égalité comme deux contraintes d’inéga-
lité.

23.5 Compléments

Proposition 23.31. On considère une fonctionnelle d’un ensemble X dans R, et l’on suppose
que le Lagrangien associé au problème de minimisation de J sur
K = {v ∈ V , ϕi (v) ≤ αi , 1 ≤ i ≤ n} ,
admet un point-selle pour tout α = (αi )1≤i≤n dans un voisinage de 0, i.e.
X X X
J(uα )+ p̃αi (ϕi (uα ) − αi ) ≤ J(uα )+ pαi (ϕi (uα ) − αi ) ≤ J(ũα )+ pαi (ϕi (ũα ) − αi ) ∀p̃ ≥ 0 , ũ ∈ X.
On note m(α) la valeur du minimum correspondant aux contraintes α. On a
m(α) ≥ m(0) − p0 · α.
Si la fonction α 7−→ m(α) est dérivable, alors
∂m
pi = − .
∂αi

248
Démonstration. On a (d’après la seconde inégalité qui caractérise (u0 , p0 ) comme point-selle)
n
X n
X n
X n
X
m(0) = J(u0 ) = J(u0 )+ p0i ϕi (u0 ) ≤ J(uα )+ p0i ϕi (uα ) = J(uα )+ p0i (ϕi (uα ) − αi )+ p0i αi
i=1 i=1 i=1 i=1

qui est (d’après la première inégalité qui caractérise (uα , pα ) comme point-selle) plus petit
que
X n
X n
X
J(uα ) + pαi (ϕi (uα ) − αi ) + p0i αi = J(uα ) + p0i αi
i=1 i=1

On obtient donc bien m(α) = J(uα ) ≥ m(0) − p0 · α.

Pour α fixé, ε petit, on a, si l’on admet la dérivabilité de m par rapport à α,

m(εα) = m(0) + ε∇m(0) · α + o(ε)

d’où
∇m(0) · α + o(1) ≥ −p0 · α,
pour tout α décrivant un voisinage symétrique de 0. On a donc bien ∇m = −p0 .

23.6 Illustrations

Système masses - ressorts. Considérons une chaı̂ne horizontale de n + 1 masses 0, 1,

2, . . ., n, reliées entre elles (0 reliée à 1, 1 à 2, etc...) par des ressorts de longueur au repos
nulle et de raideur k. Les positions de ces masses sont représentées par le vecteur position
(x0 , x1 , . . . , xn ) ∈ Rn+1 . L’énergie potentielle du système s’écrit
n
1 X 1
J(x) = k |xi − xi−1 |2 = k(Ax, x),
2 i=1 2

où A est (à une constante multiplicative près) la matrice du Laplacien discret avec conditions
de Neuman. Tout point diagonal (x, x, . . . , x) de Rn+1 minimise cette énergie. On s’intéresse
maintenant à la situation où la masse 0 est fixée au point x0 = 0, et la masse n au point
xn = L > 0. Il s’agit donc maintenant de minimiser J sur l’espace affine

E = {x , x0 = 0 , xn = L} = X + ker B , avec B : x ∈ Rn+1 7−→ (x0 , xn ) ∈ R2 .

La matrice B s’écrit !
1 0 ... 0 0
B= .
0 0 ... 0 1

D’après ce qui précède, il existe donc λ = (λ0 , λ1 ) ∈ R2 tel que

∇J(x) + B ⋆ λ = 0.

249
Écrivons les première et dernière lignes de ce système :
k(x0 − x1 ) + λ0 = 0
k(−xn−1 + xn ) + λ1 = 0.
Ces relations expriment l’équilibre des masses extrêmales, et permettent d’interpréter −λ0
(resp. −λ1 ) comme la force exercée par le support en 0 sur la masse 0 (resp. par le support
en 1 sur la masse n). On peut préciser la configuration minimisante en notant que, pour
i = 1, . . . , n − 1, on a
xi+1 − xi = xi − xi−1 ,
de telle sorte que les longueurs des ressorts sont toutes identiques, égales L/n, et ainsi
λ0 = −λ1 = kL/n.

Cet exemple permet aussi d’illustrer et d’interpréter mécaniquement une méthode très
utilisée en pratique, la méthode de pénalisation. Elle consiste à relaxer la contrainte, et à
ajouter à la fonctionnelle à minimiser un terme supplémentaire qui pénalise la non vérification
des contraintes. Dans l’exemple considéré, elle consiste à considérer la fonctionnelle
n
1 X 1
Jε (x) = k |xi − xi−1 |2 + |x0 |2 + |xn − L|2 .
2 i=1 2ε
Noter que cela revient à supposer les masses 0 et n attachées à des supports respectivement
en 0 et L par des ressorts dont la raideur 1/ε tend vers l’infini.
Remarque 23.32. Noter que la manière d’écrire les contraintes n’est pas unique. On peut
rajouter par exemple xn − x0 = L. On aura alors un troisième multiplicateur de Lagrange, qui
correspondrait à la tension (positive ou négative) au sein d’une barre rigide qui relierait les
points extrêmaux. La non unicité met en évidence le fait concret qu’il est a priori impossible de
prévoir la tension effective au sein de ce raidisseur, ainsi que l’effort au niveau des supports.
Dans la réalité, il peut se produire par exemple que seuls les supports fixes soient actifs,
jusqu’à ce que l’un d’entre eux se détériore et finisse par lâcher, pour être relayé par le
raidisseur, sans que rien ne transparaisse au niveau de ce que nous appelerons par la suite les
variables primales (i.e. les positions des ressorts). On parlera dans un contexte mécanique de
situation hyperstatique (il y a trop de contrainte), par opposition aux situations isostatiques
(jeu minimal de contraintes assurant l’unicité des multiplicateurs de Lagrange). On notera
qu’il y a un lien fort entre l’expression mathématique d’un ensemble de contraintes et les
moyens que l’on pourrait se donner pour les réaliser en pratique.

L’exemple du pont rigide entre les points extrémaux évoqué plus haut est un peu caricatural
car la troisième contrainte est manifestement redondante. Dans des situations plus compli-
quées pourtant, il peut ne pas être aisé de supprimer des contraintes pour parvenir à un jeu
minimal équivalent qui assurera l’unicité des multiplicateurs de Lagrange (comme dans le mo-
dèle de prise en compte de la congestion pour les foules, présenté dans la section 3.2, page 39,
en lien avec la figure 3.4). D’autre part certains systèmes réels très courants conduisent à une
non unicité. Ainsi, pour la chaise à 4 pieds posés sur un sol horizontal, on aura un multipli-
cateur de Lagrange associé à chacun des 4 contacts avec le sol. Or 3 contacts suffisent pour
que la chaise ne rentre pas dans le sol (nous ne considérons pas ici les questions de stabilité).
Il est ainsi impossible de prévoir, même si l’on dispose de toutes les informations, quel est
l’effort au niveau de chacun des pieds d’une chaise parfaitement équilibrée. Dans la pratique,
ces efforts sont susceptibles de changer au cours du temps de façon très irrégulière.

250
Remarque 23.33. Cet exemple permet d’illustrer et d’interpréter mécaniquement une mé-
thode très utilisée en pratique, la méthode de pénalisation. Elle consiste à relaxer la contrainte,
et à ajouter à la fonctionnelle à minimiser un terme supplémentaire qui pénalise la non véri-
fication des contraintes. Dans l’exemple considéré, elle consiste à considérer la fonctionnelle
n
1 X 1
Jε (x) = k |xi − xi−1 |2 + |x0 |2 + |xn − L|2 .
2 i=1 2ε

Noter que cela revient à supposer les masses 0 et n attachées à des supports respectivement
en 0 et L par des ressorts dont la raideur 1/ε tend vers l’infini.

Exercice 23.2. On considère un “agent” à qui est offerte la possibilité d’acquérir des biens
1,. . .,n. Les biens sont caractérisés par des fonctions d’utilité p 7→ uj (p) qui quantifient la
satisfaction qu’il retire en consacrant la part p de son capital à l’achat de biens de type j. On
considère qu’il dispose d’un capital P , et qu’il cherche à maximiser sa satisfaction maximale
X n
X
max uj (pj ) , pj ≤ P.
j=1

(On pourra intégrer la possibilité de conserver une partie de son capital en définissant un bien
“vide” qui correspond à l’absence d’achat, ou tout du moins à la préservation d’une partie du
capital.) Faire l’étude de ce problème d’optimisation.

On pourra notamment étudier le cas où les fonctions d’utilité sont concaves régulières
croissantes sur [0, +∞[, nulles en 0, par exemple uj (p) = αj log(1 + p), et étudier comment
la stratégie optimale varie en fonction de P .

251
A Compléments théoriques

A.1 Calcul différentiel, formules d’intégration par parties

On rappelle ici quelques formules d’intégration par partie. On supposera tous les champs
réguliers . L’extension de ces formules à des champs scalaires ou vectoriel moins réguliers doit
faire l’objet d’une vérification qui n’est pas traitée ici.

Soit u = (u1 , u2 )T un champ de vecteur. Sa divergence est

 
∂ !

 ∂x1 
 u1 ∂u1 ∂u2
∇·u =  · = + .
 ∂  u2 ∂x1 ∂x2
∂x2

Soit u = (u1 , u2 )T un champ de vecteur, son gradient est la matrice

 
∂u1 ∂u1

 ∂x1 ∂x2 

∇u =  
 ∂u2 ∂u2 
∂x1 ∂x2
Pour tout vecteur n, on a
   
∂u1 ∂u1 ∂u1 ∂u1
n1
! n1 + n2

 ∂x1 ∂x2 


 ∂x1 ∂x2 

∇u · n =   = ,
 ∂u2 ∂u2  n2  ∂u2 ∂u2 
n1 + n2
∂x1 ∂x2 ∂x1 ∂x2
qui est la dérivée de u dans la direction n, de telle sorte que

u(x + εn) = u(x) + ε∇u · n + o(ε).

Si n est un vecteur unitaire 115 , on écrit ∇u · n = ∂u/∂n.

Soit u un champ de vecteur. Son Laplacien ∆u est le vecteur

!
∆u1
∆u = .
∆u2

Pour A = (aij ) et B = (bij ) des matrices, A : B représente le scalaire

X
A:B= aij bij .
i,j

115. Cette hypothèse reflète le caractère assez peu naturel de cette notation. C’est un peu comme si, pour
une fonction x 7−→ f (x), avec x = (x1 , x2 ) = x1 e1 + x2 e2 ∈ R2 , on écrivait ∂f /∂e1 la dérivée de f par rapport
à x1 . Pour pousser plus loin cette remarque, précisons qu’il existe une situation dans laquelle cette notation
serait justifiée, mais pour désigner quelque chose de très différent à l’usage. On considère une partie de Rd ,
strictement convexe au sens où tout point de la frontière est extrémal, et une fonction définie sur cette frontière
§que l’on suppose régulière, même si cela n’est pas vraiment nécessaire). Du fait de la stricte convexité, si l’on
se donne un vecteur unitaire , il existe un unique point de la frontière tel que la normale en se point corresponde
à ce vecteur, on peut donc écrire la fonction comme une fonction de n, et considérer la différentielle de f par
rapport à n.

252
Noter que |A| = (A : B)1/2 est une norme euclidienne sur l’espace des matrices (appelée
norme de Frobenius). Pour u et v deux champ de vecteurs
   
∂u1 ∂u1 ∂v1 ∂v1
2 X 2

 ∂x1 ∂x2 


 ∂x1 ∂x2  X
 ∂ui ∂vi
∇u : ∇v =   : = .
 ∂u2 ∂u2   ∂v2 ∂v2 
i=1 j=1
∂xj ∂xj
∂x1 ∂x2 ∂x1 ∂x2

La notation |∇u|2 est utilisée pour désigner ∇u : ∇u.

Soit σ un champ de matrices (ou de tenseurs). Sa divergence est un vecteur, dont chaque
composante est la ligne de la matrice correspondante
 
∂σ11 ∂σ12
σ11 σ12
! +

 ∂x1 ∂x2 

∇·σ = ∇· = 
σ21 σ22  ∂σ21 ∂σ22 
+
∂x1 ∂x2

Soit u = (u1 , u2 )T un champ de vecteur, on note u ⊗ u la matrice (ui uj )i,j .

Si ∇ · u = 0, on a
 
∂u1 ∂u1
u1 + u2

 ∂x1 ∂x2 

∇ · (u ⊗ u) = (u · ∇) u =  
 ∂u2 ∂u2 
u1 + u2
∂x1 ∂x2
Toujours sous la condition ∇ · u = 0,
!
|u|2
(∇ · (u ⊗ u)) · u = ((u · ∇) u) · u = ∇ · u .
2

Si ∇ · u = 0, alors
∇ · t ∇u = 0.
En conséquence, si ∇ · u = 0, alors

∇ · ∇u + t ∇u = ∇ · ∇u = ∆u.

Intégration par parties

Soit v un champ de vecteurs. on a

Z Z
∇·v = v·n (A.1)
Ω Γ

Soit σ un champ de matrices. on a

Z Z
∇·σ = σ·n (A.2)
Ω Γ

253
Soit q un champ scalaire. On a
Z Z
∇q = qn. (A.3)
Ω Γ

Soit v un champ de vecteurs, et q un champ scalaire. On a

Z Z Z
q∇·u + u · ∇q = qu · n. (A.4)
Ω Ω Γ

Soient u et v des champs scalaires. On a

Z Z Z
∂u
v∆u = ∇u · ∇v + v , (A.5)
Ω Ω Γ ∂n
où n est la normale sortante au domaine.

Soit u un champ de vecteurs, et q un champ scalaire.

Z Z Z
q∇·u + u · ∇q = qu · n. (A.6)
Ω Ω Γ

Soient u et v des champs de vecteurs. On a

Z Z Z
∂u
∆u · v + ∇u : ∇v = v· . (A.7)
Ω Ω Γ ∂n
Si en outre ∇ · u = 0, on a
Z Z
t t
0+ ∇u : ∇v = v· ∇u · n (A.8)
Ω Γ

En conséquence, si ∇ · u = 0, alors
Z Z Z
∆u · v + ∇u : (∇v + t ∇v) = v · ∇u + t ∇u · n. (A.9)
Ω Ω Γ

Pour tous champs vectoriels u et v, on a

Z Z
∇u : t ∇v = t
∇u : ∇v, (A.10)
Ω Ω

de telle sorte que

Z Z
1 t
∇u : (∇v + ∇v) = (∇u + t ∇u) : (∇v + t ∇v) (A.11)
Ω 2 Ω

Dérivation d’une intégrale sur un domaine en mouvement

Soit ω un système matériel advecté par le champ de vitesse u(x, t), et F (x, t) une fonction
scalaire. On a Z Z Z
d ∂F
F (x, t) = − F (x, t)u · n. (A.12)
dt ω(t) ω(t) ∂t ∂ω(t)

254
Proposition A.1. Soient u et v deux champs de vecteurs réguliers définis sur Ω. On suppose
que u est à divergence nulle. On a alors
Z Z
t t
0=− ∇u : ∇v + v· ∇u · n
ω ∂ω

Démonstration. On écrit
Z Z Z
t
v· ∇u · n = n · (∇u · v) = ∇ · (∇u · v)
∂ω ∂ω ω
X X XX X X
= ∂i vj ∂j ui = ∂i vj ∂j ui + vj ∂j ∂i ui .
i j i j j i

Le second terme ci-dessus est nul car u est à divergence nulle, d’où l’on déduit l’identité
annoncée.

Proposition A.2. Soient u et : v deux champs réguliers sur Ω. On a

Z Z Z Z
t
∇u : ∇v = (∇ · u) (∇ · v) + (∇ · u)v · n − (∇u · v) · n
Ω Ω Γ Γ

Démonstration: On a
Z Z
(∇u · v) · n = ∇ · (∇u · v)
Γ ZΩ X X
= ∂i vj ∂j ui
Ω i j
Z XX
= ((∂i ∂jui )vj + ∂j ui ∂i vj )
Ω i j
Z Z
= v (∇∇ · u) + ∇u : t ∇v
ZΩ ZΩ Z
= (∇ · u) v · n − (∇ · u) (∇ · v) + ∇u : t ∇v
Ω Ω Ω

A.2 Cercles de Gerchgorin

Definition A.3. Une matrice A = (aij ) ∈ Mn (C) est dite à diagonale strictement dominante
si X
|aii | > |aij | ∀i = 1, . . . , n.
j6=i

Proposition A.4. (Gerschgorin)

Soit A = (aij ) ∈ Mn (C). Soit Sp(A) l’ensemble des valeurs propres de A. On a
n
[ X
Sp(A) ⊂ D(aii , ri ) , ri = |aij | ,
i=1 j6=i

où D(a, r) ⊂ C2 désigne le disque fermé de centre a et de rayon r.

255
A.3 Chaines de Markov

Soit V un ensemble fini et K( · , · ) ∈ RV+×V tel que

X
K(x, y) = 1 ∀x ∈ V.
y∈V

En numérotant les points de V : 1, 2, . . ., N, on peut voir K comme une matrice de MN ([0, 1]).
La somme des éléments de chaque ligne vaut 1, une telle matrice est dite stochastique.

Definition A.5. (Chaı̂ne de Markov)

On appelle chaı̂ne de Markov associée à K une suite de variables aléatoires X0 , X1 , . . .∈ V ,
avec
P(Xn+1 = y|Xn = x, Xn−1 = xn−1 , . . . , X0 = x0 ) = P(Xn+1 = y|Xn = x)
= P(X1 = y|X0 = x) = K(x, y).

La matrice t K peut être interprétée de la façon suivante : si l’on considère une variable
aléatoire X0 suivant la loi p = t (p1 , p2 , . . . , pn ), que l’on note X1 la variable obtenue après un
pas construit suivant les probabilités de transition définie ci-dessus, alors
X X
P(X1 = i) = K(j, i)P(X0 = j) = K(j, i)pj ,
j j

c’est à dire que X1 suit la loi q = t (q1 , q2 , . . . , qn ), avec

q = t Kp.

Noter que toute application de l’ensemble à N éléments vers lui même peut être représen-
tée par une matrice qui ne contient que des 0 et des 1, avec exactement un “1” par colonne.
La transposée d’une matrice stochastique est ainsi combinaison convexe de telles matrices :
on peut voir toute chaine de Markov sur un espace à n états comme la généralisation d’une
application qui a un point associe un point : chaque point (considéré comme étant de masse
unitaire) peut être distribué sur plusieurs autres points, de façon à ce que la masse soit
conservée. Cette matrice exprime ainsi un transport de mesure : si l’on se donne une mesure
de probabilité sur l’ensemble à n points, p = t (p1 , p2 , . . . , pn ), la mesure t Kp est la mesure
image (ou push-forward) de p par le transport.

Definition A.6. (Irréductibilité)

On dit que la chaı̂ne de Markov est irréductible si, pour tous x, y, il existe n et m tels que

P(Xn = y|X0 = x) > 0 et P(Xm = x|X0 = y) > 0.

Definition A.7. (Mesure stationnaire)

Une mesure π sur V est dite stationnaire pour la chaine K si
t
Kπ = π.

Si l’on se place dans le cas où le point initial X0 suit la loi associée à π, alors X1 suite la
même loi, ainsi que tous les Xn (sans bien sûr que que les Xn soient indépendants).

256
Théorème A.8. (Perron-Frobenius)
Soit K la matrice de transition d’une chaı̂ne de Markov irréductible. Alors toutes les valeurs
propres de K sont de module inférieur ou égal à 1, 1 est valeur propre de t K, et c’est une
valeur propre simple. Elle admet pour vecteur propre une mesure π sur V , avec p(x) > 0 pour
tout x ∈ V , qui se trouve de fait être l’unique mesure stationnaire.

Noter que, dans le théorème précédent, il peut exister d’autres valeurs propres de module
égal à 1. L’unicité de 1 comme v.p. de plus grand module est en revanche assurée si l’on
suppose la matrice primitive, i.e. qu’il existe k t.q. Ak a tous ses coefficients strictement
positifs.

Definition A.9. (Réversibilité)

Une chaı̂ne de Markov K irréductible est dite réversible si sa mesure stationnaire vérifie

K(x, y)π(x) = K(y, x)π(y).

A.4 Spectre du Laplacien discret

La matrice  
2 −1 0 · · 0
 
 −1 2 −1 0 · · 
 
 

 0 −1 · · · 

A=  ∈ MN −1 (R) (A.13)
 
 · · · · · 
 
 
 ·
 · 2 −1 

0 · · 0 −1 2
possède N − 1 valeurs propres distinctes

2 kπ
λk = 4 sin , k = 1 , . . . , N − 1.
2N
Le vecteur propre associé à la valeur propre λk s’écrit

kπ 2kπ (N − 1)kπ
uk = t sin , sin , . . . , sin .
N N N

257
Références
[1] G. Allaire, Analyse numérique et optimisation, Publications Ecole Polytechnique, No 15,
Ellipses Paris, 2005.
[2] H. Brezis, Analyse Fonctionnelle, Théorie et Applications, Masson 1983.
[3] H. Brezis, Opérateurs maximaux monotones et semi–groupes de contraction dans les
espaces de Hilbert, North Holland publishing company 1973.
[4] V. Girault, P.A. Raviart, Finite Element Methods for Navier-Stokes Equations- Theory
and Algorithms Springer Verlag, Berlin, 1986.
[5] B. Maury, Analyse Fonctionnelle, exercices et problèmes corrigés, Ellipses, Paris, 2004.
[6] P.-A. Raviart, J.M. Thomas, Introduction à l’Analyse Numérique des Équations aux
Dérivées Partielles, Masson, Paris, 1983.
[7] F. Santambrogio, Optimal Transport for Applied Mathematicians, Progress in Nonlinear
Differential Equations and Their Applications, Vol. 87, Birkhäuser Basel, 2015.
[8] C. Villani, Topics in optimal transportation, American Mathematical Soc, Vol. 58, 2003.

258

Vous aimerez peut-être aussi

BD 2014-2
Pas encore d'évaluation
BD 2014-2
94 pages
Etude Des Models Mathematique Issue Du Vivant
Pas encore d'évaluation
Etude Des Models Mathematique Issue Du Vivant
217 pages
Elements Finis
Pas encore d'évaluation
Elements Finis
414 pages
E Fini Important PDF
100% (1)
E Fini Important PDF
256 pages
Mathématiques et Numériques Avancées
Pas encore d'évaluation
Mathématiques et Numériques Avancées
105 pages
Analyse Numérique des EDP
100% (1)
Analyse Numérique des EDP
237 pages
Cours Edp09
Pas encore d'évaluation
Cours Edp09
126 pages
Introduction aux Méthodes Numériques
Pas encore d'évaluation
Introduction aux Méthodes Numériques
121 pages
Poly CSC 216
Pas encore d'évaluation
Poly CSC 216
158 pages
Modélisation et Simulation Numérique
Pas encore d'évaluation
Modélisation et Simulation Numérique
163 pages
Optimisation 2018
Pas encore d'évaluation
Optimisation 2018
159 pages
MethodesNumeriques EricGoncalves
Pas encore d'évaluation
MethodesNumeriques EricGoncalves
104 pages
Ext 1675 3
Pas encore d'évaluation
Ext 1675 3
328 pages
Équations Différentielles Avancées
100% (1)
Équations Différentielles Avancées
126 pages
Équations aux dérivées partielles
Pas encore d'évaluation
Équations aux dérivées partielles
85 pages
Cours MathsII ENIT 1718
Pas encore d'évaluation
Cours MathsII ENIT 1718
96 pages
GCAlgerie.com(120)
100% (1)
GCAlgerie.com(120)
401 pages
Cours EDP pour Ingénieurs à l'ENIT
Pas encore d'évaluation
Cours EDP pour Ingénieurs à l'ENIT
139 pages
Métivier
Pas encore d'évaluation
Métivier
125 pages
CoursENSTAB2-1 Gounand 20120926
Pas encore d'évaluation
CoursENSTAB2-1 Gounand 20120926
129 pages
Mathématiques pour Ingénieurs II
Pas encore d'évaluation
Mathématiques pour Ingénieurs II
117 pages
Edp2 PDF
100% (3)
Edp2 PDF
228 pages
Analyse Numérique des Équations PDE
100% (1)
Analyse Numérique des Équations PDE
216 pages
Cours Modelisation FSTH
Pas encore d'évaluation
Cours Modelisation FSTH
87 pages
1.livre Controle Sto
Pas encore d'évaluation
1.livre Controle Sto
156 pages
Introduction à la Physique Numérique
Pas encore d'évaluation
Introduction à la Physique Numérique
110 pages
MathII PDF
Pas encore d'évaluation
MathII PDF
117 pages
Edo Utf8
Pas encore d'évaluation
Edo Utf8
66 pages
Poly
Pas encore d'évaluation
Poly
100 pages
MethodesNumeriques EricGoncalves
Pas encore d'évaluation
MethodesNumeriques EricGoncalves
99 pages
Differences - Finies - Copie
100% (1)
Differences - Finies - Copie
65 pages
Math H 402 PDF
Pas encore d'évaluation
Math H 402 PDF
142 pages
Meth Det
Pas encore d'évaluation
Meth Det
86 pages
Analyse Fonctionnelle2013 2
Pas encore d'évaluation
Analyse Fonctionnelle2013 2
128 pages
Modélisation par Équations EDP
Pas encore d'évaluation
Modélisation par Équations EDP
28 pages
Elements Finis 1
Pas encore d'évaluation
Elements Finis 1
396 pages
Résolution Numérique Des EDPs
Pas encore d'évaluation
Résolution Numérique Des EDPs
57 pages
Universite Montpellier 2 - Cours DOptimisation Numerique
Pas encore d'évaluation
Universite Montpellier 2 - Cours DOptimisation Numerique
71 pages
Analyse Numérique des EDP
Pas encore d'évaluation
Analyse Numérique des EDP
231 pages
Analyse Numérique à Sorbonne Univ.
Pas encore d'évaluation
Analyse Numérique à Sorbonne Univ.
197 pages
Cours sur les Équations aux Dérivées Partielles
Pas encore d'évaluation
Cours sur les Équations aux Dérivées Partielles
67 pages
MMP LP206
Pas encore d'évaluation
MMP LP206
140 pages
Intégration géométrique des systèmes hamiltoniens
Pas encore d'évaluation
Intégration géométrique des systèmes hamiltoniens
124 pages
Feuille Tage
Pas encore d'évaluation
Feuille Tage
31 pages
DualitePL AlgoSimplex TD
Pas encore d'évaluation
DualitePL AlgoSimplex TD
4 pages
Cours5 CTB ANALYTIQUE 3 Produits RÃsiduels
0% (1)
Cours5 CTB ANALYTIQUE 3 Produits RÃsiduels
4 pages
Exercices7 CFA Etats-Financiers
Pas encore d'évaluation
Exercices7 CFA Etats-Financiers
5 pages
TD Dualite Lagrangienne Plan Secant
Pas encore d'évaluation
TD Dualite Lagrangienne Plan Secant
5 pages
Cours12-Suite Etats-Financiers CFA
Pas encore d'évaluation
Cours12-Suite Etats-Financiers CFA
9 pages
ComptabilitÃ Analytique FC Janvier 2024 20240430
Pas encore d'évaluation
ComptabilitÃ Analytique FC Janvier 2024 20240430
61 pages
Exercices1-Corrigé CFA Immobilisations
Pas encore d'évaluation
Exercices1-Corrigé CFA Immobilisations
8 pages
Comptabilité Analytique FC Janvier 2024 20240313
Pas encore d'évaluation
Comptabilité Analytique FC Janvier 2024 20240313
28 pages
Comptabilité Analytique FC Janvier 2024 20240313
Pas encore d'évaluation
Comptabilité Analytique FC Janvier 2024 20240313
28 pages
Exercices3 CFA Stocks Contrat À LT
Pas encore d'évaluation
Exercices3 CFA Stocks Contrat À LT
2 pages
Université Du Québec Montréal: Conversation
Pas encore d'évaluation
Université Du Québec Montréal: Conversation
114 pages
Comptabilité Financière Avancée
Pas encore d'évaluation
Comptabilité Financière Avancée
2 pages
Vivre Avec Les Autres
Pas encore d'évaluation
Vivre Avec Les Autres
10 pages
Jesujalej
100% (1)
Jesujalej
2 pages
PDF de Poche Vocabulaire Anglais Commercial
Pas encore d'évaluation
PDF de Poche Vocabulaire Anglais Commercial
7 pages
Capacité thermique de l'éthanol et exercices
100% (1)
Capacité thermique de l'éthanol et exercices
5 pages
Questionnaire Omp Cours Perfectionnement: SOFA)
Pas encore d'évaluation
Questionnaire Omp Cours Perfectionnement: SOFA)
5 pages
Introduction au MRP et gestion de prod
Pas encore d'évaluation
Introduction au MRP et gestion de prod
24 pages
Sixième TSQ
88% (17)
Sixième TSQ
2 pages
Chap 3 - Eléments Géométriques À Ciel Ouvert 2018
100% (1)
Chap 3 - Eléments Géométriques À Ciel Ouvert 2018
31 pages
Memoire Final PDF
Pas encore d'évaluation
Memoire Final PDF
90 pages
Production Orale
Pas encore d'évaluation
Production Orale
8 pages
Nouveau Document Microsoft Word
Pas encore d'évaluation
Nouveau Document Microsoft Word
2 pages
Prise en charge des traumatismes rachidiens
Pas encore d'évaluation
Prise en charge des traumatismes rachidiens
11 pages
Types et caractéristiques de la rime
Pas encore d'évaluation
Types et caractéristiques de la rime
3 pages
Censo 1962, Explotaciones Segun Hectareas
Pas encore d'évaluation
Censo 1962, Explotaciones Segun Hectareas
2 pages
TD 1 As25-26
Pas encore d'évaluation
TD 1 As25-26
2 pages
Oriented Programming With Csharp
100% (1)
Oriented Programming With Csharp
69 pages
Manuel de Médecine Vétérinaire Agricol
Pas encore d'évaluation
Manuel de Médecine Vétérinaire Agricol
243 pages
Français - Prendre-Contact-6ème TI-1
Pas encore d'évaluation
Français - Prendre-Contact-6ème TI-1
2 pages
Controle Sanctions Administratives - CE - 13112013 - Dahan
Pas encore d'évaluation
Controle Sanctions Administratives - CE - 13112013 - Dahan
15 pages
TPS Deo
Pas encore d'évaluation
TPS Deo
6 pages
Demande de Recours
Pas encore d'évaluation
Demande de Recours
1 page
UT 3 QUESTIONNAIRE RÉALISME 4ème ESO
Pas encore d'évaluation
UT 3 QUESTIONNAIRE RÉALISME 4ème ESO
7 pages
ERP pour Agence Urbaine Kenitra
Pas encore d'évaluation
ERP pour Agence Urbaine Kenitra
22 pages
Presentation Radio Afrik FM
Pas encore d'évaluation
Presentation Radio Afrik FM
9 pages
Guide GESIP 2008 01 EDD Revision Juillet 2019
Pas encore d'évaluation
Guide GESIP 2008 01 EDD Revision Juillet 2019
118 pages
Connexion Français 2 LC Bu
Pas encore d'évaluation
Connexion Français 2 LC Bu
137 pages
Méthodes d'Exégèse Biblique et Théorie des Deux Sources
Pas encore d'évaluation
Méthodes d'Exégèse Biblique et Théorie des Deux Sources
5 pages
Essai de Modelisation de La Relation Entre Le Taux de Change Et Balance Des Paiements (CAS DE L'ALGERIE DE 1991 A 2007) Assia Merabet
Pas encore d'évaluation
Essai de Modelisation de La Relation Entre Le Taux de Change Et Balance Des Paiements (CAS DE L'ALGERIE DE 1991 A 2007) Assia Merabet
6 pages
TDR Consultant Formation Des Formateurs PM - GC
Pas encore d'évaluation
TDR Consultant Formation Des Formateurs PM - GC
6 pages
Tandem Devoirs CE1 ALKANINI PERIODE4
Pas encore d'évaluation
Tandem Devoirs CE1 ALKANINI PERIODE4
15 pages
Révision Comptes Immobilisations DELTA
Pas encore d'évaluation
Révision Comptes Immobilisations DELTA
66 pages
Investir avant de transmettre : clés et pièges
Pas encore d'évaluation
Investir avant de transmettre : clés et pièges
24 pages
Vie et œuvre de Théophile Gautier
Pas encore d'évaluation
Vie et œuvre de Théophile Gautier
1 page