Modmsv
Modmsv
B. Maury
.
2
Avertissement
Les modèles particuliers abordés reflètent de façon évidente les activités de recherche passées
et présentes de l’auteur, mais nous espérons que leur étude peut permettre d’acquérir des
connaissances et principes généraux qui pourront être mis en œuvre de façon féconde dans
d’autres contextes.
La structure, si tant est que l’on puisse parler de structure, est en revanche volontaire est
assumée.
La partie IV regroupe des éléments théoriques classiques qui sont utilisés dans le reste de
l’ouvrage.
La partie II traite, de façon plus ou moins formalisée selon le sujet, de notions générales en
modélisation mathématique, et d’interprétations de concepts théoriques dans un contexte de
modélisation.
Au delà de ce regroupement en quatre parties, les sections ne sont pas ordonnées autrement
qu’alphabétiquement.
1. Différences finies et éléments finis, qui pourraient être complétés dans l’avenir par une section sur les
méthodes de volumes finis
3
4
Table des matières
I Modèles 11
1.2 Transport . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 Diffusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Fluides 22
4 Réseaux résistifs 44
5
4.8 Réseaux infinis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.1 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.1 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.2 Stabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
8.2 Traces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
9 Diffusion et hétérogénéité 92
6
10 Entropie 101
12 Graphes 110
7
16.1 La méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
8
20.3 Somme Hilbertiennes, bases Hilbertiennes . . . . . . . . . . . . . . . . . . . . 205
22.10Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
9
A Compléments théoriques 252
10
Première partie
Modèles
1 Conservation, transport, et diffusion
Cette définition formelle, à la base de toutes les équations aux dérivées partielles qui
expriment la conservation d’une certaine quantité, n’a en fait pas un sens très clair. En
premier lieu, pour tous les phénomènes réels impliquant des particules 2 , elle n’a de sens que
si le diamètre du disque n’est pas trop petit vis à vis des tailles caractéristiques du phénomène
√
microscopique étudié 3 . La notion n’a en particulier par de sens si ε (≈ diamètre du disque
Dε (n)) est de l’ordre de la distance interparticulaire, ou plus petit. Par ailleurs, l’expression
par unité de temps sous-entend que l’on fait le bilan sur un intervalle de temps petit, mais
suffisamment grand pour laisser passer un nombre significatif d’entités. Pour que cette notion
ait un sens, il faut par ailleurs que ε et le temps d’intégration ne soient pas trop grands. Si
en divisant par exemple ε par deux, on trouve une valeur significativement différente, c’est
que la fenêtre d’observation est trop grande. De façon générale, cette notion n’aura de sens
que pour des plages de tailles et temps caractéristiques adaptées au problème considéré. Ces
plages peuvent être très étroites dans le cas par exemple du trafic routier ou piétons ; le
rapport entre l’échelle macroscopique (taille caractéristique du domaine étudié, tronçon de
route ou couloir dans un bâtiment), et l’échelle microscopique (taille des entités considérées,
et / ou des distances entre elles) n’est pas très grand, de l’ordre de 102 dans certains cas. La
situation est évidemment plus favorable pour des systèmes de particules du type gaz, avec
une échelle macroscopique de l’ordre du mètre, et microscopique de l’ordre de 10−10 m (taille
des molécules) ou 5 × 10−9 m (distance entre molécules).
Remarque 1.2. On peut se demander quelle est la nature de l’objet mathématique qui ré-
sulterait de l’application à la lettre de la définition 1.1, dans le cas où l’on a un nombre fini
de particules, de masses mi et vitesses ui (t), i = 1,. . .,N . En dimension 1, considérons le cas
d’une particule de masse m parcourant la trajectoire t 7→ X(t), et donc animée d’une vitesse
3. L’aire ε tend vers 0, mais pas trop . . .
3. Particules dans un sens très large : il peut s’agir de particules physiques de type molécules, ou d’entités
de taille plus importante comme des cellules, des voitures pour les équations du trafic routier, ou des piétons.
11
V (t) = Ẋ(t). On peut approcher cette particule par une particule de taille finie, de densité
uniforme m/ε sur ]X(t), X(t) + ε[. Le flux est alors défini en (x, t) par
m
Jε (x, t) = V 1 .
ε ]X(t),X(t)+ε[
A t fixé, Jε converge donc (au sens des mesures, ou au sens des distributions) vers mV δX(t) .
Si l’on se fixe un intervalle en temps, on peut aussi voir J comme une mesure en espace-temps,
qui converge vers une mesure singulière supportée par la trajectoire, avec
Z T
hJ , ϕi = mϕ(X(t), t) dt,
0
Terme source. On peut intégrer à ce modèle des termes-source (ou termes-puits si l’on
enlève de la matière), en considérant une quantité f de matière injectée par unité de temps
et par unité de volume. Le bilan instantané de matière sur un volume ω s’écrit alors
Z Z Z
d
ρ=− J ·n+ f,
dt ω ∂ω ω
12
1.2 Transport
On considère un champ de vecteur régulier ut (x) dans Rd , et le flot associé Xt (x, s), défini
par
∂Xt (x, s)
= ut (Xt (x, s))
∂t (1.2)
Xs (x, s) = x.
Pour t fixé, le flot
x ∈ Rd 7−→ Xt (x, 0) ∈ Rd
transporte une mesure donnée ρ0 vers une nouvelle mesure notée ρt . De façon plus générale
ρt est la mesure image de ρs par l’application Xt ( · , s).
13
Cette identité étant valable pour tout instant t, pour tout fonction test ϕ, on en déduit
formellement l’équation de transport conservatif (ou équation de continuité)
∂t ρt + ∇ · (ut ρt ) = 0.
Dans le cas régulier, toute solution de l’équation de transport non conservative (ou conser-
vative avec un champ à divergence nulle) est constante le long des caractéristiques :
∂t ρt + ut · ∇ρt = 0,
avec ut régulier (continu, et Lipschitzien par rapport à la variable d’espace). Alors ρt est
constant le long des caractéristiques définies par (1.2).
Démonstration. On a
d d
ρt (Xt (x, s)) = ∂t ρt + Xt (x, s) · ∇ρt = ∂t ρt + ut · ∇ρt = 0.
dt dt
∂t ρt + ∇ · (ρt ut ) = 0,
avec ut régulier (continu et Lipschitz par rapport à la variable d’espace). Alors ρτ vérifie
Z τ
ρτ (Xτ (x, s)) = ρs (x) exp − ∇ · ut (Xt (x, s)) dt .
s
Noter que l’on peut ainsi exprimer ρτ à partir d’une donnée initiale en renversant le flot :
Z τ
ρτ (y) = ρ0 (X0 (y, τ )) exp − ∇ · ut (Xt (y, 0)) dt .
0
14
Une deuxième vision correspondrait à des particules qui évoluent dans le vide (ou dans
l’air, dont on pourra négliger les effets dans certains régimes), qui éventuellement intéra-
gissent entre elles, sont soumises à l’action de forces extérieures, etc. . .. Si l’on connait le
champ de vitesse, on souhaite écrire le transport de la matière par le champ de vitesse. Mais
ce dernier n’est de façon évidente défini que là où il y a de la matière, il n’est pas donné a
priori en tout point de l’espace. D’un point de vue mathématique, le problème est très dif-
férent. Les questions typiques que l’on peut se poser sont les suivantes : étant donnée une
famille de mesures (ρt ), existe-t-il un champ de vitesse qui transporte ρt ? Est-il ρt -presque
partout unique ? C’est la version mathématique du problème de l’expérimentateur qui cherche
à estimer des vitesses à partir d’observations en termes de positions (de particules, cellules,
individus dans une foules, voitures, voire planètes). Dans ce contexte, les champs de vitesses
n’ont en général aucune raison de présenter la moindre régularité d’un point de vue Eulérien.
C’est précisément en prenant en compte des interactions entre particules que l’on peut espérer
obtenir une certaine régularité, et obtenir des équations aux dérivées partielles (eulériennes,
donc) sur lesquelles on pourra espérer dire des choses.
On dit que le couple (ρt , ut ) est solution faible sur ]0, T [ de l’équation de transport si
Z T Z
(∂t ϕ + ut · ∇ϕ) dρt dt = 0
0 Rd
15
sans ambiguı̈té. Mais cette impression n’est justifiée que pour des mesures qui sont absolument
continues par rapport à la mesure de Lebesgue, car l’intégrale impliquée dans la formulation
faible demande que ut soit définie ρt - presque partout. Prenons par exemple le champ ut sur
R identiquement égal à un, sauf en 0 où le champ prend la valeur 0. Cette dernière précision
peut sembler incongrue car {0} est de mesure nulle (relativement à la mesure de Lebesgue),
mais la difficulté est que rien dans l’équation n’interdit l’apparition de mesures singulières,
qui chargeraient le point 0 en question. On pourra ainsi vérifier que, pour la condition initiale
ρ0 = 1]−1,0[ , l’équation admet une infinité de solutions, parmi lesquelles on retrouve bien le
transport à vitesse constante de la densité initiale
ρt = 1]−1+t,t[ ,
mais aussi
ρt = 1]−1+t,0[ + tδ0 ∀t ∈ [0, 1[ , ρt = δ0 ∀t ≥ 1,
et, en fait, une infinité de solutions intermédiaires : lors du passage en 0, on peut choisir de
laisser passer une fraction arbitraire de masse vers les x positifs, et d’en conserver en 0 le
reste (qui va s’accumer pour former une mesure singulière).
δ0 sur ] − ∞, 0[
ρt =
θδ−V t + (1 − θ)δV t sur ]0, +∞[
est solution de l’équation de transport pour le champ de vitesse −V sur ] − ∞, 0[, V sur
]0, +∞[, et 0 en 0, avec V > 0, quelle que soit la valeur de θ ∈ [0, 1]. Peut-on construire un
tel exemple d’indétermination avec le champ de vitesse opposé ? (on pourra se reporter aux
notions introduites dans la section 20.5, page 209).
L’équation de transport prend une forme particulière lorsque la variable d’espace elle-
même correspond en fait à un temps. Ce cadre est naturel lorsque l’on suit une densité de
population par tranche d’âge. La forme discrète de cette description correspond à la pyramide
des âges, utilisée par les démographes. La version continue est basée sur la définition d’une
densité ρ(a, t), qui quantifie le nombre de personne à l’âge a. Plus précisément, ρ(a, t) da
correspond au nombre de personnes entre les âge a et a + da.
On obtient typiquement des systèmes de la forme suivante (comme dans la remarque 1.3,
la vitesse correspond à un vieilissement d’une unité de temps par unité de temps) :
∂t ρ + ∂a ρ = −µ(a, t)a,
Z +∞
ρ(0, t) = β(a, t)ρ(a, t) da,
0
16
donne l’impression que l’on fixe le nombre de personnes d’âge 0. Ce terme doit plutôt être
interprété comme un terme de flux : de nouvelles personnes (les nouveaux-nés) rentrent dans
le circuit, et la valeur ρ(0, t) doit être lue comme un flux ρ(0, t) × 1 (où 1 est une “vitesse” en
secondes par seconde), que l’on exprime comme résultant du processus de reproduction.
Aspects théoriques
Voir aussi Ambrosio 5 pour une présentation détaillées des différentes approches.
1.3 Diffusion
Remarque 1.12. D’un point de vue qualitatif, cette loi exprime le fait que la substance
a tendance à aller des zones à forte densité vers les zones à faible densité. On peut donc
s’attendre à ce qu’un tel phénomène tende à uniformiser les densités. On se reportera à la
section 9 pour des exemples de phénomènes de nature (au moins partiellement) diffusive, qui
conduisent néanmoins à des répartitions non homogènes de matière dans l’espace.
Équation de la chaleur. On considère une substance qui diffuse dans un milieu selon la loi
de Fick (modèle 1.11). L’équation de conservation (1.1) s’écrit ici
∂ρ
− ∇ · D∇ρ = 0,
∂t
ou, dans le cas où D est uniforme,
∂ρ
− D△ρ = 0. (1.3)
∂t
4. R.J. Di Perna & P.L. Lions,
Ordinary differential equations, transport theory and Sobolev spaces, Invent. math. 98, 511-547 (1989),
[Link]
5. L. Ambrosio, transparents d’un cours donné à Benasque en 2005
[Link]
17
Noyau de la chaleur. On se place sur l’espace Rd tout entier. Pour tout y ∈ Rd , la fonction
|x − y|2
1 −
K(x, t) = e 4Dt , (1.4)
d/2
(4πDt)
est solution de l’équation de la chaleur (1.3), de telle sorte que, pour toute fonction u0
suffisamment régulière,
Z |x − y|2
1 −
u(x, t) = e 4Dt u0 (y) dy,
(4πDt)d/2 Rd
Diffusion non isotrope. Dans le cas où le milieu n’est pas isotrope (i.e. la diffusion est
plus importante dans certaines direction), on peut introduire une matrice de diffusion définie
positive D qui conduit a une équation formellement analogue. Ce phénomène traduit la
non-isotropie du milieu considéré : lorsque la diffusion se fait plus aisément dans certaines
directions, la matrice D ne sera pas scalaire. Cette situation est courante dans le cas de
milieux fibreux, comme le sont par exemple les muscles dans le corps humain.
Conditions aux limites. On suppose que le phénomène de diffusion prend place dans une
zone délimitée de l’espace. On note Ω cette zone, et l’on suppose que Ω est un ouvert borné.
Il est alors licite de prescrire deux types de condition sur la frontière de Ω.
(i) Conditions de Dirichlet : la valeur de la densité est imposée au bord du domaine.
(ii) Conditions de Neumann : on prescrit le flux J · n à travers la frontière du domaine Ω,
c’est-à-dire, sous l’hypothèse de flux régi par la loi de Fick, la dérivée normale de la
densité, ou plus précisément −D∂ρ/∂n.
Il est possible de panacher ces deux conditions, c’est-à-dire d’imposer la valeur de ρ sur une
partie de la frontière, et la valeur de la dérivée normale sur son complémentaire.
Notons qu’un troisième type de conditions aux limites peut être envisagé, qui implique à
la fois la valeur de la fonction et sa dérivée normale, il s’agit des
(iii) Conditions de Robin (ou Fourier) : on prescrit une combinaison linéaire (à coef-
ficient positifs) de la valeur et de la dérivée normale.
Précisons d’où peuvent venir ces dernières conditions en prenant l’exemple de la diffusion
de l’oxygène dans le sang au travers de la paroi alvéolaire. On assimile un alvéole à une sphère
remplie d’air, au sein duquel l’oxygène diffuse selon la loi de Fick avec un certain paramètre
de diffusivité D. La paroi alvéolaire sépare l’alvéole des capillaires dans lesquels circulent le
sang, dont les globules rouges vont capter l’oxygène. Au sein de cette paroi, l’oxygène diffuse
également et comme elle est très fine, il est licite de négliger au premier ordre la diffusion
dans la direction transverse. Si l’on note uext la concentration en oxygène dans le sang, on
peut écrire que le flux d’oxygène au travers de la paroi est proportionnel à la différence de
valeurs de part et d’autre, ce qui conduit à écrire
18
où u est la valeur de la concentration dans l’alvéole au voisinage de la paroi alvéolaire, d’où
la condition en tout point de la frontière
∂u ∂u
−D = β(u − uext ) , i.e. βu + D = βuext .
∂n ∂n
Noter que cette condition présente l’avantage de contenir d’une certaine manière toutes les
autres, puisque l’on retrouve des conditions de Neumann en faisant tendre β vers 0, et des
conditions de Dirichlet 6 en faisant tendre β vers +∞.
J = Ju + JD = uρ − D∇ρ,
Lorsque le nombre de Péclet est petit devant 1, cela signifie que les phénomènes de diffusion
sont prépondérants devant les phénomènes de convection. Concrètement, cela signifie que
le terme de convection dans l’équation peut être supprimé sans que le champ solution soit
modifié de façon significative. Pour Pe >> 1, c’est au contraire la convection qui domine. Dans
cette dernière situation, on prendra garde au fait que la suppression du terme de diffusion
change profondément la nature de l’équation. Plus précisément, si l’on considère l’équation
de convection-diffusion avec des conditions de Dirichlet (valeur de ρ imposée au bord), on
peut voir apparaı̂tre lorsque a tend vers 0 le phénomène dit de couche limite. Dans le cas
limite D = 0, sur une partie de la frontière où la vitesse est sortante, l’équation ne “voit” pas
la condition limite, puisque qu’il n’est pas licite de prescrire la valeur de ρ en un tel point.
On aura en général pour des nombres de Péclet grands apparition de très forts gradients de
ρ au voisinage de ces zones.
6. Cette technique est couramment utilisée numériquement pour imposer, dans le cadre des méthodes
d’éléments finis, des conditions de Dirichlet sans changer la structure de la matrice : il s’agit de la méthode de
pénalisation frontière.
19
Adimensionnement des équations de transport diffusion.
Le nombre de Péclet peut être introduit de la façon suivante : on considère une substance qui
se propage par advection et diffusion (champ u et paramètre a), dans un domaine de taille
caractéristique L. On note note U l’ordre de grandeur du champ advectant, et T = L/U un
temps caractéristique (temps mis par une particule pour être déplacée par advection d’une
longueur caractéristique). Écrire l’équation en variables adimensionnées consiste à introduire
les variables de temps et d’espaces (sans dimension) t⋆ = t/T et x⋆ = x/L. On note par
ailleurs u⋆ = u/U . Dans ces nouvelles variables, l’équation s’écrit
∂ρ 1 ⋆
⋆
+ ∇⋆ · (u⋆ ρ) − ∆ ρ = 0,
∂t Pe
Exemple 1.2. (Couche limite)
On considère l’équation de convection-diffusion stationnaire (la dérivée partielle par rapport
au temps est égale à 0) sur l’intervalle ]0, L[, avec une vitesse constante égale à 1, et des
conditions aux limites ρ(0, t) = 1, ρ(L, t) = 0 :
∂x ρ − a∂xx ρ = 0.
La fonction ρ ne dépendant plus du temps, on note ρ′ et ρ′′ les dérivées en x. On déduit de
l’équation de convection diffusion stationnaire que ln |ρ′ | est affine de pente 1/a, d’où, après
prise en compte des conditions aux limites,
x−L
1−e a
ρ(x) = L .
1 − e− a
On vérifie que cette fonction, qui prend la valeur 0 en x = L, tend uniformément vers 1 sur
tout intervalle du type [0, L − η], avec η > 0.
L’équation d’advection diffusion peut aussi s’obtenir dans certains contextes à partir d’un
processus de diffusion pure.
Considérons par exmple un processus de diffusion dans Rd sous une hypothèse de symétrie
radiale : ρ̃(x, t) = ρ̃(r, t). L’équation sur ρ̃ s’écrit
D
∂t ρ̃ − D∆ρ̃ = 0 , soit ∂t ρ̃ − ∂ r d−1 ∂r ρ̃ = 0.
d−1 r
r
Plus généralement, on peut considérer un processus de diffusion radial dans un espace où la
mesure de la sphère de rayon r est donné. Notant ω(r) cette mesure, on obtient la forme
générale
D
∂t ρ̃ − ∂r (ω(r)∂r ρ̃) = 0.
ω(r)
Notons 7 maintenant ρ la densité linéique de masse à distance r de l’origine, ρ = ω(r)ρ̃ (de
telle sorte que ρ(r) dr est la quantité totale de matière contenue entre les sphères de rayons
r et r + dr). Cette nouvelle quantité vérifie l’équation
ω′
∂t ρ − D∂rr ρ + D∂r ρ = 0.
ω
7. Approche suggérée par B. Merlet.
20
On obtient ainsi une équation d’advection diffusion avec une vitesse centrifuge V (r) égale
à Dω ′ /ω. Cette advection centrifuge de nature purement diffusive est liée au fait que, dans
cette formulation sur la variable ρ de densité par unité de distance à l’origine, la diffusion est
décalée vers les r croissants, puisqu’il y a plus de place lorsque l’on s’éloigne de l’origine (le
volume de la couronne entre r et r + dr est plus grand que celui entre r − dr et r. Dans le
cas de Rd , pour d ≥ 2, on a V = D(d − 1)/r.
21
2 Fluides
F (n) = σ · n.
Le mouvement d’un fluide qui admet partout un tel tenseur peut être formalisé par une
équation très générale. On note ρ = ρ(x, t) la densité locale (masse par unité de volume),
par u la vitesse 10 , et par f une force en volume agissant sur le fluide (typiquement la gravité
f = ρ g). On considère un système matériel ω(t), c’est à dire à ensemble de particules que l’on
suit dans leur mouvement 11 . Le principe fondamental de la dynamique (ou loi de Newton)
exprime que la dérivée en temps de la quantité de mouvement pour ce système est égal à la
somme des forces extérieures :
Z
d
ρu = somme des forces extérieures. (2.1)
dt ω(t)
R
Le membre de droite est la somme de la contribution des forces en volume ω f , et le bilan
des forces exercées sur ω par le fluide à l’extérieur de ω, qui s’écrit, d’après la définition 2.1,
Z Z
σ·n = ∇ · σ.
∂ω ω
8. Dans ce cas extrême, mais très utile en pratique (la dimension 1, très pauvre pour les fluides incompres-
sibles, permet d’étudier de façon fine les modèles de fluides compressibles), il n’y a évidemment pas lieu de
faire tendre la mesure vers 0.
9. On pourra remplacer ici le terme de tenseur par matrice, et considérer que σ · n, qui représente la
contraction de deux tenseurs, correspond à un simple produit matrice vecteur, que l’on verra noté σn dans
certains documents.
10. Précisons que le fait de considérer qu’une telle vitesse puisse être définie en tout point est une hypothèse
très forte. Par ailleurs, comme dans le cas de la définition du vecteur flux (voir définition 1.1, page 11),
parler de vitesse véritablement ponctuelle n’a pas de sens autre qu’abstrait puisque, pour les fluides réels (en
particulier pour les gaz) à une échelle inférieure à la taille intermoléculaire, la matière ne peut être vue comme
un continuum : la plupart des “points” sont en fait dans le vide, et cela n’a pas de sens de définit une vitesse,
dans ce contexte, en l’absence de matière. L’hypothèse sous-jacente est qu’il existe une échelle mésoscopique
telle que l’on puisse définir à chaque instant une vitesse moyenne sur des volumes élémentaires représentatifs
à cette échelle.
11. Si on se donne un sous-domaine ω(0) comme position initiale du système matériel, on a
22
Le membre de gauche de 2.1 s’écrit donc (voir équation (A.12), page 254)
Z Z Z
d ∂(ρu)
ρu = + ρu(u · n),
dt ω(t) ω(t) ∂t ∂ω(t)
où u ⊗ u représente la matrice symétrique (ui uj )i,j . Comme le système matériel est arbitraire
(en particulier aussi petit qu’on veut), on en déduit l’équation générique suivante :
Remarque 2.4. On peut légitimement se demander s’il est acceptable d’écrire des dérivées en
espace et en temps de quantités scalaires ou vectorielles dont on n’a pas précisé les régularités.
Le notion de solution faible de telles équation permet de donner un sens à ce qui précède,
même dans le cas de champs peu régulier. Montrons en particulier que l’équation générale
écrite ci-dessus (nous ne garderons ici que la partie inertielle) peut être interprétée comme
généralisant la loi fondamentale de la dynamique pour des points matériels, si on lui donne
un sens pour des distributions de matière ρ singulières. On se place en dimension 1 pour
simplifier, on considère t 7→ ρt une courbe de mesures positives de même masse (par exemple
des mesures de probabilité), on note ut le champ de vitesse au temps t, donné comme fonction
ρt -mesurable, et g un champ de force par unité de masse. On dira que (ρt , ut ) est solution
faible de
∂t (ρt ut ) + ∂x (ρt u2t ) = ρt g
sur ]0, T [ si
Z T Z Z T Z Z T Z
2
− ∂t ϕut dρt − ∂x ϕ (ut ) dρt = gdρt ,
0 R 0 R 0 R
pour toute fonction ϕ régulière à support compact sur ]0, T [×R. Prenons maintenant le cas
d’une particule de masse m, soumise à l’action d’une force mg, et dont la trajectoire est x(t).
L’expression du principe fondamental de la dynamique pour cette particule est mẍ = f . On
représente cette particule de façon Eulerienne par une mesure ρt = mδx(t) , et l’on note u(t)
sa vitesse. La masse étant concentrée, il est en effet naturel de voir le “champ” de vitesse
23
(qui est une fonction ρt -mesurable) comme un simple scalaire fonction du temps. Écrivons la
formulation faible ci-dessus appliquée à ρt , u(t). On obtient
Z T Z T
− m ∂t ϕ(x(t), t) ut − ∂x ϕ(x(t), t) u(t)2
0 0
Z T Z T
=− ∂
m u(t) t ϕ(x(t), t) ut + ∂x ϕ(x(t), t) ut =
mgϕ(x(t), t).
0 | {z } 0
dϕ(x(t),t)/dt
Un fluide parfait est caractérisé par le fait que, si l’on reprend la définition du tenseur
des contraintes, la force exercée sur le disque infinitésimal Dε (n) est dirigée suivant n, et son
intensité ne dépend pas de l’orientation.
σ(x) = −p Id,
24
Pour un tel fluide, on a
−∇ · σ = ∇ · (p Id) = ∇p,
ce qui conduit à l’équation d’Euler
∂
(ρu) + ∇ · (ρu ⊗ u) + ∇p = f.
∂t
Dans le cas d’un fluide homogène (ρ est uniforme) et incompressible (le champ de vitesse
est à divergence nulle), on a
∇ · (ρu ⊗ u) = ρ (u · ∇) u,
où (u · ∇) u est tel que
d
X ∂ui
((u · ∇) u)i = uj .
j=1
∂xj
∂u
ρ + ρ (u · ∇) u + ∇p = f
∂t (2.3)
∇·u = 0
L’apparente simplicité de cette équation, obtenue en faisant des hypothèses très fortes sur
le fluide, est trompeuse. Un fait particulièrement troublant la concernant est lié au paradoxe
de Scheffer-Schnirelman 12 : on peut construire une solution du système ci-dessus, sans forçage
(f = 0), non nulle, à support compact en espace temps.
25
Démonstration. On a
d d
! !
X X 1X X |u|2
((u · ∇) u) · u = ui uj ∂j ui = uj ∂j |ui |2 = u·∇ .
i=1 j=1
2 j i
2
On a donc, en prenant le produire scalaire avec u de la première ligne de (2.3), sans le terme
de dérivée en temps (supposé nul),
ρ 2
u·∇ |u| + p + Φ = 0,
2
d’où la propriété annoncée.
Une autre manière de fermer 13 les équations d’Euler est de supposer un lien univoque
entre la densité et la pression. On obtient alors le
Équations de l’acoustique
Le modèle précedent permet d’obtenir formellement l’équation des ondes, ce qui permet
de modéliser la propagation du son dans un fluide compressible.
On se propose ici de montrer formellement comment l’on peut passer des équations d’Euler
pour un gaz compressible à l’équation des ondes qui va modéliser la propagation d’ondes au
sein de ce milieu. Le point de départ est donc le système d’Euler
∂t ρ + ∇ · (ρu) = 0,
∂
(ρu) + ∇ · (ρu ⊗ u) + ∇p = 0,
∂t
13. Il peut être très délicat de montrer rigoureusement existence et unicité d’une solution aux équations
obtenues, mais cette approche permet d’avoir autant d’équations (d + 2) que d’inconnues (d pour la vitesse,
1 pour la densité, 1 pour la pression), de telle sorte que le modèle obtenu puisse être considéré comme un
problème, c’est à dire un système d’équations pour lequel on peut espérer obtenir, sous certaines hypothèses,
des résultats théoriques. On peut qualifier ce problème de posé, en attente d’être bien posé (expression que
l’on réserve aux problèmes pour lesquels on a au moins un résultat d’existence et d’unicité, conditionné à
d’éventuelles conditions sur l’état initial et le forçage).
26
avec p = p(ρ). On considère que les différentes variables restent au voisinage de valeurs de
références ρ0 , p0 , et u0 = 0 pour la vitesse, et l’on garde les notations ρ, p et u pour désigner
les (petites) variations au voisinage de ces valeurs. On suppose en outre (on peut montrer
que cette hypothèses est réaliste dans un grand nombre de situations) le régime barotrope,
c’est à dire que la pression est supposée ne dépendre que de la densité : p = p(ρ). On notera
β = p′ (ρ0 ). On réécrit les équations ci-dessus en ne conservant que les termes d’ordre 1 dans
les petites variations :
∂t ρ + ρ0 ∇ · u = 0,
ρ0 ∂t u + ∇p = 0.
On a
∇p = p′ (ρ)∇ρ ≈ p′ (ρ0 )∇ρ = β∇ρ,
ce qui permet d’éliminer la pression dans la seconde équation. Si l’on prend maintenant la
divergence de la seconde équation, la dérivée partielle par rapport au temps de la première ,
et que l’on fait la différence, on obtient
∂tt ρ − β∆ρ = 0,
avec β = p′ (ρ0 ), c’est-à-dire une équation des ondes sur la (petite variation de la) densité.
On aura donc propagation d’ondes au sein du fluide, à la célérité c, avec c2 = β. Dans le cas
d’un gaz comme l’air, supposé parfait, de coefficient isentropique γ = 1.4, on a
γ
p ρ p0
= et donc β = p′ (ρ0 ) = γ .
p0 ρ0 ρ0
On obtient dans des conditions normales (p0 = 105 Pa, ρ0 = 1.2 kg m−3 ),
r
γp0
c= ≈ 341 ms−1 .
ρ0
Les fluides dits réels présentent une certaine résistance à la déformation. Pour quantifier
cette déformation, on considère une particule de fluide évoluant au voisinage d’une trajectoire
t 7→ x(t). La vitesse au voisinage de x s’écrit
27
+
Le modèle le plus simple de fluide réel (nous nous limiterons ici au cas incompressible) est
obtenu en considérant que le tenseur des contraintes est, à la contribution diagonale associée
à la pression près, proportionnel au tenseur des taux de déformation :
on a !
d
X ∂uj
∇ · (u ⊗ u) = ∇ · (ui uj )i,j = ui .
i=1
∂xi
1≤j≤d
28
Cette quantité exprime la dérivée de la vitesse dans sa propre direction, on la note (u · ∇) u (on
peut comprendre cette notation en considérant le bloc u · ∇ comme un opérateur différentiel
scalaire u1 ∂1 + · · · + ud ∂d qui s’applique composante par composante au vecteur u lui même).
Definition 2.12. Le nombre Re = ρU L/µ est appelé nombre de Reynolds. Il quantifie l’im-
portance relative des effets inertiels par rapport aux effets visqueux.
Quand ce nombre (sans dimension) est petit devant 1, on peut considérer que les effets
inertiels sont négligeables, de telle sorte que la loi de Newton est remplacée par un équilibre
des forces instantané
29
Si l’on considère la situation où le fluide remplit un domain délimité par des murs phy-
siques imperméables, on considère en général 14 que le fluide accroche à la paroi, ce qui
s’exprime sous la forme de conditions de Dirichlet homogènes u = 0 sur la frontière ∂Ω.
Les écoulements en milieu poreux tiennent une place un peu particulière dans les modèles
fluides, du fait qu’il mettent en jeu deux phases : l’une est constituée par un fluide visqueux
incompressible, et l’autre est une matrice 15 rigide et fixe (typiquement un amas tridimen-
sionnels de grains rigides), au travers de laquelle le fluide est susceptible de s’écouler. Même
si le fluide est peu visqueux, le fait que l’écoulement du fluide se fasse à une échelle très petite
(au travers des pores du milieu) permet dans un grand nombre de situations de négliger les
effets inertiels : le nombre de Reynolds local est très petit (voir définition 2.12). On a alors
une relation de proportionalité entre flux de fluide et gradient de pression. Plus précisément,
Darcy a mis en évidence (voir figure 2.2) que le flux d’eau s’écoulant au travers d’un milieu
poreux (grains de sable) dépendait linéairement de la différence de pression entre l’entrée et
la sortie du domaine. L’écriture locale de cette relation conduit à
On dit que cet écoulement suit la Loi de Darcy s’il existe k, appelé perméabilité du milieu,
tel que
u = −k∇p,
où µ est la viscosité du fluide, p la pression au sein du fluide, et u est la vitesse moyenne
locale.
14. Cette hypothèse peut être invalidée dans certaines circonstances. Il est parfois plus pertinent d’utiliser
les conditions dites de Navier, qui préservent la condition de non pénértration du fluide dans la paroi, mais
autorisent une vitesse tangentielle non nulle.
15. Au sens bien sûr bassement matériel du terme : il s’agit de décrire une phase solide et immobile quels
que soient les efforts exercés sur elle par le fluide.
16. On dit que le mieu est saturé si l’espace libre est entièrement occupé par le fluide visqueux. La proportion
d’espace libre est appelée porosité, notée Φ en général. Une valeur typique de Φ est 0.64, qui correspond au
Maximal Random Packing pour des sphères de même taille (cas monodisperse), distribuée “aléatoirement”. Le
sens de aléatoirement ci-dessus est loin d’être trivial, on pourra pour plus de détails se reporter à :
S. Torquato, T. M. Truskett, P. G. Debenedetti, Is Random Close Packing of Spheres Well Defined ?, PRL
Vol. 84, No 10, [Link]
16. L’étude des milieux non saturé n’est pas abordée ici. Précisons simplement que l’abandon de l’hypothèse
de saturation conduit à des problèmes extrêmement complexes du fait que, l’écoulement fluide au niveau des
pores se faisant à petite échelle, les effets de tension surfacique (conditionnés par la nature du fluide, des
surfaces solides, et potentiellement du gaz environnant) ne sont en général pas négligeables.
30
Figure 2.2 – Description de l’expérience de Darcy (1856)
(
u + k∇p = U
(2.6)
∇·u = 0
où p est la pression au sein du fluide, u la vitesse de Darcy (voir remarque 2.16) , k = K/µ
la perméabilité, et µ la viscosité du fluide. Nous avons noté U la force en volume exercée sur
le fluide (c’est plus précisément U/k qui est homogène à une force par unité de volume).
Nous considérons un milieu poreux dont les bords sont “ouverts” (le fluide peut sortir du
domaine ou y rentrer), et la pression au niveau du bord est imposée. On cherche un champ
de vitesse u et un champ de pression p définis sur Ω tels que
u + ∇p = U dans Ω,
∇·u = 0 dans Ω, (2.7)
p = 0 sur Γ,
31
où U est un champ de force donné. On se place sur l’espace en vitesses V = L2 (Ω)2 . On pose
Λ = H01 (Ω), et l’on introduit l’application B de V dans Λ′ = H −1 qui à v ∈ V associe la
forme linéaire Bv définie par Z
hBv , qi = v · ∇q.
Ω
On définit alors K = ker B, et le problème de minimisation sous contrainte s’écrit
Z
2 2 H01 (Ω)
u ∈ K = v ∈ L (Ω) , v · ∇q = 0 ∀q ∈ ,
Ω
Z Z (2.8)
1
|v|2 −
J(u) = inf J(v),
avec J(v) = v · f.
v∈K 2 Ω Ω
Il reste à vérifier que le problème de point-selle associé est bien posé. En effet, l’application
B est surjective, car son adjoint B ⋆ : q 7−→ ∇q est tel que
|B ⋆ q| = |∇q|L2 (Ω) ≥ α |q|H 1 (Ω) ,
0
d’après l’inégalité de Poincaré 22.43, page 228, ce qui assure bien la surjectivité de B selon la
proposition 19.23, page 195. D’après la proposition 23.7, page 239, on a donc existence d’un
multiplicateur de Lagrange p tel que u + ∇p = U , qui est unique du fait du caractère injectif
du gradient sur H01 (Ω).
Nous allons maintenant préciser comment ce problème rentre le cadre de ce qui a été vu
précédemment, en repartant du point de départ usuel qui est le problème de minimisation
sous contrainte, puis en reconstruisant le problème de Stokes tel qu’énoncé ci-dessus à partir
de la formulation point-selle.
32
On considère le problème de minimisation sous contrainte
u ∈ K,
(2.10)
J(u) = inf J(v),
v∈K
En vue d’écrire ce problème sous la forme d’une recherche de point-selle, nous introduisons
maintenant l’espace Z
Λ = L20 (Ω) = p ∈ L2 (Ω) , p=0 ,
Ω
et l’opérateur
B : v ∈ V 7−→ Bv = −∇ · v.
L’espace K peut s’écrire
Z
K= v∈V , − q∇ · v = 0 ∀q ∈ Λ ,
Ω
33
Lemme 2.21. Soit Ω un domaine connexe, borné, de frontière Γ Lipschitzienne, et soit q
dans L20 (Ω). Il existe v ∈ H01 (Ω) tel que ∇ · v = q.
Remarque 2.22. Comme il a été précisé, établir l’existence et l’unicité d’une solution pour
le problème de Stokes en formulation vitesse-pression est plus délicat que pour le problème de
Darcy. Cette différence peut se préciser ainsi : dans le cas de Darcy, la démonstration repose
sur une inégalité qui assure l’injectivité de B ⋆ et le caractère fermé de son image. L’opérateur
B ⋆ va de H01 (Ω) dans L2 (Ω)2 , et l’inégalité est conséquence directe de l’inégalité de Poincaré
qui est vérifiée dès que Ω est borné dans une direction (voir proposition 22.43, page 228).
Dans le cas de Stokes, la surjectivité de l’opérateur B peut être établie comme conséquence
directe d’une inégalité à première vue très similaire, l’opérateur B ⋆ étant toujours dans un
certain sens l’opérateur de gradient, mais vu cette fois comme un opérateur de L2 (Ω) dans
H −1 (Ω) = (H01 (Ω)N )′ . Cette inégalité peut s’écrire
On considère que le fluide adhère (u = 0) aux parois latérales. Le problème admet une solution
exacte qui peut s’écrire en coordonnées cylindriques :
!
r2 µU
u(x, y, z) = U 1− 2 ~ez , p(x, y, z) = −4 (z − z0 ), (2.13)
a a2
où U est la vitesse maximale (au centre). La pression est uniforme sur chaque section droite
du tuyau,. Cela conduit à une relation linéaire entre le flux Q est le saut de pression :
34
x
z
y
Pout
U
Pin
a2 π a4
Q = Uπ = (Pin − Pout ). (2.14)
2 8 µL
Cette relation s’appelle la Loi de Poiseuille, et s’écrit en général 17
Pin − Pout = RQ, (2.15)
avec
8µ L
R= . (2.16)
π a4
La résistance visqueuse s’exprime en Pa s m−3 , Les forces de viscosité dissipent l’énergie au
taux 18 Z
P = µ |∇u|2 .
Ω
Un calcul direct permet d’établir que P = RQ2 (on reconnaitrait un équivalent fluide de la
loi de Joule), où Q est le flux défini précédemment.
35
Les conditions en Γout et Γin sont appelées conditions de sortie libre, bien qu’elles concernent
également l’entrée de fluide (dans le cadre linéaire, il n’y a pas lieu de distinguer l’entrée de
la sortie). Elles expriment l’hypothèse que les deux composantes (amont Γin et aval Γout )
sont placées toutes deux en contact avec un milieu pression fixée, qui équilibre la contrainte
normale.
Par linéarité des équations de Stokes, ce flux dépend linéairement su saut de pression Pin −
Pout , et la résistance R = R(Ω) entre Γin et Γout est définie par
36
3 Piétons - Micro - ordre 1 en temps - approche granulaire
On suppose qu’une vitesse souhaitée Ui est attachée à chaque individu, et que la vitesse
effective de la population est la plus proche (pour la norme euclidienne) de la vitesse globale
souhaitée, parmi les vitesses admissibles. L’ensemble des vitesses admissibles est défini par 19
n o
Cq = v = (v1 , . . . , vN ) ∈ RN , qi+1 − qi − 2r = 0 =⇒ vi+1 − vi ≥ 0 .
Formulation point-selle
37
Proposition 3.1. Le problème consistant à minimiser la fonctionnelle J (définie par (3.5))
sur Cq (défini par (3.2)) est équivalent à la formulation point-selle suivante
u + B ⋆ p = U,
Bu ≤ 0,
(3.3)
p ≥ 0,
Bu · p = 0.
Démonstration. Les contraintes étant affines, elles sont automatiquement qualifiées (défini-
tion 23.21, page 244). La proposition 23.22 assure donc l’existence d’un vecteur p de multipli-
cateurs de Lagrange tel que le système (3.6) ci-dessus soit vérifié. Réciproquement, si (u, p)
est solution du système, le théorème 23.29, page 248 assure que ce couple est point-selle du
Lagrangien
1
L(v, q) = |v − U |2 + q · Bv,
2
et donc que u minimise la fonctionnelle quadratique sous la contrainte Bu ≤ 0 (d’après la
proposition 23.28, page 247).
Si l’on considère une rangée de personnes 1, . . ., N saturée, i.e. chaque individu est en
contact avec ses voisins la matrice des contraintes s’écrit
1 −1 0 . . . ...
0 1 −1 . . . ...
B=
.. ..
0 0 . . ...
0 0 ... 1 −1
Cette matrice exprime une version discrète de −∂x (opposé de la divergence en dimension
1), et B ⋆ correspond à ∂x (gradient). Dans le cas où toutes les contraintes sont saturées (par
exemple si l’on suppose que les vitesses souhaitées sont décroissantes : les personnes devant
ont tendance à aller moins vite que les personnes derrière), on aura Bu = 0, ce qui implique
BB ⋆ p = BU.
Remarque 3.2. Les remarques précedentes (sur le fait que B encode l’opposé d’une di-
vergence discrète) renforcent l’analogie formelle entre le problème (3.6) et le problème de
38
Darcy, telle qu’elle apparaı̂t pour modéliser les écoulements en milieux poreux (équation (2.6),
page 31, ou sous forme plus abstraite dans le cadre des réseaux résistifs (équation (4.1),
page 45).
Remarque 3.3. Cette formulation permet de comprendre, dans un contexte très simplifié,
les phénomènes d’accumulation de pression au sein d’une foule présentant des tendances
concentrantes (ce qui se traduit ici par une divergence de la vitesse discrète négative, i.e. BU
localement positif ). Si l’on considère par exemple le cas de N/2 personnes souhaitant aller vers
la droite, et N/2 personnes, sur leur droite, souhaitant aller vers la gauche, BU est la version
discrète d’une masse de Dirac au point de contact entre les deux populations, et le champ de
pression est de type affine par morceaux (fonction chapeau), avec une pression maximale au
point de jonction. Toute choses égales par ailleurs, la pression maximale tend vers +∞ quand
le nombre d’individu tend vers +∞, dans ce contexte de “mêlée” monodimensionnelle. Notons
aussi que le le caractère sphère dure du modèle considéré conduit à des effets non locaux,
avec propagation de l’information à vitesse infinie au sein du réseau de personnes. Dans
l’exemple ci-dessus, le chagement de vitesse souhaitée d’un individu particulier va changer
instantanément les vitesses réelles de tous les individus.
On représente comme précédemment les individus par des disques de rayon r, on introduit
le vecteurs des positions :
q = (q1 , q2 , . . . , qN ) ∈ R2N .
L’ensemble des configurations admissibles est défini par
n o
K = q ∈ R2N , Dij = |qj − qi | − 2r ≥ 0 ∀i 6= j .
Notons Gij = ∇Dij (q) le gradient de la fonction distance de i à j. Le cône des vitesses
admissibles associé à une configuration q est alors
Cq = {v , Dij (q) = |qj − qi | − 2r = 0 ⇒ Gij · v ≥ 0} . (3.4)
Noter que Gij ∈ R2N n’a que 4 composantes non nulles, correspondant aux positions des
individus i et j. Le modèle d’évolution exprime simplement le fait que la vitesse effective de
la population est la plus proche au sens des moindres carrés de la vitesse souhaitée :
q̇ = PCq U (q),
où PCq est la projection pour la norme euclidienne sur le convexe fermé Cq , définie de façon
unique (proposition 20.7, page 197) et stable (proposition 20.10).
39
r
r
−eij qi eij
Dij
qj
Formulation point-selle
où chaque ligne de la matrice B exprime une contrainte de non chevauchement entre deux
disques en contact dans la configuration courante. Plus précisément, pour 2 entités i et j en
contact, on définit le vecteur unitaire centre à centre (voir figure 3.1)
qj − qi
eij = .
|qj − qi |
Le gradient de la distance entre i et j, vue comme fonction de l’ensemble des degrés de liberté,
s’écrit
Gij = (0, . . . , 0, −eij , 0, . . . , 0, eij , 0, . . . , 0) ∈ R2N .
−Gij · u ≤ 0 ∀i ∼ j, (3.6)
p ≥ 0,
Gij · u > 0 =⇒ pij = 0.
40
j
i k
−Gij · u ≤ 0,
où Gij est le gradient de la distance Dij = |qj − qi | − ri − rj par rapport à q = (q1 , . . . , qN ).
L’opérateur discret B ⋆ a été identifié dans le cas de la dimension 1 à un gradient discret.
Considérons dans le cas présent une collection p de multiplicateurs de Lagrange. L’opération
−B ⋆ réalise l’action de ces forces d’interaction sur le réseau primal de degré de liberté associés
aux centres des particules. dans le cas d’une configuration structurée, (par exemple réseau
cartésien, ou réseau triangulaire comme représenté sur la figure 3.4) un champ de pression p
uniforme est de gradient discret nul sur les points intérieurs au réseau 20 . Cependant, dans le
cas général, (quand l’arrangement des disques ne présente pas de symétrie particulière), cette
propriété est invalidée. Par exemple dans le cas de la figure 3.2 on vérifiera immédiatement
que la somme des vecteurs unitaires pointant vers l’intérieur de chacun des deux grains en
gras n’est pas nulle. Le cas bidimensionnel non structuré présente une autre particularité.
Considérer le cluster représenté sur la figure 3.4. Le nombre de disques est 14, donc le nombre
20. On retrouve ici la version discrète d’annulation du gradient d’une fonction constante. Plus précisément,
pour comprendre la présence d’une résultante non nulle au bord, on peut penser, dans le cas continu, au gradient
faible d’une fonction caractéristique d’un domaine borné. Son gradient est effectivement nul à l’intérieur, nul à
l’intérieur de l’extérieur, mais il s’identifie globalement à une distribution vectorielle de simple couche supportée
par la frontière de l’ensemble.
41
de degrés de liberté primaux est 28, et le nombre de contacts (nombre de degrés de liberté
duaux) est 29. En conséquence, le noyau de B ⋆ ∈ M29,28 (R) est non trivial : il existe un
champ de pression non identiquement nul (mais nul au bord d’une certaine manière, selon la
remarque ci-dessus), induisant une force non nulle sur les grains 21 . Une conséquence de ces
comportements pathologiques est que l’opérateur discret BB ⋆ , que l’on pourrait être tenté
de considérer comme un Laplacien discret défini sur le graphe dual du réseau de disques
(représenté à droite de la figure 3.3) ne vérifie pas le principe du maximum : il peut exister
des champs de pression p tels que BB ⋆ ≥ 0 (i.e. les pressions contribuent à l’augmentation
de toutes les distances entre centre), alors que certaines composantes de p sont strictement
négatives.
Par analogie avec la méthode des différences finies, il est tentant de parler de stencil associé
à cet opérateur. Ce stencil est représenté sur la figure 3.2. La non vérification du principe
du maximum est due au fait que, lorsque l’on considère 3 particules i, j, et k, il peut arriver
que l’on ait
eij · ekj > 0,
où eij est le vecteur unitaire (qj − qi )/ | qj − qi |. Des exemples de tels vecteurs sont repré-
sentés sur la figure 3.2 en gras. Cette propriété est générique pour des collections de disques
congestionnées. Certains éléments extra diagonaux de la matrice BB ⋆ sont alors strictement
positifs, et ainsi la matrice BB ⋆ n’est pas une M -matrice 22 . Le réseau résisif associé à cet
21. On peut illustrer cette propriété de la façon suivante : si l’on considère par exemple deux disques rigides,
statiques, en contact (éventuellement collés entre eux) posés sur un support parfaitement glissant, on sait
que la force d’interaction entre eux est nulle. Ça n’est plus vrai pour la configuration de la figure 3.4 : il est
possible que les forces d’interactions soient non nulles. On peut en revanche montrer (grâce au théorème de
Hahn Banach) que ces forces ne peuvent pas être toutes positives
22. Une M -matrice est une matrice carrée dont tous les mineurs principaux sont strictement positifs, et
dont tous les éléments extra-diagonaux sont négatifs (au sens large). Tous les éléments de l’inverse d’une telle
matrice sont positifs, de telle sorte que Ap = b, avec b ≥ 0, implique p ≥ 0.
42
opérateur possède donc des résistances négatives : on retrouve la situation de certaines ma-
trices résultant de la discrétisation du Laplacien par éléments fini, sur un maillage contenant
des triangles amblygone 23 (voir section 17.6, page 176).
23. Terme désignant un triangle qui a un angle obtus, peu utilisé depuis quelques siècles, mais quand même
plus élégant que obtusangle.
43
4 Réseaux résistifs
Dans le cas de l’écoulement d’un fluide visqueux, c’est la pression aux nœuds qui jouera le
rôle du potentiel, dont la différence induit un flux selon la loi de Poiseuille (équation (2.15),
page 35). Pour un réseau électrique, c’est le potentiel électrique aux extrémités de chaque
arête qui induira le passage d’un courant électrique quantifié par son intensité. On peut aussi
imaginer des compartiments séparés par des interfaces faiblement perméables à une certaine
substance qui diffuse. Dans l’hypothèse de pressions partielles uniformes dans chaque com-
partiment, et de flux au travers des interface proportionnels aux sauts de pression partielle,
on aura aussi une représentation naturelle du phénomène de diffusion sous forme de réseau
résistif, où les pressions partielles jouent le rôle du potentiel électrique.
Dans tous les cas, on écrira le bilan de matière au sein du réseau (loi de Kirchhof, ou loi
des nœuds). Nous ferons par la suite la distinction entre des points internes, en lesquels la loi
de Krichhof s’applique, et les autres, au travers desquels le réseau est susceptible d’échanger
de la matière avec l’extérieur.
Un champ de pressions sur le réseau est une collection de réels associés aux sommets
(p ∈ RV ), et les flux sont définis sur les arêtes (u ∈ RE ). Les flux sont antisymétriques :
u(x, y) = −u(y, x).
24. On considèrera cependant que, dans les sommes sur l’ensemble des arêtes, on ne compte qu’une fois
chaque paire de points connectés.
44
où y ∼ x signifie que y est relié à x (i.e. (x, y) ∈ E).
Nous nous intéresserons dans la suite à des flux conservatifs, i.e. tels que du(x) = 0 pour
tout sommet x dans V̊ = V \ ({o} ∪ Γ). On défini l’adjoint formel 25 d⋆ (équivalent discret de
l’opérateur de gradient) comme
d : p ∈ RV 7−→ d⋆ p ∈ RE
d⋆ p(e) = p(y) − p(x).
Remarque 4.2. On établit immédiatement un équivalent discret du théorème de la divergence
Z Z
∇·v = v · n.
Ω ∂Ω
On a en effet, pour tout e = (x, y) ∈ E, u(x, y) + u(y, x) = 0, d’où, en sommant sur toutes
les arêtes, et en écrivant la somme sur les sommets :
X
du(x) = 0,
x
qui exprime simplement le bilan de matière sur l’ensemble du réseau. On peut l’écrire
X X
du(x) + du(x) = 0.
x∈V̊ x∈{o}∪Γ
Le premier terme est le pendant discret de (l’opposé de) l’intégrale de la divergence dans le
domaine, et le second terme est la somme pour tous les points du bord des flux qui sortent
par ces points, i.e. l’équivalent discret de l’intégrale sur la frontière de u · n.
(
u + cd⋆ p = 0 sur E
(4.1)
du = 0 sur V̊ .
où c (conductance) est 1/r, i.e. c(e) = 1/r(e) pour tout e ∈ E. On s’intéresse au problème
consistant à calculer les pressions et les flux sur l’ensemble du réseau, quand les pressions sont
prescrites en o et sur Γ. Après élimination de la vitesse, on obtient un problème de Poisson
discret pour la pression, avec conditions de Dirichlet :
dcd⋆ p(x) = 0 ∀x ∈ V̊ ,
p(o) = 0 (4.2)
p(x) = P (x) ∀x ∈ Γ,
où P est une collection de pressions prescrites sur la frontière Γ.
25. On a X XX X
q(x)dv(x) = q(x)v(y, x) = v(e) (q(y) − q(x)) .
| {z }
x x y e
d⋆ q(e)
45
Proposition 4.3. On suppose le réseau N connexe. Le problème (4.2) est alors bien posé.
minimisée sur l’espace affine HP ⊂ H des champs qui valent P sur Γ. Cette fonctionnelle J
est une forme quadratique définie positive dès que le réseau est connexe, car les champs qui
annulent J sont constants sur le réseau, et nuls en o.
On remarquera que X
a(p, p) = c(e) |p(y) − p(x)|2 ,
e
est le taux d’énergie effectivement dissipée au sein du réseau : la solution de (4.2) est, parmi
les champs de pression qui vérifient les conditions aux limites, celui qui induit une puissance
dissipée minimale.
Remarque 4.4. Noter que, dans le problème d’optimisation intervenant dans la preuve pré-
cédente, on n’impose pas la loi des nœuds sur les flux associés à la pression p. La conservation
au niveau des points interieurs est conséquence du caractère minimisant de p.
La résistance équivalente de N est définie comme R(N ) = 1/Q = 1/du(o). Par linéarité, le
flux associé à une pression uniforme P sur Γ vérifie P − 0 = RQ.
P = RQ2 ,
46
Démonstration. C’est une conséquence de la formule de Green discrète (sommation par par-
ties). L’énergie dissipée s’écrit
X
P = c(x, y)(p(x) − p(y))2
E
X X X X
= p(x) c(x, y)(p(x) − p(y)) + p(x) c(x, y)(p(x) − p(y)) (4.4)
x∈V̊ y∼x x∈{o}∪Γ y∼x
| {z }
=dcd⋆ p(x)=0
X X
= P dcd⋆ p(x) = −P du(x) = P du(o) = Rdu(o)2 ,
x∈Γ x∈Γ
Remarque 4.7. Précisons les similarités et différences entre ce cadre discret et le cadre
continu (équations de Darcy (2.6), page 31). La formle de Green utilisée précédemment
X X X
c(x, y)(p(x) − p(y))(q(x) − q(y)) = q(x) c(x, y)(p(x) − p(y)),
E x∈V y∼x
est analogue à la même formule dans un domain continu sans bord (par exemple pour l’espace
entier, ou un domaine périodique). De fait, la notion de frontière pour un réseau est arbitraire,
et nous n’avons d’ailleurs fait aucune hypothèse sur les sommets de Γ. En particulier, il
peuvent être situés au sein même du réseau, avoir un nombre arbitraire de voisins, etc . . .Nous
avons obtenu une sorte de terme de bord en décomposant l’ensemble des sommets entre V̊
et {o} ∪ Γ, et la formule obtenue n’a pas véritablement d’équivalent continu. En effet, la
transposition du cadre discret conduit à considérer le problème
−∆p = 0 in Ω \ X
où Ω est un domaine sans frontière, et X une collection finie (xi ) de points de Ω, avec une
valeur de pressions pi prescrite en xi , de telle sorte que
X
−∆p = ui δxi
i
qui serait l’équivalent discret de (4.4). Le problème est que cette expression n’a pas de sens,
car les points ont une capacité nulle en dimension d ≥ 2 (voir exercice 22.1, page 223).
Pour obtenir
R
une formule de Green avec termes de bords qui contiendraient un équivalent
discret de Γ ∂p/∂n), on doit introduire un ensemble d’ “arêtes frontières” E Γ , i.e. l’ensemble
des Γ arêtes qui contiennent un point de Γ On a alors
X X X
c(x, y)(p(x) − p(y))(q(x) − q(y)) = q(x) c(x, y)(p(x) − p(y))
E x∈V̊ y∼x
| {z }
=dcd⋆ p(x)
X X
+ q(x) c(x, y)(p(x) − p(y))
x∈{o}∪Γ y∼x
X X
= q(x)dcd⋆ p(x) − c(x, y)q(x)d⋆ p(e),
x∈V̊ e=(x,y)∈E Γ
47
qui est maintenant l’équivalent discret de
Z Z Z
∂p
k∇p · ∇q = − q∇ · k∇p + k .
Ω Ω Γ ∂n
Dans le contexte de circulation de flux étudié dans la section précédente, il est naturel
d’associer à un réseau N = (V, E, r) l’espace métrique défini de la façon suivante. En premier
lieu, on métrise V (relativement à E et r) en considérant que la longueur l’une arête e =
(x, y) ∈ E (donc la distance de x à y) est r(e). Pour deux points du réseaux non directement
connectés, on définit la distance entre eux comme la longueur du plus court chemin qui les
relie. On peut donner un peu de “corps” à cet espace métrique en considérant maintenant
chaque arête (x, y) comme un segment plein, ensemble de points définis de façon abstraite 26
comme
[e] = [x, y] = {(1 − θ)x + θy , θ ∈ [0, 1]} .
On dira que la distance d’un tel point à x (resp. y) est θ r (resp. (1 − θ)r). Ce choix définit
de façon immédiate une métrique sur la réunion des segments. On notera N le nouvel espace
métrique ainsi défini.
Soit un réseau N = (V, E, r) (voir définition 4.1), on considère la marche aléatoire sur V
associée aux probabilités de transitions πxy , définies par
c(x, y) X
πxy = , C(x) = c(x, y) , (4.5)
C(x) y∼x
26. Cette démarche peut en effet être menée dans un cadre assez abstrait : chaque segment de notre espace
métrique sera de fait isométrique à un segment de longueur r(e) dans Rd , mais il n’est pas nécessaire de plonger
le réseau dans l’espace euclidien pour définir le nouvel espace, pour lequel les points de bifurcation restent
des points abstraits, indépendamment de toute structure affine. On pourrait d’ailleurs décider de dédoubler
certaines arêtes, qui se retrouveraient confondues dans une réprésentation plate et rectiligne du réseau, mais
en restant différente pour N (la distance entre leurs milieux serait par exemple r).
48
où c(x, y) = 1/r(x, y) est la conductance de l’arête (x, y). La chaı̂ne de Markov associée est
irréductible dès que le réseau est connexe, ce que nous supposerons ici. Elle admet donc une
unique mesure stationnaire (voir théorème A.8, page 257), que l’on identifie immédiatement
comme C(x) (on normalise les résistances de départ de façon à ce que C soit effectivement
de masse totale égale à 1).
X0 = x , X1 , . . . , Xi ∈ Γ ∪ {o} ,
avec Xj ∈/ Γ ∪ {o} pour 0 < j < i. La valeur de P en Xi (qui est nulle si Xi = o) est
une variable aléatoire, dont on note p(x) l’espérance. On peut établir le lien suivant avec le
problème de Dirichlet (4.2).
Démonstration. Remarquons en premier lieu que les conditions de Dirichlet sont automa-
tiquement vérifiées par la probabilité p (quand x ∈ Γ ∪ {o}, l’indice i est 0, et la variable
aléatoire considérée est en fait déterministe). Considérons maintenant x ∈ V̊ . On a
X
p(x) = πxy p(y),
y∼x
de telle sorte que p est harmonique. Il s’agit donc nécessairement de l’unique solution du
problème de Dirichlet (4.2).
c(x, y)
P = (pxy )x,y∈V , pxy = for (x, y) ∈ E,
C(x)
−∆ = dcd⋆ = C (Id −P ) .
Cette propriété peut être utilisée pour obtenir une expression stochastique de la résistance
entre o et Γ. On considère le cas P ≡ 1. Le champ p défini précédemment est alors la
probabilité de fuite par Γ : pour x ∈ V , p(x) est la probabilité que la marche aléatoire issue
de x atteigne Γ avant o.
49
Proposition 4.10. On considère une marche aléatoire sur N = (V, E, r, o, Γ) issue de o,
avec des probabilités de transition données par (4.5). On a
1
= C(o) pesc , (4.6)
R
où pesc est la probabilité que la marche atteigne Γ avant de revenir en o, et R est la résistance
du réseau entre o et Γ (voir Def. 4.5).
On considère la marche aléatoire sur un réseau N = (V, E, r), dont les probabilités de
transition sont définies par (4.5). Partant d’une loi de probabilité p0 sur la position initiale,
on note pn la loi que suit la position de la particule à l’étape n, définie par
X
pn+1 (x) = πyx pn (y).
y∼x
Démonstration. On a !
n+1
X pn+1 (x)
S(p )= ϕ C(x).
x∈V
C(x)
Chaque terme de la somme s’écrit
! !
pn+1 (x) X c(x, y) pn (y) X c(x, y) pn (y)
ϕ C(x) = ϕ C(x) ≤ ϕ C(x)
C(x) y∼x C(x) C(y) y∼x C(x) C(y)
car ϕ est convexe.
On a donc finalement
X pn (y) X X pn (y)
n+1
XX pn (y)
S(p )≤ c(x, y)ϕ = c(x, y) = C(y),
x∈V y∼x C(y) y C(y) x∼y y C(y)
ce qui termine la preuve.
Corollaire 4.12. En prenant ϕ(a) = a log a, on obtient en particulier la décroissance de l’en-
tropie relative (ou divergence de Kullback-Leibler) de p relativement à la mesure stationnaire
C :
X ρ(x) ρ(x) X ρ(x)
S(p) = log C(x) = ρ(x) log .
x∈V
C(x) C(x) x∈V
C(x)
50
Plan de transport
Etant donnée une distribution de probabilité p0 définie sur les sommets d’un réseau résistif
N = (V, E, r), ce qui précède revient à définir un plan de transport vers une nouvelle mesure
discrète p1 . En effet, avec des notations naturelles, le plan γ ∈ RV+×V défini par
c(y, x) X
γyx = πyx p0 (y) , πyx = , C(y) = c(y, x) , c(x, y) = r(x, y)−1
C(y) x
transporte p0 vers p1 (on a γ = (γyx ) ∈ Πp0 ,p1 avec les notations du début de la section 15,
page 118).
On peut établir une équation d’évolution sur le réseau, en définissant de façon différente
la marche aléatoire : on considère que, pour τ ∈]0, 1], on reste sur place avec une probabilité
1 − τ , et l’on se déplace avec probabilité τ , le déplacement se fait alors selon la loi définie
par (4.5). On note pnτ la loi d’un point évoluant suivant ces principes, on a
X
pn+1
τ (x) = (1 − τ )pnτ (x) + τ πyx pnτ (y),
y∼x
d’où
pn+1
τ (x) − pnτ (x) X
= −pnτ (x) + πyx pnτ (y),
τ y∼x
On obtient une structure plus familière en considérant la variable ρ(x) exprimant la densité
de p relativement à la mesure stationnaire C (cette mesure stationnaire est de façon évidente
la même pour la marche aléatoire initiale, et pour cette nouvelle version alourdie), i.e. ρ(x) =
p(x)/C(x). En divisant l’équation précédente par C(x) on obtient
dρ X
(x) + ρ(x) − π(x, y)ρ(y),
dt y∼x
51
4.4 Modèle de flânage
Évolution pilotée par l’intérêt. On considère chaque travée affectée d’un score, qui quan-
tifie l’intérêt du promeneur pour la travée en question. On suppose que le promeneur arrivé au
noeud x est capable d’estimer, par vision directe, le score associé aux différentes arêtes issues
de x. On définit une marche aléatoire sur le réseau en affectant aux différentes possibilités
des probabilités proportionnelles au score, ce qui conduit à la définir la matrice de transition
suivante (on écrit a ∼ b si (a, b) ∈ E)
s(x, y)
X si y∼x
s(x, z)
K(x, y) = z∼x
0 si (x, y) ∈
/E
On se retrouve donc dans le cadre de la section 4.3, où les conductances sont ici remplacées par
des scores, mesurant l’intérêt relatif des différentes travées pour le flâneur. Ce modèle est de
façon évidente loin d’être satisfaisant, en particulier le flâneur ainsi modélisé est d’une certaine
manière sans mémoire : il est susceptible de revenir sur ces pas, pour revisiter la travée qu’il
vient de quitter. Nous décrivons ci-dessous quelques extensions possibles du modèle, de façon
à le rendre plus réaliste (au prix d’un éloignement du cadre formel décrit dans la section 4.3).
Extensions.
Le parcours effectif d’une personne dans un tel contexte peut difficilement se concevoir
comme un processus purement Markovien, tel que décrit ci-dessus. Il est raisonnable d’intégrer
des ingrédients supplémentaires dans le modèle d’évolution, notamment :
Une heuristique simple pour gérer ces différents points est la suivante :
On se donne une matrice de scores à l’instant n : S n = (s(x, y)) ∈ RE + . Partant d’un point
x, on récupère les scores de la ligne correspondant à x : (s(x, y)). Venant de z, on multiplie le
score s(x, z) par un facteur d’inhibition fback ∈ [0, 1[. On note ns le nombre de pas effectués
52
sans avoir changé de direction. On prend en compte la persistence en multipliant le score de
(x, ys ) par un facteur du type
fs = 1 + k exp (−ns /Ns ) ,
où Ns est une longueur typique de trajectoire rectiligne avant changement de direction. On
calcule ensuite les probabilités de transition en normalisant les scores. Si le sommet suivant
est y, on multiplie le score s(x, y) par un facteur d’inhibition fm ∈ [0, 1[ qui prend en compte
la réduction de l’intérêt que l’on accorde à une travée déjà visitée.
On considère un réseau N = (V, E, Γ) (la racine n’est plus ici distinguée comme un point
particulier de la frontière) plongé dans l’espace euclidien Rd , c’est à dire que chaque sommet
de V est associé à un point x de Rd , et les côtés sont associés aux sommets entre ces points. On
suppose que la correspondance Sommet 7→ Point est injective, et on suppose que les segments
ne se croisent pas 27 . Nous simplifierons les notations en ne faisant pas de distinction entre les
sommets du réseau abstrait et les points de Rd associés. On considère une collection de flux
u ∈ RE supposée obéir à la loi de Kirchhof sur les sommets intérieurs. On note ~e la mesure
vectorielle associée à l’arête e. Plus précisément, pour tout
y−x
e = (x, y) ∈ Rd × Rd , ne =
|y − x|
on définit la distribution vectorielle (ou mesure vectorielle) ~e comme
Z
ϕ ∈ Cc∞ (Rd )d 7−→ h~e , ϕi = ϕ · n.
e
Proposition 4.13. La mesure vectorielle G définie par
X
G= u(e) ~e (4.8)
e∈E
où la divergence d’une mesure vectorielle est la distribution d’ordre 1 définie par
h∇ · G , ϕi = −hG , ∇ϕi ∀ϕ ∈ D(Rd ).
X Z y X X X
=− u(e) ∂ϕ/∂s ds = − u(e) (ϕ(y) − ϕ(x)) = ϕ(x) u(x, y)
e∈E x e∈E x∈V y∼x
X X
=− du(x)ϕ(x) = − du(x)hδx , ϕi,
x∈V x∈Γ
d’où la propriété annoncée.
27. Si d = 2, le graphe est alors qualifiée de planaire.
53
Remarque 4.14. Dans le cas où Γ se décompose en Γ0 (entrée) et Γ1 (sortie), qui portent
respectivement les mesures (positives, de même masse) µ0 et µ1 , considérées comme des flux,
et auxquelles on associe les mesures atomiques (on garde la même notation)
X X
µ0 = µ0 (x)δx , µ1 = µ1 (x)δx ,
x∈Γ0 x∈Γ1
Le cadre introduit dans la section précédente permet de formaliser une classe très générale
de problèmes, qui n’ont été considérés que récemment, et qui suscitent de fait un grand
nombre de questions encore ouvertes 28 . On considère deux mesures atomiques µ0 et µ1
sur Rd , de supports finis (et disjoints, pour simplifier), de même masse totale (par exemple
1), et l’on note Λµ0 ,µ1 l’ensemble des réseaux (V, E, Γ) plongés dans Rd (les sommets sont
identifiés à des points de Rd , et les arêtes à des segments 29 reliant ces points), tels que
supp(µ0 ) ∪ supp(µ1 ) = Γ. Pour tout N ∈ Λµ0 ,µ1 , tout champ de flux u ∈ RE , on note Gu
la mesure vectorielle associée à u (on considérera que la notation u encode non seulement le
champ des valeurs des flux, mais aussi le réseau N sur lequel ils sont définis) selon (4.8) (voir
section 4.5). On dira que u est admissible, ce qu’on écrira u ∈ Πµ0 ,µ1 , si
∇ · Gu = µ0 − µ1 , (4.9)
54
où α est un nombre positif ou nul, et |e| est la longueur de l’arête e.
Les problèmes de transport branché tels qu’on les conçoit généralement portent sur le
cas d’une puissance inférieure à 1, qui exprime une diminution du coût de transport par
mutualisation de l’usage des segments (on peut penser à un réseau routier). Le cas α = 0
correspond au problème dit de Steiner, qui consiste à trouver un réseau reliant tous les
points, en minimisant la longueur totale du réseau. Le cas α = 1 correspond essentiellement
au problème de Monge, pour le coût associé à la distance euclidienne (qui correspond à la
distance W1 ). Le cas général α ∈]0, 1[ correspond à un domaine des mathématiques à part
entière 32 .
Plus précisément, si l’on considère que les bronches d’une même génération n ont la même
30. Le fait que les fils, selon nos hypothèses, doivent être rectilignes, ne pose pas de problème, on peut
construire un faisceau de fils distincts, en considérant des trajets affines par morceau.
31. On peut faire un lien avec le fait que la diffusion dans un domaine continu, par exemple d’une source
ponctuelle à un puit ponctuel, tend à uniformiser les flux, ce qui correspond d’une certaine manière à une
infinité de fils conducteurs en parallèle.
32. Voir : M. Bernot, V. Caselles, J.-M. Morel, Optimal Transportation Networks, Models and Theory,
Lecture Notes in Mathematics.
55
r0 r 0 = r0
r1 r1 r 1 = r1 /2
r2 r 2 = r2 /4
r3 r 3 = r3 /8
r4 r 4 = r4 /16
Si l’on suppose que l’arbre est de plus géométrique, i.e. les dimensions des bronches évoluent
géométriquement au fil des générations (paramètre d’homothétie λ d’une génération à la
suivante), on a
N
X 1 1
R = r0 . (4.12)
k=0
2k λ3k
Remarque 4.16. Remarquer que cette serie diverge dès que λ est inférieur à 2−1/3 . Selon
les données expérimentales, λ est estiùé autour de 0.85 > 2−1/3 (≈ 0.79), de telle sorte que
le poumon “réel” semble se situer dans la zone de convergence. ). Mais, pour la même raison,
la série des volumes (d’ordre 2k λ3k pour la génération k) diverge, de telle telle sorte que le
poumon infini extrapolé remplit (très largement, d’une certaine manière, du fait de l’inagalité
stricte) l’espace euclidien.
33. B. Mauroy, M. Filoche, E. R. Weibel, [Link], An optimal bronchial tree may be dangerous, Nature,
427, 633-636, 12 February 2004.
56
On note U =]0, +∞[N +1 , et l’on s’intéresse à la minimisation de la fonction R(u) sur l’en-
semble
K = {u = (u0 , u1 , . . . , uN ) ∈ U , V (u) ≤ M }
où M > 0 est donné (volume maximal : volume de la cage thoracique).
a) Montrer que l’infimum de R sur K est strictement positif, et qu’il est atteint en un point
u ∈ K unique.
Nous donnons ici quelques éléments sur l’étude de réseaux infinis, en prolongement direct
de ce qui a été vu précédement. On considère un réseau N = (V, E, r, o), où V est un ensemble
dénombrable de sommets, et o un sommet particulier. On supposera que le degré (nombre
de voisins) des sommets est uniformément majoré, et que le réseau est connexe. On notera la
disparition de Γ dans la définition ci-dessus : l’un des problèmes essentiels dans ce contexte
est précisément de déterminer si l’infini (dans un sens à préciser) est susceptible de jouer le
rôle de cette frontière Γ. On définit l’espace d’énergie
( )
X 2
V
H= q ∈ R , q(o) = 0 , c(x, y) |q(y) − q(x)| < +∞ ,
e
qui est un espace de Hilbert pour la norme associée canoniquement à la condition d’apparte-
nance, et
H0 = D,
adhérence des champs à support fini dans H.
On peut définir la résistance R ∈]0, +∞] de ce réseau (sous entendu : entre o et l’infini)
comme la limite quand N tend vers +∞ de RN , resistance du sous-réseau des points à dis-
tance 34 au plus N de o (avec ΓN défini comme l’ensemble des sommets à distance exactement
N de o).
57
On notera que l’équivalence entre (i) et (ii) est une généralisation de la proposition 8.1,
page 88, qui se limitait au cas d’un réseau linéaire infini dans une direction.
Des chercheurs japonais 36 ont récemment mis en évidence la capacité de certaines moisis-
sures à constituer des réseaux de transport de nourriture qui présentent à la fois une certaine
forme d’optimalité globale et une grande robustesse (vis-à-vis par exemple de la disparition
brusque d’une branche). Ils ont proposé un modèle dynamique d’évolution d’un réseau exis-
tant basé sur les principes suivants. Le point de départ est un réseau résistif, qui réalise le
transport d’un flux entre des points-sources et des points-puits, que l’on définit comme Γ0
et Γ1 , sous-ensemble de l’ensemble des sommets V . On note µi ∈ RΓi , i = 0, 1, les flux
correspondants (tous deux identifiés à des mesures positives).
La loi des nœuds est vérifiée en tout point intérieur au réseau, et le flux au travers d’un
côté est régi par une loi de type Ohm (ou Poiseuille)
D
u(x, y) = (p(x) − p(y)),
L
où L est la longueur de l’arête, et D une mesure de sa conductivité 37 . Pour un réseau donné,
avec sa collection de conductivités Dij , et une collection de flux d’entrée et de sortie prescrits,
on peut calculer les pressions et flux au travers des arêtes en résolvant un problème de Darcy
discret avec condition de flux imposé
u + cd⋆ p = 0 sur E,
du = 0 sur V̊ ,
(4.13)
du = −µ0 sur Γ0
du = µ1 sur Γ1
Noter que, avec des notations évidentes, on peut regrouper les trois dernières équations en
du = −µ0 + µ1 sur Γ.
On peut éliminer les flux pour se ramener à un problème de Poisson sur la pression
Remarque 4.18. On notera l’absence de conditions aux limites dans le problème ci-dessus.
On peut retrouver une analogie avec un problème aux limites sous forme standard en dis-
tinguant les points intérieurs des points sur Γ0 et Γ1 . On écrira alors que la fonction est
harmonique sur les points intérieurs, et vérifient sur les bords des conditions de type Neu-
man :
du(x) = −dcd⋆ p(x) = −µ0 sur Γ0 ,
36. A. Tero, S. Takagi, T. Saigusa, K. Ito, D. P. Bebber, M. D. Fricker, K. Yumiki, R. Kobayashi, T.
Nakagaki, Rules for Biologically Inspired Adaptive Network Design, SCIENCE, Vol. 327, 2010.
[Link]
37. Pour un écoulement fluide au travers de tuyaux à section circulaire, D représenterait le diamètre à la
puissance 4, voir l’équation (2.16), page 35.
58
mais comme on le voit, dans le cadre discret, ce choix ne fait que compliquer l’écriture. En
fait, dans le contexte discret, la frontière étant un sous ensemble de points de même nature
que les points intérieurs, on peut considérer que les conditions aux limites de Neuman n’ont
lieu d’être considérées, puisque tout problème à flux imposé sur la “frontière” peut s’écrire
comme un problème de Poisson sur le domaine entier (les termes de flux passent dans le
second membre du problème de Poisson).
Remarque 4.19. Comme dans le cas du problème de Neuman dans un domain euclidien, la
pression est définie à une constante additive près.
On choisit alors de faire évoluer les conductivités en favorisant les arêtes les plus actives :
dDxy
= G(|u(x, y)|) − Dxy ,
dt
où G( · ) est une fonction croissante, nulle en 0. Les auteurs considèrent par exemple des
fonctions du type
qγ
G(q) = .
1 + aq γ
59
5 Trafic routier ou piéton – macro – 1d – ordre 1 en temps
Cette section donne, sous une forme très préliminaire, quelques éléments de modélisation
du trafic routier ou piétons selon une description macroscopique (densité linéique diffuse).
On considère l’évolution d’une population de piétons ou de véhicules sur une voie rec-
tiligne, population représentée par une densité linéique ρ(x, t). On considère que la vitesse
des entités est fonction de la densité : v = v(ρ). La manière la plus simple de prendre
en compte le fait que la vitesse est d’autant plus faible que la densité est importante est
v(ρ) = U (1 − ρ/ρmax ). La conservation de la masse s’écrit alors (voir section 1)
∂ρ ∂
+ (ρv(ρ)) = 0,
∂t ∂x
qui a la forme d’une équation de conservation que l’on peut écrire sous forme générale
∂ρ ∂
+ f (ρ) = 0, (5.1)
∂t ∂x
où f est le flux.
Supposons que ρ(x, t) est une solution régulière de cette équation. On appelle courbes
caractéristiques une courbe t 7−→ x(t) telle que
60
Pour une densité initiale donnée, supposée lisse (continûment différentiable), on peut
considérer le flot associé aux caractéristiques
Ce Jacobien reste > 0 (la transformation est un difféomorphisme, i.e. les trajectoires ne se
croisent pas) pour tout t si f ′′ (ρ0 (x)) ρ′0 (x) ≥ 0. Si en revanche cette dernière quantité est
négative, alors l’application ne sera régulière que pour
1
t<− .
f ′′ (ρ0 (x)) ρ′0 (x)
Remarque 5.1. On prendra garde au fait que, bien que l’on ait considéré le Jacobien de
l’application Φt , ce qui suggère un transport de mesure, n’est aucunement associée à un quel-
conque transport conservatif de masse.
Lien avec le modèle microscopique. On peut faire un lien formel avec le modèle micro-
scopique présenté dans la section 6, en notant que la densité linéique (nombre de véhicules
ou de piétons par mètre) est l’inverse de la distance entre les personnes : ρ = 1/d. Si l’on
reprend la fonction ϕ qui définit la vitesse comme fonction de la distance, on a
1 ′ 1 1 1
f (ρ) = ρv(ρ) = ρϕ , f (ρ) = ϕ − ϕ′ .
ρ ρ ρ ρ
Si l’on s’intéresse à l’évolution d’une perturbation autour d’une densité uniforme ρe , l’équa-
tion (5.2), exprime un transport à la vitesse f ′ (ρe ). On retrouve au niveau macroscopique
la vitesse de propagation vers l’amont −ue ϕ′ (ue ) trouvée dans la section 6. La vitesse ma-
croscopique contient nativement le terme de vitesse des entités ϕ(ue ), puisqu’il s’agit d’une
description Eulérienne (la variable est exprimée dans le référentiel fixe du laboratoire, selon
l’expression consacrée), par opposition à la description macroscopique qui est nativement
Lagrangienne (les variables sont afférentes aux entités en mouvement).
61
Remarque 5.2. Il est immédiat dans le cadre microscopique Lagrangien de prendre en
compte des comportements différents selon les entités. C’est beaucoup plus délicat dans le
cadre macroscopique Eulérien que nosu considérons ici. Prendre en compte une telle différen-
tiation nécessiterait de faire dépendre dépendre la fonction flux d’un label a qui fait référence
à une entité particulière. Le système s’écrit alors
∂t ρ + ∂x fa (ρ) = 0,
où a(x, t) permet de suivre les entités, i.e. obéit à une équation de transport non conservatif
(c’est une quantité intensive, du type information, qui est propagée) :
∂t a + u ∂x a = 0.
Remarque 5.3. Dans le même esprit que la remarque précédente, si l’on souhaite prendre
en compte un retard (dans l’esprit de la question 6.4, page 75 pour le modèle microscopique),
il est important de modéliser le fait que la relaxation d’une distance subjective (sur laquelle
l’entité base sa vitesse) vers la distance réelle est un processus essentiellement Lagrangien. Si
l’on appelle (ρ̃(x, t) la densité subjective de l’entité située en x au temps t, on écrira
∂t ρ + ∂x (ρv(ρ̃)) = 0
1
∂t ρ̃ + v(ρ̃) ∂x ρ̃ = (ρ − ρ̃) .
τ
Les considérations précédentes indiquent qu’il ne peut, en général, exister de solution lisse
globale. Pour donner un sens aux solutions non lisses qui semblent naı̂tre spontanément, on
définit la notion de solution faible :
Definition 5.4. On dit que ρ(x, t) est une solution faible de (5.1) (sur R×]T1 , T2 [) si, pour
toute fonction ϕ régulière à support compact dans R×]T1 , T2 [, on a
Z Z T2 Z Z T2
∂t ϕ ρ(x, t) dx dt + ∂x ϕ f (ρ(x, t)) dx dt = 0.
R T1 R T1
On vérifie immédiatement que toute solution régulière est solution faible. Mais cette dé-
finition peut s’appliquer à des solutions qui ne sont pas régulières. Considérons par exemple
deux densités qui réalisent le même flux : F = f (ρ− ) = f (ρ+ ). La densité
ρ = ρ− 1]−∞,0[ + ρ+ 1]0,+∞[
est solution faible stationnaire de (5.1), de même que la densité obtenue en intervertissant ρ−
et ρ+ . On peut construire des solutions non stationnaires de la façon suivante : on se donne
deux densités ρL et ρR , et l’on cherche une solution ρ constante de part et d’autre d’un point
de discontinuité s(t) variable en temps. On vérifie qu’une telle densité est solution faible dès
que s vérifie une condition dite de Rankine-Hugoniot, comme l’exprime la
62
Proposition 5.5. (Relation de Rankine-Hugoniot)
Soient ρL et ρR deux valeurs entre 0 et ρmax , et f ( · ) une fonction flux continue. La densité
ρ = ρL 1]−∞,s(t)[ + ρR 1]s(t),+∞[
f (ρL ) − f (ρR )
ṡ = . (5.3)
ρL − ρR
La seconde intégrale double (avec la dérivée en espace sur la fonction test s’écrit
Z Z Z Z Z ! Z
+∞ +∞ s(t) +∞ +∞
∂x ϕ f (ρ(x, t)) = f (ρL ) ∂x ϕ + f (ρR ) ∂x ϕ = ϕ(s(t), t))(f (ρL )−f (ρR )).
R 0 0 −∞ s(t) 0
qui est identiquement nul pour toute fonction test ϕ si et seulement si la condition (5.3) est
identiquement vérifiée.
Remarque 5.6. On peut retrouver la relation (5.3) en écrivant simplement un bilan de masse
au voisinage de la discontinuité.
On peut vérifier que, sous sa forme faible, l’équation n’est pas bien posée, au sens où
elle admet en général plusieurs solutions. La théorie complète de telles équation dépasse le
cadre de ce cours sous sa forme actuelle, disons simplement ici qu’il est possible d’imposer
à la solution considérer de vérifier un critère supplémentaire, dit d’entropie, qui permet de
sélectionner la solution physique 38 parmi les nombreuses possibles. Ce critère n’est pertinent
que pour discriminer des solutions qui présentent des discontinuités, on peut montrer que
ces solutions acceptables sont telles que, lorsque la solution présente une discontinuité, les
courbes caractéristiques doivent arriver vers la discontinuité, et non pas en partir.
38. Ce type de critère a été élaboré dans le cadre de la dynamique des gaz. Précisons que, dans le cadre du
transport d’entités vivantes, sa légitimité est moins nette
63
5.3 Résolution numérique
On se place sur l’intervalle ]0, L[ avec des conditions périodiques. La méthode des volumes
finis est basée sur une représentation de la densité par une fonction constante par morceaux
sur des cellules disjointes qui recouvrent le domaine spatial. Nous considérons ici des cellules
associées à à une subdivision uniforme de l’intervalle, de pas ∆x. On introduit de la même
manière une discrétisation en temps 0 < ∆t < 2∆t < · · · < N ∆t = T . On note ρni la valeur
de la densité approchée sur la cellule i, sur l’intervalle de temps ]n∆t, (n + 1)∆t[. Le schéma
résulte de l’intégration de l’équation de conservation sur la cellule Ci et l’intervalle de temps
[tn , tn+1 ] :
Z Z Z tn+1
n+1 n
ρ(x, t ) dx − ρ(x, t ) dx + f (ρ(xi+1/2 , t) − f (ρ(xi+1/2 , t) = 0,
Ci Ci tn
∆t
ρn+1
i − ρni + fi+1/2 − fi−1/2 = 0.
∆x
La stratégie numérique repose sur la définition des flux discrets fi+1/2 et fi−1/2 . Nous nous
limiterons ici à des schéma explicites, basé sur la définition du flux discret comme fonctions
des densités de part et d’autre de l’interface :
64
6 Trafic routier ou piéton – micro – 1d – ordre 1 en temps
6.1 Le modèle
Le modèle dit Follow the Leader 39 est basé sur les principes suivants : on considère n + 1
véhicules se déplaçant sur une route rectiligne (ou piétons se déplaçant sur une même file),
et l’on repère leurs positions respectives au temps t par
Il est naturel de prendre pour ϕ une fonction qui s’annule en 0, qui prend la valeur U de
la vitesse maximale autorisée quand la distance tend vers l’infini. On pourra considérer par
exemple la fonction
ϕ(u) = U (1 − exp(−u/us )),
où us est une distance caractéristique de sécurité (distance observée pour des véhicules roulant
approximativement aux 2/3 de la vitesse autorisée, pour le cas de voitures sur l’autoroute).
Cette quantité conditionne la raideur (stiffness en anglais) du modèle.
Remarque 6.1. La taille des entités peut être prise en compte en modifiant la fonction :
Noter que cette modification ne change pas la nature du modèle. En dimension 1, il est en effet
équivalent de travailler sur des entités ponctuelles interagissant en fonction de leurs distances,
ou des entités de tailles non nulles (en considérant alors les distances d’objet à objet). Cette
prise en compte devient en revanche importante dès que l’on s’intéresse au positionnement
des entités sur un voie réelle, par exemple si l’on s’intéresse à la possibilité que l’information
remonte une file plus vite qu’elle n’avance, où si l’on souhaite faire le lien avec un modèle
macroscopique (pour lequel on aura une densité maximale 1/um ).
Proposition 6.2. On se donne des positions initiales vérifiant la relation d’ordre (6.1). On
suppose que la vitesse V (t) (et donc la trajectoire) de l’entité de tête (n + 1) est une fonction
continue du temps, donnée, à valeur dans [0, U ]. On se donne une fonction de comportement
ϕ Lipshitzienne nulle en 0 (prolongée par 0 en deça), et prenant ses valeurs dans l’intervalle
[0, U ]. Le système (6.2) admet une unique solution maximale, qui est globale.
39. C’est sous cette dénomination qu’il est présenté dans :
B. Argall, E. Cheleshkin, J. M. Greenberg, C. Hinde and P.-J. Lin, A rigorous treatment of a follow-
the-leader traffic model with traffic lights present, SIAM J. Appl. Math., 63(1), pp. 149–168 , 2002,
[Link]
Cette dénomination est cependant partiellement impropre dans le cas qui nous intéresse : chaque entité suit de
fait l’entité qui la précéde, mais la présence de cette dernière est plus une gêne (qui conduit à une diminution
de la vitesse) qu’une incitation positive.
65
Démonstration. Il s’agit d’une application du théorème de Cauchy-Lipschitz 21.9. Cette so-
lution est globale car la vitesse est bornée (proposition 21.12).
Proposition 6.3. On se place dans les hypothèses de la proposition précédente. Les distances
restent strictement positives.
d’où un ≥ un (0)e−Lt .
Remarque 6.4. Le caractère Lipschtiz de ϕ est essentiel pour éviter les accidents. Si l’on
prend par exemple une fonction ϕ qui se comporte comme uα au voisinage de 0, avec α ∈]0, 1[,
considérant deux véhicules successifs, le premier étant arrêté, on obtient l’équation u̇ = −uα ,
qui conduit à
1/1−α
u(t) = u(0)1−α − (1 − α)t .
On a alors “accident”, c’est à dire annulation des distances en temps fini. Noter que le théo-
rème de Cauchy Lipschitz ne s’applique ici que sur l’ouvert ]0, +∞[, la solution maximale
n’est alors pas globale.
Supposons que le véhicule de tête en xn+1 se maintient à une vitesse constante V < U .
On vérifie immédiatement que si tous les véhicules sont à distance ue du précédent, avec
V = ϕ(ue ), autrement dit
V
ue = −us ln 1 − ,
U
ils vont tous à la vitesse V du véhicule de tête. On peut se demander ce qui va se passer en
cas de perturbation, par exemple si le véhicule de tête freine brusquement, puis reprend sa
vitesse de croisière V .
Remarque 6.5. Si l’on note V = {1, 2, . . . , n}, on peut définir un ensemble A d’arêtes :
(1, 2) , . . . , (n − 1, n),
66
v
um us
ui = xi+1 − xi , i = 1, . . . n.
On a donc une unique valeur propre −ϕ′ (ue ) < 0, donc stabilité asymptotique avec un temps
caractéristique de retour à l’équilibre 40 égal à 1/ϕ′ (ue ).
40. Nous verrons que dans le cas présent d’un gradient non diagonalisable, le temps effectif caractéristique
de retour à l’équilibre peut être significativement plus grand que 1/ϕ′ (ue ), ou plus précisément que le temps
de retour effectif à l’équilibre n’est pas uniforme vis-à-vis du nombre n de véhicules, alors que 1/ϕ′ (ue ) n’en
dépend pas.
67
Propagation des perturbations vers l’amont
Analyse spectrale. Cette propagation vers l’amont décrite informellement ci-dessus peut-
être étayée par une étude plus approfondie du système tangent au voisinage du point d’équi-
libre :
u̇ = M u,
où M est la matrice du gradient de F au point d’équilibre
On garde la notation u pour désigner le vecteur inconnu, mais les ui correspondent main-
tenant à des variations autour du point d’équilibre, qui évoluent au voisinage de 0 (et non
pas de ue ).
41. Dans le cas du trafic routier, si l’on est dans cette situation, toute perturbation est susceptible de se
propager vers l’arrière et de créer potentiellement un bouchon.
68
La solution du problème ci-dessus s’écrit
u(t) = etM u0 ,
M = β (− Id +N )
Montrons que la forme particulière de cette matrice rend compte d’une propagation des
perturbations vers les index de vehicules décroissants. On considère pour cela une perturbation
du véhicule de tête, qui induit une perturbation du véhicule immédiatement derrière celui-
ci. Cette perturbation est donc colinéaire à u0 = en , où ei est le i−ème vecteur de la base
canonique de Rn . On a
69
Question 6.1. Montrer que (le maximum
√ de) l’intensité de la perturbation ressentie par l’entité
n − k varie pour k grand comme 1/ 2πk.
Exercice 6.2. Montrer que la prise en compte de la taille des véhicules (en considérant que la
fonction ϕ est nulle en dessous d’une longueur minimale us , et concave sur [us , +∞[) permet
de mettre en évidence la possibilité que des ondes d’information remontent le courant vers
l’amont plus vite que la vitesse des véhicules-mêmes.
Remarque 6.7. Pour appréhender ce qui se passe lorsque le nombre de véhicules est im-
portant, on considère une file de véhicule infinie dans une direction : une infinité de véhicule
suit un véhicule de tête dont la vitesse est fixée. La perturbation au temps t correspond à la
loi de Poisson de paramètre βt :
(βt)k
p(t) = (pk (t))k∈N , pk = e−βt
k!
On a donc kp(t)k1 = 1 : la “masse” totale de la perturbation reste constante, on n’a donc pas,
pour cette norme, stabilité asymptotique.
On se place dans un cadre périodique : route de type périphérique sans entrée ni sortie,
ou couloir circulaire, représenté par un domaine périodique de longueur L. Le véhicule n voit
le véhicule 1, et les équations s’écrivent simplement
Remarque 6.8. Comme dans le cas linéaire, on peut définir un graphe orienté (V, A)
(voir définition 12.1, page 110), avec V = {1, 2, . . . , n}, et la règle (i, j) ∈ A si et seule-
ment si le comportement de i est directement influencé par le comportement de j : A =
{(1, 2) , . . . , (n − 1, n) , (n, 1)}. Ce graphe contient de façon évidente un cycle 42 .
70
Si la fonction ϕ est strictement croissante, le système en distance admet un unique point
d’équilibre ueq = (ue , . . . , ue ), avec ue = L/n.
Proposition 6.9. On suppose que ϕ est une fonction C 1 strictement croissante sur [0, +∞[.
Le point d’équilibre ueq = (ue , . . . , ue ), ue = L/n, solution stationnaire de (6.3) est alors
asymptotiquement stable.
Temps caractéristique de relaxation. La partie réelle de plus petit module est ϕ′ (ue )(1 −
cos (2π/n)), qui est proche de ϕ′ (ue )2π 2 /n2 , ce qui donne un temps caractéristique de
1 n2
τ= .
2π 2 ϕ′ (ue )
42. Ce cyle est le plus petit, et il est unique au sens suivant : les autres cycles ne sont que des duplications
de ce cycle simple (on peut “tourner” un nombre quelconque de fois).
43. On peut se ramener à une démarche
Pn−1 plus habituelle en éliminant une variable redondante,Pn−1dans les ui , par
exemple en écrivant que un = L− i=1 ui . La dernière équation s’écrit alors un−1 = ϕ(L− i=1 ui )−ϕ(un−1 ),
et le gradient s’écrit
−1 1 0 · 0
0 −1 1 · ·
∇F (ueq ) = ϕ′ (ue ) ·
· · · 0
· · · −1 1
−1 −1 · −1 −1
Le polynôme caractéristique Pn−1 de cette matrice vérifie (en développant par rapport à la première colonne)
Pn−1 = −λPn−2 + (−1)n , d’où
Pn−1 = (−1)n+1 1 + λ + · · · + λn−1 .
Les valeurs propres sont donc bien les racines n-èmes non triviales de l’unité.
71
Cette relaxation se produit selon un vecteur propre de basse fréquence en espace.
Corollaire 6.10. Dans le cas où la fonction ϕ est nulle sur [0, ℓ], puis strictement croissante,
sur [ℓ, +∞[, on a de même unicité d’un point d’équilibre, qui correspond à un mouvement
effectif des véhicules si L est suffisamment grand (plus précisément si L > nℓ), sinon à un
paquet d’entités immobilisées. Si ϕ n’est pas strictement croissante, on n’a pas forcément
unicité du point d’équilibre. En particulier, si l’on suppose (ce qui est raisonnable) que ϕ est
plate au delà d’une certaine valeur u+ de la distance (correspondant à la visibilité), on peut
avoir de multiples points d’équilibre dès que L > nu+ .
où ϕ est une fonction croissante. On note ui = xi+1 − xi , et l’on considère une solution du
système (6.3). Pour toute fonction g convexe, la quantité
X
S(u(t)) = g(ui )
i
est décroissante.
On a donc
!
d X X X
g(ui ) = g′ (ui )u̇i = g′ (ui ) (ϕ(ui+1 ) − ϕ(ui ))
dt i i i
X
= ϕ(ui ) g (ui−1 ) − g′ (ui ) .
′
où ϕ ◦ (g′ )−1 est une fonction croissante, qui s’écrit donc comme la dérivée d’une fonction
convexe : ϕ ◦ (g′ )−1 (β) = ψ ′ (β). Comme ψ est convexe, on a
Si g n’est pas strictement convexe, on applique la démarche à g(u) + εu2 , et on fait tendre ε
vers 0.
72
Remarque 6.12. Dans le cas d’une route de longueur 1, on peut interpréter u = (ui ) comme
une mesure de probabilité sur un ensemble à N éléments. Prenant g(x) = x log x dans ce qui
précède, on a alors décroissance de l’entropie (selon la définition 10.1, page 101)
X
S(u) = ui log ui .
i
Remarque 6.13. Considérons le cas d’un g strictement convexe (par exemple g(u) = u log u).
Si la fonction ϕ est strictement croissante sur l’intervalle de valeurs couvert par les ui , alors
la décroissance de l’entropie est stricte, tant que l’on n’a pas l’état stationnaire u1 = u2 =
· · · = uN = L/N . On converge alors nécéssairement vers l’unique état stationnaire. Si en
revanche ϕ n’est pas strictement croissante, la propriété de convergence peut être invalidée
(l’état équi-réparti n’est pas asymptotiquement stable). C’est le cas par exemple si, au delà
d’une certaine distance, l’entité va à la vitesse maximale, de telle sorte que la fonction ϕ est
constante au delà d’une certaine valeur. Si la route circulaire est assez grande, on peut avoir
une distribution non régulière d’entités progressant toutes à la vitesse maximale. D’un point
de vue macroscopique, cette situation correspond à une onde progressive que l’on observe en
effet lorsque la fonction flux (ici la densité multipliée par la vitesse) est affine sur certaines
plages de densité.
Corollaire 6.14. Dans le cas où la fonction ϕ est nulle sur [0, ℓ], puis strictement croissante,
sur [ℓ, +∞[, on a la propriété suivante : si les valeurs initiales des distances sont > ℓ, alors
la solution est telle que les ui sont minorés par ℓ + η, avec η > 0.
Démonstration. On peut choisir g(u) = 1/(u−ℓ), qui est convexe pour u > ℓ. La décroissance
de l’entropie exclut que l’un des u puisse tendre vers ℓ. Plus précisément, on a
X X
g(ui ) ≤ S0 = g(u0i ),
73
quantifient l’amortissement exponentiel selon les différents modes. La propagation en espace
est encodée par la partie imaginaire. La partie correspondante de la solution s’écrit
ϕ′ (ue )n
2kπ 2ikπm 2ikπ 2kπ
exp ϕ′ (ue ) sin
t exp = exp m + sin t ,
n n n 2πk n
| {z }
=−ck
où m indexe les n entités impliquées. Cette expression correspond donc à une propagation
(sur la suite des indices) à vitesse constante ck . On retrouve pour k/n petit une célérité de
l’ordre de −ϕ′ (ue ) (en s−1 , ou entités par seconde), ou, si l’on prend en compte le fait que les
entités sont séparées de ue , d’une vitesse effective de −ue ϕ′ (ue ) (en ms−1 ).
Individus de profils différents . Il est peu réaliste de considérer que tous les individus
ont le même comportement. Si l’on reprend le modèle initial sur route rectiligne, avec un
véhicule de tête qui va à vitesse constante ve = ϕn+1 (ue ), et que l’on se donne des courbes de
comportement ϕi toutes strictement croissantes (pour u ≥ um ), on aura existence et unicité
d’un point d’équilibre en distances dès que la vitesse de tête est atteignable par chacun des
suivants, i.e.
ve < max ϕi (u) ∀i.
u
uie
On écrit la distance qui réalise ve = ϕi (uie ).
Le vecteur u1e , . . ., une est alors point d’équilibre.
L’étude de stabilité de ce point d’équilibre conduit à une matrice du type
−β1 β2 0 · 0
0 −β2 β3 · ·
, βi = ϕ′i (uie )
∇F = · · · · 0 i = 1, . . . , n. (6.4)
· · · −βn−1 βn
0 · · 0 −βn
La situation est assez troublante, car, si l’on peut espérer que le phénomène de propagation de
l’information vers l’amont soit préservé pour ce système perturbé, la structure du problème
est complètement différente. Les βi n’ont aucune raison d’être identiques, on peut considérer
que, même s’ils peuvent être voisins, ils sont génériquement 44 différents deux à deux. Mais
alors la matrice est diagonalisable, et l’étude du comportement de la solution du système
linéarisé etA upert , est complètement différente. Cette étude est à mener avec précaution, car
les matrices diagonalisables de ce type ne sont pas loin d’une matrice qui ne l’est pas, ce qui
peut conduire à un comportement singulier. Pour s’en convaincre, considérons la famille de
matrices Aε associées à
β ε = (β1ε , . . . , βnε ),
où les βiε tendent tous vers le même β limite, que l’on prendra égal à 1 pour simplifier. On
vérifie immédiatement que les vecteurs propres uεi normalisés associés convergent (à sous suite
44. Cette notion de généricité est très utilisée oralement, elle est à manier avec précaution. Elle signifie ici
en substance que, au voisinage d’une situation considérée, l’ensemble des cas pour lesquels la propriété (dite
générique) n’est pas vérifiée est de mesure nulle.
74
extraite près) vers un vecteur propre de la matrice A = − Id +N , qui n’a qu’une droite propre
(selon le premier vecteur de base). Tous les vecteurs propres tendent donc à avoir la même
direction. La diagonalisation effective d’une telle matrice (pour ε petit mais non nul) risque
d’être extrêmement instable, on peut par exemple s’attendre à ce que la plupart des méthodes
numériques d’estimation de valeurs propres ne fonctionnent pas. On peut se convaincre de
la difficulté du problème, tout en vérifiant que l’on aura bien propagation vers l’amont, en
considérant le cas de 2 entités libres (donc de deux distances, i.e. 3 entités, celle de tête ayant
une vitesse imposée). On définit
!
−1 1 + ε
A .
0 −1 − ε
Cette matrice est évidemment diagonalisable pour ε 6= 0, avec une matrice de passage
!
1 1+ε
A ε .
0 − 1+ε
Si l’on considère maintenant la solution du problème d’évolution linéaire, avec une perturba-
tion sur les distance de tête, on obtient (on n’indique pas la dépendance de P vis à vis de ε
pour alléger les notations)
! ! ! !
tAε 0 −1 tAε −1 0 1+ε e−t −t
1+ε
ε (1 − e
−tε)
e = PP e PP = P =e ,
1 1 ε e−t(1+ε) e−tε
et l’on retrouve bien par développement limité une évolution de la seconde distance (première
composante) en te−t (au premier ordre en ε), comme pour la matrice limite non diagonalisable.
Noter que l’on est passé par l’intermédiaire de matrices très mal conditionnées 45 : dans une
situation où les calculs ne pourraient pas être faits analytiquement, il serait périlleux de suivre
cette démarche en cherchant à diagonaliser de façon approchée les matrices de type de celle
définie par (6.4), pour des βi proches les uns des autres.
Question 6.3. Intégrer au modèle le fait que l’on ne réagit pas instantanément à une variation
de distance.
Question 6.4. Proposer un modèle macroscopique intégrant le fait que l’on définit sa vitesse
avec un certain retard. On pourra introduire une distance subjective wi pour chaque individu,
et considérer qu’on a relaxation de cette distance vers la vraie distance instantanée, avec un
temps caractéristique τ .
75
vitesse souhaitée est significativement réduite (jusqu’à ce que la distance effective redevienne
de l’ordre de D(v)). Une telle démarche conduit par exemple au modèle suivant :
−1
xi+1 − xi − D(vi+1 )
vi = ẋi = Ui 1 + exp − .
us
Ce modèle est considérablement plus compliqué que les précédents, car la vitesse de chaque
entité dépend de la vitesse des autres de façon non linéaire, ni l’unicité ni même l’existence
d’une collections de vitesses réalisant l’ensemble des relations ne sont garanties. Plus précisé-
ment, la difficulté du propblème est conditionnée par le type du graphe des dépendances (voir
remarques 6.5 et 6.8). Dans le cas d’un graphe acyclique (entités sur une route rectiligne),
on fixe la vitesse de l’entité de tête, et les vitesses sont déterminées de façon unique en des-
cendant la hiérarchie. Dans le cas où l’on a des cycles en revanche, comme dans le cas d’une
route circulaire, le problème est plus délicat, il peut exister plusieurs collections de vitesses
qui vérifient le système.
76
7 Trafic routier ou piéton – micro – 1d – ordre 2 en temps
7.1 Le modèle
On s’intéresse ici à un modèle de trafic routier (ou piéton) microscopique (les entités sont
suivies individuellement) d’ordre 2 en temps. On note xi = xi (t) la position de la i-ème entité
au temps t, qui évolue sur R (on considérera par la suite le cas périodique). Le modèle s’écrit
1
ẍi = (ϕ(xi+1 − xi ) − ẋi ), (7.1)
τ
où τ est un temps caractéristique d’accession à une vitesse souhaitée. Pour des voitures, τ
représente le temps caractéristiques mis par le conducteur pour accéder à la vitesse qu’il
souhaite. Ce temps peut dépendre du type de véhicule, du comportement du conducteur,
on pourrait même considérer (au prix néanmoins d’un changement profond sur la nature du
modèle) qu’il dépend du signe de ϕ(xi+1 − xi ) − ẋi (on peut avoir une voiture au moteur
poussif, mais qui possède de bons freins). Nous supposerons que ce temps τ est constant. La
fonction u 7→ ϕ(u) représente la vitesse que souhaite avoir un véhicule à la distance u du
véhicule qui le précède. Si l’on ne prend pas en compte la taille des véhicules, on choisira une
fonction croissante qui s’annule en 0, qui tend vers une valeur limite U quand u tend vers
+∞. Un exemple d’une telle fonction est
où us représente l’ordre de grandeur de la distance considérée par le conducteur comme étant
de sécurité (pour un vitesse égale à 1−1/e ≈ 0.6 fois la vitesse maximale. Pour un conducteur
agressif peu scrupuleux des distances de sécurité, us sera donc petit. Nous supposerons pour
simplifier les conducteurs tous identiques, ce qui conduit bien au modèle (7.1), avec une
fonction ϕ qui ne dépend pas de i.
ẋi = vi
1 (7.3)
v̇i = (ϕ(xi+1 − xi ) − vi ),
τ
assure l’existence d’une unique solution maximale, qui est globale d’après la proposition 21.12,
page 214. De façon évidente les solutions pour lesquelles les distances sont nulles voire né-
gatives sont à considérer avec une attention particulière. S’il advient que l’une des distances
s’annule, cela traduit une collision, et le modèle que nous avons écrit, même s’il est défini
mathématiquement, n’a plus de sens. Vérifions que des accidents sont susceptibles de se pro-
duire. On considère pour simplifier un véhicule derrière un véhicule à l’arrêt en 0. La position
du véhicule en mouvement, notée x, vérifie
1
ẍ = (ϕ(−x) − ẋ) ,
τ
77
avec condition initiales en position et vitesse. On s’intéresse à ce qui se passe au voisinage de
l’origine, on a alors ϕ(−x) ≈ −ϕ′ (0) x. Notant ϕ′ (0) = 1/η, on obtient
1 1
ẍ + ẋ + x = 0.
τ τη
Les racines de l’équations caractéristique sont
s !
1 4τ
λ= −1 ± 1−
2τ η
On aura donc amortissement non oscillant pour τ /η < 1/4. Dans le cas contraire, x va at-
teindre 0 (à vitesse non nulle), on ne peut donc pas exclure dans ce cas l’occurrence d’accident
(et donc la durée de vie finie de la solution en tant que trajectoire viable).
7.2 Stabilité
Pour étudier la stabilité de cette situation, on travaille sur les variables de distance ui =
xi+1 − xi . Le modèle s’écrit pour cette nouvelle variable
1
üi = (ϕ(ui+1 ) − ϕ(ui ) − u̇i ), (7.4)
τ
pour lequel le vecteur (ue , ue , . . . , ue ) est point fixe. On peut écrire ce modèle (u̇, v̇) = Ψ(u, v),
avec v = u̇.
La matrice Aper est somme de − Id et d’une matrice circulante C. Cette dernière vérifie
C n = Id, son polynôme caractéristique est donc X n − 1, et ses valeurs propres sont ainsi les
racines n-ièmes de l’unité. Les valeurs propres de Aper sont donc
2ikπ
µk = −1 + exp , k = 1, . . . , n.
n
le problème aux valeurs propres pour la matrice globale s’écrit donc
ϕ′ (ue )
λ ϕ′ (ue )
1
v = λu , Au − v = λv =⇒ λ2 + − A u=0
τ τ τ τ
78
Pour tout couple propre uk , µk = −1 + exp 2ikπ n de Aper , on aura donc deux valeurs
propres pour la matrice globale, qui sont les racines de
λ ϕ′ (ue )
λ2 + − µk = 0,
τ τ
c’est à dire s !
1 2ikπ
λ±
k = −1 ± 1− 4ϕ′ (ue )τ 1 − exp
2τ N
Notons α = 4ϕ′ (ue )τ . Le lieu des λ±
k est donc l’ensemble image du cercle unité par la trans-
formation (bivaluée) dans le plan complexe
q
z 7−→ −1 ± 1 − α(1 − z) /2τ .
Le point essentiel est de déterminer si les valeurs propres sont toutes de parties réelles posi-
tives. On se ramène donc à la question suivante : la racine carrée du cercle centré (sur l’axe
réel) en 1 − α et de rayon α appartient-elle au demi-espace Re(z) ≤ 1 ?
On peut essayer de se faire une idée plus précise du lieu des valeurs propres : l’ensemble
que l’on cherche à décrire est l’ensemble des x̄ + iȳ tels que
x̄2 − ȳ 2 = x , 2x̄ȳ = y
où x + iy décrit le cercle d’équation (x − 1 + α)2 + y 2 = α2 . Il s’agit donc d’une courbe
quartique d’équation
2
x̄2 − ȳ 2 − 1 + α + 4x̄2 ȳ 2 = α2 ,
qui contient le point z = 1.
79
2,5 2,5
0 0
-2,5 -2,5
-5
-2,5
2,5
-5
-2,5
2,5
5
Figure 7.1 – Cercles (gauche) et quartiques associées (droite), pour α = 0.3 , 0.5 , 1 , 2 , 6.
Remarque 7.2. Pour α entre 0 et 2, le lieu des valeurs propres est une quartique dans la
bande x ∈ [−1, 1], tangente en 1 à la droite y = 1. Noter que, bien que le comportement soit
stable, on a des valeurs propres de partie réelle certes négative mais petite en valeur absolue.
Ces valeurs propres correspondent à des racines n−èmes proches de 1, donc des modes de très
basses fréquences (oscillations en espace dont la période est le l’ordre de la longueur totale
du chemin).
Remarque 7.3. Pour α = 1/2, le lieu des valeurs propres est une lemniscate de Bernoulli
(voir figure 7.1), qui correspond à la transition vers la connexité du lieu des valeurs propres.
Pour α = 1, la quartique est le cercle unité (en fait deux copies du cercle unité confondues).
Pour la valeur critique α = 2 on a une forme de stade allongée verticalement, avec une
courbure nulle en 1 ; pour α > 2, la courbe délimite un ensemble qui n’est plus convexe.
x − 1 + α = X − Y − 1 + α = 2X.
80
1
0,75
0,5
0,25
2,5
3,5
4,5
5
Figure 7.2 – Angle θ (mode le plus instable) fonction de α.
Pour α grand, on tend donc vers un angle de π/3, ce qui correspond à la N/6-ième racine
N-ième de l’unité (on suppose N divisible par 6, sinon le mode le plus instable est le plus
proche de celui-là). Le vecteur propre de la matrice Aper associé à la k-ième racine est
uk = e2iπkn/N ,
n
soit, avec k = N/6, une oscillation de période 6 en n. Le mode le plus instable est donc
un mode de petite période (relativement au nombre total de véhicules, supposé grand), qui
affecte typiquement des groupes de 6 entités consécutives, avec alternances de sous paquets
de 3 en compression, décompression, etc . . ..
On aura donc pour α − 2 petit un angle θ petit, ce qui correspond à des basses fréquences
en espace, mais la croissance de θ vis-à-vis de α − 2 est très raide : le mode le plus instable
correspond très vite à une mode de haute fréquence (oscillation qui implique localement un
nombre faible d’entités). Si l’on prend par exemple α = 2.3, on a un angle autour de π/6, qui
correspond à une perturbation qui affecte localement 12 entités (voir figure 7.2). La plage sur
laquelle les modes les plus instables sont de basse fréquence est donc extrêmement étroite : il
peut être délicat de les observer en pratique 47 .
qui est bien un nombre sans dimension : ϕ associe à une distance une vitesse, sa dérivée
est donc l’inverse d’un temps η. C’est le temps caractéristique associé au modèle d’ordre un
en temps (voir proposition 6.6, page 67). La condition d’instabilité s’écrit donc τ /η > 1/2.
Le temps τ quantifie la réactivité de l’entité. Dans le cas du trafic routier, cette réactivité
englobe la réactivité du véhicule. On pourra se faire une idée de ce temps caractéristique en
47. La plage de valeurs sur laquelle on a des basses fréquence, i.e. le voisinage immédiat de 2+ , est d’une
amplitude inférieure à la précision que l’on peut espérer avoir sur l’estimation des paramètres τ et η = ϕ′ (ue ).
81
imaginant l’expérience suivante : le véhicule nous précédant pile brusquement, quel temps
allons nous mettre pour ralentir significativement notre vitesse (i.e. réduction au 2/3, pour
fixer les idées) ? Ce temps 48 est de l’ordre de quelques seconde, disons 5 ou 6. La condition
indique que l’on aura donc un système plus stable dans le cas d’une bonne réactivité (τ petit).
Le temps η qui intervient dans le modèle de comportement est moins directement accessible à
l’intuition, puisqu’il apparaı̂t en fait comme l’inverse d’une variation en vitesse relativement
à la distance. Dans l’hypothèse raisonnable d’une fonction ϕ concave, défini par exemple
par (7.2), on a
U
ϕ′ (ue ) = exp(−ue /us ).
us
Dans les cas “dilués” (ue grand devant us ), η sera très petit, et le système sera stable. La
situation intéressante pour un trafic dense, i.e. exp(−ue /us ) ≈ 1. Le temps η s’écrit alors
us /U , où U est la vitesse maximale autorisée, et us la distance “typique entre véhicule”, plus
précisément la distance inter-véhicules correspondant à une vitesse de 1 − 1/e ≈ 0.6 fois
la vitesse maximale. Sur autoroute, on peut prendre une centaine de mètres comme ordre
de grandeur, ce qui donne un η de l’ordre de 2 ou 3. On vérifie ainsi immédiatement que
la valeur critique 1/2 correspond à l’ordre de grandeur de τ /η : il peut être très délicat en
pratique de savoir si l’on est dans une situation stable ou instable.
Exercice 7.1. On trouve dans les ouvrages de sécurité routière les ordres de grandeur suivant
pour la distance totale (temps de réaction + freinage effectif) d’arrêt en fonction de la vitesse :
82
7.3 Extensions, développements
Modèle macroscopique associé. Comme dans le cas du modèle d’ordre 1, on peut dériver
formellement une équation aux dérivées partielles pour les perturbations de distances au
voisinage d’un point d’équilibre. On a
1
üi = (ϕ(ui+1 ) − ϕ(ui ) − u̇i ) .
τ
La situation ui ≡ ue est point d’équilibre du système 49 . On considère une perturbation de
cette situation, les distances sont de type ue + ui , où ui est maintenant une (petite) variation
de ue . On obtient
1 ′ 1 ui+1 − ui
üi = ϕ (ue )(ui+1 − ui ) − u̇ = ue ϕ′ (ue ) − u̇
τ τ ue
Si l’on considère que les ui sont les valeurs d’une fonction lisse u aux points équidistants de
ue , on obtient formellement
1
∂tt u + (∂t u − c∂x u) = 0,
τ
′
avec c = ue ϕ (ue ).
Exercice 7.3. Montrer que le modèle macroscopique obtenu précédemment présente un com-
portement génériquement instable. Préciser ce qui est le plus discutable dans le développe-
ment asymptotique formel ayant conduit au modèle, et qui peut expliquer que le régime stable
observé pour le modèle microscopique ait complètement disparu au niveau macroscopique.
Exercice 7.4. Proposer un modèle qui prenne en compte à la fois l’inertie de l’entité en
mouvement (comme cela a été fait dans cette section), et le fait que les conducteurs ou
piétons mettent un certain temps à réagir. On pourra introduire (comme dans l’exercice 6.3)
une distance subjective wi pour chaque individu, et considérer qu’on a relaxation de cette
distance vers la vraie distance instantanée, avec un temps caractéristique τ ′ .
49. On pourra considérer le cas périodique, avec ue = L/n, ou la situation d’entités sur une voie rectigne,
derrière une entité de tête à vitesse fixée égale à ve = ϕ(ue ).
83
Deuxième partie
84
8 Analyse fonctionnelle et modélisation
On considère un ensemble de N + 1 masses alignées sur l’axe des x, reliées par des ressorts
de même raideur kN et même longueur au repos ℓN . On impose x0 = 0 et xN = 1 (la chaı̂ne
est accrochée à ses extrémités). On note (xi ) la configuration de référence 50 , avec xi = i/N .
La position de la masse i est notée xi + ui . L’énergie potentielle élastique du système est
−1
1 NX
EN = kN | xi+1 − xi + ui+1 − ui − ℓN | 2 .
2 i=0
Si l’on choisit ℓN de telle sorte que la configuration de référence soit d’énergie nulle, i.e.
ℓN = 1/N , on obtient
−1
1 NX
EN = kN | ui+1 − ui | 2 ,
2 i=0
que l’on peut aussi écrire
−1
1 NX ui+1 − ui 2
EN = ℓN (kN ℓN ) .
2 i=0 ℓN
En choisissant kN = K/ℓN , on reconnait une somme de Riemann, qui converge donc lorsque
N tend vers +∞ (en supposant que ui est la valeur en xi d’un champ de déplacement
continûement différentiable x 7−→ u(x)), vers
Z 1
K 2
u′ (x) dx,
2 0
−1
1 NX
0
EN = k0 |ui |2
2 i=1 N
50. Cette configuration minimise l’énergie potentielle dans le cas où la longueur au repos est inférieure à
1/ℓN .
85
qui tend vers
K0
Z 1
0
E = u(x)2 dx,
2 0
0 = K0 ℓ .
si l’on prend kN N
Noter que la raideur des ressorts “externes” tend vers 0, alors que celle des ressorts internes
tend vers +∞.
où ui,j est la valeur du champ u (supposé continûment différentiable) au point (iℓN , jℓN ).
Le k dans l’expression précedente correspond à l’énergie du réseau non déformé (qui est non
nulle du fait que les longueurs aus repos ont été prises égales à 0). On trouve donc ici une
interprétation mécanique de la semie-norme de Sobolev en dimension 2.
Réseaux résistif
86
On peut (voir section 22.3 ci-après) donner un sens à la partie L2 de la norme en considé-
rant que les points du réseau sont reliés directement à des points extérieurs portés au potentiel
nul (ou pression nulle dans la cas d’un fluide).
8.2 Traces
La démarche de définition d’une trace dans un sens assez général peut se formaliser de
la façon suivante, pour des fonctions définies sur un domaine de l’espace euclidien (voir plus
bas pour une généralisation à d’autres situations).
1. L’espace quotient (voir proposition 19.8, page 192) H/H0 est-il trivial ou pas ? Ques-
tion accompagnée d’une question subsidiaire dans le cas où l’espace quotient est trivial :
pourquoi est-il trivial ? (nous préciserons le sens de cette interrogation plus loin).
2. Si cet espace (défini sans ambiguı̈té, mais de façon abstraite) n’est pas trivial, peut-on
le décrire ? L’identifier à un espace de fonctions définies sur ∂Ω ?
Considérons tout de suite une autre situation, sorte de problème-jouet, qui nous permettra
de préciser rapidement le sens et l’enjeu des questions précédentes. On considère maintenant
que H est un sous-espace vectoriel de RN , muni d’une norme qui en fait un espace de Banach.
On note maintenant D le sous-espace des suites nulles au delà d’un certain rang. Pour H = ℓp ,
avec p ∈ [1, +∞[, l’espace quotient est trivial. Pour ℓ∞ , la situation est déjà plus riche,
l’espace quotient contient en premier lieu les classes (distinctes) des suites constantes (ces
classes s’identifient aux suites qui admettent une limite finie en +∞). On peut en fait vérifier
que l’espace quotient n’est pas séparable, alors que H0 l’est dans ce cas : toute la richesse de
l’espace est en fait “au bord” (comportement en n 7−→ +∞).
muni de la norme naturelle associée à sa définition. Il s’agit d’un espace de Banach, et même
d’un espace de Hilbert (isométrique à l’espace modèle ℓ2 ).
Supposons en premier lieu que αn ≡ 1. On peut alors vérifier (voir proposition 8.1 ci-
dessous) que D est dense dans H, donc que l’espace quotient est trivial : il n’y a “rien”
en l’infini. Noter que H = H0 ne signifie aucunement que toutes les suites seraient d’une
certaine manière nulles en +∞, c’est même plutôt le contraire : par exemple la suite un =
1+ 1/2+ · · ·+ 1/n, qui tend vers +∞, est dans H. On peut construire aussi très simplement 51
des suites qui tendent vers n’importe quelle valeur réelle en +∞. Symétriquement, dans
51. On peut même avec un peu plus de travail construire des suites dans H dont l’ensemble des valeurs
d’adhérences est R tout entier : c’est vraiment n’importe quoi.
87
ce contexte, il est tentant de dire que par exemple la suite triviale identiquement nulle ne
converge pas vers 0, c’est à dire que, au vu de la norme définie sur les suites, il n’est pas licite
de parler de sa valeur en +∞ comme étant 0, puisqu’elle peut être approchée arbitrairement
près par des suites qui ont un comportement très différent en +∞.
Les remarques ci-dessus donnent une première réponse informelle au pourquoi ? de la pre-
mière question au début de cette section : l’espace quotient est trivial parcequ’il est impossible
de définir la limite d’une suite de H en +∞.
On peut montrer a contrario que, si la suite des αn croı̂t suffisamment vite, l’espace
quotient est non trivial. On a plus précisément :
Proposition 8.1. Soit H l’espace défini par (8.1), et H0 l’adhérence de D (sous espace des
suites nulle au delà d’un certain rang). On a
X 1 X 1
< +∞ =⇒ H/H0 ≃ R , = +∞ =⇒ H/H0 ≃ {0}.
αn αn
Démonstration. Supposons dans un premier temps que la série des 1/αn converge (vers la
valeur 1/α > 0). Remarquons en premier lieu que, pour tout u ∈ H, tous p < q,
1/2 1/2
q−1 q−1 q−1 q−1
X X 1 √ X 1 X
|uq − up | ≤ |uk+1 − uk | = √ αn |uk+1 − uk | ≤ αn |uk+1 − uk | 2 ,
k=p k=p
αn α
k=p n k=p
qui tend vers 0 quand p et q tendent vers +∞ : la suite est de Cauchy, donc converge vers
une valeur réelle. On note ϕ la forme linéaire qui à une suite de H associe sa limite. On a
!1/2
X 1 X 1/2 1
|un | = | un − un−1 + un−1 − · · · − u0 + u0 | ≤ √ αn |un+1 − un |2 ≤ kukH .
αn α
Il s’agit donc bien d’une forme linéaire continue, de norme ≤ 1.
de telle sorte que h est entièrement déterminée par sa limite quand n tend vers ∞.
Considérons maintenant la situation où la série des 1/αn diverge, et montrons que toute
suite u de H peut être approchée par une suite de D, ce qui assurera la trivialité de H/H0
(absence de trace). Pour u ∈ H donné, on construit uN de la façon suivante : uN n est égal à
un pour n ≤ N , et uN
n décroı̂t (ou croı̂t si un est négatif) vers 0 entre N et un indice M >N
N
que nous fixerons ultérieurement. La suite u ainsi construite est dans D On impose
αn (uN N
n+1 − un ) = q
88
On a donc
M −1
X 1
αn (uN N 2 2
n+1 − un ) = q rN M = (uN )
2
.
n=N
rN M
Par divergence de la série, 1/rN M peut être rendu arbitrairement petite, on choisit par
exemple M = M (N ) tel que (uN )2 /rN M < 1/N . On a ainsi convergence de uN vers u
pour la norme de H.
Comme suggéré précédemment, on peut avoir trivialité de l’espace quotient pour des
P
raisons différentes. Considérons par exemple, sous l’hypothèse 1/αn < ∞, l’espace
n X X o
H = u = (un ) ∈ RN , u0 = 0 , u2n + αn |un+1 − un |2 < +∞ . (8.2)
L’espace D des fonctions nulles au delà d’un certain rang est dense dans H, l’espace quotient
H/H0 est donc trivial. La situation est pourtant très différente du cas d’absence de trace de la
proposition précédente : ici, on peut définir d’une certain manière une trace (les suites de H
sont de Cauchy d’après la partie différentielle de la norme), mais cette trace est nécessairement
nulle.
On note un et un+1 les potentiels électriques aux extrémités du n-ième fil, on a par
hypothèse un potentiel nul à l’extrémité 0. La question qui se pose est de savoir s’il cela a
un sens d’imposer un potentiel non nul U à l’extrémité ∞. Pour le fil tronqué à N bouts, on
s’intéresse à la minimisation de
N N
X X 1
αn |un − un−1 |2 = |un − un−1 |2 ,
n=1 n=1
rn
avec valeurs imposées 0 et U aux extrémités. Le minimum est atteint en une collection u de
potentiels unique, tels que
qn = αn (un − un−1 ) = q
89
est constant. Cette quantité q correspond à l’intensité électrique qui traverse le fil, et la somme
ci-dessus vaut
N N N
X 1 X X
|un − un−1 |2 = rn |qn |2 = rn |q|2 ,
n=1
r n n=1 n=1
| {z }
=RN
qui exprime la puissance dissipée (effet Joule). L’appartenance à l’espace H exprime le fait
que le courant électrique généré par les potentiels (un ) induit une puissance dissipée finie. On
prendra garde au fait que H contient des potentiels non harmoniques, i,e. tels que les intensités
peuvent varier d’un segment à l’autre : la loi des nœuds n’est pas vérifiée, de l’intensité
peut rentrer ou sortir du domaine par les points de jonction, mais sans induire de puissance
dissipée supplémentaire (voir ci-après une situation qui pénalise énérgétiquement ces fuites).
Le cas correspondant à αn ≡ 1 exploré précédemment correspond ici plus généralement à
P P
R = rn = 1/αn = +∞ : la résistance globale du fil “infini” est infinie, ce qui signifie
qu’il est impossible de faire passer une intensité non nulle dans le fil en dissipant une quantité
finie d’énergie. Si l’on reprend le fil tronqué précédemment, il apparaı̂t que, quel que soit
le potentiel U imposé en sortie, l’intensité tend vers 0 quand N tend vers +∞. on a aussi
convergence simple vers 0 de toutes les potentiels ponctuels. Pour le fil infini, la conséquence
est que l’on peut imposer n’importe quel potentiel à l’extrémité +∞ sans qu’il se passe quoi
que ce soit. L’extrémité ∞ est isolante : le potentiel imposé n’est pas vu par le système. Cette
situation correspond au cas d’un espace-quotient trivial (pas de trace), avec valeur au bord
quelconque.
La situation qui correspondrait au cas alternatif d’un espace quotient trivial par nullité
forcée des champs au bord peut être construite comme suit : on considère maintenant un fil
P P
infini de résistance globale finie, en supposant rn = 1/αn < +∞. On a alors H/H0 6= {0},
cet espace s’identifie à R, ce qui signifie que cela a un sens d’imposer un potentiel non nul en
∞ (il s’agit en fait d’un problème de Dirichlet discret). Considérons maintenant que chaque
point de jonction soit lui même relié à la terre (potentiel nul) par un fil de résistance unitaire.
La puissance dissipée par effet Joule dans l’un de ces fils transverses est αn (un − 0)2 . L’espace
d’énergie du problème (ensemble des potentiels qui induisent une puissance dissipée finie) est
maintenant défini par l’équation (8.2). On retrouve la situation l’un espace quotient nul, mais
pour une raison bien différente : le potentiel en ∞ est nécessairement nul. Plus précisément,
imposer un potentiel non nul induirait une puissance dissipée infinie.
Remarque 8.2. Cette construction peut se faire dans un cadre mécanique, en considérant
un système mécanique constitué d’une infinité de ressorts. Les potentiels sont alors remplacés
par des déplacements, les intensités par des forces, et les conductances αn par des constantes
de raideur. Un tel système mécanique sans trace est alors localement infiniment mou (on
peut déplacer le “point” du bord infiniment facilement, ou alors (dans le cas où l’on attache
les points de jonction, simplement reliés entre eux dans le premier cas, à un support fixe)
infiniment raide (il est impossible de déplacer le point au bord avec une énergie finie).
Nous avons abordé la première des deux questions initiales, qui portait sur la possibilité
de stucturer de façon non triviale le comportement des fonctions (ou des suites) au bord
du domaine. Comme le suggère l’exemple des suites, c’est une certaine rigidité de la norme
lorsque l’on s’approche du bord qui conduit au fait que l’espace quotient n’est pas trivial.
Dans le cadre de la proposition 8.1, c’est dans le cas où les αn croissent suffisamment (donc
rigidifient la suite en pénalisant l’écart entre valeurs successives) que l’on peut identifier un
90
espace de trace non trivial. La seconde étape consiste à décrire cet espace quotient non trivial,
par exemple en l’identifiant à un espace de fonctions qui vivent sur la frontière du domaine.
Nous allons voir que c’est maintenant une certaine forme de rigidité transverse de la norme
qui va conditionner le comportement des objets au bord du domaine.
Dans le cas des suites, la situation est évidemment assez pauvre, puisqu’il n’y a qu’un
point à l’infini, on ne peut donc trouver que R ou {0}. On peut néanmoins se faire une
première idée de cette notion de rigidité transverse en considérant un réseau de fils électrique
en forme d’échelle semie-infinie (voir figure 8.2), et en définissant l’espace de potentiels aux
nœuds de ce réseaux qui correpondent à une puissance dissipée finie. On note αn = 1/rn , et
l’on définit
X 2 X 2
H= u= (u1n , u2n ) , u10 = u20 , α′n u2n − u1n < +∞ , αn uin+1 − uin < +∞ , i = 1 , 2
r1 r2 r3 r4
r2′ r3′
r1 r2 r3 r4
On suppose que la série des inverses des αn converge (ce qui revient à dire ici que la
résistance de chacun des “rails” est finie). Pour tout u dans H, les suites (u1n ) et (u2n ) sont
de Cauchy, donc convergent vers des valeurs U1 et U2 . Si les α′n sont nuls (résistances rn′
infinies), les deux rails sont indépendants, et l’on a un espace de trace H/H0 qui s’identifie à
R2 . Maintenant considérons par exemple que les α′n sont minorés (les résistances tranverses
sont majorées). Alors les deux suites de Cauchy précédentes sont nécessairement adjacentes,
et les limites sont donc les mêmes. On peut donc avoir H/H0 de dimension 1 ou 2, selon la
rigidité transverse induite par les conductances α′n . Si l’espace est de dimension finie comme
ici, le problème se ramène à déterminer sa dimension, et éventuellement à identifier une norme
naturelle sur cet espace.
Dans le cas de fonctions définies sur un domaine euclidien, ce qui joue le rôle des deux
“bouts”est une variété (le bord de Ω), ou par exemple les directions vers l’infini si Ω est l’espace
entier. Les deux valeurs aux bouts sont remplacées par une fonction qui vit sur cette variété.
On pourra alors retrouver le cas H/H0 trivial sous deux formes : la situation d’une trace
indéfinie (on peut avoir essentiellement n’importe quelle fonction au bord), ou la situation
de fonction nécessairement nulle. Cette propriété dépendra de la rigidité de la norme quand
on s’approche du bord. Pour le cas H/H0 6= {0}, selon l’importance de la rigidité transverse,
on pourra retrouver le cas où la fonction est nécessairement constante, ou des cas extrêmes
pour lequel la fonction ne présente par de régularité particulière, mais aussi des situations
intermédiaires dans lesquels la rigidité transverse impose une certaine régularité aux traces,
qui s’exprime par exemple dans le cas où H est l’espace de Sobolev H 1 (Ω), sous la forme
d’une régularité Sobolev fractionnaire H 1/2 en l’occurrence, pour un bord régulier.
91
9 Diffusion et hétérogénéité
Une substance qui diffuse à tendance à se répartir uniformément dans l’espace disponible.
Cette tendance est exprimée par exemple par la convergence (uniforme) vers 0 du noyau
de la chaleur (équation (1.4), page 18) quand t tend vers +∞. Dans le cas d’un domaine
borné, une solution de l’équation de la chaleur, interprétée comme une courbe de densités de
probabilité, voit son entropie 52 diminuer au cours du temps (voir (10.4)). Au niveau discret
la suite de densités de probabilité associée au processus de diffusion associé à un réseau
résistif voit de la même manière son entropie relative par rapport à la mesure stationnaire
décroitre (voir section 4.3). Ce type de processus ne conduit ainsi pas spontanément à la
création de “formes” non triviales, mais au au contraire à un étalement de la matière vers une
situation d’homogénéité maximale. Sans rentrer dans des considérations philosophiques qui
dépasseraient le cadre de cet ouvrage et les compétences de son auteur, il est même surprenant
que le monde qui nous entoure, dont chaque sous-système fermé obéit au second principe de la
thermodynamique, puissent être aussi hétérogène et empli de formes (patterns) non triviales,
à différentes échelles. Nous nous proposons ici d’explorer quelques mécanismes impliquant un
processus de diffusion couplé avec un ou plusieurs autres ingrédients, et qui conduisent de
façon transitoire ou asymptotique à des distributions hétérogènes de matière, par opposition
à l’étalement vers la distribution uniforme associé au processus de diffusion seul.
Le plus simple de ces mécanismes est basé sur l’ajout d’un terme de transport concentrant
au terme de diffusion dans l’équation de la chaleur, encodant une tendance à se diriger
dans une certaine direction. Considérons l’exemple d’un champ de vitesse u qui dérive d’un
potentiel Ψ, l’équation de transport diffusion associée s’écrit
∂ρ
− D∆ρ + ∇ · (ρu) = 0, u = −∇Ψ.
∂t
Si Ψ est par exemple strictement convexe coercive, elle admet un minimum unique sur Rd ,
et ce point de minimum est un attracteur global du système dynamique associé : toutes
les trajectoires ẋ = −∇Ψ(x) convergent vers ce même point. L’équation ci-dessus, appelée
équation de Fokker-Planck, ajoute au transport de la diffusion, et ρ, que l’on peut voir comme
une densité de probabilité, aura tendance à se concentrer autour de ce point de minimum
d’autant plus que le coefficient de diffusion est faible. Dans le cas d’un potentiel quadratique
Ψ = |x|2 , la densité limite sera une Gaussienne centrée en 0, de variance proportionnelle à D.
Cette équation est parfois utilisée pour modéliser le mouvement de particules ayant ten-
dance à diffuser tout en ayant la faculté de se mouvoir préférentiellement dans la direction du
gradient d’une certaine quantité (chimiotaxie). Dans ce contexte on écrira plutôt u = ∇Ψ, où
Ψ est par exemple une concentration en oxygène, et ρ une densité de bactéries dans un fluide.
On peut penser aussi à une foule décrite de façon macroscopique par une densité, composée
d’individus “agités” qui ont tendance à se diriger dans la direction d’un (ou plusieurs) point(s)
d’intérêt commun(s).
Noter que cette équation qui semble coupler diffusion et transport peut s’interpréter dans
certains contextes comme une équation de diffusion pure, dans un milieu hétérogène. Le
52. Dans le cas plus général d’une équation de diffusion et transport par un gradient, vers l’entropie relative
par rapport à la mesure stationnaire (définie par (10.3)).
92
processus de diffusion associé à un réseau résistif décrit dans la section 4.3 est d’ailleurs
l’équivalent discret de cette équation de Fokker Planck, le transport préférentiel selon certaines
directions étant encodé par les variations locales de conductances, qui biaisent la marche
aléatoire dans un sens ou dans l’autre. Le caractère essentiellement diffusif du phénomène
sous-jacent à cette équation est aussi d’une certaine manière attesté (voir section 10.2) par
la propriété de décroissance de l’entropie relative par rapport à la mesure stationnaire. Cette
mesure stationnaire est la (à constante multiplicative près) solution de l’équation stationnaire,
on retrouve son expression en remarquant que
ρ
−D∆ρ − ∇ · (ρ∇Ψ) = −∇ · ρ∇ (D log ρ + Ψ) = −∇ · ρ∇ D log ,
η
Remarque 9.1. Plus précisément, l’évolution peut être interprétée comme un flot de gradient
pour cette fonctionnelle d’entropie relative si l’on se passe dans le cadre adapté de la métrique
de Wasserstein (voir section 11). Noter que cette analogie peut s’étendre au niveau discret
(équation (4.7), page 51) grâce à l’introduction récente d’une métrique de type Wasserstein
sur l’espace des mesures portées par les sommets d’un réseau résistif 53 .
Le cadre précédent s’appuie sur une composante exogène (le potentiel Ψ). Nous explorons
maintenant la possibilité de modéliser un phénomène d’agrégation en boucle fermée, en consi-
dérant des entités qui manifestent une tendance à se regrouper. Au niveau macroscopique,
une écriture brutale de le principe, par exemple en considérant que le flux J (définition 1.1,
page 11) est proportionel au gradient de ρ, ne conduit pas à un modèle pertinent, puisqu’il
s’agit de l’équation de la chaleur rétrograde, qui est mal posée selon tous les cadres formels
utilisables dans un contexte de modélisation. On obtient une situation plus riche et exploitable
(et considérée comme représentant assez fidèlement certains phénomènes expérimentaux) en
introduisant une quantité intermédiaire S, qui correspond à la concentration d’un chimio-
attractant émis par les entités elle-mêmes, est dont le mouvement diffusif est complété par un
biais dans la direction du gradient de cette nouvelle quantité. On obtient ainsi les équations
de Kelle-Segel, développées dans la section 9.2 ci-après.
Une autre approche permet de reproduire des distributions non uniforme de matière,
elle consiste à prendre en compte des mécanismes de réaction non linéaires afférents à la
population considérée, voire à plusieurs populations coexistantes. L’équation de ce type la
plus simple (en termes de modélisation tout du moins) est l’équation de Fisher KPP,
∂ρ
− D∆ρ = kρ(1 − ρ/ρmax ),
∂t
qui conduit génériquement à l’apparition d’une zone pleine (ρ ≈ 1) qui remplit progressive-
ment l’espace, séparée d’une zone vide (ρ ≈ 0) par une interface plus ou moins diffuse suivant
la valeur du coefficient de diffusion. Ce modèle est présenté dans la section 9.3.
Une situation plus riche est obtenue lorsque l’on considère un terme source possédant 2
états d’équilibre stables, séparés par un état intermédiaire instable. Même si cette équation
53. Voir : J. Maas, Gradient flows of the relative entropy for finite Markov chains, Journal of Functional
Analysis, 261(8), Pages 2250-2292 (2011).
[Link]
93
est en général motivée par la modélisation de phénomènes de séparation de phase, on peut
penser à une population ayant tendance à diffuser et à croitre (avec un terme de limitation
logistique) lorsque la densité dépasse une certaine valeur critique. En dessous de cette valeur,
la population tend à s’éteindre, et au dessus à croitre vers une valeur maximale (comme pour
l’équation de Fisher KPP). L’équation avec diffusion s’écrit
∂ρ
− D∆ρ = ρ(1 − ρ)(ρ − a),
∂t
elle modélise une compétition entre les deux états stables (0 et 1), compétition équilibrée si a =
1/2, de sorte que, selon la distribution initiale, l’évolution peut conduire à la dispartion d’un
des deux états, ou un coexistence entre les deux états. Si a est plus proche de 0 par exemple,
le bassin d’attraction de 1 s’en trouve agrandi, et on peut vérifier que l’on a convergence vers
l’état uniforme 1. Ce modèle est présenté dans la section 9.4.
Un autre point de vue a été apporté par Turing au début des années 50. Il a mis en évi-
dence (par des arguments de stabilité linéaire) le fait que, si l’on considère deux populations
réagissant entre elles de façons adaptée, un état d’équilibre au départ stable si l’on considère
simplement le système différentiel représentant les interactions mutuelles, pouvait être désta-
bilisé, paradoxalement, par la prise en compte de mécanismes de diffusion de chacune des
espèces en jeu, sous réserve que les coefficients de diffusion respectifs soient significativement
différents. La section 9.5 détaille l’étude de stabilité permettant de mettre en évidence ce
phénomène.
Les mécanismes évoqués ci-dessus conduisent à des formes variables, mais pour l’essentiel
régulières, la situation la plus riche de ce point de vue correspondant aux instabilités de
Turing, qui peuvent conduire à des distributions de motifs (textures) de type tâches ou rayure
De tels modèles sont utilisés pour expliquer l’apparition de motis sur le pelage de certains
animaux comme des félins (tigres ou léopards) ou des poissons 54 .
L’un des mécanismes conduisant à l’apparition de dendrites est connu sous le terme DLA
(Diffusion Limited Aggregation). On peut décrire ce mécanisme très informellement de la
façon suivante : on considère une première particule (on pourra se représenter ces particules
commes des entités de taille finie) fixe. On considère une seconde particule qui se déplace de
façon aléatoire (mouvement brownien ou marche aléatoire dans le cas discret) à partir d’une
position initiale lointaine. Lorsque cette particule rencontre la première, elle se colle à elle. On
fait ensuite partir une troisième particule, qui se collera à l’amas déjà formé dès le premier
contact. Le mécanisme de croissance associé à ce principe présente la particularité suivante :
si l’amas courant est de forme irrégulière, i.e. si son contour présente des creux et des bosses,
54. Voir par exemple : K. J. Painter, P. K. Maini, and H. G. Othmer, Stripe forma-
tion in juvenile Pomacanthus explained by a generalized Turing mechanism with chemotaxis,
[Link]
94
la particule suivante a plus de chance de le rencontrer au niveau d’une bosse que d’un creux.
Le mécanisme tend donc à renforcer les irrégularités, à toute échelle.
Une déclinaison déterministe de ce principe, sous la forme d’un système d’équations aux
dérivées partielles, est présentée dans la section 9.6.
On note ρ(x, t) la densité locale d’une population d’entités mobiles (dans un fluide ou un
substrat considéré lui-même comme immobile), animées d’une vitesse dirigée vers les zones
les plus riches en une certaine substance (appelée chemo-attractant), dont on notera c la
densité. Si l’on suppose que la vitesse est proportionnelle au gradient de S, que les entités
sont également l’objet d’un processus de diffusion, et enfin que le chimio-attractant diffuse
lui même au sein du milieu, on obtient le système
∂t ρ − D∆ρ + ∇ · (βρ∇S) = 0
∂t S − DS ∆S = 0.
Dans le cas (que l’on rencontre en pratique pour certaines bactéries) où la substance
c est émise par l’entité elle-même 55 , on obtient, en rajoutant un terme de disparition du
chimio-attractant, le système dit de Keller-Segel
∂t ρ − D∆ρ + ∇ · (βρ∇S) = 0
∂t S − DS ∆S = kρ − γS.
−D∂ρ/∂n + βρ∇S · n,
mais, du fait de la condition de Neuman sur S, ce flux est purement diffusif, ce qui conduit
là aussi à une condition de Neumann homogène
∂ρ
D = 0.
∂n
Remarque 9.2. Noter que, dans le cas extrêmes ou cette attraction entre congénères ne
passerait pas par l’intermédiaire d’une substance émise et ressentie, on aurait une vitesse
chemotactique du type u = β∇ρ, ce qui conduirait à phénomène d’anti-diffusion, et à une
équation de la chaleur rétrograde :
∂t ρ+βD∆ρ = 0
55. On peut penser à la phéromone émise par les fourmis, qui leur permet de choisir préférentiellement les
parcours déjà empruntés par leurs congénères.
95
qui est mal posée. Le système de Keller Segel, en prenant en compte de façon plus souple cette
attraction entre entités, traduit une tendance à la concentration qui pose de fait des problèmes
en termes de régularité de la solution, tout en permettant du fait du retard, que des solutions
régilières puissent exister, au moins localement en temps. On peut en particulier montrer 56
que, sous certaines conditions, le système conduit à l’apparition (en temps fini) de points de
concentration (masses de Dirac).
γS − DS ∆S = kρ.
On obtient alorsle système de Keller -Segel dit parabolique-elliptique (par opposition au sys-
tème de départ, appelé parabolique-parabolique.
Conservation. On peut vérifier la conservation de ρ sur l’ensemble du domaine (ce qui n’est
pas une surprise, puisque les équations expriment précisément cette conservation sur tous les
sous domaines) en intégrant l’équation en ρ :
Z Z
d
ρ+ (−D∂ρ/∂n + βρ∂S/∂n) = 0.
dt Ω Γ| {z }
=0
Pour désigner les facteurs qui sont de nature à limiter la croissance d’un population,
comme la prédation, la limitation des ressources en nourriture, on utilise le terme d’effets
logistiques. Dans le contexte des équations différentielles ordinaires, lorsque l’on décrit une
population par sa seule taille, la manière la plus simple de les prendre en compte est de
considérer un terme de croissance du type ρ(1 − ρ), qui exprime que le taux de croissance
tend vers 0 lorsque ρ tend vers une valeur limite ici fixée à 1.
56. A. Blanchet, J. Dolbeault, B. Perthame, Two-dimensional Keller-Segel model : optimal critical mass
and qualitative properties of the solutions,
Electronic Journal of Differential Equations 2006, (2006) 1–32,
[Link]
96
Si l’on s’intéresse maintenant à une espèce distribuée non uniformément dans l’espace,
soumise à un processus de diffusion, on aboutit à l’équation dite de Fisher KPP :
∂ρ
− D∆ρ = kρ(1 − ρ/ρmax ),
∂t
où k correspond à un taux de reproduction à faible densité, et ρmax est la capacité du milieu.
Pour ce modèle, l’équation différentielle associée présente deux états d’équilibre (en 0 et
en ρmax ). Le premier est instable, le second est stable. La concentration aura donc tendance
à tendre partout vers la valeur 1 correspondant à l’état stable.
97
9.4 Équations d’Allen-Cahn
On considère ici une équation de réaction diffusion avec un terme source correspondant à
deux états stables, par exemple en 0 et en 1, et un état instable pour une valeur a entre 0 et
1. Il s’agit de l’équation dite d’Allen Cahn, qui s’écrit
∂ρ
− D∆ρ = ρ(1 − ρ)(ρ − a).
∂t
Dans ce cas, si a = 1/2 (situation équilibrée entre les deux états stables), on peut avoir
convergence vers une situation où co-existent les deux valeurs 0 et 1.
Nous nous intéressons ici à des systèmes d’espèces en interaction, selon un système diffé-
rentiel
du
= f (u, v) (9.3)
dt
dv
= g(u, v). (9.4)
dt
On suppose que ce système admet un point d’équilibre stable, que l’on fixe en (0, 0) (quitte
à changer les fonctions f et g). On note F le champ définissant le système, et
! !
∂u f (0, 0) ∂v f (0, 0) a b
∇F (0, 0) = = .
∂u g(0, 0) ∂v g(0, 0) c d
a + d < 0 , ad − bc > 0.
98
On s’intéressera au cas où la seconde espèce diffuse mieux que la première, i.e. D > 1. On
introduit la base Hilbertienne (wk ) des fonctions propres du Laplacien avec conditions de
Neuman :
−∆wk = λk wk .
En décomposant chacune des fonctions sur cette base :
X X
u= uk (t)wk (x) , v = vk (t)wk (x),
et en prenant le produit scalaire avec l’une des fonction wk , on obtient, du fait du caractère
orthogonal de cette base,
Pour les grandes valeurs propres, le déterminant reste positif. mais pour des valeurs propres
“petites” (en un sens à préciser), il est possible que ce déterminant devienne négatif si a > 0
et D est plus grand que 1. Noter que l’on a forcément d < 0 (pour que la trace non perturbée
soit négative), et, du fait que le déterminant non perturbé est positif, i.e. ad − bc > 0, b et
c doivent être de signes opposés. On peut alors avoir une plage de valeurs propres associés à
des modes instables, qui peuvent expliquer l’apparition de “motifs”.
99
9.6 Croissance Dendritique
∂ρ
− D∆ρm+1 = κρS − µρ
∂t
∂S
− DS ∆S = −κρS
∂t
∂ρ
= µρ
∂t
On notera que la variable ρ ne fait que stocker la quantité de ρ désactivé, elle n’est en fait
utilisée que pour des raisons de représentation graphique : c’est la quantité totale d’entités
ρ + ρ qui présente des motifs en dentrites.
58. Voir : S. Kitsunezaki, Interface Dynamics for Bacterial Colony Formation, J. Phys. Soc. Japan 66 (1997),
1544–1550. [Link]
100
10 Entropie
On considère une variable aléatoire discrète qui prend ses valeurs dans un ensemble de
cardinal N . La loi de cette variable est décrite par
X
p = (p1 , p2 , . . . , pN ) , pi ≥ 0 , pi = 1.
S(pu ) = − log N.
Montrons que cette valeur est un minimum. Pour toute fonction ϕ convexe, on a
1 X 1 X
ϕ pi ≤ ϕ(pi ),
N N
L’entropie est donc minimale pour la loi uniforme, et seulement celle-là, et nulle dans
les cas déterministe. Elle quantifie en effet l’information que la connaissance de la loi de
probabilité donne sur le système.
Remarque 10.2. On peut vérifier que cette entropie tend à diminuer pour un processus
d’évolution de type diffusif 60 . Considérons par exemple une marche aléatoire sur un ensemble
à N points, avec passages équiprobables aux points suivants et précédents, et périodicité.
Notons ρn la loi de la position du point au temps n. A l’étape suivante, on a
1 n+1
ρn+1
i = ρi−1 + ρn+1
i+1 .
2
On a alors
X X 1
1X
n+1
S(ρ )= g(ρn+1
i ) = g ρni−1 + ρni+1 ≤ g ρni−1 + g ρni+1 = S(ρn ),
2 2
101
Interprétation en termes de quantité d’information.
Dans le cas N = 2k , et si l’on choisit le logarithme de base 2, on a Smin = −k, qui correspond
au nombre de questions binaires qu’il faut poser pour localiser de façon sûre une valeur de
x qui a été tirée selon la loi uniforme (avec une stratégie de dichotomie : est-elle dans la
première moitié ? dans le premier quart de la première moitié ? etc ...). Dans le cas d’une
probablité non uniforme, cette interprétation en terme de bits d’information est plus délicate.
Considérons l’exemple de la distribution
1 1 1
p= , ,..., .
2 2(N − 1) 2(N − 1)
La variable a une chance sur deux de se trouver en première position, avec probablité uniforme
sur le reste si ça n’est pas le cas. L’entropie de cette loi est
1 X 1 1 1 1 1 k
− + log = − − − log(N − 1) ≈ −1 −
2 2(N − 1) 2(N − 1) 2 2 2 2
1 1 k
+ (1 + k) = 1 +
2 2 2
qui correspond bien à l’opposé de l’entropie telle qu’on l’a définie.
avec Ē ∈] min Ei , max Ei [. Notons que si Ē est égal à l’une des bornes de l’intervalle, par
exemple max Ei , alors p est concentré sur les indices qui réalisent ce maximum. S’il n’y en a
qu’un, alors l’ensemble admissible est un singleton : le Dirac en ce point. S’il y en a plusieurs,
le minimum de l’entropie sera la distribution uniforme sur le sous ensemble d’indices qui
réalise le maximum. Bien entendu, si γ est à l’extérieur de l’intervalle fermé, alors l’ensemble
admissible est vide.
1
pi = exp (−βEi ) .
Z
102
Démonstration. Le minimum est atteint car la fonction est continue et l’ensemble admissible
compact. L’unicité du minimiseur découle de la stricte convexité de la fonctionnelle. Si le
minimiseur est atteint en un point de ]0, +∞[N , alors on a
1 + log pi + λ1 + λ2 Ei = 0,
Démonstration 1 : Supposons que le minimum ne soit pas dans ]0, +∞[N , que par exemple
p1 = 0. S’il existe 2 indices i1 et i2 à poids > 0 (donc nécessairement < 1) associés à des
valeurs de Ei distinctes, on considère une variation de p du type
Pour ε positif suffisament petit, il existe donc un unique couple (ε1 , ε2 ) tel que p + h soit dans
K. Comme la dérivée de x 7→ x log x est −∞ en 0, la variation effectuée dominue strictement
l’entropie globale au voisinage de p, qui ne saurait donc être un minimiseur.
Si maintenant p charge un unique indice i (ou plusieurs indices associés à la même valeur
de l’énergie), alors nécessairement il existe deux indices i1 et i2 tels que
car Ē est dans l’intérieur de l’enveloppe convexe des Ei . (On a par ailleurs supposé que les
Ei étaient positifs, ce qui ne nuit pas à la généralité du fait que l’on peut rajouter une même
constante arbitraire aux Ei et à Ē sans changer la condition.) On considère alors une variation
avec ε > 0. Les conditions pour que cette variation soit admissible s’écrivent
La valeur de ε > 0 étant fixée, le système ci-dessus admet une unique solution (ε1 , ε2 ), avec
ε1 , ε2 > 0, du fait que Ei /E2 < 1 < Ei /E1 . La variation est donc admissible, et conduit pour
les mêmes raisons que précédemment à une diminution stricte de l’entropie.
103
On a X X X 2
− exp(−βEi )Ei2 exp(−βEi ) + exp(−βEi )Ei
g′ (β) = X 2
exp(−βEi )Ei
qui est strictement négatif d’après l’inégalité de Cauchy-Schwarz (si les Ei ne sont pas tous
égaux, ce qui est le cas). La fonction g tend par ailleurs vers max Ei en −∞, et vers min Ei en
+∞. L’équation g(β) = γ ∈] min Ei , max Ei [ admet donc une solution unique. Le coefficient
Z de normalisation est alors déterminé par
X −1
Z= exp(−βEi ) .
Comme la fonction est convexe et le domaine convexe, la vérification des conditions de Kuhn et
Tucker assurent que le p ainsi déterminé est bien le minimiseur de S sur l’ensemble admissible
(Théorème 23.29, page 248).
On peut voir cette quantité comme une quantification de l’information que l’on a sur la
position d’une variable aléatoire qui suit la loi associée à cette densité. Lorsque l’on a la
densité uniforme ρ ≡ 1/ |Ω| (absence complète d’information), on a
Z
1 1
S(ρ) = log dx = − log |Ω|.
Ω |Ω| |Ω|
Conformément à l’intuition, cette valeur correspond à un minimum. En effet, pour toute fonc-
tion ϕ convexe, pour toute fonction g mesurable, l’inégalité de Jensen exprime que l’espérance
par rapport à une mesure de proba µ de ϕ ◦ g est supérieure à ϕ de l’espérance de g(x), i.e.
Z Z
ϕ g(x) dµ(x) ≤ ϕ ◦ g(x) dµ(x).
Ω Ω
On applique cette inégalité avec dµ = dx/ |Ω| (probabilité uniforme), ϕ(a) = a log a, et
g(x) = ρ(x) pour obtenir
Z
dx 1 1
S(ρ) = |Ω| ρ log ρ ≥ |Ω| log = − log |Ω|,
Ω |Ω| |Ω| |Ω|
avec inégalité stricte dès que ρ n’est pas la mesure uniforme p.p.
104
On trouve bien que l’entropie estRdécroissante. On notera qu’il en aurait été de même pour
n’importe quelle fonction S(ρ) = ϕ(ρ), avec ϕ convexe.
avec π = e−Ψ/D .
Vérifions que ρ tend bien vers cette mesure stationnaire en étudiant l’évolution de l’en-
tropie relative de ρ par rapport à π :
Z
ρ
S(ρ) = ρ log . (10.3)
π
On a
Z Z
d ρ
S(ρ) = (1 + log ρ − log π) ∂t ρ = D (1 + log(ρ/π)) ∇ · ρ ∇ log
dt π
Z 2 Z
ρ ρ
= −D ρ ∇ log +D (1 + log(ρ/π)) ρ ∇ log · n.
π ∂Ω π
Le terme de bord fait apparaı̂tre ∂ρ/∂n et ∂π/∂n, qui sont tous les deux nuls. On obtient
donc Z 2
d ρ
S(ρ) = −D ρ ∇ log ≤ 0, (10.4)
dt π
qui exprime la décroissance de l’entropie relative, décroissance stricte tant que ρ n’est pas
proportionnel à la mesure stationnaire π.
105
11 Flots de gradient dans l’espace de Wasserstein
Cette section, très incomplète en l’état, décrit formellement la manière dont on peut inter-
préter certaines équations aux dérivées partielles comme des flots de gradient dans l’espace de
Wasserstein. On se reportera à [7, 8] pour des développements plus approfondis des notions
esquissées ici.
Le cadre mathématique usuel en modélisation est basé sur une vision eulérienne des
choses : lorsque l’on considère une variation autour d’une fonction u, on a ajoute une per-
turbation v à u, et la mesure de l’éloignement est basé sur une mesure de cet ajout. Ainsi le
gradient d’une fonctionnelle Ψ définie sur L2 (Ω) est le champ w qui vérifie
Z
Ψ(u + εv) = Ψ(u) + ε wv + o(ε).
Ω
Cette approche très naturelle est pourtant biaisée : considérons sur l’intervalle I =]0, 1[
une fonction ρ qui prend alternativement les valeurs 0 et 1 selon que l’on soit sur un sous-
intervalle de type ]2k/2N, (2k+1)/2N ou ](2k+1)/2N, (2k+2)/2N . Si l’on se place dans L2 (I)
(mais une démarche analogue pourrait être faire pour n’importe quelle distance “eulérienne”,
c’est à dire une distance basée sur la différence
√ des fonctions), la distance entre ρ et 1 − ρ est
égale à la norme de ρ multipliée par 2. Elle reste donc de l’ordre de la norme de ρ même
quand N tend vers +∞. Or il est tentant de considérer les deux fonctions ρ et 1 − ρ comme
proches, selon deux points de vue. En premier lieu, leurs moyennes locales se rapprochent.
Si l’on considère ces fonctions comme des images monodimensionnelles en niveau de gris (0
pour blanc, 1 pour noir), il est manifeste que toutes deux tendent (quand N tend vers +∞)
vers une image uniformément grise. Cette propriété peut se modéliser grâce à la notion de
convergence faible, ou convergence au sens des mesures : ρ et 1 − ρ tendent toutes deux vers
la même mesure uniforme 1/2. Une seconde manière de qualifier leur proximité, que nous
allons développer dans ce qui suit, est la suivante : considérant ρ et 1 − ρ comme des densités
de matière sur l’intervalle ]0, 1[, on peut se demander s’il est coûteux de transporter l’une
sur l’autre. Plus précisément, si l’on considère que le coût pour transporter une unité de
matière d’un point x à un point y vaut une valeur prescrite c(|y − x|) (fonction monotone de
|y − x|, qui vaut 0 en 0), alors le coût total pour transporter ρ vers 1 − ρ est de façon évidente
c(1/2N )/2, qui tend bien vers 0 quand N tend vers +∞. Nous privilégierons par la suite le
coût quadratique c(α) = α2 , et nous définirons la distance associée comme la racine de ce
coût, dont on peut vérifier qu’il s’agit effectivement d’une distance.
Pour définir la notion de flot gradient suivant cette approche, il nous faut définir ce que
nous entendons par variation autour d’une densité donnée. Les développements qui suivent
sont purement formels, en particulier nous supposons que tous les champs utilisés sont régu-
liers, et l’on pourra voir les mesures elles-mêmes comme des fonctions régulières. On se place
dans Rd , on considère une densité ρ donnée (positive) et un champ de vitesse w. Pour tout
ε > 0 on considère l’application (ou transport)
T ε : x 7−→ x + εw(x).
Pour ε assez petit (si w est lisse comme nous l’avons supposé), il s’agit d’une bijection régu-
lière, est l’on peut définir ce que l’on appellera la mesure image, notée ν = T♯ε ρ, comme la
106
mesure qui vérifie Z Z
f (T ε (x))ρ(x) dx = f (y)ν(y) dy,
pour toute fonction f régulière. La formule usuelle de changement de variable donne la valeur
de la densité transportée en fonction du Jacobien de la tranformation :
ρ(x)
T ε ♯ ρ(x + εw) = .
|i + ε∇w|
Noter que, quand ε est petit (et si w est raisonnablement régulier), le jacobien de i + ε∇w
s’écrit 1 + ε∇ · w + o(ε).
On notera que les variations considérées préservent la masse totale. De fait, cette approche
conduit naturellement à considérer des familles de densités de masse totale fixée (la théorie
est en général présentée pour des mesures de probabilité, donc de masse 1, mais la masse
totale peut avoir une autre valeur).
La notion de flot gradient s’en déduit instantanément : on appellera flot gradient associé
à Ψ une trajectoire de densités t 7→ ρ( · , t) vérifiant l’équation de transport
∂t ρ + ∇ · (ρu) = 0,
Flot potentiel. Considérons la situation où la fonctionnelle Ψ est donnée sous la forme
Z
Ψ(ρ) = ϕ(x)ρ(x) dx.
On a
Z Z Z
ε ε
Ψ(T ♯ ρ) = ϕ(y)(T ♯ ρ)(y) dy = ϕ(x + εw(x))ρ(x) dx = Ψ(ρ) + ε ∇ϕ · wρ(x) dx,
de telle sorte que le gradient au sens où nous l’entendons maintenant s’identifie à ∇ϕ. Le flot
gradient associé correspond donc au transport par une vitesse −∇ϕ :
∂t ρ − ∇ · (ρ∇ϕ) = 0.
61. On définit plus généralement la notion de sous-différentiel, qui correspond à l’ensemble des vecteurs v
tels que Z
Ψ(ρ) + ε v · wρ(x) dx ≤ Ψ(T ε ♯ ρ) + o(ε),
pour des variations élémentaires du type T ε ♯ ρ = i + εw. Cette notion permet de gérer des situations, non
régulières, très courantes en pratique, où l’on ne peut pas définir le gradient au sens standard. La notion de
flot gradient qui en résulte est basée sur l’appartenance du champ de vitesse u à l’opposé du sous-différentiel
∂Ψ défini ci-dessus.
107
Considérons par exemple (pour d = 1) un potentiel ϕ(x) = x2 . Le champ de vitesse
associé s’écrit u = −2x, donc les trajectoires sont des courbes t 7→ x(t) = x0 e−2t . Le flot
gradient au sens de Wasserstein aura donc tendance à concentrer la masse au voisinage de
l’origine (on converge vers une masse de Dirac 62 ). On peut vérifier aisément, sous réserve que
l’on admette l’extension des ces notions aux cas de mesures non régulières, que si l’on prend
comme condition initiale pour ρ une combinaison de masses de Dirac en différents points x01 ,
. . ., x0N ∈ Rd , le W-flot gradient associé sera la somme des masses de Dirac affectées aux
point xi (t), qui correspondent aux flots-gradient au sens usuel (euclidien)
dxi
= −∇ϕ(xi (t)) , xi (0) = x0i .
dt
Ce flot gradient est donc une généralisation macroscopique des flots gradients ponctuels dans
l’espace euclidien.
Cherchons à expliciter le W-gradient de la fonctionnelle (on suppose ici que les densités ne
s’annulent pas) :
Z
Ψ(T ε ♯ ρ) = ϕ(T ε ♯ ρ)(y) dy
ϕ(T ε ♯ ρ)(y) ε
Z
= T ♯ ρ(y) dy
T ε ♯ ρ(y)
ϕ(T ε ♯ ρ)(x + εw)
Z
= ρ(x) dx.
T ε ♯ ρ(x + εw)
ρ(x)
T ε ♯ ρ(x + εw) = = ρ(x)(1 − ε∇ · w + o(ε)).
|i + ε∇w|
62. De façon plus générale, pour une fonction régulière ϕ, le flot gradient aura tendance à concentrer la
masse en des minimum locaux de la fonction, chacun concentrant la masse initialement présente dans son
bassin d’attraction.
108
On obtient donc
Z
ε ρ(x)(1 − ε∇ · w + o(ε))
Ψ(T ♯ ρ) = ρ(x) dx
ρ(1 − ε∇ · w + o(ε)))
Z
= ϕ(ρ) − ερ∇ · wϕ′ (ρ) + o(ε) (1 + ε∇ · w + o(ε)) dx
Z
= Ψ(ρ) + ε ϕ(ρ) − ρϕ′ (ρ) ∇ · w dx + o(ε)
Z
= Ψ(ρ) + ε w · ∇ ρϕ′ (ρ) − ϕ(ρ) dx + o(ε)
Z
= Ψ(ρ) + ε w · ρ∇ϕ′ (ρ) + ϕ′ (ρ)∇ρ − ϕ′ (ρ)∇ρ + o(ε)
Z
= Ψ(ρ) + ε w · ∇ϕ′ (ρ)ρ dx + o(ε),
109
12 Graphes
12.1 Définitions
Dans la définitions ci-dessus, les arcs sont orientés au sens où xy est différents de yx. Les
deux peuvents être des arcs du graphe orienté, ou l’un des deux, ou aucun.
Definition 12.2. (Cycle)
On appelle cycle de (V, E) un n-uplet de sommets x1 , x2 ,. . .,xn (avec n ≥ 2) tel que
12.2 Exemples
L’ensemble des utilisateurs (actifs ou non) de Twitter peut-être vu, à un instant donné,
comme un graphe orienté, si l’on considère que tout “follower” pointe vers la personne qu’il
suit.
Dans le même ordre d’idée, si l’on considère une foule à un instant donné, on peut voir
chaque individu comme le sommet d’un graphe, qui pointe vers les personnes qui sont dans
son cône de vision, et qui (si l’on s’en tient aux comportements sociaux, en excluant les
contacts physiques) sont donc susceptibles d’influencer son comportement.
Une chaı̂ne alimentaire peut aussi être considéré comme un graphe dont les points sont
les espèces, chaque espèce pointant vers ses prédateurs.
110
des cycles, on cherchera à transformer les équations (typiquement par élimination) de façon
à obtenir un graphe acyclique.
Si l’on considère maintenant un schéma de type (pour fixer les idées) différences finies.
On considère le graphe dont les nœuds sont les valeurs des inconnues aux pas de temps
successifs, chaque nœud poitant vers le nœuds correspondant aux valeurs intervenant pour
le calcul de la quantité concernée dans le schéma. Un schéma explicite sera typiquement
acyclique, alors qu’un schéma implicite contiendra des cycles.
De façon générale, lorsque l’on s’intéresse à une collection d’agents (au sens le plus gé-
néral), il est fécond de considérer le graphe d’influence associé, chaque agent pointant vers
les agents qui l’influencent. Les modèles résultant d’une situation acyclique sont en général
beaucoup plus simples à modéliser. Les éléments maximaux décident de ce qu’il font sans être
influencés (d’un point de vue mathématique, il faudra donc décider de leur comportement, qui
ne peut pas être donné par le modèle), et les effets se propagent dans la hiérarchie du réseau.
Dans le cas où des cycles sont présents, la situaiton peut être beaucoup plus compliquée,
générant en particulier des situations de non unicité. Cette situation se produira typiquement
lorsque l’on s’intéresse à l’évolution d’une quantité afférente à chaque entité, qui dépend de
l’évolution de la valeur instantanée de cette même quantité. Par exemple, dans le cas de
foules, si l’on considère que chaque individu décide de sa vitesse en fonction de la position
des personnes vers lesquels il pointe (i.e. qu’il voit), le problème pourra être bien posé même
dans le cas cyclique. En revanche, si l’on considère que la vitesse d’une personne dépend
aussi de la vitesse des gens qu’il voit, la présence de cycle va considérablement compliquer le
problème, puisque le modèle n’est plus strictement causal. On pourra penser à l’exemple d’un
cycle simple : deux personnes se font face, chacun souhaitant aller tout droit, en cherchant à
décider de sa vitesse en fonction de la vitesse de l’autre.
Dans le contexte des schémas numérique pour les équations d’évolution, la présence de
cycle dans les schémas implicite) nécessitera la résolution de systèmes linéaires (pour lesquels
il faudra vérifier que la matrice associées est bien inversible). Dans le cas non linéaire, la
présence de cycles peut invalider le caractère bien posé (en termes d’unicité, voire d’existence)
du système à résoudre pour faire progresser l’algorithme de discrétisation en temps.
111
13 Convergence faible et compacité
Soient E et F deux e.v.n., et Ψ une forme bilinaire continue sur E × F . On peut associer
naturellement à Ψ une application (linéaire et continue) de F dans E ′ :
Proposition 13.1. Soient E et F deux e.v.n. Si E est séparable 63 , alors de toute suite (yn )
bornée dans F on peut extraire une suite (yn′ ) qui converge au sens suivant :
⋆
∃ϕ ∈ E ′ , T yn′ −⇀ ϕ,
où T est définie par (13.1). Autrement dit, il existe ϕ ∈ E ′ telle que
ψ(x, yn′ ) −→ hϕ , xi ∀x ∈ E.
Démonstration. La suite extraire est construite par le procédé d’extraction diagonal de Cantor
(voir preuve du théorème 20.32, page 204 dans le cas Hilbertien).
La proposition précédente est très générale, et d’ailleurs très vide dans certains cas
(prendre par exemple Ψ identiquement nulle, ou bien E de dimension finie alors que F est
de dimension infinie). La propriété devient pertinente quand l’espace E et la forme Ψ sont
suffisamment “riches” pour que la dualité soit séparante, c’est à dire (on privilégie ici l’espace
E) que
Ψ(x, y) = 0 ∀x =⇒ y = 0.
Cette propriété assure l’injectivité de l’application T définie ci-dessus.
Corollaire 13.2. Soit E un e.v.n. séparable. De toute suite bornée dans E ′ on peut extraire
une sous-suite bornée qui converge pour la topologie faible-⋆.
63. Il admet une famille dénombrable dense.
112
On fera bien la distinction entre le corollaire précédent et le théorème de Banach-Alaoglu-
Bourbaki, qui établit la compacité de la boule unité de E ′ pour la topologie faible-⋆, sans
hypothèse de séparabilité. Dans le cas où E n’est pas séparable, on a bien compacité, mais
la topologie n’est pas métrisable, de telle sorte que la compacité ne peut pas se traduire en
termes de suites extraites convergentes 64 . Ainsi la boule unité de ℓ1 est bien compacte pour
σ(ℓ∞ , ℓ1 ), mais on ne peut par exemple extraire aucune sous suite convergente (faible-⋆) de
la suite (en ).
Corollaire 13.3. Soit E un espace de Banach dont le dual est séparable. De toute suite bornée
dans E on peut extraire une sous-suite qui converge 65 dans E ′′ pour la topologie σ(E ′ , E ′′ ).
Si E est réflexif, la sous-suite converge faiblement dans E.
Corollaire 13.4. Soit H un espace de Hilbert. De toute suite bornée dans H on peut extraire
une sous-suite qui converge faiblement dans H
Le corollaire 13.3 permet d’extraire d’une suite bornée une sous-suite faiblement conver-
gente dès que l’espace considéré est réflexif, donc en particulier dans les espaces Lp (Ω) pour
1 < p < +∞, ainsi que dans les espaces de Sobolev W m,p (Ω), pour tout m ∈ N, tout
p ∈]1, +∞[.
Pour les espaces non réflexifs (comme L1 (Ω) ou L∞ (Ω), ou les espaces de Sobolev associés),
la propriété est fausse en général, comme l’illustrent les exemples suivants.
Dans L1 (R) : la suite fn = 1]n,n+1[ est sur la sphère unité. Si une sous-suite converge
faiblement vers f , alors f s’annule contre toute fonction régulière à support compact, elle est
donc nécessairement nulle. Mais par ailleurs h1 , fn i est identiquement égale à 1, on doit donc
avoir h1 , f i = 1, ce qui est impossible.
Dans L∞ , les choses sont un peu plus délicates, car le dual de cet espace n’est pas clai-
rement identifié 66 . En particulier, le fait que l’on puisse (ou pas) extraire une sous-suite
convergente de la suite définie précédemment n’est pas aisé à trancher. On peut néanmoins
construire un contre-exemple analogue, en considérant par exemple la forme linéaire sur
L∞ (R) qui à une fonction convergente en +∞ associe sa limite, prolongée par le théorème de
Hahn-banach analytique en ϕ ∈ (L∞ (Ω))′ . On considère alors la suite fn = 1]n,+∞[. Si elle
113
converge faiblement vers f , alors nécessairement f est nulle presque partout, donc tend vers
0 en +∞, or on doit avoir hϕ , f i = 1, ce qui est absurde.
Convergence faible dans les cas non réflexifs. L’espace L∞ (Ω) s’identifie au dual de
L1 (Ω), qui est séparable, on peut donc, d’une suite bornée dans L∞ extraire une sous-suite
qui convergence (faible-⋆) vers une limite de L∞ .
L’espace L1 (Ω), dont le dual L∞ n’est pas séparable, peut être mis en dualité avec des
espaces de fonctions continues (munis de la norme ∞) : espace Cc des fonctions continues à
support compact, espace C0 qui tendent vers 0 au bord de Ω, et l’espace Cb des fonctions
bornées sur Ω. Noter que ces trois espaces s’identifient si l’on se place sur un compact. Dans le
cas d’un domaine ouvert considéré ici, les 2 premiers espaces sont séparables, mais le troisième
ne l’est pas. D’une suite bornée dans L1 on pourra donc extraire une sous-suite qui converge
vaguement (contre les fonctions de Cc ) ou faiblement (contre les fonctions de C0 ), mais la
limite est définie comme une forme linéaire sur ces espaces, elle ne s’identifie pas forcément
à une fonction de L1 : il s’agit en toute généralité d’une mesure bornée. Par exemple la
suite fn = n1]0,1/n[ converge faiblement vers la masse de Dirac en 0. En l’occurrence, cette
convergence est aussi étroite, mais on prendra garde au fait que l’on ne peut en général,
d’une suite bornée de L1 , extraire une sous-suite qui converge étroitement (du fait de la non
séparabilité de Cb (Ω)). Ainsi la suite fn = n1]n,n+1/n[ converge vaguement ou faiblement vers
0, il n’en existe aucune sous-suite qui convergerait étroitement.
Exercice 13.1. On considère l’espace E des fonctions continues sur Rd qui convergent vers
une valeur finie lorsque |x| tend vers +∞. Montrer qu’il s’agit d’un espace complet (pour la
norme ∞) séparable, et énoncer une propriété de compacité séquentielle faible-⋆ pour L1 (Rd )
mis en dualité avec E. Que peut on dire de la suite fn = n1]n,n+1/n[ définie précédemment ?
Proposer une généralisation de cette approche à des fonctions pour lesquelles la limite en +∞
dépend de la direction x/ |x|. (On pourra commencer par le cas d = 1, avec simplement 2
limites différentes en +∞ et −∞.)
114
14 Problème adjoint
Principe général.
J(u) = G(yu ),
Φ(yu , u) = 0.
Les variables d’état y et de contrôle u vivent dans des espaces qui peuvent être de dimension
infinie (il peut s’agir par exemple de fonctions de [0, T ] dans Rd , comme on le verra plus loin).
hΦ(yu , u), pi = 0,
pour tout p dans un espace en dualité séparante avec l’espace dans lequel vit Φ(yu , u) (de
façon à ce que l’identité ci-dessus implique Φ(yu , u) = 0). On introduit le Lagrangien
qui est défini pour des couples (y, u) qui peuvent être indépendants (i.e. qui ne vérifient pas le
lien Φ(yu , u) = 0). Pour tout y associé à u, le Lagrangien prend la valeur de la fonctionnelle,
i.e.
J(u) = G(yu ) = L(yu , u, p),
quel que soit p. On a alors
avec
Dy L = Dy G + (Dy Φ)⋆ p. (14.2)
L’idée est alors de construire un p particulier qui annule Dy L, et donc le premier terme
de (14.1). Il n’est donc pas nécessaire de connaı̂tre la différentielle de yu par rapport à u : on
obtient
DJ = (Du Φ)⋆ p,
où p a été construit de façon à annuler Dy L (expression donnée par (14.2)).
115
avec A ∈ Mn (R), B ∈ Mn,m (R), C ∈ Mp,n (R), z̄ ∈ Rp .
AT p = C T (Cy − z̄) .
(
ẏ = f (y, u, t)
(14.3)
y(0) = y0
où u est un paramètre de contrôle qui vit dans l’espace U = Rm . On s’intéresse à la dépendence
d’une fonction de y (et éventuellement de u lui même) vis-à-vis de la variable de contrôle u.
Démarche générale. On s’intéresse dans un premier temps au cas où la fonctionnelle mesure
l’écart entre l’état final et un point cible donné :
1
J(u) = |yu (T ) − ȳT |2 .
2
L’objectif est de calculer la différentielle de J.
On introduit le Lagrangien
Z T
1
L(y, u, p) = |y(T ) − ȳT |2 + (f (y, u, t) − ẏ(t)) · p(t) dt,
2 0
DuJ = Dy L ◦ Du yu + Du L.
L’approche consiste à trouver un p particulier qui annule Dy L (et donc le premier terme), de
telle sorte qu’il ne sera pas nécessaire d’expliciter Du yu . La différentielle de J se réduira alors
au second terme, qui s’écrira en fonction du p particulier
116
On a Z
T ∂f
hDu L , δui = (y, u, t)δu · p,
0 ∂u
où ∂f /∂u est linéaire de Rm dans Rn . On peut identifier Du L à un vecteur de Rm :
Z T ⋆
∂f
Du L = (y, u, t) p.
0 ∂u
On a donc
Z T
∂f
hDy L , δyi = (y(T ) − ȳT ) · δy + ṗ + (y, u, t)p(t) · δy − δy(T ) · p(T ).
0 ∂y
On introduit maintenant le problème adjoint, à valeur finale prescrite :
∂f
−ṗ = (y, u, t)p(t)
∂y (14.4)
p(T ) = y(T ) − ȳT .
117
15 Transport optimal (cas discret)
Nous allons considérer une version relaxée de ce problème, qui peut se formuler intuitive-
ment de la façon suivante, dans un contexte de transport : on considère le premier ensemble
comme contenant des positions dans un certain espace (il n’est pas nécessaire de préciser
lequel ici), et le second ensemble aussi comme une collection de positions dans un espace
(éventuellement le même, mais pas forcément). On note cij ce que celà coûte de transporter
une quantité de matière unitaire de xi vers yj . Le problème précédent consistant à considérer
que l’on avait une même quantité de matière en chaque point (par exemple 1/N ), et que l’on
cherchait à transporter cette matière vers le second ensemble en envoyant toute la matière de
chaque point vers une destination unique. Nous allons considérer maintenant qu’il est pos-
sible de distribuer la matière venant d’un point vers plusieurs destination. Cette relaxation
du problème permet de lever la contrainte d’avoir le même nombre de points au départ et à
l’arrivée. Dans ce qui suit on notera γij la quantité de matière allant de i vers j. On appellera
γ = (γij ) un plan de transport.
67. Il n’y a pas lieu de préciser ici les points d’arrivée et points de départ. Nous nous intéresserons plus loin
au transport entre points d’un espace euclidien, mais ici on peut tout aussi bien effectuer un transport d’une
essoreuse vers le concept de néant chez Sartre.
68. On peut toujours se ramener à cette situation en supprimant de X et / ou Y les points non chargés.
118
sous la contrainte que γ transporte µ vers ν, i.e.
X X
γij ≥ 0 , γij = µi ∀i , γij = νj ∀j, (15.1)
j i
ce que l’on écrira γ ∈ Π(µ, ν), ou simplement γ ∈ Π quand il n’y a pas d’ambiguı̈té.
Remarque 15.1. On peut formuler ce problème en termes probabilistes, en considérant γ
comme une loi de probabilité sur l’espace produit X × Y , dont les mesures images par les
projections sur X et Y sont respectivement µ et ν. Parmi de telles lois , on cherche celle(s)
qui minimise(nt) l’espérance de la “fonction” c = (cij ) sur X × Y .
Remarque 15.2. L’ensemble admissible est non vide, il contient en particulier le plan cor-
respondant à une loi de probabilité sur X × Y pour deux variables indépendantes, qui s’écrit
γij = µi νj .
On verra que c’est le plan qui minimise l’entropie de la loi γ (voir définition 10.1, page 101).
Proposition 15.3. Le problème 15.2 admet un minimiseur.
Démonstration. Les γij sont positifs, et chacun d’eux est majoré par le max des µi , l’ensemble
Π est donc borné, il est évidemment fermé donc compact : la fonction continue (car linéaire)
C( · ) admet donc un minimiseur sur Π.
Remarque 15.4. Dans le cas d’un coût du type cij = ai + bj , le problème est fortement
dégénéré, puisque tout transport de µ vers ν réalise le même coût. Inversement, pour deux
ensembles de même cardinal N , avec µ et ν lois uniformes sur X et Y , si l’on se donne
une bijection ϕ de Sn , on peut construire une famille de coûts telle que le plan associé à
la bijection 69 soit l’unique minimiseur, en prenant par exemple ciϕ(i) = −1, et cij = 0 si
j 6= ϕ(i).
Question 15.1. ( ? ?)
Étant donnée une collection de coût (cij ), existe-t-il des ensembles X et Y de points de Rd
tels que cij = |yj − xi | ? (on pourra aussi considérer cij = |yj − xi |p , cij = ψ(|yj − xi |) avec ψ
croissante et nulle en 0.)
Question 15.2. ( ?)
Le problème 15.2 admet-il une solution unique “en général”? (on s’attachera à exprimer
précisément ce que l’on entend par unicité générique.)
Lien avec le problème d’affectation. Dans le cas où les cardinaux sont les mêmes, et
les mesures équidistribuées, on peut préciser le lien entre le modèle relaxé basé sur les plans
de transports et le problème d’affectation. Pour simplifier les notations, on considère ici la
situation où chaque point porte une masse unitaire, de telle sorte que la masse totale des
mesures considérées est égale au nombre de points.
Proposition 15.5. On se place dans le cas N = M (même nombre de points de part et
d’autre, et µi = νj ≡ 1), et l’on note ΠS l’ensemble des plans de transports associés à une
affectation, i.e. γij = δiϕ(i) , où ϕ est une permutation du groupe symétrique. L’ensemble Π
des plans de transport admissibles est l’enveloppe convexe de ΠS .
69. C’est à dire : γiϕ(i) = 1/N , et γij = 0 si j 6= ϕ(i).
119
Démonstration. Il s’agit d’une conséquence du théorème de Krein-Milman en dimension finie,
qui assure que tout convexe compact d’un espace affine de dimension finie est l’enveloppe
convexe de ses points extrêmaux 70 . Tout point de SN est de façon évidente extrémal pour
Π. Réciproquement, considérons un plan générique (i.e. qui n’est pas associé à une bijection)
γ. On considère dans un premier temps les indices i pour lesquels γij est nul pour tous les
indices j sauf un (qui vaut donc 1). Cette sous-famille des points de départ est en bijection
avec les points d’arrivées j correspondants, pour lesquels, symétriquement, γij est nul pour
tous les i sauf 1. On note I (resp. J) l’ensemble des indices non concernés dans l’espace
de départ (resp. d’arrivée). Les ensemble I et J sont de même cardinal, et non vides par
hypothèse. Avec des notations évidentes, la restriction du plan γ à XI × YJ est diffuse, au
sens que pour tout i, γij ∈]0, 1[ pour au moins 2 indices j ∈ J, et pour tout j ∈ J, on a
γij ∈]0, 1[ pour au moins 2 indices i ∈ I. On part d’un indice i0 ∈ I, et l’on choisit j0 tel
que γi0 j0 > 0. On choisit ensuite i1 6= i0 tel que γi1 j0 > 0, puis j1 6= j0 tel que γi1 j1 > 0. On
construit ainsi une suite d’indices
i0 , j0 , i1 , . . . , in−1 , in ,
que l’on peut voir comme un chemin dans le graphe sur I ∪ J associé au plan γ, chemin qui
ne contient pas d’aller-retour. L’ensemble des indices étant fini, il existe forcément un n tel
que in correspond à un indice iℓ 6= in−1 déjà visité. On considère alors la variation
n−1
X
h= πik ,jk − πik+1 ,jk ,
k=ℓ
avec in = iℓ , et où πi,j est l’élément de RN M qui vaut 1 sur la composante (i, j), et qui est
nul pour les autres couples. Pour η suffisamment petit, γ ± ηh est positif, et par construction
γ ± ηh vérife les contraintes de marginales, les deux perturbations sont donc dans Πµ,ν , et
γ est moyenne non triviale de ces deux plans de transport, il ne s’agit donc pas d’un point
extrémal.
Comme chaque C(γ k ) est supérieur ou égal à C(γ), et que θ k > 0 pour tout k, la combinaison
convexe ci-dessus implique que C(γ k ) est égal à C(γ) pour tout k. Chaque permutation
impliquée dans la combinaison réalise donc le minimum.
120
15.3 Formulation duale du problème de MK discret
La formulation duale du problème 15.2 est basée sur l’expression duale des contraintes de
marginales :
X N
X X
γij = µi ∀i ⇐⇒ p i µi − γij = 0 ∀p ∈ RN ,
j i=1 j
avec V = RN +
M et Λ = RN × RM . Noter que cette définition du Lagrangien correspond
à un choix qui est fait (et qui peut sembler arbitraire) de dualiser les contraintes d’égalité
(correspondant aux contraintes de marginales), mais pas les contraintes de positivité.
Le problème primal (voir definition 23.24, page 246) est le problème consistant à minimiser
la fonctionnelle
X
cij γij si γ∈Π
F (γ) = sup L(γ, p, q) = i,j
p,q
+∞ sinon
Minimiser cette fonctionnelle revient bien à résoudre le problème de minimisation sous contrainte 15.2.
Le problème dual (voir toujours la définition 23.24, page 246) consiste à maximiser la
fonctionnelle duale G(p, q) = inf γ L(γ, p, q). Cette fonctionnelle s’exprime (on ordonne diffé-
remment les sommes dans l’expression de L(γ, p, q)) :
X N
X M
X
G(p, q) = inf (cij − pi − qj ) γij + p i µi + q j νj
γ∈V
i,j i=1 j=1
N
X M
X X
= p i µi + qj νj + inf (cij − pi − qj ) γij .
γ∈V
i=1 j=1 i,j
Comme γ parcourt V = RN M
+ , l’infimum ci-dessus vaut −∞ à moins que l’on ait pi + pj ≤ cij
pour tous i, j, et 0 dans ce dernier cas. On a donc
N
X M
X
p i µi + q j νj si pi + qj ≤ cij ∀ i , j,
G(p, q) = inf L(γ, p, q) = i=1 j=1
γ∈V
−∞ sinon .
On écrira p ⊕ q ≤ c la contrainte d’inégalité sur les pi et qj . Le problème dual (il est immédiat
que l’ensemble des p, q, vérifiant la contrainte est non vide) s’écrit donc
sup (p · µ + q · ν) .
p⊕q≤c
121
Figure 15.1 – Interprétation géométrique des potentiels de Kantorovich pour la distance 1.
Il s’agit de montrer que le Lagrangien défini ci-dessus admet un point selle ou, de façon
équivalente (voir proposition 23.26, page 246), que le problème dual admet une solution, et
que sa valeur maximale est la valeur minimale du problème initial. La remarque suivante
permet de se ramener à la construction de vecteurs de multiplicateurs de Lagrange vérifiant
une propriété très simple.
alors (γ, p, q) est point-selle pour le Lagrangien L (défini par (15.2)). En effet, (p, q) vérifie
alors la contrainte du problème dual, et on a
X X X X
G(p, q) = µi p i + µj q j = γij (pi + qj ) = γij cij = F (γ).
i j ij ij
Comme on a G(p̃, q̃) ≤ F (γ̃), cela implique que (p, q) (resp. γ) est solution du problème dual
(resp. primal).
Remarque 15.8. Dans le cas où X et Y sont des collections d’un même nombre N de points
de Rd , et que cij = |yj − xi |, la remarque précédente peut s’interpréter géométriquement : pour
trouver un minimiseur du coût, il suffit 71 de trouver 2N cercles (ou sphères pour d ≥ 3) Σxi et
Σyj centrés en les points xi et yj , respectivement, de telle sorte qu’il existe une bijection ϕ telle
que Σxi est tangent à Σyϕ(i) , et que les autres couples de cercles (Σxi , Σyj ) ne se chevauchent pas
strictement. Selon cette vision du problème dual, les pi (resp. qj ) sont les rayons des cercles
Σxi (resp. Σyj ). La figure 15.1 donne un exemple d’une telle construction, pour d = 2 et N = 5.
71. Il s’agit essentiellement d’une interprétation géométrique des potentiels de Kantorovich, il n’est pas clair
que ce nouveau problème soit plus facile à résoudre que le problème de minimisation initial.
122
15.4 Existence d’une solution au problème dual
L’approche consiste simplement, comme dans la définition 23.27, page 246, à ajouter un
P
terme du type − µij γij au Lagrangien défini précédemment :
X
L̃ : (γ, p, q, µ) ∈ RN M × RN × RM × RN
+
M
7−→ L̃(γ, p, q, µ) = L(γ, p, q) − µij γij .
Proposition 15.9. Le Lagrangien L( · , · , · ) admet un point selle (γ, p, q) ou, de façon équi-
valente,
G(p, q) = max G(p̃, q̃) = min F (γ̃) = F (γ).
p̃⊕q̃≤c γ̃∈Π
D’après la proposition 23.22, page 244 (en notant que les contraintes d’égalité affines
peuvent se traiter comme deux contraintes d’inégalité affines 72 , pour lesquelles la question
de qualification ne se pose pas comme le précise la définition 23.21), il existe p , q, et µ ≥ 0
tels que
cij − pi − qj − µij = 0,
avec µij = 0 dès que γij > 0 (contrainte non activée). Le couple (p, q) vérifie donc la contrainte
d’inégalité, avec égalité sur le support de γ, ce qui implique (voir remarque 15.7) que (γ, p, q)
est point-selle du Lagrangien.
L’existence d’un point-selle peut aussi être obtenue, de façon plus laborieuse, à partir de
la régularisée entropique du problème de minimisation (voir section 15.11, page 132).
Sous sa forme la plus générale, le problème est entièrement déterminé par les mesures
d’arrivée et de départ, et les coûts cij . Dans un grand nombre de situations, X et Y sont des
ensembles de points de l’espace euclidien, et cij est une certaine mesure de la distance entre
eux.
123
point de départ et point d’arrivé (on peut penser au coût de l’essence), minimiser le coût
total correspond au problème considéré précédemment.
Une généralisation immédiate de ce problème consiste à considérer des coûts du type cij =
|yj − xi |p , le cas p = 2 jouant un rôle extrêmement important dans de multiples domaines.
Une “application” dans le cas quadratique est la suivante : on considère deux systèmes de N
points du plan, que l’on cherche à connecter deux à deux par des ressorts de longueur au
repos nulle. Minimiser l’énergie élastique (quadratique en les positions) revient à choisir les
couples que l’on va connecter.
Exercice 15.3. (Matching) Montrer que, dans le cas où X et Y sont des points d’un espace
euclidien, et dans le cas quadratique cij = |yj − xi |2 , minimiser le coût global revient à
maximiser la somme des γij xi · yj . Considérer la situation où X correspond à un ensemble
d’agents, représenté par un vecteur de nombres réels (par exemple entre 0 et 1 pour fixer
les idées) correspondant à l’intérêt que chacun porte aux caractéristiques d’un produit, l’en-
semble Y (vecteurs de même type) représentant l’ensemble des produits offerts au “marché”
X. Interpréter alors le problème de transport optimal de X vers Y au vu de la remarque
précédente.
Interprétation des qj comme prix. Dans un esprit proche de ce qui précéde, on considère
un ensemble d’agents X, et l’on suppose que chaque agent est doté d’un capital µj . L’ensemble
des biens 74 est noté Y , et la quantité de chaque bien (mesurée dans la même unité que les
µj ) vaut νj . On note uij l’utilité que représente le bien j pour l’agent i, de telle sorte que
ηuij mesure en quelque sorte la satisfaction apportée à i s’il consacre une partie η de son
capital à l’acquisition du bien j. Maximiser la satisfaction globale correspond à un problème
de type Monge-Kantorovich discret
X
max γij uij .
γ∈Π
ij
ce qui signifie simplement que, le système de prix étant ce qu’il est, l’agent i perd tout intérêt
pour les biens qui ne correspondent pas à son choix courant, il est content, ou tout du moins,
en l’état actuel du reste de l’univers, il ne peut pas augmenter sa satisfaction en changeant ses
choix. Si l’on pose pi = maxk uik − qk , on dispose d’un plan de transport, et d’un couple (p, q)
74. Les biens sont considérés ici comme des quantités sécables, et pas comme des biens discrets tels que
l’achat ou le non achat se représenterait de façon binaire.
124
qui vérifie p ⊕ q ≥ u avec égalité sur le support de γ, on a donc une solution du problème.
Les qj , associés au contraintes sur les produits, s’interprètent donc comme des prix, et les pi ,
de la forme uij − qj , à une certaine forme de satisfaction effective des différents agents.
Exercice 15.4. a) Dans le cas du coût ℓ1 (i.e. cij = |yj − xi |), donner des exemples de situations
pour lesquels on n’a pas unicité du minimiseur.
15.6 Interpolation
Cette notion est particulièrement féconde dans un contexte où l’on a unicité d’un plan
de transport optimal (dans un sens qui peut dépendre du contexte), mais elle est basée sur
la possibilité d’associer à tout plan de tranport admissible une interpolée canonique. C’est
ce choix que nous faisons de définir ci-dessous une notion, non pas d’interpolée entre deux
mesures, mais d’interpolée associée à un plan de transport.
125
L’ensemble des mesures de probabilités atomiques sur Rd reste convexe pour cette nouvel
acception de l’interpolation : pour tout plan de transport, la courbe t 7→ ργt associée reste
dans A, on parlera de convexité par déplacement (displacement convexity).
Noter en revanche que, si l’on se restreint à l’ensemble A(K) des mesures supportées dans
un compact K donné, on perd la convexité de A(K) dès que K n’est plus convexe.
Remarque 15.11. Si Ψ est une fonction strictement convexe de Rd dans R, et ρt la courbe
d’interpolation associée à un transport γ entre deux mesures atomiques ρ0 et ρ1 distinctes, la
fonction Z
t 7→ hρt , Ψi = Ψ(x) dρt
Rd
est strictement convexe. Noter que la même fonction définie à partir de l’interpolée eulérienne
ρ̃t est simplement l’interpolée affine entre les deux valeurs extrêmes, elle est donc convexe,
mais aussi concave, quelles que soient les proprités de convexité de la fonction Ψ.
L’entier N n’est pas fixé, mais on ne considère ici que des sommes finies. Pour p ≥ 1 fixé, µ
et ν dans Ad , on note
!1/p
X
Wp (µ, ν) = inf γij |yj − xi |p ,
γ∈Π(µ,ν)
où l’infimum correspond au problème de MK discret 15.2, pour lequel l’existence d’un plan
minimisant est établie dans 15.3. On se propose de montrer que Wp est une distance sur Ad .
Théorème 15.12. La fonction Wp ( · , · ) définie ci-dessus sur A × A est une distance.
76. On peut voir γ 123 comme la loi d’une variable aléatoire sur Rd × Rd × Rd dont les projections ont pour
lois respectives µ1 , µ2 et µ3 .
126
On a 1/p 1/p
X p X p
Wp (µ1 , µ3 ) ≤ γi131 i3 x3i3 − x1i1 = γi1 i2 i3 x3i3 − x1i1
i1 i3 i1 i2 i3
1/p 1/p
X p X p
≤ γi123
1 i2 i3
x2i2 − x1i1 + γi123
1 i2 i3
x3i3 − x2i2
i1 i2 i3 i1 i2 i3
Exercice 15.5. Montrer que l’espace A défini ci-dessus n’est pas complet, même si l’on
contraint les supports des mesures à demeurer dans un compact de Rd . Identifier des sous-
ensembles stricts de Ad qui sont complets pour la même métrique.
Exercice 15.6. On considère l’espace AN des mesures atomiques de Rd à N points (non
nécessairement distincts), avec équidistribution de masse sur les N points. Identifier l’espace
métrique AN muni de la distance précédemment définie.
Cette section présente les principes d’une formulation alternative du problème de Monge
Kantorovich proposée par Benamou et Brenier à la fin du siècle dernier 77 . Cette approche
s’est révélée extrêmement féconde sur le plan de la résolution numérique de tels problèmes,
mais aussi sur le plan abstrait. Soient x0 et x1 deux points de Rd . Pour toute vitesse v(t)
régulière donnée sur l’intervalle [0, 1] telle que la trajectoire associée xt relie x0 et x1 , la
longueur ℓ de la courbe vérifie
Z 1 2 Z 1
|x1 − x0 |2 ≤ ℓ2 = |v(s)| ds ≤ |v(s)|2 ds.
0 0
Par ailleurs, si l’on prend la vitesse constante égale à (x1 − x0 ), on a égalité entre les deux
extrémités de la chaine précédente d’inégalités. On a donc
Z 1
|x1 − x0 |2 = minR |v(s)|2 ds.
x1 =x0 + v 0
On peut généraliser cette approche à deux mesures atomiques supportées par des nuages
de points (xi ) et (yj ), en considérant pour chaque couple (xi , yj ) une vitesse vij sur [0, 1]
susceptible de les relier. On notera W l’ensemble des vitesses admissibles correspondant à
cette condition. Le problème de transport optimal avec coût quadratique s’écrit alors
XZ 1
2
min γij |vij (s)| ds
v∈W,γ∈Π 0
ij
77. J.D. Benamou, Y. Brenier, A computational fluid mechanics solution to the Monge-Kantorovich mass
transfer problem, Numerische Mathematik January 2000, Volume 84, Issue 3, pp 375-393,
[Link]
127
On peut écrire différemment ce problème en utilisant la notion de solution faible de l’équation
de transport. On se ramène ainsi à la recherche d’un champ de vitesse vt qui est ρt -mesurable
pour tout t ∈ [0, 1], qui transporte ρ0 vers ρ1 , i.e. (ρt , vt ) est solution faible sur Rd × [0, 1] de
l’équation de transport
∂t ρt + ∇ · (ρt vt ) = 0,
avec données initiales et finales ρ0 et ρ1 , et qui minimise la quantité
Z 1Z
|vt |2 dρt .
0 Rd
15.9 Étude de W1
On a, pour tout i, pi ≤ cij − qj pour tout j, avec égalité pour au moins un indice j, donc
pi = min(cij − qj ).
j
128
Cette fonction est 1-Lipschitzienne comme infimum de fonctions 1-Lipschitziennes 78 . Par
ailleurs ϕ prend les valeurs du potentiel de Kantorovitch sur le support de µ :
Enfin, on a
ϕ(yj ) = inf (|yk − yj | − qj ) ≤ −qj ,
k
avec toujours N ∈ N non fixé (il dépend de µ, et n’est pas borné). Pour p ≥ 1 fixé, µ et ν
dans A, on note comme précédemment
!1/p
X p
Wp (µ, ν) = inf γij |yj − xi | .
γ∈Π(µ,ν)
Démonstration. Le complété abstrait de A est l’espace des suites de Cauchy pour Wp quo-
tienté par la relation d’équivalence
(µn ) ∼ (ν n ) ⇐⇒ Wp (µn , ν n ) −→ 0.
78. On a ϕ(x) = inf j ϕj (x). Pour tous x, y, on a ϕ(x) = ϕj (x) pour un certain j, d’où
129
De toute suite (µn ) de Cauchy dans A (en fait, pour toute suite de A), on peut extraire une
sous-suite qui converge faiblement 79 dans P(K). Montrons que la limite ne dépend pas du
représentant dans la classe d’équivalence. Soient µn et ν n deux suites adjacentes (µ ∼ ν), et
ϕ une fonction Lipschtzienne sur K. On a (en notant γ n un plan optimal de µn vers ν n )
X X XX
hν n − µn , ϕi = νjn ϕ(yjn ) − µni ϕ(xni ) = n
γij ϕ(yjn ) − ϕ(xni )
j i j i
1/p
XX XX p
n
≤L γij yjn − xni ≤ L n
γij yjn − xni
j i j i
Montrons que toute mesure de probabilité µ ∈ P(K) peut être approchée faiblement par
une telle suite. On suppose dans un premier temps que K est un (hyper-)cube. Pour n ∈ N,
on décompose K de façon régulière en nd petits cubes (Cin ), de centres xni . On associe à µ
une mesure atomique portée par les xni , en prenant pour masse µni la µ-mesure de Cin (si
µ charge les faces entre les cubes, on choisit arbitrairement d’associer la masse d’une face à
l’une des cellules adjacentes). Par construction, le p-coût entre µn et µm (avec n ≤ m) est de
l’ordre de 1/np : la suite est donc bien de Cauchy. Si K n’est pas un cube, on suit le même
procédé avec un cube contenant K, en projetant sur K les centres des cellules qui seraient à
l’extérieur.
Remarque 15.15. Toute mesure µ de P(K) est ainsi limite (pour Wp ) d’une suite (µk )
d’éléments de A(K). En appliquant la chaı̂ne d’inégalités (15.4) à µk et µℓ , et en faisant
tendre ℓ vers l’infini, on montre par ailleurs, en suivant un raisonnement analogue à ce qui
précède, que
hϕ , µ − µk i −→ 0
pour toute fonction ϕ continue sur K.
Proposition 15.16. La métrique Wp induite sur P(K) par la complétion décrite précédem-
ment métrise la topologie de la convergence faible sur P(K), i.e.
µn ⇀ µ ⇐⇒ Wp (µn , µ) −→ 0.
Démonstration. On montre dans un premier temps que l’équivalence est vérifiée pour p = 1.
On considère une suite µn ∈ P(K) qui converge vers µ pour W1 . On approche les µn et µ par
des suites (µkn ) et µk de A. Pour toute fonction 1-Lipschitzienne ϕ, on a, pour tout n,
D E
hµn − µ , ϕi = lim µkn − µk , ϕ ≤ W1 (µkn , µk )
k
79. Comme K est compact, il n’y a pas lieu de distinguer ici la convergence étroite (contre les fonctions
continues bornées), la convergence vague (contre les fonctions continues à support compact), ou convergence
faible (contre l’adhérence de ces dernières pour la norme uniforme).
130
d’après la remarque 15.15 et la proposition 15.13. Par convergence de W1 (µkn , µk ) vers W1 (µn , µ),
on a donc
hµn − µ , ϕi ≤ W1 (µn , µ).
On a la même inégalité en prenant −ϕ, donc
On a donc convergence vers 0 de hµn − µ , ϕi, pour toute fonction ϕ 1-Lipschtizienne, donc
pour toute fonction Lipschitienne par linéarité, donc pour toute fonction continue par densité
des fonctions Lipchitziennes dans les fonctions continues sur le compact K, d’où la conver-
gence faible de µn vers µ.
= hµn − µ , ϕi,
qui tend vers 0 quand n tend vers +∞.
On en déduit la propriété pour p > 1 en notant que, pour toute mesure atomique (γ
ci-dessous désigne le plan optimal pour le p-coût)
X X p
Wp (µ, ν)p = γij |yj − xi |p ≥ γij |yj − xi | ≥ W1 (µ, ν)p .
Par ailleurs, pour tout p ≥ 1, on a sur le borné K une inégalité |y − x|p ≤ C |y − x| uniforme
en (x, y) ∈ K × K. On a donc (γ désigne maintenant le plan optimal pour le 1-coût)
X X
Wp (µ, ν)p ≤ γij |yj − xi |p ≤ C γij |yj − xi | = C W1 (µ, ν).
On a donc finalement, pour toute mesure de probabilité atomique, et donc pour toute mesure
de P(K) (les suites de Cauchy sont les mêmes dans Wp et W1 du fait même des inégalités
démontrées dans le cas atomique),
Exercice 15.7. Décrire, dans A(K), le cercle dont le centre est un Dirac centré à l’origine, et
de rayon 1. On considérera que K est une boule fermée de Rd centrée en l’origine.
131
15.11 Régularisation entropique
On propose ici une démonstration alternative de l’existence d’un point-selle, plus labo-
rieuse, mais qui permet d’étudier une méthode effectivement utilisée en pratique. Cette mé-
thode est basée sur la régularisée entropique de la fonctionnelle C(γ), définie par
X X
γ ∈ RN
+
M
7−→ Cε (γ) = cij γij + ε γij log γij = C(γ) + εS(γ), (15.5)
i,j i,j
où S est l’entropie de la probabilité γ sur RN × RM (voir définition 10.1, page 101).
Montrons que ce minimiseur a pour support X × Y , c’est à dire que tous les γij sont
strictement positifs. Cette propriété vient du fait que la fonction choisie, x log x, a une dérivée
qui vaut −∞ en 0, de telle sorte qu’il est très défavorable, en termes de minimisation, de
s’approcher de cette limite. Pour utiliser ce fait et montrer qu’un tel point ne peut pas être
minimiseur, il faut simplement vérifier que l’on peut faire de petites variations admissibles 80 .
Supposons par exemple que γ11 soit nul. Comme µ1 > 0, il existe un j tel que γ1j > 0,
et de la même manière un i tel que γi1 > 0. On perturbe alors γ de la façon suivante : on
rajoute ε à γ11 , on enlève ε à γi1 , on enlève ε à γ1j > 0, et pour compenser le gain de i et la
perte de j, on rajoute ε à γij . Pour ε suffisamment petit (< min(γi1 , γ1j )), cette perturbation
est admissible. Elle affecte linéairement la partie linéaire de la fonctionnelle, et linéairement
au premier ordre les termes d’entropies sur les liens 1 → j et i → 1. Pour le terme d’entropie
correspondant à 1 → 1, on a une variation négative qui domine les variations linéaires au
voisinage de 0, du fait que la dérivée en 0 de x log x est −∞. Si γij était initialement non
nul, la variation correspondante est linéaire, s’il était nul, on renforce la variation négative
surlinéaire.
132
Démonstration. La fonctionnelle Cε réalise son minimum sur l’ouvert ]0, +∞[N M , sous les
contraintes de marginales, en γ ε . Comme les contraintes sont affines on a, d’après la pro-
position 23.5, page 238, existence de multiplicateurs de Lagrange (pε , q ε ) ∈ RN × RM tels
que
ε
cij + ε(1 + log γij ) − pεi − qjε = 0. (15.6)
On applique alors le corollaire 23.30 du théorème 23.29, page 248, qui assure que (γ ε , pε , q ε )
est point-selle du Lagrangien Lε .
et un bloc extra-diagonal supérieur B = (epi +qj )ij (le bloc inférieur est t B). On a
!
p X X X X X
(p, q) · H = epi p2i eqj + eqj q2j epi + 2 pi q j epi +qj .
q i j j i ij
On a 2pi q j ≥ −p2i − q 2j , avec inégalité stricte dès que q j 6= −pi . Si l’on prend (p, q) non nul
dans l’orthogonal de (1, −1), on aura nécessairement q j 6= −pi pour au moins l’un des couples
(i, j), d’où !
p
(p, q) · H > 0.
q
La Hessienne de Gε (qui est essentiellement l’opposé de la matrice H) est donc définie négative,
Gε admet donc un maximiseur unique dans l’orthogonal du noyau. Elle admet par suite un
maximiseur unique tel que la moyenne des pi est nullle, c’est ce minimiseur particulier que
nous noterons (pε , q ε ) dans la suite.
133
Lemme 15.20. La suite des (pε , q ε ) construite ci-dessus est bornée.
Démonstration. On note δij le vecteur de RN × RM dont tous les éléments sont nuls, sauf le
i-ème sur RN , et le j-ième sur RM , et C le cône convexe engendré par les δij :
nX o
C= γij δij , γij ≥ 0 .
On a (µ, ν) ∈ C. Plus précisément, (µ, ν) peut s’écrire comme une combinaison des δij dont
tous les coefficients sont strictement positifs (prendre par exemple pour γij le transport qui
distribue chaque masse µi selon la loi ν).
Enfin, comme (pε , q ε ) maximise la fonctionnelle duale Gε définie par (15.8), on a (on écrit
simplement Gε (pε , q ε ) ≥ Gε (0, 0)) :
X cij −pi −qj X cij
(pε , q ε ) · (µ, ν) ≥ (pε , q ε ) · (µ, ν) − εe−1 e− ε ≥ −εe−1 e− ε ≥ β,
i,j i,j
uniformément en ε (on peut supposer les cij positifs car le problème ne minimisation ne
change pas si l’on rajoute une même constante à tous les cij ).
Supposons maintenant que (pε , q ε ) ne soit pas bornée, on peut extraire une sous-suite telle
que la suite normalisée (pε , q ε )/ |(pε , q ε )| converge vers un (p, q) de norme 1, avec la moyenne
des pi égale à 0. Comme pε ⊕ q ε ≤ c, on a à la limite (p, q) · δij ≤ 0 pour tous i, j, donc (p, q)
est dans C ◦ , cône polaire de C. On a aussi d’après ce qui précède (p, q) · (µ, ν) ≥ 0. Comme
(µ, ν) est dans C, on a nécessairement (p, q) · (µ, ν) = 0. Mais (voir début de la preuve), (µ, ν)
s’écrit comme une combinaison de δij à coefficients > 0, on a donc
X X
0 = (p, q) · (µ, ν) = γij δij · (p, q) = γij (pi + qj ).
ij ij
Comme (p, q) est dans le polaire de C, il s’agit d’une somme de termes négatifs, qui sont donc
tous nuls. Comme les γij sont tous non nuls, on a finalement pi + qj = 0 quels que soient i et
j. Les pi sont donc tous identiques, donc (comme leur somme est nulle) tous nuls, de même
pour les qj , ce qui est absurde puisque (p, q) est de norme 1.
Proposition 15.21. Le minimiseur γ ε construit au lemme 15.17 converge (à sous-suite ex-
traite près) vers un minimiseur γ 0 de C( · ), et toute valeur d’adhérence de la suite est mini-
miseur. Les multiplicateurs de Lagrange (pε , q ε ) convergent eux mêmes (à sous-suite extraite
près) vers un couple (p0 , q 0 ), et (γ 0 , p0 , q 0 ) est point-selle du Lagrangien L.
Démonstration. La suite (γ ε ), est bornée, on peut donc en extraire une sous-suite qui converge
dans le fermé Π vers γ 0 , et l’on a
C(γ ε ) + εS(γ ε ) ≤ C(γ) + εS(γ) ∀γ ∈ Π,
d’où, par passage à la limite, C(γ 0 ) ≤ C(γ) pour tout γ ∈ Π. De plus, (pε , q ε ) étant borné,
on a convergence à sous-suite extraite près vers (pε , q ε ). En passant à la limite dans (15.6),
on obtient p0 ⊕ q 0 ≤ c, avec
0
γij > 0 =⇒ pi + qj = γij ,
d’où la conclusion (voir remarque 15.7).
134
Remarque 15.22. Si, faisant fi des bons usages, on fait tendre ε vers +∞, on a convergence
vers le minimiseur de l’entropie sous les contraintes de marginale, le coût n’intervient plus.
Le minimiseur s’écrit
γij = Cepi +qj = Cepi eqj ,
où C est une constante de normalisation (γ est une loi de probabilité sur X × Y ) . Du fait
de l’écriture tensorielle ci-dessus, on peut voir γ comme une loi sur X × Y pour un couple
de variables aléatoires indépendantes.
Remarque 15.23. Noter que notion d’entropie permet de retrouver une certaine forme d’uni-
cité dans le cas d’un problème de départ qui admet des solutions multiples : on peut choisir de
privilégier parmi toutes les solutions celle qui minimise l’entropie, dont on peut montrer que
c’est la limite des solutions aux problèmes régularisés quand ε tend vers 0 (voir proposition
ci-dessous). Noter aussi que cette manière de sélectionner une solution n’est pas forcément
légitime dans certains contextes. Lorsque les cardinaux sont les mêmes, et les mesures uni-
formes, on peut s’intéresser au contraire aux solutions du type bijection, qui sont celles qui
maximisent au contraire l’entropie mathématique (i.e. qui minimisent l’entropie physique).
Proposition 15.24. On se donne deux mesures (µi ), et (νj ), une collection de coûts (cij ),
on note γ une solution du problème de MK discret 15.2, i.e. γ minimise
X
C(γ) = γij cij ,
ij
sur Πµ,ν (défini par (15.1)), et γ ε le minimiseur du problème régularisé (voir lemme 15.17),
qui minimise X X
Cε (γ) = γij cij + ε γij log γij ,
ij ij
sur Πµ,ν . Alors γε converge vers γ, plan qui minimise l’entropie parmi tous les minimiseurs
admissibles de C( · ).
C(γ ε ) −→ Copt ,
135
d’où C(γ 0 ) = Copt . Le plan limite γ 0 est donc minimiseur du coût, et il minimise l’entropie
parmi ses confrères, γ 0 est donc bien le minimiseur de l’entropie parmi les minimiseurs du
coût. On en conclut la convergence de toute la suite γ ε vers γ.
sur l’ensemble Π des plans de transport admissibles (voir equation (15.1)), i.e. dont les mar-
ginales sont µ et ν.
On a
γij cij = −εγij e−cij /ε ,
de telle sorte que !
X γij
Cε (γ) = ε γij log , avec ηij = e−cij /ε .
i,j
ηij
Le coût régularisé est donc (au facteur ε près) l’entropie relative de γ (vu comme une loi
de probabilité sur X × Y ) vis-à-vis de la loi 81 η. Cette entropie relative est aussi appelée
divergence de Kullback-Leibler, et notée en conséquence KL(γ|η). Les conditions d’optimalité
s’écrivent
1 + log (γij /ηij ) + pi + qj = 0.
Un plan γ est optimal si et seulement si (la condition est suffisante d’après le théorème 23.29,
page 248) il peut se mettre sous la forme
136
sur X ou sur Y ). Considérons un plan γ̄, et le problème consistant à minimiser l’entropie
relative de γ relativement à γ̄, sous la contrainte de marginale sur X :
!!
X γij X
inf γij log , Πµ = γ ∈ RN
+
M
, γij = µi ∀i .
γ∈Πµ γ̄ij
j
Du fait de la présence du log, les contraintes γij ≥ 0 ne sont pas activées (voir démonstration
du lemme 15.17), et l’on a des multiplicateurs de Lagrange p1 , . . ., pN , tels que
k+1 k+1/2 νj
γij = γij P k+1/2
γ k+1 = arg min KL(γ|γ k+1/2 ) .
Πν
i γij
!
k+1 k+1/2 νj νj νj
γij = γij P k+1/2
= ak+1
i bkj ηij P k+1 k
= ak+1
i P k+1 ηij .
i γij i ai bj ηij j ai ηij
| {z }
bk+1
j
137
Remarquons en premier lieu que, si l’algorithme en (ak , bk ) converge vers (a, b), alors le
plan limite γij = ai bj ηij vérifie (15.9)-(15.10), c’est donc le minimiseur recherché.
Convergence de l’algorithme 83 .
Il est naturel de stocker la collection des coûts sous la forme d’une matrice (format c =
[Link]((N,N))). On peut calculer le plan initial η en écrivant simplement eta = [Link](-
cc/eps).
pi ≥ uij − qj ∀i , j,
avec égalité sur le support de γ, et donc (d’après la remarque 15.7) que le plan γ ϕ associé à
ϕ est optimal.
138
où τi1 ,i2 est la transposition qui échange i1 et i2 . On augmente enfin le prix de j ⋆ d’une
quantité qui ramène l’attrait de j ⋆ pour i⋆ au niveau du second produit le plus attractif :
qjn+1
⋆ = qjn⋆ + max (ui⋆ j − qj ) − max⋆ (ui⋆ j − qj ) .
j j6=j
Cet algorithme est susceptible de patiner dans certains cas, lorsque plusieurs produit
réalisent le maximum d’attrait pour un agent (le prix reste alors stationnaire).
On utilise en pratique une version modifiée de l’algorithme, qui visent à trouver une
bijection ϕ et une gamme de prix (q) tels que chaque agent i soit ε-satisfait, c’est à dire que
qjn+1
⋆ = qjn⋆ + max (ui⋆ j − qj ) − max⋆ (ui⋆ j − qj ) + ε ≥ qjn⋆ + ε.
j j6=j
Remarque 15.28. Noter que, dans cette ε-version de l’algorithme, le bien j ⋆ choisi par i⋆
après une étape n’est pas forcément son meilleur choix (après augmentation du prix de j ⋆ ),
mais l’agent est tout de même ε-satisfait avec son j ⋆ , et a augmenté les chances de le garder
en proposant un prix supérieur (ce qui tendra à écarter les autres agents de ce choix). Les
prix des autres produits ne pouvant que croı̂tre, la seule chose qui pourrait lui faire renoncer
à j ⋆ est qu’un autre agent s’en empare.
Cet algorithme, contrairement au précédent, assure une croissance stricte d’un prix à
chaque étape. Par ailleurs, lorsqu’un produit est choisi au cours des itérations, il est susceptible
de changer ensuite de propriétaire, mais il fera toujours par construction l’ε-bonheur de ce
dernier. La non convergence de l’algorithme ne peut donc se produire que si certains produits
ne sont jamais considérés. Mais le prix de tels produits resterait alors constant, les autres
augmentant strictement, de telle sorte qu’ils finissent à terme par devenir compétitifs, même
si leur utilité brute était très faible :
139
Démonstration. Considérons un scénario dans lequel l’algorithme continuerait indéfiniment.
D’après la remarque ci-dessus, cela signifie qu’un sous ensemble non vide Y1 de biens ne fait
jamais l’objet d’un choix. On note Y3 l’ensemble des biens qui sont considérés une infinité de
fois, et par Y2 l’ensemble des biens visités un nombre fini de fois. On se place au-delà de la
dernière itération qui a vu un bien de Y2 pris en compte. Les prix des biens de Y3 tendent
vers +∞, donc, pour tout i, tout j dans Y3 , la quantité uij − qj tend vers −∞, donc les biens
de Y3 deviennent uniformément moins compétitifs que les biens de Y1 , ce qui est absurde.
Montrons que cet algorithme conduit, à convergence, à une approximation d’ordre ε (plus
précisément inférieure à N ε) de l’utilité maximale. Rappelons que l’on considère ici un pro-
blème de MK renversé, dans le cas de deux ensembles de même cardinal N , et des mesures
uniformes (de masse totale N ). On cherche en effet ici à maximiser l’utilité globale
X
U (γ) = γij uij ,
U (γ S ) ≥ max Uγ − N ε.
Π
Démonstration. On définit
pi = uiϕ(i) − qϕ(i) .
On a par hypothèse
pi ≥ uij − qj − ε
de telle sorte que le couple (p + ε, q) est admissible. On a donc
X X X
max F = min G ≤ G(p + ε, q) = (pi + ε) + qj = pi + qϕ(i) + N ε
i
85. On écrit exactement ici que (ϕ, q) est un point d’arrêt de l’algorithme des enchères modifié.
140
X
= uiϕ(i) + N ε. ≤ max F + N ε.
i
On a donc F (γ ϕ ) ≥ max F − N ε.
On définit en premier lieu une matrice d’utilités (uij ). Pour le cas du transport optimal
(problème d’affectation), on se donne par exemple deux familles de points de R2 , et l’on
définit
uij = − |yj − xi |p .
La matrice correspondante est initialisée en Python par uu = [Link]((N,N)). On définit
le vecteur des prix comme q = [Link]((1,N)). On peut construire alors la matrice mm
correspondant à uij − qj de la façon suivante :
e = [Link]((N,1))
qq = [Link](e,q)
mm = uu-qq
[next_to_jstar,jstar] = [Link](mm[istar,:])[-2:]
On encodera l’affectation courante par un tableau d’entiers, initialisé par exemple à phi =
range(N).
Remarque 15.31. On prendra garde au fait que, à chaque itération, l’agent i⋆ choisit le (ou
un) bien j ⋆ qui maximise sa satisfaction, mais qu’il en augmente ensuite le prix (pour en
écarter les autres) d’un montant qui le rend très exactement ε− satisfait, mais pas mieux.
On aura toujours (mathématiquement), du fait de l’augmentation du prix,
où i⋆ , rappelons-le, est l’agent actif à l’itération n. Si l’on compte à l’itération suivante n + 1
le nombre de gens ε-satisfaits 86 , en comptant le nombre d’indices i tels que
en effectuant un test du type ...>= - eps, il est possible que la propriété pour i⋆ soit fausse,
alors qu’elle devrait être vraie, du fait des erreurs d’arrondis. Même si la réalité mathématique
86. Il est naturel d’arrêter l’algorithme lorsque ce nombre vaut le nombre total d’agents.
141
est a = b, il est possible qu’informatiquement la propriété a >= b soit fausse (au zéro machine
près, c’est à dire autour de 10−14 ). On pourra contourner cette difficulté en incrémentant le
prix d’une quantité légèrement inférieure à ε, par exemple 0.99 ε. De façon générale, on se
gardera d’effectuer sur des nombres réels des tests d’égalité, ou d’inégalité large ou stricte
lorsque les cas d’égalités sont sensibles 87 .
87. Dans le cas présent il est assez aisé d’identifier la difficulté, puisque en gros une fois sur deux le test sera
négatif alors qu’il devrait être positif. Dans d’autres situations, l’égalité n’est pas générique, de telle sorte que,
pour des tests portant sur des nombres d’ordre un, on a de l’ordre d’une chance sur 1014 de tomber sur un cas
ambigu de quasi-égalité. C’est alors évidemment beaucoup plus vicieux, puisque le problème risque de ne se
poser qu’après un très grand nombre de tests de l’algorithme.
142
Troisième partie
Aspects numériques
143
16 Différences finies
16.1 La méthode
La méthode dite des différences finies, destinée à construire des approximations de solu-
tions d’équations aux dérivées partielles, est basée sur une discrétisation naturelle des dérivées
partielles, à partir de la simple expression
f (x + ε) − f (x)
f ′ (x) = + o(ε).
ε
Considérons par exemple l’équation de la chaleur sur l’intervalle I =]0, 1[, avec condi-
tions de Dirichlet aux extrémités de l’intervalle, sur l’intervalle de temps [0, T ] :
0 = t0 , t1 = ∆t , tn = n∆t , tN = N ∆t = T.
On cherche alors à construire des nombres unj qui ont vocation à approcher les valeurs de
u(j∆t, n∆x). On définit tout d’abord les u0j par interpolation de la condition initiale sur le
maillage, le cœur de l’approche consiste alors à écrire des relations entre les unj qui permettent
de construire sans ambiguı̈té toutes les valeurs à partir des u0j .
un+1
j − unj unj−1 − 2unj + unj+1
−D = 0 ∀j = 1, . . . , J − 1, (16.2)
∆t (∆x)2
où A est la matrice du Laplacien discret (avec condition de Dirichlet) définie par (A.13).
On parle d’un schéma explicite, car la discrétisation de l’opérateur de dérivée en espace est
basée sur des valeurs déjà calculées. De fait, l’expression ci-dessus permet de calculer les un+1
j
directement, sans résolution d’un système linéaire.
Le schéma implicite, dont nous verrons qu’il présente de meilleures propriétés de stabilité,
s’écrit
un+1
j − unj un+1
j−1 − 2uj
n+1
+ un+1
j+1
−D = 0 ∀j = 1, . . . , J − 1, (16.3)
∆t (∆x)2
qui peut s’écrire, avec les même notations que précédemment.
144
Remarque 16.1. On peut associer un graphe orienté à chacun des schémas numériques
introduits ci-dessus (voir figure 16.1). Le graphe associé au schéma explicite est acyclique,
ce qui exprime le fait que les calculs peuvent être faits explicitement en partant des valeurs
correspondants aux points maximaux du graphe (condition initiale). Le graphe associé au
schéma implicite contient des cycles, ce qui exclut la possibilité de calculer directement les
valeurs inconnues. Ce schéma fait en effet intervenir un système linéaire qu’il s’agira de
résoudre (de façon exacte ou approchée). Noter que, si l’on connait l’inverse de la matrice
impliquée dans le schéma, il devient de fait explicite, avec un graphe de dépendance représenté
en bas de la figure 16.1 (chaque point de l’étape n + 1 est alors relié à chaque point de l’étape
n, ce qui exprime le caractère non local de l’inverse du Laplacien discret).
Considérons maintenant l’équation de transport à vitesse constante V > 0 sur I =]0, 1[,
avec conditions périodiques
∂t u + V ∂x u = 0.
On considère la discrétisation en espace (16.1), en identifiant maintenant le point 0 et le point
J. Le schéma dit décentré amont s’écrit
un+1
j − unj unj − unj−1
+V = 0 ∀j = 1, . . . , J (avec 0 ≡ J), (16.4)
∆t ∆x
le décentré aval est obtenu en discrétisant la dérivée en espace à l’aide de unj+1 −unj . Le schéma
centré est basé sur les valeurs de part et d’autre du point considéré : (unj+1 − unj−1 )/2. On
peut aussi considérer des versions implicites de ces différents schéma.
Comme nous le verrons plus loin, ces approches ont des propriétés très différentes en
termes de stabilité. On peut en particulier vérifier que le schéma explicite centré est complè-
tement inutilisable en pratique, car instable : il produit génériquement des densitées négatives,
et la densité maximale augmente au fil des itérations.
Un schéma numérique à deux niveaux consiste en la donnée de relations entre les valeurs
(un )j et (un+1 )j , qui permet de calculer de façon univoque les secondes à partir des premières :
Fj (un+1 , un , ∆t, ∆x) = 0 (16.5)
où l’index j parcours l’ensemble des degrés de liberté en espace. Nous ne considérerons ici
que des schémas linéaires, qui peuvent s’écrire de façon matricielle 88
un+1 = Aun . (16.6)
88. La matrice A n’est pas nécessairement donnée explicitement ; dans le cas des schémas implicite, cette
matrice ne sera d’ailleurs jamais construite (on se contentera en pratique de résoudre des systèmes linéaires
pour différents membres de droite).
145
tn+1 tn+1
tn tn
tn+1
tn
j−1 j j+1
Figure 16.1 – Graphes de dépendance associés aux schéma explicite (gauche) et implicite
(droite) pour l’équation de la chaleur.
Dans tous les exemples donnés ci-dessus, le schéma est obtenu en remplaçant les dérivées
par des expressions faisant intervenir les variables discrètes et les pas de temps et d’espace.
Le lien entre l’équation et le schéma peut se préciser grâce à la notion de consistance :
Si
Fj (ũn+1 , ũn , ∆t, ∆x) = O((∆x)q ) + O((∆t)r ),
uniformément en j et n, on dit que le schéma est consistant, d’ordre q en espace, et r en
temps 89 .
Remarque 16.3. Pour lever le flou sur la régularité requise, précisons la démarche l’éla-
boration d’un schéma de consistance : on considère une solution exacte de l’équation, on lui
“applique le schéma”. Plus précisément, on applique la relation F ( · ) à son interpolée, et on
89. Une petite ambiguı̈té réside dans le fait que l’on peut multiplier l’ensemble des relations d’un schéma par
des puissances de ∆t et ∆x sans changer les dépendances, tout en affectant l’ordre obtenu dans la définition de
la consistance. Nous nous placerons toujours dans le cas où le schéma est de type (16.4) ou (16.3), c’est à dire
que, si l’on injecte dans le schéma (comme on l’a fait dans la définition de consistance un fonction régulière
en espace temps qui n’est pas la solution exacte, on trouve une quantité finie (ni nulle ni infinie) lorsque ∆x
et ∆t tendent vers 0 .
146
fait des développements de Taylor-Lagrange de façon à faire apparaı̂tre l’équation vérifiée par
u, et des restes impliquant ∆t, ∆x, et des dérivées en espace et en temps de la solution exacte.
Ce sont ces dérivées qui vont fixer la régularité requise pour u. Noter que cette définition est
d’une certaine manière formelle, elle est afférente au schéma lui-même, on pourrait imaginer
un schéma d’ordre très élevé qui discrétise une équation considérée dans un contexte où les
solution ne sont jamais aussi régulières qu’il le faudrait pour que les développements soient
licites. Cela ne remet pas en question l’ordre du schéma en temps que schéma, en revanche
la consistance d’ordre élevé ne permettra pas de montrer une convergence effective de la mé-
thode globale d’approximation d’une solution. Concrètement, les solutions moins régulières
seront approchées avec une précision moindre. La consistance correspond ainsi à un ordre de
précision indépassable 90 .
Nous aurons besoin pour comparer la solution approachée à la solution exacte de définir
une distance. Une première étape consiste à construire à partir de la “solution approchée” (qui
pour l’instant n’est qu’une collection de valeurs ponctuelles aux points de la discrétisation en
espace-temps) une fonction définie partout (ou au moins presque partout). On associe ainsi
à une collection un de valeurs aux points de discrétisation xj la fonction constante, égale à
unj sur l’intervalle ]xj − ∆x/2, xj + ∆x/2[. On notera ūn cette fonction.
On peut alors exprimer la norme kūn kp en fonction des valeur discrètes, par exemple pour
p = 1, 2, +∞,
1/2
X X 2
kūn k1 = ∆x unj , kūn k2 = ∆x unj , kūn k∞ = max unj .
j
j j
Noter que toutes les normes p sont dominées par la norme ∞ (uniformément par rapport au
nombre de points de discrétisation), et que la consistance a été définie par une majoration
uniforme.
pour toute donnée initiale discrète ū0 . On parlera de stabilité conditionnelle si la propriété
ci-dessus est conditionnée à la vérification d’une relation liant ∆t et ∆x.
Remarque 16.5. Il est sous-entendu dans la définition précédente que, dans le cas de sta-
bilité conditionnelle, la condition imposée sur ∆t et ∆x doit autoriser un “chemin” du couple
vers 0, c’est à dire que l’on peut construire une suite du couple (∆t, ∆x) de pas de temps et
d’espace vérifiant la condition de stabilité, et telle que (∆t, ∆x) tende vers (0, 0).
147
Le théorème suivant établit qu’un schéma consistant et stable est convergent, à l’ordre de
consistance.
On note (ūn ) la famille de fonctions constantes par morceaux obtenues par application du
schéma numérique, avec ū0 = ũ0 , et en = ũn − ūn . On a convergence de la méthode numérique
au sens suivant
lim sup ken kp = 0.
∆t,Dx→0 n
On a plus précisément
sup ken kp ≤ C ((∆x)q + (∆t)r ) .
n
Démonstration. Le schéma s’écrit un+1 = Aun . Comme il est consistant, la solution exacte
le vérifie approximativement :
(la consistance porte une estimation uniforme de valeurs ponctuelles, elle implique donc bien
la même majoration pour toute norme de type Lp ). On obtient donc, en faisant la différence,
en+1 = Aen − ∆tεn , d’où
n
X
en = An e0 − ∆t An−k εk−1 ≤ CK ((∆x)q + (∆t)r )
k=1
Stabilité L2
La stabilité L2 peut parfois s’établir par une localisation du spectre des matrices impli-
quées dans le schéma. Mais il existe une méthode très générale qui permet de contourner
l’analyse spectrale de la matrice. Cette approche est basée sur la transformée de Fourier, que
l’on présente pour simplifier sur l’intervalle ]0, 1[ avec conditions périodiques. À une collection
de valeurs (unj )j on associe comme précédemment une fonction ūn constante par morceaux
sur les intervalles centrés en
0 , ∆x , 2∆x , . . . , J∆x = 1,
(avec identification du dernier point au premier). Cette fonction de L2 peut s’écrire comme
la somme de sa série de Fourier
X Z 1
n n n
ū (x) = û (k) exp(2iπkx) p.p. avec û (k) = exp(−2iπkx)ūn (x) dx,
k∈Z 0
148
et la formule de Plancherel s’écrit
Z 1 X
kūn kL2 = |ūn (x)|2 dx = |ûn (k)|2 .
0 k∈Z
Et une expression similaire pour unj−1 . Considérons par exemple le schéma explicite (16.2)
pour l’équation de la chaleur, en remplaçant dans le schéma les variables discrète par les
expressions impliquant la série de Fourier. On obtient une combinaison infinie des exp(2iπkx),
qui sont orthogonaux dans L2 . On peut donc écrire que chaque coefficient est nul, i.e. pour
tout k on a
n+1 n D∆t
û (k) = û (k) 1 + (exp(2iπk∆x) − 2 + exp(−2iπk∆x))
(∆x)2
D∆t D∆t
n
= û (k) 1 + 2
(exp(iπk∆x) − exp(−iπk∆x))2 = 1 − 4 sin (πk∆x)2 ûn (k).
(∆x) (∆x)2
| {z }
A(k)
On a appelle A(k) le coefficient d’amplification . On a de façon évidente stabilité dès que
|A(k)| ≤ 1 ∀k,
ce qui conduit ici à la condition de stabilité
D∆t 1
2
≤ .
(∆x) 2
Cette condition est suffisante, et l’on énoncera en général le résultat de stabilité conditionnelle
associé.
Remarque 16.7. Noter que la condition |A(k)| ≤ 1 n’est pas nécessaire à strictement parler.
Certes, si l’un des coefficient est de module strictement plus grand que 1 et éloigné de 1
uniformément par rapport au pas de temps, on peut trouver une condition initiale (qui excite
le mode correspondant) qui soit telle que le schéma ne soit pas stable. Mais il pourrait arriver
que le coefficient d’amplification soit majoré par une quantité du type 1 + c∆t, auquel cas on
peut avoir stabilité, du fait que
(1 + c∆t)n = (1 + cT /N )n ≤ (1 + cT /N )N ≤ ecT .
Dans le cas considéré ici, une telle majoration n’est pas possible lorsque la condition sur le
pas de temps est violé, à cause du facteur du type sin(2πk∆x)2 /(∆x)2 , qui est bien majoré
pour k petit, mais d’ordre 1/(∆x)2 pour k ≈ 1/(4∆x).
Équation de transport
149
Démonstration. On vérifie immédiatement la consistance du schéma. Montrons la stabilité
L∞ (conditionnelle). On a
V ∆t n V ∆t V ∆t n
un+1 = unj − (uj − unj−1 ) = unj 1 − + u .
j
∆x ∆x ∆x j−1
Il s’agit d’une combinaison barycentrique des valeurs précédentes dès que V ∆t/∆x ≤ 1, c’est
à dire que l’on a la condition dite CFL :
∆x
∆t ≤ .
V
Sous cette condition, on a stabilité L∞ .
Le schéma de transport centré est très particulier 91 bizarrement stable pour la norme L2 ,
mais instable pour la norme L∞ .
Proposition 16.9. Le schéma centré pour l’équation de transport
un+1
j − unj unj+1 − unj−1
+V =0 (16.7)
∆t 2∆x
est instable en norme L∞ , mais stable en norme L2 sous la condition ∆t = O((∆x)2 ).
un+1
j = unj − λunj+1 + λunj−1
ûn+1 (k) = ûn (k)(1 − λ exp(2iπk∆x) + λ exp(−2iπk∆x)) = ûn (k) (1 − 2i λ sin (2πk∆x))
Équation de la chaleur
150
Démonstration. Le schéma explicite pour l’équation de la chaleur s’écrit
2D∆t D∆t n D∆t n
un+1 = unj 1− + uj−1 + u ,
j
(∆x)2 (∆x)2 (∆x)2 j+1
qui est bien une combinaison barycentrique des veleurs précédentes sous la condition ∆t ≤
(∆x)2 /2D.
un+1
j + λ(un+1
j − un+1 n+1
j−1 ) + λ(uj − un+1 n
j−1 ) = uj .
Pour la stabilité L2 , on a
−1
4D∆t
ûn+1 (k) = ûn (k) 1 + sin (πk∆x)2 ,
(∆x)2
un+1
j − unj −un+1 n+1
j−1 + 2uj − un+1
j+1 −unj−1 + 2unj − unj+1
+ θD + (1 − θ)D =0 (16.8)
∆t (∆x)2 (∆x)2
∂t u + Lu = 0,
151
sur l’intervalle ]0, 1[ périodique, où L est un opérateur différentiel linéaire (combinaison li-
néaire de dérivées partielles en espace de u). On écrit la solution sous la forme de sa série de
Fourier X
u(x, t) = ût (k) exp (2iπkx) ,
Z
avec, pour chaque coefficient de Fourier, l’équation différentielle
d
ût (k) + L̂(k)u(k) = 0,
dt
où L̂(k) est le symbole de l’opérateur L. Pour l’équation de la chaleur, on a par exemple
Lu = −D∂xx u , L̂(k) = D(2π)2 k2 ,
et pour le transport
Lu = V ∂x u , L̂(k) = 2iπkV.
Si l’on discrétise en temps (par un schéma d’Euler explicite) l’équation différentielle sur ût (k),
on obtient
ûn+1 (k) = ûn (k) 1 − ∆tL̂(k) .
Il apparaı̂t qu’un tel schéma est génériquement instable pour les modes grands (L̂(k) est
un polynôme en k). La seule possibilité pour qu’un tel schéma soit stable est que L̂(k) soit
de degré zéro, donc constant, c’est à dire que l’opérateur ne soit en fait pas un opérateur
différentiel. Pour la méthode des différences finies, on peut espérer avoir stabilité dans les cas
non triviaux car la discrétisation en espace fait disparaı̂tre les hautes fréquences. Par exemple,
dans le cas de la chaleur L = −D∂xx , ce qui joue le rôle du symbole de l’opérateur est
D D
(exp(2iπk∆x) − 2 + exp(−2iπk∆x)) = 4 sin (πk∆x)2
(∆x)2 (∆x)2
qui est bien équivalent à 4π 2 k2 , symbole de l’opérateur −D∂xx , quand ∆x tend vers 0 (on
retrouve la notion de consistance dans le domaine spectral). En revanche le symbole discret
n’est pas un polynôme, ou plutôt c’est un polynôme en exp(2iπk∆x) et exp(−2iπk∆x). Il
est donc uniformément borné par rapport au mode k, et l’on peut espérer avoir stabilité dès
que 1 − ∆tL̂(k) est dans le disque unité pour tout k (cette condition n’est pas nécessaire à
strictement parler, voir remarque 16.7, mais la plupart des schémas stables explicites ren-
contrés vérifieront de fait cette condition). Pour l’équation de la chaleur, le symbole est réel,
avec 0 ≤ L̂(k) ≤ 4D/(∆x)2 , on a donc stabilité sous condition sur le pas de temps, comme
vu précédemment (voir figure 16.2).
Pour le transport, la situation est la suivante : le symbole de l’opérateur continu est imagi-
naire pur, il vaut 2iπk, de telle sorte que 1 − ∆t L̂(k) > 1 pour tout k 6= 0. Une discrétisation
en espace appropriée (schéma décentré amont en l’occurrence) permet de “tordre” le symbole
de façon à se ramener dans le disque unité, ce qui assure la stabilité sous condition sur le pas
de temps. Plus précisément, pour le schéma décentré amont, le symbole discret est
V
Λ(k) = (1 − exp(−2iπk∆x))
∆x
qui est bien équivalent au symbole continu, à k fixé, quand ∆x tend vers 0. Mais il n’est pas
imaginaire pur, il fait un angle 2πk∆x avec le symbole continu, de telle sorte que
|1 − ∆tΛ(k)| ≤ 1 dès que ∆t ≤ V /∆x.
152
Symbole continu
Symbole discret
Symbole discret Symbole continu
Figure 16.2 – Image des symboles discrets (ronds noirs) et continus (ronds blancs) pour
l’équation de la chaleur (gauche) et l’équation de transport (droite)
Cette stabilisation par discrétisation s’accompagne d’un phénomène dit de diffusion nu-
mérique, qui apparaı̂t clairement au niveau spectral. Le symbôle de l’opérateur continu, 2iπk,
est imaginaire pur, ce qui reflète le transport sans déformation des modes associés à toutes
les fréquences : la solution de
d
ût (k) = −L̂(k) ût (k) = −2iπkV ût (k)
dt
est bien de module constant. Par discrétisation en espace, chaque mode 2iπkV est remplacé
par un mode tourné V (1 − exp(−2iπk∆x)) /∆x, qui stabilise l’évolution, mais qui n’est plus
imaginaire pur, on a une partie réelle non triviale
V
Re(Λ) = (1 − cos(2πk∆x)) .
∆x
Le pendant discrétisé en espace de l’équation différentielle ci-dessus est
d V
ût (k) = −Λ(k) ût (k) = − (1 − exp(−2iπk∆x)) ût (k),
dt ∆x
qui correspond à une décroissance exponentielle vers 0 pour les modes non triviaux : tous les
modes oscillants sont amortis.
Dans le processus d’évolution des modes de Fourier de la solution discrète, celà conduit
au fait que les coefficients d’amplification A(k) = (1 − ∆tΛ(k)) sont de module strictement
inférieur à un, ce qui entraine une diminution des poids des modes correspondants. Cet
amortissement des poids, d’autant plus important que la fréquence est élevée, induit une
régularisation de la solution discrète au fil des itérations (alors que l’équation de transport
n’est pas elle-même régularisante).
153
de haute fréquence. Pour le problème continu, on a
d
ût (k) = −L̂(k) ût (k) = −2iπkV ût (k).
dt
Pour le mode k, i.e. exp(2iπkx), l’évolution du coefficient est donnée par ût (k) = exp(−2iπkV t),
d’où, pour la fonction elle-même
exp(−Λ(k)t) exp(2iπkx).
V
Re(−Λ(k)) = −2 sin(πk∆x)2 < 0,
∆x
correspond à l’amortissement parasite (phénomène de diffusion numérique). Noter que cet
amortissement est asymptotiquement nul si l’on fait tendre ∆x, à k fixé, vers 0, ce qui reflète
le caractère non diffusif de l’équation de départ. La partie imaginaire de −Λ(k) encode la
propagation dans l’espace du mode considéré :
V V
Im(−Λ(k)) = −2 cos(πk∆x) sin(πk∆x) = − sin(2πk∆x).
∆x ∆x
La partie de la solution associée à ce mode imaginaire s’écrit en effet
V
V
exp −i sin(2πk∆x)t exp(2iπkx) = exp 2iπk x − sin(2πk∆x)t ,
∆x
| 2πk∆x{z }
=x−Vk t
Remarque 16.12. Noter que cette étude de l’évolution des modes de Fourier est analogue à
l’étude de la propagation des perturbations pour le modèle de trafic routier ou piéton linéarisé
autour de la solution d’équilibre, dans le cas d’une route périodique.
154
Remarque 16.13. (Supériorité des schémas implicites)
Il semble intuitif qu’un schéma implicite possède de meilleures propriétés de stabilité qu’un
schéma explicite. Le cadre présenté ci-dessus permet de formaliser cette tendance. Nous li-
miterons le cadre de cette remarque à des opérateurs différentiels nativement stabilisant dans
L2 , c’est à dire ceux dont le symbole reste dans le demi plan complexe Re(z) ≥ 0 (ce qui est
bien le cas pour les opérateurs de diffusion et de transport). On a en effet, pour le mode k,
d
ût (k) = −L̂(k) ût (k),
dt
et donc décroissance du (module du) coefficient correspondant au mode k dès que Re(L̂(k)) ≥
0. Pour le problème semi-discrétisé en temps, l’approche explicite s’écrit
ûn+1 (k) = 1 − ∆tL̂(k) ûn (k)
d’où, comme on l’a vu précédemment, une instabilité inconditionnelle sauf dans les cas tri-
viaux. Le schéma implicite s’écrit
−1
ûn+1 (k) = 1 + ∆tL̂(k) ûn (k),
avec 1 + ∆tL̂(k) à l’extérieur du disque unité, donc stabilité inconditionnelle.
Pour le problème discrétisé en espace par différences finies, on peut énoncer les faits
suivants. Si la discrétisation en espace préserve la propriété de positivité de la partie réelle
du symbole, i.e. Re(Λ(k)) ≥ 0, le schéma explicite (discrétisé en espace temps, exprimé sur
les modes de Fourier) s’écrit
Les choses sont un peu plus troubles pour un schéma qui ne vérifierait pas la propriété de
symbole à partie réelle positive. Disons que, dans ce cas, l’implicitation ne suffit pas en général
pour stabiliser le schéma. Considérons par exemple le schéma décentré aval pour l’équation
de transport ; le schéma explicite s’écrit
V
ûn+1 (k) = (1 − ∆tΛ(k)) ûn (k) , Λ(k) = (exp(2iπk∆x) − 1) ,
∆x
on a cette fois instabilité inconditionnelle : le symbole discret pointe dans la mauvais direc-
tion (vers les parties réelles positives), la situation est donc désespérée. Le schéma implicite
s’écrirait
ûn+1 (k) = (1 + ∆tΛ(k))−1 ûn (k)
92. Stabilité conditionnelle avec décroissance de la norme L2 si l’on peut assurer que (1 − ∆tΛ(k)) reste dans
le disque unité pour tout k, ou éventuellement stabilité conditionnelle avec condition renforcée, et perte de la
propriété de décroissance de la norme L2 , dans le cas où (1 − ∆tΛ(k)) sort du disque unité tout en restant
dans le demi-espace Re(z) ≤ 1 (comme pour le schéma centré explicite, voir proposition 16.7.
155
Ici, pour les pas de temps grands, on peut espérer avoir stabilité, mais pour ∆t tendant vers
0 on aura toujours apparition de coefficients d’amplification de module > 1. Le fait que le
schéma soit stable pour de grands pas de temps n’est évidemment d’aucun intérêt, puisqu’il
exclut toute convergence du schéma (voir remarque 16.5).
156
avec
1−λ 0 0 · · λ
λ 1−λ 0 0 · ·
t
0 λ · · ·
P =
· · · · ·
· · 1−λ
0 · · 0 λ 1−λ
La matrice P est stochastique pour λV ∆t/∆x ≤ 1 (condition CFL). La marche aléatoire
sous-jacente est définie comme suit : partant de i la probabilité de rester sur place est 1 − λ,
et la probabilité d’avancer d’une case est λ, avec λ = V ∆t/∆x.
∂t u + L(u) = 0
où L est un opérateur différentiel linéaire exprimant une conservation, i.e. de la forme ∂x F (u),
où F est lui-même un opérateur différentiel linéaire (d’ordre 0 dans le cas du transport simple).
un+1 = t P un ,
où P est une matrice stochastique.
Dans les cas considérés précédemment, la matrice Id +∆tA = t P est en fait bistochastique,
les sommes des éléments d’une ligne valent également 1. Cette propriété reflète simplement
une propriété commune aux deux équations considérées, qui admettent (dans le cas pério-
dique) toute fonction constante comme solution stationnaire. Le pendant stochastique de
cette propriété est que la mesure stationnaire associée à la chaı̂ne de Markov représentée par
la matrice P est la mesure uniforme.
Plans de transport
Les matrices t P associés aux schémas explicites rappelés ci-dessus peuvent (sous condition
CFL assurant le principe du maximum), comme toute transposée de matrice stochastique
s’interpréter comme des plans de transports entre mesures discrètes portées par un ensemble
94. Cette condition est vérifiée par tous les schémas consistants usuels, même si la consistance n’implique
pas, à strictement parler, la préservation exacte de cette propriété de conservation.
95. Toute matrice réelle qui laisse inchangée la somme des éléments de tout vecteur est la transposée d’une
matrice stochastique, il suffit d’écrire la condition sur chaque vecteur de base.
157
de cardinal J. Le fait que la matrice soit bistochastique dans les cas considérés permet aussi
de les voir comme un transport particulier entre la mesure uniforme sur un ensemble XJ à J
points vers elle même. Ou, pour rester dans un cadre probabiliste, comme la loi d’une variable
aléatoire dans XJ × XJ , dont les projections respectives suivent la loi uniforme.
Exercice 16.2. (Diffusion numérique, point de vue du transport optimal)
On considère le plan de transport associé au schéma explicite décentré amont pour l’équation
de transport à vitesse constante. On fixe le pas d’espace ∆x. Estimer le coût quadratique de
transport associé à ce plan, et préciser son comportement lorsque le pas de temps tend vers
0.
S’il est possible d’utiliser des schémas à 3 niveaux pour les équations d’ordre 1 en temps
comme celles vues précédemment (cela peut permettre d’augmenter l’ordre de précision en
temps), cela devient indispensable pour des équations qui sont nativement d’ordre 2 en temps,
comme l’équation des ondes
∂tt u − c2 ∂x xu = 0.
Un schéma couramment utilisé est le schéma de Crank-Nicholson, i.e.
un+1
j − 2unj + ujn−1 2
−un+1 n+1
j−1 + 2uj − un+1
j+1 2
−unj−1 + 2unj − unj+1
+ θc + (1 − θ)c = 0 (16.9)
(∆t)2 (∆x)2 (∆x)2
avec θ = 1/2, qui peut s’écrire matriciellement
!
c2 (∆t)2 n+1 n n−1 c2 (∆t)2 n
Id + A u = 2u − u − Au ,
2(∆x)2 2(∆x)2
où A est la matrice du Laplacien discret.
Implémentation effective
158
En Python, les opérateurs de shift peuvent être implémentées simplement de la façon sui-
vante :
uuL = [Link](uu,-1)
uuR = [Link](uu,1)
Transport. Le schéma décentré amont (la vitesse d’advection est choisie positive) s’écrit
ainsi, avec des notations évidentes
V ∆t n
un+1 = un − (u − SR un ) ,
∆x
et le schéma centré :
V ∆t
un+1 = un − (SL un − SR un ) .
2∆x
Diffusion.
Le schéma explicite pour l’équation de la chaleur peut être implémenté (cas périodique)
en utilisant les opérateurs de shift :
D∆t
un+1 = un + (SR un − 2un + SL un ) ,
(∆x)2
Si l’on s’intéresse à des conditions de Dirichlet homogènes, le plus simple est de définir un
vecteur de taille J + 1 (qui contient les valeurs aux extrémités, qui ne sont pas des degrés de
libertés), d’initialiser les valeurs extrémales (qui ne seront pas modifiées par le schéma) aux
valeurs imposées, et d’incrémenter le sous-vecteur qui correspond effectivement aux degrés de
liberté.
Construction des matrices. Pour les schémas implicites, il est naturel 96 d’assembler la
matrice intervenant dans le schéma. Il est essentiel de stocker les matrices sous forme creuse,
pour limiter le temps de calcul. Le package scipy permet de stocker les matrices sous cette
forme, et propose des méthodes de résolution optimisées pour ce type de matrices.
159
La manière la plus simple d’assembler les matrices résultant d’une discrétisation par diffé-
rences finie est de passer par la commande [Link], qui prend en argument des un tableau
de vecteurs correspondant aux diagonales non nulles, suivies des indices correspondant aux
diagonales (0 pour la diagonale, indices positifs pour la partie triangulaire supérieure, et né-
gatifs de l’autre côté). On pourra par exemple assembler la matrice associée au schéma de
transport implicite, i.e.
1 β 0 · · −β
−β 1 β 0 · ·
0 −β · · ·
A=
· · · · ·
·
−β 1 β
β · · 0 −β 1
beta = 0.5*V*dt/dx
ones = [Link](J)
aux = [ones,beta*ones[:-1],-beta*ones[:-1],-beta*ones[0],beta*ones[0]]
Adv1d = [Link](aux,[0,1,-1,(J-1),-(J-1)],format=’csr’)
Le calcul du nouveau champ à partir du précédent peut alors se faire à l’aide de la fonction
spsolve du package [Link] :
uu =[Link](Adv1d,uu)
N.B. Le format csr 97 spécifié lors de l’assemblage permet une utilisation optimale de
solve.
2 −1 0 · · 0
−1 2 −1 0 · ·
0 −1
· · ·
A1 =
· · · · ·
·
· 2 −1
0 · · 0 −1 2
97. Voir [Link]
160
En dimension 2 d’espace, le Laplacien discret agit sur les valeurs au point (i∆x, j∆x) de la
discrétisation comme suit
A2 = A1 ⊗ I1 + I1 ⊗ A1 ,
où I1 est la matrice identité d’ordre le nombre de point dans chaque direction, et ⊕ est le
produit de Kronecker défini de la façon suivante : si A ∈ Mpq et Brs sont deux matrices, la
matrice C = A ⊗ B est de taille (pr, qs) a une structure (p, q) par blocs, chaque bloc étant de
taille (r, s), égale au produit de aij par la matrice B. On obtient de façon analogue la matrice
du Laplacien 2d pour des conditions aux limites de Neuman, ou des conditions périodiques.
C = [Link](A,B)
uu = fA(rhs)
161
17 Éléments finis
17.1 La méthode
Dans le cas où la forme bilinéaire a( · , · ) est coercive, c’est à dire (voir définition 20.20)
s’il existe α > 0 tel que a(v, v) ≥ α |v|2 pour tout v dans V , le théorème de Lax Milgram
(théorème 20.25) assure l’existence et l’unicité d’une solution dans V .
98. Cette démarche en elle-même n’est pas mathématique, elle consiste précisément à faire rentrer le pro-
blème dans un cadre mathématique. Pour le mathématicien, non seulement le problème (17.1) n’est pas
encore bien posé (il n’est pas sous une forme qui permette l’utilisation directe d’un théorème), mais d’une
certaine manière il n’est même pas posé (l’espace dans lequel est supposé vivre l’inconnue n’est pas précisé, ni
le sens que peuvent avoir les conditions aux limites). Ces remarques peuvent laisser croire que l’obtention de
la formulation variationnelle se fait hors de toute règle. Il faut cependant garder à l’esprit qu’un retour (par-
faitement mathématisé celui-là) vers l’équation sera nécessaire pour garantir le lien entre le problème initial
et la formulation variationnelle.
99. Le sens que l’on peut donner à l’expression u|Γ = 0 est précisé dans la section 22.3, page 222.
162
Le point essentiel pour pouvoir utiliser le théorème de Lax-Milgram est la coercivité de la
forme bilinéaire, dont nous verrons qu’elle peut être mise à mal pour des matériaux dégénérés
(pour le problème de conduction de la chaleur considéré ici, la dégénérescence se produit
lorsque la conductivité tend localement vers 0) . Ici, la coercivité de la forme bilinéaire est
assurée d’uneR
part par l’hypothèse k ≥ η > 0, et d’autre part par le fait que l’on peut choisir
la quantité ( |∇u|2 )1/2 comme norme sur l’espace V , grâce à l’un des corollaires de l’inégalité
de Poincaré (voir proposition 22.43, page 22.43).
−∆u = f,
avec f ∈ L2 (Ω). Dans le cas où k est supposé régulier (C 1 ), la solution appartient en effet à
un espace de fonctions plus régulières, l’espace H 2 (Ω) (voir définition 22.20, et la section 22.7
pour l’énoncé des théorèmes de régularité), de telle sorte que ∆u est défini comme fonction
de L2 (Ω), et que l’on peut écrire
Précisons que l’appartenance à H 2 (Ω) ainsi que l’écriture de l’équation ci-dessus utilisent
uniquement la formulation variationnelle pour des fonctions tests à support compact dans Ω
(qui sont en particulier nulles au bord).
Les conditions aux limites de Dirichlet sur le bord du domain sont contenues dans l’ap-
partenance de u à l’espace V
100. Précisons que ce résultat de régularité interviendra de façon essentielle dans l’analyse d’erreur de la
méthode de discrétisation.
163
Formulation matricielle. On numérote i = 1, 2, . . ., Nh les nœuds de la triangulation qui
correspondent à des degrés de liberté (c’est à dire les sommets de Th qui n’appartiennent pas
à Γ). La solution recherchée uh peut s’écrire
Nh
X
uh = uj wj ,
j=1
de telle sorte que (17.2) se ramène au système matriciel (on garde la notation uh pour
désigner le vecteur (u1 , . . . , uNh )
Auh = bh ,
où A est une matrice carrée d’ordre Nh , et bh ∈ RNh :
Z Z
A = (aij ) = ∇wi · ∇wj , bh = f wi .
Ω Ω i
On peut vérifier que, dans le cas d’un maillage cartésien régulier (cellules carrées coupée en
2 triangles), la matrice obtenue est, à constante multiplicative près, la matrice du Laplacien
discret que l’on obtient par une discrétisation dans le cadre de la méthode des différences
finies. La mise en œuvre de la présente méthode ne nécessite en revanche aucune hypothèse
sur le maillage.
int np=50;
mesh Th=square(np,np);
fespace Vh(Th,P1);
Vh u,tu ;
func k = 1+0.5*sin(y*4*pi) ;
func f = 1 ;
plot(Th,wait=1);
problem Poisson(u,tu)=
int2d(Th)(k*(dx(u)*dx(tu)+dy(u)*dy(tu)))
-int2d(Th)(f*v)
+on(1,2,3,4,u=0);
Poisson ; plot(u, wait=1);
Estimation d’erreur. L’estimation d’erreur, détaillée dans la section 17.2, se base sur 2
ingrédients.
164
1) En premier lieu, il s’agit d’établir une inégalité d’approximation du type
où u est la solution exacte du problème initial, et ε(h, u) tend vers 0 quand le paramètre
de discrétisation h tend lui-même vers 0. Pour le cas des éléments finis d’ordre 1 que nous
avons considérés ici, ε est du type Ch kukH 2 , où H 2 désigne l’espace de Sobolev des fonctions
de L2 dont toutes les dérivées secondes sont de carré intégrable. Noter que la régularité de
la solution donnée par le théorème d’existence et d’unicité est simplement H 1 . Il sera donc
nécessaire de montrer que la solution est plus régulière que cela.
ku − uh k ≤ C inf |vh − u| ,
vh ∈Vh
où C est une nouvelle constante qui dépend des propriétés de la forme bilinéaire. Nous verrons
que dans le cas de matériaux inhomogènes cette constante est susceptible d’être très grande,
ce qui suggère une dégradation de la précision numérique. La démonstration de ces propriétés
fait l’objet de la section 17.2.
Ces propriétés assurent ici que, si l’on considère (Th ) une famille régulière de triangulations
de Ω (voir définition 17.17), Vh l’espace d’approximation associé défini précédemment, alors
il existe une constante C > 0 telle que
|u − uh |Ω,1 ≤ Ch |f |Ω,0 .
C’est une application directe de la proposition 22.55, page 233 (ou plus précisément de la
proposition 22.57 qui s’applique au cas d’un polyèdre convexe), du théorème d’approxima-
tion 17.18, et du lemme de Céa 17.3.
Remarque 17.1. On prendra garde au fait que le lemme de Céa est non local (l’estimation
de l’erreur par l’erreur d’approximation est globale). En particulier, si la solution a la régu-
larité H 2 sauf au voisinage d’un point (par exemple un coin rentrant), on n’a pas forcément
approximation d’ordre 1, même loin du point problématique : la singularité est susceptible de
polluer l’ensemble de l’approximation.
165
est maintenant (avec k ≡ 1)
−∆u = f in Ω
u = 0 sur ΓD (17.3)
∂u
= g sur ΓN
∂n
On obtient la formulation variationnelle en multipliant par une fonction-test v nulle ΓD en
intégrant par parties, et en remplaçant 102 ∂u/∂n par g :
Z Z Z
∇u · ∇v = fv + gv.
Ω Ω ΓN
Retour à l’équation de départ. Il s’agit de montrer en premier lieu que la solution est
H 2 , de façon à donner un sens à ∆u comme fonction 104 . Cette régularité est assurée sous
102. Il est essentiel de faire disparaı̂tre toute trace de ∂u/∂n, car cette quantité n’est pas définie pour des
fonctions de H 1 . Or la forme bilinéaire impose que l’on se place dans H 1 pour utiliser le théorème de Lax-
Milgram.
103. En toute rigueur la condition de Dirichlet sur ΓD devrait s’écrire en utilisant l’opérateur de trace γ0 .
Nous utiserons pourtant dans la suite la notation u|ΓD pour désigner la trace de u sur ΓD .
104. Il existe une autre manière (que nous ne privilégierons pas ici) de donner un sens à l’équation de Poisson
sans l’aide d’aucun théorème de régularité (voir section 22.9, page 235). La formulation variationnelle assure
que ∇u admet une divergence faible L2 . On peut donc donner un sens à ∆u comme la divergence faible de
∇u, en gardant à l’esprit qu’il s’agit d’une notation globale, et qu’en particulier les dérivées secondes ne sont
pas nécessairement définies comme des fonctions de L2 . On peut pousser la démarche jusqu’à donner un sens
à ∂u/∂n comme la trace normale du champ de vecteur ∇u ∈ H(div) (voir remarque 22.68), page 235). Cette
trace est alors définie dans un sens faible, ce qui interdit par exemple l’écriture ∂n u = g p.p.
166
certaines hypothèses, en particulier ici dans le cas de conditions mixtes dans le cas où le
raccord entre les différentes composantes se fait à angle droit (voir remarque 22.58, page 233).
Nous supposerons ici que la donnée g a été choisie de telle sorte que cette régularité H 2 soit
vérifiée.
Cet exemple va nous permettre de faire la distinction entre condition essentielle (condi-
tions de Dirichlet), et condition naturelle (de Neuman en l’occurence, mais il pourrait s’agir
des conditions de Robin). Dans le premier cas, la condition au bord est dans la définition de
l’espace sur lequel on travaille : on a u(x) = 0 presque partout sur ΓD par appartenance de
u à V . Les conditions de Neuman ont en revanche disparu en tant que telles du problème
sous sa forme variationnelle, il est important de vérifier qu’elles sont bien vérifiées dans un
certain sens par la solution. On utilise pour cela la régularité H 2 de la solution. On considère
alors la formulation variationnelle pour des fonctions-test régulières qui s’annulent sur ΓD ,
mais pas forcément sur ΓN . On utilise alors la formule de Green (voir proposition 22.37), ce
qu’autorise la régularité H 2 de la solution u, pour obtenir
Z Z Z Z
∂u
(−∆u) v + v− gv = f v.
Ω ΓN ∂n ΓN Ω
Principes abstraits
167
Proposition 17.3. (Lemme de Céa (cas symétrique))
Soit a( · , · ) une forme bilinéaire symétrique coercive sur V , de constante de coercivité α
et de constante de continuité kak, et ϕ ∈ V ′ . On note u l’élément de V qui minimise la
fonctionnelle
1
v ∈ V 7−→ J(v) = a(v, v) − hϕ , vi.
2
Soit Vh un sous-espace fermé de V . On note uh l’élément de Vh qui minimise J sur Vh . alors
s
kak
|uh − u| ≤ inf |vh − u| .
α vh ∈Vh
a(u, v) = hϕ , vi ∀v ∈ H,
a(uh , vh ) = hϕ , vh i ∀vh ∈ Vh .
On a donc
a(uh − u, vh ) = 0 ∀vh ∈ Vh ,
ce qui exprime que uh minimise la fonctionnelle v 7→ a(vh − u, vh − u) sur Vh . On a donc, en
utilisant la coercivité et la continuité de a( · , · ),
La propriété demeure (avec une constante dégradée) pour une forme non symétrique,
comme l’exprime le lemme de Céa général :
Proposition 17.4. (Lemme de Céa)
Soit a( · , · ) une forme bilinéaire (non nécessairement symétrique) coercive sur V , de
constante de coercivité α et de constante de continuité kak, et ϕ ∈ V ′ . Soit Vh un sous-
espace de V . On note u et uh les élements de V et Vh , respectivement, qui vérifient
a(u, v) = hϕ , vi ∀v ∈ V,
a(uh , vh ) = hϕ , vh i ∀vh ∈ Vh .
Alors
kak
|uh − u| ≤ inf |vh − u| .
α vh ∈Vh
a(uh − u, vh ) = 0 ∀vh ∈ Vh ,
168
Approximation sur un simplexe
Dans la suite K désigne un simplexe de RN non dégénéré (i.e. de volume non nul). On
désignera par K̂ le simplexe de référence, défini par
n o
K̂ = (x1 , . . . , xN ) ∈ RN
+ , x1 + · · · + xN ≤ 1 .
On se placera dans ce qui suit en dimension 2 d’espace, où K̂ est le triangle de référence
n o
K̂ = (x1 , x2 ) ∈ R2+ , x1 + x2 ≤ 1 .
Notation 17.5. Pour toute fonction w définie sur K (ou sur tout autre domaine), on notera
(lorsque ces quantités sont définies)
1/2
X
|w|0,K = kwkL2 (K) , |w|1,K = k∇wkL2 (K)2 , |w|2,K = D 2 w = |∂ij u|2 .
L2 (K)N 2
i,j
Notation 17.6. On note P k (K) l’espace des fonctions polynômiales sur K, de degré total
inférieur ou égal à k. Ainsi P 1 (K) désigne l’espace des fonctions affines sur K, de dimension
N + 1, et P 0 (K) la droite des fonctions constantes.
Le cœur théorique de la méthode des éléments finis repose sur une estimation de stabilité
sur le simplexe de référence, qui sera étendue à un simplexe quelconque par simple changement
de variable affine. On considère ici des polynôme d’ordre 1 (éléments finis dits P 1 ), on renvoie
à la fin de la section pour le cas général.
Lemme 17.7. Soit IK un opérateur linéaire continu de H 2 (K) dans H 1 (K) On suppose que
IK laisse invariant tous les éléments de P 1 . Alors il existe une constante C telle que
Démonstration. On raisonne par l’absurde, en supposant l’existence d’une suite (vn ) telle que
On choisit de prendre vn dans l’orthogonal de P 1 (ce qui est possible, quitte à corriger par un
polynôme de degré 1, ce qui ne change aucun des membres), et de norme 1 dans H 2 . Cette
suite est bornée dans H 2 , on peut donc en extraire une sous-suite qui converge faiblement
vers u ∈ H 2 . Cette sous-suite (toujours notée vn ) converge fortement dans H 1 par injection
compacte, et donc fortement en fait dans H 2 car, |vn |2,K tendant vers 0, elle y est de Cauchy.
Elle converge donc fortement vers u. Toutes les dérivées à l’ordre 2 de u sont nulles : il s’agit
donc d’un polynôme de degré au plus 1. Comme elle est dans l’orthogonal de P 1 , on a donc
u = 0, ce qui absurde car u est de norme 1 dans H 2 .
cation de L1 dans P 0 (K) qui à une fonction associe la fonction constante sur K, de même
valeur moyenne.
169
hK
ρK
Lemme 17.10. Soit Φ l’application affine qui envoie K̂ dans K (noter que l’on peut choisir
Φ linéaire si l’on suppose que 0 est un sommet de chacun des simplexes) :
x̂ 7−→ x = Φ(x̂) = B x̂ + b
On a
1 1
k∇Φk = t
∇Φ = kBk ≤ hK , ∇Φ−1 = t
∇Φ−1 = B −1 ≤ ĥ.
ρ̂ ρK
Démonstration. Soit ξ̃ ∈ RN de norme ρ̃. Il existe x̃1 et x̃2 dans K̃ tels que ξ̃ = x̃2 − x̃1 . On
a donc
B ξ̃ = B x̃2 − B x̃1 = Φx̃2 − Φx̃1 = x2 − x1 ,
qui est de norme inférieure à hK par définition. On en déduit la première inégalité. La seconde
se montre de la même manière en considérant ξ = x2 − x1 de norme ρK .
Le cœur des estimations repose sur une formule de changement de variable entre K̂ et K,
ou plus précisément sur la manière dont le passage de K̂ à K (ou l’inverse) est susceptible
de modifier les valeurs des dérivées partielle d’une fonction poussée par Φ (ou Φ−1 ). Pour
alléger les notations, on notera simplement h pour hK , et ρ pour ρK , en considérant que ces
quantités pour le triangle de références sont des constantes.
Lemme 17.11. Soit u une fonction régulière définie sur le triangle non dégénéré K (de
diamètre h et de diamètre intérieur ρ̂, et û définie sur K̂ par
û(x̂) = u ◦ Φ.
170
de telle sorte que ∇û(x̂) = (∇Φ)T ∇u(x). On a donc
∂ û X ∂su
≤ Ch
∂ x̂i |α|=s
∂xi
L’estimation sur les dérivées d’ordre plus élevées, ainsi que les estimations inverses (à partir
de u(x) = û ◦ Φ−1 , se démontrent de la même manière.
h2
|IK u − u|1,K ≤ C |u|2,K ∀u ∈ H 2 (K)
ρ
|IK u − u|0,K ≤ Ch2 |u|2,K ∀u ∈ H 2 (K)
0
IK u−u ≤ Ch |u|1,K ∀u ∈ H 1 (K)
0,K
171
triangles non dégénérés deux à deux disjoints telle que
[
Ω= K,
K∈Th
′
et telle que, pour tous K, K ′ de Th , l’intersection K ∪ K est vide, ou réduite à un sommet
commun des triangles, ou réduite à un côté commun des triangles. Les sommets des triangles
de Th sont appelés les nœuds de la triangulation.
Definition 17.15. (Opérateur d’interpolation)
Soit Ω un domaine polygonal du plan, et Th une triangulation de Ω. On définit l’opérateur
d’interpolation Ih comme l’application de C(Ω) (ensemble des applications continues de Ω
dans R) qui à u ∈ C(Ω) associe la fonction uh affine sur chaque K ∈ Th qui prend la valeur
u(x) en chaque sommet x de Th .
Remarque 17.16. Le paramètre h joue un rôle un peu ambigu dans ce contexte : il désigne
à la fois l’indice d’un membre d’une famille de triangulations (c’est donc le label d’une trian-
gulation), et ce qu’il est convenu d’appeler le diamètre de la triangulation , c’est à dire le sup
de hK pour K ∈ Th , qui est un nombre réel. C’est évidemment un abus de notation, puisque
deux triangulations peuvent avoir le même diamètre sans être identiques. Nous conservons
néammoins cet usage, qui permet d’alléger les notations.
Definition 17.17. (Famille régulière de triangulations)
Soit Ω un domaine polygonal. On appelle famille régulière de triangulations une famille (Th )
telle que
(i) il existe une constante σ telle que suph supK∈Th (hK /ρK ) ≤ σ,
Démonstration. On a
Z X Z X
2
|u − Ih u| = |u − Ih u|2 ≤ C 2 h4 |u|22,K ≤ C 2 h2 |u|22,Ω .
Ω K∈Th K K∈Th
Proposition 17.19. Soit Ω un domaine polyédrique convexe, et (Th )h une famille régulière
de triangulations de Ω. On note Vh l’ensemble des fonctions de H01 (Ω) dont la restriction à
chaque triangle de Th est affine. Pour f ∈ L2 (Ω), on note u ∈ H01 (Ω) la solution faible de
−△u = f,
et uh la solution du problème discrétisé
Z Z
∇uh · ∇vh = f vh ∀vh ∈ Vh .
Ω Ω
172
Il existe une constante C > 0 telle que
|u − uh |Ω,1 ≤ Ch |f |Ω,0 .
R
On s’intéresse ici à l’approximation des valeurs propres d’une forme bilinéaire du type
∇u · ∇v.
Théorème 17.20. On se place dans le cadre du théorème ??, page ??. On introduit une
suite d’espaces d’approximation (Vh ) de V , et l’on note (uih , λih ) les solutions du problème aux
valeurs propres sur Vh :
a(uih , v) = λih (uih , v),
où ( · , · ) est le produit scalaire sur H.
et ainsi
i i
!1/2 i
!1/2
X X 2 X
kΠh u − ukV = k
β (Πh uk − uk ) ≤ β k
kΠh uk − uk k2V
k=1 k=1 k=1
i
!1/2
X
= |u| kΠh uk − uk k2V .
k=1
On a donc
|Πh u − u|V
lim sup =0
h→0 u∈Wi |u|
Par ailleurs, on a a(Πh u, Πh u) ≤ a(u, u), pour tout u ∈ V . Le principe du min-max permet
pour finir d’écrire que
λih ≤ max R(w),
w∈Wh \{0}
173
Mais, d’après ce qui précède, on a
d’où l’on déduit, pour tout i, la convergence de λih vers λi quand h tend vers 0.
La méthode des éléments finis permet la prise en compte de conditions aux limites non
standards de façon naturelle, sous réserve que le problème sous jacent possède une structure
variationnelle.
On introduit l’espace
n o
HC1 (Ω \ ω) = u ∈ H 1 (Ω \ ω) , u = 0 sur ∂Ω , u = cste sur ∂ω .
HC1 (Ω \ ω) −→ R
Z Z
1
v 7−→ J(v) = |∇v|2 − f v,
2 Ω\ω Ω\ω
Le problème 17.5 consiste donc à minimiser J sur HC1 (Ω \ ω). On notera que la condition de
flux nul a disparu. Il s’agit en fait d’une condition dite “naturelle”, qui dérive du problème de
minimisation, comme le précise la proposition suivante.
174
Proposition 17.21. Soit u ∈ HC1 (Ω \ ω) la fonction qui minimise la fonctionnelle J sur
HC1 (Ω \ ω). Alors u est solution du problème (17.4).
On considère un problème (de type Poisson pour fixer les idées) posé sur un domaine
de géométrie complexe. L’approche consiste à plonger le problème dans un domaine plus
grand, de géométrie plus simple (par exemple un parallélogramme). Cette stratégie permet
d’évoter la génération de maillage adapté au domain initial, et de se limiter typiquement à
des maillages cartésiens du domaine recouvrant.
La présente approche consiste à se placer sur l’espace V = H01 (Ω), et à traiter comme
une contrainte le fait d’être nul sur ω. On notera K ⊂ V le sous-espace des fonctions qui
s’annulent presque partout sur ω. On peut écrire le problème sous la forme d’un problème de
minimisation, de la fonctionnelle
Z Z
1
J : v 7−→ |∇v|2 − f v,
2 Ω Ω
sur K.
175
vj
i
hj
hi
vi
Pénalisation
Z Z Z
1 2 1 2
Jε : v −
7 → |∇v| + v − f v.
2 Ω 2ε ω Ω
Pour i et j voisins, l’intégrale de ∇wi · ∇wj résulte de deux contributions (les deux tri-
angles qui contiennent i et j). L’une quelconque de ces contributions (voir figure 17.2) s’écrit
Z
1
∇wi · ∇wj = aire(K) hi · hj .
K |hi | |hj |2
2
On note D = vi ∧ vj . L’aire du triangle vaut D/2. Par ailleurs, la hauteur |hi | du triangle
peut s’exprimer
v⊥ vi ∧ vj
|hi | = vj · i = .
|vi | |vi |
On a donc
Z
1 D vi · vj 1 vi · vj
∇wi · ∇wj = aire(K) hi · hj 2 2 = 2 |v | |v | |hi | |hj | 2 2 = 2D .
K |hi | |hj | i j |hi | |hj |
176
L’intégrale sur l’ensemble du domaine est ainsi la somme de deux contributions de ce type,
correspondant aux deux triangles partageant à la fois i et j. On note cij l’opposé de cette
valeur. En écrivant que la fonction constante égale à 1 est somme des fonctions de base sur
l’ensemble du maillage, on obtient
Z Z X
0= ∇wi · ∇1 = |∇wi |2 − cij .
Ω Ω j∼i
La matrice du Laplacien discrétisé est donc la matrice dont les termes extra-diagonaux sont
P
les −cij , et les éléments diagonaux les Ci = cij . On se trouve donc en présence d’une
matrice associée à un réseau résistif (voir section 4), dont les sommets sont les sommets du
maillages, les arêtes les côté de ce même maillage, et les résistances sont les inverses des
quantités cij définie ci-dessus. Une solution du problème discret sans second membre peut
donc s’interpréter comme un champ de pression sur le réseaux, harmonique sur les points
intérieurs.
On prendra cependant garde au fait que les cij ne sont pas nécessairement positifs. Il ne le
sont de façon sûre que si tous les angles de tous les triangles sont aigus. Dans le cas contraire,
l’analogie doit être considérée avec précaution, certaines résistances du réseau associé pouvant
être négatives. L’une des conséquence de cette négativité de certaines résistances est que la
méthode ne vérifie plus forcément le principe du maximum discret. En effet, on a pour tout
champ harmonique
1 X
p(i) = cij p(j),
C(i) j∼j
mais cette combinaison peut n’être plus barycentrique dans le cas où certains angles sont
obtus.
On peut associer à la solution discrète d’un problème de laplace discrétisé par éléments
fini une mesure vectorielle vérifiant une équation de conservation stationnaire (au sens des
distribution).
Nous considérons pour fixer les idées le cas de conditions aux limites de Dirichlet non
homogènes. L e problème consiste à trouver dans l’espace Vh des fonctions continues affines par
morceaux une fonction qui prend des valeurs prescrites sur le bord, et qui vérifie la formulation
variationnelle discrète (on note p l’inconnue pour expliciter le lien avec la section 4)
Z
∇p · ∇q = 0 ∀v ∈ Vh0 ,
Ω
oùVh0 est l’espace des fonctions discrètes qui s’annulent au bord. Pour tout point x de la
triangulation situé sur le bord du domaine, on note µ(x) la mesure atomique associée au flux
discret lui même associé au champ de pression défini sur le réseau résistif N = (V, E, r, Γ)
correspondant au maillage éléments finis, selon les principes décrit ci-dessus. Plus précisément,
on note, pour tout x ∈ Γ, on note
X X X
µ(x) = du(x) δx , du(x) = u(y, x) = c(x, y)(p(y) − p(x)).
x∈Γ y∼x y∼x
177
On note G la mesure vectorielle associée aux flux discrets sur le maillage, selon la démarche
décrite dans la section 4.5. On a alors, au sens des discributions, (voir proposition 4.13,
page 53)
∇ · G = µ.
Noter que cette propriété de conservation formelle ne nécessite pas d’hypothèse sur la positi-
vité des résistances. On gardera cependant à l’esprit que, dans le cas où le maillage présente
des angles obtus, le réseau résistif associé ne correspond pas forcément à la situation physique
de résistances positives 105 .
105. Un tel réseau serait irréalisable en pratique, qu’il s’agisse d’un circuit électrique, on d’un réseaux de
tuyaux au travers duquel s’écoule un fluide visqueux.
178
18 Résolution des systèmes linéaires
18.1 Conditionnement
Le conditionnement d’une matrice apparaı̂t de façon naturelle lorsque l’on cherche à esti-
mer la stabilité de la résolution d’un système linéaire par rapport aux données, indépendam-
ment de la méthode numérique utilisée effectivement pour résoudre le système. Considérons
une matrice A ∈ Mn (R) inversible, un second membre b ∈ Rn , et le système linéaire
Au = b.
Le conditionnement quantifie la confiance que l’on peut avoir dans la solution (exacte) de
ce système en fonction de la confiance que l’on a dans les données (en l’occurrence le second
membre b), qui sont susceptibles d’être entachées d’erreurs de mesure, d’erreurs liées au
stockage sur ordinateur avec une précision finie. Dans ce qui suit nous considérons la norme
matricielle kAk2 , notée simplement kAk, subordonnée à la norme euclidienne sur Rn . On
considère ainsi une perturbation δb du second membre, et l’on cherche à estimer la variation
δu induite sur la solution :
A(u + δu) = b + δb.
On a donc δu = A−1 δb, d’où |δu| ≤ A−1 |δb|. D’autre part b = Au implique |b| ≤ kAk |δb|,
d’où finalement
|δu| |δb|
≤ A−1 kAk .
|u| |b|
Definition 18.1. (Conditionnement)
Soit A une matrice inversible. On appelle nombre de conditionnement de A le réel
κ = A−1 kAk.
La quantité κ mesure donc le rapport entre l’erreur relative maximale sur la solution et
l’erreur relative sur les données. Cette quantité sans dimension est toujours supérieure ou
égale à 1 (1 = kIdk = AA−1 ≤ κ). Pour κ ≫ 1, le problème est très instable par rapport
aux données.
Remarque 18.2. On peut aussi se demander quel est l’effet sur la solution d’une perturbation
de la matrice elle-même :
(A + δA)(u + δu) = b.
On obtient au premier ordre (on néglige le terme en δAδu) une formule analogue à la pré-
cedente, qui fait intervenir le κ comme un majorant du facteur d’amplification de l’erreur
relative :
|δu| kδAk
≤ A−1 kAk .
|u| kAk
179
Conditionnement des matrices s.d.p. Dans le cas où A est symétrique définie positive,
de valeurs propres
0 < λ1 ≤ λ2 ≤ · · · ≤ λn ,
le conditionnement s’écrit κ = λn /λ1 .
Exemple 18.1. Considérons la matrice du Laplacien discret donnée dans la section A.4, dont
les valeurs propres sont connues. Le conditionnement de cette matrice est donc
(N −1)π
sin2 2N
κ = λN −1 /λ1 = π
∼ 4N 2 quand N → +∞.
sin2 2N
Definition 18.3. Soit A = (aij ) une matrice. On dit que A est une matrice-bande s’il
existe ℓ tel que aij = 0 dès que |j − i| > ℓ. Bien sûr cette notion n’a d’intérêt que si ℓ est
significativement plus petit que n.
On s’intéresse dans cette section à la résolution d’un système linéaire Au = b bien posé
(matrice A inversible).
A = LU
, où L (resp. U ) est une matrice triangulaire inférieure (resp. supérieure), et L ne contient
que des 1 sur la diagonale. Une fois que cette décomposition est réalisée, la solution s’obtient
par résolution de 2 systèmes triangulaires.
Il peut être intéressant de choisir le pivot à chaque étape (pour éviter par exemple d’in-
verser des nombres trop petits). Il s’agit alors de la décomposition avec permutation :
A = P LU,
où P est une matrice de permutation (les éléments sont des 0 ou des 1, et chaque ligne et
chaque colonne contient exactement un 1.
180
et, pour j = 2, . . . , n,
j−1
X
v
u j−1
aij − bjk bik
u X k=1
bjj = ajj −
t 2
bjk , bij = , i = j + 1, . . . , n,
k=1
bjj
Le système Au = b est alors résolu par la résolution successive des deux systèmes trian-
gulaires
Lw = b , tLu = w.
Proposition 18.5. La décomposition d’une matrice A s.d.p. de taille n × n par la méthode
de Cholesky nécessite n extractions de racines, et un équivalent de n3 /6 divisions ou multi-
plications.
Remarque 18.6. La complexité réelle est en général très inférieure (tout du moins si l’écri-
ture du programme informatique est adaptée à la situation), notamment dans le cas des
matrices-bande (voir définition 18.3 ci-dessus), ce qui est souvent le cas des matrices résul-
tants de la discrétisation par éléments finis d’un opérateur elliptique. Dans ce cas, on peut
montrer que la matrice L associée possède la même structure de matrice bande. En consé-
quence, pour j allant de 2 à n, le nombre d’éléments extradiagonaux bij chute de n − j à
ℓ, tout comme le nombre d’opérations nécessaire. La complexité descend donc à nℓ2 . Noter
que la résolution des 2 systèmes triangulaires, dont la complexité chute à nℓ, reste d’un coût
négligeable par rapport à la factorisation (au moins dans de la cas d’un seul système, voir à
ce sujet la remarque 18.7). Dans le cas du Laplacien discret en dimension 1, la largeur de
bande est 2, d’où une complexité de l’ordre de n, le nombre de points (nous ne précisons pas
la constante, car la petite largeur de bande rend significatives des opérations dont nous avions
√ √
négligé le nombre). En dimension 2, pour un problème scalaire sur un maillage n × n, la
√
matrice est de taille n, et de largeur de bande n, d’où une compléxité en n2 /6.
Remarque 18.7. Cette méthode peut être particulièrement performante lorsque l’on souhaite
résoudre un grand nombre de fois un système 106 impliquant une matrice donnée A (pour des
181
λ1 λ2 ... λn
−1 1
1 − ρλn 1 − ρλ1
Algorithme 18.8. Soit A une matrice symétrique définie positive de Mn (R). L’algorithme
du gradient à pas fixe est basé sur la construction suivante : on se donne ρ > 0, un vecteur
initial u0 ∈ Rn , et l’on construit
Proposition 18.9. L’algorithme du gradient à pas fixe converge dès que ρ ∈]0, 2/λn [, où λn
est la plus grande valeur propre de A
Démonstration: On note ek = uk − u l’erreur, qui vérifie ek+1 = (Id −ρA)ek . Cette erreur
converge dès que les valeurs propres de Id −ρA sont de module strictement inférieur à 1.
L’opération A 7→ Id −ρA renverse le spectre de A comme illustré sur la figure 18.1. Les
valeurs propres de la nouvelle matrice sont donc de module strictement inférieur à 1 si et
seulement si 1 − ρλn > −1, c’est à dire 0 < ρ < 2/λn .
Remarque 18.10. Bien que la notion de choix optimal pour ρ soit sujette à caution, on
notera que le choix
ρ = 2/(λ1 + λn )
minimise le rayon spectral de Id −ρA. Pour ce choix, le rapport géométrique de convergence
est 1 − 2λ1 /(λ1 + λn ), donc de l’ordre de 1 − 2κ−1 pour κ grand. La convergence sera donc
d’autant plus lente que le conditionnement κ est grand.
106. Cette situation se rencontre par exemple dans le cadre de la discrétisation en temps d’un problème
d’évolution par une méthode implicite, qui se ramène à chaque pas de temps à la résolution d’un système pour
une même matrice mais des seconds membres différents.
182
Méthode du gradient à pas optimal
La méthode du gradient à pas optimal est basée sur un calcul explicite du pas ρ de
l’algorithme
n de gradient ci-dessus,
o de façon à minimiser la valeur de la fonctionnelle J sur la
k k
droite u − ρ(Au − b) , ρ ∈ R . Un simple calcul permet d’exprimer ce ρ optimal à chaque
itération :
Algorithme 18.11. Soit A une matrice symétrique définie positive de Mn (R). L’algorithme
du gradient à pas optimal est basé sur la construction suivante : on se donne un vecteur initial
u0 ∈ Rn , et l’on construit
2
b − Auk
uk+1 = uk − ρk (Auk − b) , ρk = 2 , avec |v|2A = (Av, v) .
|b − Auk |A
Remarque 18.12. Noter que ρk est minoré et majoré, pour toute matrice s.d.p. A donnée.
|rk |2
αk =
(Apk , pk )
uk+1 = uk + αk pk
rk+1 = rk − αk Apk
βk+1 = |rk+1 |2 / |rk |2
pk+1 = rk+1 + βk+1 pk .
Proposition 18.14. Les suites (rk ), (pk ) construites selon l’algorithme du gradient conju-
gué 18.13 vérifient les propriétés suivantes :
(rk+1 , rk ) = |rk |2 − αk (rk , Apk ) = |rk |2 − αk (pk − βk pk−1 , Apk ) = |rk |2 − αk (pk −, Apk ) = 0.
Pour tout i ≤ k − 1, on a
183
Comme ri = pi − βi pi−1 , le produit scalaire est nul du fait que les directions pj sont deux à
deux conjuguées pour j ≤ k (hypothèse de récurrence).
Proposition 18.15. Soit A une matrice symétrique définie positive, et (uk ) une suite d’itérés
produite par l’algorithme du gradient conjugué 18.13. On note | · |A la norme associée à la
matrice A, et κ = λn /λ1 le conditionnement de A. On a
√ !k
κ−1
|uk − u|A ≤ 4 |u0 − u|A √ .
κ+1
184
1.0 4
0.5
3
0.0
2
−0.5
1
−1.0
0
−1.5
−1
−2.0
−2
−2.5
−3.0 −3
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
net pour un second membre ”non quelconque”, puisqu’on obtient la précision machine après
50 itérations. Par ailleurs, si la pente pour les premières itérations correspond à peu près à
la pente théorique, la convergence ne cesse d’accélérer. Ce phénomène reflète l’importance de
la régularité du second membre, ou plus précisément le poids respectif des modes propres du
Laplacien discret dans le second membre. Un cas simple permet d’appréhender ce phénomène,
qui est très peu abordé dans la litérature : considérons un second membre combinaison d’un
(petit) nombre p des premiers modes du Laplacien discret. L’algorithme évoluant dans l’espace
de Kylov engendré par le second membre, tout se passe exactement comme si l’on résolvait un
système de taille p, et la vitesse de convergence peut-être estimée à l’aide de conditionnement
de la sous matrice correspondante, qui peut être très inférieur au conditionnement de la
matrice globale. On aura par ailleurs une convergence à précision machine en un nobre d’étape
au plus égal à la dimension spectrale du second membre. Dans le cas plus général où le second
membre est l’interpolée d’une fonction régulière, cette régularité s’exprime dans le faible poids
des hautes fréquences dans le représentation modale de la fonction, et la surconvergence peut
s’expliquer par la quasi absence de modes de hautes fréquences.
Le terme de méthode rapide fait référence à des algorithmes particuliers permettant de li-
miter le nombre d’opérations élémentaires pour réaliser (sans approximation) un calcul donné.
L’exemple le plus simple est le calcul d’une puissance entière d’un nombre réel (ou entier).
Calculer x à la puissance 8 requiert a priori 7 multiplications. Mais on peut aussi calculer x2 ,
multiplier le résultat par lui-même, et encore une fois le résultat par lui-même, pour calculer
le même nombre en 3 multiplications.
a0 + a1 X + · · · + an X n
185
Tranformée de Fourier rapide (dimension 1). Pour ce qui concerne la résolution de
problèmes du type de ceux rencontrés, nous nous contentons de donner ici le principe 107
d’une méthode permettant de résoudre rapidement (dans un sens que nous préciserons) des
systèmes linéaires du type de ceux résultants de la discrétisation du Laplacien sur un maillage
cartésien. Il s’agit de la méthode de transformée de Fourier rapide (Fast Fourier Transform).
En dimension 1, la discrétisation en espace du problème de Poisson avec condition de Dirichlet
homogène
−u′′ = f , u(0) = u(1) = 0,
conduit à un système linéaire du type
Au = b,
où A est à une constante multiplicative près (1/h = N en l’occurrence) la matrice du Laplacien
discret (voir (A.13), page 257). Cette matrice est symétrique, donc diagonalisable dans une
base orthogonale de vecteurs propres. On peut expliciter les éléments propres de cette matrice
(voir section A.4), ce qui permet d’écrire
kπ
A = P DP t , D = diag 4 sin2 ,
2N k=1,...,N −1
et
π 2π 3π (N −1)π
sin N sin N sin N · · sin N
2π 4π 6π
sin N sin N sin N · · ·
r 3π 6π
2
sin N sin N · · ·
P =
N
· · · · ·
· · ·
(N −1)π (N −2)(N −1)π (N −1)2 π
sin N · · · sin N sin N
On a
s !
N −1 N −1 N −1
N X klπ 1 X 2klπ X 2k(2N − ℓ)π
(P b)k = sin bℓ = sin bℓ − sin bℓ
2 ℓ=1
N 2 ℓ=1
2N ℓ=1
2N
−1 −1 −1
1 2N i 2N i 2N
X 2klπ X 2iklπ X
= sin b̃ℓ = exp − b̃ℓ = ω kℓ b̃ℓ ,
2 ℓ=0 2N 2 ℓ=0 2N 2 ℓ=0 2N
107. De nombreuses améliorations sont possibles, qui permettent d’accélérer encore le calcul, mais l’approche
basique que nous présentons ici donne l’ordre de grandeur de la complexité, c’est à dire du nombre d’opérations
nécessaire à la résolution du problème.
186
avec
2iπ
ω2N = exp − .
2N
p
Le k-ième coefficient de P b (au facteur N/2 près) est donc le k-ième coefficient de ce que
l’on appelle la transformée de Fourier discrète (d’ordre 2N , avec indexation de 0 à 2N − 1)
du vecteur b̃. On note F cette transformée de Fourier discrète, de telle sorte que
s
N
(P b)k = F2N (b̃) .
2 k
La somme ci-dessus peut se décomposer de la façon suivante (on sépare les termes impairs
et les termes pairs) :
2N
X −1 N
X −1 N
X −1 N
X −1 N
X −1
kℓ 2ℓk (2ℓ+1)k ℓk k ℓk
ω2N b̃ℓ = ω2N b̃2ℓ + ω2N b̃2ℓ+1 = ωN b̃2ℓ + ω2N ωN b̃2ℓ+1
ℓ=0 ℓ=0 ℓ=0 ℓ=0 ℓ=0
−k
= FN (b̃0 )k + ω2N FN (b̃1 )k .
où b0 (resp. b1 ) est le vecteur des termes pairs (resp. impairs) de b̃. Précisons que si k est plus
grand que N (c’est a priori inutile ici, mais c’est utile pour la suite), on obtient
−k
FN (b̃0 )k−N + ω2N FN (b̃1 )k−N .
Supposons que l’on sache calculer tous les termes des deux transformées ci-dessus (vecteurs
de taille N ). On doit effectuer de l’ordre de N multiplications complexes (on néglige ici les
constantes multiplicatives). Si N est une puissance de 2, on peut ainsi récursivement calculer
les TFD aux différentes échelles, le coût du passage d’une étape à l’autre étant à chaque fois
de l’ordre de 2N . Le nombre d’étape étant de l’ordre de log2 N , le coût total est de l’ordre
de N log2 N .
Au = b,
où A ∈ M(N −1)2 (R) peut s’écrire par blocs (avec B ∈ MN −1 (R))
C − Id 0 · · 0 4 −1 0 · · 0
− Id C − Id 0 · 0 −1 4 −1 0 · 0
0 − Id C − Id ·
0 −1 4
−1 ·
A=
, C=
,
· · · · · · · · · ·
·
· − Id
·
· −1
0 · · 0 − Id C 0 · · 0 −1 4
187
ui
j (i, j)
uj
On introduit les vecteurs colonne ui correspondant aux inconnues sur la ligne verticale
x = ih, et les vecteurs ligne uj , correspondant aux inconnues sur la ligne horizontale y = jh
(voir figure 18.3), ce qui permet d’écrire le vecteur u sous la forme d’une matrice (u1 , . . . , uN −1
(on a une écriture analogue en lignes).
On introduit maintenant la matrice du Laplacien discret (voir (A.13) que l’on note ici Λ.
2
On a (en utilisant une indexation (i, j) pour représenter les vecteurs de R(N −1) )
(Au)i,j = (Λui )j + Λuj . (18.1)
i
On cherche à réécrire le système de façon plus ramassée en écrivant le vecteur des inconnues
sous forme de matrice (deux écriture sont possibles, en colonnes et en lignes)
u1
u2
U = (u1 , . . . , uN −1 ) =
.. ,
.
uN −1
on écrit de la même manière le second membre sous la forme d’une matrice B, et l’on remarque
Λu1
Λu2
ΛU = (Λu1 , . . . , ΛuN −1 ) , U Λ = (ΛT U T )T =
.. .
.
ΛuN −1
Le système (Au)i,j = Bi,j peut donc s’écrire, d’après (18.1), sous la forme suivante :
ΛU + U Λ = B.
188
On introduit la matrice W = P U P . On s’est finalement ramené au calcul de B ′ = P BP , de
la résolution d’un problème du type
1
DW + W D = B ′ ⇐⇒ Wij = B′ ,
λi + λj ij
où les λi sont connus (voir section A.4), et finalement de U = P W P . En dehors de l’étape
centrale, pour laquelle on a une formule explicite, il s’agit donc d’effectuer des produits
matrice-vecteur du type P X ou XP . Le premier produit consiste en le calcul de la transformée
de Fourier discrète (donc potentiellement rapide) des vecteurs colonnes de X, et le second
XP = (P X T )T la TFD des vecteurs lignes de X. Dans les deux cas le calcul par FFT donne
une complexité de l’ordre de N × N log2 N . On a donc finalement un nombre d’opérations de
l’ordre de m log2 m, où m = (N − 1)2 est le nombre d’inconnues.
18.5 Préconditionnement
C −1 Au = C −1 b.
On pourra améliorer très significativement la vitesse de convergence des méthodes si l’on est
capable de trouver une matrice C spectralement proche de 1, de telle sorte que le condition-
nement de C −1 A est très inférieur à celui de A. Pour que cette approche soit efficace, il faut
bien sûr que la matrice C soit plus facile à inverser que A.
189
Quatrième partie
Aspects théoriques
190
19 Éléments d’Analyse Fonctionnelle
hϕ , xi ≤ α < α + ε ≤ hϕ , xi ∀x ∈ X , y ∈ Y.
n
X
λ ≤ α < λϕ(x) + λi ϕi (x) ∀x ∈ X.
i=1
Remarque 19.4. Le résultat précédent généralise une propriété bien connue sur les matrices.
Soit B une matrice réelle n × m, dont les lignes sont les ui ∈ Rm , i = 1,. . ., n. Soit u un
vecteur orthogonal à tout vecteur orthogonal aux ui . La proposition précédente (on associe
aux vecteurs une forme linéaire basée sur le produit scalaire usuel sur l’espace Euclidien Rm )
assure que u est combinaison linéaire des ui , ce qui exprime
On a bien sûr égalité entre ces deux espace (l’inclusion inverse est immédiate).
191
19.2 Autour du théorème de Banach-Steinhaus
Definition 19.5. On appelle espace de Banach tout espace vectoriel normé complet.
Definition 19.6. Soient E et F deux espaces vectoriels normés. On note L(E, F ) l’espace
des applications linéaires continues de E dans F . C’est un espace vectoriel normé pour la
norme
kT ukF
kT kL(E,F ) = sup = sup kT ukF .
u6=0 kukE u∈BE
Cet espace est complet dès que F est complet. Lorsque F = E, on notera simplement L(E).
Definition 19.7. (Adjoint)
Soient E et F deux espaces vectoriels normés, et T ∈ L(E, F ). On définit l’adjoint de T
comme l’opérateur T ⋆ de F ′ dans E ′ qui à ϕ ∈ F ′ associe
T ⋆ ϕ : u 7−→ hT ⋆ ϕ , ui = hϕ , T ui.
Int (Xn ) = ∅ ∀n ∈ N.
On a alors !
+∞
[
Int Xn = ∅.
n=0
On a alors
sup kTa kL(E,F ) < +∞.
a∈A
Exercice 19.1. Montrer qu’un espace de Banach est de dimension soit finie soit non dénom-
brable.
Corollaire 19.11. Soient E et F deux espaces de Banach et (Tn )n∈N une suite d’opérateurs
de L(E, F ) telle que, pour tout x ∈ E, Tn x converge vers un élément de F , que l’on note T x.
La suite (Tn ) est alors nécessairement bornée dans L(E, F ). De plus, l’opérateur limite T est
dans L(E, F ), et sa norme vérifie
192
Remarque 19.12. La dernière inégalité du corollaire précédent peut être stricte. Considérer
par exemple E = ℓ2 et la suite des formes linéaires
Cette suite converge ponctuellement vers la forme linéaire nulle. Cet exemple permet d’autre
part de vérifier que l’on n’a pas en général convergence de Tk vers T pour la norme d’opérateur.
Remarque 19.13. On prendra garde au fait que l’hypothèse (19.1) du théorème de Banach-
Steinaus, (tout comme l’hypothèse de convergence de Tn x du corollaire ci-dessus), doit être
vérifiée pour tout x de E, et non pas seulement sur un sous-ensemble dense.
On en déduit le
Dans le cas où T n’est pas surjectif, on peut appliquer ce qui précède à l’application T̃ ,
bijection canoniquement associée à T comme le précise le corollaire ci -dessous.
Remarque 19.17. Dans le cas où E est un espace de Hilbert, l’infimum est atteint pour h
égal à la projection de u sur ker T , l’inégalité ci-dessus devient
P(ker T )◦ u ≤ α kT uk .
∀y ∈ T (E) , T̃ −1 y ≤ α kyk .
E/ ker T
T̃ −1 y = kz − Pker T zk ,
E/ ker T
193
d’où la propriété avec x = z − Pker T z.
Réciproquement, si un tel α existe, alors pour tout suite (xn ) telle que T xn → y, on
peut construite une suite bornée x′n avec T xn = T x′n , dont on peut extraire une sous-suite
faiblement convergence (toujours notée (x′n )) vers x ∈ E. La proposition 20.31 assure alors
la convergence faible de T x′n vers T x, d’où y = T x ∈ T (E).
Remarque 19.19. On déduit immédiatement de ce qui précède que l’image d’un sous-espace
fermé par une application linéaire injective à image fermée est fermée (comme image réci-
proque d’un fermé par l’application réciproque, qui est continue).
Les propriétés qui suivent sont essentielles pour établir les résultats afférents à l’existence
et l’unicité de point-selle On se reportera à Brezis [2] pour un exposé plus complet des
propriétés de l’opérateur adjoint.
ImT ⋆ ⊂ (ker T )◦ .
Dans le cas où E est un espace de Hilbert (et plus généralement dans le cas où E est réflexif ),
on a l’identité
ImT ⋆ = (ker T )◦ .
hϕ , ui = hT ⋆ λ , ui = hλ , T ui = 0,
Montrons que cette inclusion ne peut être stricte dans le cas Hilbertien. Supposons qu’elle
le soit. Il existe alors ϕ0 ∈ (ker T )◦ non élément de l’adhérence de T ⋆ ( F ′ ). Le théorème de
Hahn-Banach permet de séparer strictement ϕ0 du convexe fermé T ⋆ ( F ′ ) : il existe 108 h ∈ V
et α ∈ R tels que
(T ⋆ λ, h) ≤ α < hϕ0 , hi ∀λ ∈ F ′ .
Comme F ′ est un espace vectoriel, l’ensemble des valeurs prises par (T ⋆ λ, h) est soit {0} soit
R tout entier. D’après l’inégalité précédente, c’est nécessairement {0}. On a donc hλ , T hi = 0
pour tout λ ∈ F ′ d’où h ∈ ker T , mais alors hϕ0 , hi = 0, ce qui est en contradiction avec
l’inégalité ci-dessus. On a donc bien identité entre les deux ensembles.
194
(ii) ImT ⋆ est fermée.
(iii) Il existe C > 0 tel que
195
20 Espaces de Hilbert, analyse convexe
Un produit scalaire définit sur H une structure d’espace vectoriel normé pour la norme
u 7−→ |u| = (u, u)1/2 .
Definition 20.2. (Espace de Hilbert)
On appelle espace de Hilbert un espace vectoriel muni d’un produit scalaire, et qui est complet
pour la norme associée.
Exemple 20.1. Tout espace de dimension finie munie d’un produit scalaire est un espace
de Hilbert (espace Euclidien). En dimension infinie, l’exemple le plus simple d’espace de
Hilbert de dimension infinie est l’espace ℓ2 des suites de carré intégrable. On peut définir par
extension une infinité de nouveaux espaces dits “à poids” en introduisant, pour γ = (γn ) une
suite quelconque de réels strictement positifs,
n X o
ℓ2γ = (un ) ∈ RN , γn |un |2 < +∞ .
Démonstration: On écrit que (u + tv, u + tv) est positif, pour tout t ∈ R, notamment pour
t = −(u, v)/ |v|2 qui réalise le minimum.
Démonstration. La propriété découle simplement du fait que la restriction d’un produit sca-
laire à un sous-espace est un produit scalaire, et qu’un sous-espace fermé d’un espace complet
est complet.
BH = {u ∈ H , |u| ≤ 1} .
196
Definition 20.6. (Séparabilité)
On dit qu’un espace de Hilbert H est séparable s’il existe un sous-ensemble de H dénombrable
et dense dans H.
Théorème 20.7. ( Projection sur un convexe fermé)
Soit H un espace de Hilbert et K un convexe fermé non vide de H. Pour tout z ∈ H, il
existe un unique u ∈ K (appelée projection de z sur K) tel que
On notera u = PK z.
un ∈ K , |z − un | −→ d = dist(z, K).
On écrit ensuite simplement que pour tout v ∈ K, l’inégalité |z − w|2 ≥ |z − u|2 est
vérifiée pour tout w du segment [u, v] (qu’on écrit w = u + t(v − u), t ∈ [0, 1]).
La démonstration du théorème précédent suggère que toute suite minimisante (un ) tend
nécessairement vers le minimiseur. L’exercice suivant précise cette propriété, en explicitant
la vitesse de convergence de la suite des minimiseurs en fonction de la vitesse de convergence
de |un − z| vers |u − z|.
Exercice 20.1. Soit H un espace de Hilbert, K un convexe fermé non vide de H, z ∈ H. On
note u la projection de z sur K. Montrer que
|v − u| ≤ |v − z| ∀v ∈ K.
197
Exercice 20.3. Soit H = ℓ2 et K l’ensemble des suites à termes positifs ou nuls. Exprimer la
projection d’un élément z = (zn ) sur K.
Remarque 20.9. On prendra garde que la projection sur un sous-espace vectoriel n’est en
général pas définie, car en dimension infinie les sous-espaces vectoriel peuvent ne pas être
fermés (considérer par exemple le sous-espace de ℓ2 des suites nulles au delà d’un certain
rang).
On peut vérifier que l’application de projection PK définie par le théorème précédent est
1-lipschitzienne
|PK f − PK g| ≤ |f − g|
(f − PK f, PK g − PK f ) ≤ 0,
(g − PK g, PK f − PK g) ≤ 0.
En additionnant, il vient,
198
Proposition 20.12. Soit H un espace de Hilbert et K un sous-espace vectoriel fermé de H.
Tout u de H s’écrit
u = PK u + PK ⊥ u.
Démonstration: On vérifie immédiatement que u−PK u vérifie les identités qui caractérisent
la projection de u sur K ⊥ .
(x − x0 , h) ≤ 0 < (z − x0 , h) ∀x ∈ K.
(x − x0 , h) = (x − u, z − u) + (u − x0 , h)
| {z } | {z }
≤0 =−|h|2 /2≤0
Tout espace de Hilbert peut s’identifier à son dual, comme l’exprime le théorème suivant.
199
Théorème 20.17. (Riesz-Fréchet)
Soit ϕ ∈ H ′ (dual topologique de H). Il existe f ∈ H unique tel que
hϕ , ui = (f, u) ∀u ∈ H. (20.4)
De plus, on a |f | = kϕkH ′ .
Démonstration: Si ϕ est la forme nulle, le résultat est immédiat. Dans le cas contraire,
on introduit K le noyau de ϕ. C’est un hyperplan fermé de H. On construit ensuite un h ∈
SH ∩K ⊥ . Pour celà on considère z ∈
/ K. D’après la caractérisation (20.3), on a (z−PK z, v) = 0
pour tout v ∈ K. Le vecteur
z − PK z
h=
|z − PK z|
convient donc. Pour finir on remarque que tout v ∈ H peut s’écrire
hϕ , vi hϕ , vi
v= h+ v− h = λh + w,
hϕ , hi hϕ , hi
avec w ∈ K. On a donc, pour tout v ∈ H (on prend le produit scalaire de l’identité précédente
avec h),
hϕ , vi = hϕ , hi (v, h)
d’où l’identité (20.4) avec f = hϕ , hi h. L’unicité d’un tel f est immédiate.
On prendra garde au fait que cette identification dépend du produit scalaire choisi.
200
Definition 20.20. (Coercivité d’une forme bilinéaire)
Soit a : H × H −→ R une forme bilinéaire. On dit que a est coercive s’il existe α > 0 tel
que
a(u, u) ≥ α |u|2 ∀u ∈ H.
Remarque 20.21. En dimension finie, et dans le cas où la forme est symétrique (a(u, v) =
a(v, u)), on retrouve la notion de forme symétrique définie positive. Le plus grand coefficient
α est alors la plus petite valeur propre de la matrice associée, et la plus petite constante kak
de la continuité sa plus grande valeur propre.
Remarque 20.22. On verra qu’il existe une définition plus générale de la coercivité (pour
des fonctionnelles quelconques, voir théorème 20.44), équivalente à la définition ci-dessus
dans le cas particulier des formes bilinéaires.
Proposition 20.23. Soit H un espace de Hilbert, et a une forme bilinéaire et continue sur
l’espace produit H × H. Pour tout u ∈ H, on note Au l’élément de H qui s’identifie à la
forme linéaire a(u, · ) :
(Au, v) = a(u, v) ∀v ∈ H.
L’application u 7−→ Au est linéaire et continue. De plus si a( · , · ) est coercive, alors l’appli-
cation A est une bijection.
Si a est coercive, on a (Au, u) = a(u, u) ≥ α |u|2 , et donc |Au| ≥ α |u| pour tout u dans
H. On vérifie que l’image est fermée en considérant une suite (Aun ) qui converge vers un
élément de l’image w. Comme (Aun ) converge, elle est de Cauchy, donc (un ) est également
de Cauchy d’après l’inégalité précédemment démontrée. Elle converge donc vers u ∈ H qui
vérifie Au = w par continuité de A. On a de plus, pour tout g ∈ H,
qui entraı̂ne g = 0 par coercivité de a. L’image de A est donc fermée et dense dans H : c’est
l’espace H lui-même. L’injectivité est une conséquence immédiate de la coercivité.
201
On verra que l’opérateur A est bicontinu (i.e. son inverse est lui-même continu), mais
cette propriété n’est pas utile pour démontrer le point essentiel de cette section, conséquence
directe de la proposition qui précède :
Théorème 20.25. (Lax-Milgram)
Soit H un espace de Hilbert, et a une forme bilinéaire continue et coercive sur H × H. Pour
tout ϕ ∈ H ′ , il existe un u ∈ H unique tel que
a(u, v) = hϕ , vi ∀v ∈ H. (20.5)
Si a est symétrique, u est l’unique élément de H qui réalise le minimum de la fonctionnelle
1
v 7−→ J(v) = a(v, v) − hϕ , vi.
2
202
L’identification établie ci-dessus permet de donner un sens à la notion de différentielle
d’une application à valeurs dans R en tant qu’élément de l’espace de Hilbert :
Definition 20.27. (Différentiabilité)
Soit J une application de H dans R, et u ∈ H. On dit que J est différentiable en u s’il existe
ϕ ∈ H ′ tel que l’on ait, pour h au voisinage de 0,
où ε : H −→ H est telle que ε(h) −→ 0 quand h −→ 0. Si un tel ϕ existe, on peut l’identifier
à un élément de H que l’on note J ′ (u). On dira que J est différentiable si elle admet une
différentielle en tout point, et que J est C 1 si l’application u 7−→ J ′ (u) est continue.
Comme précédemment H désigne un espace de Hilbert réel muni du produit scalaire (., .)
et de la norme | |.
Definition 20.28. (Convergence faible)
Soit (un ) une suite d’éléments de H. On dit que (un ) converge faiblement vers u dans H, et
on note un ⇀ u, si
(un , v) → (u, v) ∀v ∈ H,
ou de façon équivalente, si
Proposition 20.29. Soit (un ) une suite d’un espace de Hilbert H. Si un ⇀ u, alors (un ) est
bornée et |u| ≤ lim inf |un |.
Démonstration: On écrit
un ⇀ u =⇒ T un ⇀ T u.
203
Le résultat fondamental de cette section est le suivant.
Théorème 20.32. Soit (un ) une suite bornée dans un espace de Hilbert H. Alors on peut
extraire une sous-suite convergeant faiblement vers u dans H.
Démonstration: On raisonne d’abord dans le cas où H est séparable. Il existe donc une
famille dénombrable {xk }k∈N dense dans H. On se propose de suivre le procédé d’extraction
diagonale de Cantor.
1. Comme (un , x1 ) est bornée dans R on peut extraire une suite uj1 (n) telle que (uj1 (n) , x1 )
converge.
2. Comme (uj1 (n) , x2 ) est bornée dans R on peut extraire de uj1 (n) une suite uj1 ◦j2 (n)
telle que (uj1 ◦j2 (n) , x2 ) converge.
3. Par récurrence, on construit une suite de sous-suites emboitées uj1 ◦j2 ◦···◦jk (n) telle que
(uj1 ◦j2 ◦···◦jk (n) , xk ) converge, pour tout k.
4. On utilise à présent le procédé d’extraction diagonale : on pose ϕ(k) = j1 ◦j2 ◦· · ·◦jk (k)
(de telle sorte que ϕ est strictement croissante), et on considère uϕ(n) . Pour tout k, on
remarque que uϕ(n) , à partir du rang k, est aussi une suite extraite de (uj1 ◦j2 ◦···◦jk (n) ),
de telle sorte que (uϕ(n) , xk ) converge lorsque n → +∞.
5. On utilise ensuite la densité des xk . Pour tout x ∈ H, on montre que (uϕ(n) , x) est une
suite de Cauchy : soit ε > 0, il existe (xk ) tel que |x − xk | < ε. Comme (uϕ(n) , xk ) est
de Cauchy, il existe un N au-delà duquel (uϕ(p) , xk ) − (uϕ(q) , xk ) < ε. Pour tous p, q
supérieurs à N , on a donc
+ (uϕ(q) , xk ) − (uϕ(q) , x)
≤ M ε + ε + M ε = (1 + 2M )ε,
d’où h continue 109 sur H. D’après le théorème de Riesz-Fréchet, cette forme s’identifie
à un élément u de H. On a donc convergence faible de la suite extraite vers u.
Dans le cas où le Hilbert n’est pas séparable, on se place dans l’adhérence de l’espace
vectoriel engendré par les termes de la suite, qui est un espace de Hilbert séparable (pour le
même produit scalaire) par construction. La convergence faible vers un u de ce sous-espace
entraı̂ne la convergence faible dans H.
109. Remarquer qu’il n’est pas nécessaire ici d’utiliser le théorème de Banach–Steinhaus, du fait de l’hypothèse
(un ) bornée.
204
20.3 Somme Hilbertiennes, bases Hilbertiennes
(u, v) = 0 ∀u ∈ En , ∀v ∈ Em ∀m, n ∈ N , m 6= n.
Réciproquement, si l’on considère une suite (un ) avec un ∈ En pour tout n, et telle que |un |2
P
P P
converge, alors la série un converge, et sa limite u = un est telle que un = PEn u.
entraı̂ne, à la limite,
+∞
X
|u|2 = |un |2 .
n=1
Pk
Pour la réciproque, on utilise le caractère de Cauchy de la suite n=1 un , et la continuité des
opérateurs de projection.
205
Le théorème précédent permet d’introduire la notion de base Hilbertienne :
Definition 20.35. (Bases hilbertiennes)
Soit (en )n∈N une famille de vecteurs d’un espace de Hilbert H. On dit que (en ) est une base
Hilbertienne si
(i) |en | = 1 pour tout n ∈ N, et (em , en ) = 0 pour tous m, n, avec m 6= n.
(ii) L’espace vectoriel engendré par les (en ) est dense dans H.
Théorème 20.36. Tout espace de Hilbert séparable admet une base Hilbertienne.
Démonstration. Soit H un espace de Hilbert séparable 110 . On considère (fn )n∈N une famille
dense dans H. On note Fk l’espace vectoriel engendré par les k premiers vecteurs. L’espace
vectoriel engendré par les Fk est dense dans H. On peut construire la base Hilbertienne de
la façon suivante : si f1 est non nul, on prend f1 / |f1 | comme premier vecteur. Une base
orthonormale sur Fk étant construite, on complète par une base orthonormale sur Fk+1 si
nécessaire (si fk+1 ∈
/ Fk ). Sinon, on passe au rang suivant.
Commençons par définir un certain nombre de notions générales afférentes aux applica-
tions à valeurs dans R ∪ {+∞}.
Definition 20.37. (Domaine)
Soit E un ensemble et J une application de E dans R ∪ {+∞}. On appelle domaine de J
l’ensemble
D(J) = {x ∈ E , J(x) < +∞} .
Definition 20.38. (Semi-continuité inférieure)
Soit E un espace topologique, et J une application de E dans R ∪ {+∞}. On dit que J est
semi-continue inférieurement (s.c.i. en abrégé) si, pour tout λ ∈ R, l’ensemble
Eλ = {x ∈ E , J(x) ≤ λ}
est fermé.
Definition 20.39. (Convexité)
Soit E un espace vectoriel, et J une application de E dans R ∪ {+∞}. On dit que J est
convexe si
J(θx + (1 − θ)y) ≤ θJ(x) + (1 − θ)J(y) ∀x, y ∈ E ∀θ ∈]0, 1[,
ou, de façon équivalente, si l’ensemble (appelé épigraphe de J)
epi J = {(x, λ) ∈ E × R , J(x) ≤ λ} ,
est convexe.
206
Definition 20.40. (Coercivité)
Soit E un vectoriel normé, et J une application de E dans R ∪ {+∞}. On dit que J est
coercive si
lim J(x) = +∞.
kxk→+∞
1. On prend y1 = x1 .
2. Comme xn converge faiblement vers 0, il existe un indice ϕ(2) tel que
1
(y1 , xϕ(2) ) = |(y1 , y2 )| ≤
.
2
3. Par récurrence, on construit à partir des termes déjà construits y1 , y2 , . . ., yn−1 , le
n−ième terme yn tel que
1
|(yi , yn )| ≤ ∀i = 1, 2, . . . , n − 1.
n
On pose
n
1X
σn = yk .
n k=1
Montrons que σn tend (fortement) vers 0. On développe
n X n
1 X
|σn |2 = (yi , yj ),
n2 i=1 j=1
ce qui donne
n n k−1
! n
!
2 1 X 2
X X 1 2
X k−1
|σn | ≤ |yi | + 2 |(yℓ , yk )| ≤ 2 nM + 2
n2 i=1 k=1 ℓ=1
n k=1
k
1 2
M2 + 2
≤ nM + 2n = ,
n2 n
et donc σn → 0.
207
Exercice 20.7. Montrer que le résultat est faux en général si l’on supprime l’hypothèse de
convexité (donner par exemple une suite dans la sphère unité de ℓ2 qui converge faiblement
vers 0).
Démonstration: Soit L := lim inf J(xn ) (a priori, −∞ ≤ L ≤ +∞). Soit yn une suite
extraite telle que l’on ait
J(yn ) −→ L,
et telle que
n
1X
σn = yn −→ x.
n i=1
par semi–continuité inférieure de J, on a J(x) ≤ lim inf J(σn ). D’autre part, J étant convexe
n
1X
J(σn ) ≤ J(yn ) → L.
n i=1
J(xn ) → M := inf J.
K
Comme J est coercive, xn est bornée. Il existe donc une suite extraite yn telle que yn ⇀ x.
Comme K est un convexe fermé, x ∈ K, et
208
On remarquera que, pour le résultat concernant K, il suffit que J soit définie sur K. La
coercivité signifie que, ou bien K est borné, ou bien
A ⊂ A′ et A′ monotone =⇒ A′ = A.
Que se passe-t-il pour une fonction qui tend vers +∞ quand x tend vers a− , a ∈ R ?
209
Ce théorème assure l’existence et l’unicité de solution à des équations d’évolution qui ne
rentrent pas dans le cadre du théorème de Cauchy-Lipchitz.
Exemple 20.2. On considère l’opérateur
{−1} si x < 0,
ϕ : x ∈ R 7−→ [−1, 1] si x = 0,
{1} si x > 0,
Pour toute valeur initiale x0 , la solution unique rejoint 0 à vitesse constante de module 1,
puis y stationne.
Noter que si l’on prend l’opposé de cet opérateur, on perd l’unicité : partant de 0, on peut
aller vers la droite ou la gauche.
210
21 Équations différentielles ordinaires
Proposition 21.1. Soit ϕ et g deux fonctions continues sur l’intervalle [0, T ], toutes deux
positives sur cet intervalle. On suppose qu’il existe une constante C ≥ 0 telle que
Z t
ϕ(t) ≤ C + g(s)ϕ(s) ds ∀t ∈ [0, T ].
0
On a alors Z
t
ϕ(t) ≤ C exp g(s) ds ∀t ∈ [0, T ].
0
R
Démonstration: On suppose tout d’abord C > 0. La fonction z(t) = C + 0t g(s)ϕ(s) est
dérivable et de dérivée z ′ = gϕ ≤ gz. On a donc (on sait que z par définition ne s’annule pas)
z′
Z t Z t
≤ g =⇒ ϕ ≤ z(t) ≤ z(0) exp g(s) ds = C exp g(s) ds .
z 0 0
La proposition suivante permet d’obtenir, pour les systèmes dynamiques tels que ceux
étudiés au chapitre I, des estimations de meilleure qualité (sans le facteur à croissance expo-
nentielle).
Proposition 21.2. Soit ϕ et g deux fonctions continues sur l’intervalle [0, T ], toutes deux
positives sur cet intervalle. On suppose qu’il existe une constante C > 0 telle que
Z t q
ϕ(t) ≤ C + 2 g(s) ϕ(s) ds ∀t ∈ [0, T ].
0
On a alors √ Z 2
t
ϕ(t) ≤ C+ g(s) ds ∀t ∈ [0, T ].
0
211
Alors T admet un unique point fixe, c’est à dire qu’il existe x ∈ X tel que T (x) = x.
Proposition 21.6. On suppose que f est continue sur U × I et localement lipschitzienne par
rapport à la première variable. Alors f admet un cylindre de sécurité en tout point (x0 , t0 ) ⊂
U × I.
Démonstration: Montrons l’existence d’un cylindre de sécurité en (x0 , 0). La fonction f est
Lipschitzienne par rapport à la première variable sur un ensemble du type Bf (x0 , r) × [−τ, τ ].
Elle est donc notamment bornée par M > 0. On choisit η = min(τ, r/M ). Toute solution est
telle que Z t
kx(t) − x0 k = f (x(s), s) ds ≤ M t ≤ M η ≤ r,
0
ce qui assure que Bf (x0 , r) × [−η, η] est un cylindre de sécurité.
212
Remarque 21.7. Si E est un espace vectoriel de dimension finie, il suffit de supposer la
continuité par rapport au couple (x, t), qui assure l’uniforme continuité (et donc le caractère
borné) sur tout compact Bf (x0 , r) × [t0 − τ, t0 − τ ], d’où l’existence d’un cylindre de sécurité.
Definition 21.8. (Solution maximale)
On appelle solution maximale du problème de Cauchy (21.1) une fonction t 7→ x(t) ∈ E
définie sur un intervalle J ⊂ I, solution de (21.1), et qui ne peut pas être prolongée sur
un intervalle de temps plus grand, ce que l’on peut exprimer de la manière suivante : si
t 7→ y(t) ∈ U est solution de (21.1) sur J ′ , et s’identifie à x sur J ∩ J ′ , alors nécessairement
J ′ ⊂ J.
Théorème 21.9. (Cauchy-Lipschitz)
On considère une donnée de Cauchy (x0 , t0 ) ∈ U × I (avec U ouvert du Banach E et I ⊂ R
intervalle ouvert, et on suppose que la fonction f , définie de U × I dans E, est continue sur
U × I et localement Lipschitzienne par rapport à la première variable. Alors le problème de
Cauchy (21.1) admet une unique solution maximale définie sur J ⊂ I.
213
21.3 Comportement des solutions
Démonstration: On a
Z t Z t
ky(t) − x(t)k = y0 − x0 + (f (y(s), s) − f (x(s), s)) ≤ ky0 − x0 k + k ky(s) − x(s)k
t0 t0
Le lemme de Gronwall 21.1 assure l’inégalité anoncée.
Démonstration: D’après la proposition 21.10, les solutions maximales ne sont définies sur
un sous-intervalle strict que si |x| tend vers +∞. Or (on considère ici t > t0 pour simplifier)
Z t
kx(t)k ≤ kx0 k + B(t − t0 ) + A kx(s)k
t0
D’après le lemme de Gronwall 21.1 appliqué à ϕ(t) = kx(t0 + t)k , on ne peut donc avoir
divergence de |x| vers +∞ en temps fini.
214
21.5 Points fixes, stabilité
Le théorème suivant donne une condition suffisante de stabilité asymptotique, ainsi qu’une
condition suffisante de non stabilité, pour un point d’équilibre dans le cas autonome dans RN .
Théorème 21.15. On se place dans RN . Soit x0 un point fixe de l’équation ẋ = f (x). On
suppose f continûment différentiable dans un voisinage de x0 , et l’on introduit le gradient
!
∂fi
∇f =
∂xj 1≤i,j≤N
1. Si toutes les valeurs propres de ∇f sont de parties réelles strictement négatives, alors
le point x0 est asymptotiquement stable.
2. Si l’une (au moins) des valeurs propres a une partie réelle strictement positive, alors
x0 n’est pas stable.
Exemple 21.1. Dans le cas où les parties réelles des valeurs propres sont nulles, tous les cas
peuvent se produire, comme l’illustre la situation suivante. On considère le flot dans R2 associé
à !
−x2 + α |x|2 x1
f (x) =
x1 + α |x|2 x2
Notons en premier lieu que pour tout α réel, le gradient de f a des valeurs propres imaginaires
pures (i et −i). Dans le cas α = 0, le point fixe x0 = 0 est stable (mais non asymptotiquement
stable). Pour α > 0, le point est instable, et pour α < 0, le point est asymptotiquement stable.
Proposition 21.16. Soit ϕ une fonction C 1 de RN dans R. On note W = {x , ϕ(x) ≤ 0},
et l’on considère une fonction f définie sur U × R, qui vérifie les hypothèses du théorème de
Cauchy Lipschitz, avec W ⊂ U . Si
alors les trajectoires à droite (vers les temps positifs) du problème de Cauchy-Lipschitz asso-
ciées aux données (x0 , t0 ) avec x0 ∈ W sont dans W .
Corollaire 21.17. Dans les hypothèses de la proposition précédentes, si l’on suppose de plus
W compact, la solution est définie sur tout [t0 , +∞[.
215
Definition 21.18. (Fonction de Lyapunov)
On considère un point d’équilibre de l’équation autonome ẋ = f (x) dans RN , c’est-à-dire un
point x0 tel que f (x0 ) = 0. On appelle fonction de Lyapunov pour x0 une fonction ϕ continue
sur un voisinage V de x0 , continûment différentiable sur V \ {x0 }, et telle que
1. x0 est un minimum strict de ϕ sur V ,
2. ∇ϕ(x) · f (x) ≤ 0 pour tout x ∈ V \ {x0 },
Proposition 21.19. Si le point fixe x0 admet une fonctionnelle de Lyapunov, alors il est
stable. Si la fonctionnelle peut être choisie de telle sorte que l’inégalité (ii) est stricte (pour
x 6= x0 ), alors x0 est asymptotiquement stable.
Démonstration: Soit ε > 0, suffisamment petit pour que B(x0 , ε) soit dans V . Le minimum
de ϕ sur la sphère est atteint, il est donc strictement plus grand que la valeur en x0 . On
choisit β compris strictement entre ces deux valeurs, et l’on introduit
W = ϕ−1 (] − ∞, β[) ∩ B(x0 , ε).
C’est un ouvert qui contient x0 , il contient donc une boule B(x0 , η). Pour toute condition
initiale dans cette boule, la trajectoire reste dans B(x0 , ε), car ϕ(x(t)) est décroissant, donc
reste inférieur à β, donc ne peut s’approcher de la frontière de B(x0 , ε).
On suppose maintenant l’inégalité est stricte. On considère une trajectoire t 7→ y(t) issue
de y(0) ∈ B(x0 , η). Comme ϕ(y(t)) est décroissante, elle converge vers une limite ℓ. Si ℓ est
le minimum de ϕ sur V , alors toute valeur d’adhérence x de la trajectoire vérifie ϕ(x) = ℓ,
d’où x = x0 , et on a convergence de la trajectoire (qui est incluse dans le compact B(x0 , ε))
vers x0 . Si la limite est strictement supérieure à ce minimum, on considère l’ensemble
A = ϕ−1 ([β, +∞[) ∩ B(x0 , ε).
Cet ensemble est compact car fermé borné. La fonction
x 7−→ ∇ϕ(x) · f (x)
y atteint donc son maximum, qui est strictement négatif d’après l’hypothèse :
∇ϕ(x) · f (x) ≤ α < 0 ∀x ∈ A.
La trajectoire considérée étant incluse dans A, on a
d
ϕ(y(t)) = ∇ϕ(y(t)) · f (y(t)) ≤ α < 0,
dt
d’où l’on déduit que ϕ(y(t)) tend vers −∞, ce qui est absurde.
21.6 Compléments
216
Cette application est définie sur
[
{(x0 , t0 )} × I(x0 ,t0 )
(x0 ,t0 )∈U ×I
où I(x0 ,t0 ) est l’intervalle de définition de la solution maximale associée à la donnée de Cauchy
(x0 , t0 ).
217
22 Espaces de Sobolev
Proposition 22.2. L’espace L2 (Ω) est un espace de Hilbert pour le produit scalaire
Z
(u, v) = u(x)v(x) dx,
Ω
où k est une fonction mesurable telle que 0 < m ≤ k(x) ≤ M presque partout.
Démonstration: Le fait que cette forme bilinéaire soit bien définie sur L2 × L2 est consé-
quence directe de l’inégalité de Cauchy-Schwarz. Il s’agit alors de montrer que L2 est bien
complet pour la norme associée. Pour cela on considère une suite de Cauchy, on montre par
un argument de convergence monotone que la suite converge presque partout vers une limite,
que la limite appartient bien à L2 , et que l’on a bien convergence pour la norme L2 vers cette
limite. On trouvera une démonstration détaillée dans [2], page 57.
ρn ⋆ f −→ f dans L2 (RN ).
Remarque 22.5. Toute fonction f de L2 (Ω) peut être prolongée par 0 à RN tout entier.
On peut donc appliquer ce qui précède. Les propriétés de convergence énoncées ci-dessus
s’appliquent ainsi à la restriction de ρn ⋆ f à Ω.
218
Definition 22.6. On note D(Ω) l’espace des fonctions C ∞ à support compact dans Ω. On
vérifie que cet espace est non vide en considérant une boule ouverte B(a, r) dont l’adhérence
est dans Ω, et la fonction
!
1
ϕ(x) = exp si x ∈ B(a, r) , ϕ(x) = 0 si x ∈
/ B(a, r).
|x − a|2 − r 2
Proposition 22.7. L’espace D(Ω) est dense dans L2 (Ω).
Remarque 22.8. L’appartenance à L2 n’exige aucune régularité en espace (aucune ”corrél-
ation spatiale” n’est exigée). En particulier, si l’on considère une partition de Ω sous la forme
Ω = Ω1 ∪ Ω2 , Ω1 ∩ Ω2 = ∅, où les Ωi sont des ouverts tels que ∂Ω1 ∩ ∂Ω2 est de mesure nulle,
pour toutes fonctions fi ∈ L2 (Ωi ), la fonction f dont la restriction à Ωi est fi est dans L2 (Ω).
Nous verrons qu’une telle construction par morceaux d’une fonction est en général impossible
pour les espaces de Sobolev.
On notera H 1 (Ω)N l’espace des champs de vecteurs dont chaque composante appartient
à H 1 (Ω). Le gradient ∇u est alors une matrice dont la ligne i est le gradient de la i-ème
composante de u.
Proposition 22.11. L’espace H 1 (Ω) muni de la norme k · k définie par
Z Z
kvk2 = u2 + |∇u|2
Ω Ω
219
Démonstration: On construit pour cela une isométrie entre H 1 (Ω) et un sous-espace fermé
de L2 (Ω) × L2 (Ω)N . Voir [2, Prop. IX.1].
Notation: On désignera par |u|0,Ω la norme L2 de u sur Ω (nous omettrons Ω quand il n’y
a pas d’ambigüité), et par |u|1,Ω la semi norme H 1 :
Z
|u|21,Ω = |∇u|2 ,
Ω
En dimension 1, une fonction peut s’écrire comme intégrale de sa dérivée, comme le précise
la proposition suivante.
Proposition 22.14. Soit I un intervalle de R. Toute fonction u ∈ H 1 (I) admet un repré-
sentant continu ũ, qui vérifie
Z y
ũ(x) = u(x) p.p. sur I , ũ(y) − ũ(x) = u′ (t) dt.
x
Cette fonction continue sur I est prolongeable par continuité aux extrémités de I.
Proposition 22.15. Soit u une fonction de L2 (Ω). Les assertions suivantes sont équiva-
lentes :
(i) u ∈ H 1 (Ω).
(ii) Il existe une constante C telle que
Z
u∇ϕ ≤ C kϕkL2 ∀ϕ ∈ D(Ω).
Ω
(iii) Il existe une constante C telle que, pour tout ω ⊂⊂ Ω, pour tout h tel que |h| <
dist(ω, Ωc ),
kτh u − ukL2 (ω) ≤ C |h| .
(ii) =⇒ (i) Pour i entre 1 et N , on considère la forme linéaire définie sur Cc∞ ⊂ L2 (Ω)
Z
ϕ 7−→ v∂xi ϕ.
Ω
220
Cette forme linéaire est continue pour la norme L2 par hypothèse. Elle se prolonge donc par
densité de Cc∞ (Ω) en une forme linéaire continue sur L2 (Ω). Le théorème de représentation
de Riesz-Fréchet assure donc l’existence de wi ∈ L2 (Ω) tel que
Z Z
v∂xi ϕ = − wi ϕ,
Ω Ω
(i) =⇒ (iii) Soit ω ⊂⊂ Ω, et h < dist(ω, Ωc ). On considère dans un premier temps une
fonction u régulière (u ∈ D(Ω)). On a
Z 1
u(x + h) = u(x) + ∇u(x + th) · h dt,
0
d’où Z 1
|u(x + h) − u(x)|2 ≤ |h|2 |∇u(x + th)|2 ,
0
et donc
Z Z Z 1 Z 1Z
|τh u − u(x)|2 ≤ |h|2 |∇u(x + th)|2 ≤ |h|2 |∇u(x + th)|2 .
ω ω 0 0 ω
On choisit maintenant ω ′ fortement inclus dans Ω, qui contient tous les translatés de ω par
th, pour t ∈ [0, 1]. On a Z
kτh u − ukL2 ≤ |h| |∇u|2 .
ω′
On conclut en utilisant la propriété de densité 22.17.
(iii) =⇒ (ii) Soit ϕ ∈ Cc∞ (Ω), et ω ⊂⊂ Ω qui contient le support de ϕ. Pour tout h tel
que h < dist(ω, Ωc ), on a
Z
(τh u − u)ϕ ≤ C kϕkL2 (ω) |h| ≤ C kϕkL2 (Ω) |h| .
ω
D’autre part,
Z Z Z
(u(x + h) − u(x))ϕ(x) = (u(x + h) − u(x))ϕ(x) = u(y)(ϕ(y − h) − ϕ(y)).
ω Ω Ω
Notation: On dit que ω est fortement inclus dans Ω si ω est compact et inclus dans Ω. On
note ω ⊂⊂ Ω.
221
Proposition 22.17. Pour tout ω ⊂⊂ Ω, tout u ∈ H 1 (Ω), il existe une suite (un ) dans D(Ω)
telle que
un −→ u dans L2 (Ω) , ∇un −→ ∇u dans L2 (ω)N .
Corollaire 22.18. Soit (ωn ) une suite de domaines fortements inclus dans Ω, et u ∈ H 1 (Ω).
Il existe une suite (un ) dans D(Ω) telle que
Definition 22.19. On définit H01 (Ω) comme l’adhérence de D(Ω) dans H 1 (Ω).
Par rapport à H01 , l’espace H 1 peut se décrire comme l’ensemble des fonctions L2 de
gradient L2 qui peuvent “prendre des valeurs non nulles sur le bord”. Cette expression ne
pourra se voir donner un cadre mathématique précis qu’après que l’on aura défini la notion
de régularité du bord (voir, section 22.3, la définition de l’opérateur trace sur le bord γ0 ).
On peut néammoins dès maintenant donner un sens abstrait à la notion de valeur au bord,
sans faire aucune hypothèse sur la géométrie de Ω. Par analogie avec l’espace des traces des
fonctions de H 1 dans le cas d’un bord régulier (voir définition 22.31), nous noterons H̃ 1/2
l’espace abstrait correspondant.
Definition 22.20. On définit l’espace H 2 (Ω) comme l’ensemble des fonctions de H 1 (Ω)
dont toutes les dérivées partielles par rapport à l’une des composantes sont elles-mêmes dans
H 1 (Ω). C’est un espace de Hilbert muni de la norme
2 2
X ∂u X ∂2u
kuk2H 2 (Ω) = |u|20 + + = |u|20,Ω + |u|21,Ω + |u|22,Ω .
i
∂xi 0 i,j
∂xi ∂xj 0
On peut définir de façon analogue les espaces H m (Ω) pour m = 3, 4, . . ., mais nous
n’utiliserons ici que m ≤ 2.
Definition 22.21. (Espace Hloc m)
m (Ω)
Soit m un entier positif (on utilisera le cas m = 2 dans la suite). On définit l’espace Hloc
comme l’espace vectoriel des (classes de) fonctions de Ω dans R dont la restriction à ω est
dans H m (ω), pour tout ω fortement inclus dans Ω. De façon équivalente, c’est l’ensemble des
fonctions u de Ω dans R telles que θu est dans H m (Ω) pour tout θ dans D(Ω).
m permet de parler de ses dérivées m-ièmes
Noter que l’appartenance d’une fonction à Hloc
comme de fonctions (mesurables) définies sur Ω. On donne ainsi un sens à des expressions
du type ∂ m u/∂xm 2
i = g presque partout dans Ω, où g est une fonction de Lloc .
22.3 Traces
222
fonction à ∂Ω. Dans le contexte présent, nous avons vu que les fonctions de H 1 (Ω) ne sont
pas nécessairement continues, et ne sont définies a priori que comme des classes de fonctions
(à un ensemble de mesure nulle près). La frontière d’un ouvert régulier étant de mesure nulle,
la notion de restriction n’a pas de sens. Nous allons montrer ici qu’il est possible de donner un
sens précis à cette notion de trace, dès que les fonctions que l’on considère ont une régularité
suffisante en espace.
Noter que, d’après la définition de H01 , on a aussi kũkH 1 /H 1 = inf h∈D(Ω) ku − hkH 1 .
0
soit strictement inclus dans D(RN )). L’espace quotient défini précédemment est alors l’espace
trivial {0}. C’est le cas par exemple de R2 privé d’un point, ou de R3 privé d’un point ou
d’une droite (voir l’exercice 22.1 ci-après sur la notion de capacité).
1) Calculer la capacité CrR d’une boule de rayon r vis-à-vis d’une boule de rayon R, dans
Rn pour n = 1, n = 2, et n = 3.
2) Préciser la limite de cette capacité lorsque le rayon intérieur r tend vers 0, à R > 0
fixé.
Proposition 22.24. Soit u ∈ H01 (Ω). On définit ũ comme la fonction qui vaut u(x) pour
tout x ∈ Ω, et qui prend la valeur 0 à l’extérieur de Ω. Alors ũ ∈ H 1 (RN ).
Démonstration: Tout d’abord remarquons que ũ est dans L2 (RN ). Par définition de H01 , u
est limite d’une suite (un ) de fonctions C ∞ à support compact dans Ω. Pour tout ϕ ∈ D(RN ),
on a
Z Z Z
ũ∇ϕ = u∇ϕ = lim un ∇ϕ
RN Ω n→+∞ Ω
Z Z Z
= − lim ϕ∇un = − ϕ∇u = − ϕv.
n→+∞ Ω Ω RN
223
Qρh
x′
ρ
xN = ϕ(x′ )
h
xN
Dans cette section nous précisons les propriétés qui vont nous permettre de définir des
valeurs au bord pour des fonctions appartenant aux espaces de Sobolev introduits précédem-
ment. On se reportera à [6] ou [2] pour les démonstrations détaillées.
Dans la définition qui suit, “X” représente une régularité fonctionnelle du type C o , Lipschitz,
C k , etc...
Definition 22.25. Soit Ω un ouvert de RN . On dit que la frontière de Ω est de classe X si
en tout point a ∈ ∂Ω, il existe un système de coordonnées et ρ, h > 0, tels qu’il existe une
application n o
ϕ : x′ ∈ RN −1 , x′ < ρ −→ R
de classe X telle que
(ii) ϕ(0) = 0,
224
On note D(Ω) l’ensemble des restrictions des fonctions de D(RN ) à Ω.
Démonstration: Voir Brezis [2, Th. IX.7] dans le cas d’un ouvert C 1 . L’ingrédient principal
de la démonstration est le prolongement par réflexion dont nous indiquons ici le principe dans
le cas N = 1. On considère u ∈ H 1 (]0, 1[), et l’on construit ũ comme la fonction qui s’identifie
à u sur ]0, 1[, et telle que ũ(x) = u(−x) sur ] − 1, 0[. La fonction ũ est dans L2 (] − 1, 1[), et sa
dérivée ũ′ est définie presque partout sur ] − 1, 1[ (avec ũ′ (−x) = −u′ (x) pour x > 0. Nous
allons montrer que cette fonction ũ′ est bien la dérivée de u au sens de Sobolev sur ] − 1, 1[.
Pour toute fonction-test ϕ ∈ D(] − 1, 1[), si l’on note ϕ̃(x) = ϕ(−x), on a
Z 1 Z 0 Z 1 Z 1 Z 1 Z 1
′ ′ ′ ′ ′
uϕ = uϕ + uϕ = − uϕ̃ + uϕ = u(ϕ − ϕ̃)′ .
−1 −1 0 0 0 0
Notons ψ = ϕ − ϕ̃. On ne peut pas utiliser l’appartenance de u à H 1 (]0, 1[) car ψ n’est pas à
support compact dans ]0, 1[. On se ramène à une fonction à support compact en introduisant,
pour ε > 0, la fonction x 7−→ ηε (x) = η(x/ε), où η est une fonction C ∞ sur R+ , nulle sur
[0, 1/2] et sur [1, +∞[. La fonction ψε = ηε ψ est dans D(]0, 1[). On a d’une part
Z 1 Z 1 Z 1 Z 1
uψε′ = − ψε u′ −→ − ψu′ = − ϕũ′ ,
0 0 0 −1
et d’autre part Z Z Z
1 1 1
uψε′ = ηε ψ ′ u + ηε′ ψu.
0 0 0
Le second terme se majore (en utilisant ψ(x) = O(x) et |ηε′ | ≤ C/ε),
Z Z Z
1 ε 1 ε √
ηε′ ψu = ηε′ ψu ≤ Cε |u| ≤ C ε.
0 0 ε 0
R1 R1
d’où 0 uψε′ −→ 0 ψ ′ u,
On a donc ũ ∈ H 1 (] − 1, 1[).
Proposition 22.28. Soit Ω un ouvert de frontière Γ Lipschitzienne. Alors D(Ω) est dense
dans H 1 (Ω).
Démonstration: On se limite ici à une démonstration dans le cas du demi espace RN −1 ×R+
(pour lequel le résultat est vrai malgré le caractère non borné), et l’on se reportera à [2] pour
225
une démonstration plus complète. On peut se limiter à des fonctions régulières nulles pour
xN ≥ 1. Pour une telle fonction, on a
Z 0
′
ϕ(x , 0) = ∂N ϕ,
1
d’où Z Z Z 2 Z Z
0
ϕ(x′ , 0)2 = ∂N ϕ ≤ |∂N ϕ|2 ≤ |∇u|2 .
RN−1 RN 1 RN RN
Remarque 22.30. On notera que seul le contrôle sur la dérivée dans la direction verticale
(normale à la frontière) a été utilisé dans la démonstration précédente. La rigidité transverse
(selon RN −1 dans le cas précédent) va conditionner la régularité de la trace (dont on peut
montrer qu’elle est strictement plus régulière que L2 ).
Remarque 22.32. L’espace H 1/2 peut se définir sur l’espace entier par la transformée de
Fourier (voir définition ??), puis par cartes locales sur une variété régulière. Il est essentiel
de garder à l’esprit que l’inclusion de H 1/2 est stricte. En particulier, l’appartenance à H 1/2
exclut les discontinuités franches (voir remarque 22.32, page 226).
Proposition 22.33. L’espace H01 (Ω) est constitué des fonctions de H 1 (Ω) dont la trace sur
∂Ω est nulle.
Noter que l’on n’utilise pas ici la densité de D(Ω) dans H 2 (Ω) (qui, de fait, n’est pas
exigée).
226
Proposition 22.36. (Première formule de Green)
Soit Ω un ouvert borné de frontière Γ Lipschitzienne. Pour tous u et v dans H 1 (Ω), on a
Z Z Z
v∇u = − u∇v + uvn.
Ω Ω Γ
où les Ωi sont des ouverts de frontière lipschitzienne, inclus dans Ω, deux à deux disjoints.
On note Γij = Ωi ∩ Ωj . Soit u une fonction définie sur Ω, dont la restriction ui à Ωi est dans
H 1 (Ωi ) pour tout i = 1, . . . , p. On suppose que pour tous i, j tels que Γij 6= ∅ les traces de ui
et uj sur Γij s’identifient. Alors u est dans H 1 (Ω).
où ni (resp. nj ) est la normale à Γij sortante au domaine Ωi (resp. Ωj ), de telle sorte que
ni + nj = 0. On a donc bien u ∈ H 1 (Ω) avec ∇u = v.
Remarque 22.39. On prendra garde au fait que (on reprend les notation du théorème précé-
dent), même si u est dans H 2 (Ωi ) pour tout i, le raccord des traces sur les interfaces ne suffit
pas pour assurer l’appartenance de u à H 2 (Ω). Cette remarque est à la base des difficultés que
l’on peut avoir à approcher une fonction sur un maillage qui ne respecte pas la géométrie.
22.4 Injections
Théorème 22.41. Soit Ω un domaine borné de frontière Lipschitzienne. Alors, pour tout
entier m > N/2, H m (Ω) s’injecte de façon continue dans C 0 (Ω). En particulier les fonctions
de H 2 (Ω) sont continues pour les dimensions physiques N = 1, 2, ou 3.
227
On retrouve notamment le fait déjà énoncé que les fonctions de H 1 (I), où I est un inter-
valle réel, sont continues. En revanche, le théorème ne s’applique pas à H 1 (Ω) en dimension
2. Il existe effectivement des fonctions de H 1 (R2 ) qui ne sont pas continues.
On notera également qu’une fonction de H 2 (Ω) est continue sur Ω, sans hypothèse de
régularité, car tout x ∈ Ω est dans une boule incluse dans Ω. En l’absence de régularité du
bord, il est en revanche possible que l’on n’ait pas kuk∞ ≤ C kukH 2 .
Exercice 22.2. Montrer que l’injection de H 1 (Ω) dans L2 (Ω) n’est jamais compacte quand Ω
n’est pas borné.
228
On a donc
Z Z Z L Z L
2
u ≤ L |∇u|2
Ω RN−1 0 0
Z Z L Z
≤ L2 |∇u|2 = |∇u|2 .
RN−1 0 Ω
Remarque 22.44. On appelle constante de Poincaré du domaine Ω le plus petit réel CΩ tel
que l’inégalité ci-dessus est vérifiée. On a
Z
|∇u|2
1
= inf ZΩ .
CΩ2 u6=0
|u|2
Ω
On peut ainsi montrer 1/CΩ2 = λ1 , où λ1 est la plus petite valeur propre du Laplacien avec
conditions de Dirichlet, c’est-à-dire le plus petit réel tel qu’il existe u ∈ H01 (Ω) non nul
vérifiant 112
−△u = λu.
La proposition précédente assure λ1 ≥ 1/L2 , pour tout domaine Ω inclus dans une bande
d’épaisseur L.
Corollaire 22.45. Soit Ω un domaine de RN borné dans une direction. Alors la forme
bilinéaire Z
(u, v) 7−→ ∇u · ∇v
Ω
est un produit scalaire sur H01 (Ω), qui induit une norme équivalente à la norme de départ.
L’inégalité de Poincaré énoncée ci-dessus est un cas particulier d’une inégalité plus géné-
rale :
Démonstration: On raisonne par l’absurde. Si la propriété est fausse, alors pour tout n on
peut construire un ∈ H 1 (Ω) tel que
229
On peut choisir un tel que kun k = 1. La suite un étant bornée dans H 1 , on peut en extraire une
sous-suite (que nous noterons toujours (un )) qui converge fortement dans L2 (Ω) (l’injection
de H 1 (Ω) dans L2 (Ω) étant compacte), vers u ∈ L2 (Ω)). Comme la suite (∇un ) tend vers
0 dans L2 , elle est de Cauchy, et par suite (un ) est de Cauchy dans H 1 . Elle converge donc
dans H 1 vers une limite, qui est nécessairement la limite u dans L2 . Comme T un tend vers
0, on a nécessairement T u = 0. D’autre part, comme (∇un ) → 0, on a ∇u = 0, et ainsi u
est constante sur Ω (voir proposition 22.13, page 220). Comme T u = 0, cette constante est
nulle, ce qui est absurde car kuk = lim kun k = 1
|u|0 ≤ C |∇u|0 ∀u ∈ V.
Remarque 22.48. Ce corollaire s’appliquera notamment au cas où V est un espace de fonc-
tions qui s’annulent sur une partie de la frontière de mesure non nulle. Sur un tel espace,
|u|1 est une norme équivalent à la norme H 1 .
Nous présentons dans cette section des résultats classiques d’existence et d’unicité de
solutions pour le problème de Poisson.
où f est une fonction de L2 (Ω) donnée. On parlera du problème de Poisson dans le domaine
Ω.
230
Démonstration: C’est une application directe du théorème de Lax-Milgram, avec
Z Z
a(u, v) = ∇u · ∇v , hϕ , vi = f v.
Ω Ω
Noter que la forme bilinéaire a( · , · ) est bien coercive grâce à l’inégalité de Poincaré (propo-
sition 22.43, page 228).
On considère maintenant des conditions au bord de type Neumann. Comme ces conditions
ne font intervenir que les dérivées, comme l’opérateur de Laplacien lui-même, le problème
de Poisson avec de telles conditions est évidemment mal posé (si l’on ajoute une fonction
constante, qui est bien dans H 1 (Ω) dès que Ω est borné, à n’importe quelle solution, on
obtient bien une autre solution). On verra à la fin de cette section que ce problème est
pourtant bien posé dans un certain espace, sous réserve que f vérifie une certaine condition.
Dans un premier temps, nous utilisons un moyen élémentaire de contourner ce problème,
qui consiste à rajouter au Laplacien un terme d’ordre 0. On s’intéressera donc au problème
suivant
u − △u = f dans Ω
∂u (22.3)
= 0 sur ∂Ω,
∂n
où f est donnée.
Definition 22.51. On appellera solution classique (dans le cas où f est au moins continue)
une fonction de C 2 (Ω) qui vérifie le système ci-dessus, et solution faible une fonction de
H 1 (Ω) telle que Z Z Z
uv + ∇u · ∇v = fv ∀v H 1 (Ω). (22.4)
Ω Ω Ω
L’existence et l’unicité d’une solution faible est immédiate sans qu’il soit nécessaire de
faire des hypothèses sur le domaine, comme le précise la proposition ci-dessous. Il est en
revanche délicat de préciser en quel sens une solution faible est solution de (22.3), car la
dérivée normale n’est en général pas définie sur le bord.
Proposition 22.52. Soit f ∈ L2 (Ω). Alors le problème 22.3 admet une unique solution
faible. Cette solution faible est l’élément de H01 (Ω) qui minimise la fonctionnelle
Z Z Z
1 2 1 2
v−
7 → |v| + |∇v| − f v.
2 Ω 2 Ω
Nous abordons maintenant le problème de régularité des solutions faibles construites pré-
cédemment. Il s’agit notamment de déterminer si l’équation de départ est vérifiée comme
231
identité entre fonctions mesurables (auquel cas il est licite de préciser presque partout), ou
dans un sens plus faible. On considère ainsi des équations aux dérivées partielles du type
−△u = f , u − △u = f ou − ∇k · ∇u = f,
P
où △ est le Laplacien △ = ∂ 2 /∂x2i , k est un champ scalaire régulier tel que 0 < m ≤
k(x) ≤ M < +∞.
Proposition 22.53. Soit Ω un domaine de RN et u ∈ H 1 (Ω). On suppose qu’il existe
f ∈ L2 (Ω) tel que Z Z
∇u · ∇ϕ = f ϕ ∀ϕ ∈ D(Ω).
Ω Ω
Alors u est dans H2loc (Ω) et vérifie
−△u = f p.p.
Démonstration: On suppose dans un premier temps que Ω est l’espace RN tout entier.
Comme D(Ω) est alors dense dans H 1 (Ω), la formulation variationnelle est vérifiée pour
toute fonction test de H 1 (Ω), en particulier les fonctions-test particulières que nous allons
construire à partir de u. Pour h ∈ RN , on introduit
1
Dh u = (τh u − u) ,
|h|
et l’on écrit la formulation variationnelle avec v = D−h Dh u. Il vient
Z Z
1
∇u · ∇v = ∇u · (τh ∇u − 2∇u + τ−h ∇u) .
RN |h|2 RN
On peut écrire
Z Z
∇u · (−∇u + τ−h ∇u) = τh ∇u · (−τh ∇u + ∇u) ,
RN RN
d’où finalement
Z
|Dh ∇u|2 ≤ kf kL2 kD−h Dh ukL2 ≤ kf kL2 k∇Dh ukL2 = kf kL2 kDh ∇ukL2 ,
RN
pour tout h ∈ RN . On a donc kDh ∂i ukL2 uniformément borné, et donc, toujours d’après la
proposition 22.15, ∂i u ∈ H 1 (RN ) pour tout i = 1, . . . , N .
avec g ∈ L2 (RN ). La fonction θu est donc dans H 2 (RN ) d’après ce qui précède. On a donc
2 (Ω).
bien u ∈ Hloc
232
Proposition 22.54. On suppose Ω borné dans une direction. Soit f un élément de L2 (Ω). La
2 (Ω)
solution faible u ∈ H01 (Ω) de (22.2)) avec conditions de Dirichlet homogènes est dans Hloc
et vérifie
−△u = f p.p.
Démonstration: L’appartenance à Hloc 2 (Ω) est assurée par la proposition 22.53. On se re-
portera à Brezis [2, Th. IX.25] pour une étude détaillée de la régularité près du bord. La
démonstration, très technique, utilise des changements de variables permettant de se ramener
au cas d’une frontière hyperplane. Pour ce dernier cas, la régularité jusqu’au bord est démon-
trée selon une méthode de translation analogue à celle utilisée dans la proposition 22.53, les
translations étant effectuées parallèlement au bord considéré.
Proposition 22.56. Les conclusions du théorème ci-dessus sont valides si l’on suppose le
domaine polyédrique et convexe.
Proposition 22.57. Les conclusions du théorème ci-dessus s’appliquent à l’équation
−∇ · k∇u = f,
où k est une fonction C 1 de la variable d’espace sur Ω, minorée par une constante
Remarque 22.58. Le cas de conditions aux limites panachées (Dirichlet sur une partie du
bord, Neumann sur une autre) et très délicat. Nous admettrons que le passage d’un type de
condition à l’autre ne pose pas de problème lorsque les deux composantes de la frontière se
rencontrent à angle droit. On trouvera dans Costabel 113 une analyse détaillée de la régularité
dans ce type de situation, en fonction de l’angle du raccord entre les composantes.
u − △u = f,
avec conditions aux limites de Dirichlet, tout ce qui a été dit précédemment reste valable, sans
que l’on ait besoin de l’hypothèse que Ω soit borné dans une direction pour assurer l’existence
et l’unicité d’une solution faible.
Proposition 22.60. Soit Ω un domaine de frontière C 2 et bornée, et f un élément de L2 (Ω).
La solution de (22.4) appartient à H 2 , et sa dérivée normale est nulle sur Γ = ∂Ω.
113. M. Costabel, M. Dauge, Edge singularities for elliptic boundary value problems, Journées équations aux
dérivées partielles, 1992, pp. 1–12.
[Link]
233
22.8 Espaces de Sobolev et transformation de Fourier
On peut définir les espaces de Sobolev l’aide de la transformée de Fourier. Cette approche
est particulièrement adaptée aux problèmes posés sur l’espace tout entier, ou en géométrie
périodique, ce qui la place un peu en marge de cet ouvrage dont l’un des objectifs est pré-
cisément la prise en compte de géométries complexes en domaines bornés. Nous indiquons
néammoins ici certains éléments de cette approche, qui permet notamment de bien com-
prendre le théorème de Rellich, qui est à la base de l’analyse de la méthode des éléments
finis.
Definition 22.61. Soit u ∈ L2 (RN ). On définit sa transformée de Fourier comme la fonction
définie par Z
1
ũ(ξ) = e−iξ · x u(x) dx.
(2π)−n/2 RN
Théorème 22.62. L’application u 7−→ ũ est une isométrie de L2 (RN ) sur lui-même.
On peut définir l’espace H 1 (RN ) à l’aide de la transformée de Fourier, ce que nous pré-
sentons ici comme un thérorème si l’on prend la définition 22.10, page 219 comme référence.
Théorème 22.63. L’espace H 1 (RN ) est l’ensemble des fonctions u de L2 (RN ) telles que
1/2
1 + |ξ|2 ũ ∈ L2 (RN ).
Nous démontrons à présent le théorème de Rellich 22.42 déjà énoncé à la page 228.
Théorème 22.64. Soit Ω un domaine borné de frontière lipschitzienne. L’injection de H 1 (Ω)
dans L2 (Ω) est compacte.
Démonstration: On considère une suite (un ) bornée dans H 1 (Ω). On note P l’opérateur de
prolongement de la proposition 22.27, page 225. On choisit P de telle sorte que P v soit nul à
l’extérieur d’un borné K, pour tout v ∈ H 1 (Ω). On conserve la notation (un ) pour désigner
l’image par P de la suite initiale. D’après le théorème 20.32, page 204, on peut en extraire une
sous-suite qui converge faiblement dans H 1 (RN ). On notera toujours (un ) cette sous-suite.
Quitte à translater la suite, on suppose que la limite faible est 0. On écrit à présent, pour
tout M ≥ 0
Z Z Z Z
1
kun k2L2 = kũn k2L2 = |ũn |2 + |ũn |2 ≤ |ũn |2 + 1 + |ξ|2 |ũn |2 .
|ξ|<M |ξ|>M |ξ|<M 1 + M2 |ξ|>M
Le second terme tend vers 0 quand M tend vers +∞. Il suffit donc de montrer que, pour M
fixé, le premier terme tend vers 0. On a, pour tout ξ,
Z Z
1 −iξ · x 1
ũn (ξ) = e un (x) dx = χK e−iξ · x un (x) dx,
(2π)−n/2 RN (2π)−n/2 RN
où χK est la fonction caractéristique de K (de telle sorte que χK e−iξ · x est dans L2 (R)),
Cette quantité tend donc vers 0 quand n tend vers +∞ d’après la convergence faible de un
vers 0 dans L2 . Comme par ailleurs |ũn (ξ)|2 est majoré par une constante, le théorème de
convergence dominée assure donc la convergence de |ũn (ξ)|2 vers 0 dans L1 (B(0, M )). On a
donc bien convergence vers 0 de kun kL2 .
234
22.9 Approche Hdiv
Nous décrivons ici une approche qui permet de donner un sens aux équations de type
problème de Poisson comme identité entre fonctions de L2 sans passer par la régularité H 2 .
On dit alors que v admet une divergence faible dans L2 (Ω), et l’on écrit ∇ · v = q.
définie sur D(Ω). Comme elle est continue pour la norme L2 (Ω) d’après l’hypothèse, cette
forme se prolonge par densité en une forme linéaire continue sur L2 (Ω). Comme il s’agit d’un
espace de Hilbert, cette forme admet un représentant q ∈ L2 (Ω).
Proposition 22.67. L’espace Hdiv est un espace de Hilbert pour le produit scalaire
Z Z
(u, v)Hdiv = u·v + (∇ · u) (∇ · v) .
Ω Ω
d’où l’on déduit que u est dans Hdiv , avec ∇ · u = q. On vérifie immédiatement la convergence
de un vers u pour la norme de Hdiv .
Remarque 22.68. On peut identifier la trace normale d’un champ de Hdiv à un élément du
dual topologique de H 1/2 . On considère Ω un ouvert de frontière Γ Lipschitzienne et bornée.
L’application qui à u ∈ D(Ω) associe la restriction à Γ de la quantité ∇u · n peut être identifiée
à un élément du dual de H 1 (Ω) grâce au fait que, pour toute fonction ϕ ∈ D(Ω),
Z Z Z
ϕu · n = ϕ∇ · u + u · ∇ϕ.
Γ Ω Ω
R
L’application ϕ 7→ Γ ϕu · n se prolonge donc par continuité en une forme linéaire continue
sur H 1 (Ω), que nous noterons ψu . Vérifions que < ψu , v > ne dépend que de la valeur de
v sur le bord. Il suffit pour cela de vérifier que H01 est dans le noyau de Ψu . Considérons
235
donc v ∈ H01 (Ω). D’après la proposition 22.33, v s’écrit comme limite de fonctions vn dans
D(Ω). On note ωn le support de vn . En admettant que la propriété de densité 22.18, page 222,
s’étend à Hdiv c’est-à-dire qu’il existe un ∈ D(Ω)N tel que
on obtient hΨu , vi = 0. La forme linéaire s’annule donc sur H01 , et par suite elle peut être
vue comme une forme linéaire sur l’espace quotient H 1 /H01 que nous avons défini comme
H̃ 1/2 . Comme H̃ 1/2 s’identifie à H 1/2 dans le cas d’une frontière Lipschitz (par l’isométrie
ṽ ∈ H̃ 1/2 7→ γv), on a bien donné un sens à u · n sur Γ en tant qu’élement du dual de H 1/2 (Γ).
On écrira ainsi
u · n|Γ ∈ H −1/2 (Γ),
en prenant bien garde au fait qu’il s’agit d’une identification faite selon le procédé ci-dessus.
Il est en particulier illicite d’écrire “presque partout” à côté d’une égalité identifiant deux
élements de cet espace.
Cela implique que ∇v possède une divergence faible L2 . Si l’on décide de désigner par △
l’opérateur ∇ · ∇, à valeurs dans L2 (Ω), défini sur l’ensemble des champs de H 1 (Ω) dont le
gradient admet une divergence L2 , alors on peut écrire
−△u = f p.p.
D’après la remarque qui précède, on peut aussi donner un sens à la trace normale du gradient
∂u/∂n, non pas en tant que fonction, mais en temps que forme linéaire sur l’espace H 1/2 (Γ)
des traces des fonctions de H 1 .
22.10 Exercices
1) Montrer que l’infimum est atteint en un point unique, et que la fonction u qui réalise le
minimum est solution (sur Ω \ ω) du problème aux limites
−∆u = 0 dans Ω \ ω,
u = 0 sur ∂Ω,
u = 1 sur ∂ω.
236
2) Montrer que la fonction qui réalise l’infimum ne dépend que du rayon ρ (distance à l’ori-
gine).
∂ 2 v (d − 1) ∂v
∆v(ρ) = + .
∂ρ2 ρ ∂ρ
4) Dans quel sens peut on dire qu’un point est de capacité nulle pour les dimensions 2 et 3 ?
5) (Cette dernière question vise à préciser le fait qu’il est impossible de donner un sens à la
valeur ponctuelle d’une fonction de H 1 (Rd ) dès que d ≥ 2.)
Montrer que, pour d = 2 et d = 3, l’ensemble des fonctions C ∞ à support compact dans Rd
privé d’un point est dense dans H 1 (Rd ).
237
23 Optimisation sous contrainte
Proposition 23.3. Soit U un ouvert d’un espace de Hilbert H, et J une fonctionnelle diffé-
rentiable. Si u est un minimum local de J sur U , alors ∇J(u) = 0.
Proposition 23.4. Soit U un ouvert convexe d’un espace de Hilbert, et J une fonctionnelle
différentiable et convexe. Si ∇J(u) = 0, alors u est un minimum global de J sur U . Si la
fonctionnelle est strictement convexe, ce minimiseur est unique.
K = u0 + ker B , B ∈ MN d (R).
238
Démonstration. Pour tout v ∈ ker B de norme ≤ 1, tout ε assez petit, on a
(ker B)⊥ = im B ⋆ .
Si l’image de B est fermée (ce qui est équivalent au fait que l’image de B ⋆ soit fermée d’après
la proposition 19.22, page 194), on aura bien existence d’un λ ∈ Λ comme dans la proposition
ci-dessus (on identifie Λ à son dual) :
Proposition 23.7. Soit J une fonctionnelle C 1 sur un ouvert U d’un espace de Hilbert V .
On considère
K = u0 + ker B,
avec B ∈ L (V, Λ) à image fermée. Si u est un minimiseur local de J sur U ∩ K, alors il
existe λ ∈ Λ tel que
∇J(u) + B ⋆ λ = 0
Bu = Bu0 .
Remarque 23.8. Dans le cas où l’image de B n’est pas fermée, il est possible qu’un tel λ
n’existe pas. On pourra en revanche toujours trouver une suite (λε ) telle que
∇J(u) + B ⋆ λε = o(1).
239
Proposition 23.9. (Muliplicateurs de Lagrange, contraintes d’égalité)
Soit J : U ⊂ Rd −→ R une fonctionnelle C 1 sur l’ouvert U . Soit u un point de U ∩ K
en lequel J réalise un minimum local de J sur U ∩ K. On suppose que les gradients des
fonctionnelles ϕi forment une famille libre. Il existe alors λ1 , . . ., λN , tels que
N
X
∇J(u) + λi ∇ϕi (u) = 0.
i=1
Démonstration. Le point clé consiste à montrer que tout vecteur h orthogonal à tous les
∇ϕi (u), est une direction admissible en u, c’est à dire qu’il existe η(t) défini dans un voisinage
de 0, avec η(0) = 0, tel que u + η(t) ∈ K, et que la tangente en 0 soit h, c’est à dire que
η̇(0) = h. Si cette propriété est vraie, alors on peut écrire pour tout h orthogonal aux ∇ϕi (u),
et η une trajectoire associée selon les considérations précédentes,
∇J · η̇(0) = ∇J · h = 0.
Le gradient de J est ainsi orthogonal à l’orthogonal de vect(∇ϕi (u))i , ce qui termine la preuve.
Montrons maintenant que tout vecteur h orthogonal à tous les ∇ϕi (u), est une direction
admissible en u.
On notera γk l’application qui ne dépend que de xk et des yi , les autres xj étant fixés à 0.
Pour construire une courbe dans K qui passe par u, dont la tangente en u est hk , on considère
l’application
(xk , y1 , y2 , . . . , yN ) 7−→ ϕ ◦ γk (xk , y1 , . . . , yN ),
où l’on note ϕ(v) le vecteur de dimension N dont les composantes sont les ϕi (v). Comme
u ∈ K, l’application ϕ ◦ γk est nulle en 0. Montrons que l’on peut utiliser le théorème
des fonctions implicites pour construire une courbe (y1 , . . . , yN ) = y = y(xk ) au voisinage de
(xk , y) = 0 qui annule ϕ◦γk , ce qui assurera l’appartenance de γk (xk , y) à K . La différentielle
de la iième composante de ϕ ◦ γk par rapport à yj est
∂(ϕi ◦ γk )
= ∇ϕi (xk , y) · gj = ∇ϕi (xk , y) · ∇ϕj (0, 0).
∂yj
240
Notons G la matrice dont les colonnes sont les gradients des ϕj en γk (0, 0) = u. Le gradient
de l’application ϕ ◦ γk est ainsi GT G, qui est inversible puisque les gi forment une famille
libre.
On a par ailleurs
∂(ϕi ◦ γk ) ∂(ϕ ◦ γk )
= ∇ϕi (xk , y) · hk , d’où |(0,0) = GT hk .
∂xk ∂xk
On peut donc construire une courbe y = y(t) dans un voisinage de 0 telle que
ϕ ◦ γk (t, y(t)) = 0
c’est à dire que la courbe est dans K. La dérivée de y en 0 s’écrit, d’après le théorème des
fonctions implicites,
∂(ϕ ◦ γk ) T −1 T
ẏ(0) = − (∇(ϕ ◦ γk ))−1 = G G G hk
∂xk
qui est nul car hk est orthogonal à tous les gi . On a donc
d
γk (t, y(y))|t=0 = hk + ẏ1 (0)g1 + · · · + ẏN (0)gN = hk ,
dt
ce qui termine la démonstration.
Remarque 23.10. La condition d’indépendance des gradients est essentielle dans la proposi-
tion précédente. On pourra par exemple considérer, dans R2 , ϕ1 (x, y) = y et ϕ1 (x, y) = y−x2 .
L’ensemble K est réduit au point (0, 0), et n’importe quelle fonctionnelle dont le gradient en
(0, 0) n’est pas colinéaire à (0, 1) invalide la proposition.
u − s ∈ C =⇒ λ(u − s) ∈ C ∀λ > 0,
Lorsque le sommet est l’origine 0, on omettra de le préciser. Un cône convexe fermé C (de
sommet 0), est donc un ensemble convexe fermé tel que R+ C ⊂ C.
K ◦ = {v ∈ H , (v, u) ≤ 0 ∀u ∈ K} .
Noter que dans le cas où K est un sous-espace vectoriel de H, l’ensemble K ◦ est simple-
ment l’orthogonal de K. Cette définition est donc une généralisation de la définition 19.20,
page 194.
241
Proposition 23.13. Pour tout K ⊂ H, K ◦ est un cône convexe fermé.
K ◦ = (co(K))◦ = (co(K))◦ .
Comme v décrit un cône de sommet 0, (h, v) est forcément négatif ou nul pour tout v (s’il
prenait une valeur strictement positive, le sup serait +∞, ce qui est exclut par la majoration
ci-dessus). On a donc h ∈ C ◦ . Par ailleurs le maximum de (h, v) est 0, et donc α ≥ 0, d’où
(h, z) > 0 ce qui est absurde car h ∈ C ◦ et z ∈ C ◦◦ .
où les gi sont des points d’un espace de Hilbert H. L’ensemble défini précédemment est
de façon évidente un cône convexe. S’il est immédiat que l’espace vectoriel engendré par
une famille finie de vecteurs est fermée, il est un peu plus délicat de démontrer une telle
propriété de fermeture pour le cône (convexe) engendré par une telle famille. C’est l’objet de
la proposition suivante :
242
Démonstration. Supposons dans un premier temps que les gi forment une famille libre. On
se place dans l’espace vectoriel W engendré par les gi , et l’on note G l’application (linéaire
continue) qui à un vecteur de cet espace associe le vecteur des coefficients dans la base des gi .
P
On considère une suite v k = λki gi qui converge vers v ∈ W . Alors Gv k converge vers Gv,
i.e. le vecteur λk converge vers un vecteur λ de R, dont toutes les composantes sont positives
ou nulle par continuité, on a donc bien v ∈ C.
Si maintenant la famille est liée, on raisonne par récurrence sur le nombre de vecteurs
gi . Supposons que tout cône convexe engendré par n vecteurs est fermé, et considérons une
famille de n + 1 vecteurs. Il existe µ1 , . . ., µn+1 , non tous nuls, tels que
n+1
X
µi gi = 0. (23.2)
i=1
Si l’une des suites (λki )k est bornée, par exemple (λk1 )k , on peut en extraire une sous-suite qui
converge vers λ1 ∈ R+ , et par suite
n+1
X n+1
X
v = lim λki gi = λ1 g1 + lim λki gi .
i=1 i=2
D’après l’hypothèse de récurrence, la limite ci-dessus est dans le cône convexe engendré par
les (gi )2≤i≤n+1 , et par suite v est dans le cône convexe engendré par les (gi )1≤i≤n+1 . Si l’une
des suites est bornée, on montre ainsi que la limite est dans K. Il reste a étudier le cas où
toutes les suites sont non bornées. Quitte à extraire une sous-suite, on peut supposer que
toutes ces suites (de termes positifs ou nuls) tendent vers +∞.
qui est dans le cône convexe engendré par les n vecteurs (gi )i6=i0 (d’après l’hypothèse de
récurrence), donc dans C.
K = {h ∈ H , gi · h ≤ 0 ∀i ∈ I.}
243
L’ensemble des vecteurs qui ont un produit scalaire négatif avec tous les éléments de K est
( )
X
◦
K = λi gi , λi ≥ 0 ∀i .
i∈I
qui, comme cône convexe fermé (d’après la proposition 23.17), s’identifie à son bipolaire
(proposition 23.16). On a donc
K ◦ = C ◦◦ = C.
Remarque 23.19. On peut voir ce lemme de Farkas comme une version unilatérale de la
proposition 19.3, page 191, qui est elle-même une généralisation de la propriété (ker B)⊥ =
ImB ⋆ pour les matrices. Cette proposition assure que si un vecteur g est orthogonal à tout
vecteur h lui-même orthogonal à des vecteurs g1 , . . ., gn , alors g est combinaison linéaire
des gi . Le présent lemme de Farkas est en fait une stricte généralisation (dans le contexte
Hilbertien) de cette proposition, puisqu’il suffit de dédoubler la famille des gi (en rajoutant
−gi ) pour que C soit en fait le sous-espace orthogonal à vect(gi ).
Exercice 23.1. Énoncer et démontrer une version non hilbertienne du lemme de Farkas. On
pourra considérer un e.v.n. E, g1 , . . ., gn des éléments de E, et définir K comme l’ensemble
des f ∈ E ′ négatives contre tout gi .
Contraintes d’inégalité.
244
Démonstration. Soit h vérifiant ∇ϕi (u) · h < 0 pour toute contrainte i active en u (avec
éventuellement égalité pour une contrainte affine). Pour t > 0 suffisamment petit, on a u+th ∈
K, et donc
J(u + th) ≥ J(u) ∀t ∈ [0, t⋆ [,
d’où
J(u) + t∇J(u) · h + o(t) ≥ ∇J(u),
et donc nécessairement
∇J(u) · h ≥ 0.
Pour tout h tel que l’on ait simplement l’inégalité au sens large ∇ϕi (u) · h ≤ 0, on a la même
propriété. En effet, considérons un h⋆ pour lequel on a les inégalités strictes, on préserve les
inégalités strictes pour (1 − ε)h + εh⋆ , d’où
C ◦ = {h ∈ H , ∇ϕi · h ≤ 0}
qui s’identifie à
X
C= λi ∇ϕi (u) , λi ≥ 0
i∈Iu
d’après le lemme de Farkas (proposition 23.18). Il existe donc des λi positifs ou nuls tels que
X
∇J(u) + λi ∇ϕi (u) = 0.
i∈Iu
On obtient une somme sur tous les i en complétant par des multiplicateurs de Lagrange nuls
sur les contraintes non actives.
G(q) = inf L(v, q) ∈ [−∞, +∞[ , F (v) = sup L(v, q) ∈] − ∞, +∞]. (23.4)
v∈V q∈Λ
On a alors
G(q) ≤ F (v) ∀q ∈ Λ , v ∈ V.
245
Definition 23.24. Dans le contexte, et avec les notations, du lemme précédent, on appellera
K = {v ∈ X , ϕi (v) ≤ 0 , ψj (v) = 0 ∀i , j , 1 ≤ i ≤ Nu , 1 ≤ j ≤ Ne }
246
Conformément à la définition 23.25, on dira que (u, p, q) ∈ X × RN
+ ×R
u Ne est point-selle
Proposition 23.28. On considère une fonctionnelle d’un ensemble X dans R, et l’on suppose
que le Lagrangien associé au problème de minimisation de J sur
K = {v ∈ X , ϕi (v) ≤ 0 , ψj (v) = 0 ∀i , j , 1 ≤ i ≤ Nu , 1 ≤ j ≤ Ne }
Nu
X Ne
X Nu
X Ne
X Ne
X Ne
X
J(u)+ p̃i ϕi (u)+ q̃j ψj (u) ≤ J(u)+ pi ϕi (u)+ qj ψj (u) ≤ J(ũ)+ pi ϕi (ũ)+ qj ψj (ũ)
i=1 j=1 i=1 j=1 i=1 j=1
∀p̃ ∈ RN
+ , q̃ ∈ R
u Ne
, ũ ∈ X.
Alors u minimise J sur K, et l’on a pi ϕi (u) = 0 pour tout i.
Si X est un ouvert d’un espace de Hilbert, et que les fonctions J, ϕ1 , . . ., ψNe sont
dérivables, alors on a de plus
Nu
X Ne
X
∇J(u) + pi ∇ϕi (u) + qj ∇ψj (u) = 0.
i=1 j=1
P
Démonstration. D’après la première inégalité du point-selle, la quantité q̃j ψj (u) est bornée
sur RNe , on a donc nécessairement ψj (u) = 0 pour tout j. De la même manière, la quantité
P
p̃i ϕi (u) est bornée sur RN+ , on a donc nécessairement ϕi (u) ≤ 0 pour tout i. On montre
u
ainsi u ∈ K. On a par ailleurs (en utilisant encore cette première inégalité avec p̃ = 0 et
P
q̃j = qj ) 0 ≤ pi ϕi (u). Comme il s’agit d’une somme de termes négatifs ou nuls, tous les
termes sont nuls : pi ϕi (u) = 0, et ainsi pi = 0 dès que ϕi (u) < 0 (la contrainte n’est pas
activée). On utilise maintenant la seconde inégalité :
Nu
X Ne
X Nu
X Ne
X
J(u) = J(u) + pi ϕi (u) + qj ψj (u) ≤ J(ũ) + pi ϕi (ũ) + qj ψj (ũ)
i=1 j=1 i=1 j=1
Si X est un ouvert d’un espace de Hilbert et si les fonctions impliquées dans le problème
(fonctionnelle à minimiser et fonctions définissant les contraintes) sont régulières, alors la
fonctionnelle
Nu
X Ne
X
v 7−→ ∇J(v) + pi ∇ϕi (v) + qj ∇ψj (v)
i=1 j=1
est régulière, et le fait que u la minimise implique que son gradient soit nul en u (proposi-
tion 23.3), ce qui conclut la démonstration.
247
Théorème 23.29. (Kuhn et Tucker)
On considère un ouvert convexe U de Rd , J convexe différentiable sur U , et l’ensemble
admissible
K = {v , ϕi (u) ≤ 0 , 1 ≤ i ≤ N } .
On suppose les ϕi différentiables et convexes sur U .
N
X
u ∈ U ∩ K , p · ϕ(u) = 0 , ∇J(u) + pi ∇ϕi (u) = 0. (23.6)
i=1
Démonstration. Il suffit d’écrire chaque contrainte d’égalité comme deux contraintes d’inéga-
lité.
23.5 Compléments
Proposition 23.31. On considère une fonctionnelle d’un ensemble X dans R, et l’on suppose
que le Lagrangien associé au problème de minimisation de J sur
K = {v ∈ V , ϕi (v) ≤ αi , 1 ≤ i ≤ n} ,
admet un point-selle pour tout α = (αi )1≤i≤n dans un voisinage de 0, i.e.
X X X
J(uα )+ p̃αi (ϕi (uα ) − αi ) ≤ J(uα )+ pαi (ϕi (uα ) − αi ) ≤ J(ũα )+ pαi (ϕi (ũα ) − αi ) ∀p̃ ≥ 0 , ũ ∈ X.
On note m(α) la valeur du minimum correspondant aux contraintes α. On a
m(α) ≥ m(0) − p0 · α.
Si la fonction α 7−→ m(α) est dérivable, alors
∂m
pi = − .
∂αi
248
Démonstration. On a (d’après la seconde inégalité qui caractérise (u0 , p0 ) comme point-selle)
n
X n
X n
X n
X
m(0) = J(u0 ) = J(u0 )+ p0i ϕi (u0 ) ≤ J(uα )+ p0i ϕi (uα ) = J(uα )+ p0i (ϕi (uα ) − αi )+ p0i αi
i=1 i=1 i=1 i=1
qui est (d’après la première inégalité qui caractérise (uα , pα ) comme point-selle) plus petit
que
X n
X n
X
J(uα ) + pαi (ϕi (uα ) − αi ) + p0i αi = J(uα ) + p0i αi
i=1 i=1
d’où
∇m(0) · α + o(1) ≥ −p0 · α,
pour tout α décrivant un voisinage symétrique de 0. On a donc bien ∇m = −p0 .
23.6 Illustrations
où A est (à une constante multiplicative près) la matrice du Laplacien discret avec conditions
de Neuman. Tout point diagonal (x, x, . . . , x) de Rn+1 minimise cette énergie. On s’intéresse
maintenant à la situation où la masse 0 est fixée au point x0 = 0, et la masse n au point
xn = L > 0. Il s’agit donc maintenant de minimiser J sur l’espace affine
La matrice B s’écrit !
1 0 ... 0 0
B= .
0 0 ... 0 1
∇J(x) + B ⋆ λ = 0.
249
Écrivons les première et dernière lignes de ce système :
k(x0 − x1 ) + λ0 = 0
k(−xn−1 + xn ) + λ1 = 0.
Ces relations expriment l’équilibre des masses extrêmales, et permettent d’interpréter −λ0
(resp. −λ1 ) comme la force exercée par le support en 0 sur la masse 0 (resp. par le support
en 1 sur la masse n). On peut préciser la configuration minimisante en notant que, pour
i = 1, . . . , n − 1, on a
xi+1 − xi = xi − xi−1 ,
de telle sorte que les longueurs des ressorts sont toutes identiques, égales L/n, et ainsi
λ0 = −λ1 = kL/n.
Cet exemple permet aussi d’illustrer et d’interpréter mécaniquement une méthode très
utilisée en pratique, la méthode de pénalisation. Elle consiste à relaxer la contrainte, et à
ajouter à la fonctionnelle à minimiser un terme supplémentaire qui pénalise la non vérification
des contraintes. Dans l’exemple considéré, elle consiste à considérer la fonctionnelle
n
1 X 1
Jε (x) = k |xi − xi−1 |2 + |x0 |2 + |xn − L|2 .
2 i=1 2ε
Noter que cela revient à supposer les masses 0 et n attachées à des supports respectivement
en 0 et L par des ressorts dont la raideur 1/ε tend vers l’infini.
Remarque 23.32. Noter que la manière d’écrire les contraintes n’est pas unique. On peut
rajouter par exemple xn − x0 = L. On aura alors un troisième multiplicateur de Lagrange, qui
correspondrait à la tension (positive ou négative) au sein d’une barre rigide qui relierait les
points extrêmaux. La non unicité met en évidence le fait concret qu’il est a priori impossible de
prévoir la tension effective au sein de ce raidisseur, ainsi que l’effort au niveau des supports.
Dans la réalité, il peut se produire par exemple que seuls les supports fixes soient actifs,
jusqu’à ce que l’un d’entre eux se détériore et finisse par lâcher, pour être relayé par le
raidisseur, sans que rien ne transparaisse au niveau de ce que nous appelerons par la suite les
variables primales (i.e. les positions des ressorts). On parlera dans un contexte mécanique de
situation hyperstatique (il y a trop de contrainte), par opposition aux situations isostatiques
(jeu minimal de contraintes assurant l’unicité des multiplicateurs de Lagrange). On notera
qu’il y a un lien fort entre l’expression mathématique d’un ensemble de contraintes et les
moyens que l’on pourrait se donner pour les réaliser en pratique.
L’exemple du pont rigide entre les points extrémaux évoqué plus haut est un peu caricatural
car la troisième contrainte est manifestement redondante. Dans des situations plus compli-
quées pourtant, il peut ne pas être aisé de supprimer des contraintes pour parvenir à un jeu
minimal équivalent qui assurera l’unicité des multiplicateurs de Lagrange (comme dans le mo-
dèle de prise en compte de la congestion pour les foules, présenté dans la section 3.2, page 39,
en lien avec la figure 3.4). D’autre part certains systèmes réels très courants conduisent à une
non unicité. Ainsi, pour la chaise à 4 pieds posés sur un sol horizontal, on aura un multipli-
cateur de Lagrange associé à chacun des 4 contacts avec le sol. Or 3 contacts suffisent pour
que la chaise ne rentre pas dans le sol (nous ne considérons pas ici les questions de stabilité).
Il est ainsi impossible de prévoir, même si l’on dispose de toutes les informations, quel est
l’effort au niveau de chacun des pieds d’une chaise parfaitement équilibrée. Dans la pratique,
ces efforts sont susceptibles de changer au cours du temps de façon très irrégulière.
250
Remarque 23.33. Cet exemple permet d’illustrer et d’interpréter mécaniquement une mé-
thode très utilisée en pratique, la méthode de pénalisation. Elle consiste à relaxer la contrainte,
et à ajouter à la fonctionnelle à minimiser un terme supplémentaire qui pénalise la non véri-
fication des contraintes. Dans l’exemple considéré, elle consiste à considérer la fonctionnelle
n
1 X 1
Jε (x) = k |xi − xi−1 |2 + |x0 |2 + |xn − L|2 .
2 i=1 2ε
Noter que cela revient à supposer les masses 0 et n attachées à des supports respectivement
en 0 et L par des ressorts dont la raideur 1/ε tend vers l’infini.
Exercice 23.2. On considère un “agent” à qui est offerte la possibilité d’acquérir des biens
1,. . .,n. Les biens sont caractérisés par des fonctions d’utilité p 7→ uj (p) qui quantifient la
satisfaction qu’il retire en consacrant la part p de son capital à l’achat de biens de type j. On
considère qu’il dispose d’un capital P , et qu’il cherche à maximiser sa satisfaction maximale
X n
X
max uj (pj ) , pj ≤ P.
j=1
(On pourra intégrer la possibilité de conserver une partie de son capital en définissant un bien
“vide” qui correspond à l’absence d’achat, ou tout du moins à la préservation d’une partie du
capital.) Faire l’étude de ce problème d’optimisation.
On pourra notamment étudier le cas où les fonctions d’utilité sont concaves régulières
croissantes sur [0, +∞[, nulles en 0, par exemple uj (p) = αj log(1 + p), et étudier comment
la stratégie optimale varie en fonction de P .
251
A Compléments théoriques
On rappelle ici quelques formules d’intégration par partie. On supposera tous les champs
réguliers . L’extension de ces formules à des champs scalaires ou vectoriel moins réguliers doit
faire l’objet d’une vérification qui n’est pas traitée ici.
115. Cette hypothèse reflète le caractère assez peu naturel de cette notation. C’est un peu comme si, pour
une fonction x 7−→ f (x), avec x = (x1 , x2 ) = x1 e1 + x2 e2 ∈ R2 , on écrivait ∂f /∂e1 la dérivée de f par rapport
à x1 . Pour pousser plus loin cette remarque, précisons qu’il existe une situation dans laquelle cette notation
serait justifiée, mais pour désigner quelque chose de très différent à l’usage. On considère une partie de Rd ,
strictement convexe au sens où tout point de la frontière est extrémal, et une fonction définie sur cette frontière
§que l’on suppose régulière, même si cela n’est pas vraiment nécessaire). Du fait de la stricte convexité, si l’on
se donne un vecteur unitaire , il existe un unique point de la frontière tel que la normale en se point corresponde
à ce vecteur, on peut donc écrire la fonction comme une fonction de n, et considérer la différentielle de f par
rapport à n.
252
Noter que |A| = (A : B)1/2 est une norme euclidienne sur l’espace des matrices (appelée
norme de Frobenius). Pour u et v deux champ de vecteurs
∂u1 ∂u1 ∂v1 ∂v1
2 X 2
∂x1 ∂x2
∂x1 ∂x2 X
∂ui ∂vi
∇u : ∇v = : = .
∂u2 ∂u2 ∂v2 ∂v2
i=1 j=1
∂xj ∂xj
∂x1 ∂x2 ∂x1 ∂x2
Soit σ un champ de matrices (ou de tenseurs). Sa divergence est un vecteur, dont chaque
composante est la ligne de la matrice correspondante
∂σ11 ∂σ12
σ11 σ12
! +
∂x1 ∂x2
∇·σ = ∇· =
σ21 σ22 ∂σ21 ∂σ22
+
∂x1 ∂x2
Si ∇ · u = 0, on a
∂u1 ∂u1
u1 + u2
∂x1 ∂x2
∇ · (u ⊗ u) = (u · ∇) u =
∂u2 ∂u2
u1 + u2
∂x1 ∂x2
Toujours sous la condition ∇ · u = 0,
!
|u|2
(∇ · (u ⊗ u)) · u = ((u · ∇) u) · u = ∇ · u .
2
Si ∇ · u = 0, alors
∇ · t ∇u = 0.
En conséquence, si ∇ · u = 0, alors
∇ · ∇u + t ∇u = ∇ · ∇u = ∆u.
253
Soit q un champ scalaire. On a
Z Z
∇q = qn. (A.3)
Ω Γ
En conséquence, si ∇ · u = 0, alors
Z Z Z
∆u · v + ∇u : (∇v + t ∇v) = v · ∇u + t ∇u · n. (A.9)
Ω Ω Γ
Soit ω un système matériel advecté par le champ de vitesse u(x, t), et F (x, t) une fonction
scalaire. On a Z Z Z
d ∂F
F (x, t) = − F (x, t)u · n. (A.12)
dt ω(t) ω(t) ∂t ∂ω(t)
254
Proposition A.1. Soient u et v deux champs de vecteurs réguliers définis sur Ω. On suppose
que u est à divergence nulle. On a alors
Z Z
t t
0=− ∇u : ∇v + v· ∇u · n
ω ∂ω
Démonstration. On écrit
Z Z Z
t
v· ∇u · n = n · (∇u · v) = ∇ · (∇u · v)
∂ω ∂ω ω
X X XX X X
= ∂i vj ∂j ui = ∂i vj ∂j ui + vj ∂j ∂i ui .
i j i j j i
Le second terme ci-dessus est nul car u est à divergence nulle, d’où l’on déduit l’identité
annoncée.
Démonstration: On a
Z Z
(∇u · v) · n = ∇ · (∇u · v)
Γ ZΩ X X
= ∂i vj ∂j ui
Ω i j
Z XX
= ((∂i ∂jui )vj + ∂j ui ∂i vj )
Ω i j
Z Z
= v (∇∇ · u) + ∇u : t ∇v
ZΩ ZΩ Z
= (∇ · u) v · n − (∇ · u) (∇ · v) + ∇u : t ∇v
Ω Ω Ω
Definition A.3. Une matrice A = (aij ) ∈ Mn (C) est dite à diagonale strictement dominante
si X
|aii | > |aij | ∀i = 1, . . . , n.
j6=i
255
A.3 Chaines de Markov
En numérotant les points de V : 1, 2, . . ., N, on peut voir K comme une matrice de MN ([0, 1]).
La somme des éléments de chaque ligne vaut 1, une telle matrice est dite stochastique.
La matrice t K peut être interprétée de la façon suivante : si l’on considère une variable
aléatoire X0 suivant la loi p = t (p1 , p2 , . . . , pn ), que l’on note X1 la variable obtenue après un
pas construit suivant les probabilités de transition définie ci-dessus, alors
X X
P(X1 = i) = K(j, i)P(X0 = j) = K(j, i)pj ,
j j
q = t Kp.
Noter que toute application de l’ensemble à N éléments vers lui même peut être représen-
tée par une matrice qui ne contient que des 0 et des 1, avec exactement un “1” par colonne.
La transposée d’une matrice stochastique est ainsi combinaison convexe de telles matrices :
on peut voir toute chaine de Markov sur un espace à n états comme la généralisation d’une
application qui a un point associe un point : chaque point (considéré comme étant de masse
unitaire) peut être distribué sur plusieurs autres points, de façon à ce que la masse soit
conservée. Cette matrice exprime ainsi un transport de mesure : si l’on se donne une mesure
de probabilité sur l’ensemble à n points, p = t (p1 , p2 , . . . , pn ), la mesure t Kp est la mesure
image (ou push-forward) de p par le transport.
Si l’on se place dans le cas où le point initial X0 suit la loi associée à π, alors X1 suite la
même loi, ainsi que tous les Xn (sans bien sûr que que les Xn soient indépendants).
256
Théorème A.8. (Perron-Frobenius)
Soit K la matrice de transition d’une chaı̂ne de Markov irréductible. Alors toutes les valeurs
propres de K sont de module inférieur ou égal à 1, 1 est valeur propre de t K, et c’est une
valeur propre simple. Elle admet pour vecteur propre une mesure π sur V , avec p(x) > 0 pour
tout x ∈ V , qui se trouve de fait être l’unique mesure stationnaire.
Noter que, dans le théorème précédent, il peut exister d’autres valeurs propres de module
égal à 1. L’unicité de 1 comme v.p. de plus grand module est en revanche assurée si l’on
suppose la matrice primitive, i.e. qu’il existe k t.q. Ak a tous ses coefficients strictement
positifs.
La matrice
2 −1 0 · · 0
−1 2 −1 0 · ·
0 −1 · · ·
A= ∈ MN −1 (R) (A.13)
· · · · ·
·
· 2 −1
0 · · 0 −1 2
possède N − 1 valeurs propres distinctes
2 kπ
λk = 4 sin , k = 1 , . . . , N − 1.
2N
Le vecteur propre associé à la valeur propre λk s’écrit
kπ 2kπ (N − 1)kπ
uk = t sin , sin , . . . , sin .
N N N
257
Références
[1] G. Allaire, Analyse numérique et optimisation, Publications Ecole Polytechnique, No 15,
Ellipses Paris, 2005.
[2] H. Brezis, Analyse Fonctionnelle, Théorie et Applications, Masson 1983.
[3] H. Brezis, Opérateurs maximaux monotones et semi–groupes de contraction dans les
espaces de Hilbert, North Holland publishing company 1973.
[4] V. Girault, P.A. Raviart, Finite Element Methods for Navier-Stokes Equations- Theory
and Algorithms Springer Verlag, Berlin, 1986.
[5] B. Maury, Analyse Fonctionnelle, exercices et problèmes corrigés, Ellipses, Paris, 2004.
[6] P.-A. Raviart, J.M. Thomas, Introduction à l’Analyse Numérique des Équations aux
Dérivées Partielles, Masson, Paris, 1983.
[7] F. Santambrogio, Optimal Transport for Applied Mathematicians, Progress in Nonlinear
Differential Equations and Their Applications, Vol. 87, Birkhäuser Basel, 2015.
[8] C. Villani, Topics in optimal transportation, American Mathematical Soc, Vol. 58, 2003.
258